DeepMind研究員推測DeepSeek V4延遲原因：訓練數據翻倍至33T引發嚴重不穩定

据动察 Beating 监测，DeepSeek V4 技術報告披露，V4-Flash 和 V4-Pro 分别在 32T 和 33T tokens 上預訓練，較 V3 的約 15T tokens 翻倍。報告坦承訓練過程中「遭遇了顯著的不穩定性挑戰」，loss spike（訓練損失突然飆升）反覆出現，根源在於 MoE 層的異常值，路由機制本身還會加劇這些異常值，簡單回滾無法根治。

DeepSeek 找到兩個方案並已應用於實際訓練：Anticipatory Routing（預見性路由），將路由索引計算與主幹網路更新解耦，僅在檢測到 loss spike 時自動觸發，額外開銷約 20%；SwiGLU Clamping，將激活值鉗位到固定範圍直接壓制異常值。報告稱兩者均有效，但承認「底層原理尚未充分理解」。

谷歌 DeepMind 研究員 Susan Zhang（曾供職於 Meta AI 和 OpenAI）評論稱，訓練數據翻倍後引發的不穩定性「解釋了延遲」，將這兩個方案形容為「創口貼」，同時肯定了 DeepSeek 的技術透明度。

原文鏈接

糾錯/舉報