据动察 Beating 监测,DeepSeek V4 技術報告披露,V4-Flash 和 V4-Pro 分别在 32T 和 33T tokens 上預訓練,較 V3 的約 15T tokens 翻倍。報告坦承訓練過程中「遭遇了顯著的不穩定性挑戰」,loss spike(訓練損失突然飆升)反覆出現,根源在於 MoE 層的異常值,路由機制本身還會加劇這些異常值,簡單回滾無法根治。
DeepSeek 找到兩個方案並已應用於實際訓練:Anticipatory Routing(預見性路由),將路由索引計算與主幹網路更新解耦,僅在檢測到 loss spike 時自動觸發,額外開銷約 20%;SwiGLU Clamping,將激活值鉗位到固定範圍直接壓制異常值。報告稱兩者均有效,但承認「底層原理尚未充分理解」。
谷歌 DeepMind 研究員 Susan Zhang(曾供職於 Meta AI 和 OpenAI)評論稱,訓練數據翻倍後引發的不穩定性「解釋了延遲」,將這兩個方案形容為「創口貼」,同時肯定了 DeepSeek 的技術透明度。