header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

DeepMind研究員推測DeepSeek V4延遲原因:訓練數據翻倍至33T引發嚴重不穩定

动察 Beating 监测,DeepSeek V4 技術報告披露,V4-Flash 和 V4-Pro 分别在 32T 和 33T tokens 上預訓練,較 V3 的約 15T tokens 翻倍。報告坦承訓練過程中「遭遇了顯著的不穩定性挑戰」,loss spike(訓練損失突然飆升)反覆出現,根源在於 MoE 層的異常值,路由機制本身還會加劇這些異常值,簡單回滾無法根治。

DeepSeek 找到兩個方案並已應用於實際訓練:Anticipatory Routing(預見性路由),將路由索引計算與主幹網路更新解耦,僅在檢測到 loss spike 時自動觸發,額外開銷約 20%;SwiGLU Clamping,將激活值鉗位到固定範圍直接壓制異常值。報告稱兩者均有效,但承認「底層原理尚未充分理解」。

谷歌 DeepMind 研究員 Susan Zhang(曾供職於 Meta AI 和 OpenAI)評論稱,訓練數據翻倍後引發的不穩定性「解釋了延遲」,將這兩個方案形容為「創口貼」,同時肯定了 DeepSeek 的技術透明度。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成