header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

Yifan Zhang披露DeepSeek V4完整技術規格:1.6T參數、384專家激活6個

動察 Beating 監測,普林斯頓博士生 Yifan Zhang 在 X 更新了 DeepSeek V4 的技術細節。他 4 月 19 日預告「V4 下周」並列出三個架構組件名稱,今晚給出了完整參數表,同時首次披露存在一個 285B 參數的輕量版 V4-Lite。

V4 總參 1.6T。注意力機制為 DSA2,結合了 DeepSeek 此前在 V3.2 中使用的 DSA(DeepSeek Sparse Attention)和今年初論文提出的 NSA(Native Sparse Attention)兩種稀疏注意力方案,head-dim 512,配合 Sparse MQA 和 SWA(滑動窗口注意力)。MoE 層共 384 個專家,每次激活 6 個,使用 Fused MoE Mega-Kernel。殘差連接沿用 Hyper-Connections。

訓練端首次披露的細節包括:優化器用 Muon(一種將 Newton-Schulz 正交化應用於動量更新的矩陣級優化器),預訓練上下文長度 32K,強化學習階段用 GRPO 並加入 KL 散度校正。最終上下文長度擴展至 1M。模態為純文本。

Zhang 不在 DeepSeek 任職,DeepSeek 官方未對上述信息做出回應。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成