Yifan Zhang披露DeepSeek V4完整技術規格：1.6T參數、384專家激活6個

据動察 Beating 監測，普林斯頓博士生 Yifan Zhang 在 X 更新了 DeepSeek V4 的技術細節。他 4 月 19 日預告「V4 下周」並列出三個架構組件名稱，今晚給出了完整參數表，同時首次披露存在一個 285B 參數的輕量版 V4-Lite。

V4 總參 1.6T。注意力機制為 DSA2，結合了 DeepSeek 此前在 V3.2 中使用的 DSA（DeepSeek Sparse Attention）和今年初論文提出的 NSA（Native Sparse Attention）兩種稀疏注意力方案，head-dim 512，配合 Sparse MQA 和 SWA（滑動窗口注意力）。MoE 層共 384 個專家，每次激活 6 個，使用 Fused MoE Mega-Kernel。殘差連接沿用 Hyper-Connections。

訓練端首次披露的細節包括：優化器用 Muon（一種將 Newton-Schulz 正交化應用於動量更新的矩陣級優化器），預訓練上下文長度 32K，強化學習階段用 GRPO 並加入 KL 散度校正。最終上下文長度擴展至 1M。模態為純文本。

Zhang 不在 DeepSeek 任職，DeepSeek 官方未對上述信息做出回應。

原文鏈接

糾錯/舉報