据動察 Beating 監測,普林斯頓博士生 Yifan Zhang 在 X 更新了 DeepSeek V4 的技術細節。他 4 月 19 日預告「V4 下周」並列出三個架構組件名稱,今晚給出了完整參數表,同時首次披露存在一個 285B 參數的輕量版 V4-Lite。
V4 總參 1.6T。注意力機制為 DSA2,結合了 DeepSeek 此前在 V3.2 中使用的 DSA(DeepSeek Sparse Attention)和今年初論文提出的 NSA(Native Sparse Attention)兩種稀疏注意力方案,head-dim 512,配合 Sparse MQA 和 SWA(滑動窗口注意力)。MoE 層共 384 個專家,每次激活 6 個,使用 Fused MoE Mega-Kernel。殘差連接沿用 Hyper-Connections。
訓練端首次披露的細節包括:優化器用 Muon(一種將 Newton-Schulz 正交化應用於動量更新的矩陣級優化器),預訓練上下文長度 32K,強化學習階段用 GRPO 並加入 KL 散度校正。最終上下文長度擴展至 1M。模態為純文本。
Zhang 不在 DeepSeek 任職,DeepSeek 官方未對上述信息做出回應。