今日,DeepSeek 宣布開源 V4 系列預覽版,權重已同步上架 Hugging Face 和 ModelScope,採用 MIT 許可協議。系列包含兩款 MoE 模型:V4-Pro(總參數 1.6T,每 token 激活 49B/490 億)和 V4-Flash(總參數 284B/2840 億,激活 13B/130 億),兩款均支持 1M token 上下文。
架構層面有三項關鍵升級:
· 混合注意力機制,包含壓縮稀疏注意力 CSA 和重度壓縮注意力 HCA,大幅降低長上下文開銷。在 1M 上下文下,V4-Pro 單 token 推理 FLOPs 僅為 V3.2 的 27%,KV 快取佔用僅為 V3.2 的 10%。
· 流形約束超連接(mHC)替代傳統殘差連接,增強跨層信號傳播穩定性。
· 訓練改用 Muon 優化器加速收斂。預訓練數據總量超過 32T token。
後訓練分兩階段:先用 SFT 和 GRPO 強化學習分別訓練各領域專家,再通過線上蒸餾統一合併成一個模型。
V4-Pro 的最高推理力度模式稱為 V4-Pro-Max。官方技術報告將其與 Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1 Pro High 以及開源的 Kimi K2.6、GLM-5.1 進行對比(不含剛發布的 Opus 4.7 和 GPT-5.5,最終差距待第三方驗證)。
編碼方面,V4-Pro-Max 在 Codeforces 拿到 3206 分,超過 GPT-5.4 的 3168 和 Gemini 3.1 Pro 的 3052,刷新該基準紀錄。LiveCodeBench 得分 93.5,同樣全場最高。SWE Verified 得分 80.6,僅低於 Opus 4.6 的 80.8,差 0.2 個百分點。
在長篇文本方面,兩個 1M 基準均排第二:CorpusQA 1M 得分 62.0(Opus 4.6 為 71.7),MRCR 1M 得分 83.5(Opus 4.6 為 92.9)。
在 Agent 任務方面,MCPAtlas Public 得分 73.6,僅低於 Opus 4.6 的 73.8;Terminal-Bench 2.0 得分 67.9,低於 GPT-5.4 的 75.1 和 Gemini 3.1 Pro 的 68.5。
在知識與推理方面仍存在明顯差距:GPQA Diamond 90.1(Gemini 94.3)、SimpleQA-Verified 57.9(Gemini 75.6)、HLE 37.7(Gemini 44.4)。
作為開源模型,V4-Pro-Max 在多項編碼和長篇文本基準上首次追平甚至超過部分閉源旗艦,但在知識密集型評測上仍落後於 Gemini 3.1 Pro。
DeepSeek 罕見公開了內部 dogfooding 資料。團隊從 50 餘名工程師收集約 200 個真實研發任務,覆蓋功能開發、bug 修復、重構和診斷,技術棧包括 PyTorch、CUDA、Rust、C++,經嚴格篩選後保留 30 個作為評測集。
V4-Pro-Max 通過率 67%,顯著高於 Sonnet 4.5 的 47%,接近 Opus 4.5 的 70%,但低於 Opus 4.5 Thinking 的 73% 和 Opus 4.6 Thinking 的 80%;Haiku 4.5 通過率僅為 13%。一項 N=85 的內部調查顯示,所有受訪者均在日常工作中使用 V4-Pro 做 agentic coding,52% 認為 V4-Pro 可作為預設主力編碼模型,39% 傾向認可,不到 9% 否定。反饋的主要問題包括低級錯誤、對模糊 prompt 的誤解以及偶發的過度思考。
在形式化数学推理方面,Putnam(普特南競賽)是北美最高水平本科數學競賽。在實用場景(Practical Regime)下,V4-Flash-Max 在 Putnam-200 Pass@8 基準上拿到 81.00 分,使用開源工具 LeanExplore 和受限採樣;作為對比,Seed-2.0-Prover 為 35.50,Gemini 3 Pro 和 Seed-1.5-Prover 均為 26.50。
在前沿場景(Frontier Regime)下,V4 採用混合形式-非形式推理方案,先用 informal reasoning 生成候選自然語言解,經自我驗證過濾後再由 formal agent 在 Lean 中完成嚴格證明。V4 在 Putnam-2025 拿到 120/120 滿分,與 Axiom 並列第一,高於 Seed-1.5-Prover 的 110/120 和 Aristotle 的 100/120。前沿場景使用了大規模計算擴展,實用場景結果更能反映常規部署能力。
DeepSeek V4 API 已同步上線 V4-Pro 和 V4-Flash。官方公眾號公布了定價和算力規劃:V4-Flash 直接替代 V3.2(deepseek-chat),不僅沒漲價反而降價——快取命中輸入不變(0.2 元/百萬 token),快取未命中輸入從 2 元降至 1 元(降 50%),輸出從 3 元降至 2 元(降 33%)。上下文從 128K 擴展到 1M,等於以更便宜的價格獲得 8 倍上下文。舊模型名 deepseek-chat 和 deepseek-reasoner 將於 2026 年 7 月 24 日停用,目前分別指向 V4-Flash 的非思考模式和思考模式。
V4-Pro 是全新的高端檔位:快取命中輸入 1 元、未命中 12 元、輸出 24 元/百萬 token,輸出價格是 V3.2 的 8 倍。DeepSeek 在定價表註釋中解釋,受限於高端算力,目前 Pro 的服務吞吐十分有限,預計下半年昇腾 950 超節點批量上市後,Pro 的價格會大幅下調。兩款模型均支持非思考模式和思考模式,思考模式支持 reasoning_effort 參數設定 high/max 兩檔強度。
DeepSeek 在公告中稱:「從現在開始,1M 上下文將是 DeepSeek 所有官方服務的標配。」
DeepSeek V4 技術報告首次公開了支撑 Agent 後訓練與海量評測的核心基礎設施——生產級彈性計算沙盒 DSec(DeepSeek Elastic Compute)。
當前大模型強化學習需要極其龐大的代碼試錯環境。報告披露,在實際生產中,單個 DSec 集群能同時調度數十萬個並發沙盒。系統由 Rust 編寫,底層對接自研 3FS 分佈式文件系統,通過層級按需加載(on-demand loading)打破了海量沙盒冷啟動的性能瓶頸。
開發者體驗上,DSec 用一套 Python SDK 統一了函數調用、容器、微型虛擬機和完整虛擬機四種執行底座,切換時僅需修改一個參數。針對算力集群常見的任務被搶占問題,DSec 引入了全局軌跡日誌:當任務恢復時,系統會直接「快進」重放已緩存的命令執行結果,既實現了極速斷點續訓,又避免了因重複執行帶來的非冪等錯誤。
DeepSeek V4 發布前,社區廣泛流傳一種猜測:V4 上線時間遲於預期,是因為模型從英偉達遷移到華為昇腾平台遭遇適配困難。V4 技術報告雖未直接回應這一傳聞,但披露的性能數據與之明顯矛盾。
報告顯示,V4 的細粒度專家分區方案(Fine-Grained EP Scheme)已在 NVIDIA GPU 和華為昇腾 NPU 雙平台完成部署驗證,常規推理負載加速 1.50 至 1.73 倍,RL rollout 和高速 Agent 服務等延遲敏感場景最高加速 1.96 倍。團隊已將 CUDA 版本內核 MegaMoE 作為 DeepGEMM 的一部分開源。換言之,V4 在兩套硬件上都跑出了接近理論上限的效率,跨平台適配並未造成性能折損。
歡迎加入律動 BlockBeats 官方社群:
Telegram 訂閱群:https://t.me/theblockbeats
Telegram 交流群:https://t.me/BlockBeats_App
Twitter 官方帳號:https://twitter.com/BlockBeatsAsia