關於最強開源模型 DeepSeek V4 的所有細節：性能對標 Opus 4.6、價格下降、編碼基準刷榜登頂

閱讀本文需 10 分鐘

V4-Pro-Max（最高推理力度模式）自稱當前最強開源模型，編碼基準達到頂級，推理和 agent 任務與閉源前沿差距顯著縮小

今日，DeepSeek 宣布開源 V4 系列預覽版，權重已同步上架 Hugging Face 和 ModelScope，採用 MIT 許可協議。系列包含兩款 MoE 模型：V4-Pro（總參數 1.6T，每 token 激活 49B/490 億）和 V4-Flash（總參數 284B/2840 億，激活 13B/130 億），兩款均支持 1M token 上下文。

架構層面有三項關鍵升級：

· 混合注意力機制，包含壓縮稀疏注意力 CSA 和重度壓縮注意力 HCA，大幅降低長上下文開銷。在 1M 上下文下，V4-Pro 單 token 推理 FLOPs 僅為 V3.2 的 27%，KV 快取佔用僅為 V3.2 的 10%。

· 流形約束超連接（mHC）替代傳統殘差連接，增強跨層信號傳播穩定性。

· 訓練改用 Muon 優化器加速收斂。預訓練數據總量超過 32T token。

後訓練分兩階段：先用 SFT 和 GRPO 強化學習分別訓練各領域專家，再通過線上蒸餾統一合併成一個模型。

性能評測：V4-Pro-Max 自稱當前最強開源模型

V4-Pro 的最高推理力度模式稱為 V4-Pro-Max。官方技術報告將其與 Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1 Pro High 以及開源的 Kimi K2.6、GLM-5.1 進行對比（不含剛發布的 Opus 4.7 和 GPT-5.5，最終差距待第三方驗證）。

編碼方面，V4-Pro-Max 在 Codeforces 拿到 3206 分，超過 GPT-5.4 的 3168 和 Gemini 3.1 Pro 的 3052，刷新該基準紀錄。LiveCodeBench 得分 93.5，同樣全場最高。SWE Verified 得分 80.6，僅低於 Opus 4.6 的 80.8，差 0.2 個百分點。

在長篇文本方面，兩個 1M 基準均排第二：CorpusQA 1M 得分 62.0（Opus 4.6 為 71.7），MRCR 1M 得分 83.5（Opus 4.6 為 92.9）。

在 Agent 任務方面，MCPAtlas Public 得分 73.6，僅低於 Opus 4.6 的 73.8；Terminal-Bench 2.0 得分 67.9，低於 GPT-5.4 的 75.1 和 Gemini 3.1 Pro 的 68.5。

在知識與推理方面仍存在明顯差距：GPQA Diamond 90.1（Gemini 94.3）、SimpleQA-Verified 57.9（Gemini 75.6）、HLE 37.7（Gemini 44.4）。

作為開源模型，V4-Pro-Max 在多項編碼和長篇文本基準上首次追平甚至超過部分閉源旗艦，但在知識密集型評測上仍落後於 Gemini 3.1 Pro。

內部 dogfooding 資料與數學推理

DeepSeek 罕見公開了內部 dogfooding 資料。團隊從 50 餘名工程師收集約 200 個真實研發任務，覆蓋功能開發、bug 修復、重構和診斷，技術棧包括 PyTorch、CUDA、Rust、C++，經嚴格篩選後保留 30 個作為評測集。

V4-Pro-Max 通過率 67%，顯著高於 Sonnet 4.5 的 47%，接近 Opus 4.5 的 70%，但低於 Opus 4.5 Thinking 的 73% 和 Opus 4.6 Thinking 的 80%；Haiku 4.5 通過率僅為 13%。一項 N=85 的內部調查顯示，所有受訪者均在日常工作中使用 V4-Pro 做 agentic coding，52% 認為 V4-Pro 可作為預設主力編碼模型，39% 傾向認可，不到 9% 否定。反饋的主要問題包括低級錯誤、對模糊 prompt 的誤解以及偶發的過度思考。

在形式化数学推理方面，Putnam（普特南競賽）是北美最高水平本科數學競賽。在實用場景（Practical Regime）下，V4-Flash-Max 在 Putnam-200 Pass@8 基準上拿到 81.00 分，使用開源工具 LeanExplore 和受限採樣；作為對比，Seed-2.0-Prover 為 35.50，Gemini 3 Pro 和 Seed-1.5-Prover 均為 26.50。

在前沿場景（Frontier Regime）下，V4 採用混合形式-非形式推理方案，先用 informal reasoning 生成候選自然語言解，經自我驗證過濾後再由 formal agent 在 Lean 中完成嚴格證明。V4 在 Putnam-2025 拿到 120/120 滿分，與 Axiom 並列第一，高於 Seed-1.5-Prover 的 110/120 和 Aristotle 的 100/120。前沿場景使用了大規模計算擴展，實用場景結果更能反映常規部署能力。

API 與定價：V4-Flash 降價且上下文升級，V4-Pro 為高端檔位

DeepSeek V4 API 已同步上線 V4-Pro 和 V4-Flash。官方公眾號公布了定價和算力規劃：V4-Flash 直接替代 V3.2（deepseek-chat），不僅沒漲價反而降價——快取命中輸入不變（0.2 元/百萬 token），快取未命中輸入從 2 元降至 1 元（降 50%），輸出從 3 元降至 2 元（降 33%）。上下文從 128K 擴展到 1M，等於以更便宜的價格獲得 8 倍上下文。舊模型名 deepseek-chat 和 deepseek-reasoner 將於 2026 年 7 月 24 日停用，目前分別指向 V4-Flash 的非思考模式和思考模式。

V4-Pro 是全新的高端檔位：快取命中輸入 1 元、未命中 12 元、輸出 24 元/百萬 token，輸出價格是 V3.2 的 8 倍。DeepSeek 在定價表註釋中解釋，受限於高端算力，目前 Pro 的服務吞吐十分有限，預計下半年昇腾 950 超節點批量上市後，Pro 的價格會大幅下調。兩款模型均支持非思考模式和思考模式，思考模式支持 reasoning_effort 參數設定 high/max 兩檔強度。

DeepSeek 在公告中稱：「從現在開始，1M 上下文將是 DeepSeek 所有官方服務的標配。」

首次公開基礎設施：生產級彈性計算沙盒 DSec

DeepSeek V4 技術報告首次公開了支撑 Agent 後訓練與海量評測的核心基礎設施——生產級彈性計算沙盒 DSec（DeepSeek Elastic Compute）。

當前大模型強化學習需要極其龐大的代碼試錯環境。報告披露，在實際生產中，單個 DSec 集群能同時調度數十萬個並發沙盒。系統由 Rust 編寫，底層對接自研 3FS 分佈式文件系統，通過層級按需加載（on-demand loading）打破了海量沙盒冷啟動的性能瓶頸。

開發者體驗上，DSec 用一套 Python SDK 統一了函數調用、容器、微型虛擬機和完整虛擬機四種執行底座，切換時僅需修改一個參數。針對算力集群常見的任務被搶占問題，DSec 引入了全局軌跡日誌：當任務恢復時，系統會直接「快進」重放已緩存的命令執行結果，既實現了極速斷點續訓，又避免了因重複執行帶來的非冪等錯誤。

V4 用數據回應「適配難」猜測

DeepSeek V4 發布前，社區廣泛流傳一種猜測：V4 上線時間遲於預期，是因為模型從英偉達遷移到華為昇腾平台遭遇適配困難。V4 技術報告雖未直接回應這一傳聞，但披露的性能數據與之明顯矛盾。

報告顯示，V4 的細粒度專家分區方案（Fine-Grained EP Scheme）已在 NVIDIA GPU 和華為昇腾 NPU 雙平台完成部署驗證，常規推理負載加速 1.50 至 1.73 倍，RL rollout 和高速 Agent 服務等延遲敏感場景最高加速 1.96 倍。團隊已將 CUDA 版本內核 MegaMoE 作為 DeepGEMM 的一部分開源。換言之，V4 在兩套硬件上都跑出了接近理論上限的效率，跨平台適配並未造成性能折損。

歡迎加入律動 BlockBeats 官方社群：

Telegram 訂閱群：https://t.me/theblockbeats

Telegram 交流群：https://t.me/BlockBeats_App

Twitter 官方帳號：https://twitter.com/BlockBeatsAsia

#AI #DeepSeek

糾錯/舉報