DeepSeek開源推論加速框架DeepSpec，上線DSpark讓V4模型速度提升最高85%

据動察 Beating 監測，DeepSeek 聯合北京大學發布投機採樣加速框架 DSpark 的技術報告，並開源了全棧代碼庫 DeepSpec。目前 DSpark 已部署於 DeepSeek-V4 線上業務。在保證輸出無損的前提下，DSpark 將 Flash 版單用戶生成速度提升 60% 至 85%，Pro 版速度提升 57% 至 78%。DSpark 表現超越了原有的單 Token 多分支預測（MTP-1）基線，在嚴格時延約束下顯著拉高了系統整體吞吐量。

此前，多 Token 投機採樣難以線上生產環境落地。自迴歸草稿模型生成太慢，而並行草稿模型由於各位置獨立預測，導致長序列的後半截接受率極低。若在高並發下盲目驗證多 Token 草稿，大模型會浪費大量算力去驗證注定被拒絕的錯字，導致系統整體吞吐量嚴重崩潰，因此業界線上多局限於單 Token 預測（MTP-1）。

DSpark 克服了高並發下的吞吐退化瓶頸。DSpark 首先採用 DFlash 並行主幹網生成隱藏狀態，再追加極其輕量的馬爾可夫頭。馬爾可夫頭通過查表與一次矩陣乘法，以極低成本串行注入相鄰詞的關聯。同時，系統集成置信度預測頭與後驗校準算法。為了完美兼容生產環境的零開銷調度並防止未來信息洩漏，調度器採用異步機制，利用兩步前的歷史預測來動態決定候選詞裁剪長度，徹底防止大模型在重負載下驗證高風險的尾部錯字。

除了 DSpark，DeepSeek 這次開源的 DeepSpec 代碼庫內置支持 Qwen3 與 Gemma 等開源大模型。DeepSpec 提供了從下載提示詞、重建大模型緩存、訓練草稿模型到基準評估的完整 Python 工具鏈。開發者可以直接利用開源腳本，在本地為不同的開源大模型定制並部署專屬的加速模塊。

原文鏈接

糾錯/舉報