据動察 Beating 監測,DeepSeek 聯合北京大學發布投機採樣加速框架 DSpark 的技術報告,並開源了全棧代碼庫 DeepSpec。目前 DSpark 已部署於 DeepSeek-V4 線上業務。在保證輸出無損的前提下,DSpark 將 Flash 版單用戶生成速度提升 60% 至 85%,Pro 版速度提升 57% 至 78%。DSpark 表現超越了原有的單 Token 多分支預測(MTP-1)基線,在嚴格時延約束下顯著拉高了系統整體吞吐量。
此前,多 Token 投機採樣難以線上生產環境落地。自迴歸草稿模型生成太慢,而並行草稿模型由於各位置獨立預測,導致長序列的後半截接受率極低。若在高並發下盲目驗證多 Token 草稿,大模型會浪費大量算力去驗證注定被拒絕的錯字,導致系統整體吞吐量嚴重崩潰,因此業界線上多局限於單 Token 預測(MTP-1)。
DSpark 克服了高並發下的吞吐退化瓶頸。DSpark 首先採用 DFlash 並行主幹網生成隱藏狀態,再追加極其輕量的馬爾可夫頭。馬爾可夫頭通過查表與一次矩陣乘法,以極低成本串行注入相鄰詞的關聯。同時,系統集成置信度預測頭與後驗校準算法。為了完美兼容生產環境的零開銷調度並防止未來信息洩漏,調度器採用異步機制,利用兩步前的歷史預測來動態決定候選詞裁剪長度,徹底防止大模型在重負載下驗證高風險的尾部錯字。
除了 DSpark,DeepSeek 這次開源的 DeepSpec 代碼庫內置支持 Qwen3 與 Gemma 等開源大模型。DeepSpec 提供了從下載提示詞、重建大模型緩存、訓練草稿模型到基準評估的完整 Python 工具鏈。開發者可以直接利用開源腳本,在本地為不同的開源大模型定制並部署專屬的加速模塊。