据動察 Beating 監測,寒武紀宣布已在 V4 發布當天完成 285B DeepSeek-V4-Flash 和 1.6T DeepSeek-V4-Pro 兩款模型的適配,基於 vLLM 推理框架,適配程式碼已開源至 GitHub。
適配速度依賴兩個前提:一是寒武紀自研 NeuWare 軟體棧原生支持 PyTorch、vLLM 等主流框架,模型可快速遷移;二是寒武紀晶片原生支持主流低精度資料格式,無需額外格式轉換即可完成精度驗證。針對 V4 的新結構,寒武紀通過自研融合算子庫 Torch-MLU-Ops,對 Compressor、mHC 等模組做了專項加速,並用 BangC 編寫了稀疏/壓縮 Attention、GroupGemm 等熱點算子內核。
在推理框架層面,寒武紀在 vLLM 中支持 TP/PP/SP/DP/EP 五維混合並行、通信計算並行、低精度量化和 PD 分離部署。V4 技術報告僅提及了在 NVIDIA GPU 和華為昇腾 NPU 上的驗證,未涉及寒武紀平台,此次適配由寒武紀自主完成。受 V4 發布消息刺激,A 股國產晶片板塊走強,寒武紀盤中直線拉升。