寒武紀完成DeepSeek-V4適配，程式碼已開源，帶動國產芯片股走強

据動察 Beating 監測，寒武紀宣布已在 V4 發布當天完成 285B DeepSeek-V4-Flash 和 1.6T DeepSeek-V4-Pro 兩款模型的適配，基於 vLLM 推理框架，適配程式碼已開源至 GitHub。

適配速度依賴兩個前提：一是寒武紀自研 NeuWare 軟體棧原生支持 PyTorch、vLLM 等主流框架，模型可快速遷移；二是寒武紀晶片原生支持主流低精度資料格式，無需額外格式轉換即可完成精度驗證。針對 V4 的新結構，寒武紀通過自研融合算子庫 Torch-MLU-Ops，對 Compressor、mHC 等模組做了專項加速，並用 BangC 編寫了稀疏/壓縮 Attention、GroupGemm 等熱點算子內核。

在推理框架層面，寒武紀在 vLLM 中支持 TP/PP/SP/DP/EP 五維混合並行、通信計算並行、低精度量化和 PD 分離部署。V4 技術報告僅提及了在 NVIDIA GPU 和華為昇腾 NPU 上的驗證，未涉及寒武紀平台，此次適配由寒武紀自主完成。受 V4 發布消息刺激，A 股國產晶片板塊走強，寒武紀盤中直線拉升。

原文鏈接

糾錯/舉報