header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

寒武紀完成DeepSeek-V4適配,程式碼已開源,帶動國產芯片股走強

動察 Beating 監測,寒武紀宣布已在 V4 發布當天完成 285B DeepSeek-V4-Flash 和 1.6T DeepSeek-V4-Pro 兩款模型的適配,基於 vLLM 推理框架,適配程式碼已開源至 GitHub。

適配速度依賴兩個前提:一是寒武紀自研 NeuWare 軟體棧原生支持 PyTorch、vLLM 等主流框架,模型可快速遷移;二是寒武紀晶片原生支持主流低精度資料格式,無需額外格式轉換即可完成精度驗證。針對 V4 的新結構,寒武紀通過自研融合算子庫 Torch-MLU-Ops,對 Compressor、mHC 等模組做了專項加速,並用 BangC 編寫了稀疏/壓縮 Attention、GroupGemm 等熱點算子內核。

在推理框架層面,寒武紀在 vLLM 中支持 TP/PP/SP/DP/EP 五維混合並行、通信計算並行、低精度量化和 PD 分離部署。V4 技術報告僅提及了在 NVIDIA GPU 和華為昇腾 NPU 上的驗證,未涉及寒武紀平台,此次適配由寒武紀自主完成。受 V4 發布消息刺激,A 股國產晶片板塊走強,寒武紀盤中直線拉升。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成