header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

「華為晶片拖慢DeepSeek V4上線」?同一內核通吃英偉達昇腾還加速近2倍

動察 Beating 監測,DeepSeek V4 發布前,社區廣泛流傳一種猜測:V4 上線時間晚於預期,是因為模型從英偉達遷移到華為昇腾平台遭遇適配困難。V4 技術報告雖未直接回應這一傳聞,但披露的性能數據與之明顯矛盾。

報告顯示,V4 的細粒度專家分區方案(Fine-Grained EP Scheme)已在 NVIDIA GPU 和華為昇腾 NPU 雙平台完成部署驗證,常規推理負載加速 1.50 至 1.73 倍,RL rollout 和高速 Agent 服務等延遲敏感場景最高加速 1.96 倍。團隊已將 CUDA 版本內核 MegaMoE 作為 DeepGEMM 的一部分開源。換言之,V4 在兩套硬件上都跑出了接近理論上限的效率,跨平台適配並未造成性能折損。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成