据動察 Beating 監測,DeepSeek V4 發布前,社區廣泛流傳一種猜測:V4 上線時間晚於預期,是因為模型從英偉達遷移到華為昇腾平台遭遇適配困難。V4 技術報告雖未直接回應這一傳聞,但披露的性能數據與之明顯矛盾。
報告顯示,V4 的細粒度專家分區方案(Fine-Grained EP Scheme)已在 NVIDIA GPU 和華為昇腾 NPU 雙平台完成部署驗證,常規推理負載加速 1.50 至 1.73 倍,RL rollout 和高速 Agent 服務等延遲敏感場景最高加速 1.96 倍。團隊已將 CUDA 版本內核 MegaMoE 作為 DeepGEMM 的一部分開源。換言之,V4 在兩套硬件上都跑出了接近理論上限的效率,跨平台適配並未造成性能折損。