華為中科大聯手突破英偉達壟斷，昇騰A3跑大模型專家計算提速58%

据動察 Beating 監測，在大規模 MoE 架構演進中，利用國產昇腾 (Ascend) 晶片訓練大模型已成為構建自主可控 AI 算力的關鍵方向。然而，主流大模型框架多基於英偉達 CUDA 生態開發，直接移植至昇腾平台時易面臨硬件隊列調度不均、算力利用率低等挑戰。中科大、華為與北大等聯合推出編譯調度框架 HyperParallel-MoE，針對昇腾 A3 獨特的硬件隊列進行瓦片級 (tile-level) 調控，旨在突破異構算力在並行調度上的能效瓶頸。

昇腾 A3 擁有兩類核心，AIC 負責矩陣乘法，AIV 則處理向量計算與通訊。但在傳統的算子串行調度下，兩類核心只能交替工作、輪流閒置。實測數據顯示，在 256 節點集群跑 671B 的 DeepSeek 風格大模型時，AIC 利用率僅為 67%，且 39% 的專家路由通訊延遲暴露在關鍵計算路徑上。

HyperParallel-MoE 核心改動有三項。第一，設計 AIV 驅動的單邊寫原語，使數據瓦片到達即觸發計算，無需等待整批到齊。第二，引入依賴感知瓦片任務生成，將通訊與計算算子統一抽象。第三，以靜態調度器預生成任務序列，在單個 kernel 內驅動兩類核心並行，並利用高速 L2 快取共享中間結果，減少回寫與讀取 HBM 慢速內存的延遲。

測試顯示，在 64 節點平衡路由下，負責專家計算的核心模塊（MoE-FFN）延遲縮短約 36%，相當於數據處理速度最高提升了 58%（即提速 1.49 至 1.58 倍）。在整機端到端運行中，單步訓練速度也同步提升了 8% 至 9%。這說明，昇腾的實際能效不只取決於硬件規格，更在編譯器與運行時能否把 AIC/AIV 核心高效調度起來。

原文鏈接

糾錯/舉報