header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

華為中科大聯手突破英偉達壟斷,昇騰A3跑大模型專家計算提速58%

動察 Beating 監測,在大規模 MoE 架構演進中,利用國產昇腾 (Ascend) 晶片訓練大模型已成為構建自主可控 AI 算力的關鍵方向。然而,主流大模型框架多基於英偉達 CUDA 生態開發,直接移植至昇腾平台時易面臨硬件隊列調度不均、算力利用率低等挑戰。中科大、華為與北大等聯合推出編譯調度框架 HyperParallel-MoE,針對昇腾 A3 獨特的硬件隊列進行瓦片級 (tile-level) 調控,旨在突破異構算力在並行調度上的能效瓶頸。

昇腾 A3 擁有兩類核心,AIC 負責矩陣乘法,AIV 則處理向量計算與通訊。但在傳統的算子串行調度下,兩類核心只能交替工作、輪流閒置。實測數據顯示,在 256 節點集群跑 671B 的 DeepSeek 風格大模型時,AIC 利用率僅為 67%,且 39% 的專家路由通訊延遲暴露在關鍵計算路徑上。

HyperParallel-MoE 核心改動有三項。第一,設計 AIV 驅動的單邊寫原語,使數據瓦片到達即觸發計算,無需等待整批到齊。第二,引入依賴感知瓦片任務生成,將通訊與計算算子統一抽象。第三,以靜態調度器預生成任務序列,在單個 kernel 內驅動兩類核心並行,並利用高速 L2 快取共享中間結果,減少回寫與讀取 HBM 慢速內存的延遲。

測試顯示,在 64 節點平衡路由下,負責專家計算的核心模塊(MoE-FFN)延遲縮短約 36%,相當於數據處理速度最高提升了 58%(即提速 1.49 至 1.58 倍)。在整機端到端運行中,單步訓練速度也同步提升了 8% 至 9%。這說明,昇腾的實際能效不只取決於硬件規格,更在編譯器與運行時能否把 AIC/AIV 核心高效調度起來。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成