header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

Hugging Face正式推出Kernels,GPU算子像模型一样一行代码装好

据動察Beating 監測,Hugging Face CEO Clem Delangue 宣布 Kernels 正式上線 Hub。GPU 算子是讓顯卡跑出極限速度的底層優化程式碼,能將推理和訓練加速 1.7 至 2.5 倍,但安裝一直是噩夢:以最常用的 FlashAttention 為例,本地編譯需要約 96GB 記憶體和數小時,PyTorch 版本、CUDA 版本稍有不對就報錯,多數開發者在安裝這一步就卡住了。


Kernels Hub 把編譯搬到雲端。Hugging Face 提前在各種顯卡和系統環境下編譯好算子,開發者寫一行程式碼,Hub 自動匹配硬體環境,幾秒內下載預編譯檔案直接可用。同一進程可載入多個不同版本算子,兼容 torch.compile。


Kernels 去年 6 月測試上線,本月升級為 Hub 一級倉庫類型,與 Models、Datasets、Spaces 並列。目前已有 61 個預編譯算子,覆蓋注意力機制、歸一化、混合專家路由、量化等常用場景,支援英偉達 CUDA、AMD ROCm、蘋果 Metal 和英特爾 XPU 四種硬體加速平台,已整合進 Hugging Face 的推理框架 TGI 和 Transformers 庫。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成