Hugging Face正式推出Kernels，GPU算子像模型一样一行代码装好

据動察Beating 監測，Hugging Face CEO Clem Delangue 宣布 Kernels 正式上線 Hub。GPU 算子是讓顯卡跑出極限速度的底層優化程式碼，能將推理和訓練加速 1.7 至 2.5 倍，但安裝一直是噩夢：以最常用的 FlashAttention 為例，本地編譯需要約 96GB 記憶體和數小時，PyTorch 版本、CUDA 版本稍有不對就報錯，多數開發者在安裝這一步就卡住了。

Kernels Hub 把編譯搬到雲端。Hugging Face 提前在各種顯卡和系統環境下編譯好算子，開發者寫一行程式碼，Hub 自動匹配硬體環境，幾秒內下載預編譯檔案直接可用。同一進程可載入多個不同版本算子，兼容 torch.compile。

Kernels 去年 6 月測試上線，本月升級為 Hub 一級倉庫類型，與 Models、Datasets、Spaces 並列。目前已有 61 個預編譯算子，覆蓋注意力機制、歸一化、混合專家路由、量化等常用場景，支援英偉達 CUDA、AMD ROCm、蘋果 Metal 和英特爾 XPU 四種硬體加速平台，已整合進 Hugging Face 的推理框架 TGI 和 Transformers 庫。

原文鏈接

糾錯/舉報