DeepSeek 開源 Tile Kernels，Engram 和 mHC 生產級核心首次公開，為新一代模型鋪路

据動察 Beating 監測，DeepSeek 以 MIT 許可證開源 TileKernels，公開一批面向大模型訓練和推理的 GPU 底層計算程式碼，其中部分已用於內部生產環境。GPU 內核（kernel）是直接在顯卡上運行的計算程序，決定模型訓練和推理的速度上限。TileKernels 全部用 Python 編寫，依賴 GPU 內核專用語言 TileLang 自動完成底層優化，不需要手寫 CUDA C++。DeepSeek 稱多數內核已接近硬體性能極限。

庫中包含兩個未出現在 DeepSeek-V3 和 R1 論文中的架構組件的生產級內核。Engram 是 DeepSeek 今年 1 月論文提出的條件記憶模塊，通過哈希查表以 O(1) 複雜度檢索靜態知識（如實體、固定短語），與 MoE 的條件計算互補，為模型主幹卸載記憶負擔；Manifold HyperConnection（mHC）改進了字節 Seed 團隊 2024 年提出的 HyperConnection，用雙隨機矩陣約束解決大規模訓練時的信號發散問題。兩者此前只有論文和演示程式碼，TileKernels 首次提供了可直接用於訓練的高性能實現，說明 DeepSeek 已在為將這些組件集成到新一代模型做工程準備。

庫還覆蓋 MoE 路由與門控、多種低精度量化（FP8、FP4 等）、批量轉置等常規環節。程式碼可通過 `pip install tile-kernels` 安裝，運行需要 H100/H200 或 Blackwell 系列 GPU。

原文鏈接

糾錯/舉報