据動察 Beating 監測,DeepSeek 以 MIT 許可證開源 TileKernels,公開一批面向大模型訓練和推理的 GPU 底層計算程式碼,其中部分已用於內部生產環境。GPU 內核(kernel)是直接在顯卡上運行的計算程序,決定模型訓練和推理的速度上限。TileKernels 全部用 Python 編寫,依賴 GPU 內核專用語言 TileLang 自動完成底層優化,不需要手寫 CUDA C++。DeepSeek 稱多數內核已接近硬體性能極限。
庫中包含兩個未出現在 DeepSeek-V3 和 R1 論文中的架構組件的生產級內核。Engram 是 DeepSeek 今年 1 月論文提出的條件記憶模塊,通過哈希查表以 O(1) 複雜度檢索靜態知識(如實體、固定短語),與 MoE 的條件計算互補,為模型主幹卸載記憶負擔;Manifold HyperConnection(mHC)改進了字節 Seed 團隊 2024 年提出的 HyperConnection,用雙隨機矩陣約束解決大規模訓練時的信號發散問題。兩者此前只有論文和演示程式碼,TileKernels 首次提供了可直接用於訓練的高性能實現,說明 DeepSeek 已在為將這些組件集成到新一代模型做工程準備。
庫還覆蓋 MoE 路由與門控、多種低精度量化(FP8、FP4 等)、批量轉置等常規環節。程式碼可通過 `pip install tile-kernels` 安裝,運行需要 H100/H200 或 Blackwell 系列 GPU。