据动察 Beating 监测,昨天 DeepSeek 开源 TileKernels 内核库后,我们通过库中包含的生产级内核推测 V4 的核心架构组件。今天 V4 模型卡发布,逐项验证如下:
mHC(流形约束超连接):昨天推测 V4 用的不是字节原始 HyperConnection,而是 DeepSeek 改进的 mHC。模型卡确认 V4 使用 Manifold-Constrained Hyper-Connections,命中。MoE 架构和 Top-k 专家路由:昨天 TileKernels 包含完整的 MoE 分发与收集内核,模型卡确认 V4 是 MoE 模型,命中。FP4+FP8 混合精度:昨天库中包含 FP4、FP8 量化内核,模型卡确认权重用 FP4+FP8 混合存储,命中。
唯一没中的是 Engram(條件記憶模組)。昨天我们已经注意到 Yifan Zhang 披露的 V4 规格没提 Engram,措辞留了余地。V4 模型卡同样没有提及 Engram。
模型卡还揭示了 TileKernels 未涉及的新组件:混合注意力机制(CSA + HCA)是 V4 長上下文效率飛躍的核心,1M 上下文下推理 FLOPs 僅 V3.2 的 27%、KV 快取僅 10%;訓練改用 Muon 優化器。