DeepSeek V4將於下週發布，Yifan Zhang 披露三個架構組件

据动察Beating 监测，普林斯顿博士生 Yifan Zhang 透露，中国 AI 公司 DeepSeek（深度求索）的下一代旗舰 V4 将在下周发布；他在跟帖里列出三项架构组件：稀疏 MQA（Sparse Multi-Query Attention）、融合 MoE 大核（Fused MoE Mega Kernel）、Hyper-Connections。Zhang 本科北大元培、硕士清华姚班，現為普林斯顿 AI Lab Fellow，曾在字節跳動 Seed 基礎模型團隊任研究實習生；目前不在 DeepSeek 任職，DeepSeek 官方也未就發布時間表作出確認。

三項組件各對應 LLM 優化裡的一條獨立方向。稀疏 MQA 是在多查詢注意力基礎上引入稀疏性，用於在長上下文場景進一步壓低推理算力和顯存佔用；融合 MoE 大核把 MoE 的路由判斷與專家矩陣乘法編進同一個 GPU kernel，砍掉推理階段大量 kernel 啟動和顯存搬運開銷；Hyper-Connections 是對殘差連接的泛化，用多條可學習加權通路替代單一殘差加法。

原文鏈接

糾錯/舉報