据動察 Beating 監測,月之暗面開源新一代旗艦 Kimi K2.6,同步在 Kimi.com 網頁、Kimi App、開放平台 API 和自研編程工具 Kimi Code 上線。K2.6 此前一個月只在 Kimi Code 內部以 code-preview 名義給 Beta 用戶嘗試,今天首次把完整模型對外開源並開放 API。
官方基準表裡,K2.6 在多項編程與代理任務上反超當前最強閉源旗艦:SWE-Bench Pro 58.6(GPT-5.4 xhigh 57.7、Claude Opus 4.6 max effort 53.4、Gemini 3.1 Pro 54.2);HLE 全集帶工具 54.0,三家閉源都低於這個數;DeepSearchQA f1 92.5,同項 GPT-5.4 只有 78.6。Terminal-Bench 2.0 拿 66.7,只輸給 Gemini 3.1 Pro 的 68.5;SWE-Bench Verified 80.2,與 Opus 4.6 的 80.8、Gemini 3.1 Pro 的 80.6 基本同檔。開源陣營過去在這種級別的編程基準上幾乎沒有能和閉源前沿旗艦對位的選項。
官方部落格還給了兩組長程執行的實測數字。一是讓 K2.6 在 Mac 本地用 Zig(一種小眾系統級編程語言)重寫 Qwen3.5-0.8B 推理,4000 余次工具調用、12 小時連續運行、14 輪迭代後,吞吐從大約 15 tokens/sec 提升到 193 tokens/sec,比 LM Studio 快約 20%。二是接管一個 8 年歷史的開源撮合引擎 exchange-core,跑完 13 小時、過千次工具調用、修改 4000 多行代碼,並重配核心線程拓撲(4ME+2RE 改為 2ME+1RE),吞吐提高 185%。這兩個數字都是官方自測,暫無獨立複現。
K2.6 同步升級的 Agent Swarm 可同時運行 300 個子代理、最多 4000 步,前代 K2.5 的上限是 100 個、1500 步。月之暗面自家 RL 基礎設施團隊已經用 K2.6 跑了一個 5 天自主值班的運維代理,官方放出了這份工作日誌的節選。