据動察 Beating 監測,谷歌 DeepMind 發布 AI 共同數學家,一個供數學家使用的多 Agent 互動式研究工作台。該系統在目前最難的研究級數學基準 FrontierMath Tier 4 上拿下 47.9% 的正確率(解出 23/48 題),直接超過了此前最高紀錄 GPT-5.5 Pro 的 39.6%。
這套系統沒有用新一代底座,直接用的是 Gemini 3.1 Pro。這個模型自己裸跑 Tier 4 只有 19%,加了 Agent 框架後成績翻倍還多。DeepMind 給它搭了一套多層架構:頂層一個「項目協調人」把研究任務拆分成多條工作流,往下分發給文獻檢索、寫程式和負責推理的子 Agent。寫出的證明還要過一輪由多個「審稿 Agent」組成的評審會,通過了才能提交。這套重腳手架證明了:在頂尖數學推理上,編排能壓榨出的能力增量,可能比換代模型還要大。
盲測由 Epoch AI 執行,為了防止作弊,DeepMind 團隊全程看不到題目,每道題允許跑 48 小時。結果不僅登頂,系統還解出了 3 道此前所有模型全軍覆沒的題。
雖然名叫副手,它更像是個會開腦洞的同事。群論專家 Marc Lackenby 在實際研究中用它解開了 Kourovka 筆記本裡的一個公開猜想。有趣的是,系統最初給出的策略被它自己的審查 Agent 標為「有缺陷」,但 Lackenby 看出了廢案裡藏著的巧妙思路,自己補上缺口,最終完成了證明。
目前,AI 共同數學家 僅對少量數學家開放內測。