DeepMind發布AI數學研究助手：多Agent架構擊敗GPT-5.5 Pro，還解出此前「無人能解」難題

据動察 Beating 監測，谷歌 DeepMind 發布 AI 共同數學家，一個供數學家使用的多 Agent 互動式研究工作台。該系統在目前最難的研究級數學基準 FrontierMath Tier 4 上拿下 47.9% 的正確率（解出 23/48 題），直接超過了此前最高紀錄 GPT-5.5 Pro 的 39.6%。

這套系統沒有用新一代底座，直接用的是 Gemini 3.1 Pro。這個模型自己裸跑 Tier 4 只有 19%，加了 Agent 框架後成績翻倍還多。DeepMind 給它搭了一套多層架構：頂層一個「項目協調人」把研究任務拆分成多條工作流，往下分發給文獻檢索、寫程式和負責推理的子 Agent。寫出的證明還要過一輪由多個「審稿 Agent」組成的評審會，通過了才能提交。這套重腳手架證明了：在頂尖數學推理上，編排能壓榨出的能力增量，可能比換代模型還要大。

盲測由 Epoch AI 執行，為了防止作弊，DeepMind 團隊全程看不到題目，每道題允許跑 48 小時。結果不僅登頂，系統還解出了 3 道此前所有模型全軍覆沒的題。

雖然名叫副手，它更像是個會開腦洞的同事。群論專家 Marc Lackenby 在實際研究中用它解開了 Kourovka 筆記本裡的一個公開猜想。有趣的是，系統最初給出的策略被它自己的審查 Agent 標為「有缺陷」，但 Lackenby 看出了廢案裡藏著的巧妙思路，自己補上缺口，最終完成了證明。

目前，AI 共同數學家僅對少量數學家開放內測。

原文鏈接

糾錯/舉報