ARC-AGI-3公佈史上最大規模人類測試：所有關卡均被人類攻克，AI仍有差距

根據動察Beating 監測，ARC Prize 基金會公布了 ARC-AGI-3 的人類表現資料集，這是 ARC-AGI 系列迄今規模最大的人類測試研究，共 458 名參與者。資料集包含 342 條完整的人類操作回放記錄，涵蓋 25 個公開環境，已全部開源。

ARC-AGI-3 包含 135 個抽象推理環境，測試者不會收到任何玩法說明，必須自行探索、推斷規則並制定策略。測試在舊金山的線下測試中心進行，每場 90 分鐘，參與者獲得約 130 美元底薪加每通關一個環境 5 美元獎勵。所有測試均為「首次通關」條件，即每人只看一次、只嘗試一次，衡量的是面對全新問題時的學習和適應能力。人類和 AI 獲得完全相同的資訊，沒有任何資訊差。

核心結論：ARC-AGI-3 的所有環境均被人類通關，每個環境至少有兩名獨立參與者完成，多數環境有五人以上通關。ARC Prize 基金會稱「我們還沒有實現 AGI，這份資料集就是證據」。

自 ARC-AGI-3 預覽以來，公開環境已收到近 100 萬份 AI 評測提交。基於這些資料，基金會同時宣布兩項評分規則調整：一是將每關的人類基準從「第二好的玩家」改為「中位數玩家」，降低運氣因素對得分的影響；二是將單關得分上限從 100% 提高到 115%，避免一關表現不佳拖垮整體成績。兩項調整的淨效果是人類和 AI 得分均小幅上升約 0.5 個百分點。

原文鏈接

糾錯/舉報