header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

ARC-AGI-3公佈史上最大規模人類測試:所有關卡均被人類攻克,AI仍有差距

根據 動察Beating 監測,ARC Prize 基金會公布了 ARC-AGI-3 的人類表現資料集,這是 ARC-AGI 系列迄今規模最大的人類測試研究,共 458 名參與者。資料集包含 342 條完整的人類操作回放記錄,涵蓋 25 個公開環境,已全部開源。

ARC-AGI-3 包含 135 個抽象推理環境,測試者不會收到任何玩法說明,必須自行探索、推斷規則並制定策略。測試在舊金山的線下測試中心進行,每場 90 分鐘,參與者獲得約 130 美元底薪加每通關一個環境 5 美元獎勵。所有測試均為「首次通關」條件,即每人只看一次、只嘗試一次,衡量的是面對全新問題時的學習和適應能力。人類和 AI 獲得完全相同的資訊,沒有任何資訊差。

核心結論:ARC-AGI-3 的所有環境均被人類通關,每個環境至少有兩名獨立參與者完成,多數環境有五人以上通關。ARC Prize 基金會稱「我們還沒有實現 AGI,這份資料集就是證據」。

自 ARC-AGI-3 預覽以來,公開環境已收到近 100 萬份 AI 評測提交。基於這些資料,基金會同時宣布兩項評分規則調整:一是將每關的人類基準從「第二好的玩家」改為「中位數玩家」,降低運氣因素對得分的影響;二是將單關得分上限從 100% 提高到 115%,避免一關表現不佳拖垮整體成績。兩項調整的淨效果是人類和 AI 得分均小幅上升約 0.5 個百分點。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成