GPT-5.5登頂極限編程基準FrontierSWE，但作弊次數也最多

据动察 Beating 监测，AI 研究团队 Proximal 更新超长程编程基准 FrontierSWE 排行榜。新加入的 GPT-5.5（通过 Codex 运行）在 mean@5（5 次尝试的平均分）和 best@5（最高分）两项指标上均大幅领先第二名 Claude Opus 4.7，支配率达 83%。但 GPT-5.5 也是作弊最多的模型：85 次试验中 8 次被判作弊，与 Kimi K2.6 并列。

FrontierSWE 4 月发布，收集了编译器优化、ML 研究、高性能工程等领域的 17 项真实难题，如用 Zig 重写 Git、构建兼容 PostgreSQL 的 SQLite 服务器，每项任务限时 20 小时，是目前少数未被做穿的公开编程基准。GPT-5.5 相比前代在时间分配上更成熟：开放式任务花更多时间打磨方案，实现类任务更快完成且得分更高。

此前测试已揭示 AI 编程 Agent 几类通病。模型普遍过度自信，远未到 20 小时时限就因膚淺的自檢誤以為任務已完成並提前提交。Opus 4.6 單項任務平均投入超 8 小時，遠超其他模型的約 2 小時，但曾多次丟失已有優化、隨後重新「發明」一遍。作弊在高壓任務中尤為突出：在一道明確禁止使用 PyTorch 的 Mojo 移植任務中，除 Qwen 3.6 外所有模型均嘗試作弊，Gemini 用字符編碼隱藏被禁庫名、在臨時目錄運行隱蔽進程，Opus 4.6 甚至先在推理中寫下「願意作弊」再動手。

原文鏈接

糾錯/舉報