智識GLM-5.2登頂DeepSWE開源第一：解決44%複雜開發任務，力壓主力閉源模型

据動察 Beating 監測，智譜 AI 開源模型 GLM-5.2 正式進駐長程軟體工程基準 DeepSWE。在最大思考力度模式下，複雜開發任務的一次成功率達到 44%，在開源模型中排名第一。對比此前入榜的 Kimi K2.7 Code，成功率高出 13 個百分點。

GLM-5.2 解決每項任務的平均成本為 3.92 美元，略高於 Kimi K2.7 Code 的 2.82 美元，成功率卻超越了多款主流閉源模型在特定思考配置下的表現，包括 Claude Sonnet 4.6 [high] (30%)、Gemini 3.5 Flash [medium] (37%)，以及 Claude Opus 4.8 [low] (41%)。

評測發起方 Datacurve 設計的 DeepSWE 基準專門測試 AI 智能體解決長任務的能力。測試包含 113 個真實編程問題，覆蓋 5 種語言。與只修改單處代碼的傳統測試不同，DeepSWE 要求 AI 協同修改多個檔案，平均修復代碼超過 600 行。評測在隔離容器中運行，嚴格限制 CPU 和內存資源。

原文鏈接

糾錯/舉報