据動察 Beating 監測,智譜 AI 開源模型 GLM-5.2 正式進駐長程軟體工程基準 DeepSWE。在最大思考力度模式下,複雜開發任務的一次成功率達到 44%,在開源模型中排名第一。對比此前入榜的 Kimi K2.7 Code,成功率高出 13 個百分點。
GLM-5.2 解決每項任務的平均成本為 3.92 美元,略高於 Kimi K2.7 Code 的 2.82 美元,成功率卻超越了多款主流閉源模型在特定思考配置下的表現,包括 Claude Sonnet 4.6 [high] (30%)、Gemini 3.5 Flash [medium] (37%),以及 Claude Opus 4.8 [low] (41%)。
評測發起方 Datacurve 設計的 DeepSWE 基準專門測試 AI 智能體解決長任務的能力。測試包含 113 個真實編程問題,覆蓋 5 種語言。與只修改單處代碼的傳統測試不同,DeepSWE 要求 AI 協同修改多個檔案,平均修復代碼超過 600 行。評測在隔離容器中運行,嚴格限制 CPU 和內存資源。