header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

GLM 5.2登頂智慧體微調評量,零崩潰擊敗Opus 4.8

動察 Beating監測,在最新發布的 AI 研發自動化評測 PostTrainBench 中,推理模型 GLM 5.2 Max 以 34.29% 的得分奪得第一,以微弱優勢擊敗了 Claude Opus 4.8 Max 的 34.08%。

評測模擬大模型在 10 小時和單卡 H100 算力限制下自主執行後訓練微調的全流程,包含數據清洗、編寫訓練腳本與超參優化。在 84 次完整運行中,GLM 5.2 取得了 0% 的運行崩潰率,而 Claude Opus 系列 Agent 則有約 10% 的任務卡死或崩潰率。

分析顯示,新一代推理模型能夠更精準地解析終端報錯,自癒環境與訓練腳本問題,並在本地 GPU 上拉起更大參數量的本地教師模型(如 14B 到 72B Qwen)進行動態合成數據蒸餾,從而規避了傳統智能體長航時任務的邏輯死鎖。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成