觀點：API蒸餾僅為RL墊腳石，GLM 5.2自主迭代可徹底擺脫美國模型依賴

据動察 Beating 監測，谷歌 TPU 軟體工程師 Patrick Toulme 指出，外界對 GLM 5.2 靠蒸餾追平 Opus 的說法存在誤解。大模型在智能體編碼任勞上的訓練難點在於「零梯度困境」，即模型早期若無法產生正確運行路徑，強化學習便無法獲得梯度信號來啟動參數更新。蒸餾 Claude 或 GPT-5.5 的作用，僅僅是在冷啟動階段提供種子解答以繞過零梯度困境。

一旦模型跨過冷啟動門檻，後續的性能爬升將不再依賴蒸餾，而是完全依賴強化學習的爬山演算法進行自我演化。Toulme 強調，GLM 5.2 已經具備獨立產生成功路徑的能力，完全可以通過強化學習自主迭代到更高級別，徹底擺脫對美國大模型的依賴。

Redis 創始人 Salvatore Sanfilippo 補充了另一條路徑的可能性：雖然通過高能力模型引入推理模式（蒸餾）對於獲取更好的 RL 信號非常有用，但 DeepSeek R0 的實踐已經證明，即使在完全沒有蒸餾播種的純冷啟動情況下，強化學習依然可以自主運轉並取得突破。

同時他認為，若仍需越過冷啟動門檻，大模型研發完全可以初步使用 DeepSeek-v3.2 等本土開源模型進行微調，而非必須依賴美國 API。

原文鏈接

糾錯/舉報