姚順宇首次披露Claude 3系列內部研發過程：程式碼能力超過GPT純屬歪打正著

据動察 Beating 監測，前 Anthropic 研究科學家、現 Google DeepMind 研究科學家姚順宇，在播客「語言即世界」中首次披露了 Claude 3.7 的內部研發過程。他在 2024 年 10 月加入 Anthropic 後被分進一個名為 Horizon 的團隊，當時整個團隊只有 10 到 11 個人，涵蓋了強化學習的方方面面。Claude 3.7 從啟動研究到最終發布總共耗時四五個月，前兩三個月做算法和數據研究，後兩個月做訓練和基礎設施搭建。

Anthropic 押注程式碼能力並非一開始就有規劃。姚順宇透露，Claude 3 之所以寫程式碼比 GPT-4 強，背後有一個他無法公開的純技術原因，是某個團隊自下而上做出來的。Claude 3 發布後 Twitter 上的大量正面反饋驗證了這一優勢，Anthropic 管理層隨即把程式碼能力升級為公司級戰略全力押注。他認為 Anthropic 能這樣快速下重注，核心在於技術一號位 Jared Kaplan 和 Sam McCandlish 本身就是聯合創始人，技術上服眾的同時也有權拍板，而 OpenAI 做不到這點，Ilya 在的時候也許行，但後來失去了決策權就走了。當時的 Anthropic 在產品方面幾乎沒有意識，Claude 3.5 半年內發了兩個版本卻用同一個名字，最終靠外界起的綽號「3.6」才勉強區分開來。

注：AI 領域有兩位拼音相同的研究者容易混淆。本文受訪者姚順宇，清華物理系本科、斯坦福理論物理博士，2024 年加入 Anthropic 參與 Claude 3.7 和 Claude 4 系列的強化學習研究，2025 年 9 月跳槽至 Google DeepMind。另一位姚順雨，清華姚班本科、普林斯頓計算機博士，提出 Tree of Thoughts 和 ReAct 框架，曾任 OpenAI 研究員，2025 年 12 月出任騰訊首席 AI 科學家。兩人是清華同屆校友。

原文鏈接

糾錯/舉報