据動察 Beating 監測,前 Anthropic 研究科學家、現 Google DeepMind 研究科學家姚順宇,在播客「語言即世界」中首次披露了 Claude 3.7 的內部研發過程。他在 2024 年 10 月加入 Anthropic 後被分進一個名為 Horizon 的團隊,當時整個團隊只有 10 到 11 個人,涵蓋了強化學習的方方面面。Claude 3.7 從啟動研究到最終發布總共耗時四五個月,前兩三個月做算法和數據研究,後兩個月做訓練和基礎設施搭建。
Anthropic 押注程式碼能力並非一開始就有規劃。姚順宇透露,Claude 3 之所以寫程式碼比 GPT-4 強,背後有一個他無法公開的純技術原因,是某個團隊自下而上做出來的。Claude 3 發布後 Twitter 上的大量正面反饋驗證了這一優勢,Anthropic 管理層隨即把程式碼能力升級為公司級戰略全力押注。他認為 Anthropic 能這樣快速下重注,核心在於技術一號位 Jared Kaplan 和 Sam McCandlish 本身就是聯合創始人,技術上服眾的同時也有權拍板,而 OpenAI 做不到這點,Ilya 在的時候也許行,但後來失去了決策權就走了。當時的 Anthropic 在產品方面幾乎沒有意識,Claude 3.5 半年內發了兩個版本卻用同一個名字,最終靠外界起的綽號「3.6」才勉強區分開來。
注:AI 領域有兩位拼音相同的研究者容易混淆。本文受訪者姚順宇,清華物理系本科、斯坦福理論物理博士,2024 年加入 Anthropic 參與 Claude 3.7 和 Claude 4 系列的強化學習研究,2025 年 9 月跳槽至 Google DeepMind。另一位姚順雨,清華姚班本科、普林斯頓計算機博士,提出 Tree of Thoughts 和 ReAct 框架,曾任 OpenAI 研究員,2025 年 12 月出任騰訊首席 AI 科學家。兩人是清華同屆校友。
