腾訊內部備忘錄曝光：最新模型Hy3後訓練階段用了Claude Code

据動察 Beating 監測，《The Information》援引知情人士和腾讯內部備忘錄披露，腾訊員工在開發 Hy3 模型的後訓練階段使用了 Anthropic 的 Claude Code，儘管 Anthropic 以國家安全為由明確禁止向中國公司提供商業服務。

Hy3 是腾訊混元系列迄今最強的大語言模型，295B 參數 MoE 架構，去年底加入腾訊的首席 AI 科學家姚順雨主導開發。在 RLHF（基於人類反饋的強化學習）階段，腾訊組織員工充當人類評估員，公司內部備忘錄提供了 Claude Code 的安裝指南，每人用量上限為「數千個 token」。

腾訊員工不認為這屬於蒸餾（用強模型的輸出訓練弱模型）。他們的做法是：向兩個匿名模型提出相同編程問題，盲評打分；同時用 Claude Code 實時生成高質量行為示例作為參照，幫助篩選低質量響應。多家 AI 公司的員工證實，在後訓練中用業內領先模型做基準參考是常見做法。

Anthropic 發言人表示，公司安全團隊「主動監控蒸餾攻擊，發現後立即採取行動」，但未直接回應腾訊使用 Claude Code 一事。中國公司和開發者獲取 Claude 的常見方式是通過中間商、非中國手機號碼或信用卡註冊。Anthropic 本月初已收緊身份驗證要求，部分用戶須提供政府簽發的證件照和本人照片。

原文鏈接

糾錯/舉報