header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

腾訊內部備忘錄曝光:最新模型Hy3後訓練階段用了Claude Code

動察 Beating 監測,《The Information》援引知情人士和腾讯內部備忘錄披露,腾訊員工在開發 Hy3 模型的後訓練階段使用了 Anthropic 的 Claude Code,儘管 Anthropic 以國家安全為由明確禁止向中國公司提供商業服務。

Hy3 是腾訊混元系列迄今最強的大語言模型,295B 參數 MoE 架構,去年底加入腾訊的首席 AI 科學家姚順雨主導開發。在 RLHF(基於人類反饋的強化學習)階段,腾訊組織員工充當人類評估員,公司內部備忘錄提供了 Claude Code 的安裝指南,每人用量上限為「數千個 token」。

腾訊員工不認為這屬於蒸餾(用強模型的輸出訓練弱模型)。他們的做法是:向兩個匿名模型提出相同編程問題,盲評打分;同時用 Claude Code 實時生成高質量行為示例作為參照,幫助篩選低質量響應。多家 AI 公司的員工證實,在後訓練中用業內領先模型做基準參考是常見做法。

Anthropic 發言人表示,公司安全團隊「主動監控蒸餾攻擊,發現後立即採取行動」,但未直接回應腾訊使用 Claude Code 一事。中國公司和開發者獲取 Claude 的常見方式是通過中間商、非中國手機號碼或信用卡註冊。Anthropic 本月初已收緊身份驗證要求,部分用戶須提供政府簽發的證件照和本人照片。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成