英偉達讓 Codex 和 Claude Code 訓練機器人：動作幾乎全靠自學，成功率被刷到 99%

据動察 Beating 監測，由英偉達、卡內基梅隆大學與加州大學柏克萊分校聯合發布的 ENPIRE 框架，讓機器人訓練首次實現了完全脫離人類干預的自主演進。以往給機器人做動作微調，需要人類不停地在一旁復位道具、手動編寫和調試控制代碼。現在，團隊直接將 Codex 和 Claude Code 等大模型編程工具連上機器人集群，讓這些工具自主生成動作控制程序，並通過現場攝像頭判定動作成敗，像人類科研人員一樣自己分析報錯日誌並修改代碼。

在整理散落的大頭針、插拔主板零部件、系紮帶和用美工刀剪斷紮帶等一系列毫米級精細動作中，機器人在零人類干預下的測試成功率最終達到了 99%。實驗顯示，這種物理自主學習具有極強的擴展能力：當把機器人數量擴展至 8 台時，不同分支的大模型智能體能通過 Git 分支自動共享並迭代彼此的最優算法，直接將插針任務的訓練時間從 1.5 小時縮短到了 40 分鐘左右。

然而，自主演進過程也暴露了新的瓶頸。在單台設備運轉時，機器的有效運動時間佔了 85%；但當 8 台設備一起跑時，因為機器人要頻繁停下來等待大模型編程工具閱讀龐大的運行日誌、重新寫代碼和等待 API 響應，硬件的有效利用率直接跌到了 35%。同時，為了讓多台機器人的智能體頻繁同步彼此的最優解，整體的 Token 消耗量也呈直線上升。項目組宣布會在近期開源相關代碼。

原文鏈接

糾錯/舉報