据動察 Beating 監測,由英偉達、卡內基梅隆大學與加州大學柏克萊分校聯合發布的 ENPIRE 框架,讓機器人訓練首次實現了完全脫離人類干預的自主演進。以往給機器人做動作微調,需要人類不停地在一旁復位道具、手動編寫和調試控制代碼。現在,團隊直接將 Codex 和 Claude Code 等大模型編程工具連上機器人集群,讓這些工具自主生成動作控制程序,並通過現場攝像頭判定動作成敗,像人類科研人員一樣自己分析報錯日誌並修改代碼。
在整理散落的大頭針、插拔主板零部件、系紮帶和用美工刀剪斷紮帶等一系列毫米級精細動作中,機器人在零人類干預下的測試成功率最終達到了 99%。實驗顯示,這種物理自主學習具有極強的擴展能力:當把機器人數量擴展至 8 台時,不同分支的大模型智能體能通過 Git 分支自動共享並迭代彼此的最優算法,直接將插針任務的訓練時間從 1.5 小時縮短到了 40 分鐘左右。
然而,自主演進過程也暴露了新的瓶頸。在單台設備運轉時,機器的有效運動時間佔了 85%;但當 8 台設備一起跑時,因為機器人要頻繁停下來等待大模型編程工具閱讀龐大的運行日誌、重新寫代碼和等待 API 響應,硬件的有效利用率直接跌到了 35%。同時,為了讓多台機器人的智能體頻繁同步彼此的最優解,整體的 Token 消耗量也呈直線上升。項目組宣布會在近期開源相關代碼。