摘要
· 机器人学者 Animesh Garg 質疑行業將遙操作小時數視為模型能力指標。
· 機器人數據收集成本高,部署數據常來自窄場景,重複樣本會快速變貴。
· 更有價值的可能是長尾失敗、任務覆蓋和新穎樣本,而非總運行時長。
曾任、兼任多倫多大學並現任佐治亞理工的機器人學者 Animesh Garg,在一篇題為《Moneyball for Physical AI》的文章中,把具身智能的數據競賽比作棒球史上的「金球」時刻。
他想挑戰的是一個越來越常見的融資叙事:機器人公司只要堆更多遙操作、更多真實部署、更多運行小時,就能形成數據飛輪。對投資者來說,這不是學術口水戰。具身智能公司的成本結構、商業化速度和模型壁壘,很多時候都被包裝進「數據閉環」這四個字裡。如果累計小時數並不等於有效模型進步,市場就需要重新看待這些公司的數據資產。
Garg 借用了《Moneyball》的經典比擬。2002 年奧克蘭運動家隊以聯盟低薪資球隊之一的陣容贏下 103 場比賽,關鍵不是買到更貴的球員,而是發現市場錯估了球員價值。傳統球探看重打擊率、盜壘和姿勢,但更能解釋球隊得分能力的指標,是上壘率。
在他看來,Physical AI 也可能處在類似階段。行業承認數據是通向通用機器人模型的必需品,卻容易把最容易展示的指標當成最重要的指標:累計遙操作小時、示教軌跡數量、部署機器人數量、生產場景運行時長。
機器人數據和文本數據的供給方式並不一樣。大語言模型可以從互聯網、程式庫、書籍和網頁中獲得海量低成本文本,瓶頸更多來自算力、清洗和訓練效率。機器人模型需要的是帶有物理互動、動作反饋和環境變化的數據,每一小時有效數據都要被真實創造出來,背後對應設備、人力、場地、感測器、失敗處理和安全成本。
機器人學者 Ken Goldberg 曾用「100,000-year data gap」形容機器人與互聯網規模 AI 數據之間的差距。更準確地說,當代大型視覺語言模型訓練所消耗的文本和圖像數據,如果折算成人類閱讀或觀看時間,約相當於 10 萬年,而機器人缺少同等規模的真實互動數據。這個說法不是在給機器人模型設定精確門檻,而是在提醒行業:真實世界互動數據無法像網頁文本一樣被低成本抓取。
這也是 Garg 反對「血汗工廠式遠端操作」敘事的原因。大量人工遠端操作確實能帶來動作密集的訓練樣本,但如果公司只按總小時數評價數據,資金可能流向重複、低難度、低資訊密度的樣本,而不是最能降低失敗率的情境。
在 Garg 的分類裡,Physical AI 數據大致分為三類:觀察數據、干預數據和部署數據。它們都可能有用,但成本、約束和資訊密度差異很大。
第一類是觀察數據,比如第一人稱或第三人稱視頻。它的優勢是成本低、覆蓋廣,可以幫助模型理解物體、空間、動作結果和環境分佈。短板也很清楚:模型能看到人或物體發生了什麼,卻未必知道機器人在某一狀態下應該輸出怎樣的動作。
第二類是干預數據,也就是遠端操作、示教和人工介入生成的狀態到動作軌跡。這類數據對機器人訓練更直接,因為它包含「看見什麼、怎麼動、動完發生什麼」的鏈條。代價是每一條高質量軌跡都要花錢買,人力和設備成本很難像軟件數據那樣快速下降。
第三類是部署數據,即機器人在真實商業場景運行時產生的遙測數據。它聽起來最接近商業飛輪:機器人一邊幹活、一邊賺錢、一邊產生訓練數據。但這裡有一個統計陷阱。
今天最先落地的機器人場景,通常也是變化最少、流程最固定、風險最可控的場景,例如高度結構化的倉儲、工廠或單一任務環境。這類生產數據數量可能很大,但分佈較窄、重複度較高。模型一旦學到局部規律,後續每多運行一小時帶來的新增資訊就會下降。
部署數據並非沒有價值。真正有價值的,往往不是大量「成功完成任務」的常規片段,而是失敗、卡住、異常物體、邊界條件和罕見扰動。問題在於,這些長尾樣本不會按公司希望的節奏穩定出現,發現、篩選和複盤成本也更高。
Garg 對語言模型 scaling law 的借鑒比較謹慎:數據增加通常會帶來模型損失下降,但收益遞減。如果樣本重複、近似重複,或來自同一個窄分佈,新增數據的幫助會更快變小。
放到機器人領域,這個問題更直觀。一個機器人學習從固定貨架抓取固定包裝盒,前幾千次示教、失敗和修正可能非常有價值。一旦動作、物體、光照和路徑都被反覆採集,新增數據更像是在複製已經學過的局部經驗。
語言模型訓練中已經有類似經驗:重複和近重複數據會浪費訓練預算,過度重複還可能損害泛化。Garg 並沒有把這些結論直接套到機器人訓練上,而是用它們說明一個方向:衡量數據價值不能只看數量,還要看樣本之間到底有多大差異。
對 Physical AI 來說,多樣性至少有兩層含義。第一是讓模型見過更多物體、空間、材質、光照、遮蔽和操作方式。第二是避免模型在一個過於簡單的任務分布裡表現很好,換到稍微不同的場景就失效。
長尾失敗案例因此變得關鍵。真實物理世界不是均勻分佈的,低頻異常經常決定商業可用性:物體擺放偏一點、包裝變形、表面反光、抓手打滑、人突然介入、感應器漏看、地面摩擦變化。模型在常規樣本上表現再好,如果處理不了這些尾部事件,部署仍會被少數失敗拖住。
這篇文章真正挑戰的,是具身智能公司常見的商業化路線:先在窄場景中部署機器人,用人類遠程接管保證可用性,同時收集生產數據,再用這些數據訓練更強模型,打開更多場景。
Garg 將這類路徑稱為「neo-integrator」式思路。它試圖繞開純數據採集成本,把機器人放進商業生產中,讓運營收入抵消數據成本。相比專門搭建遙操作工廠,這條路聽起來更高效。
但飛輪成立有一個前提:早期商業場景產生的數據,必須足夠新、足夠多樣,能幫助模型遷移到更多任務。如果部署場景只是低變化、低熵、強工程定制的窄任務,數據就會很快飽和。公司得到的可能不是通用能力飛輪,而是一組需要持續集成、維護和異常處理的定制項目。
這會帶來兩類成本。第一,每進入一個新場景,都要投入環境改造、流程適配、失敗兜底和安全機制。第二,如果部署本身還沒有達到盈虧平衡,擴大規模就不一定是在低成本收集數據,也可能是在用虧損換取大量低新奇性樣本。
所以,早期部署不是無用,而是需要更細地看:它帶來了多少新任務覆蓋,產生了多少失敗和異常樣本,這些樣本能否遷移到其他場景,扣除硬件、人力、維護和集成成本後,每一美元買到的模型改進有多少。
Garg 給出的建議不是停止蒐集數據,而是替換評價口徑。累計運行小時、遙控小時和軌跡數量可以作為運營指標,但不應被直接等同於模型進步。
更有解釋力的問題包括:單個任務的數據什麼時候飽和,新增一個任務需要多少工程集成成本,數據覆蓋了多少不同場景和動作簇,生產數據中有多少是真正的分布漂移和異常樣本,部署流裡有多少常規成功片段應該被過濾掉,而不是繼續餵給模型。
對應到三類數據,資本配置也會不同。觀察數據應優先追求低成本、多樣性和廣覆蓋,用來擴大基礎能力邊界。高成本的遙控和示教數據在達到單任務飽和後,應把預算轉向更多任務,而不是繼續重複同一動作。部署數據則應重點篩選失敗、邊界條件和分布外樣本,丟棄大量信息密度低的常規運行記錄。
這套觀點對 Physical AI 的估值叙事有現實影響。一個公司擁有更多機器人、更長運行時間、更大遙控團隊,並不自動代表擁有更強模型壁壘。更難複製的能力,可能是持續找到高價值長尾數據、判斷某類數據何時飽和,以及用更低成本覆蓋更多任務分布。
不過,這仍是一套資本配置視角,還不是行業定論。機器人模型是否會出現類似語言模型的規模收益,部署數據能否在某些高維場景持續產生新信息,不同任務之間的遷移效率有多高,都還要靠更多實證結果回答。
Garg 的提醒落在一個更具體的問題上:Physical AI 的「金球指標」也許不是數據小時數,而是每一美元買到的新穎樣本。對於仍在用數據飛輪講故事的機器人公司,市場最終要看的可能不是累計運行時間有多長,而是這些時間裡到底產生了多少新信息。
歡迎加入律動 BlockBeats 官方社群:
Telegram 訂閱群:https://t.me/theblockbeats
Telegram 交流群:https://t.me/BlockBeats_App
Twitter 官方帳號:https://twitter.com/BlockBeatsAsia