首頁

快訊深度數據 Skill&API

資料飛輪還是重複樣本？物理人工智慧該告別「小時數崇拜」了

律动BlockBeats

閱讀本文需 13 分鐘

機器人公司仍在拚工作時數，但真正缺少的是新樣本

摘要
· 机器人学者 Animesh Garg 質疑行業將遙操作小時數視為模型能力指標。
· 機器人數據收集成本高，部署數據常來自窄場景，重複樣本會快速變貴。
· 更有價值的可能是長尾失敗、任務覆蓋和新穎樣本，而非總運行時長。

曾任、兼任多倫多大學並現任佐治亞理工的機器人學者 Animesh Garg，在一篇題為《Moneyball for Physical AI》的文章中，把具身智能的數據競賽比作棒球史上的「金球」時刻。

他想挑戰的是一個越來越常見的融資叙事：機器人公司只要堆更多遙操作、更多真實部署、更多運行小時，就能形成數據飛輪。對投資者來說，這不是學術口水戰。具身智能公司的成本結構、商業化速度和模型壁壘，很多時候都被包裝進「數據閉環」這四個字裡。如果累計小時數並不等於有效模型進步，市場就需要重新看待這些公司的數據資產。

「數據小時數」可能是機器人行業的打擊率迷信

Garg 借用了《Moneyball》的經典比擬。2002 年奧克蘭運動家隊以聯盟低薪資球隊之一的陣容贏下 103 場比賽，關鍵不是買到更貴的球員，而是發現市場錯估了球員價值。傳統球探看重打擊率、盜壘和姿勢，但更能解釋球隊得分能力的指標，是上壘率。

在他看來，Physical AI 也可能處在類似階段。行業承認數據是通向通用機器人模型的必需品，卻容易把最容易展示的指標當成最重要的指標：累計遙操作小時、示教軌跡數量、部署機器人數量、生產場景運行時長。

機器人數據和文本數據的供給方式並不一樣。大語言模型可以從互聯網、程式庫、書籍和網頁中獲得海量低成本文本，瓶頸更多來自算力、清洗和訓練效率。機器人模型需要的是帶有物理互動、動作反饋和環境變化的數據，每一小時有效數據都要被真實創造出來，背後對應設備、人力、場地、感測器、失敗處理和安全成本。

機器人學者 Ken Goldberg 曾用「100,000-year data gap」形容機器人與互聯網規模 AI 數據之間的差距。更準確地說，當代大型視覺語言模型訓練所消耗的文本和圖像數據，如果折算成人類閱讀或觀看時間，約相當於 10 萬年，而機器人缺少同等規模的真實互動數據。這個說法不是在給機器人模型設定精確門檻，而是在提醒行業：真實世界互動數據無法像網頁文本一樣被低成本抓取。

這也是 Garg 反對「血汗工廠式遠端操作」敘事的原因。大量人工遠端操作確實能帶來動作密集的訓練樣本，但如果公司只按總小時數評價數據，資金可能流向重複、低難度、低資訊密度的樣本，而不是最能降低失敗率的情境。

三類數據買到的東西並不一樣

在 Garg 的分類裡，Physical AI 數據大致分為三類：觀察數據、干預數據和部署數據。它們都可能有用，但成本、約束和資訊密度差異很大。

第一類是觀察數據，比如第一人稱或第三人稱視頻。它的優勢是成本低、覆蓋廣，可以幫助模型理解物體、空間、動作結果和環境分佈。短板也很清楚：模型能看到人或物體發生了什麼，卻未必知道機器人在某一狀態下應該輸出怎樣的動作。

第二類是干預數據，也就是遠端操作、示教和人工介入生成的狀態到動作軌跡。這類數據對機器人訓練更直接，因為它包含「看見什麼、怎麼動、動完發生什麼」的鏈條。代價是每一條高質量軌跡都要花錢買，人力和設備成本很難像軟件數據那樣快速下降。

第三類是部署數據，即機器人在真實商業場景運行時產生的遙測數據。它聽起來最接近商業飛輪：機器人一邊幹活、一邊賺錢、一邊產生訓練數據。但這裡有一個統計陷阱。

今天最先落地的機器人場景，通常也是變化最少、流程最固定、風險最可控的場景，例如高度結構化的倉儲、工廠或單一任務環境。這類生產數據數量可能很大，但分佈較窄、重複度較高。模型一旦學到局部規律，後續每多運行一小時帶來的新增資訊就會下降。

部署數據並非沒有價值。真正有價值的，往往不是大量「成功完成任務」的常規片段，而是失敗、卡住、異常物體、邊界條件和罕見扰動。問題在於，這些長尾樣本不會按公司希望的節奏穩定出現，發現、篩選和複盤成本也更高。

部署飛輪成立，需要早期場景足夠「新」

這篇文章真正挑戰的，是具身智能公司常見的商業化路線：先在窄場景中部署機器人，用人類遠程接管保證可用性，同時收集生產數據，再用這些數據訓練更強模型，打開更多場景。

Garg 將這類路徑稱為「neo-integrator」式思路。它試圖繞開純數據採集成本，把機器人放進商業生產中，讓運營收入抵消數據成本。相比專門搭建遙操作工廠，這條路聽起來更高效。

但飛輪成立有一個前提：早期商業場景產生的數據，必須足夠新、足夠多樣，能幫助模型遷移到更多任務。如果部署場景只是低變化、低熵、強工程定制的窄任務，數據就會很快飽和。公司得到的可能不是通用能力飛輪，而是一組需要持續集成、維護和異常處理的定制項目。

這會帶來兩類成本。第一，每進入一個新場景，都要投入環境改造、流程適配、失敗兜底和安全機制。第二，如果部署本身還沒有達到盈虧平衡，擴大規模就不一定是在低成本收集數據，也可能是在用虧損換取大量低新奇性樣本。

所以，早期部署不是無用，而是需要更細地看：它帶來了多少新任務覆蓋，產生了多少失敗和異常樣本，這些樣本能否遷移到其他場景，扣除硬件、人力、維護和集成成本後，每一美元買到的模型改進有多少。

估值叙事不能只問攢了多少小時

Garg 給出的建議不是停止蒐集數據，而是替換評價口徑。累計運行小時、遙控小時和軌跡數量可以作為運營指標，但不應被直接等同於模型進步。

更有解釋力的問題包括：單個任務的數據什麼時候飽和，新增一個任務需要多少工程集成成本，數據覆蓋了多少不同場景和動作簇，生產數據中有多少是真正的分布漂移和異常樣本，部署流裡有多少常規成功片段應該被過濾掉，而不是繼續餵給模型。

對應到三類數據，資本配置也會不同。觀察數據應優先追求低成本、多樣性和廣覆蓋，用來擴大基礎能力邊界。高成本的遙控和示教數據在達到單任務飽和後，應把預算轉向更多任務，而不是繼續重複同一動作。部署數據則應重點篩選失敗、邊界條件和分布外樣本，丟棄大量信息密度低的常規運行記錄。

這套觀點對 Physical AI 的估值叙事有現實影響。一個公司擁有更多機器人、更長運行時間、更大遙控團隊，並不自動代表擁有更強模型壁壘。更難複製的能力，可能是持續找到高價值長尾數據、判斷某類數據何時飽和，以及用更低成本覆蓋更多任務分布。

不過，這仍是一套資本配置視角，還不是行業定論。機器人模型是否會出現類似語言模型的規模收益，部署數據能否在某些高維場景持續產生新信息，不同任務之間的遷移效率有多高，都還要靠更多實證結果回答。

Garg 的提醒落在一個更具體的問題上：Physical AI 的「金球指標」也許不是數據小時數，而是每一美元買到的新穎樣本。對於仍在用數據飛輪講故事的機器人公司，市場最終要看的可能不是累計運行時間有多長，而是這些時間裡到底產生了多少新信息。

歡迎加入律動 BlockBeats 官方社群：

Telegram 訂閱群：https://t.me/theblockbeats

Telegram 交流群：https://t.me/BlockBeats_App

Twitter 官方帳號：https://twitter.com/BlockBeatsAsia

#數據 #AI

糾錯/舉報

下載 BlockBeats

iOS Android

選擇文庫

新增文庫

取消

完成