header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

你免費幫 Google 訓練了 15 年人工智能,只是一直被蒙在鼓裡

閱讀本文需 10 分鐘
你證明了自己是人類,結果卻是讓自己變得可被取代。
原文標題:你已經訓練了 Google 的 AI 15 年。 你根本不知道。
原文作者:Sharbel,Unfungible 共同創辦人
原文編譯:Lila,BlockBeats


編者詞:驗證碼(CAPTCHA),就是每次登錄網站時需要點擊的數字或者圖案,每位互聯網用戶都再熟悉不過。但當你一次次點擊「我不是機器人」的時候,你以為這只是在驗證身份,實際上卻在參與全球最大、最隱秘的數據生產。Luis von Ahn 推出的 reCAPTCHA 將零散的人類行為,匯聚成支撐谷歌和旗下自動駕駛公司 Waymo 等核心業務的數據基石。


在「免費」「安全」的表象下,互聯網悄然重塑了一種全新勞動關係:你花費時間證明自己是人類,卻為 AI 訓練做出貢獻,而一旦 AI 學會,這份勞動便被徹底取代。本文發布不到 20 小時,已在推特收穫超 950 萬瀏覽量。以下為原文內容:


每天約有 50 萬小時的人類勞動,被谷歌免費利用。而貢獻這些的人,僅僅是想登錄一下網銀而已。


reCAPTCHA 是互聯網歷史上最成功的隱形數據運作。在高峰期,每天有 2 億人完成驗證。但幾乎沒有人意識到,每一次點擊的背後意味著什麼。


谷歌的自動駕駛汽車公司 Waymo,如今市值為 450 億美元。而它大部分的核心訓練數據,都是你在訪問各個網站時免費提供的。


以下是完整的故事:


緣起:一個聰明的構思


2000 年,垃圾郵件機器人正在摧毀互聯網。論壇被灌水,收件匣被塞爆,網站急需一種方法來區分人類與機器。


卡內基梅隆大學的 Luis von Ahn 教授解決了這個問題。他發明了驗證碼(CAPTCHA):一個只有人類能讀懂的扭曲文字,機器人無法通過。


但 von Ahn 看到的不止這些。數以百萬計的人在這些挑戰中耗費了精力。那如果這種精力能同時做兩件事呢?


2007 年,他又推出了 reCAPTCHA。其精妙之處在於:它不再顯示隨機的亂碼,而是顯示兩個詞。一個是系統已知的,另一個是電腦尚無法辨認的真實掃描書籍。而你的回答幫助了這些圖書的數位化


這些書來自《紐約時報》檔案庫和谷歌圖書,多達 1.3 億冊。


你以為你只是在登錄一個普通的網站,其實你正在為全球最大的數位圖書館做 OCR(光學字符識別)。


2009 年,谷歌正式收購了 reCAPTCHA。



後來,谷歌改變了玩法


「扭曲文字」的時代在 2012 年左右結束了。


谷歌又遇到了新的挑戰:街景車拍攝了全球每一條路,但照片只是原始數據。為了讓 AI 發揮作用,它需要理解所見之物:路牌、斑馬線、紅綠燈、店鋪門面。


所以谷歌重新設計了 reCAPTCHA v2。畫面中沒有扭曲的文字,而是照片網格。「點擊所有有紅綠燈的方格。」「選擇每一條斑馬線。」「識別店面。」


這些圖片直接來自谷歌街景。你的點擊就是標籤。


每一次選擇都在告訴谷歌的計算機視覺模型:這一叢像素是紅綠燈,那個形狀是斑馬線。你不是在通過測試,你是在構建數據集。



超乎想像的規模


在巔峰時期,每天有 2 億個 reCAPTCHA 被解開。每個挑戰耗時 10 秒,這意味著每天產生 20 億秒的人類勞動。即:每天 50 萬小時。


有償的數據標註成本約為每小時 10 到 50 美元。按最低標準計算:每天被免費提取的勞動價值高達 500 萬美元。


而且 reCAPTCHA 不只存在於某個 App。它遍佈每家銀行、每個政府門戶、每個電商網站。你別無選擇:想登入帳戶?先來標註數據集。谷歌從未問過你的意見,沒付過一毛錢薪水,甚至從未告訴過你這件事。



這一切造就了什麼?


這些數據直接餵給了兩個產品:


-谷歌地圖:全球最常用的導航工具。它識別路牌、店鋪和城市地理的能力,部分歸功於數十億次人類在登入網站時的標註。


-Waymo:谷歌的自動駕駛項目。為了安全導航,自駕車需要近乎完美地識別數千種視覺模式。


那些識別工作的真值訓練數據正是由數百萬人在不知情的情況下通過 reCAPTCHA 標註的。Waymo 在 2024 年完成了超過 400 萬次付費行程,估值 450 億美元。其基石,正是由那些只想查個郵件的「無償互聯網民」奠定的。


為什麼沒人能複製這種模式?


數據標註極其昂貴。Scale AI、Appen 和 Labelbox 等公司的存在就是為了解決這個問題,他們雇傭數十萬工人,有時時薪不足 1 美元。


谷歌的解法另闢蹊徑:他們讓標註變成了強制性的。無需付費,無需徵得同意,而是作為進入互聯網每個角落的「門票」。結果是:數十億張帶標籤的圖像、全球覆蓋、全天候天氣、世界每個城市。沒有任何標註公司能做到這一點。互聯網本身就是工廠,每個網民都是未簽合同的員工。



你至今仍在參與


2018 年推出的 reCAPTCHA v3 甚至不再顯示挑戰。它通過觀察你移動滑鼠的方式、滾動速度、停留時間。你的行為指紋會告知它你是否為人類。這些行為數據同樣會回饋到谷歌的 AI 系統中。


你從未主動選擇加入,從來沒有一個複選框供你勾選。但此刻,在你訪問的大多數網站上,你依然在這樣做。


令人不安的諷刺


Luis von Ahn 的初衷是天才的:將人類本就在浪費的精力轉化為有用的產出。但 Google 利用這一願景做的事卻另當別論。他們利用了用戶不得不使用的安全機制,將其部署在全網,收割產出來構建價值數百億美元的商業產品。用戶一無所獲,甚至一無所知。


最深刻的諷刺在於:你花費數年時間證明自己是人類,通過完成 AI 當時還無法做到的視覺識別工作。而一旦 AI 學會了這些,人類的視覺標註就不再被需要。


你證明了自己是人類,結果卻是讓自己變得可被取代。


原文連結


歡迎加入律動 BlockBeats 官方社群:

Telegram 訂閱群:https://t.me/theblockbeats

Telegram 交流群:https://t.me/BlockBeats_App

Twitter 官方帳號:https://twitter.com/BlockBeatsAsia

選擇文庫
新增文庫
取消
完成
新增文庫
僅自己可見
公開
保存
糾錯/舉報
提交