首頁

快訊深度數據 Skill&API

從Token到機器勞動力：AI正在從工具變成「工人」

閱讀本文需 18 分鐘

市場定價的核心將從模型調用轉向可驗證、可採購、可結算的勞動成果

原文標題：機器勞動力市場

原文作者：@__sishir

翻譯：Peggy

編者按：當 AI 開始撰寫程式碼、處理客服工單、審閱法律文件時，一個更基本的問題浮現了：企業真正購買的到底是代幣、GPU 時數，還是已完成的工作？

這篇文章提出了一個值得關注的框架：AI 的商業化不應只被理解為「算力市場」或「模型調用市場」，而是正在走向一個新的「機器勞動力市場」。在這個市場中，代幣只是計量單位，GPU 是投入品，模型是生產工具，真正被定價和交易的對象，是軟體直接完成的經濟性勞動。

文章的核心判斷在於，AI 定價機制會經歷從原始代幣、標準化模型能力，到行業化勞動力，再到可編程結果市場的演進。也就是說，未來企業可能不再關心某項任務由哪個模型、哪種 GPU 完成，而是關心它是否在規定延遲、準確率、可靠性和成本範圍內，交付了符合標準的結果。

這也意味著，AI 對人類勞動市場的影響未必只是簡單替代。隨著機器承擔更多可標準化、可驗證的工作，人類的角色可能轉向複核、責任承擔、上下文管理與最後判斷。某些場景中，最後 1% 的人類判斷反而會變得更有價值，因為它可以釋放大規模自動化的 99%。

從這個角度看，AI 市場的下一階段競爭，或許不再只是模型能力之爭，也不是單純的算力價格戰，而是誰能率先把「工作」標準化、可驗證、可定價，並最終讓機器勞動力成為一種可以被採購、結算和交易的新型生產要素。

以下為原文：

生產力浪潮過去總是來自為人類生產工具和軟體，以優化工作的完成方式。電子表格幫助會計和分析師，傳送帶提高吞吐量，鎚子放大人的槓桿。但真正的勞動始終來自人類。

現在，AI 正在端到端地產出工作成果，直接執行勞動本身。它可以撰寫程式碼、處理客服工單、審閱法律文件。整個技術棧的末端正在發生壓縮：舊的技術棧是支援勞動，新的技術棧則開始生產勞動。

如果你最近聽過關於 AI 金融化的討論，大概會聽到 Jensen 等人說，LLM token 和/或 GPU 小時正在成為新的大宗商品。這種直覺可以理解，因為 token 可計量、可計費，也容易畫成圖表；GPU 小時背後也有數十億美元資金流入。但 token 仍然只是計量表，GPU 小時只是投入品，沒有人是為了擁有它們本身而購買它們。人們真正想要的是把工作完成。AI 正在把技術棧本身變成勞動力來源。

機器勞動力：由軟體執行、具有經濟用途，並被銷售到生產環節中的工作。

市場已經朝這個方向移動。Benchmark 的 Sarah Tavel 傾向於通過外包勞動力市場，而不是軟體品類，來理解這一機會。如果某項可重複任務本來就由專門的離岸團隊或專業服務公司來完成，那麼它往往也是適合由 AI 交付的工作。a16z 的 Alex Rampell 將其稱為「軟體吞噬勞動」：軟體的下一幕，是親自完成工作。Sequoia 的 Julien Bek 則從另一個角度描述了同樣的變化：服務正在變成軟體，copilot 賣的是工具，而 autopilot 賣的是工作。

相關閱讀：https://sequoiacap.com/article/services-the-new-software/

結果定價背後缺失的市場

席位定價按訪問權限收費，token 定價按使用量收費。結果定價則是在工作完成時收費。結果定價讓我們向前邁出了一步，但它仍然沒有回答一個問題：誰來決定價格？

如果機器勞動力可以被直接購買，價格就應該來自供應商之間的競爭。這些供應商必須能夠滿足同一類任務或工作完成標準，而這就需要在不同行業和任務內部建立標準化。

目前的做法是使用 LLM token，但原始 token 只是最底層。每桶石油只是一個計量單位，真正交易的是某一特定等級的石油桶，具有明確的質量、交付條款和市場價格。一桶布倫特原油和一桶高硫重質原油並不是同一種商品。LLM token 也是如此。token 只是計量單位，真正重要的是其背後的智能：模型質量、基準測試下限、延遲、上下文窗口、可靠性和交付保證。來自前沿代碼模型的 100 萬個 token，和來自廉價通用模型的 100 萬個 token，並不是同一種商品。市場需要標準化的推理等級，就像能源市場需要標準化的石油等級一樣。

Anjali Shriva 直接指出了这一點：token 並不是一個固定的成本單位。它的經濟性會隨著上下文長度、任務結構、輸入/輸出比例、重試次數、工具呼叫和 Agent 工作流而變化。短提示詞裡的一個 token，和被埋在長 Agent 迴圈中的一個 token，並不是同一種經濟對象。

我們在人類勞動力市場中早就這樣做了。沒有人會把放射科醫生當作一種泛化的「人類小時」來雇用。人們會看培訓背景、執照認證、專業方向、從業年限、可用性、聲譽、責任承擔等。不同的人類合同規格，對應著不同的最低標準和等級期望。

人類勞動力市場本來就是依靠這些規格運轉的，只是這些規格往往混雜、定性，並充滿各種代理指標。機器勞動力會讓這些規格變得更加顯性，也更可量化。

對於 LLM 或 Agent 來說，技能、經驗、速度和可靠性這些指標，都可以被直接寫入合同：基準測試分數、延遲、吞吐量、上下文窗口、最大輸出長度、工具使用準確率、正常運行時間、錯誤率。我們可以按照可量化的期望和結果來採購勞動力。

TheGrid.ai 的合同規格，本質上就是一個資格篩選器，再加上針對 LLM 輸出的價格競爭。供應商只要滿足規格，就可以進入競爭：

智能基準測試 ≥ 下限

延遲 ≤ 上限

吞吐量 ≥ 下限

正常運行時間 ≥ 下限

錯誤率 ≤ 上限

一旦供應商都達到了同樣的最低門檻，它們就開始在價格上競爭。買方要問的是：哪一個供應商能以最優價格交付所需的勞動力？

放射科醫生的招聘，在 LLM 語境下就變成了可量測的問題：哪些 LLM 能夠以高熟練度讀取 X 光片，並在明確的延遲、上下文窗口和其他基於結果的合同規格內完成任務。

結果，是買方衡量成功的方式；勞動，是被供應的經濟活動；token，則是機器在完成工作過程中消耗的燃料。

The Grid 就是機器勞動力市場。

從 token 到機器勞動力市場

市場可以為技術棧的投入定價，但如果要為產出定價，就需要一個機器勞動力市場。買方並不關心 GPU 時間。模型端點本身也不穩定：它們會被改名、棄用、打包，或者直接退役。

用戶和流動性都討厭頻繁變化。GPU 和模型會持續演進，但穩定的單位是工作本身。

我認為，市場會沿著以下路徑演化。每往上一層，被購買的東西就越抽象、越有價值，但也越難驗證。The Grid 應該逐步沿著這條梯子向上攀升：

原始 token → 商品化 LLM 能力市場 → 商品化勞動力市場 → 可程式結果市場

第一階段：原始 token

Claude 4.7、GPT 5.5、Kimi 2.6、DeepSeek V4、GLM 5 等。

今天，買方從推理供應商那裡購買原始模型輸出。他們發送自己的提示詞，接收推理結果，並按使用量付費。這很容易驗證，但它仍然只是原材料。買方真正想要的不是 token，而是以最佳價格獲得有用的智能。

第二階段：商品化 LLM 能力市場

例如 text/usd、code/usd、agent/usd 等。

買方不再選擇某一個具體模型，而是選擇自己需要的智能類別。買方仍然掌握工作流、提示詞、數據和應用邏輯。The Grid 只是把每一次請求路由到符合合同規格、且價格最低的合格模型。

注：這是高於原始 token 的第一個真正抽象層，也是 TheGrid.ai 目前所處的位置。

第三階段：商品化勞動力市場

例如 accounting/usd、support_agent/usd、legal/usd、healthcare/usd、radiology/usd 等。

隨著模型變得更加專業化，能力市場可以進一步演變為行業特定市場。這類似於人類在不同勞動力市場中的專業分工。

在這一層，我們銷售的是適合特定勞動力垂直領域工作流的推理能力。隨著細分行業模型越來越普遍，這類市場會迅速擴張。相關例子包括 Cursor 的 Composer、面向法律工作的 Harvey，以及面向醫療健康的 EvidenceOpen。

第四階段：面向 Agent 的可編程 RFQ 與結果市場

例如 support_ticket_resolved/usd、pr_merged/usd、claim_processed/usd 等。

最後一層，是 The Grid 從推理市場走向機器勞動力市場的地方。

這一層需要 RFQ（詢價請求）、托管帳戶、延遲結算、買方確認、供應商聲譽、扣回機制、爭議解決等機制。它很可能先從 RFQ 開始，而不是直接採用訂單簿。買方定義工作內容、約束條件、驗收標準和結算條款，Agent 競標完成任務。The Grid 則幫助路由、定價、驗證和結算這些工作。

這是最有價值的一層，但也是最難驗證的一層，因為結果可能延遲、主觀且容易被操縱。一個客服工單可能會重新打開；一個 PR 可能通過了測試，但仍然造成糟糕的架構。

總價 = 完成工作的成本 + 承擔風險的成本

一個工作流不會因為智能有了市場，或者智能變得更便宜，就自動變成一個市場。有些工作高度依賴私有上下文，比如客戶歷史或內部政策。工作越依賴上下文，就越不可能在開放市場中被乾淨地清算。[@hypersoren https://hypersoren.xyz/posts/cybernetic-arbitrage/]

市場需要揭示哪些勞動力類別會擴張，哪些會收縮。

「機器勞動力 vs 人類勞動力」，還是「機器勞動力 & 人類勞動力」

Anjali Shriva 在其機制設計草稿中指出，AI 敘事太常被描述為替代。但實際上，它更像是一場協調問題：當人類和機器都參與生產時，工作、歸因、激勵和價值會如何被重新組織。

今天，企業內部許多 AI 使用仍然被困住了，因為員工私下使用 AI，工作流仍然鎖定在個體身上，企業無法為這些生產力提升定價，也無法規模化這些收益。

大多數可自動化的工作可能都會轉移給機器。一部分工作會變成人類復核、責任承擔、訓練和上下文管理。在某些情況下，最後 1% 的人類判斷會變得更加有價值，因為它可以大規模解鎖那 99% 的自動化工作。

Rachel Su Park 的《Brave New World of AI Markets》指出，AI 的 TAM 不應被簡單建模為對現有人類勞動力支出的替代，因為它同時改變了價格和數量。隨著工作成本降低，單位價格可能下降，但消費數量可能擴張，因為現有工作會被更頻繁地消費，過去不具備經濟性的全新工作也會變得可行。文章將其概括為：

P × Q：市場規模 = 單位工作價格 × 被消費的工作數量

如果 AI 讓客服互動變得更便宜，公司就可以提供 24/7 全天候服務能力。這個市場不會只是舊客服勞動力市場的廉價版本，而可能變成一個規模更大的客戶互動市場。

AI 是一個擴張型市場，因為當工作成本下降時，需求並不會保持不變。