原文標題:Token Budget Wars
原文作者:Jaya Gupta
編譯:Peggy
編者按:企業 AI 正在從「是否採用」,進入「如何結算」的階段。
過去兩年,許多公司推動員工使用 AI,更多是為了跟上技術趨勢和競爭壓力。但當 AI 推論成本從實驗預算變成持續性的運營支出,CEO 和 CFO 開始追問一個更現實的問題:AI 到底創造了多少價值?每一美元 token 成本,換來了什麼實際結果?
這正是「Token Budget Wars」的核心。所謂 token 預算戰爭,不只是企業想壓低 AI 帳單,而是要重新評斷哪些業務值得投入更多算力,哪些任務應該換成更便宜的模型,哪些流程可以替代外包或人工,哪些只是無效消耗。
文章最值得關注的是,AI 的使用量並不等於價值。SaaS 時代,使用量通常意味著軟件被採用;但 AI 時代,token 消耗只能說明「計價器在運行」。同一個工作流,可能因為提示詞、上下文、模型選擇和重試次數不同,產生數倍成本差異。帳單變高,既可能是 AI 真正在幹活,也可能是系統在無效折騰。
因此,企業 AI 的下一階段,關鍵不只是模型能力,而是能否把 token 成本和業務結果對應起來。第一階段證明了 AI 可以完成工作;第二階段要回答的是:這些工作到底值不值得付費。
以下為原文:
在公司高層,新的「通貨」是你量化 AI 投資回報率的能力。每個職能部門都被問到同一個問題:你產出了什麼?成本是多少?過去兩年裡,CEO 們一邊早上醒來看 CNBC 上的 Jim Cramer(#bearish),一邊看著競爭對手宣布生產力提升,然後要求公司上下都去使用 AI。現在真正帶來壓力的,是後續那個問題:把價值證明給我看。
Claude 於 2025 年 11 月發布,而那時大多數企業的 2026 年年度預算已經鎖定。到了第一季度,企業的實際使用量已經遠超原計劃。推論成本不再只是一個用於試驗的預算項目,而變成了持續發生的運營成本。隨之而來的,是一個新問題:AI 到底在哪裡真正創造了價值?
這個問題很難回答,因為 token 的效用並沒有被量化。帳單無法告訴你,這筆支出究竟是替代了人工、創造了收入、降低了風險、加速了流程,還是只是一群工程師為了排行榜瘋狂刷 token(#metamates)。當支出只有幾十萬美元時,它看起來仍像是一場實驗。但超過某個臨界點,比如達到七位數時,它就變成了基礎設施。技術上的差異開始對損益表產生實質影響:同一個工作流、同一組輸入,兩次運行的 token 成本可能相差 5 到 10 倍,而表面上看起來並沒有任何問題。在實驗規模下,這種波動已經相當昂貴;但一旦進入基礎設施規模,它就成了 CFO 必須向 CEO 解釋的數字。
可以把它稱為「邊際 token 效用」:每多花一美元推理成本所創造的商業價值。這是在規模化階段真正重要的數字,也是大多數公司目前看不見的數字。
董事會裡的問題正在從「AI 有沒有用」,轉向「AI 到底在哪裡真正形成槓桿」。也正因如此,所謂 token 預算之爭,本質上是在爭奪 token 的分配權。
而關於 token 所有權的爭奪之所以迅速升溫,是因為它正撞上一種延續了三十年的高管本能:大團隊意味著大職位、大職責範圍和更大的權力。過去,高級管理者成功與否的可見標誌,是他們管理的團隊規模——直屬下屬、隔級下屬,以及組織架構中的人數。
但當智能成為稀缺資源,新的標誌就變成了:你能調度多少智能。
AI 支出本質上正在與人工成本競爭。
大多數 AI 預算申請,本質上都是三類主張之一:替代外包勞動力,替代內部勞動力,或創造新的收入。
一個員工有工資。一個 BPO 外包合同有按工單、理賠、發票或審核計價的價格。人類能夠理解這些計量單位。但推理成本更複雜,因為一個任務最終完成的成本,取決於系統在執行過程中如何運行。一個需要三次重試、人工修正,並且調用前沿模型的理賠任務,可能比它原本打算替代的外包人力還要貴。也正因如此,討論正在轉向:完成一個結果的成本是多少?比如每個已解決工單、每筆已處理理賠、每份已審合同、每張已完成發票、每個避免新增的崗位、每個留住的客戶,或者每一美元收入轉化所對應的成本。
高管們已經意識到,BPO 是最容易建立基準的地方,因為這些工作本來就已經按照「完成單位」計價。相比之下,內部員工與 AI 的比較要困難得多,因為員工每天會做很多事情,包括午休時刷 TikTok;生產率提升往往體現為避免招聘或分散的產能釋放;而管理者也會抗拒僅僅基於部分自動化就削減團隊人數。BPO 為業務團隊提供了一個可量化的基準線。
這與 SaaS 的邏輯不同。SaaS 曾經訓練企業把使用量視為價值的代理指標。
但 AI 打破了這一點。同一個工作流消耗多少推理資源,可能會因為提示詞、檢索到的上下文、所選模型、調用的工具、重試次數,以及 agent 是否卡住而出現巨大差異。帳單上的單位——token——是穩定的,但它所代表的工作量並不穩定。
更準確地說:信號和噪音使用的是同一個計量單位。token 帳單上升,可能意味着真正的工作正在完成;但也可能意味著算力正在被浪費在糟糕的提示詞、無關上下文、不必要的工具調用、重複推理和能力過剩的模型上。兩家企業的 token 帳單可能完全相同,但底層運行的業務截然不同:一家正在把推理轉化為結果,另一家則是在為無效折騰買單,而這兩種情況在帳單條目上看起來一模一樣。
SaaS 的使用量告訴你:軟體已經被採用。AI 的使用量只能告訴你:計價器正在運行。它並不能告訴你,公司到底有沒有真正跑起來。
主要有三點。
第一是重試長尾。如果一個 agent 第一次就正確完成工作流的概率是 p,那麼每個已解決工作流的預期 token 消耗大致會按照 T/p 擴大,其中 T 是基礎成本。如果完成率從 90% 下降到 70%,每次解決問題的有效成本大約會提高 28%,而不是 20%,因為失敗會產生複合效應。在企業工作流中,輸入往往混亂,異常情況也很重要。失敗不僅會降低準確率,還會改變經濟賬。
第二是上下文膨脹。對於高度依賴注意力機制的操作,推理成本大致會隨著上下文長度以 O(n²) 的方式增長。因此,上下文長度翻倍,推理成本大約會變為四倍。每個人都希望模型掌握足夠信息,所以系統往往會過度供給:原本五份文檔就夠,檢索卻拉取了五十份;連接器直接倒入整條郵件線程;agent攜帶著早已過時的對話歷史繼續運行。
第三是路由。当團隊不知道哪個模型「足夠好」時,預設就會使用最強的模型。一個基礎分類任務,可能會跑在原本用於複雜推理的同一個模型上。當調用量達到數百萬次時,把簡單任務交給小模型,還是把所有任務都交給前沿模型,往往就是可控帳單與董事會級別問題之間的區別。
非軟體行業會以一種「轉型」的形式感受到這種痛苦。軟體公司會最先看到這個問題,因為被優化的工作本來就已經被充分儀表化。工程團隊有 PR、提交、部署、事故、周期時間、平均修復時間等指標,而且這些指標與產品相連。雖然並不完美,但這類工作更容易被衡量。
非軟體企業會更深刻地感受到這個問題,因為它們的工作是運營性的。比如理賠、承保、客服工單、合規審查、供應鏈異常、支付爭議。或者,那些擁有現實世界資產的公司也會面臨同樣問題。這些工作流過去通常用人工、周期時間、SLA 達成率和錯誤率來衡量,而且往往有更高要求,需要在審計中站得住腳,而不只是平均意義上正確。工作單位和成本單位並不使用同一種語言,也不處在同一個組織裡。技術團隊能看到 token 消耗,業務部門能看到工作流變化,但要把兩者連接起來,需要多個團隊先對「到底在衡量什麼」達成一致。
我認為,軟體公司會把 token 預算之爭體驗為一個生產率衡量問題,這也對應了此前發生的諸多「AI 裁員」;而非軟體企業會把它體驗為一個轉型問題。
缺失的那一層,是從 token 到結果的歸因。企業需要一個轉換層,把推理支出與完成的工作、產生的業務結果連接起來。這個層必須回答三個問題:這個工作流的真實成本是多少,包括重試和修正?agent 的執行軌跡中,哪些部分真正重要,哪些只是無效折騰?這項工作是否改變了運營模式——比如每個客服處理更少工單、理賠周期更短、BPO 預算更小、招聘被延遲?下一層,是用業務語言來做結果歸因。不是簡單地說「這個工作流花了 2.13 美元」,而是要說:這類理賠由 agent 處理比 BPO 更便宜,但如果保單要求額外異常文件,重試長尾就會摧毀經濟性。
衡量會變成記憶。為了把一個 token 與一個結果連接起來,企業必須捕捉中間發生的一切:agent 看到了什麼、檢索了什麼、調用了哪些工具、忽略了什麼、在哪裡重試、什麼時候被人工覆蓋、適用了哪個異常規則、哪個先例起了作用,以及為什麼一條路徑成功而另一條路徑失敗。衡量層必須記錄決策軌跡,而這恰恰是企業過去幾乎從未真正擁有過的東西。記錄系統能夠捕捉發生了什麼,但很少能捕捉為什麼。比如,CRM 可以告訴你一筆交易延遲了,但無法告訴你銷售預測背後那些未被寫下來的判斷。
決策理由是公司裡最容易腐敗、最容易消失的資產之一,因為它存在於 Slack 線程、郵件鏈、升級會議和人的腦子裡。但問題在於,人會離開,流程也會變化。
AI 改變了這一點,因為 agent 會生成軌跡。每一次檢索、工具調用、重試、升級、人工修正和最終決策,都會成為從上下文到行動再到結果這條路徑的一部分。起初,公司會捕捉這些軌跡,是為了證明支出的合理性。但一旦這些軌跡被捕捉下來,它們就會比成本報告本身更有價值,因為它們會變成一份持久記錄,記錄組織實際上是如何做決策的。(咳,context graph,雖然我最近真的已經聽膩這個詞了。)
分配層才是真正的獎品。如果推理成為客戶運營模型中的一種按量計費資源,那麼每一美元都必須證明自己值得花。哪些供應商能夠說明 token 什麼時候轉化成了結果,什麼時候沒有,以及為什麼?
企業不會自己把這件事完全摸索出來。它們會把它當作一場轉型來購買。財富 500 強企業以前已經反覆上演過這種劇本:系好安全帶,聘請麥肯錫,把市場上每一個 Palantir 前員工都招進來,然後由 CEO 自上而下推動變革。Token 到結果的歸因也會以類似 ERP、BI 和數位化轉型的方式出現:作為一個有高管背書的「專案」到來,底層配套一套基礎設施,並最終成為新的事實來源。能夠做成這件事的創始人,會組建不同類型的創始團隊,他們本身也會不同於傳統意義上的創業者原型。
誰掌握了 token 到結果的歸因,誰就能做出分配決策:哪些工作流值得更多算力,哪些應該設限,哪些應該切換到更便宜的模型,哪些繼續由人完成,哪些可以替代 BPO。而一旦你能做出這些決策,你就控制了企業內部 AI 支出的流向,並獲得了分配這筆資源所需的信任。
企業 AI 的第一階段證明了:模型可以完成工作。下一階段將決定的是:這些工作到底有多少值得付費。正如查理·芒格所說:給我看激勵機制,我就能告訴你結果。
[原文連結]
歡迎加入律動 BlockBeats 官方社群:
Telegram 訂閱群:https://t.me/theblockbeats
Telegram 交流群:https://t.me/BlockBeats_App
Twitter 官方帳號:https://twitter.com/BlockBeatsAsia