首頁

快訊深度數據 Skill&API

Token預算戰爭：企業AI進入「算賬時代」

閱讀本文需 17 分鐘

AI成本、投資回報率（ROI）和企業內部資源分配

原文標題：Token Budget Wars
原文作者：Jaya Gupta
編譯：Peggy

編者按：企業 AI 正在從「是否採用」，進入「如何結算」的階段。

過去兩年，許多公司推動員工使用 AI，更多是為了跟上技術趨勢和競爭壓力。但當 AI 推論成本從實驗預算變成持續性的運營支出，CEO 和 CFO 開始追問一個更現實的問題：AI 到底創造了多少價值？每一美元 token 成本，換來了什麼實際結果？

這正是「Token Budget Wars」的核心。所謂 token 預算戰爭，不只是企業想壓低 AI 帳單，而是要重新評斷哪些業務值得投入更多算力，哪些任務應該換成更便宜的模型，哪些流程可以替代外包或人工，哪些只是無效消耗。

文章最值得關注的是，AI 的使用量並不等於價值。SaaS 時代，使用量通常意味著軟件被採用；但 AI 時代，token 消耗只能說明「計價器在運行」。同一個工作流，可能因為提示詞、上下文、模型選擇和重試次數不同，產生數倍成本差異。帳單變高，既可能是 AI 真正在幹活，也可能是系統在無效折騰。

因此，企業 AI 的下一階段，關鍵不只是模型能力，而是能否把 token 成本和業務結果對應起來。第一階段證明了 AI 可以完成工作；第二階段要回答的是：這些工作到底值不值得付費。

以下為原文：

企業 AI 已經從「是否採用」走向「如何分配」。

在公司高層，新的「通貨」是你量化 AI 投資回報率的能力。每個職能部門都被問到同一個問題：你產出了什麼？成本是多少？過去兩年裡，CEO 們一邊早上醒來看 CNBC 上的 Jim Cramer（#bearish），一邊看著競爭對手宣布生產力提升，然後要求公司上下都去使用 AI。現在真正帶來壓力的，是後續那個問題：把價值證明給我看。

Claude 於 2025 年 11 月發布，而那時大多數企業的 2026 年年度預算已經鎖定。到了第一季度，企業的實際使用量已經遠超原計劃。推論成本不再只是一個用於試驗的預算項目，而變成了持續發生的運營成本。隨之而來的，是一個新問題：AI 到底在哪裡真正創造了價值？

這個問題很難回答，因為 token 的效用並沒有被量化。帳單無法告訴你，這筆支出究竟是替代了人工、創造了收入、降低了風險、加速了流程，還是只是一群工程師為了排行榜瘋狂刷 token（#metamates）。當支出只有幾十萬美元時，它看起來仍像是一場實驗。但超過某個臨界點，比如達到七位數時，它就變成了基礎設施。技術上的差異開始對損益表產生實質影響：同一個工作流、同一組輸入，兩次運行的 token 成本可能相差 5 到 10 倍，而表面上看起來並沒有任何問題。在實驗規模下，這種波動已經相當昂貴；但一旦進入基礎設施規模，它就成了 CFO 必須向 CEO 解釋的數字。

可以把它稱為「邊際 token 效用」：每多花一美元推理成本所創造的商業價值。這是在規模化階段真正重要的數字，也是大多數公司目前看不見的數字。

董事會裡的問題正在從「AI 有沒有用」，轉向「AI 到底在哪裡真正形成槓桿」。也正因如此，所謂 token 預算之爭，本質上是在爭奪 token 的分配權。

而關於 token 所有權的爭奪之所以迅速升溫，是因為它正撞上一種延續了三十年的高管本能：大團隊意味著大職位、大職責範圍和更大的權力。過去，高級管理者成功與否的可見標誌，是他們管理的團隊規模——直屬下屬、隔級下屬，以及組織架構中的人數。

但當智能成為稀缺資源，新的標誌就變成了：你能調度多少智能。

AI 支出本質上正在與人工成本競爭。

大多數 AI 預算申請，本質上都是三類主張之一：替代外包勞動力，替代內部勞動力，或創造新的收入。

一個員工有工資。一個 BPO 外包合同有按工單、理賠、發票或審核計價的價格。人類能夠理解這些計量單位。但推理成本更複雜，因為一個任務最終完成的成本，取決於系統在執行過程中如何運行。一個需要三次重試、人工修正，並且調用前沿模型的理賠任務，可能比它原本打算替代的外包人力還要貴。也正因如此，討論正在轉向：完成一個結果的成本是多少？比如每個已解決工單、每筆已處理理賠、每份已審合同、每張已完成發票、每個避免新增的崗位、每個留住的客戶，或者每一美元收入轉化所對應的成本。

高管們已經意識到，BPO 是最容易建立基準的地方，因為這些工作本來就已經按照「完成單位」計價。相比之下，內部員工與 AI 的比較要困難得多，因為員工每天會做很多事情，包括午休時刷 TikTok；生產率提升往往體現為避免招聘或分散的產能釋放；而管理者也會抗拒僅僅基於部分自動化就削減團隊人數。BPO 為業務團隊提供了一個可量化的基準線。

這與 SaaS 的邏輯不同。SaaS 曾經訓練企業把使用量視為價值的代理指標。

但 AI 打破了這一點。同一個工作流消耗多少推理資源，可能會因為提示詞、檢索到的上下文、所選模型、調用的工具、重試次數，以及 agent 是否卡住而出現巨大差異。帳單上的單位——token——是穩定的，但它所代表的工作量並不穩定。

更準確地說：信號和噪音使用的是同一個計量單位。token 帳單上升，可能意味着真正的工作正在完成；但也可能意味著算力正在被浪費在糟糕的提示詞、無關上下文、不必要的工具調用、重複推理和能力過剩的模型上。兩家企業的 token 帳單可能完全相同，但底層運行的業務截然不同：一家正在把推理轉化為結果，另一家則是在為無效折騰買單，而這兩種情況在帳單條目上看起來一模一樣。

SaaS 的使用量告訴你：軟體已經被採用。AI 的使用量只能告訴你：計價器正在運行。它並不能告訴你，公司到底有沒有真正跑起來。

為什麼邊際 token 效用難以看見？

主要有三點。

第一是重試長尾。如果一個 agent 第一次就正確完成工作流的概率是 p，那麼每個已解決工作流的預期 token 消耗大致會按照 T/p 擴大，其中 T 是基礎成本。如果完成率從 90% 下降到 70%，每次解決問題的有效成本大約會提高 28%，而不是 20%，因為失敗會產生複合效應。在企業工作流中，輸入往往混亂，異常情況也很重要。失敗不僅會降低準確率，還會改變經濟賬。

第二是上下文膨脹。對於高度依賴注意力機制的操作，推理成本大致會隨著上下文長度以 O(n²) 的方式增長。因此，上下文長度翻倍，推理成本大約會變為四倍。每個人都希望模型掌握足夠信息，所以系統往往會過度供給：原本五份文檔就夠，檢索卻拉取了五十份；連接器直接倒入整條郵件線程；agent攜帶著早已過時的對話歷史繼續運行。

第三是路由。当團隊不知道哪個模型「足夠好」時，預設就會使用最強的模型。一個基礎分類任務，可能會跑在原本用於複雜推理的同一個模型上。當調用量達到數百萬次時，把簡單任務交給小模型，還是把所有任務都交給前沿模型，往往就是可控帳單與董事會級別問題之間的區別。

非軟體行業會以一種「轉型」的形式感受到這種痛苦。軟體公司會最先看到這個問題，因為被優化的工作本來就已經被充分儀表化。工程團隊有 PR、提交、部署、事故、周期時間、平均修復時間等指標，而且這些指標與產品相連。雖然並不完美，但這類工作更容易被衡量。

非軟體企業會更深刻地感受到這個問題，因為它們的工作是運營性的。比如理賠、承保、客服工單、合規審查、供應鏈異常、支付爭議。或者，那些擁有現實世界資產的公司也會面臨同樣問題。這些工作流過去通常用人工、周期時間、SLA 達成率和錯誤率來衡量，而且往往有更高要求，需要在審計中站得住腳，而不只是平均意義上正確。工作單位和成本單位並不使用同一種語言，也不處在同一個組織裡。技術團隊能看到 token 消耗，業務部門能看到工作流變化，但要把兩者連接起來，需要多個團隊先對「到底在衡量什麼」達成一致。

我認為，軟體公司會把 token 預算之爭體驗為一個生產率衡量問題，這也對應了此前發生的諸多「AI 裁員」；而非軟體企業會把它體驗為一個轉型問題。

缺失的那一層，是從 token 到結果的歸因。企業需要一個轉換層，把推理支出與完成的工作、產生的業務結果連接起來。這個層必須回答三個問題：這個工作流的真實成本是多少，包括重試和修正？agent 的執行軌跡中，哪些部分真正重要，哪些只是無效折騰？這項工作是否改變了運營模式——比如每個客服處理更少工單、理賠周期更短、BPO 預算更小、招聘被延遲？下一層，是用業務語言來做結果歸因。不是簡單地說「這個工作流花了 2.13 美元」，而是要說：這類理賠由 agent 處理比 BPO 更便宜，但如果保單要求額外異常文件，重試長尾就會摧毀經濟性。

衡量會變成記憶。為了把一個 token 與一個結果連接起來，企業必須捕捉中間發生的一切：agent 看到了什麼、檢索了什麼、調用了哪些工具、忽略了什麼、在哪裡重試、什麼時候被人工覆蓋、適用了哪個異常規則、哪個先例起了作用，以及為什麼一條路徑成功而另一條路徑失敗。衡量層必須記錄決策軌跡，而這恰恰是企業過去幾乎從未真正擁有過的東西。記錄系統能夠捕捉發生了什麼，但很少能捕捉為什麼。比如，CRM 可以告訴你一筆交易延遲了，但無法告訴你銷售預測背後那些未被寫下來的判斷。

決策理由是公司裡最容易腐敗、最容易消失的資產之一，因為它存在於 Slack 線程、郵件鏈、升級會議和人的腦子裡。但問題在於，人會離開，流程也會變化。

AI 改變了這一點，因為 agent 會生成軌跡。每一次檢索、工具調用、重試、升級、人工修正和最終決策，都會成為從上下文到行動再到結果這條路徑的一部分。起初，公司會捕捉這些軌跡，是為了證明支出的合理性。但一旦這些軌跡被捕捉下來，它們就會比成本報告本身更有價值，因為它們會變成一份持久記錄，記錄組織實際上是如何做決策的。（咳，context graph，雖然我最近真的已經聽膩這個詞了。）

分配層才是真正的獎品。如果推理成為客戶運營模型中的一種按量計費資源，那麼每一美元都必須證明自己值得花。哪些供應商能夠說明 token 什麼時候轉化成了結果，什麼時候沒有，以及為什麼？

企業不會自己把這件事完全摸索出來。它們會把它當作一場轉型來購買。財富 500 強企業以前已經反覆上演過這種劇本：系好安全帶，聘請麥肯錫，把市場上每一個 Palantir 前員工都招進來，然後由 CEO 自上而下推動變革。Token 到結果的歸因也會以類似 ERP、BI 和數位化轉型的方式出現：作為一個有高管背書的「專案」到來，底層配套一套基礎設施，並最終成為新的事實來源。能夠做成這件事的創始人，會組建不同類型的創始團隊，他們本身也會不同於傳統意義上的創業者原型。

誰掌握了 token 到結果的歸因，誰就能做出分配決策：哪些工作流值得更多算力，哪些應該設限，哪些應該切換到更便宜的模型，哪些繼續由人完成，哪些可以替代 BPO。而一旦你能做出這些決策，你就控制了企業內部 AI 支出的流向，並獲得了分配這筆資源所需的信任。

企業 AI 的第一階段證明了：模型可以完成工作。下一階段將決定的是：這些工作到底有多少值得付費。正如查理·芒格所說：給我看激勵機制，我就能告訴你結果。

[原文連結]

歡迎加入律動 BlockBeats 官方社群：

Telegram 訂閱群：https://t.me/theblockbeats

Telegram 交流群：https://t.me/BlockBeats_App

Twitter 官方帳號：https://twitter.com/BlockBeatsAsia

#令牌 #企業

糾錯/舉報