原文標題:The Untrainable
原文作者:Sarah Guo,Conviction
編譯:Peggy,BlockBeats
編者按:當 AI 能力持續跃迴,投資圈正在出現一種新的悲觀判斷:如果模型越來越強,所有應用公司終將被 Anthropic、OpenAI、Nvidia 這類模型與算力層吞噬,市場最後只剩下前沿模型、算力和少數基礎設施。但 Sarah Guo 認為,這種判斷只說對了一半。那些「thin wrapper」(薄包裝,即簡單套殼模型的應用)確實會被吸收,凡是能夠被 benchmark(基準測試)衡量、被公開數據訓練、被低成本驗證的任務,也都會逐漸商品化。
真正的問題是:AI 吞噬一切可訓練之物後,什麼仍然不可訓練?
本文的答案,是那些存在於真實組織內部、無法從外部輕易複製的價值:企業私有數據、複雜工作流、用戶信任、系統權限、行業判斷、合規責任,以及長期運行中積累出的經驗。模型可以更聰明,卻不能自動進入銀行的生產系統;可以生成醫療答案,卻不能直接獲得醫生的信任和醫院的決策流程;可以寫出法律文本,卻不能替資深律師承擔責任,也不能憑空定義什麼才是合格的法律工作。
因此,未來真正有護城河的 AI 公司,不是簡單地比通用模型更聰明,而是深入某個行業內部,完成艱難但關鍵的「翻譯」工作:把客戶的私有現實、工具、流程和判斷標準整理成模型可以行動的系統,並在長期服務中逐漸寫下「什麼才算好結果」的定義。AI 越強,越會讓可衡量、可複製的任務貶值;也越會凸顯那些帶有歷史、關係、權限和專業判斷的「不可訓練之物」。這才是模型吞噬之後,仍然可能保留下來的真正價值。
以下為原文:
2026 年中,投資者版本的「AI 精神錯亂」,是一種認為已經沒有任何東西值得投資的絕望感:我們好像應該把所有錢都投給 Anthropic 和 Nvidia,然後回家睡覺。但我從來沒有這種感覺。過去好幾個小版本以來,我一直確信模型已經比我更聰明;如果按市場價格買入 Anthropic 和 Nvidia,我也會很樂意;我身邊最聰明的朋友也都相當確信,模型的自我改進很快就會真正跑通——但我仍然沒有這種絕望感。
這種絕望並不愚蠢。它的邏輯是這樣的:如果模型在所有事情上都持續變強,那麼所有建立在模型之上的公司,都只是等待被模型吸收的薄薄一層外殼;最終能保留下來的價值,只剩算力和前沿模型權重。
以軟件為例,這是這種絕望感最依賴的案例。Devin 在 2024 年發布時,只能解決標準軟件基準測試中 13% 的任務,因此大體上被市場輕視。一年半之後,最強的 Agent 已經能達到 80% 多的高分,並且開始在高盛和美國陸軍內部處理真實工作。幾乎所有人都得出了同一個錯誤結論:模型吞掉了軟件工程。
但當模型吞下了軟件工程中最容易被衡量的那部分之後,我們也在重新認識許多團隊早就知道的一點:工程本來就一直抗拒衡量,而最容易被衡量的部分,未必就是唯一重要的部分。
MIT 的 Mert Demirer 及其合作者終於把這件事量化了:在超過 10 萬名開發者中,最新一代編碼 Agent 讓程式碼撰寫量大約提升了 180%,但真正交付上線的程式碼量只提升了約 30%。寫程式碼變便宜了,但剩下的環節仍然要經過人,而且這些環節很重要。當然,整體淨影響依然驚人。
基準測試,是一種你可以衡量的東西;而任何可以被衡量的東西,都可以被拿來訓練。因此,編碼 Agent 最先成熟:編譯器是免費的驗證器,測試套件也是免費的驗證器。當答案幾乎可以零成本地自我檢查時,你就可以圍繞這個檢查信號不斷打磨,直到把它打穿。
但通過測試從來不意味著這個改動對一個已經運行了十年的程式庫來說就是正確的。那個模塊之所以存在,背後可能有三個沒人寫進文檔的原因;部署流水線可能靠一個沒人願意承認是自己寫的 cron job 勉強維持著。
這種正確性無法從排行榜上讀出來,甚至也無法真正從任何東西裡直接讀出來。你只能讓一個如此複雜的系統在真實世界裡運行足夠久,才能知道它是否真的有效。而更聰明的模型,並不會讓真實世界運行得更快。沒有人會給一個像 Google 這麼大的系統跑完單元測試、看到綠色勾就完全放心。你之所以信任它,是因為它已經承受了多年真實負載。
這種正確性不僅是私有的,而且是一種緩慢形成的護城河,是資本無法直接壓縮時間的護城河。即便是樂觀派也承認,這個時鐘無法跳過。OpenAI 推理模型的先驅 Noam Brown 最近寫道:評估一個 Agent 在一年周期裡的表現,唯一可靠的方法可能就是讓它真的運行一年。
正如 Gabe Pereyra 所說,真正的自動化並不只是模型變得更強。它是產品、模型、工作流和公司組織一起變化,而這四者之中,有三個都按照組織的速度前進。
讓人動起來,是任何基準測試都觸及不到的部分:說服一個持懷疑態度的合夥人改變她處理事務的方式,讓一支團隊在重建過程中保持凝聚力。這也是為什麼我們在招聘 CEO 時,看重其處理人的能力,至少不亞於分析能力。模型變得更聰明,並不會改變這個權重。
這裡的反饋是模糊的,時間跨度是以年為單位的,而信任屬於某個具体的人。我認識的每家公司,都已經讓每位工程師使用前沿編碼模型,但沒有一家公司的工程組織以接近模型進步的速度發生變化。採用工具只花了一個季度,而那是多麼神奇的一個季度 token 增長期!但真正的重建需要數年。
可被看清的工作,正在離開。真正有價值的工作,在結構上就是不可讀的:任何你能放到排行榜上的東西,都可以被拿來訓練;因此,任何可衡量之物,都已經在走向商品化。這個過程需要時間,也永遠不會徹底完成,但方向從不會逆轉。
用我朋友、Rippling 的 Matt MacInnis 的說法,把它換成金錢語言就是:一個 token 如果只是用來回答一個通用問題,幾乎一文不值,因為任何人的模型都能回答;但一個 token 如果是在你的公司數據之上進行推理,就值錢得多,因為它做的是你真正想要的事,而不只是生成一個看起來合理的答案。
可讀的工作會從兩個方向被吞掉。
從下方看,任務會飽和:一旦某項工作可以被低成本檢查,買家就不再關心是哪一個模型完成了它,而是開始問它要多少錢。於是,這項工作就會落到當周最便宜的開源模型或蒸餾模型手裡。只要利潤率能夠發揮作用,最終它就一定會發揮作用。
從上方看,實驗室正在嘗試讓模型吞掉自己的腳手架。檢索、便宜調用與昂貴調用之間的路由、工具使用,甚至推理策略——所有曾經包裹在模型外面的裝置,都正在被拉進模型權重之中,直到「外殼」本身變成模型。這就是吸收邊界。
利潤壓力也會從另一個方向發揮作用:一個通用 Agent 必須隨時準備處理任何事情,因此成本很高;而一個聚焦型應用可以把一個工作流調優到極致,讓它只消耗一小部分 token。並且,與出售這些 token 的實驗室不同,應用公司可以把中間的差額留下來。
因此,我們可以向任何一種工作提出兩個問題:它的正確性是不是私有的、昂貴的,是否是一種只存在於某家公司數據內部的真相?它是否被隔離在一個外人無法進入的系統之內?再把這些問題與任務的飽和程度放在一起,就會得到一個 2×2 矩陣。
已經飽和、答案公開的工作,是商品化 token 的地盤,開源模型會佔據它。前沿但答案公開的工作,比如編碼基準測試,是實驗室會贏的地方,因為當評估是免費的,擁有它本身就不值錢。
真正的獎品,是最後一個角落,也就是「不可訓練」的角落:前沿工作,但其正確性只存在於私有環境之中。你可以在為 AI 原生先行者提供服務的推理雲上看到這一點:絕大多數 token 都是由定制模型生成的,而不是由通用開源模型生成的。
通往這個最後角落的牆,有高有低。一個開發者的玩具程式庫是可遷移、標準化的,所以爬進去並不難。但一家銀行的生產系統既不可遷移,也不標準化。你不會因為在 SWE-Bench Verified 上聰明了 2%,就獲得它的 root 權限。
能力會吞掉很多東西,但更好的模型不會讓私有的真實標準變成公開標準。它不會持有許可證,不會為責任簽字,也不擁有公司的文件;當答案出錯時,它也不能成為被起訴的一方。這裡的瓶頸不是智能,而是權限,也是責任。你可以想像一個遠比任何人都聰明的模型,但它仍然必須被允許進門,而且仍然必須有人為它做的事情簽上自己的名字。
那扇門有一道鎖,還有一道門閂。
那道鎖是環境:只有在一個系統內部獲得信任之後,經過安全審查、完成集成、簽下帶有結果責任的合同,你才能驗證 AI 是否真的做了有用的事。
那道門閂是用戶。如今,大多數美國醫生每天都會打開 OpenEvidence,這不是任何算力都能買來的。一家實驗室明天就可以訓練出一個完美的醫療模型,但它依然沒有辦法進入醫生的使用習慣,也沒有辦法進入 UCSF 的決策流程。因為信任是慢慢建立起來的,靠關係、靠用戶的默許,而不是靠梯度下降把這些東西抹掉。
這也正是應用公司的工作。一款應用之所以能在「不可訓練」的角落裡佔據位置,靠的是那些並不光鮮的工作:整理一家公司的私有現實,讓模型能夠基於它行動;把行動工具交給模型;與客戶一起改變其勞動力的實際運作方式。
一家能夠完成這種「翻譯」的公司很難被複製,而且這種翻譯永遠不會結束。整合和維護會隨著客戶關係一直持續下去。贏下這件事的,是那些把領域專精工程師和工具放到客戶身邊的團隊。
舉個例子,在一家頂級老牌律所裡,光是併購業務每年就接近一千宗交易。你不能讓幾百名律師助理分別把客戶檔案下載到桌面,然後交給一個通用 Agent 去通讀。保密原因就已經不允許這樣做,更不用說還有十幾個其他問題。即便可以這樣做,你學到的也只是碎片:一個助理一次纠正一點,沒有人能看見一整宗交易是如何流動的。
真正重要的信號,存在於交易這個層級。一宗交易有自己的形狀:對併購來說,是 NDA、條款清單、尽職调查、购买協議、附属文件、交割清單;對知識產權訴訟來說,是動議、證據開示、現有技術、更多動議。每個業務領域都有自己的結構,律師和工具都不能隨意互換。
而這家律所真正要解決的問題,還在更高一層:如何同時運行每一個業務領域,就像頂級合夥人一邊並行管理數百個事項,一邊引入新案源、培養助理律師。改造這樣一家公司,並不是一個你可以寫出評測任務的單一問題。它需要一位操盤手像打「資料棒球」一樣處理它:中間目標極其模糊,反饋不完整,周期極長,而且環境本身也不會靜止。
不幸的是,不可讀的價值也很難銷售,原因和它難以商品化一樣:一家公司無法從外部判斷,AI 到底能不能像基準測試顯示的那樣改造它的運營。因此,最強的公司會停止嘗試在外部證明自己,而是先進入客戶內部,然後為結果定價。
Sierra 只有在它的 Agent 解決了客戶問題時才收費;如果問題被轉交給人類,它就不收費。因此,價格本身變成了評估機制。而這之所以成立,是因為 Sierra 擁有「已解決」的定義權。Cognition 的 Devin 在軟件領域做了同樣的事,推出「性能保證」。只有當你被信任地進入一個系統內部時,才有資格為結果提供這種保證。
即便是在提供 token 服務這一層——也就是所有人都喜歡稱之為純商品的那一層——它的表現也並不像商品。最好的 AI 原生公司會把服務集中在一到兩家供應商那裡,比如 Baseten 或 Fireworks。因為每 token 成本會按時走向商品化,但真實流量下的可靠性,以及對稀缺算力的穩定獲取,並不會商品化。在哪裡提供推理服務,與使用哪些模型,是兩個不同的選擇。推理中唯一真正像商品的部分,是價格。
一個常見反駁是:實驗室是你的供應商,為什麼它不會用自家第一方產品低於成本傾銷,把你拖死?或者直接撤銷你的 API 訪問權限,自己拿走這個市場?這才是那種絕望感的真實版本。但它只有在模型層是單人遊戲時才成立。
很明顯,事實並非如此。模型層更像是一場三家半玩家的死亡競賽,旁邊還有一批訓練進度落後大約六個月的國際玩家,以及一個規模是去年的五倍的發展聯盟。客戶希望自己的供應商之間存在競爭,而實驗室想要市場份額,勝過想要殺死任何一個具體應用。
你可以在實驗室正面競爭的市場裡看到這一點。在消費者聊天場景裡,最好的模型從來沒有簡單地贏下全部市場。ChatGPT 在多年真實競爭中一直保持領先;它現在失去的份額,流向的是 Gemini,而原因是 Android 和搜索的分發能力,並不是模型更好。Anthropic 目前在預測市場和互聯網氛圍中被認為擁有最好的模型,但它在消費者聊天中幾乎不是主要玩家,而是在企業和編碼場景中建立了自己的業務。
如果一個更好的模型都無法在最核心的應用中奪走競爭對手的用戶,它也不會輕易通過集成吃下一家醫院的病歷系統,或一家銀行的責任體系。今天,公眾選擇產品依據的東西,不只是編碼能力。如果前沿模型層依然擁擠,那麼它上方的應用層就會有價值。
如果一項工作無法從外部評分,那麼內部就必須有人來決定什麼才算是好答案。而這個決定,就是整個遊戲本身。足夠多這樣的決定被寫下來,就會變成基準測試。Harvey 發布了法律領域的基準測試,Sierra 發布了語音 Agent 的基準測試。你之所以有權定義一個領域裡的「好」是什麼意思,是因為這個領域已經在使用你。而這些公司,是通過真實採用過程中的艱難鬥爭贏得這種權利的。
真正決定金錢流向的評估,是私有的、逐公司形成的:這家公司,在這種事項上,會接受什麼作為好工作。而這件事遠遠沒有完成,因為法律的深度遠遠超過任何公開測試。OpenEvidence 正在沉澱什麼才是安全的臨床答案。
這一切其實都不是真正意義上的「測量」,而是關於什麼是真的、什麼是好的判斷。這些判斷被寫下來,直到變成其他所有人都要接受衡量的標準。無論基礎模型實驗室變得多聰明,它都無法凭空寫出這些標準,因為這種地位只存在於領域內部。
這種權威往往會落在它原本就存在的地方。資深律師寫下法律基準。定義安全臨床答案的是醫生。「已解決」意味著什麼,則由那個已經擁有客戶關係的公司來決定。
吸收邊界還會繼續上升,因為我們會不斷學會衡量更多工作,而可衡量之物會被吞掉。不可訓練的地面會在站在上面的人腳下不斷縮小,所以你不能找到一個可防守的位置就停下來。你必須不斷走向那些還無法被評分的地方,並且持續重新承保、重新評斷風險。
在一個狹窄任務上,憑藉你的私有數據和你自己的評估體系,你可以訓練到前沿水平,並在關鍵場景中打敗通用模型;這個專用模型會成為護城河的一部分。另一方面,如果你是在通用模型能力上競爭,那就是一場資本戰爭,你會輸給擁有最多算力的人。這也是那些只有淺層訪問權限、任務又高度可讀的公司最容易落入的陷阱。
當一家公司為了生存而決定在一大片通用任務上訓練出超過前沿模型的能力時,勝負看起來通常已經由資料中心規模決定。最後的結局往往不是出現一個獨立冠軍,而是被賣給某個算力充足的玩家。
以上都是防守。更難的是進攻:首先決定到底要建什麼。這就是我這一年一直在尋找的東西,而我大概只找到了三次。模型在這件事上幫不上忙。你把它指向哪裡,它就會做什麼;但它無法告訴你什麼值得被指向。你無法為此建立基準測試,因此也無法訓練它。
這也是為什麼既有巨頭不會拿走一切:它們會守住自己已經擁有的地盤,而下一個東西來自某個在其他人之前發現用途的人。也許,意圖是一種比算力更加稀缺的輸入。
這種絕望感有一半是對的。薄外殼層確實正在被吸收,而今天很多看起來像公司的東西,確實只是薄外殼。但它對於「吸收之後還剩下什麼」的判斷是錯的。機制是清楚的,終點卻不是。
我願意下注的是這個方向:智能會繼續變得更便宜,而價值會繼續滑向少數幾個模型無法抵達的地方。不可訓練之物,是帶有歷史的價值。
所以,進入其中一個這樣的領域,去做那些並不光鮮的翻譯工作,然後開始寫下那裡「好」的定義。因為總有人會這麼做。今年最常被引用的基準測試分數,其實是一張即將變得一文不值的領地圖,也是一份通知:通知某些人,他們即將失去定義什麼才算「好」的權利。
[原文連結]
歡迎加入律動 BlockBeats 官方社群:
Telegram 訂閱群:https://t.me/theblockbeats
Telegram 交流群:https://t.me/BlockBeats_App
Twitter 官方帳號:https://twitter.com/BlockBeatsAsia