首頁

快訊深度數據 Skill&API

OpenAI吃掉應用層？a16z說真正的機會在通用模型之外

閱讀本文需 29 分鐘

AI應用層沒死，只是輪不到套殼賺錢了

原文標題：避免在黃磚路上死亡

原文作者：Joe Schmidt IV，a16z

翻譯：Peggy

編者按：隨著大型模型的能力不斷提升，AI 應用層正面臨普遍焦慮：如果 OpenAI、Anthropic 等模型公司既掌握底層模型，又擁有分發渠道和品牌優勢，創業公司還能在應用層做什麼？

這正是 a16z 合夥人 Joe Schmidt 在這篇文章中試圖回答的問題。他借用《綠野仙蹤》中的「黃磚路」作比喻，將 AI 應用機會分成兩類：一類是大型模型公司正在親自進入的主路，比如程式碼生成、撰寫、影像生成、通用型 Agent 和橫向辦公助手；另一類則是「奧茲國的其他地方」，也就是那些深入行業流程、依賴複雜工作流、資料沉澱、合規治理和系統整合能力的垂直場景。

在他看來，創業公司真正的機會在後者。

從銷售到保險，Joe Schmidt 反覆強調同一個邏輯：企業真正願意付費的，不是一個更聰明的聊天窗口，而是一個能對業務結果負責的系統。它需要理解客戶資料的混亂狀態，處理多人審批和邊界案例，承擔合規與審計責任，也要在模型不斷升級時，替客戶完成遷移、路由和成本優化。

這也是本文對下一代企業軟體的核心判斷：底層模型會越來越強，也會變得越來越可替換；但真正不可替代的，是圍繞具體行業和具體工作流沉澱下來的數據、流程、治理能力與運營記憶。AI 應用公司的機會，不在於與模型公司爭奪「黃磚路」，而在於走進那些更複雜、更骯髒、更緩慢，但也更接近真實商業價值的地方。

以下為原文：

最近，我不斷從創始人和潛在員工那裡聽到同一個問題：AI 應用層還有什麼可做的嗎？還是說，OpenAI 和 Anthropic 最終會殺死一切？

這個問題背後有一種很典型的 AI 式焦慮。有人已經得出結論：如果不想淪為永久性的底層，唯一有長期價值的位置，要么是在大型模型實驗室內部，要么是在機器人、硬科技或類似前沿領域創業——理論上，也就是去做那些「實驗室碰不到」的東西。因為如果每一類軟體都將被吞噬，要么被 Codex 或 Claude 直接吸收掉對應工作，要么被未來某個模型變得不再必要，那最好的選擇似乎就是：快跑！

我承認，自己幾乎也是一個 AI 極大主義者，而且我認為他們說對了一半。大模型實驗室確實正在進入應用層的大片區域。但「應用層」並不是一個同質化的機會集合。真正重要的判斷標準是：你是在走「黃磚路」，還是在奧茲國的其他地方。

注：「黃磚路」是《綠野仙蹤》裡通往奧茲國翡翠城核心地帶、去見「魔法師」的主路。

所謂「黃磚路」，是我們用來形容大模型實驗室正在走、並投入巨大資源的那條路徑。程式碼生成、寫作、圖像創作這類問題之所以天然適合實驗室來做，是因為它們會隨著模型原始能力的提升而變得更好：每一美元投入到預訓練和後訓練中，都會直接改善產品質量。

但奧茲國的其他地方，存在著更複雜、通常也更垂直的問題。它們並不是簡單地給一個企業用戶提供一個橫向工具，讓它接入標準工具和電腦操作能力就能解決。這裡的價值，更多來自模型周圍的腳手架：這些腳手架讓輸出在特定行業中變得可信、合規，並能真正進入業務流程。底層模型的原始能力當然仍然重要，但已經不是全部。

我們正在實時看到這一點。OpenAI 和 Anthropic 實際上正在向市場承認：它們無法用一個通用的 AI 同事解決所有問題。它們已經宣布投入大規模的前線部署式合資項目，圍繞為企業配置和定制模型來搭建完整公司。如果它們真的認為下一次模型發布就能解決這些問題，就不會向這類項目投入數十億美元。

所以，如果你想靠做 AI 應用賺錢，就不要走黃磚路，而要去奧茲國的其他地方建設。以下是我們以及我們投資組合中的一些創始人，在實踐中學到的經驗。

黃磚路

如果你要創辦一家公司，黃磚路是最顯眼的一條路，但也是最危險的一條路。拿一個高性能模型，接上一些現成的連接器，比如 Google Drive、Slack、Salesforce、Notion、GitHub，然後在上面搭一個智能體編排層。看起來像魔法一樣。

問題在於，這正是大模型實驗室正在通過 Cowork 和 Codex 做的事。很顯然，它們擁有模型，這意味著它們有更好的利潤率、更強的控制力，也能對所有下游參與者施加定價權。但或許更重要的是，它們還掌握著決定產品適合解決什麼問題的架構選擇。到目前為止，它們一直非常有意地採用「模型 + 工具呼叫」的模式，而這恰恰是黃磚路上那些橫向、低步驟數量工作所需要的模式。即便一家創業公司能以某種方式超越 Codex 或 Claude Code，大模型實驗室仍然擁有龐大的分發能力，以及 AI 領域最強的品牌光環。

如果你是一家 AI 應用公司，採用的是同一套打法：接入相同的連接器，沒有下層子智能體或配置，也沒有分發渠道，那麼你很可能是在走一條通向虛無的路。

奧茲國的其他地方

對創業公司來說，情況並不全是悲觀的。在黃磚路之外，仍然存在巨大的機會。創業公司可以在這些地方擁有客戶，並解決複雜問題。

這些公司正在構建智能體體驗：模型被編織進複雜的工具、自動化和整合網路中——換句話說，就是軟體。這也使得大多數這類創業公司天然是垂直化的。它們可以專注於多步驟、多參與方的工作流，針對不同角色和垂直場景設計子智能體，處理 Anthropic 和 OpenAI 的橫向平台難以觸及的問題：跨系統收集上下文，再把任務路由給多個需要在不同階段審批的人。

這類工作通常會涉及一個或多個遺留系統，往往需要確定性結果，因為模糊性不可接受，而且有時還會直接綁定某個重要的商業結果。大模型實驗室當然知道這些問題有多有價值：這就是為什麼它們正在搭建自己的外包式配置團隊，也是為什麼整個面向大客戶的強化學習服務公司群體正在出現。

為什麼奧茲國的其他地方不會被「巫師」完全占據

對上面觀點的一個反駁是：到目前為止，賭模型或實驗室不會繼續進步，一直是一筆很糟糕的交易。它們很可能會持續變強，並最終吃掉這些應用層公司所服務的市場。

大模型實驗室當然會繼續進步。但我認為，奧茲國其他地方的公司，長期來看仍然有幾種防守方式。

數據與學習飛輪

很多你在業務中真正內化的東西，並不存在於任何訓練集中：不成文的行業慣例、沒有文件記錄的標準、存在於從業者腦子裡的部落知識。它們都不在公開互聯網上。無論投入多少訓練算力，都無法替代真正進入這些知識所在的工作流內部。

這裡疊加了兩個飛輪：一個是跨客戶飛輪，也就是當你見過同一類問題的更多變體後，模式會不斷複利；另一個是客戶內部飛輪，也就是具體決策背後的原因、那些沒有明說的例外、公司自身的經驗法則，只有在用戶與系統真實互動時才會浮現。

即便客戶數據不能跨客戶使用，應用公司仍然可以利用對不同客戶問題類型的模式識別，並用它來指導未來問題的架構設計。一家公司如果已經讓自己的智能體處理過一百次法律紅線修改、一千輪保險核保周期，或一萬次 SDR 銷售開發活動，它對問題形態的理解，已經不是一個後來者第一次啟動新智能體就能複製的。

理論上，一個橫向智能體也可以建立同樣的學習基礎設施。但它沒有這麼做的原因，除了專注度不足以外，更重要的是使用者體驗。捕捉這種知識，完全取決於你給使用者提供了什麼樣的工作流界面。垂直玩家可以圍繞特定工作流真正需要暴露的信息來設計這些界面，橫向工具做不到。評估集、標註輸出、邊界案例分類體系，都可以複合成一個垂直領域的資料飛輪，並進一步支持微調。後來者如果沒有同等規模的生產環境暴露，就很難生成這種飛輪。它是否可行，取決於資料權利、積累的生產使用量以及客戶合同結構，但模式識別本身仍然會不斷積累。

管理模型波動性與複雜性

大模型實驗室內部已經在做路由：針對不同請求調用不同類別的模型，在底層使用模型集成。但它們做不到的是跨供應商路由，也很難為了某個具體子任務評估競爭對手的模型，或在某個狹窄環節使用真正最合適的開源微調模型。

奧茲國其他地方的公司，會在整個模型市場中為每個子任務選擇最合適的模型，而不僅僅使用某個母實驗室發布的模型。它們也會承擔那些沒人願意做的工作：每次新模型發布時重新跑評估、針對客戶的邊界案例重新校準提示詞、在不破壞生產環境的情況下完成上線。大模型實驗室不會替客戶做這些事。它們把新模型賣給你，然後告訴你去遷移。奧茲國其他地方的公司則吸收了遷移成本。客戶得到的是整個市場上最好的智能能力，以及每次升級過程中的連續性。

成本優化

把每個查詢都丟給 Opus 4.7，是讓毛利率轉負的最快路徑。最好的奧茲國公司會在不同層級的模型之間做路由：最難的任務交給前沿模型，大部分任務交給中等模型，在已經證明可行的地方使用更小的定制模型或微調模型。

其中一些公司現在已經在此基礎上做自己的後訓練，把模型優化到客戶真正關心的那一小段工作上，並以遠低於前沿 API 調用的成本提供服務。大模型實驗室為「地板價」定價：花 X 美元能買到的最低智能水平。奧茲國公司賣的則是反過來的東西：在特定工作流真正需要的智能水平下，實現最低美元成本。只有當你非常清楚每個子任務到底需要什麼級別的智能時，這才可能做到。而大模型實驗室在結構上不可能了解每一個垂直行業裡的每個任務。最終，這會直接轉化為更低、更可控的結果定價。

治理

成為客戶在某個垂直領域運行 AI 的控制平面，會產生相當大的價值。這個控制平面，是權限、審計、智能體被允許做什麼、智能體實際做了什麼匯聚在一起的地方。

這一控制平面建立在具體用例的護欄之上，而不同行業、不同崗位類型中的護欄完全不同。因為這些公司端到端擁有智能體接觸的工具、工作流和數據，它們能夠以橫向工具難以實現的方式提供確定性結果。它們也會替最終買方吸收監管複雜性：法律領域的美國聯邦民事訴訟規則和律師執業規則，醫療領域的 HIPAA，金融領域的 SEC 和 FINRA 規則，州級保險監管，等等。橫向玩家如果不把自己變成一百個不同的垂直行業，就無法令人信服地做到這一點。 CIO 需要的是一個能夠在合同中明確承諾：它會為所提供的智能體承擔合規處理責任的合作夥伴。

所有這些最終都回到同一件事：專注。

這種專注可以是一個垂直行業，比如保險、法律、會計；也可以是一個被做得足夠深的職能，比如銷售、客服、財務。無論哪一種，這項工作都需要一個團隊長期扎在同一類客戶群體中，理解它的工作流、邊界案例和監管要求。大模型實驗室並不是為此而建的。它們必須服務所有人、覆蓋所有地方，這也是它們最初修建黃磚路的原因。同樣的取捨，也會讓它們難以進入奧茲國的其他地方：你可以同時無處不在，也可以在一件事上做到極致，但不能兩者兼得。

以銷售為例：來自 11x 技術型 CEO 的實操建議

在實踐中，應該如何理解這件事？以下是 11x CEO Prabhav Jain 給出的一些實操建議。

聚焦結果

建立一家能夠抵禦大模型實驗室衝擊的公司，一個可行的戰術路徑，是從客戶真正關心的具體結果出發。對我們來說，這個結果就是幫助企業產生更多銷售線索和銷售管道。

從這裡開始，問題就會變得非常具體：哪些活動是我們想要端到端擁有、並且確實能推動銷售管道增長的？把每項活動拆解成任務。哪些任務適合智能體，哪些不適合？哪些需要複雜的領域洞察，哪些不需要？大模型實驗室也會推出工作流，但當一個工作流步驟很多、輸入混亂、狀態難以解釋，或者存在現實世界約束時，僅僅有一個更好的模型並不能把事情做成。這時，工作又回到了傳統的軟體工程，而在這個層面上，大模型實驗室相較一家專注的應用公司並沒有優勢。

举例来说，我们处理的一些任务包括：基于自定义信号进行潜在客户挖掘、潜在客户信息补全、深度账户研究、从 CRM 抓取上下文、针对不同渠道撰写信息、潜在客户资格判断智能体，以及邮件送达系统。其中有些是智能体任务，有些不是。这些任务不是一次提示就能完成的，而是需要深度工程能力。

奧茲國這個類比中的關鍵洞察是：任何真實工作流中，粗略來看有一半是非智能體任務，而這一半並不帶來實驗室優勢。在模型層之下，它們編寫確定性軟體的能力並不比你強。而另一半智能體任務，也仍然要求你圍繞真正想要的結果，對模型進行調優、訓練和約束。

領域知識往往不在通用訓練數據中。這些能力必須從垂直行業或具體職能中自下而上構建，並在工作流中合適的時刻餵給模型。當我們的智能體通過電話判斷一個入站線索是否合格時，它必須被訓練成理解：對特定行業、特定用戶畫像來說，什麼才是一場好的銷售對話。這是應用公司要做的工作，而且這種能力會複利。

更重要的是，這些能力會不斷過時，因為企業本身也在演化。因此，你持續演化工作流和上下文的能力，本身就會成為競爭優勢。比如，當我們剛開始做規模化郵件外聯產品時，「AI 寫的郵件」才剛剛開始出現。快進到今天，人們已經形成了一種敏銳感覺，能夠分辨哪些郵件是 AI 寫的、哪些更像人寫的，而且關鍵在於，這種判斷每隔幾個月就會變化。我們的智能體必須隨著市場動態不斷調整，但護城河也正是在這裡建立起來的。事實上，儘管存在這種動態變化，我們的積極回覆率在過去幾個月裡提高了 4 倍，並為客戶創造了數億美元的銷售管道。

做高複雜度問題

複雜問題才是真正釋放商業價值的地方。否則，你很容易發現自己只是在做一個薄薄的包裝層。

拆解任何足夠複雜的商業問題，很快就會看到混亂出現。這裡有一個來自 GTM 領域、聽起來很簡單的例子：如果某家公司已經是你的客戶，你就不應該再去聯繫這家公司裡的某個聯繫人。但這件事一點也不簡單。

也許你的 CRM 中有這家公司對應的域名。那麼，那些擁有幾十家子公司的公司怎麼辦？如果 CRM 記錄的是母公司的域名怎麼辦？如果 Salesforce 中一個過時的匹配字段，導致你向現有客戶的首席營收官發出冷啟動銷售郵件怎麼辦？真實世界的數據就是混亂的。人類處理起來都會吃力，模型也不會神奇地越過這道門檻。要從這種混亂中建立秩序，需要圍繞問題的具體形態設計專門的智能體，而不是把一個通用副駕駛指向 CRM 就結束了。事實上，基於我們掌握的數據，我們發現自己的數據質量和新鮮度已經高於客戶自身，因此默認情況下，我們會以自己的數據為錨。

error

這就是為什麼我們不相信那種每次都從零開始推理的純智能體，也不相信那種一遇到現實複雜性就會崩潰的剛性工作流。相反，我們一直在構建智能體工作流。工作流帶來可重複性、可審計性和成本控制；智能體處理變動性，並在理想路徑中斷時恢復流程；人類則在那些涉及判斷和問責的地方保持在環。

第一天，這套系統自動化的是人工工作。但隨著時間推移，每一次升級都會成為一個信號，每一個例外都是一次反饋，每一次人類修正都在告訴你原來的操作手冊哪裡不完整。久而久之，工作流不再只是一段腳本，而會變成保險公司的運營記憶。

這正是大模型實驗室難以觸及的部分。它們會繼續發布更好的模型和更好的通用智能體，而且它們也應該這麼做。但它們不會長期待在一家保險公司的生產工作流裡，去學習為什麼某個帳戶被升級，為什麼某個風險被拒絕，或者為什麼某個核保人推翻了風險偏好指南，而且事實證明他是對的。

這種理解，只能來自在生產環境中把同一套工作流運行成千上萬次。你第一天交付的工作流並不是護城河。生產使用隨著時間形成的循環，才是護城河。

對我們來說，這就是「離開黃磚路建設」的含義。

如何判斷自己是在奧茲國其他地方，還是仍然走在黃磚路上？

工具與步驟測試

這項工作需要多少步驟？為了支持它，你需要構建的工具有多複雜？

拿一個橫向 AI 在 Google Drive 中搜索作比較：它是針對一個工具的一步操作，結果容錯率也很高。用戶讀完摘要，如果錯了，再問一次就行。

再看一個基於律所過去三年先例進行多步驟法律紅線修改的任務：它可能涉及幾十個步驟、多個工具，輸出必須通過合夥人審查，甚至可能需要在法庭上被論證。兩者看起來都像是「一個智能體在做事」，但只有後者需要那種由專注團隊花多年時間構建的深度軟體。

系統測試

你是在構建一個客戶用來運行工作的系統，還是在客戶已有系統之上增加一個工具？

系統擁有端到端工作流：資料捕捉、治理、工作完成記錄。客戶在描述實際工作如何發生時，會指向這個系統。工具則只是給客戶已經在運行的工作流增加一層智能。

工具型產品也可以產生真實收入，但大模型實驗室更容易把它拿走，因為客戶並不依賴你作為編排層。高 ACV 通常是系統型產品的信號，因為系統替代的是真實人力，也因此能獲得相應付費。但這並不是絕對保證。你需要問自己：如果某個大模型實驗室推出了一個看似與你直接競爭的產品，客戶是否仍然需要你的工具？如果答案是需要，你在構建的是系統。如果答案是不需要，你就是一個工具——即使你的 ACV 很高。

對沖基金 / 損益表測試

大模型實驗室的表現，是用基準測試來評判的；奧茲國其他地方公司的表現，則是用客戶的損益表來評判的。

客戶並不關心你的模型在 SWE-Bench 或 MMLU 上得了多少分。他們關心的是：你的智能體是否成交了訂單，是否正確修改了合同紅線，是否承保了正確的保單。如果客戶關注的是特定工作流結果，而不是通用能力分數，你就在奧茲國的其他地方。如果客戶付錢買的是通用能力，那你賣的就是他們可以通過 Claude 或 Codex 席位獲得的東西。

最好的智能體公司需要像對沖基金一樣執行：它們贏在 alpha，而 alpha 是在客戶損益表中衡量的，不是在基準測試分數中衡量的。

兩者都能贏，而且都會贏

我們將會在黃磚路上和黃磚路之外同時看到巨大的贏家。模型會繼續獲勝，因為它們擁有模型，也擁有為橫向工具設計好的分發能力。

奧茲國的其他地方也能贏，前提是它們擁有工作的系統：也就是企業實際執行工作的界面，以及從中流動並被捕捉的數據。這些公司擁有數據捕捉、工作流行動系統和治理。隨著某個垂直領域中的複雜工作流逐漸成熟，它們會複合成一種客戶離不開的核心體驗。隨著既有玩家和新進入者不斷發布新一代模型，這家公司會成為把這些模型整合並交付給客戶的那一層。底層模型是可替換的，但工作的系統不是。

下一代企業軟件，將會在黃磚路之外被建立起來。

[原文連結]

歡迎加入律動 BlockBeats 官方社群：

Telegram 訂閱群：https://t.me/theblockbeats

Telegram 交流群：https://t.me/BlockBeats_App

Twitter 官方帳號：https://twitter.com/BlockBeatsAsia

#AI #OpenAI

糾錯/舉報