header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

OpenAI吃掉應用層?a16z說真正的機會在通用模型之外

閱讀本文需 29 分鐘
AI應用層沒死,只是輪不到套殼賺錢了
原文標題:避免在黃磚路上死亡
原文作者:Joe Schmidt IV,a16z
翻譯:Peggy


編者按:隨著大型模型的能力不斷提升,AI 應用層正面臨普遍焦慮:如果 OpenAI、Anthropic 等模型公司既掌握底層模型,又擁有分發渠道和品牌優勢,創業公司還能在應用層做什麼?


這正是 a16z 合夥人 Joe Schmidt 在這篇文章中試圖回答的問題。他借用《綠野仙蹤》中的「黃磚路」作比喻,將 AI 應用機會分成兩類:一類是大型模型公司正在親自進入的主路,比如程式碼生成、撰寫、影像生成、通用型 Agent 和橫向辦公助手;另一類則是「奧茲國的其他地方」,也就是那些深入行業流程、依賴複雜工作流、資料沉澱、合規治理和系統整合能力的垂直場景。


在他看來,創業公司真正的機會在後者。


從銷售到保險,Joe Schmidt 反覆強調同一個邏輯:企業真正願意付費的,不是一個更聰明的聊天窗口,而是一個能對業務結果負責的系統。它需要理解客戶資料的混亂狀態,處理多人審批和邊界案例,承擔合規與審計責任,也要在模型不斷升級時,替客戶完成遷移、路由和成本優化。


這也是本文對下一代企業軟體的核心判斷:底層模型會越來越強,也會變得越來越可替換;但真正不可替代的,是圍繞具體行業和具體工作流沉澱下來的數據、流程、治理能力與運營記憶。AI 應用公司的機會,不在於與模型公司爭奪「黃磚路」,而在於走進那些更複雜、更骯髒、更緩慢,但也更接近真實商業價值的地方。


以下為原文:


最近,我不斷從創始人和潛在員工那裡聽到同一個問題:AI 應用層還有什麼可做的嗎?還是說,OpenAI 和 Anthropic 最終會殺死一切?


這個問題背後有一種很典型的 AI 式焦慮。有人已經得出結論:如果不想淪為永久性的底層,唯一有長期價值的位置,要么是在大型模型實驗室內部,要么是在機器人、硬科技或類似前沿領域創業——理論上,也就是去做那些「實驗室碰不到」的東西。因為如果每一類軟體都將被吞噬,要么被 Codex 或 Claude 直接吸收掉對應工作,要么被未來某個模型變得不再必要,那最好的選擇似乎就是:快跑!


我承認,自己幾乎也是一個 AI 極大主義者,而且我認為他們說對了一半。大模型實驗室確實正在進入應用層的大片區域。但「應用層」並不是一個同質化的機會集合。真正重要的判斷標準是:你是在走「黃磚路」,還是在奧茲國的其他地方。


注:「黃磚路」 是《綠野仙蹤》裡通往奧茲國翡翠城核心地帶、去見「魔法師」的主路。

所謂「黃磚路」,是我們用來形容大模型實驗室正在走、並投入巨大資源的那條路徑。程式碼生成、寫作、圖像創作這類問題之所以天然適合實驗室來做,是因為它們會隨著模型原始能力的提升而變得更好:每一美元投入到預訓練和後訓練中,都會直接改善產品質量。


但奧茲國的其他地方,存在著更複雜、通常也更垂直的問題。它們並不是簡單地給一個企業用戶提供一個橫向工具,讓它接入標準工具和電腦操作能力就能解決。這裡的價值,更多來自模型周圍的腳手架:這些腳手架讓輸出在特定行業中變得可信、合規,並能真正進入業務流程。底層模型的原始能力當然仍然重要,但已經不是全部。


我們正在實時看到這一點。OpenAI 和 Anthropic 實際上正在向市場承認:它們無法用一個通用的 AI 同事解決所有問題。它們已經宣布投入大規模的前線部署式合資項目,圍繞為企業配置和定制模型來搭建完整公司。如果它們真的認為下一次模型發布就能解決這些問題,就不會向這類項目投入數十億美元。


所以,如果你想靠做 AI 應用賺錢,就不要走黃磚路,而要去奧茲國的其他地方建設。以下是我們以及我們投資組合中的一些創始人,在實踐中學到的經驗。


黃磚路


如果你要創辦一家公司,黃磚路是最顯眼的一條路,但也是最危險的一條路。拿一個高性能模型,接上一些現成的連接器,比如 Google Drive、Slack、Salesforce、Notion、GitHub,然後在上面搭一個智能體編排層。看起來像魔法一樣。


問題在於,這正是大模型實驗室正在通過 Cowork 和 Codex 做的事。很顯然,它們擁有模型,這意味著它們有更好的利潤率、更強的控制力,也能對所有下游參與者施加定價權。但或許更重要的是,它們還掌握著決定產品適合解決什麼問題的架構選擇。到目前為止,它們一直非常有意地採用「模型 + 工具呼叫」的模式,而這恰恰是黃磚路上那些橫向、低步驟數量工作所需要的模式。即便一家創業公司能以某種方式超越 Codex 或 Claude Code,大模型實驗室仍然擁有龐大的分發能力,以及 AI 領域最強的品牌光環。


如果你是一家 AI 應用公司,採用的是同一套打法:接入相同的連接器,沒有下層子智能體或配置,也沒有分發渠道,那麼你很可能是在走一條通向虛無的路。


奧茲國的其他地方


對創業公司來說,情況並不全是悲觀的。在黃磚路之外,仍然存在巨大的機會。創業公司可以在這些地方擁有客戶,並解決複雜問題。


這些公司正在構建智能體體驗:模型被編織進複雜的工具、自動化和整合網路中——換句話說,就是軟體。這也使得大多數這類創業公司天然是垂直化的。它們可以專注於多步驟、多參與方的工作流,針對不同角色和垂直場景設計子智能體,處理 Anthropic 和 OpenAI 的橫向平台難以觸及的問題:跨系統收集上下文,再把任務路由給多個需要在不同階段審批的人。


這類工作通常會涉及一個或多個遺留系統,往往需要確定性結果,因為模糊性不可接受,而且有時還會直接綁定某個重要的商業結果。大模型實驗室當然知道這些問題有多有價值:這就是為什麼它們正在搭建自己的外包式配置團隊,也是為什麼整個面向大客戶的強化學習服務公司群體正在出現。


為什麼奧茲國的其他地方不會被「巫師」完全占據


對上面觀點的一個反駁是:到目前為止,賭模型或實驗室不會繼續進步,一直是一筆很糟糕的交易。它們很可能會持續變強,並最終吃掉這些應用層公司所服務的市場。


大模型實驗室當然會繼續進步。但我認為,奧茲國其他地方的公司,長期來看仍然有幾種防守方式。


數據與學習飛輪


很多你在業務中真正內化的東西,並不存在於任何訓練集中:不成文的行業慣例、沒有文件記錄的標準、存在於從業者腦子裡的部落知識。它們都不在公開互聯網上。無論投入多少訓練算力,都無法替代真正進入這些知識所在的工作流內部。


這裡疊加了兩個飛輪:一個是跨客戶飛輪,也就是當你見過同一類問題的更多變體後,模式會不斷複利;另一個是客戶內部飛輪,也就是具體決策背後的原因、那些沒有明說的例外、公司自身的經驗法則,只有在用戶與系統真實互動時才會浮現。


即便客戶數據不能跨客戶使用,應用公司仍然可以利用對不同客戶問題類型的模式識別,並用它來指導未來問題的架構設計。一家公司如果已經讓自己的智能體處理過一百次法律紅線修改、一千輪保險核保周期,或一萬次 SDR 銷售開發活動,它對問題形態的理解,已經不是一個後來者第一次啟動新智能體就能複製的。


理論上,一個橫向智能體也可以建立同樣的學習基礎設施。但它沒有這麼做的原因,除了專注度不足以外,更重要的是使用者體驗。捕捉這種知識,完全取決於你給使用者提供了什麼樣的工作流界面。垂直玩家可以圍繞特定工作流真正需要暴露的信息來設計這些界面,橫向工具做不到。評估集、標註輸出、邊界案例分類體系,都可以複合成一個垂直領域的資料飛輪,並進一步支持微調。後來者如果沒有同等規模的生產環境暴露,就很難生成這種飛輪。它是否可行,取決於資料權利、積累的生產使用量以及客戶合同結構,但模式識別本身仍然會不斷積累。


管理模型波動性與複雜性


大模型實驗室內部已經在做路由:針對不同請求調用不同類別的模型,在底層使用模型集成。但它們做不到的是跨供應商路由,也很難為了某個具體子任務評估競爭對手的模型,或在某個狹窄環節使用真正最合適的開源微調模型。


奧茲國其他地方的公司,會在整個模型市場中為每個子任務選擇最合適的模型,而不僅僅使用某個母實驗室發布的模型。它們也會承擔那些沒人願意做的工作:每次新模型發布時重新跑評估、針對客戶的邊界案例重新校準提示詞、在不破壞生產環境的情況下完成上線。大模型實驗室不會替客戶做這些事。它們把新模型賣給你,然後告訴你去遷移。奧茲國其他地方的公司則吸收了遷移成本。客戶得到的是整個市場上最好的智能能力,以及每次升級過程中的連續性。


成本優化


把每個查詢都丟給 Opus 4.7,是讓毛利率轉負的最快路徑。最好的奧茲國公司會在不同層級的模型之間做路由:最難的任務交給前沿模型,大部分任務交給中等模型,在已經證明可行的地方使用更小的定制模型或微調模型。


其中一些公司現在已經在此基礎上做自己的後訓練,把模型優化到客戶真正關心的那一小段工作上,並以遠低於前沿 API 調用的成本提供服務。大模型實驗室為「地板價」定價:花 X 美元能買到的最低智能水平。奧茲國公司賣的則是反過來的東西:在特定工作流真正需要的智能水平下,實現最低美元成本。只有當你非常清楚每個子任務到底需要什麼級別的智能時,這才可能做到。而大模型實驗室在結構上不可能了解每一個垂直行業裡的每個任務。最終,這會直接轉化為更低、更可控的結果定價。


治理


成為客戶在某個垂直領域運行 AI 的控制平面,會產生相當大的價值。 這個控制平面,是權限、審計、智能體被允許做什麼、智能體實際做了什麼匯聚在一起的地方。


這一控制平面建立在具體用例的護欄之上,而不同行業、不同崗位類型中的護欄完全不同。 因為這些公司端到端擁有智能體接觸的工具、工作流和數據,它們能夠以橫向工具難以實現的方式提供確定性結果。 它們也會替最終買方吸收監管複雜性:法律領域的美國聯邦民事訴訟規則和律師執業規則,醫療領域的 HIPAA,金融領域的 SEC 和 FINRA 規則,州級保險監管,等等。 橫向玩家如果不把自己變成一百個不同的垂直行業,就無法令人信服地做到這一點。 CIO 需要的是一個能夠在合同中明確承諾:它會為所提供的智能體承擔合規處理責任的合作夥伴。


所有這些最終都回到同一件事:專注。


這種專注可以是一個垂直行業,比如保險、法律、會計;也可以是一個被做得足夠深的職能,比如銷售、客服、財務。 無論哪一種,這項工作都需要一個團隊長期扎在同一類客戶群體中,理解它的工作流、邊界案例和監管要求。 大模型實驗室並不是為此而建的。 它們必須服務所有人、覆蓋所有地方,這也是它們最初修建黃磚路的原因。 同樣的取捨,也會讓它們難以進入奧茲國的其他地方:你可以同時無處不在,也可以在一件事上做到極致,但不能兩者兼得。


以銷售為例:來自 11x 技術型 CEO 的實操建議


在實踐中,應該如何理解這件事?以下是 11x CEO Prabhav Jain 給出的一些實操建議。


聚焦結果


建立一家能夠抵禦大模型實驗室衝擊的公司,一個可行的戰術路徑,是從客戶真正關心的具體結果出發。 對我們來說,這個結果就是幫助企業產生更多銷售線索和銷售管道。


從這裡開始,問題就會變得非常具體:哪些活動是我們想要端到端擁有、並且確實能推動銷售管道增長的?把每項活動拆解成任務。哪些任務適合智能體,哪些不適合?哪些需要複雜的領域洞察,哪些不需要? 大模型實驗室也會推出工作流,但當一個工作流步驟很多、輸入混亂、狀態難以解釋,或者存在現實世界約束時,僅僅有一個更好的模型並不能把事情做成。 這時,工作又回到了傳統的軟體工程,而在這個層面上,大模型實驗室相較一家專注的應用公司並沒有優勢。


举例来说,我们处理的一些任务包括:基于自定义信号进行潜在客户挖掘、潜在客户信息补全、深度账户研究、从 CRM 抓取上下文、针对不同渠道撰写信息、潜在客户资格判断智能体,以及邮件送达系统。其中有些是智能体任务,有些不是。这些任务不是一次提示就能完成的,而是需要深度工程能力。


奧茲國這個類比中的關鍵洞察是:任何真實工作流中,粗略來看有一半是非智能體任務,而這一半並不帶來實驗室優勢。在模型層之下,它們編寫確定性軟體的能力並不比你強。而另一半智能體任務,也仍然要求你圍繞真正想要的結果,對模型進行調優、訓練和約束。


領域知識往往不在通用訓練數據中。這些能力必須從垂直行業或具體職能中自下而上構建,並在工作流中合適的時刻餵給模型。當我們的智能體通過電話判斷一個入站線索是否合格時,它必須被訓練成理解:對特定行業、特定用戶畫像來說,什麼才是一場好的銷售對話。這是應用公司要做的工作,而且這種能力會複利。


更重要的是,這些能力會不斷過時,因為企業本身也在演化。因此,你持續演化工作流和上下文的能力,本身就會成為競爭優勢。比如,當我們剛開始做規模化郵件外聯產品時,「AI 寫的郵件」才剛剛開始出現。快進到今天,人們已經形成了一種敏銳感覺,能夠分辨哪些郵件是 AI 寫的、哪些更像人寫的,而且關鍵在於,這種判斷每隔幾個月就會變化。我們的智能體必須隨著市場動態不斷調整,但護城河也正是在這裡建立起來的。事實上,儘管存在這種動態變化,我們的積極回覆率在過去幾個月裡提高了 4 倍,並為客戶創造了數億美元的銷售管道。


做高複雜度問題


複雜問題才是真正釋放商業價值的地方。否則,你很容易發現自己只是在做一個薄薄的包裝層。


拆解任何足夠複雜的商業問題,很快就會看到混亂出現。這裡有一個來自 GTM 領域、聽起來很簡單的例子:如果某家公司已經是你的客戶,你就不應該再去聯繫這家公司裡的某個聯繫人。但這件事一點也不簡單。


也許你的 CRM 中有這家公司對應的域名。那麼,那些擁有幾十家子公司的公司怎麼辦?如果 CRM 記錄的是母公司的域名怎麼辦?如果 Salesforce 中一個過時的匹配字段,導致你向現有客戶的首席營收官發出冷啟動銷售郵件怎麼辦?真實世界的數據就是混亂的。人類處理起來都會吃力,模型也不會神奇地越過這道門檻。要從這種混亂中建立秩序,需要圍繞問題的具體形態設計專門的智能體,而不是把一個通用副駕駛指向 CRM 就結束了。事實上,基於我們掌握的數據,我們發現自己的數據質量和新鮮度已經高於客戶自身,因此默認情況下,我們會以自己的數據為錨。

error


這就是為什麼我們不相信那種每次都從零開始推理的純智能體,也不相信那種一遇到現實複雜性就會崩潰的剛性工作流。相反,我們一直在構建智能體工作流。工作流帶來可重複性、可審計性和成本控制;智能體處理變動性,並在理想路徑中斷時恢復流程;人類則在那些涉及判斷和問責的地方保持在環。


第一天,這套系統自動化的是人工工作。但隨著時間推移,每一次升級都會成為一個信號,每一個例外都是一次反饋,每一次人類修正都在告訴你原來的操作手冊哪裡不完整。久而久之,工作流不再只是一段腳本,而會變成保險公司的運營記憶。


這正是大模型實驗室難以觸及的部分。它們會繼續發布更好的模型和更好的通用智能體,而且它們也應該這麼做。但它們不會長期待在一家保險公司的生產工作流裡,去學習為什麼某個帳戶被升級,為什麼某個風險被拒絕,或者為什麼某個核保人推翻了風險偏好指南,而且事實證明他是對的。


這種理解,只能來自在生產環境中把同一套工作流運行成千上萬次。你第一天交付的工作流並不是護城河。生產使用隨著時間形成的循環,才是護城河。


對我們來說,這就是「離開黃磚路建設」的含義。


如何判斷自己是在奧茲國其他地方,還是仍然走在黃磚路上?


工具與步驟測試


這項工作需要多少步驟?為了支持它,你需要構建的工具有多複雜?


拿一個橫向 AI 在 Google Drive 中搜索作比較:它是針對一個工具的一步操作,結果容錯率也很高。用戶讀完摘要,如果錯了,再問一次就行。


再看一個基於律所過去三年先例進行多步驟法律紅線修改的任務:它可能涉及幾十個步驟、多個工具,輸出必須通過合夥人審查,甚至可能需要在法庭上被論證。兩者看起來都像是「一個智能體在做事」,但只有後者需要那種由專注團隊花多年時間構建的深度軟體。


系統測試


你是在構建一個客戶用來運行工作的系統,還是在客戶已有系統之上增加一個工具?


系統擁有端到端工作流:資料捕捉、治理、工作完成記錄。客戶在描述實際工作如何發生時,會指向這個系統。工具則只是給客戶已經在運行的工作流增加一層智能。


工具型產品也可以產生真實收入,但大模型實驗室更容易把它拿走,因為客戶並不依賴你作為編排層。高 ACV 通常是系統型產品的信號,因為系統替代的是真實人力,也因此能獲得相應付費。但這並不是絕對保證。你需要問自己:如果某個大模型實驗室推出了一個看似與你直接競爭的產品,客戶是否仍然需要你的工具?如果答案是需要,你在構建的是系統。如果答案是不需要,你就是一個工具——即使你的 ACV 很高。


對沖基金 / 損益表測試


大模型實驗室的表現,是用基準測試來評判的;奧茲國其他地方公司的表現,則是用客戶的損益表來評判的。


客戶並不關心你的模型在 SWE-Bench 或 MMLU 上得了多少分。他們關心的是:你的智能體是否成交了訂單,是否正確修改了合同紅線,是否承保了正確的保單。如果客戶關注的是特定工作流結果,而不是通用能力分數,你就在奧茲國的其他地方。如果客戶付錢買的是通用能力,那你賣的就是他們可以通過 Claude 或 Codex 席位獲得的東西。


最好的智能體公司需要像對沖基金一樣執行:它們贏在 alpha,而 alpha 是在客戶損益表中衡量的,不是在基準測試分數中衡量的。


兩者都能贏,而且都會贏


我們將會在黃磚路上和黃磚路之外同時看到巨大的贏家。模型會繼續獲勝,因為它們擁有模型,也擁有為橫向工具設計好的分發能力。


奧茲國的其他地方也能贏,前提是它們擁有工作的系統:也就是企業實際執行工作的界面,以及從中流動並被捕捉的數據。這些公司擁有數據捕捉、工作流行動系統和治理。隨著某個垂直領域中的複雜工作流逐漸成熟,它們會複合成一種客戶離不開的核心體驗。隨著既有玩家和新進入者不斷發布新一代模型,這家公司會成為把這些模型整合並交付給客戶的那一層。底層模型是可替換的,但工作的系統不是。


下一代企業軟件,將會在黃磚路之外被建立起來。


[原文連結]



歡迎加入律動 BlockBeats 官方社群:

Telegram 訂閱群:https://t.me/theblockbeats

Telegram 交流群:https://t.me/BlockBeats_App

Twitter 官方帳號:https://twitter.com/BlockBeatsAsia

举报 糾錯/舉報
選擇文庫
新增文庫
取消
完成
新增文庫
僅自己可見
公開
保存
糾錯/舉報
提交