David Silver 上一次出現在閃光燈下,是 2016 年首爾那間會議廳。準確說,是李世石對面那張桌子的「身後」。坐在桌邊的,是 AlphaGo。

十年過去,他從谷歌 DeepMind 辭了職,在倫敦另起一攤。融資公告掛出來不到 24 小時,歐洲創投圈集體屏息:種子輪 11 億美元,估值 51 億美元,紅杉與 Lightspeed 聯合領投,英偉達、DST Global、Index、谷歌、英國主權 AI 基金一連串的名字。
這是歐洲風投史上最大的一筆種子輪。
先把數字擺完。
公司叫 Ineffable Intelligence。註冊於 2025 年 11 月,Silver 今年 1 月才正式從 DeepMind 離職、全職接手。從公司成立到拿到這筆錢,不到半年。
種子輪就給出 51 億美元估值,幾乎追平 Mistral 一年前的 B 輪,超過同期任何一家歐洲 AI 初創公司的早期估值。投資人名單也罕見地把歐美主權資本、矽谷頂級 VC 與算力提供方一次性湊齊。英國政府的主權 AI 基金第一次參與到這種規模的早期輪,本身就是一個信號。
種子輪拿這種錢,傳統意義上是說不通的。早期投資人通常要等到產品、收入、客戶三件套至少出現一件,才會下重注。Silver 這一輪等於跳過了所有環節,直接拿到了一家中型上市公司級別的估值。
錢的來源沒什麼懸念。他們押的不是產品,是一種範式。這個判斷後面會展開。
先看 Silver 自己的簡歷。十年 DeepMind,主導或合作主導過 Atari 像素玩遊戲、AlphaGo、AlphaZero(圍棋、國際象棋、將棋三合一無人類棋譜版)、AlphaProof(國際數學奧賽拿到銀牌)。他還是 UCL 教授。也就是說,他幾乎是過去十五年裡把強化學習從學術冷門做到工業頭條的那個人。

這種履歷的價值不在於論文數量,而在於一種壟斷式的話語權。這一行裡能同時拿到「學術聲譽 + 工程履歷 + 教科書地位」三件套的人,全世界不超過五個。
故事真正反直覺的地方在這裡。
GPT、Claude、Gemini 這一代模型,本質上是把人類寫過的所有東西塞進網路裡、壓縮成一團語義概率,再用各種後訓練方法把它「調出來」。它能寫郵件、能寫程式碼、能演段相聲,是因為人類已經寫過了所有這些東西。
Silver 在 Ineffable 官網上寫的目標,是造一個 superlearner,超級學習者。它要做的事情,是不依賴任何人類生成的數據,只通過自己的「經驗」從零學起,從最基礎的運動技能一直到「深刻的智識突破」。

這不是一句行銷話術,背後有一篇正在出版的文章。
去年開始,Silver 和強化學習教科書作者、圖靈獎得主 Richard Sutton 合寫了一篇文章,標題叫《經驗時代(Era of Experience)》,是即將由 MIT Press 出版的《Designing an Intelligence》的節選。文章裡有一句被反覆引用的判斷。
「在數學、程式碼、科學這些關鍵領域,從人類數據中能提取的知識,正在快速接近上限。」
人類寫過的東西,已經基本被模型讀完了。再往後,預訓練的邊際收益會越來越薄,scaling law 會變成一條平緩的折線。
下一代 AI 的出路,不是更大的語料、更多的人類反饋,而是讓模型自己從環境裡生成經驗。它去嘗試、去失敗、去互動、去把那些沒有任何人寫過的東西,自己摸索出來。
紅杉合夥人在公告裡把話說得更滿。「如果成功,這將是一項達爾文級別的科學突破。他的法則解釋了所有生命,我們的法則將解釋和構建所有智能。」
這種話很容易讓人翻白眼。但也別急著翻,它至少坦白了紅杉的真實判斷,他們押的不是一個聊天助手,也不是某個垂直行業的 copilot,而是一個新的可能性。
熟悉 Silver 履歷的人會發現,superlearner 這條思路並不新。
2017 年的 AlphaZero 就是這麼幹的。圍棋、國際象棋、將棋三個項目,沒有用任何人類棋譜,全靠自我對弈,幾個小時之內打穿所有此前的最強引擎。2024 年的 AlphaProof 在國際數學奧賽拿到銀牌,走的也是同一條路徑,用自我生成的形式化證明訓練自己。

AlphaProof 團隊獲獎後在辦公室「敲鍾」
聽起來很性感。但這條路過去十年裡幾乎所有 RL 實驗室都撞過牆。
原因是「自我對弈」需要一個乾淨的環境。圍棋有 19×19 的棋盤和黑白兩色的規則,國際象棋有八條橫線和明確的勝負。在這種封閉環境裡,模型可以毫不含糊地知道什麼是「贏」,於是就能毫不含糊地優化。
但你把任務換成「寫一份能讓客戶買單的合同」「證明一個還沒被證明過的數學猜想」「在一座陌生城市裡把一輛出租車開回酒店」,獎勵信號怎麼定,環境怎麼搭,這些問題過去十年沒有一個被真正解決。
Silver 這一次的賭注,是公開承認這個問題還沒解決,然後帶著 11 億美元、一支新團隊、一個全新組織重新動手。
2026 年的市場願意為「不讀人類數據」的 AI 押 11 億美元,答案藏在過去 12 個月幾個並不孤立的信號裡。
OpenAI 的 o3、o4 系列,訓練越來越依賴強化學習後訓練。「思考」「推理」這些能力,已經不再來自更大的預訓練,而來自 RL 階段的環境互動。DeepSeek R1 緊接著把強化學習的小樣本路徑直接做成了開源樣板,任何一家有點工程能力的團隊,今天都能複現一個「會思考」的小模型。RL 不再是 DeepMind 內部的玄學,已經變成行業常識。
更深的一層是預訓練 scaling law 觸頂的討論,從 2025 年下半年開始幾乎每月都有新論文。當人類語料裡的高質量 token 已經基本被吃完,再擴大模型尺寸的邊際收益開始明顯打折。資本側已經在悄悄換軌,過去半年矽谷頂級 VC 投出去的 AI 大單,越來越多落在 RL、世界模型、agent 這些「後預訓練」方向,而不是又一個 LLM 工廠。
市場早就在為「後預訓練時代」準備彈藥。它只是在等一個能扛起這面旗的人。Silver 幾乎是這個角色的教科書答案。在 RL 這條線上,他既有 AlphaGo 的公眾認知度,又有 AlphaZero、AlphaProof 這種工程履歷,還有和 Sutton 合著的話語權。
11 億美元砸過去,本質上是市場在用錢投票。強化學習不是一種技術路線,是下一個範式。
11 億美元能造一座晶片廠,能買一支足球俱樂部,能拍若干部電影。用它去造一個無須人類數據的通用智能,能不能成?
沒人知道。Silver 也沒說。
但接下來 12 個月有幾個觀察點已經擺好了。最直接的一個是 Ineffable 會不會先做一個比 AlphaProof 更難的「自學」基準證明。數學奧賽是一個乾淨的封閉環境,再下一步如果是「無形式化定義的研究級數學」,難度會陡然上升一個臺階。這一關過不過得去,幾乎可以決定整個故事的走向。
接下來要看紅杉的動作。頂級 VC 在種子輪押重注之後,A 輪的節奏決定外界對項目的判斷。如果 12 個月內出現 30 億美元規模的 A 輪,意味著早期成果已經超出預期。如果遲遲沒有,市場會重新校準這個估值。
DeepMind 那邊也要看。Silver 走了之後,他原來帶的 RL 團隊下一篇論文會怎麼寫、誰會署名、有沒有人跟著出走,這些都是初創公司從「單兵明星」走向「機構級研究力」的判斷節點。
最後是中國。已經有 R1 路徑的 DeepSeek、有字節 Seed 的字節,2026 年下半年會不會公開自家的「無人類數據」探索。這條路如果走通了,不會只屬於倫敦的一家公司。
不管 superlearner 這條路最後走不走得通,110 億美元至少已經把一件事按到了桌面上。當所有人都在比誰能把人類的話學得更像,有人開始問,為什麼 AI 一定要先變成我們,才能變得比我們更好?
歡迎加入律動 BlockBeats 官方社群:
Telegram 訂閱群:https://t.me/theblockbeats
Telegram 交流群:https://t.me/BlockBeats_App
Twitter 官方帳號:https://twitter.com/BlockBeatsAsia