首頁

快訊深度數據 Skill&API

DeepMind創始人專訪：AGI架構、Agent現狀與下一個十年的科學突破

閱讀本文需 43 分鐘

「持續學習、長遠推理、記憶的某些方面的問題還沒解決，AGI 需要全部搞定。」

原視頻標題：Demis Hassabis：代理、AGI 及下一個重大科學突破

原視頻來源：Y Combinator
原文編譯：深潮 TechFlow

編輯導語

Google DeepMind CEO、諾貝爾化學獎得主 Demis Hassabis 受邀參加 Y Combinator，討論通往 AGI 的關鍵進展，為創業者提供建議以保持領先地位，以及下一個重大科學突破可能出現的領域。

對於深科技創業者來說，最實用的判斷是，如果今天你啓動了一個為期十年的深科技項目，必須將 AGI 的出現納入計劃之中。此外，他透露了Isomorphic Labs（從 DeepMind 分拆出的人工智慧製藥公司）即將發布重大消息。

精華語錄

AGI 路線與時間軸

·「現有的這些技術組件幾乎肯定會成為 AGI 最終架構的一部分。」

·「持續學習、長程推理、某些方面的記憶問題仍未解決，AGI 需要全部解決。」

·「如果你的 AGI 時間軸跟我一樣是 2030 年左右，而你今天開始了一個深科技項目，那你必須將 AGI 會在半路出現這件事考慮進去。」

記憶與上下文視窗

·「上下文視窗大致相當於工作記憶。人類工作記憶平均只有七個數字，而我們有百萬甚至千萬令牌的上下文視窗。但問題是我們把所有東西都塞進去，包括不重要的、錯誤的信息，目前這種做法相當粗暴。」

·「如果要處理實時視頻流並將所有令牌都存入其中，一百萬個令牌其實只夠大約 20 分鐘。」

推理的缺陷

·「我喜歡用 Gemini 下棋。它有時意識到這是一步糟糕的棋，但又找不到更好的，結果繞了一圈還是走了那步糟糕的棋。但一個精確的推理系統不應該出現這種情況。」

·「它一方面能解 IMO 金牌級別的題，另一方面換個方式提問就會犯小學數學的錯誤。在自身思考過程的內省上，好像還缺了點什麼。」

Agent 與創造力

·「要達到 AGI，你必須有一個能主動替你解決問題的系統。Agent 就是那條路，我覺得我們才剛起步。」

·「我還沒看到有人用 vibe coding 做出一款登頂應用商店排行榜的 3A 遊戲。按照目前投入的精力，這應該是可能的，但還沒發生。說明工具或流程上還缺了點什麼。」

蒸餾與小模型

·「我們的假設是，一個前沿的 Pro 模型發布半年到一年後，它的能力就能被壓縮到非常小的、可以跑在邊緣設備上的模型裡。目前還沒碰到理論上的信息密度極限。」

科學發現與「愛因斯坦測試」

·「我有時候管它叫「愛因斯坦測試」，即能不能用 1901 年的知識訓練一個系統，然後讓它獨立推導出愛因斯坦 1905 年做出的那些成果，包括狹義相對論。一旦能做到，這些系統就離真正發明全新的東西不遠了。」

·「解決一個千禧年大獎問題已經很了不起了。但比這更難的是，能不能提出一組新的千禧年大獎問題，而且是被頂尖數學家認為同樣深刻、值得用一生去研究的問題。」

深科技創業建議

·「追難問題和追簡單問題，其實差不多，只是難的方式不同。人生很短，不如把精力砸在你不做就真沒人做的事情上。」

AGI 實現路徑

Gary Tan：你思考 AGI 的時間幾乎比所有人都長。看當前的範式，你覺得我們已經擁有了多少 AGI 的最終架構？現在根本性缺失的是什麼？

Demis Hassabis：大規模預訓練、RLHF、思維鏈等，我很確定它們會成為 AGI 最終架構的一部分。這些技術走到今天已經證明了太多東西。我不太能想象兩年後我們會發現這是條死路，這對我來說說不通。但在已有的東西之上，可能還差一兩樣。持續學習（continual learning）、長程推理（long-term reasoning）、記憶的某些方面，還有些問題沒解決。

AGI 需要全部搞定。也許現有技術加上一些漸進式創新就能擴展到那個程度，但也可能還剩一兩個大的關鍵點需要被突破。我不覺得會超過一兩個。我個人判斷有沒有這種未解的關鍵點，概率大概五五開。所以在 Google DeepMind，我們兩條線都在推進。

Gary Tan：我跟一堆 Agent 系統打交道，最讓我震驚的是，底層來來回回就是同一套權重。所以持續學習這個概念特別有趣，因為現在我們基本上是在用膠帶臨時糊的，比如那些「夜間夢境周期」之類的東西。

Demis Hassabis：對，那些夢境周期挺酷的。我們過去在情境記憶的整合上就思考過這個問題。我博士研究的就是海馬體怎麼把新知識優雅地融入已有的知識體系。大腦在這方面做得極好。

它在睡眠期間完成這個過程，尤其是快速眼動睡眠（REM sleep）時，把重要的經歷回放一遍以便從中學習。我們最早的 Atari 程序 DQN（DeepMind 在 2013 年發表的深度 Q 網路，首次用深度強化學習在 Atari 遊戲上達到人類水平）能掌握 Atari 遊戲，一個關鍵方法就是經驗回放（experience replay）。

這從神經科學裡學來的，把成功的路徑反覆回放。那是 2013 年的事了，放在 AI 領域算上古時期，但那時它非常關鍵。

我同意你說的，現在我們確實在用膠帶糊。把所有東西塞進上下文視窗裡。這感覺不太對。就算我們做的是機器而不是生物大腦，理論上可以有百萬、千萬級別的上下文視窗，而且記憶可以是完美的，但查找和檢索的成本仍然存在。在當下這個需要具體決策的時刻，找到真正相關的資訊並不簡單，即使你能把所有東西都存下來。所以我覺得記憶這個領域還有很大的創新空間。

Gary Tan：說實話，百萬 token 的上下文視窗已經比我預期的大多了，能做很多事。

Demis Hassabis：對大多数它該用的場景來說是夠大的。但你想一下，上下文視窗大致相當於工作記憶。人類工作記憶平均只有七個數字，我們有百萬甚至千萬級別的上下文視窗。問題是我們把什麼都往裡塞，包括不重要的、錯誤的資訊，目前這種做法相當粗暴。而且如果你現在要處理實時視訊流，天真地把所有 token 都記錄下來，一百萬 token 其實只夠大約 20 分鐘。但如果你想讓系統理解你一兩個月內的生活狀況，那還遠遠不夠。

Gary Tan：DeepMind 歷來深度投入強化學習和搜尋，這種哲學在你們現在構建 Gemini 的過程中嵌入了多深？強化學習是不是仍然被低估了？

Demis Hassabis：可能確實被低估了。這方面的關注度有起有伏。我們從 DeepMind 成立第一天就在做 Agent 系統。所有 Atari 和 AlphaGo 上的工作，本質上都屬於強化學習 Agent，能自主完成目標、做出決策、制定計畫的系統。當然我們當時選的是遊戲領域，因為複雜度可控，然後逐步做更複雜的遊戲，比如 AlphaGo 之後做了 AlphaStar，基本上我們把能做的遊戲都做了。

接下來的問題是，能不能把這些模型泛化為世界模型或語言模型，而不僅僅是遊戲模型。過去幾年我們就在做這件事。今天所有領先模型的思考模式和思維鏈推理，本質上就是 AlphaGo 當年開創東西的再回歸。

我覺得我們當年做的很多工作跟今天高度相關，我們正在重新審視那些老想法，用更大的規模、更通用的方式去做，包括蒙特卡洛樹搜索（Monte Carlo tree search）等各種強化學習的方法。AlphaGo 和 AlphaZero 的那些思想跟今天的基礎模型極度相關，我認為未來幾年的進步很大一部分會來自於此。

蒸餾與小模型

Gary Tan：現在要更聰明就需要更大的模型，但同時蒸餾技術也在進步，小模型可以變得相當快。你們的 Flash 模型很強，基本能達到前沿模型 95% 的效果，但價格只有十分之一。對嗎？

Demis Hassabis：我覺得這是我們的核心優勢之一。你得先建最大的模型來獲得前沿能力。我們最大的優勢之一是能很快地把那些能力蒸餾並壓縮到越來越小的模型裡。蒸餾這套方法本來就是我們發明的，我們現在仍然是世界頂尖。而且我們有很強的業務動力去做這件事。我們大概是全球最大的 AI 應用平台。

擁有 AI Overviews 和 AI Mode，以及 Gemini，現在 Google 的每一個產品，包括地圖、YouTube 等，都在集成 Gemini 或相關技術。這涉及數十億用戶，以及十幾個十億級用戶的產品。它們必須速度極快、效率極高、成本極低、延遲極低。這給了我們極大的動力去把 Flash 和更小的 Flash-Lite 模型做到極致高效，我希望這最終也能服務好用戶的各類工作。

Gary Tan：我好奇這些小模型到底能聰明到什麼程度。蒸餾有沒有極限？50B 或 400B 的模型能不能跟今天最大的前沿模型一樣聰明？

Demis Hassabis：我不覺得我們已經碰到了信息論上的極限，至少目前沒人知道有沒有碰到。也許某天會遇到某種信息密度的天花板，但現在我們的假設是，一個前沿的 Pro 模型發布後，在半年到一年內，它的能力就能被壓縮到非常小的、幾乎可以跑在邊緣設備上的模型裡。

你們也能在 Gemma 模型上看到這一點，我們的 Gemma 4 模型在同體量下表現非常強。這都用到了大量蒸餾技術和小模型效率優化技術。所以我真的沒看到什麼理論極限，我覺得我們離那個極限還遠得很。

Gary Tan：現在有個很離譜的現象，即工程師能做的工作量大概是六個月前的 500 到 1000 倍。這個房間裡有些人大概在做相當於 2000 年代一個 Google 工程師 1000 倍的工作量。Steve Yegge 講過這個。

Demis Hassabis：我覺得很興奮。小模型有很多用途。一個是成本低，而且速度快會同樣會帶來好處。在寫程式或其他任務中，你能迭代得更快，尤其是跟系統協作的時候。快速的系統即使不是最前沿的，比如只有前沿的 90% 到 95%，但這完全夠用了，而且你在迭代速度上賺回來的遠超那 10%。

另一個大方向是把這些模型跑在邊緣設備上，不光是為了效率，也是為了隱私和安全。想想各種處理非常私人信息的設備，還有機器人，對於你家裡的機器人，你會希望本地跑一個高效且強大的模型，只在特定場景下把任務委託給雲端的大模型。音訊和視訊流都在本地處理、數據留在本地，我能想象這會是一個很好的終極狀態。

記憶與推理

Gary Tan：回到上下文和記憶。模型目前是無狀態的，如果有了持續學習能力，開發者的體驗會是什麼樣？你怎麼引導這樣的模型？

Demis Hassabis：這個問題非常有趣。缺乏持續學習是當前 Agent 無法完成完整任務的一個關鍵瓶頸。現在的 Agent 對任務的局部環節很有用，你可以把它們拼起來做一些很酷的事，但它們無法很好地適應你所在的具體環境。這就是它們還不能真正「發射後不管」的原因，它們需要能學習你的具體場景。要達到完全的通用智能，這個問題必須解決。

Gary Tan：推理方面走到哪了？模型現在的思維鏈很強，但在一些聰明本科生不會犯的錯誤上還是會翻車。具體需要改什麼？推理上你預期會有什麼進展？

Demis Hassabis：思考範式上還有大量創新空間。我們做的事情仍然相當粗糙、相當暴力。可以有很多改進方向，比如監控思維鏈的過程，在思考中途做干預。我經常覺得，不管是我們的系統還是競爭對手的系統，它們在某種程度上會過度思考，陷入循環。

我有時候喜歡拿 Gemini 下棋來觀察。所有領先的基礎模型在下棋方面其實都相當差，這很有趣。

看它們的思考軌跡很有價值，因為棋是一個被充分理解的領域，我能很快判斷它是不是走偏了，推理是不是有效。我們看到的情況是，它有時候考慮一步棋，意識到是步臭棋，但又找不到更好的，結果繞了一圈還是走了那步臭棋。一個精確的推理系統不應該出現這種情況。

這種巨大的落差仍然存在，但修復它可能只需要一兩個調整。這就是為什麼你會看到所謂的「鋸齒狀智能」（jagged intelligence），它一方面能解 IMO 金牌級別的題，另一方面換個方式提問就會犯小學數學的錯誤。在對自身思維過程的內省上，好像還缺了點什麼。

Agent 的真實能力

Gary Tan：Agent 是個大話題。有人說是炒作。我個人覺得才剛開始。DeepMind 內部研究對 Agent 能力的真實判斷是什麼，跟外面的宣傳差距有多大？

Demis Hassabis：我同意你說的，我們才剛開始。要達到 AGI，你必須有一個能主動替你解決問題的系統。這對我們來說一直很清楚。Agent 就是那條路，我覺得我們才剛起步。

大家都在摸索怎樣讓 Agent 更好地配合工作，我們在個人實驗上做了很多探索，座的很多人應該也是。怎樣讓 Agent 融入工作流，讓它不只是錦上添花，而是真正在做根本性的事情。目前我們還在實驗階段。可能也就最近兩三個月才開始真正找到特別有價值的場景。技術大概也就剛好到了那個程度，不再是玩具演示，而是真的在給你的時間和效率帶來價值。

我經常看到有人啟動幾十個 Agent 讓它們跑幾十個小時，但我還不確定產出能匹配這個投入。

我們還沒看到有人用 vibe coding 做出一款登頂應用商店排行榜的 3A 遊戲。我自己也寫過，座的很多人也做過一些不錯的小 demo。我現在半小時就能做出一個《Theme Park》的原型，當年 17 歲的我花了六個月。

我有種感覺，如果你花一整個夏天去做，可以做出真正不可思議的東西。但它仍然需要工藝和人的靈魂、品味，你必須確保把這些東西帶進你所構建的任何產品裡。事實上現在還沒有哪個小孩做出了賣出一千萬份的爆款遊戲，按理說以當前的工具投入，這應該是有可能的。所以還缺點什麼，可能跟流程有關，可能跟工具有關。我預計未來 6 到 12 個月內會看到那樣的成果。

Gary Tan：其中多大程度上會是全自動的？我覺得不會一上來就是全自動。更可能的路徑是座的人先做到 1000 倍效率，然後出現有人用這些工具做出了暢銷應用、暢銷遊戲，之後更多環節才會被自動化。

Demis Hassabis：對，這就是你應該先看到的。

Gary Tan：也有一部分原因是，有些人確實在這麼做了，但他們不願意公開說 Agent 幫了多少忙。

Demis Hassabis：可能是。但我想聊聊創造力這個問題。我經常舉 AlphaGo 的例子，大家都知道第二局第 37 手。對我來說，我一直在等那樣的時刻出現，它出現之後我才啟動了科學項目比如 AlphaFold。我們在從首回來的第二天就開始做 AlphaFold，那是十年前了。我這次去韓國就是慶祝 AlphaGo 十周年。

但僅僅走出 Move 37 是不夠的。它很酷，很有用。但這個系統能不能發明圍棋本身？如果你給它一段高層描述，比如「一個五分鐘能學會規則、但窮盡一生也難以精通的遊戲，美學上很優雅，一個下午能下完一盤」，然後系統返回給你的結果是圍棋。今天的系統做不到這一點。問題是為什麼？

Gary Tan：在座的人裡可能就有誰能做到。

Demis Hassabis：如果有人做到了，那答案就不是系統缺了什麼，而是我們使用系統的方式有問題。這說不定就是正確答案。也許今天的系統就有這個能力，只是需要一個足夠天才的創作者來驅動它，提供那種專案的靈魂，同時這個人要跟工具高度融合，幾乎跟工具合為一體。如果你日夜泡在這些工具裡並且具備深度創造力，也許就能做出超乎想象的東西。

開源與多模態模型

Gary Tan：換個話題聊開源。最近 Gemma 的釋出讓非常強的模型可以在本地運行。你怎麼看？AI 會不會變成用戶自己掌握的東西，而不是主要留在雲端？這會改變誰能用這些模型來構建產品嗎？

Demis Hassabis：我們是開源和開放科學的堅定支持者。你提到的 AlphaFold，我們全部免費開放了。我們的科學工作至今仍然發表在頂級期刊上。Gemma 方面，我們想為同等體量創造世界領先的模型。目前 Gemma 的下載量已經達到大約 4000 萬次，而且才釋出了兩周半。

我還認為在開源領域有西方技術棧的存在很重要。中國的開源模型很優秀，目前在開源領域領先，但我們認為 Gemma 在同體量下非常有競爭力。

對我們來說還有一個資源問題，沒有人有多餘的算力去做兩個全尺寸前沿模型。所以我們目前的決策是：邊緣模型用於 Android、眼鏡、機器人等，最好做成開放模型，因為一旦部署到設備上，它們本身就是暴露的，不如直接徹底開放。我們在納米級別統一了開放策略，這在戰略上也說得通。

Gary Tan：上臺前我給你演示了我做的 AI 操作系統，我能直接用語音跟 Gemini 交互，給你演示東西我還是挺緊張的，不過居然跑通了。Gemini 從一開始就是多模態構建的。我用過很多模型，直接語音到模型的交互加上工具調用能力的深度和上下文理解，目前沒有任何模型能跟 Gemini 相比。

Demis Hassabis：對。對於 Gemini 系列一個還沒被充分認識到的優勢就是我們從一開始就按多模態來構建。這讓起步階段比只做文本要難，但我們相信長期會從中受益，現在已經開始兌現了。

比如世界模型方面，我們在 Gemini 之上構建了 Genie（DeepMind 開發的生成式互動環境模型）。機器人領域也一樣，Gemini Robotics 將建立在多模態基礎模型上，我們在多模態上的優勢會成為競爭護城河。我們在 Waymo（Alphabet 旗下自動駕駛公司）上也越來越多地使用 Gemini。

想像一下跟隨你進入真實世界的數位助手，可能在你的手機或眼鏡上，它需要理解你周圍的物理世界和環境。我們的系統在這方面極強。我們會繼續在這個方向投入，我認為我們在這類問題上的領先優勢是很大的。

Gary Tan：推理成本在快速下降。當推理基本免費時，什麼變得可能了？你們團隊的優化方向會因此改變嗎？

Demis Hassabis：我不確定推理會真正免費，杰文斯悖論（Jevons' Paradox，指效率提升反而導致總消耗量增加）擺在那裡。我覺得所有人最終會把能拿到的算力全部用掉。

可以想像數百萬個 Agent 組成的群體協同工作，或者一小組 Agent 沿著多個方向同時思考然後做集成。我們都在實驗這些方向，所有這些都會吃掉可用的推理資源。

能源方面，如果我們解決了可控核聚變、室溫超導、最優電池等問題中的幾個，我認為通過材料科學我們會做到，那能源成本可以趨近於零。但晶片的物理製造等環節仍然有瓶頸，至少未來幾十年是這樣。所以推理端仍然會有配額限制，仍然需要高效地使用。

下一個科學突破

Gary Tan：好在小模型越來越聰明了。在座有很多生物和生物技術領域的創始人。AlphaFold 3 已經超越了蛋白質，擴展到更廣譜的生物分子。我們離建模完整的細胞系統還有多遠？這是不是一個完全不同難度級別的問題？

Demis Hassabis：Isomorphic Labs 的进展非常顺利。AlphaFold 只是药物发现流程中的一部分，我们正在进行与之相关的生物化学研究，设计具有特定性质的化合物等，很快将会有重大的发布。

我们的最终目标是创建一个完整的虚拟细胞，一个可以对其施加干扰的全功能细胞模拟器，其输出结果足够接近实验结果，并且具有实际用途。您可以跳过大量的搜索步骤，生成大量合成数据来训练其他模型，使它们能够预测真实细胞的行为。

我估计离实现完整虚拟细胞还有大约十年的时间。我们在 DeepMind 的科学部门正从虚拟细胞核开始进行工作，因为细胞核相对而言是一个自包含的系统。这类问题的关键在于，是否能够割裂出一个适当复杂度的片段，它足够自给自足，您可以合理地对其输入和输出进行近似，然后专注于这个子系统。就这个角度来看，细胞核非常合适。

另一个挑战是数据不足。我曾与电子显微镜和其他成像技术领域的顶尖科学家讨论过。如果能够在不破坏细胞的情况下对活细胞进行成像，那将是具有颠覆性的。因为那样就能将其转化为一个视觉问题，而对于视觉问题，我们知道如何解决。

但据我所知，目前还没有技术能以纳米级分辨率对活的动态细胞进行成像且不破坏它。您可以获得到达该分辨率的静态图像，这已经非常精细，这令人兴奋，但还不足以直接将其转化为视觉问题。

因此，有两条途径，一条是基于硬件和数据驱动的方案；另一条是构建更好的可学习模拟器来模拟这些动力学系统。

Gary Tan：您不仅关注生物学。材料科学、药物发现、气候建模、数学，如果必须对它们进行排序，您认为未来五年哪个科学领域将会被彻底改变？

Demis Hassabis：每个领域都令人兴奋，这也是为什么一直是我的主要热情所在，也是我在过去30多年从事人工智能的原因。我一直认为人工智能将成为科学的终极工具，用于推动科学理解、科学发现、医学以及我们对宇宙的认识。

最初，我们表达使命的方式是分两步走。第一步是解决人工智能，即构建通用人工智能；第二步是利用它来解决所有其他问题。后来，我们不得不调整措辞，因为有人会问“你们真的打算解决所有问题吗”？

我們確實是這個意思。現在大家開始理解這意味著什麼了。具體來說，我指的是解決那些我稱之為「根節點問題」的科學領域，那些一旦突破就能解鎖全新發現分支的領域。AlphaFold 就是我們想做的事情的原型。

全球超過三百萬研究者，幾乎每個生物學研究者現在都在用 AlphaFold。我從一些製藥公司高管朋友那裡聽說，今後發現的幾乎每一種藥物都會在藥物發現流程的某個環節用到 AlphaFold。我們為此感到自豪，這也是我們希望 AI 能產生的那種影響力。但我覺得這只是開始。

我想不出有哪個科學或工程領域是 AI 幫不上忙的。你提到的那些領域，我覺得差不多處於「AlphaFold 1 時刻」，結果已經很有希望，但還沒有真正攻克該領域的大挑戰。未來兩年在所有這些領域我們都會有很多進展可談，從材料科學一直到數學。

Gary Tan：感覺像是普羅米修斯式的，給人類一種全新的能力。

Demis Hassabis：沒錯。當然正如普羅米修斯故事的寓意一樣，我們也必須謹慎對待這種能力被怎麼使用、用在什麼地方，以及同一套工具被濫用的風險。

成功經驗

Gary Tan：在座有很多人在嘗試創辦將 AI 應用於科學的公司。在你看來，真正推進前沿的創業公司和那些只是給基礎模型套層 API、然後自稱「AI for Science」的創業公司，差別在哪？

Demis Hassabis：我在想如果今天我坐在你們的位置上，在 Y Combinator 看項目，我會怎麼做。一件事是你必須預測 AI 技術的走向，這本身就很難。但我確實認為把 AI 的走向跟另一個深科技領域結合起來，有巨大的機會。這個交叉點，不管是材料、醫學還是其他真正困難的科學領域，特別是涉及原子世界的，在可預見的未來都不會有捷徑。這些領域不會因為下一次基礎模型更新就被碾壓。但如果你要找防禦性強的方向，這是我會推薦的。

我個人一直偏愛深科技。真正持久且有價值的東西沒有容易的。我總是被深科技吸引。2010 年我們起步的時候 AI 就是深科技——投資人跟我說「我們已經知道這東西不行」，學術界也認為這是個 90 年代試過然後失敗的小眾方向。

但如果你對自己的想法有信念——為什麼這次不同，你的背景有什麼獨特的組合——理想情況下你自己在機器學習和應用領域都是專家，或者你能組建這樣的創始團隊——那這裡面有巨大的影響力和價值可以創造。

Gary Tan：這個信息很重要。一件事做成之後看起來理所當然，但做成之前所有人都在反對你。

Demis Hassabis：當然，所以你必須做自己真正有熱情的事。對我來說，不管發生什麼我都會做 AI。我很小的時候就決定了這是我能想到的最有影響力的事情。事實也證明了這一點，但也可能不會，也許我們早了 50 年。

而且它也是我能想到的最有趣的事情。即使今天我們還蹲在一個小車庫裡、AI 還沒做出來，我也還是會想辦法繼續做。也許我會回學術界，但我會找到某種方式繼續下去。

Gary Tan：AlphaFold 算是你追了一個方向，然後賭對了的例子。什麼讓一個科學領域適合產生 AlphaFold 式的突破？有沒有規律，比如某種目標函數？

Demis Hassabis：我確實應該找個時間把這個寫下來。從 AlphaGo 和 AlphaFold 等所有 Alpha 項目中我學到的經驗是，我們現有的技術在以下情況下效果最好。

第一，問題具有巨大的組合搜索空間，越大越好，大到沒有任何暴力窮舉或特殊算法能解決。圍棋的走法空間和蛋白質的構型空間都遠超宇宙中原子的數量。第二，你能清晰地定義目標函數，比如蛋白質的自由能最小化，或者圍棋中的贏棋，這樣系統可以做梯度上升。第三，有足夠的數據，或者有一個模擬器能生成大量分布內的合成數據。

如果這三個條件成立，那以今天的方法就能走很遠，去找到你需要的那根「稻草堆中的針」。藥物發現也是同一個邏輯：存在某種化合物能治療這種疾病並且沒有副作用，只要物理定律允許它存在，唯一的問題就是怎麼高效、可行地找到它。我認為 AlphaFold 第一次證明了這類系統有能力在海量搜索空間中找到這種針。

Gary Tan：我想要邁向另一個層次。我們討論人類如何使用這些方法創造了 AlphaFold，但還有一個元層面，人類使用 AI 探索可能的假設空間。我們距離 AI 系統能夠進行真正的科學推理（而不僅僅是數據上的模式匹配）還有多遠？

Demis Hassabis：我覺得很接近了。我們正在建構這類通用系統。我們擁有一個名為 AI co-scientist 的系統，還有 AlphaEvolve 這樣的算法，能夠做到比 Gemini 更深入的事情。所有前沿實驗室都在探索這個方向。

但到目前為止，我個人還沒有看到一個真正的、重大的科學發現是由這些系統做出來的。我覺得它快來了。它可能與我們之前討論的創造力有關，真正突破已知邊界。到了那個層面，它就不是模式匹配了，因為沒有模式可以匹配。也不完全是外推，而是某種類比推理（analogical reasoning），我覺得這些系統目前還不具備，或者說我們還沒有以正確的方式去使用它們。

我在科學領域經常說的一個標準是，它能不能提出一個真正有趣的假設，而不僅僅是驗證一個。因為驗證一個假設本身也可能是驚天大事，比如證明黎曼猜想或者解決某個千禧年大獎問題，但也許我們離做到這一步只剩幾年。

而比這更難的是，能不能提出一組新的千禧年大獎問題，而且被頂尖數學家認為同樣深刻、值得用一生去研究。我覺得這又難了一個量級，我們目前還不知道怎麼做到。但我不認為這是什麼魔法，我相信這些系統最終能夠做到，也許還差一兩樣東西。

我們可以用來檢驗的方式是，我有時稱之為「愛因斯坦測試」，即你能不能用 1901 年的知識訓練一個系統，然後讓它獨立推導出愛因斯坦 1905 年做出的那些成果，包括狹義相對論和他那年的其他論文。我覺得我們應該真的去跑這個測試，反復嘗試，看什麼時候能做到。一旦能做到，那這些系統就離真正發明全新的東西不遠了。