首頁

快訊深度數據 Skill&API

a16z：AI的「健忘症」，持续學習能「治」好它嗎？

a16z crypto

閱讀本文需 31 分鐘

突破在於讓模型在部署後做訓練時讓它強大的那件事：壓縮、抽象、學習。

原文標題：為什麼我們需要持續學習

原文作者：Malika Aubakirova、Matt Bornstein，a16z crypto
原文編譯：深潮 TechFlow

在克里斯托弗·諾蘭的《記憶碎片》（Memento）裡，主角 Leonard Shelby 活在一個破碎的當下。腦損傷讓他患上了順行性遺忘症，無法形成新記憶。每隔幾分鐘，他的世界就重置一次，被困在永恆的「此刻」，不記得剛才發生了什麼，也不知道接下來會怎樣。為了活下去，他在身上紋字、拍拍立得，靠這些外部道具來替代大腦無法完成的記憶功能。

大語言模型也活在類似的永恆當下。訓練結束後，海量知識被凍結在參數裡，模型無法形成新記憶，無法根據新經驗更新自己的參數。為了彌補這個缺陷，我們給它搭了一堆腳手架：聊天歷史充當短期便簽，檢索系統當外部筆記本，系統提示詞就像身上的紋身。但模型本身，從來沒有真正內化過這些新信息。

越來越多的研究者認為，這樣不夠。上下文學習（ICL）能解決的問題，前提是答案（或答案的碎片）已經存在於世界的某個角落。但對於那些需要真正發現的問題（比如全新的數學證明），對抗性場景（比如安全攻防），或者那些太隱性、無法用語言表達的知識，有充分的理由認為：模型需要一種方式，在部署之後把新知識和經驗直接寫入參數。

上下文學習是臨時的。真正的學習需要壓縮。在我們允許模型持續壓縮之前，可能都困在《記憶碎片》的永恆當下裡。反過來說，如果我們能訓練模型學會自己的記憶架構，而不是依賴外掛的定制工具，可能會解鎖一個全新的 scaling 維度。

這個研究領域叫持續學習（continual learning）。這個概念並不新（參見 McCloskey 和 Cohen 1989 年的論文），但我們認為它是當前 AI 領域最重要的研究方向之一。過去兩三年模型能力的爆發式增長，讓模型「已知」和「能知」之間的鴻溝越來越明顯。這篇文章的目的是分享我們從該領域頂級研究者那裡學到的東西，幫助釐清持續學習的不同路徑，並推動這個話題在創業生態中的發展。

註：這篇文章的成型得益於與一群優秀的研究者、博士生和創業者的深度交流，他們慷慨地與我們分享了自己在持續學習領域的工作和見解。從理論基礎到部署後學習的工程現實，他們的洞見讓這篇文章比我們獨自撰寫的要扎實得多。感謝你們貢獻的時間和想法！

先聊上下文

在為參數級學習（即更新模型權重的學習）辯護之前，有必要承認一個事實：上下文學習確實有用。而且有一種很有力的論證認為它會繼續贏下去。

Transformer 的本質是基於序列的條件化下一個 token 預測器。給它正確的序列，你就能得到令人驚訝的豐富行為，根本不需要碰權重。這就是為什麼上下文管理、提示工程、指令微調和少樣本示例這些方法如此強大。智能封裝在靜態參數裡，而表現出來的能力隨著你餵進窗口的內容劇烈變化。

Cursor 最近關於自主編程智能體 scaling 的深度文章就是一個好例子：模型權重是固定的，真正讓系統跑起來的是對上下文的精心編排——放什麼進去、什麼時候做摘要、如何在數小時的自主運行中維持連貫狀態。

OpenClaw 是另一個好例子。它爆火並不是因為有特殊的模型權限（底層模型所有人都能用），而是因為它把上下文和工具極其高效地轉化成了工作狀態：追踪你在做什麼、結構化中間產物、決定什麼時候重新注入提示詞、維持對之前工作的持久記憶。OpenClaw 把智能體的「外殼設計」提升到了一個獨立學科的高度。

當提示工程最初出現時，很多研究者對「只靠提示詞」能成為正經接口這件事持懷疑態度。它看起來像個 hack。但它是 Transformer 架構的原生產物，不需要重新訓練，而且隨著模型進步自動升級。模型變強，提示就變強。「簡陋但原生」的接口往往能贏，因為它直接耦合到底層系統，而不是和它對著幹。到目前為止，LLM 的發展軌跡正是如此。

狀態空間模型：上下文的類固醇版

當主流工作流從原始 LLM 呼叫轉向智能體循環時，上下文學習模型面臨的壓力越來越大。過去，上下文窗口被完全填滿的情況相對少見。這通常發生在 LLM 被要求完成一長串離散任務時，應用層可以用比較直接的方式裁剪和壓縮聊天歷史。

但對智能體來說，一個任務就可能吃掉總可用上下文的很大一部分。智能體循環的每一步都依賴於前序迭代傳遞的上下文。而且它們經常在 20 到 100 步之後失敗，因為「斷了線」：上下文被填滿，連貫性退化，無法收斂。

因此，主要 AI 實驗室現在投入了大量資源（即大規模訓練運行）來開發超長上下文窗口的模型。這是一條自然的路徑，因為它建立在已經有效的方法（上下文學習）之上，並且與產業向推理時計算轉移的大趨勢契合。最常見的架構是在普通注意力頭之間穿插固定記憶層，即狀態空間模型（SSM）和線性注意力變體（下文統稱為 SSM）。SSM 在長上下文場景下提供了根本性更好的 scaling 曲線。

圖註：SSM 與傳統注意力機制的 scaling 對比

目標是幫助智能體將連貫運行的步數提升幾個數量級，從大約 20 步到大約 20,000 步，同時不丟失傳統 Transformer 所提供的廣泛技能和知識。如果成功，這對長時間運行的智能體來說是重大突破。

你甚至可以把這種方法看作一種持續學習的形式：雖然沒有更新模型權重，但引入了一個幾乎不需要重置的外部記憶層。

所以，這些非參數化方法是真實的、強大的。任何對持續學習的評估都必須從這裡開始。問題不在於今天的上下文系統有沒有用，它確實有用。問題是：我們是否已經看到了天花板，新的方法能否帶我們走得更遠。

上下文遺漏了什麼：「檔案櫃謬誤」

「AGI 和預訓練發生的事情是，在某種意義上它們超調了……人類不是 AGI。是的，人類確實有一個技能基礎，但人類缺少大量知識。我們依賴的是持續學習。

如果我造出一個超級聰明的 15 歲少年，他什麼都不知道。一個好學生，非常渴望學習。你可以說，去當程序員，去當醫生。部署本身就會涉及某種學習、試錯的過程。這是一個過程，不是把成品直接扔出去。——Ilya Sutskever」

想象一個存儲空間無限的系統。世界上最大的檔案櫃，每個事實都被完美索引，即時可檢索。它能查到任何東西。它學到了嗎？

沒有。它從來沒有被迫做壓縮。

這是我們論證的核心，它引用了 Ilya Sutskever 之前提出的一個觀點：LLM 本質上是壓縮演算法。在訓練過程中，它們把互聯網壓縮成參數。壓縮是有損的，而正是這種有損性讓它變得強大。壓縮迫使模型尋找結構、進行泛化、構建能跨上下文遷移的表徵。一個死記硬背所有訓練樣本的模型，不如一個提取出底層規律的模型。有損壓縮本身就是學習。

諷刺的是，讓 LLM 在訓練期間如此強大的機制（把原始數據壓縮成緊湊、可遷移的表徵），恰恰是我們在部署後拒絕讓它們繼續做的事。我們在發布那一刻停止了壓縮，用外部記憶來替代。

當然，大多數智能體外殼都會以某種定製方式壓縮上下文。但苦澀教訓（bitter lesson）難道不是告訴我們，模型本身應該學會這種壓縮，直接地、大規模地？

Yu Sun 分享了一個例子來說明這場辯論：數學。看看費馬大定理。350 多年來，沒有數學家能證明它，不是因為他們缺少正確的文獻資料，而是因為解法高度新穎。已有數學知識和最終答案之間的概念距離太大了。

Andrew Wiles 在 1990 年代終於攻克它時，他花了七年近乎與世隔絕地工作，不得不發明全新的技術來抵達答案。他的證明依賴於成功橋接兩個不同的數學分支：橢圓曲線和模形式。雖然 Ken Ribet 此前已經證明如果能建立這個連接就能自動解決費馬大定理，但在 Wiles 之前，沒有人擁有能實際構建這座橋的理論工具。Grigori Perelman 對龐加萊猜想的證明也可以做類似的論證。

核心問題是： 這些例子是否證明 LLM 缺少了某種東西，某種更新先備、進行真正創造性思考的能力？還是這個故事恰好證明了相反的結論——所有人類知識只是可供訓練和重組的數據，Wiles 和 Perelman 不過展示了 LLM 在更大規模上也能做到的事？

這個問題是經驗性的，答案尚不確定。但我們確實知道，有很多類別的問題上下文學習今天會失敗，而參數級學習可能有用。例如：

圖註：上下文學習失敗、參數學習可能勝出的問題類別

更重要的是，上下文學習只能處理能用語言表達的東西，而權重可以編碼提示詞無法用文字傳達的概念。有些模式維度太高、太隱性、太深層結構化，放不進上下文。比如，醫學掃描中區分良性偽影和腫瘤的視覺紋理，或者定義一個說話人獨特節奏的音頻微波動，這些模式不容易被分解成精確的詞彙。

語言只能近似它們。再長的提示詞也傳遞不了這些東西；這類知識只能存活在權重裡。它們活在學習表徵的潛空間中，不是文字。無論上下文窗口增長到多大，總有一些知識是文本無法描述的，只能被參數承載。

這也許能解釋為什麼顯式的「機器人記住你」功能（比如 ChatGPT 的 memory）經常讓用戶感到不適而非驚喜。用戶真正想要的不是「回憶」，而是「能力」。一個已經內化了你行為模式的模型可以泛化到新場景；一個只是回憶你歷史記錄的模型做不到。「這是你上次回覆這封郵件時寫的內容」（逐字複述）和「我已經足夠理解你的思維方式，能預測你需要什麼」之間的差距，就是檢索和學習的差距。

持續學習入門

持續學習有多種路徑。分界線不在於「有沒有記憶功能」，而在於：壓縮發生在哪裡？ 這些路徑沿一個光譜分佈，從無壓縮（純檢索，權重凍結），到完全內部壓縮（權重級學習，模型變得更聰明），中間還有一個重要地帶（模塊）。

圖註：持續學習的三種路徑——上下文、模塊、權重

上下文

在上下文這端，團隊構建更智能的檢索管線、智能體外殼和提示詞編排。這是最成熟的類別：基礎設施经过验证，部署路徑清晰。限制在於深度：上下文長度。

一個值得注意的新方向：多智能體架構作為上下文本身的 scaling 策略。如果單個模型被限制在 128K token 窗口內，一組協調的智能體群——每個持有自己的上下文、專注於問題的一個切片、互相通信結果——可以在整體上近似無限工作記憶。每個智能體在自己的窗口內做上下文學習；系統做聚合。Karpathy 最近的 autoresearch 專案和 Cursor 構建網頁瀏覽器的例子是早期案例。這是純粹的非參數化方法（不改權重），但它極大地抬高了上下文系統能做到的上限。

模組

在模組空間裡，團隊建構可插拔的知識模組（壓縮的 KV 快取、適配器層、外部記憶儲存），讓通用模型在不重新訓練的情況下實現專業化。一個 8B 模型加上合適的模組，可以在目標任務上匹配 109B 模型的表現，內存佔用只是其零頭。吸引力在於它能兼容現有的 Transformer 基礎設施。

權重

在權重更新這端，研究者在追求真正的參數級學習：只更新相關參數片段的稀疏記憶層、從反饋中優化模型的強化學習循環、在推理時將上下文壓縮進權重的測試時訓練（test-time training）。這些是最深層的方法，也是最難部署的，但它們真正允許模型完全內化新信息或新技能。

參數更新的具體機制有多種。列舉幾個研究方向：

圖註：權重級學習的研究方向概覽

權重級研究涵蓋了多條並行路線。正則化和權重空間方法歷史最久：EWC（Kirkpatrick 等人，2017）根據參數對先前任務的重要性來懲罰參數變化；權重插值（Kozal 等人，2024）在參數空間中混合新舊權重配置，但兩者在大規模上都比較脆弱。

測試時訓練由 Sun 等人（2020）開創，後來發展為架構原語（TTT 層、TTT-E2E、TTT-Discover），思路截然不同：在測試數據上做梯度下降，在需要的那一刻把新信息壓縮進參數。

元學習問的是：我們能否訓練出懂得「如何學習」的模型？從 MAML 的少樣本友好參數初始化（Finn 等人，2017）到 Behrouz 等人的嵌套學習（Nested Learning, 2025），後者將模型結構化為一個分層優化問題，不同時間尺度上運行快速適配和慢速更新的模組，靈感來自生物記憶鞏固。

蒸餾通過讓學生模型匹配凍結的教師檢查點來保留先前任務的知識。LoRD（Liu et al., 2025）通過同時裁剪模型和回放緩衝區，讓蒸餾高效到可以持續運行。自蒸餾（SDFT, Shenfeld et al., 2026）翻轉了來源，用模型自己在專家條件下的輸出作為訓練信號，繞過了序列微調的災難性遺忘。

遞歸自我改進運作在類似的思路上：STaR（Zelikman et al., 2022）從自生成的推理鏈中引導推理能力；AlphaEvolve（DeepMind, 2025）發現了幾十年未被改進的演算法優化；Silver 和 Sutton 的「經驗時代」（2025）把智能體學習定義為一個永不停止的持續經驗流。

這些研究方向正在匯聚。TTT-Discover 已經融合了測試時訓練和 RL 驅動的探索。HOPE 把快慢學習循環嵌套在單一架構內。SDFT 把蒸餾變成了自我改進的基本操作。列與列之間的邊界正在模糊。下一代持續學習系統很可能會組合多種策略：用正則化來穩定，用元學習來加速，用自我改進來複利。一批越來越多的創業公司正在押注這個技術棧的不同層級。

持續學習創業版圖

光譜的非參數端最為人熟知。外殼公司（Letta、mem0、Subconscious）構建編排層和腳手架，管理放進上下文視窗的內容。外部存儲和 RAG 基礎設施（如 Pinecone、xmemory）提供檢索骨幹。數據存在，挑戰是在正確的時間把正確的切片放到模型面前。隨著上下文視窗擴展，這些公司的設計空間也隨之增長，特別是在外殼端，一波新的創業公司正在湧現來管理日益複雜的上下文策略。

參數端更早期、也更多元。這裡的公司在嘗試某種版本的「部署後壓縮」，讓模型在權重中內化新信息。路徑大致可以分成幾種不同的賭注，關於模型在發布後應該「怎樣」學習。

部分壓縮：不重訓也能學。 一些團隊在構建可插拔的知識模塊（壓縮的 KV 快取、適配器層、外部記憶存儲），讓通用模型在不動核心權重的情況下實現專業化。共同的論點是：你可以獲得有意義的壓縮（不只是檢索），同時把穩定性-可塑性的權衡控制在可管理範圍內，因為學習是隔離的，而不是分散在整個參數空間。8B 模型配上合適的模塊，可以在目標任務上匹配遠大模型的表現。優勢是可組合性：模塊可以和現有 Transformer 架構即插即用，可以獨立交換或更新，實驗成本遠低於重訓。

强化学习（RL）和反馈循环：从信号中学习。 另一些团队押注的是，部署后学习最丰富的信号已经存在于部署循环本身——用户纠正、任务成败、来自真实世界结果的奖励信号。核心理念是模型应該把每次交互都当作潜在的训练信号，而不只是推理请求。这和人类在工作中进步的方式高度类似：干活、拿到反馈、内化哪些方法有效。工程挑战在于把稀疏、嘈杂、有時带有對抗性的反馈转化为稳定的权重更新，同时不灾难性遗忘。但一个真正能从部署中学习的模型，會以上下文系统做不到的方式产生複利價值。

以数据为中心：从正确的信号中学习。 一个相关但有区别的赌注是，瓶颈不在学习算法，而在训练数据和周邊系统。这些团队专注于筛选、生成或合成正确的数据来驱动持续更新：前提是一个有高质量、结构良好的学习信号的模型，只需要少得多的梯度步就能有意义地改进。这和反馈循环公司自然衔接，但強調的是上游问题：模型能不能学是一回事，它應該從什麼學、學到什麼程度是另一回事。

新架构：从底层设计学习能力。 最激進的赌注認為 Transformer 架構本身就是瓶頸，持续学习需要从根本上不同的計算原語：具备连续時間動態和內建記憶機制的架構。這裡的論點是結構性的：如果你想要一个持续学习的系統，你應該把學習機制嵌入底层基礎架構。

圖註：持續學習創業公司版圖

所有主要實驗室也在這些類別中積極佈局。有的在探索更好的上下文管理和思維鏈推理，有的在嘗試外部記憶模塊或 sleep-time 計算管線，還有幾家隱身公司在追求新架構。這個領域足夠早期，沒有哪種方法已經勝出，而且考慮到用例的廣泛性，也不應該只有一種贏家。

為什麼朴素的權重更新會失敗

在生產環境中更新模型參數，會引發一連串目前在大規模上尚未解決的失敗模式。

圖註：朴素權重更新的失敗模式

工程問題已有充分記錄。災難性遺忘意味著對新數據足夠敏感以學習的模型，會摧毀已有的表征——穩定性-可塑性困境。時間解耦是指不變規則和可變狀態被壓縮進了同一組權重，更新一個就會損壞另一個。邏輯整合的失敗是因為事實更新不會傳播到其推論：更改局限在 token 序列層面，不是語義概念層面。遺忘（unlearning）仍然不可能：不存在一個可微分的減法操作，因此虛假或有毒知識沒有精確的手術切除方案。

還有第二類問題被較少關注。當前訓練和部署的分離不只是工程上的便利，它是安全性、可審計性和治理的邊界。打開這個邊界，多件事會同時出問題。安全對齊可能不可預測地退化：即便是在良性數據上的窄範圍微調也可能產生廣泛的失調行為。

持續更新創造了一個數據投毒的攻擊面——一種緩慢、持久的提示注入版本，但它活在權重裡。可審計性崩潰，因為一個持續更新的模型是一個移動靶，無法做版本控制、回歸測試或一次性認證。當用戶互動被壓縮進參數時，隱私風險加劇，敏感信息被烘焙進表徵，比檢索上下文中的信息更難過濾。

這些是開放問題，不是根本性的不可能。解決它們和解決核心架構挑戰一樣，是持續學習研究議程的一部分。

從「記憶碎片」到真正的記憶

Leonard 在《記憶碎片》中的悲劇不在於他無法運轉——在任何一個場景中他都足智多謀，甚至堪稱出色。他的悲劇在於他永遠無法複利。每一次經歷都停留在外部——一張拍立得、一個紋身、一張別人筆跡的便條。他能檢索，但他無法壓縮新知識。

當 Leonard 在這個自我建構的迷宮中穿行時，真實和信念之間的界限開始模糊。他的病症不只是剝奪了他的記憶；它迫使他不斷重建意義，讓他同時成為自己故事中的偵探和不可靠敘述者。

今天的 AI 運行在同樣的約束下。我們構建了非常強大的檢索系統：更長的上下文窗口、更智能的外殼、協調的多智能體群，而且它們管用。但檢索不等於學習。一個能查到任何事實的系統沒有被迫去尋找結構。它沒有被迫去泛化。讓訓練如此強大的有損壓縮——把原始數據轉化為可遷移表徵的機制——恰恰是我們在部署那一刻就關掉的東西。

前進的路徑很可能不是一個單一突破，而是一個分層系統。上下文學習仍將是第一道適應防線：它是原生的、經過驗證的、在不斷改進的。模組機制可以處理個性化和領域專業化的中間地帶。

但對於那些真正困難的問題——發現、對抗適應、無法用文字表達的隱性知識——我們可能需要讓模型在訓練之後繼續把經驗壓縮進參數。這意味著稀疏架構、元學習目標和自我改進循環的進步。它可能還需要我們重新定義「模型」的含義：不是一組固定的權重，而是一個進化中的系統，包含它的記憶、它的更新算法，以及它從自身經驗中抽象的能力。

檔案櫃越來越大。但再大的檔案櫃還是檔案櫃。突破在於讓模型在部署後做訓練時讓它強大的那件事：壓縮、抽象、學習。我們站在從失憶模型到擁有一絲經驗之光的模型的轉折點上。否則，我們會困在自己的《記憶碎片》裡。