原文標題:為什麼我們需要持續學習
原文作者:Malika Aubakirova、Matt Bornstein,a16z crypto
原文編譯:深潮 TechFlow
在克里斯托弗·諾蘭的《記憶碎片》(Memento)裡,主角 Leonard Shelby 活在一個破碎的當下。腦損傷讓他患上了順行性遺忘症,無法形成新記憶。每隔幾分鐘,他的世界就重置一次,被困在永恆的「此刻」,不記得剛才發生了什麼,也不知道接下來會怎樣。為了活下去,他在身上紋字、拍拍立得,靠這些外部道具來替代大腦無法完成的記憶功能。
大語言模型也活在類似的永恆當下。訓練結束後,海量知識被凍結在參數裡,模型無法形成新記憶,無法根據新經驗更新自己的參數。為了彌補這個缺陷,我們給它搭了一堆腳手架:聊天歷史充當短期便簽,檢索系統當外部筆記本,系統提示詞就像身上的紋身。但模型本身,從來沒有真正內化過這些新信息。
越來越多的研究者認為,這樣不夠。上下文學習(ICL)能解決的問題,前提是答案(或答案的碎片)已經存在於世界的某個角落。但對於那些需要真正發現的問題(比如全新的數學證明),對抗性場景(比如安全攻防),或者那些太隱性、無法用語言表達的知識,有充分的理由認為:模型需要一種方式,在部署之後把新知識和經驗直接寫入參數。
上下文學習是臨時的。真正的學習需要壓縮。在我們允許模型持續壓縮之前,可能都困在《記憶碎片》的永恆當下裡。反過來說,如果我們能訓練模型學會自己的記憶架構,而不是依賴外掛的定制工具,可能會解鎖一個全新的 scaling 維度。
這個研究領域叫持續學習(continual learning)。這個概念並不新(參見 McCloskey 和 Cohen 1989 年的論文),但我們認為它是當前 AI 領域最重要的研究方向之一。過去兩三年模型能力的爆發式增長,讓模型「已知」和「能知」之間的鴻溝越來越明顯。這篇文章的目的是分享我們從該領域頂級研究者那裡學到的東西,幫助釐清持續學習的不同路徑,並推動這個話題在創業生態中的發展。
註:這篇文章的成型得益於與一群優秀的研究者、博士生和創業者的深度交流,他們慷慨地與我們分享了自己在持續學習領域的工作和見解。從理論基礎到部署後學習的工程現實,他們的洞見讓這篇文章比我們獨自撰寫的要扎實得多。感謝你們貢獻的時間和想法!
在為參數級學習(即更新模型權重的學習)辯護之前,有必要承認一個事實:上下文學習確實有用。而且有一種很有力的論證認為它會繼續贏下去。
Transformer 的本質是基於序列的條件化下一個 token 預測器。給它正確的序列,你就能得到令人驚訝的豐富行為,根本不需要碰權重。這就是為什麼上下文管理、提示工程、指令微調和少樣本示例這些方法如此強大。智能封裝在靜態參數裡,而表現出來的能力隨著你餵進窗口的內容劇烈變化。
Cursor 最近關於自主編程智能體 scaling 的深度文章就是一個好例子:模型權重是固定的,真正讓系統跑起來的是對上下文的精心編排——放什麼進去、什麼時候做摘要、如何在數小時的自主運行中維持連貫狀態。
OpenClaw 是另一個好例子。它爆火並不是因為有特殊的模型權限(底層模型所有人都能用),而是因為它把上下文和工具極其高效地轉化成了工作狀態:追踪你在做什麼、結構化中間產物、決定什麼時候重新注入提示詞、維持對之前工作的持久記憶。OpenClaw 把智能體的「外殼設計」提升到了一個獨立學科的高度。
當提示工程最初出現時,很多研究者對「只靠提示詞」能成為正經接口這件事持懷疑態度。它看起來像個 hack。但它是 Transformer 架構的原生產物,不需要重新訓練,而且隨著模型進步自動升級。模型變強,提示就變強。「簡陋但原生」的接口往往能贏,因為它直接耦合到底層系統,而不是和它對著幹。到目前為止,LLM 的發展軌跡正是如此。
當主流工作流從原始 LLM 呼叫轉向智能體循環時,上下文學習模型面臨的壓力越來越大。過去,上下文窗口被完全填滿的情況相對少見。這通常發生在 LLM 被要求完成一長串離散任務時,應用層可以用比較直接的方式裁剪和壓縮聊天歷史。
但對智能體來說,一個任務就可能吃掉總可用上下文的很大一部分。智能體循環的每一步都依賴於前序迭代傳遞的上下文。而且它們經常在 20 到 100 步之後失敗,因為「斷了線」:上下文被填滿,連貫性退化,無法收斂。
因此,主要 AI 實驗室現在投入了大量資源(即大規模訓練運行)來開發超長上下文窗口的模型。這是一條自然的路徑,因為它建立在已經有效的方法(上下文學習)之上,並且與產業向推理時計算轉移的大趨勢契合。最常見的架構是在普通注意力頭之間穿插固定記憶層,即狀態空間模型(SSM)和線性注意力變體(下文統稱為 SSM)。SSM 在長上下文場景下提供了根本性更好的 scaling 曲線。

圖註:SSM 與傳統注意力機制的 scaling 對比
目標是幫助智能體將連貫運行的步數提升幾個數量級,從大約 20 步到大約 20,000 步,同時不丟失傳統 Transformer 所提供的廣泛技能和知識。如果成功,這對長時間運行的智能體來說是重大突破。
你甚至可以把這種方法看作一種持續學習的形式:雖然沒有更新模型權重,但引入了一個幾乎不需要重置的外部記憶層。
所以,這些非參數化方法是真實的、強大的。任何對持續學習的評估都必須從這裡開始。問題不在於今天的上下文系統有沒有用,它確實有用。問題是:我們是否已經看到了天花板,新的方法能否帶我們走得更遠。
「AGI 和預訓練發生的事情是,在某種意義上它們超調了……人類不是 AGI。是的,人類確實有一個技能基礎,但人類缺少大量知識。我們依賴的是持續學習。
如果我造出一個超級聰明的 15 歲少年,他什麼都不知道。一個好學生,非常渴望學習。你可以說,去當程序員,去當醫生。部署本身就會涉及某種學習、試錯的過程。這是一個過程,不是把成品直接扔出去。——Ilya Sutskever」
想象一個存儲空間無限的系統。世界上最大的檔案櫃,每個事實都被完美索引,即時可檢索。它能查到任何東西。它學到了嗎?
沒有。它從來沒有被迫做壓縮。
這是我們論證的核心,它引用了 Ilya Sutskever 之前提出的一個觀點:LLM 本質上是壓縮演算法。在訓練過程中,它們把互聯網壓縮成參數。壓縮是有損的,而正是這種有損性讓它變得強大。壓縮迫使模型尋找結構、進行泛化、構建能跨上下文遷移的表徵。一個死記硬背所有訓練樣本的模型,不如一個提取出底層規律的模型。有損壓縮本身就是學習。
諷刺的是,讓 LLM 在訓練期間如此強大的機制(把原始數據壓縮成緊湊、可遷移的表徵),恰恰是我們在部署後拒絕讓它們繼續做的事。我們在發布那一刻停止了壓縮,用外部記憶來替代。
當然,大多數智能體外殼都會以某種定製方式壓縮上下文。但苦澀教訓(bitter lesson)難道不是告訴我們,模型本身應該學會這種壓縮,直接地、大規模地?
Yu Sun 分享了一個例子來說明這場辯論:數學。看看費馬大定理。350 多年來,沒有數學家能證明它,不是因為他們缺少正確的文獻資料,而是因為解法高度新穎。已有數學知識和最終答案之間的概念距離太大了。
Andrew Wiles 在 1990 年代終於攻克它時,他花了七年近乎與世隔絕地工作,不得不發明全新的技術來抵達答案。他的證明依賴於成功橋接兩個不同的數學分支:橢圓曲線和模形式。雖然 Ken Ribet 此前已經證明如果能建立這個連接就能自動解決費馬大定理,但在 Wiles 之前,沒有人擁有能實際構建這座橋的理論工具。Grigori Perelman 對龐加萊猜想的證明也可以做類似的論證。
核心問題是: 這些例子是否證明 LLM 缺少了某種東西,某種更新先備、進行真正創造性思考的能力?還是這個故事恰好證明了相反的結論——所有人類知識只是可供訓練和重組的數據,Wiles 和 Perelman 不過展示了 LLM 在更大規模上也能做到的事?
這個問題是經驗性的,答案尚不確定。但我們確實知道,有很多類別的問題上下文學習今天會失敗,而參數級學習可能有用。例如:

圖註:上下文學習失敗、參數學習可能勝出的問題類別
更重要的是,上下文學習只能處理能用語言表達的東西,而權重可以編碼提示詞無法用文字傳達的概念。有些模式維度太高、太隱性、太深層結構化,放不進上下文。比如,醫學掃描中區分良性偽影和腫瘤的視覺紋理,或者定義一個說話人獨特節奏的音頻微波動,這些模式不容易被分解成精確的詞彙。
語言只能近似它們。再長的提示詞也傳遞不了這些東西;這類知識只能存活在權重裡。它們活在學習表徵的潛空間中,不是文字。無論上下文窗口增長到多大,總有一些知識是文本無法描述的,只能被參數承載。
這也許能解釋為什麼顯式的「機器人記住你」功能(比如 ChatGPT 的 memory)經常讓用戶感到不適而非驚喜。用戶真正想要的不是「回憶」,而是「能力」。一個已經內化了你行為模式的模型可以泛化到新場景;一個只是回憶你歷史記錄的模型做不到。「這是你上次回覆這封郵件時寫的內容」(逐字複述)和「我已經足夠理解你的思維方式,能預測你需要什麼」之間的差距,就是檢索和學習的差距。
持續學習有多種路徑。分界線不在於「有沒有記憶功能」,而在於:壓縮發生在哪裡? 這些路徑沿一個光譜分佈,從無壓縮(純檢索,權重凍結),到完全內部壓縮(權重級學習,模型變得更聰明),中間還有一個重要地帶(模塊)。

圖註:持續學習的三種路徑——上下文、模塊、權重
在上下文這端,團隊構建更智能的檢索管線、智能體外殼和提示詞編排。這是最成熟的類別:基礎設施经过验证,部署路徑清晰。限制在於深度:上下文長度。
一個值得注意的新方向:多智能體架構作為上下文本身的 scaling 策略。如果單個模型被限制在 128K token 窗口內,一組協調的智能體群——每個持有自己的上下文、專注於問題的一個切片、互相通信結果——可以在整體上近似無限工作記憶。每個智能體在自己的窗口內做上下文學習;系統做聚合。Karpathy 最近的 autoresearch 專案和 Cursor 構建網頁瀏覽器的例子是早期案例。這是純粹的非參數化方法(不改權重),但它極大地抬高了上下文系統能做到的上限。
在模組空間裡,團隊建構可插拔的知識模組(壓縮的 KV 快取、適配器層、外部記憶儲存),讓通用模型在不重新訓練的情況下實現專業化。一個 8B 模型加上合適的模組,可以在目標任務上匹配 109B 模型的表現,內存佔用只是其零頭。吸引力在於它能兼容現有的 Transformer 基礎設施。
在權重更新這端,研究者在追求真正的參數級學習:只更新相關參數片段的稀疏記憶層、從反饋中優化模型的強化學習循環、在推理時將上下文壓縮進權重的測試時訓練(test-time training)。這些是最深層的方法,也是最難部署的,但它們真正允許模型完全內化新信息或新技能。
參數更新的具體機制有多種。列舉幾個研究方向:

圖註:權重級學習的研究方向概覽
權重級研究涵蓋了多條並行路線。正則化和權重空間方法歷史最久:EWC(Kirkpatrick 等人,2017)根據參數對先前任務的重要性來懲罰參數變化;權重插值(Kozal 等人,2024)在參數空間中混合新舊權重配置,但兩者在大規模上都比較脆弱。
測試時訓練由 Sun 等人(2020)開創,後來發展為架構原語(TTT 層、TTT-E2E、TTT-Discover),思路截然不同:在測試數據上做梯度下降,在需要的那一刻把新信息壓縮進參數。
元學習問的是:我們能否訓練出懂得「如何學習」的模型?從 MAML 的少樣本友好參數初始化(Finn 等人,2017)到 Behrouz 等人的嵌套學習(Nested Learning, 2025),後者將模型結構化為一個分層優化問題,不同時間尺度上運行快速適配和慢速更新的模組,靈感來自生物記憶鞏固。
蒸餾通過讓學生模型匹配凍結的教師檢查點來保留先前任務的知識。LoRD(Liu et al., 2025)通過同時裁剪模型和回放緩衝區,讓蒸餾高效到可以持續運行。自蒸餾(SDFT, Shenfeld et al., 2026)翻轉了來源,用模型自己在專家條件下的輸出作為訓練信號,繞過了序列微調的災難性遺忘。
遞歸自我改進運作在類似的思路上:STaR(Zelikman et al., 2022)從自生成的推理鏈中引導推理能力;AlphaEvolve(DeepMind, 2025)發現了幾十年未被改進的演算法優化;Silver 和 Sutton 的「經驗時代」(2025)把智能體學習定義為一個永不停止的持續經驗流。
這些研究方向正在匯聚。TTT-Discover 已經融合了測試時訓練和 RL 驅動的探索。HOPE 把快慢學習循環嵌套在單一架構內。SDFT 把蒸餾變成了自我改進的基本操作。列與列之間的邊界正在模糊。下一代持續學習系統很可能會組合多種策略:用正則化來穩定,用元學習來加速,用自我改進來複利。一批越來越多的創業公司正在押注這個技術棧的不同層級。
光譜的非參數端最為人熟知。外殼公司(Letta、mem0、Subconscious)構建編排層和腳手架,管理放進上下文視窗的內容。外部存儲和 RAG 基礎設施(如 Pinecone、xmemory)提供檢索骨幹。數據存在,挑戰是在正確的時間把正確的切片放到模型面前。隨著上下文視窗擴展,這些公司的設計空間也隨之增長,特別是在外殼端,一波新的創業公司正在湧現來管理日益複雜的上下文策略。
參數端更早期、也更多元。這裡的公司在嘗試某種版本的「部署後壓縮」,讓模型在權重中內化新信息。路徑大致可以分成幾種不同的賭注,關於模型在發布後應該「怎樣」學習。
部分壓縮:不重訓也能學。 一些團隊在構建可插拔的知識模塊(壓縮的 KV 快取、適配器層、外部記憶存儲),讓通用模型在不動核心權重的情況下實現專業化。共同的論點是:你可以獲得有意義的壓縮(不只是檢索),同時把穩定性-可塑性的權衡控制在可管理範圍內,因為學習是隔離的,而不是分散在整個參數空間。8B 模型配上合適的模塊,可以在目標任務上匹配遠大模型的表現。優勢是可組合性:模塊可以和現有 Transformer 架構即插即用,可以獨立交換或更新,實驗成本遠低於重訓。
强化学习(RL)和反馈循环:从信号中学习。 另一些团队押注的是,部署后学习最丰富的信号已经存在于部署循环本身——用户纠正、任务成败、来自真实世界结果的奖励信号。核心理念是模型应該把每次交互都当作潜在的训练信号,而不只是推理请求。这和人类在工作中进步的方式高度类似:干活、拿到反馈、内化哪些方法有效。工程挑战在于把稀疏、嘈杂、有時带有對抗性的反馈转化为稳定的权重更新,同时不灾难性遗忘。但一个真正能从部署中学习的模型,會以上下文系统做不到的方式产生複利價值。
以数据为中心:从正确的信号中学习。 一个相关但有区别的赌注是,瓶颈不在学习算法,而在训练数据和周邊系统。这些团队专注于筛选、生成或合成正确的数据来驱动持续更新:前提是一个有高质量、结构良好的学习信号的模型,只需要少得多的梯度步就能有意义地改进。这和反馈循环公司自然衔接,但強調的是上游问题:模型能不能学是一回事,它應該從什麼學、學到什麼程度是另一回事。
新架构:从底层设计学习能力。 最激進的赌注認為 Transformer 架構本身就是瓶頸,持续学习需要从根本上不同的計算原語:具备连续時間動態和內建記憶機制的架構。這裡的論點是結構性的:如果你想要一个持续学习的系統,你應該把學習機制嵌入底层基礎架構。

圖註:持續學習創業公司版圖
所有主要實驗室也在這些類別中積極佈局。有的在探索更好的上下文管理和思維鏈推理,有的在嘗試外部記憶模塊或 sleep-time 計算管線,還有幾家隱身公司在追求新架構。這個領域足夠早期,沒有哪種方法已經勝出,而且考慮到用例的廣泛性,也不應該只有一種贏家。
在生產環境中更新模型參數,會引發一連串目前在大規模上尚未解決的失敗模式。

圖註:朴素權重更新的失敗模式
工程問題已有充分記錄。災難性遺忘意味著對新數據足夠敏感以學習的模型,會摧毀已有的表征——穩定性-可塑性困境。時間解耦是指不變規則和可變狀態被壓縮進了同一組權重,更新一個就會損壞另一個。邏輯整合的失敗是因為事實更新不會傳播到其推論:更改局限在 token 序列層面,不是語義概念層面。遺忘(unlearning)仍然不可能:不存在一個可微分的減法操作,因此虛假或有毒知識沒有精確的手術切除方案。
還有第二類問題被較少關注。當前訓練和部署的分離不只是工程上的便利,它是安全性、可審計性和治理的邊界。打開這個邊界,多件事會同時出問題。安全對齊可能不可預測地退化:即便是在良性數據上的窄範圍微調也可能產生廣泛的失調行為。
持續更新創造了一個數據投毒的攻擊面——一種緩慢、持久的提示注入版本,但它活在權重裡。可審計性崩潰,因為一個持續更新的模型是一個移動靶,無法做版本控制、回歸測試或一次性認證。當用戶互動被壓縮進參數時,隱私風險加劇,敏感信息被烘焙進表徵,比檢索上下文中的信息更難過濾。
這些是開放問題,不是根本性的不可能。解決它們和解決核心架構挑戰一樣,是持續學習研究議程的一部分。
Leonard 在《記憶碎片》中的悲劇不在於他無法運轉——在任何一個場景中他都足智多謀,甚至堪稱出色。他的悲劇在於他永遠無法複利。每一次經歷都停留在外部——一張拍立得、一個紋身、一張別人筆跡的便條。他能檢索,但他無法壓縮新知識。
當 Leonard 在這個自我建構的迷宮中穿行時,真實和信念之間的界限開始模糊。他的病症不只是剝奪了他的記憶;它迫使他不斷重建意義,讓他同時成為自己故事中的偵探和不可靠敘述者。
今天的 AI 運行在同樣的約束下。我們構建了非常強大的檢索系統:更長的上下文窗口、更智能的外殼、協調的多智能體群,而且它們管用。但檢索不等於學習。一個能查到任何事實的系統沒有被迫去尋找結構。它沒有被迫去泛化。讓訓練如此強大的有損壓縮——把原始數據轉化為可遷移表徵的機制——恰恰是我們在部署那一刻就關掉的東西。
前進的路徑很可能不是一個單一突破,而是一個分層系統。上下文學習仍將是第一道適應防線:它是原生的、經過驗證的、在不斷改進的。模組機制可以處理個性化和領域專業化的中間地帶。
但對於那些真正困難的問題——發現、對抗適應、無法用文字表達的隱性知識——我們可能需要讓模型在訓練之後繼續把經驗壓縮進參數。這意味著稀疏架構、元學習目標和自我改進循環的進步。它可能還需要我們重新定義「模型」的含義:不是一組固定的權重,而是一個進化中的系統,包含它的記憶、它的更新算法,以及它從自身經驗中抽象的能力。
檔案櫃越來越大。但再大的檔案櫃還是檔案櫃。突破在於讓模型在部署後做訓練時讓它強大的那件事:壓縮、抽象、學習。我們站在從失憶模型到擁有一絲經驗之光的模型的轉折點上。否則,我們會困在自己的《記憶碎片》裡。
原文链接
歡迎加入律動 BlockBeats 官方社群:
Telegram 訂閱群:https://t.me/theblockbeats
Telegram 交流群:https://t.me/BlockBeats_App
Twitter 官方帳號:https://twitter.com/BlockBeatsAsia