線上策略自蒸餾與做夢模擬可成大型模型持續學習新解法

据動察 Beating 監測，大語言模型在部署後，普遍面臨無法持續吸收新知識的難題。目前的優化技術主要集中在擴大上下文窗口和提升查找速度上，這只能讓模型在單個對話內臨時查找信息，一旦關閉對話框，知識就會被全部忘光。大模型持續學習的真正瓶頸並不在這些查找速度的優化上，而是在於如何將對話裡學到的經驗，物理性地改寫進大模型底層的權重參數裡。

在線策略自蒸餾（Online Policy Self-Distillation, OPSD）提供了一條全新的權重更新路徑。大模型在面臨任務時，其擁有完整長上下文的「教師狀態」（Teacher State）會生成高質量的解答。隨後，系統在雲端通過反向傳播（Backpropagation），計算基礎狀態（學生，Student）與教師狀態在 Token 級別的概率差異來提供稠密的監督信號，讓基礎模型去逼近那個拿了高分的聰明狀態。

相比於強行讓模型死記硬背所有對話文字的監督微調（Supervised Fine-Tuning, SFT），自蒸餾僅提取維持性能所必需的決策經驗。這種極度稀疏的參數更新能夠避免災難性遺忘（Catastrophic Forgetting），保護大模型原有的通用常識不被覆蓋。

另一條更具前瞻性的學習路徑是做夢模擬（Dreaming）。當大模型面對複雜任務時，會消耗巨大的推理期算力在腦海中自我博弈。模型會根據日常觀察到的規律，自動構建一個虛擬的模擬器環境（Simulator），並在模擬器環境中進行上萬次任務演練。如果演練成功，系統就會把成功的軌跡記錄下來作為教材，更新基礎模型的底層權重。相比於僅生成簡短摘要的輕量壓縮，做夢模擬會消耗巨大算力在雲端反覆預演，屬於大模型擴展的第四個維度。

預計 2027 至 2028 年，AI 代理在與人類協同工作一周後將接受工作評估。一旦獲得認可，系統便能在雲端通過在線策略自蒸餾（OPSD）或做夢模擬，將當周積累的實戰經驗蒸餾內化至模型的底層權重中，實現部署後能力的在線擴張，讓大模型越用越聰明。

原文鏈接

糾錯/舉報