据動察 Beating 監測,大語言模型在部署後,普遍面臨無法持續吸收新知識的難題。目前的優化技術主要集中在擴大上下文窗口和提升查找速度上,這只能讓模型在單個對話內臨時查找信息,一旦關閉對話框,知識就會被全部忘光。大模型持續學習的真正瓶頸並不在這些查找速度的優化上,而是在於如何將對話裡學到的經驗,物理性地改寫進大模型底層的權重參數裡。
在線策略自蒸餾(Online Policy Self-Distillation, OPSD)提供了一條全新的權重更新路徑。大模型在面臨任務時,其擁有完整長上下文的「教師狀態」(Teacher State)會生成高質量的解答。隨後,系統在雲端通過反向傳播(Backpropagation),計算基礎狀態(學生,Student)與教師狀態在 Token 級別的概率差異來提供稠密的監督信號,讓基礎模型去逼近那個拿了高分的聰明狀態。
相比於強行讓模型死記硬背所有對話文字的監督微調(Supervised Fine-Tuning, SFT),自蒸餾僅提取維持性能所必需的決策經驗。這種極度稀疏的參數更新能夠避免災難性遺忘(Catastrophic Forgetting),保護大模型原有的通用常識不被覆蓋。
另一條更具前瞻性的學習路徑是做夢模擬(Dreaming)。當大模型面對複雜任務時,會消耗巨大的推理期算力在腦海中自我博弈。模型會根據日常觀察到的規律,自動構建一個虛擬的模擬器環境(Simulator),並在模擬器環境中進行上萬次任務演練。如果演練成功,系統就會把成功的軌跡記錄下來作為教材,更新基礎模型的底層權重。相比於僅生成簡短摘要的輕量壓縮,做夢模擬會消耗巨大算力在雲端反覆預演,屬於大模型擴展的第四個維度。
預計 2027 至 2028 年,AI 代理在與人類協同工作一周後將接受工作評估。一旦獲得認可,系統便能在雲端通過在線策略自蒸餾(OPSD)或做夢模擬,將當周積累的實戰經驗蒸餾內化至模型的底層權重中,實現部署後能力的在線擴張,讓大模型越用越聰明。