機器之心報道
機器之心編輯部
LLM在持續學習方面有了新突破。
近日,谷歌推出了一種全新的用于持續學習的機器學習范式 —— 嵌套學習,模型不再采用靜態的訓練周期,而是以不同的更新速度在嵌套層中進行學習,即將模型視為一系列嵌套問題的堆疊,使其能夠不斷學習新技能,同時又不會遺忘舊技能。
![]()
而這或將標志著人工智能朝著「真正像大腦一樣進化的方向」邁出了一大步。
![]()
這種方法一經發布,便引起網友的熱議,不少網友表示,「這很令人興奮,是邁向真正自適應、自我改進智能的重要一步。」
![]()
下面來詳細了解一下。
在谷歌看來,過去十年,得益于強大的神經網絡結構和高效的訓練算法,機器學習(ML)領域取得了令人驚嘆的進展,可盡管大語言模型(LLMs)取得了巨大成功,一些根本性問題仍然存在,尤其是「持續學習(Continual Learning)」—— 即模型能否在不遺忘舊知識的前提下,不斷學習新知識與技能。
在人類學習和自我改進方面,人腦是最完美的范例,它依靠神經可塑性(neuroplasticity)不斷調整結構,以適應新的經驗、記憶與學習。缺乏這種能力的人,就會像患有前向性遺忘癥(anterograde amnesia)一樣,只能理解眼前的信息。
當前的 LLM 也面臨著類似的限制,「知識」僅限于輸入窗口的上下文,或是預訓練階段學到的靜態信息。
為了彌補這些缺點,一個直覺式的做法是不斷用新數據更新模型參數,但這往往導致所謂的「災難性遺忘」(Catastrophic Forgetting,CF)—— 模型學了新任務,卻失去了舊任務的能力。過去的研究嘗試通過改進網絡結構或優化算法來緩解這一問題。
然而,長期以來,大家總是把「模型結構」與「優化算法」當作兩件事來看待,這種割裂的視角阻礙了統一高效學習系統的建立。
谷歌發表于 NeurIPS 2025 的論文《Nested Learning:深度學習架構的幻象》 中,提出了一個新的學習框架 —— 嵌套學習(Nested Learning),用以彌合架構與優化之間的鴻溝。其核心思想是:一個機器學習模型并非單一的學習過程,而是由多個相互關聯、層次分明的優化子問題組成。
谷歌認為模型架構與優化算法本質上是同一類事物;它們只是不同層級的「優化層」(optimization levels),各自擁有獨立的信息流與更新頻率。
通過識別這種內在結構,嵌套學習為 AI 設計揭示了一個此前被忽視的維度,讓我們能在不同時間尺度上構建更具「深度」的學習組件,從而解決災難性遺忘等問題。
基于嵌套學習原理,谷歌設計了一個自我修改型架構 ——Hope,實驗表明:Hope 在語言建模任務中表現優異,并且在長上下文記憶管理方面超越了當前最先進的模型。
![]()
論文標題:Nested Learning: The Illusion of Deep Learning Architectures論文地址:https://abehrouz.github.io/files/NL.pdf
嵌套學習范式(The Nested Learning Paradigm)
嵌套學習揭示出,復雜的機器學習模型其實是一組相互嵌套或并行運行的優化問題,每個子問題都有自己的上下文流(context flow),也就是其試圖從中學習的特定信息集。
也就是說,傳統深度學習方法其實是在「壓縮」這些內部信息流,而嵌套學習為我們提供了新的設計維度,從而可以構建具有更深計算深度的學習組件。
以聯想記憶(Associative Memory)為例,聯想記憶是指根據一個事物聯想到另一個事物的能力,像是大家看到一張臉就想起一個名字。基于此,谷歌發現:訓練過程本身,尤其是反向傳播(backpropagation)過程,可以被建模為一種聯想記憶機制,該模型學習將每個數據點映射到其局部誤差(local error)上,以衡量該數據點的「意外程度」。
類似地,就像 Miras 之類研究所指出的那樣,Transformer 的注意力機制也可以形式化為聯想記憶模塊,用于學習序列中 token 之間的映射關系。
![]()
在人腦中,統一的結構與可重復使用的模塊,以及多時間尺度更新(multi-time–scale update),是人類持續學習的關鍵。而嵌套學習使得模型的每個組件都能以不同的頻率進行更新,這表明,常見架構(如 Transformer、記憶模塊)其實都是具有不同更新頻率的線性層。
通過定義更新頻率(update frequency rate),即每個組件的權重被調整的頻次,谷歌可以將這些優化問題組織成有序的「層級」,這便構成了嵌套學習范式的核心。
嵌套學習的實際應用
嵌套學習視角提供了改進現有算法和架構的原則性方法:
深度優化器:
嵌套學習將優化器(如動量優化器)視為聯想記憶模塊,從而可以將聯想記憶的原理應用于它們,觀察到,許多標準優化器依賴簡單的點積相似度(dot-product similarity),而這并未考慮不同數據樣本之間的復雜關系。
通過將優化目標改為更標準的損失指標,如 L2 回歸損失(L2 regression loss),可以推導出新的動量公式,使優化器對噪聲數據更具魯棒性。
連續體記憶系統(Continuum Memory Systems):
在傳統 Transformer 中:序列模型充當短期記憶,保存即時上下文;前饋神經網絡則充當長期記憶,存儲預訓練知識。嵌套學習范式將這一概念擴展到一個稱之為「連續體記憶系統」(CMS)的結構中,其中記憶被視為一系列模塊,每個模塊以不同的特定頻率更新。
這為持續學習創建了一個更加豐富、高效的記憶系統。
Hope:具備連續記憶的自我修改架構
作為概念驗證,谷歌基于嵌套學習原理設計了 Hope 架構,它是 Titans 架構的一個變體。
Titans 架構是基于「驚訝度」優先級的長期記憶系統,但它僅有兩層參數更新機制,屬于一階上下文學習。
Hope 則是一個自我修改的循環架構(self-modifying recurrent architecture),能夠執行無限層次的上下文學習,并通過 CMS 模塊擴展上下文窗口。它能夠通過自我引用過程優化自身記憶,形成具有無限循環學習層次的結構。
實驗與結果
谷歌評估了嵌套學習框架下:新型深度優化器的有效性,以及 Hope 在語言建模、長上下文推理、持續學習與知識整合任務上的表現。
結果顯示:
Hope 在多項語言建模與常識推理任務上表現出更低的困惑度(perplexity)與更高的準確率;
![]()
不同架構在語言建模任務(困惑度,左)和常識推理任務(準確率,右)上的性能對比:包括 Hope、Titans、Samba 以及基線 Transformer。
在長上下文大海撈針任務( NIAH)中,Hope 展現出顯著更優的記憶管理能力。這證明 CMS 提供了一種更高效、更有效的方法來處理擴展的信息序列。
![]()
不同架構在長上下文任務中、不同難度等級下的性能對比:包括 Hope、Titans、TTT 和 Mamba2。其中,NIAH-PK、NIAH-H 和 NIAH-W 分別表示大海撈針任務的三種類型:通行密鑰、數字和單詞。
總的來看,嵌套學習代表了谷歌對深度學習理解邁進了新階段,通過將架構與優化視為統一的、層次化的優化系統,打開了一個全新的設計維度。由此產生的模型(如 Hope)則表明,這種系統性整合方法能夠帶來更強的表達能力、更高的效率與持續學習能力。
或許可以說,嵌套學習為彌合當前 LLM「易遺忘」的局限與人腦卓越的持續學習能力之間的差距奠定了堅實的理論與實踐基礎,為構建下一代可自我改進的人工智能(self-improving AI)提供了新的可能性。
https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/
https://x.com/behrouz_ali/status/1986875258935066946
https://x.com/JeffDean/status/1986938111839129858





京公網安備 11011402013531號