網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

終結(jié)Transformer統(tǒng)治！清華姚班校友出手，劍指AI「災(zāi)難性遺忘」

2025-11-13 21:08:20　來(lái)源: 算法與數(shù)學(xué)之美

北京舉報(bào)

分享至

大模型「災(zāi)難性遺忘」問(wèn)題或?qū)⒂瓉?lái)突破。近日，NeurIPS 2025收錄了谷歌研究院的一篇論文，其中提出一種全新的「嵌套學(xué)習(xí)（Nested Learning）」架構(gòu)。實(shí)驗(yàn)中基于該框架的「Hope」模型在語(yǔ)言建模與長(zhǎng)上下文記憶任務(wù)中超越Transformer模型，這意味著大模型正邁向具備自我改進(jìn)能力的新階段。

「災(zāi)難性遺忘」，是神經(jīng)網(wǎng)絡(luò)最根深蒂固的毛病之一，比如：

·剛學(xué)會(huì)減法，就忘記了以前學(xué)到的加法；

·切換到一個(gè)新游戲，模型在前一游戲的得分就會(huì)掉到隨機(jī)水平；

·微調(diào)大模型，常出現(xiàn)「風(fēng)格漂移」與「舊知識(shí)遺忘」現(xiàn)象

它的存在，使得大模型難以像人類那樣持續(xù)學(xué)習(xí)。

在過(guò)去十年中，得益于強(qiáng)大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其訓(xùn)練算法，機(jī)器學(xué)習(xí)取得了驚人的進(jìn)步。

但「災(zāi)難性遺忘」的老毛病并沒(méi)有被根治。

為破解這一難題，來(lái)自谷歌的研究人員提出了一種持續(xù)學(xué)習(xí)的全新范式——嵌套學(xué)習(xí)（Nested Learning），并且已被NeurIPS 2025接收。

論文地址：https://abehrouz.github.io/files/NL.pdf

「嵌套學(xué)習(xí)」將模型視為一系列更小的、相互嵌套的優(yōu)化問(wèn)題，每個(gè)問(wèn)題都有其獨(dú)立的內(nèi)部工作流程。

這樣的設(shè)計(jì)旨在緩解甚至完全避免大模型的「災(zāi)難性遺忘」。

破解「災(zāi)難性遺忘」根源

在「持續(xù)學(xué)習(xí)」與「自我改進(jìn)」方面，人類大腦無(wú)疑是黃金標(biāo)準(zhǔn)。

它通過(guò)「神經(jīng)可塑性」不斷重構(gòu)自身結(jié)構(gòu)，以應(yīng)對(duì)新的經(jīng)驗(yàn)、記憶與學(xué)習(xí)任務(wù)。

缺乏這種能力的人，會(huì)陷入類似「順行性遺忘」的狀態(tài)——只能依賴即時(shí)情境而無(wú)法積累知識(shí)。

當(dāng)前的大模型同樣存在類似局限：

它們的知識(shí)要么局限于輸入窗口的即時(shí)上下文，要么被固定在預(yù)訓(xùn)練階段學(xué)到的靜態(tài)信息中。

這正是大模型出現(xiàn)「災(zāi)難性遺忘」的根源——在學(xué)習(xí)新任務(wù)時(shí)會(huì)犧牲對(duì)舊任務(wù)的掌握能力。

這也是長(zhǎng)期困擾機(jī)器學(xué)習(xí)的核心問(wèn)題。

簡(jiǎn)單地不斷用新數(shù)據(jù)更新模型參數(shù)的方法，往往會(huì)導(dǎo)致「災(zāi)難性遺忘」。

研究者通常通過(guò)修改網(wǎng)絡(luò)結(jié)構(gòu)（Architecture Tweaks）或優(yōu)化算法（Optimization Rules）來(lái)緩解這種問(wèn)題。

然而這樣做，長(zhǎng)期存在一個(gè)誤區(qū)：我們一直將模型結(jié)構(gòu)（網(wǎng)絡(luò)架構(gòu)）與優(yōu)化算法視作兩個(gè)獨(dú)立的部分。

這阻礙了統(tǒng)一且高效學(xué)習(xí)系統(tǒng)的構(gòu)建。

在論文中，研究人員提出了「嵌套學(xué)習(xí)」，打破了結(jié)構(gòu)與算法的界限，以彌合二者之間的鴻溝。

也就是說(shuō)「嵌套學(xué)習(xí)」不再將機(jī)器學(xué)習(xí)模型視作一種單一、連續(xù)的過(guò)程，而是一個(gè)由多層相互關(guān)聯(lián)的優(yōu)化問(wèn)題組成的系統(tǒng)，這些問(wèn)題同時(shí)進(jìn)行優(yōu)化。

研究人員認(rèn)為，「模型結(jié)構(gòu)」與「訓(xùn)練規(guī)則」本質(zhì)上是同一概念，只是處于不同的「優(yōu)化層級(jí)」上，每個(gè)層級(jí)都有獨(dú)立的信息流動(dòng)與更新速率。

通過(guò)識(shí)別這種內(nèi)在結(jié)構(gòu)，使得我們能夠構(gòu)建更深層的學(xué)習(xí)組件，從而解決像「災(zāi)難性遺忘」這類長(zhǎng)期難題。

為了驗(yàn)證這一理論假設(shè)，研究人員提出了一個(gè)概念驗(yàn)證型的自我修正架構(gòu)，命名為「Hope（希望）」。

該模型在語(yǔ)言建模任務(wù)中表現(xiàn)出色，并在長(zhǎng)上下文記憶管理上優(yōu)于當(dāng)前最先進(jìn)的模型。

嵌套學(xué)習(xí)的新范式

在嵌套學(xué)習(xí)的框架下，一個(gè)復(fù)雜的機(jī)器學(xué)習(xí)模型，是由多個(gè)一致且相互連接的優(yōu)化問(wèn)題組成的系統(tǒng)。

這些優(yōu)化問(wèn)題可以是層層嵌套的，也可以并行運(yùn)行。

每個(gè)內(nèi)部?jī)?yōu)化子問(wèn)題，都有自己獨(dú)立的信息，即其學(xué)習(xí)所依賴的信息集合。

這一視角意味著：現(xiàn)有的深度學(xué)習(xí)方法，從本質(zhì)上是在壓縮其內(nèi)部信息流。

嵌套學(xué)習(xí)允許我們?cè)O(shè)計(jì)出具備更深計(jì)算深度的學(xué)習(xí)組件。

為了說(shuō)明這一范式，研究人員以「聯(lián)想記憶」為例，這是一種能夠通過(guò)一個(gè)刺激喚起另一個(gè)記憶的能力，就像我們看到一張臉就想起一個(gè)名字。

研究人員推論，在訓(xùn)練過(guò)程中，尤其是「反向傳播」階段，可以被建模為一種聯(lián)想記憶。該模型學(xué)習(xí)將數(shù)據(jù)點(diǎn)映射到其對(duì)應(yīng)的局部誤差值，該局部誤差值衡量了該數(shù)據(jù)點(diǎn)的「驚奇度」或「意外性」。

根據(jù)前人研究，研究人員發(fā)現(xiàn)關(guān)鍵的網(wǎng)絡(luò)結(jié)構(gòu)組件，比如Transformer模型的「注意力機(jī)制」，也可形式化為簡(jiǎn)單的聯(lián)想記憶模塊，用于學(xué)習(xí)序列中各個(gè)token之間的映射關(guān)系。

如上圖所示，大腦中統(tǒng)一且可重用的結(jié)構(gòu)以及多時(shí)間尺度的更新是人類持續(xù)學(xué)習(xí)的關(guān)鍵組成部分。

嵌套學(xué)習(xí)允許大腦的每個(gè)組成部分進(jìn)行多時(shí)間尺度的更新，同時(shí)表明諸如Transformer等眾所周知的架構(gòu)，實(shí)際上是具有不同更新頻率的線性層。

嵌套學(xué)習(xí)模型中的統(tǒng)一結(jié)構(gòu)與多頻率更新機(jī)制，與人腦的神經(jīng)波動(dòng)與神經(jīng)可塑性結(jié)構(gòu)十分相似。

它使我們能夠在人工模型中定義「多時(shí)間尺度更新」：每個(gè)學(xué)習(xí)組件可在不同頻率下更新參數(shù)。

通過(guò)定義「更新頻率」，即每個(gè)組件參數(shù)被調(diào)整的頻率，我們可以將這些優(yōu)化問(wèn)題組織成有序的層級(jí)結(jié)構(gòu)。

這一結(jié)構(gòu)正是嵌套學(xué)習(xí)范式的核心。

嵌套學(xué)習(xí)的應(yīng)用

嵌套學(xué)習(xí)視角，為我們提供了改進(jìn)現(xiàn)有算法和架構(gòu)的原則性方法：

深度優(yōu)化器（Deep Optimizers）

嵌套學(xué)習(xí)將優(yōu)化器（Optimizer，例如基于動(dòng)量的優(yōu)化器）視為一種聯(lián)想記憶模塊。

這使我們能從聯(lián)想記憶的角度重新設(shè)計(jì)優(yōu)化算法。

傳統(tǒng)優(yōu)化器通常依賴「點(diǎn)積相似度」來(lái)衡量樣本間相似性，但這一機(jī)制無(wú)法考慮樣本間的復(fù)雜關(guān)系。

通過(guò)將優(yōu)化目標(biāo)改為標(biāo)準(zhǔn)損失函數(shù)，研究人員提出了新的動(dòng)量更新公式，使優(yōu)化過(guò)程對(duì)不完美數(shù)據(jù)更具魯棒性。

連續(xù)記憶系統(tǒng)（Continuum Memory Systems）

在標(biāo)準(zhǔn)的Transformer模型中，序列建模層承擔(dān)短期記憶，保存當(dāng)前上下文信息；而前饋神經(jīng)網(wǎng)絡(luò)層則充當(dāng)長(zhǎng)期記憶，存儲(chǔ)訓(xùn)練前的知識(shí)。

嵌套學(xué)習(xí)擴(kuò)展了這一思想，提出「連續(xù)記憶系統(tǒng)」，這是一種由多個(gè)模塊組成的記憶譜系，每個(gè)模塊以不同頻率進(jìn)行更新，這為持續(xù)學(xué)習(xí)創(chuàng)建了一個(gè)更加豐富、高效的記憶系統(tǒng)。

Hope：具備連續(xù)記憶的自我修正架構(gòu)

研究人員基于以上嵌套學(xué)習(xí)原則設(shè)計(jì)了「Hope」模型，它是「Titans架構(gòu)」的改進(jìn)版本。

Titans架構(gòu)是一種長(zhǎng)期記憶機(jī)制，會(huì)根據(jù)記憶的「驚奇度」來(lái)優(yōu)先保留信息。

但它僅支持兩層參數(shù)更新，因此只能實(shí)現(xiàn)一階的「上下文內(nèi)學(xué)習(xí)」。

上圖比較了Hope與Transformers的架構(gòu)主干。

相比之下，Hope是一種可自我修改的遞歸架構(gòu)，能實(shí)現(xiàn)無(wú)限層級(jí)的上下文內(nèi)學(xué)習(xí)。

它還結(jié)合了連續(xù)記憶系統(tǒng)（CMS），能夠擴(kuò)展到更大的上下文窗口。

換言之，Hope可以通過(guò)自指過(guò)程優(yōu)化自身記憶，形成具有無(wú)限嵌套學(xué)習(xí)層級(jí)的架構(gòu)。

研究人員進(jìn)行了多組實(shí)驗(yàn)，來(lái)評(píng)估深度優(yōu)化器與Hope架構(gòu)在語(yǔ)言建模、長(zhǎng)上下文推理、持續(xù)學(xué)習(xí)及知識(shí)整合等任務(wù)上的表現(xiàn)。

實(shí)驗(yàn)結(jié)果顯示：

在常用的語(yǔ)言建模與常識(shí)推理任務(wù)上，Hope相較現(xiàn)代遞歸模型與標(biāo)準(zhǔn)Transformer模型展現(xiàn)出更低的困惑度與更高的準(zhǔn)確率。

在長(zhǎng)上下文任務(wù)中，Hope與Titans模型均顯著優(yōu)于TTT與Mamba2，證明連續(xù)記憶系統(tǒng)能更高效地處理超長(zhǎng)序列信息。

Hope框架在標(biāo)準(zhǔn)基準(zhǔn)上表現(xiàn)優(yōu)于現(xiàn)有模型，印證了當(dāng)架構(gòu)與算法被統(tǒng)一后，學(xué)習(xí)系統(tǒng)可以變得更具表現(xiàn)力、更高效、更具自我改進(jìn)能力。

這意味著，我們對(duì)深度學(xué)習(xí)的理解邁出了新的一步。

通過(guò)將「模型結(jié)構(gòu)」與「優(yōu)化過(guò)程」統(tǒng)一為一個(gè)連貫的、層層嵌套的優(yōu)化系統(tǒng)，Hope框架為模型設(shè)計(jì)提供了一種新范式。

這一發(fā)現(xiàn)，為彌合當(dāng)前大模型遺忘特性與人腦持續(xù)學(xué)習(xí)能力之間的差距奠定了堅(jiān)實(shí)基礎(chǔ)，或許將有助于破解大模型「災(zāi)難性遺忘」的根源性問(wèn)題。

作者介紹

Peilin Zhong

Peilin Zhong

Peilin Zhong是谷歌紐約（Google NYC）算法與優(yōu)化團(tuán)隊(duì)的一名研究科學(xué)家，該團(tuán)隊(duì)由Vahab Mirrokni領(lǐng)導(dǎo)。

他的博士畢業(yè)于哥倫比亞大學(xué)，師從Alex Andoni、Cliff Stein及Mihalis Yannakakis教授，本科畢業(yè)于清華大學(xué)交叉信息研究院（姚班）。

Peilin Zhong致力于理論計(jì)算機(jī)科學(xué)，尤其側(cè)重于算法的設(shè)計(jì)與分析。他的具體研究方向有并行與大規(guī)模并行算法、Sketching算法、流式算法、圖算法、機(jī)器學(xué)習(xí)、高維幾何、度量嵌入等。

參考資料：

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

文章來(lái)源：新智元。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.