国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

終結(jié)Transformer統(tǒng)治!清華姚班校友出手,劍指AI「災(zāi)難性遺忘」

0
分享至

大模型「災(zāi)難性遺忘」問(wèn)題或?qū)⒂瓉?lái)突破。近日,NeurIPS 2025收錄了谷歌研究院的一篇論文,其中提出一種全新的「嵌套學(xué)習(xí)(Nested Learning)」架構(gòu)。實(shí)驗(yàn)中基于該框架的「Hope」模型在語(yǔ)言建模與長(zhǎng)上下文記憶任務(wù)中超越Transformer模型,這意味著大模型正邁向具備自我改進(jìn)能力的新階段。

「災(zāi)難性遺忘」,是神經(jīng)網(wǎng)絡(luò)最根深蒂固的毛病之一,比如:

·剛學(xué)會(huì)減法,就忘記了以前學(xué)到的加法;

·切換到一個(gè)新游戲,模型在前一游戲的得分就會(huì)掉到隨機(jī)水平;

·微調(diào)大模型,常出現(xiàn)「風(fēng)格漂移」與「舊知識(shí)遺忘」現(xiàn)象

它的存在,使得大模型難以像人類那樣持續(xù)學(xué)習(xí)。

在過(guò)去十年中,得益于強(qiáng)大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其訓(xùn)練算法,機(jī)器學(xué)習(xí)取得了驚人的進(jìn)步。

但「災(zāi)難性遺忘」的老毛病并沒(méi)有被根治。

為破解這一難題,來(lái)自谷歌的研究人員提出了一種持續(xù)學(xué)習(xí)的全新范式——嵌套學(xué)習(xí)(Nested Learning),并且已被NeurIPS 2025接收。


論文地址:https://abehrouz.github.io/files/NL.pdf

「嵌套學(xué)習(xí)」將模型視為一系列更小的、相互嵌套的優(yōu)化問(wèn)題,每個(gè)問(wèn)題都有其獨(dú)立的內(nèi)部工作流程。

這樣的設(shè)計(jì)旨在緩解甚至完全避免大模型的「災(zāi)難性遺忘」。


破解「災(zāi)難性遺忘」根源

在「持續(xù)學(xué)習(xí)」與「自我改進(jìn)」方面,人類大腦無(wú)疑是黃金標(biāo)準(zhǔn)。

它通過(guò)「神經(jīng)可塑性」不斷重構(gòu)自身結(jié)構(gòu),以應(yīng)對(duì)新的經(jīng)驗(yàn)、記憶與學(xué)習(xí)任務(wù)。

缺乏這種能力的人,會(huì)陷入類似「順行性遺忘」的狀態(tài)——只能依賴即時(shí)情境而無(wú)法積累知識(shí)。

當(dāng)前的大模型同樣存在類似局限:

它們的知識(shí)要么局限于輸入窗口的即時(shí)上下文,要么被固定在預(yù)訓(xùn)練階段學(xué)到的靜態(tài)信息中。

這正是大模型出現(xiàn)「災(zāi)難性遺忘」的根源——在學(xué)習(xí)新任務(wù)時(shí)會(huì)犧牲對(duì)舊任務(wù)的掌握能力。

這也是長(zhǎng)期困擾機(jī)器學(xué)習(xí)的核心問(wèn)題。

簡(jiǎn)單地不斷用新數(shù)據(jù)更新模型參數(shù)的方法,往往會(huì)導(dǎo)致「災(zāi)難性遺忘」。

研究者通常通過(guò)修改網(wǎng)絡(luò)結(jié)構(gòu)(Architecture Tweaks)或優(yōu)化算法(Optimization Rules)來(lái)緩解這種問(wèn)題。

然而這樣做,長(zhǎng)期存在一個(gè)誤區(qū):我們一直將模型結(jié)構(gòu)(網(wǎng)絡(luò)架構(gòu))與優(yōu)化算法視作兩個(gè)獨(dú)立的部分。

這阻礙了統(tǒng)一且高效學(xué)習(xí)系統(tǒng)的構(gòu)建。

在論文中,研究人員提出了「嵌套學(xué)習(xí)」,打破了結(jié)構(gòu)與算法的界限,以彌合二者之間的鴻溝。

也就是說(shuō)「嵌套學(xué)習(xí)」不再將機(jī)器學(xué)習(xí)模型視作一種單一、連續(xù)的過(guò)程,而是一個(gè)由多層相互關(guān)聯(lián)的優(yōu)化問(wèn)題組成的系統(tǒng),這些問(wèn)題同時(shí)進(jìn)行優(yōu)化。

研究人員認(rèn)為,「模型結(jié)構(gòu)」與「訓(xùn)練規(guī)則」本質(zhì)上是同一概念,只是處于不同的「優(yōu)化層級(jí)」上,每個(gè)層級(jí)都有獨(dú)立的信息流動(dòng)與更新速率。

通過(guò)識(shí)別這種內(nèi)在結(jié)構(gòu),使得我們能夠構(gòu)建更深層的學(xué)習(xí)組件,從而解決像「災(zāi)難性遺忘」這類長(zhǎng)期難題。

為了驗(yàn)證這一理論假設(shè),研究人員提出了一個(gè)概念驗(yàn)證型的自我修正架構(gòu),命名為「Hope(希望)」。

該模型在語(yǔ)言建模任務(wù)中表現(xiàn)出色,并在長(zhǎng)上下文記憶管理上優(yōu)于當(dāng)前最先進(jìn)的模型。

嵌套學(xué)習(xí)的新范式

在嵌套學(xué)習(xí)的框架下,一個(gè)復(fù)雜的機(jī)器學(xué)習(xí)模型,是由多個(gè)一致且相互連接的優(yōu)化問(wèn)題組成的系統(tǒng)。

這些優(yōu)化問(wèn)題可以是層層嵌套的,也可以并行運(yùn)行。


每個(gè)內(nèi)部?jī)?yōu)化子問(wèn)題,都有自己獨(dú)立的信息,即其學(xué)習(xí)所依賴的信息集合。

這一視角意味著:現(xiàn)有的深度學(xué)習(xí)方法,從本質(zhì)上是在壓縮其內(nèi)部信息流。

嵌套學(xué)習(xí)允許我們?cè)O(shè)計(jì)出具備更深計(jì)算深度的學(xué)習(xí)組件。

為了說(shuō)明這一范式,研究人員以「聯(lián)想記憶」為例,這是一種能夠通過(guò)一個(gè)刺激喚起另一個(gè)記憶的能力,就像我們看到一張臉就想起一個(gè)名字。

研究人員推論,在訓(xùn)練過(guò)程中,尤其是「反向傳播」階段,可以被建模為一種聯(lián)想記憶。該模型學(xué)習(xí)將數(shù)據(jù)點(diǎn)映射到其對(duì)應(yīng)的局部誤差值,該局部誤差值衡量了該數(shù)據(jù)點(diǎn)的「驚奇度」或「意外性」。

根據(jù)前人研究,研究人員發(fā)現(xiàn)關(guān)鍵的網(wǎng)絡(luò)結(jié)構(gòu)組件,比如Transformer模型的「注意力機(jī)制」,也可形式化為簡(jiǎn)單的聯(lián)想記憶模塊,用于學(xué)習(xí)序列中各個(gè)token之間的映射關(guān)系。


如上圖所示,大腦中統(tǒng)一且可重用的結(jié)構(gòu)以及多時(shí)間尺度的更新是人類持續(xù)學(xué)習(xí)的關(guān)鍵組成部分。

嵌套學(xué)習(xí)允許大腦的每個(gè)組成部分進(jìn)行多時(shí)間尺度的更新,同時(shí)表明諸如Transformer等眾所周知的架構(gòu),實(shí)際上是具有不同更新頻率的線性層。

嵌套學(xué)習(xí)模型中的統(tǒng)一結(jié)構(gòu)與多頻率更新機(jī)制,與人腦的神經(jīng)波動(dòng)與神經(jīng)可塑性結(jié)構(gòu)十分相似。

它使我們能夠在人工模型中定義「多時(shí)間尺度更新」:每個(gè)學(xué)習(xí)組件可在不同頻率下更新參數(shù)。

通過(guò)定義「更新頻率」,即每個(gè)組件參數(shù)被調(diào)整的頻率,我們可以將這些優(yōu)化問(wèn)題組織成有序的層級(jí)結(jié)構(gòu)。

這一結(jié)構(gòu)正是嵌套學(xué)習(xí)范式的核心。

嵌套學(xué)習(xí)的應(yīng)用

嵌套學(xué)習(xí)視角,為我們提供了改進(jìn)現(xiàn)有算法和架構(gòu)的原則性方法:

深度優(yōu)化器(Deep Optimizers)

嵌套學(xué)習(xí)將優(yōu)化器(Optimizer,例如基于動(dòng)量的優(yōu)化器)視為一種聯(lián)想記憶模塊。

這使我們能從聯(lián)想記憶的角度重新設(shè)計(jì)優(yōu)化算法。

傳統(tǒng)優(yōu)化器通常依賴「點(diǎn)積相似度」來(lái)衡量樣本間相似性,但這一機(jī)制無(wú)法考慮樣本間的復(fù)雜關(guān)系。

通過(guò)將優(yōu)化目標(biāo)改為標(biāo)準(zhǔn)損失函數(shù),研究人員提出了新的動(dòng)量更新公式,使優(yōu)化過(guò)程對(duì)不完美數(shù)據(jù)更具魯棒性。

連續(xù)記憶系統(tǒng)(Continuum Memory Systems)

在標(biāo)準(zhǔn)的Transformer模型中,序列建模層承擔(dān)短期記憶,保存當(dāng)前上下文信息;而前饋神經(jīng)網(wǎng)絡(luò)層則充當(dāng)長(zhǎng)期記憶,存儲(chǔ)訓(xùn)練前的知識(shí)。

嵌套學(xué)習(xí)擴(kuò)展了這一思想,提出「連續(xù)記憶系統(tǒng)」,這是一種由多個(gè)模塊組成的記憶譜系,每個(gè)模塊以不同頻率進(jìn)行更新,這為持續(xù)學(xué)習(xí)創(chuàng)建了一個(gè)更加豐富、高效的記憶系統(tǒng)。

Hope:具備連續(xù)記憶的自我修正架構(gòu)

研究人員基于以上嵌套學(xué)習(xí)原則設(shè)計(jì)了「Hope」模型,它是「Titans架構(gòu)」的改進(jìn)版本。

Titans架構(gòu)是一種長(zhǎng)期記憶機(jī)制,會(huì)根據(jù)記憶的「驚奇度」來(lái)優(yōu)先保留信息。

但它僅支持兩層參數(shù)更新,因此只能實(shí)現(xiàn)一階的「上下文內(nèi)學(xué)習(xí)」。


上圖比較了Hope與Transformers的架構(gòu)主干。

相比之下,Hope是一種可自我修改的遞歸架構(gòu),能實(shí)現(xiàn)無(wú)限層級(jí)的上下文內(nèi)學(xué)習(xí)。

它還結(jié)合了連續(xù)記憶系統(tǒng)(CMS),能夠擴(kuò)展到更大的上下文窗口。

換言之,Hope可以通過(guò)自指過(guò)程優(yōu)化自身記憶,形成具有無(wú)限嵌套學(xué)習(xí)層級(jí)的架構(gòu)。

研究人員進(jìn)行了多組實(shí)驗(yàn),來(lái)評(píng)估深度優(yōu)化器與Hope架構(gòu)在語(yǔ)言建模、長(zhǎng)上下文推理、持續(xù)學(xué)習(xí)及知識(shí)整合等任務(wù)上的表現(xiàn)。

實(shí)驗(yàn)結(jié)果顯示:

在常用的語(yǔ)言建模與常識(shí)推理任務(wù)上,Hope相較現(xiàn)代遞歸模型與標(biāo)準(zhǔn)Transformer模型展現(xiàn)出更低的困惑度與更高的準(zhǔn)確率。


在長(zhǎng)上下文任務(wù)中,Hope與Titans模型均顯著優(yōu)于TTT與Mamba2,證明連續(xù)記憶系統(tǒng)能更高效地處理超長(zhǎng)序列信息。


Hope框架在標(biāo)準(zhǔn)基準(zhǔn)上表現(xiàn)優(yōu)于現(xiàn)有模型,印證了當(dāng)架構(gòu)與算法被統(tǒng)一后,學(xué)習(xí)系統(tǒng)可以變得更具表現(xiàn)力、更高效、更具自我改進(jìn)能力。

這意味著,我們對(duì)深度學(xué)習(xí)的理解邁出了新的一步。

通過(guò)將「模型結(jié)構(gòu)」與「優(yōu)化過(guò)程」統(tǒng)一為一個(gè)連貫的、層層嵌套的優(yōu)化系統(tǒng),Hope框架為模型設(shè)計(jì)提供了一種新范式。

這一發(fā)現(xiàn),為彌合當(dāng)前大模型遺忘特性與人腦持續(xù)學(xué)習(xí)能力之間的差距奠定了堅(jiān)實(shí)基礎(chǔ),或許將有助于破解大模型「災(zāi)難性遺忘」的根源性問(wèn)題。

作者介紹

Peilin Zhong


Peilin Zhong

Peilin Zhong是谷歌紐約(Google NYC)算法與優(yōu)化團(tuán)隊(duì)的一名研究科學(xué)家,該團(tuán)隊(duì)由Vahab Mirrokni領(lǐng)導(dǎo)。

他的博士畢業(yè)于哥倫比亞大學(xué),師從Alex Andoni、Cliff Stein及Mihalis Yannakakis教授,本科畢業(yè)于清華大學(xué)交叉信息研究院(姚班)。

Peilin Zhong致力于理論計(jì)算機(jī)科學(xué),尤其側(cè)重于算法的設(shè)計(jì)與分析。他的具體研究方向有并行與大規(guī)模并行算法、Sketching算法、流式算法、圖算法、機(jī)器學(xué)習(xí)、高維幾何、度量嵌入等。

參考資料:

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

文章來(lái)源:新智元。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
50歲伺候兒媳坐月子,聽(tīng)到她罵我像驢,第二天我的做法絕了

50歲伺候兒媳坐月子,聽(tīng)到她罵我像驢,第二天我的做法絕了

木子言故事
2025-12-21 14:43:07
27分6記三分!赴美特訓(xùn)4個(gè)月 能成中國(guó)男籃進(jìn)攻荒的解藥?

27分6記三分!赴美特訓(xùn)4個(gè)月 能成中國(guó)男籃進(jìn)攻荒的解藥?

你看球呢
2025-12-21 13:00:15
33歲厄瓜多爾國(guó)腳在肉店被槍殺:跪地求饒?jiān)饩?3個(gè)月5名球員被殺

33歲厄瓜多爾國(guó)腳在肉店被槍殺:跪地求饒?jiān)饩?3個(gè)月5名球員被殺

風(fēng)過(guò)鄉(xiāng)
2025-12-20 16:43:14
打麻將十打九勝的秘訣,掌握這些小技巧,贏牌簡(jiǎn)直是易如反掌!

打麻將十打九勝的秘訣,掌握這些小技巧,贏牌簡(jiǎn)直是易如反掌!

洞鑒歷史
2024-03-08 15:03:16
打虎!尹建業(yè)被查

打虎!尹建業(yè)被查

極目新聞
2025-12-21 16:57:43
龐叔令點(diǎn)名徐湖平,曾任南博副院長(zhǎng),曾經(jīng)和宋美齡干兒子一同服役

龐叔令點(diǎn)名徐湖平,曾任南博副院長(zhǎng),曾經(jīng)和宋美齡干兒子一同服役

王鶔吃吃喝喝
2025-12-20 10:54:15
結(jié)婚14年,她被打了13年

結(jié)婚14年,她被打了13年

中國(guó)新聞周刊
2025-12-20 10:52:37
訪日不到48小時(shí),托卡耶夫犯了“大忌”,37億美元投資只是導(dǎo)火線

訪日不到48小時(shí),托卡耶夫犯了“大忌”,37億美元投資只是導(dǎo)火線

嫹筆牂牂
2025-12-21 14:39:11
信號(hào)!滬媒首曝國(guó)乒教練職責(zé):據(jù)此秦志戩當(dāng)總教練,馬琳副總教練

信號(hào)!滬媒首曝國(guó)乒教練職責(zé):據(jù)此秦志戩當(dāng)總教練,馬琳副總教練

籃球看比賽
2025-12-21 13:19:00
細(xì)思極恐!一份90年代報(bào)紙的報(bào)道,又暴露出南博的“習(xí)慣性借出”

細(xì)思極恐!一份90年代報(bào)紙的報(bào)道,又暴露出南博的“習(xí)慣性借出”

火山詩(shī)話
2025-12-20 06:43:20
我家水費(fèi)每月四萬(wàn),關(guān)掉閘門后,物業(yè)發(fā)來(lái)消息:今天整棟樓停水

我家水費(fèi)每月四萬(wàn),關(guān)掉閘門后,物業(yè)發(fā)來(lái)消息:今天整棟樓停水

船長(zhǎng)與船1
2025-12-20 10:39:50
江暢同志突發(fā)心梗,不幸逝世

江暢同志突發(fā)心梗,不幸逝世

新京報(bào)政事兒
2025-12-20 22:27:40
腰細(xì)臀翹的高挑女生怎么穿?運(yùn)動(dòng)背心搭粉色瑜伽褲,可愛(ài)又性感

腰細(xì)臀翹的高挑女生怎么穿?運(yùn)動(dòng)背心搭粉色瑜伽褲,可愛(ài)又性感

小喬古裝漢服
2025-12-21 19:10:18
烏克蘭一夜摧毀克里米亞的米格31戰(zhàn)機(jī)!打掉4套防空系統(tǒng)

烏克蘭一夜摧毀克里米亞的米格31戰(zhàn)機(jī)!打掉4套防空系統(tǒng)

項(xiàng)鵬飛
2025-12-19 16:41:29
轉(zhuǎn)發(fā)野三坡隧道事故視頻被要求刪除,還有網(wǎng)友稱發(fā)生了爆炸

轉(zhuǎn)發(fā)野三坡隧道事故視頻被要求刪除,還有網(wǎng)友稱發(fā)生了爆炸

映射生活的身影
2025-12-20 19:18:13
袁紹麾下3支超級(jí)精銳,其中兩支是雇傭兵,如何被曹操輕松打垮?

袁紹麾下3支超級(jí)精銳,其中兩支是雇傭兵,如何被曹操輕松打垮?

大千世界觀
2025-12-20 19:08:34
袁世凱坐龍椅的真實(shí)老照片,接受群臣朝拜,“妃子們”也非常漂亮

袁世凱坐龍椅的真實(shí)老照片,接受群臣朝拜,“妃子們”也非常漂亮

文史微鑒
2025-12-13 22:13:15
黎智英女兒叫囂,如果她父親能夠獲釋,他會(huì)把重心放在家庭上

黎智英女兒叫囂,如果她父親能夠獲釋,他會(huì)把重心放在家庭上

百態(tài)人間
2025-12-20 05:25:03
保羅無(wú)法正常進(jìn)食,只能喝流食,下顎手術(shù)拔掉牙齒,嵌入兩塊鈦板

保羅無(wú)法正常進(jìn)食,只能喝流食,下顎手術(shù)拔掉牙齒,嵌入兩塊鈦板

越嶺尋蹤
2025-12-21 10:06:14
明星下場(chǎng)了,贊一個(gè)!

明星下場(chǎng)了,贊一個(gè)!

西樓飲月
2025-12-20 22:23:26
2025-12-21 20:44:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5273文章數(shù) 64595關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬(wàn)個(gè)應(yīng)用

頭條要聞

妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

頭條要聞

妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂(lè)要聞

星光大賞太尷尬!搶話擋鏡頭,場(chǎng)地還小

財(cái)經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

本地
教育
親子
手機(jī)
時(shí)尚

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

教育要聞

26考研初試估分通道開(kāi)啟,想估分的速來(lái)!

親子要聞

Who can resist the piano romance from a 3-year-old...

手機(jī)要聞

華為Mate80系列迎雙喜:18天銷量破百萬(wàn),同比前代大幅增長(zhǎng)!

紅色不流行了?今年最火的穿搭居然是它

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版