国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

下一個(gè)Transformer可能又被Google做出來了

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

如果把現(xiàn)在的頂尖大模型比作一個(gè)人,那它一定患有一種罕見的神經(jīng)系統(tǒng)疾?。喉樞行赃z忘癥(Anterograde Amnesia)。

這是 Google Research 研究員、最近最受關(guān)注的一篇論文《Nested Learning: The Illusion of Deep Learning Architectures》第一作者 Ali Behrouz 拋出的一個(gè)讓所有人陷入沉思的比喻。

看過諾蘭的電影《記憶碎片》(Memento)的人更能理解這種絕望。這種病癥的患者擁有完好的“過往記憶”(Retrograde Memory),他們記得發(fā)病前的一切,我是誰,我來自哪里,我有什么技能。但對于發(fā)病后發(fā)生的所有事情,他們永遠(yuǎn)無法形成“新的長期記憶”。他們只能活在短暫的“當(dāng)下”,幾分鐘后,一切就會被重置。

這就是現(xiàn)在 AI 模型的真實(shí)寫照。

無論Gemini或是ChatGPT多么博學(xué),如果不聯(lián)網(wǎng)搜索,它們都只能依靠預(yù)訓(xùn)練階段獲得的出廠知識(也就是“發(fā)病前”的記憶)來回答問題。而在對話窗口里,無論你教給它多少新公司的業(yè)務(wù)邏輯,或者糾正了它多少次代碼錯誤,這些信息都只停留在短暫的上下文窗口里。

一旦窗口關(guān)閉,或者顯存被重置,它就像金魚一樣,把剛才發(fā)生的一切忘得干干凈凈 。下一次見面,它依然是那個(gè)出廠時(shí)的它,絲毫沒有因?yàn)榕c你的交互而變得更聰明一點(diǎn)。

為什么擁有超級算力的 AI,卻治不好這個(gè)健忘癥?

長期以來,行業(yè)有一種二元對立的看法,認(rèn)為 AI 的“架構(gòu)”(Architecture)和“優(yōu)化器”(Optimizer)是兩個(gè)截然不同的物種。

架構(gòu)是骨架(如 Transformer),它是靜態(tài)的,出廠即凍結(jié),負(fù)責(zé)“推理”?!皟?yōu)化器”是雕刻刀(如 Adam、SGD),它是動態(tài)的,只在工廠里用來訓(xùn)練模型,出廠后就被沒收了。

我們習(xí)慣了把 AI 當(dāng)作一個(gè)靜態(tài)產(chǎn)品,訓(xùn)練好了,打包發(fā)布,用戶只管用。


但在 Google 最新發(fā)布的 52 頁硬核論文《Nested Learning: The Illusion of Deep Learning Architectures》(嵌套學(xué)習(xí):深度學(xué)習(xí)架構(gòu)的幻覺)中,研究團(tuán)隊(duì)試圖告訴我們,這其實(shí)是一種幻覺,是我們?nèi)藶橹圃斓淖晕以O(shè)限。

如果架構(gòu)和優(yōu)化器本質(zhì)上是同一個(gè)東西呢?如果并沒有所謂的“訓(xùn)練階段”和“推理階段”之分,一切都只是不同頻率的“記憶壓縮”過程呢?

基于這個(gè)大膽的假設(shè),Google 團(tuán)隊(duì)提出了一個(gè)名為 HOPE 的新框架。他們并沒有簡單地堆砌參數(shù),而是試圖從底層邏輯上重構(gòu) AI 的“大腦結(jié)構(gòu)”,讓它不再是一個(gè)出廠即固化的工具,而是在每一次交互中都能微調(diào)自己、擁有“快慢記憶系統(tǒng)”的動態(tài)生命體。

而這篇論文也被不少人稱為“Attention Is All You Need V2”,這篇論文提出的Transformer 架構(gòu)成就了今天大模型的火熱,而HOPE讓人們期待它成為下一個(gè)Transformer 級別的創(chuàng)新。


Ali Behrouz 在 NeurIPS 2025 現(xiàn)場講解Nested Learning。

1

拆解“幻覺”:被遺忘的中間地帶

要治好“健忘癥”,我們首先得看看現(xiàn)在的 AI 大腦里到底裝了什么。

在 Ali Behrouz 的解構(gòu)下,目前的 Transformer 架構(gòu)呈現(xiàn)出一種極端的“精神分裂”狀態(tài)。如果不使用復(fù)雜的數(shù)學(xué)術(shù)語,我們可以把它的內(nèi)部組件看作兩個(gè)極端:

一個(gè)是“極快”的 Attention(注意力機(jī)制)。它時(shí)刻處于亢奮狀態(tài),對你輸入的每一個(gè)字(Token)都進(jìn)行瞬時(shí)的計(jì)算和響應(yīng)。它的更新頻率幾乎是無限的,這讓模型擁有了所謂的上下文學(xué)習(xí)能力(In-Context Learning),你剛說的話,它馬上就能用。

另一個(gè)是“極慢”的 MLP(前饋神經(jīng)網(wǎng)絡(luò))。它是模型的長期記憶庫,承載了絕大多數(shù)參數(shù)。但它的更新頻率是 0。這部分像一塊凍結(jié)的硬盤,除非你耗費(fèi)巨資進(jìn)行全量微調(diào)(Fine-tuning),否則它永遠(yuǎn)不會改變。

在這兩者之間,存在著一個(gè)巨大的真空地帶。

這就是“幻覺”的根源。人類的大腦并不是這樣工作的。我們的記憶是一個(gè)連續(xù)的頻譜,我們有幾秒鐘的感官記憶,有幾小時(shí)的工作記憶,也有幾天甚至幾年的長期記憶。我們的腦突觸并不是非黑即白,而是以各種不同的頻率在不斷微調(diào)。

為了填補(bǔ)這個(gè)真空,Google 團(tuán)隊(duì)提出了 Nested Learning(嵌套學(xué)習(xí)) 的概念。我們可以把它想象成一套精密咬合的齒輪系統(tǒng)”:

  • 最外層的小齒輪轉(zhuǎn)得飛快(處理當(dāng)前的對話);

  • 中間層的齒輪轉(zhuǎn)得稍慢(記住過去幾小時(shí)或幾天的任務(wù));

  • 最里層的大齒輪轉(zhuǎn)得極慢(沉淀世界觀和基礎(chǔ)知識)。

為了證明這種統(tǒng)一性在生物學(xué)上的合理性,他甚至在論文中引用了一個(gè)非常硬核的神經(jīng)科學(xué)案例,半球切除術(shù)(Hemispherectomy) 。

醫(yī)學(xué)發(fā)現(xiàn),即使切掉人類的一半大腦,通常是為了治療嚴(yán)重癲癇,剩下的一半腦組織也能通過重組資源,接管幾乎所有功能,人依然能正常生活。這說明大腦并沒有什么“專門負(fù)責(zé) Attention 的模塊”或“專門負(fù)責(zé) MLP 的模塊”,神經(jīng)組織是通用的、可復(fù)用的。

同樣的道理,AI 的“架構(gòu)”和“優(yōu)化器”本質(zhì)上也是同一種東西,只是處于不同的嵌套層級:

  • 傳統(tǒng)的模型記憶的是“數(shù)據(jù)”(Token);

  • 優(yōu)化器(如 Adam)記憶的是“梯度”(Gradient)。即“我上次在這個(gè)地方犯了錯,下次要修正” 。

既然都是在“記憶信息”并“更新狀態(tài)”,為什么我們要把它們?nèi)藶榈馗盍验_來?也許我們不需要在這個(gè)二元對立的框架里修修補(bǔ)補(bǔ),可以直接設(shè)計(jì)一個(gè)全頻率覆蓋的動態(tài)系統(tǒng)。

1

HOPE 的三層設(shè)計(jì)

基于 Nested Learning 的理論,Google 團(tuán)隊(duì)交出了一份具體的工程答卷,還起了一個(gè)充滿寓意的名字:HOPE (High-order OPtimization and Expressivity)。

如果說傳統(tǒng)的 Transformer 是一個(gè)只有短期記憶的“單核處理器”,那么 HOPE 更像是一個(gè)符合神經(jīng)科學(xué)原理的“雙重記憶大腦”。它通過兩個(gè)組件,復(fù)刻了類似生物大腦中海馬體(Hippocampus)與大腦皮層(Cortex)的協(xié)作機(jī)制 。

1. 快系統(tǒng):像海馬體一樣敏銳的 Titans

在 HOPE 的最前端,是處理即時(shí)信息的“快系統(tǒng)”。這里 Google 使用了論文一作 Ali Behrouz 之前的另一項(xiàng)成名作Titans。

你可以把 Titans 理解為一種“超級 RNN”。它就像人類靈活的海馬體,負(fù)責(zé)快速捕捉和編碼當(dāng)下的新知。傳統(tǒng)的 AI 模型在處理新信息時(shí)是被動的,但 HOPE 里的 Titans 模塊具有極強(qiáng)的“主觀能動性”,它是 Self-Modifying(自我修改) 的。

它不僅是在讀取數(shù)據(jù),更是在根據(jù)當(dāng)前的上下文,實(shí)時(shí)生成自己這一步學(xué)習(xí)所需要的 Key、Value,甚至自己決定這一次記憶的 Learning Rate(學(xué)習(xí)率) 。這意味著,它能敏銳地判斷眼前信息的重要性,快速形成短期記憶。

2. 慢系統(tǒng):像皮層一樣厚重的 CMS

這是整個(gè)架構(gòu)中最具顛覆性的設(shè)計(jì)。HOPE 引入了 Continuum Memory System (連續(xù)記憶系統(tǒng),CMS)。CMS 就像是厚重的大腦皮層,負(fù)責(zé)將經(jīng)過篩選的知識長久地刻印在神經(jīng)元中。


Google 將人腦電波的頻率機(jī)制引入了 AI 架構(gòu)設(shè)計(jì),構(gòu)建了不同更新頻率的層級

在 CMS 中,模型內(nèi)部的 MLP(前饋網(wǎng)絡(luò))不再是鐵板一塊,而是被切分成了不同的層級,就像不同轉(zhuǎn)速的齒輪:

  • 高頻層: 可能每處理幾百個(gè)字就更新一次,用于捕捉剛才對話里的新定義。

  • 中頻層: 可能每處理幾萬字更新一次,用于適應(yīng)一個(gè)新的項(xiàng)目背景。

  • 低頻層: 幾乎不更新,用于穩(wěn)固語言的語法和常識 。

左側(cè)的 HOPE 架構(gòu)擁有豐富的中間層級

這種設(shè)計(jì)避免了災(zāi)難性遺忘。當(dāng)新知識涌入時(shí),它會被優(yōu)先存儲在高頻層,而不會去驚擾低頻層里的舊知識。隨著時(shí)間的推移,真正重要的信息才會像沙漏里的沙子一樣,慢慢沉淀到深層。

3. 優(yōu)化器也有了“記憶”

Google 的激進(jìn)之處在于,他們不僅改造了大腦(架構(gòu)),還改造了老師(優(yōu)化器)。

為了配合這就這套復(fù)雜的系統(tǒng),他們設(shè)計(jì)了一個(gè)名為 M3 (Multi-scale Momentum Muon) 的新優(yōu)化器。

既然模型分了層,優(yōu)化器為什么不能分層?普通的 Adam 優(yōu)化器只看眼前的梯度(Local Structure),容易陷入短視。而 M3 優(yōu)化器本身也被設(shè)計(jì)成了嵌套結(jié)構(gòu),它有一層“快動量”負(fù)責(zé)看腳下的路,還有一層“慢動量”負(fù)責(zé)看遠(yuǎn)處的山脈(全局 Loss Landscape)。

這意味著,連負(fù)責(zé)訓(xùn)練的算法本身,都擁有了更深遠(yuǎn)的記憶力。


M3 優(yōu)化器在 ImageNet 訓(xùn)練任務(wù)中,展現(xiàn)出了更快的收斂速度和更低的 Loss

實(shí)驗(yàn)數(shù)據(jù)顯示,這種設(shè)計(jì)在 ImageNet 和大語言模型訓(xùn)練上,不僅收斂更快,而且最終效果更好。

4. 給工程師的“后悔藥”

對于工業(yè)界的開發(fā)者來說,HOPE 最迷人的地方可能不是從頭訓(xùn)練一個(gè)新模型,而是它提供了一種“原地改造”的可能性。

Ali Behrouz 在分享中提到了一個(gè)名為 Ad-hoc Level Stacking 的技巧,你不需要拋棄手里現(xiàn)有的 Llama 或 Qwen 模型。你可以直接拿來一個(gè)預(yù)訓(xùn)練好的模型,人為地將它的不同層指定為不同的“更新頻率”,把淺層設(shè)為高頻,深層設(shè)為低頻 。

這就像是給一輛已經(jīng)出廠的舊車,通過刷新固件就解鎖了自動駕駛功能。這一特性,讓 Nested Learning 成為了一個(gè)工程方案。

1

從“靜態(tài)產(chǎn)品”到“動態(tài)生命”

我們把視角從代碼行中抽離出來,會發(fā)現(xiàn) Nested Learning 真正的野心,不在于刷榜,而在于試圖完成一次 AI 領(lǐng)域的范式轉(zhuǎn)移。

在 NeurIPS 的分享最后,作者提出了一個(gè)發(fā)人深省的觀點(diǎn),“深度(Depth)也許不再是唯一的答案?!?/p>

過去十年,我們一直在堆疊物理層數(shù),把神經(jīng)網(wǎng)絡(luò)做得越來越深。這種暴力美學(xué)確實(shí)帶來了涌現(xiàn)能力,但它也制造了一個(gè)巨大的“幻覺”,誤以為智能來源于靜態(tài)的深度。而忽略了真正的深度可能來自于嵌套的優(yōu)化。

更進(jìn)一步,論文中提出了一個(gè)極其激進(jìn)的定義:“預(yù)訓(xùn)練本身,其實(shí)就是一種超長上下文的 In-Context Learning?!?/p>

這句話消解了 AI 領(lǐng)域最大的邊界。在 Nested Learning 的愿景里,沒有所謂的“訓(xùn)練結(jié)束”這一天。模型在與用戶交互的每一秒,都在以某種微小的頻率更新自己的突觸。它不再是一個(gè)冰冷的、出廠即固化機(jī)器,而是一個(gè)在數(shù)據(jù)流中不斷呼吸、代謝、進(jìn)化的有機(jī)體。

這或許才是通往 AGI更本質(zhì)的道路,智能不是被灌輸?shù)?,而是在交互中生長的。

當(dāng)然,任何試圖顛覆范式的理論,注定會伴隨著巨大的爭議。這圍繞這篇論文討論區(qū)里,聲音很多樣。

樂觀者將其視為 "Attention Is All You Need V2"。社區(qū)對于自我修改這一概念尤為著迷。長期以來,我們一直詬病 LLM 只是“統(tǒng)計(jì)學(xué)的鸚鵡”,而 HOPE 讓 AI 第一次擁有了某種“元認(rèn)知”能力,即學(xué)習(xí)如何學(xué)習(xí)。這種從被動擬合到主動適應(yīng)的跨越,被認(rèn)為是 AI 產(chǎn)生質(zhì)變的關(guān)鍵。

實(shí)用主義者則看到了解決災(zāi)難性遺忘的曙光。如果這一架構(gòu)能落地,未來的企業(yè)級 AI 將不再需要為了更新一點(diǎn)點(diǎn)業(yè)務(wù)知識而耗資百萬進(jìn)行全量重訓(xùn),AI 可以在業(yè)務(wù)流中自然地學(xué)會新規(guī)章,同時(shí)不忘記舊制度。這是對降本增效是最直接的。

質(zhì)疑者也大有人在。比如有評論指出,論文中將 SGD(梯度下降)強(qiáng)行解釋為“聯(lián)想記憶”的數(shù)學(xué)證明雖然精彩,但更多依賴直覺,缺乏嚴(yán)謹(jǐn)?shù)氖諗啃员U?。更有工程師?dān)心,這種復(fù)雜的“嵌套優(yōu)化”會讓調(diào)參難度呈指數(shù)級上升,畢竟,調(diào)一個(gè) Adam 已經(jīng)夠頭疼了,現(xiàn)在我們要同時(shí)調(diào)好幾個(gè)不同頻率的“大腦”。

但無論如何,Google 這一次沒有在參數(shù)量上卷,而是在“學(xué)習(xí)的本質(zhì)”上開了一槍。

它用一種近乎哲學(xué)的方式提醒我們,對于一個(gè)真正的智能體來說,存在就是壓縮,活著就是學(xué)習(xí)。


點(diǎn)個(gè)愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
羅馬諾:曼聯(lián)已與魯本·內(nèi)維斯的經(jīng)紀(jì)人進(jìn)行談判;馬卡報(bào)記者:巴薩正努力永久簽下拉什福德

羅馬諾:曼聯(lián)已與魯本·內(nèi)維斯的經(jīng)紀(jì)人進(jìn)行談判;馬卡報(bào)記者:巴薩正努力永久簽下拉什福德

MUREDS
2025-12-25 23:52:18
南博背后勢力已冒頭!舉報(bào)人被恐嚇 知情人曝新進(jìn)展,一個(gè)都跑不了

南博背后勢力已冒頭!舉報(bào)人被恐嚇 知情人曝新進(jìn)展,一個(gè)都跑不了

鋭娛之樂
2025-12-25 12:37:35
藏不住了,當(dāng)年陸挺的《江南春》,是從徐湘江手里購買的

藏不住了,當(dāng)年陸挺的《江南春》,是從徐湘江手里購買的

吃瓜盟主
2025-12-24 15:26:30
吉林挖出百噸“地下金飯碗”,價(jià)值超6000億,周邊老百姓要發(fā)了!

吉林挖出百噸“地下金飯碗”,價(jià)值超6000億,周邊老百姓要發(fā)了!

老特有話說
2025-12-24 21:10:54
陜西一父親帶女兒自駕游,4個(gè)月后罪行被揭發(fā),判刑9年5個(gè)月

陜西一父親帶女兒自駕游,4個(gè)月后罪行被揭發(fā),判刑9年5個(gè)月

燦爛夏天
2025-02-16 23:28:09
Meta的波折:扎克伯格與十億美金聘請的新AI主管關(guān)系破裂

Meta的波折:扎克伯格與十億美金聘請的新AI主管關(guān)系破裂

我不叫阿哏
2025-12-24 10:15:26
售價(jià)6980元,光陽發(fā)布KR踏板車,采用復(fù)古外觀,滿油能跑300公里

售價(jià)6980元,光陽發(fā)布KR踏板車,采用復(fù)古外觀,滿油能跑300公里

騎士分享
2025-12-25 12:00:03
什么事是你交了男朋友才知道的?網(wǎng)友:鼻子大的真的大還厲害

什么事是你交了男朋友才知道的?網(wǎng)友:鼻子大的真的大還厲害

帶你感受人間冷暖
2025-11-12 00:05:08
從高處跌落的硅膠臉夫人:被拘4個(gè)月瘦到80斤,頭發(fā)花白眼神驚恐

從高處跌落的硅膠臉夫人:被拘4個(gè)月瘦到80斤,頭發(fā)花白眼神驚恐

照見古今
2025-12-12 18:19:05
婚姻法新規(guī):非夫妻關(guān)系的男女自愿同居,如果被查到了...

婚姻法新規(guī):非夫妻關(guān)系的男女自愿同居,如果被查到了...

譚老師地理大課堂
2025-12-09 18:24:33
邱淑貞和昆凌坐一起看張學(xué)友演唱會,邱淑貞扎高馬尾比昆凌漂亮!

邱淑貞和昆凌坐一起看張學(xué)友演唱會,邱淑貞扎高馬尾比昆凌漂亮!

徐幫陽
2025-12-14 13:39:47
倒閉14萬家!曾年賺22億的奶茶之王,加盟商怒掛條幅:血本無歸!

倒閉14萬家!曾年賺22億的奶茶之王,加盟商怒掛條幅:血本無歸!

青眼財(cái)經(jīng)
2025-11-13 23:02:27
陳妍希與潘瑋柏宣云過圣誕,一身打扮好少女,9歲兒子罕見出鏡

陳妍希與潘瑋柏宣云過圣誕,一身打扮好少女,9歲兒子罕見出鏡

丁丁鯉史紀(jì)
2025-12-25 19:56:58
1987年,莊則棟和日本愛人結(jié)婚受阻,鄧小平同意幫忙:有2個(gè)條件

1987年,莊則棟和日本愛人結(jié)婚受阻,鄧小平同意幫忙:有2個(gè)條件

簡史檔案館
2025-12-25 11:05:03
英媒忍不住感嘆,黃仁勛從未如此直白:中國這么做,將會擊敗美國

英媒忍不住感嘆,黃仁勛從未如此直白:中國這么做,將會擊敗美國

趣史微視頻
2025-11-11 13:09:14
赤身被吊在房梁上,下體被插上銅棒通電,遺照卻一直被日寇供奉著

赤身被吊在房梁上,下體被插上銅棒通電,遺照卻一直被日寇供奉著

興趣知識
2025-12-03 16:21:36
專家提醒:不要買!不要吃!里面含有硼砂,危害健康,別害了自己

專家提醒:不要買!不要吃!里面含有硼砂,危害健康,別害了自己

蜉蝣說
2025-10-31 10:56:39
全線崩盤?國民黨“天王級”人物,正在被賴清德送進(jìn)歷史垃圾堆。

全線崩盤?國民黨“天王級”人物,正在被賴清德送進(jìn)歷史垃圾堆。

南權(quán)先生
2025-12-02 16:20:36
必須拿出魄力!洪秀柱力挺鄭麗文,柯志恩、江啟臣卻明牌“跳反”

必須拿出魄力!洪秀柱力挺鄭麗文,柯志恩、江啟臣卻明牌“跳反”

再戰(zhàn)五百回合
2025-12-24 22:48:04
廣東一女兒將母親器官活活剜出,母親臨死前哀求:媽媽錯了

廣東一女兒將母親器官活活剜出,母親臨死前哀求:媽媽錯了

紙鳶奇譚
2024-10-13 19:29:37
2025-12-26 04:32:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個(gè)星球。
2741文章數(shù) 10422關(guān)注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

俄軍中將在汽車炸彈爆炸中身亡 俄軍報(bào)復(fù)

頭條要聞

俄軍中將在汽車炸彈爆炸中身亡 俄軍報(bào)復(fù)

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

新規(guī)來了,年化超24%的小貸被即刻叫停

汽車要聞

速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

時(shí)尚
本地
親子
旅游
軍事航空

冬季穿衣別顯得太臃腫!大衣收腰、搭配圍巾,有質(zhì)感又高級

本地新聞

這輩子要積多少德,下輩子才能投胎到德國當(dāng)狗

親子要聞

三歲打娘娘會笑,三十打娘娘上調(diào),教子有方家興旺教子無方家敗光

旅游要聞

市屬公園三大雪場今起全面開放

軍事要聞

澤連斯基版“和平計(jì)劃”透露哪些信息

無障礙瀏覽 進(jìn)入關(guān)懷版