国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

為什么這篇谷歌論文被稱(chēng)為「Attention is all you need」V2

0
分享至

從小老師就愛(ài)說(shuō)“好記性不如爛筆頭”,那么我們?yōu)槭裁床唤o有“記憶缺陷”的大模型配一個(gè)小本本記上總結(jié)歸納的要點(diǎn)呢?

繼著名的“Attention Is All You Need”之后,谷歌新論文再度引爆圈內(nèi):我們可能忽略了AI的“另一半大腦”。

這篇文章題為
嵌套學(xué)習(xí):深度學(xué)習(xí)架構(gòu)的幻象(Nested Learning: The Illusion of Deep Learning Architectures)
在圈內(nèi)被譽(yù)為是“Attention is all you need”V2



失憶的巨人

你是否曾對(duì)AI感到一絲“恨鐵不成鋼”?你剛剛在對(duì)話中詳細(xì)解釋過(guò)一個(gè)概念,三句話之后它就可能完全遺忘,仿佛從未發(fā)生。ChatGPT們上知天文下知地理,卻學(xué)不會(huì)你今天剛教它的一件小事。



這并非偶然的Bug,而是當(dāng)前所有大型語(yǔ)言模型(LLMs)共同的“先天疾病”——數(shù)字失憶癥

為了“治療”它,過(guò)去十年,整個(gè)行業(yè)幾乎只遵循一條黃金定律:把模型做得更深、更大。我們不斷堆疊Transformer層,追逐萬(wàn)億參數(shù),相信“規(guī)模即智能”,期待著記憶相關(guān)的能力也能“涌現(xiàn)”出來(lái)。

但是,這個(gè)努力方向有著明顯的問(wèn)題:僅提高算法復(fù)雜度可能并不會(huì)使能力顯著提升。

具體而言,深度模型的計(jì)算深度可能不會(huì)隨著層數(shù)的增加而改變,模型的擴(kuò)大對(duì)某些參數(shù)的容量提升影響十分有限,快速適應(yīng)新任務(wù)、持續(xù)學(xué)習(xí)以及泛化性也很難通過(guò)參數(shù)量堆疊“自發(fā)涌現(xiàn)”。另外,受限于優(yōu)化器,訓(xùn)練過(guò)程可能收斂到一個(gè)次優(yōu)解。

近日,谷歌一項(xiàng)顛覆性的研究指出,我們可能忽略了一個(gè)與“深度”同等重要、甚至更為根本的維度

這項(xiàng)名為“嵌套學(xué)習(xí)”的研究,正以燎原之勢(shì)在學(xué)術(shù)圈內(nèi)引發(fā)地震。許多資深研究者將其私下稱(chēng)為“Attention is All You Need” V2。它沒(méi)有提出新的炫酷模塊,而是試圖回答了那個(gè)最根本的問(wèn)題:機(jī)器學(xué)習(xí)的本質(zhì),究竟是什么?

優(yōu)化器竟是記憶體

一切顛覆性的認(rèn)知,往往始于對(duì)常識(shí)的重新審視。研究團(tuán)隊(duì)選擇了一個(gè)最基礎(chǔ)、最不被注意的起點(diǎn):優(yōu)化器。

無(wú)論是經(jīng)典的隨機(jī)梯度下降,還是如今廣泛使用的Adam,我們都將其視為訓(xùn)練模型的“引擎”或“導(dǎo)航儀”——它計(jì)算梯度,指引參數(shù)朝損失下降的方向前進(jìn),僅此而已。

然而,這篇論文給出了一個(gè)反直覺(jué)的證明:主流的優(yōu)化器本身,就是一個(gè)持續(xù)進(jìn)行著“記憶”的關(guān)聯(lián)記憶系統(tǒng)。

這是什么意思?想象一下,優(yōu)化器不僅在看當(dāng)前的路況(即時(shí)梯度),它內(nèi)部還有一個(gè)默默做筆記的黑盒子。這個(gè)盒子不斷壓縮、存儲(chǔ)一路走來(lái)所有梯度變化的“模式”與歷史。當(dāng)我們以為自己在做“訓(xùn)練模型”這一件事時(shí),實(shí)際上已經(jīng)不知不覺(jué)地運(yùn)行了多個(gè)嵌套的、在不同時(shí)間尺度上并行的小型學(xué)習(xí)程序。

這個(gè)發(fā)現(xiàn),成為了撬動(dòng)整個(gè)新范式的支點(diǎn)。它意味著,從最底層的優(yōu)化器,到中層的注意力機(jī)制,再到整個(gè)神經(jīng)網(wǎng)絡(luò),都可以被統(tǒng)一地重新審視——它們不再是功能各異被拼湊起來(lái)的零件,而是在不同速度、不同抽象層級(jí)上,嵌套運(yùn)行的“學(xué)習(xí)-記憶”模塊。

我們熟悉的、引以為傲的“深度學(xué)習(xí)”體系,從這個(gè)全新的視角看,僅僅是這個(gè)更宏大、更立體范式的一個(gè)扁平化投影。



缺失的維度

基于這一核心洞察,論文提出了一個(gè)簡(jiǎn)潔而深刻的新范式:嵌套學(xué)習(xí)。它認(rèn)為,真正有效的智能學(xué)習(xí)需要兩個(gè)正交的維度:

1. 深度:即模型的層數(shù)與容量,這是我們過(guò)去十年全力拓展的。

2. 頻率:即模型內(nèi)部組件自我更新的節(jié)奏與速度,這是我們先前幾乎完全忽略的。

人工智能的進(jìn)步常受到人腦的啟發(fā),這次也不例外。

人類(lèi)之所以能持續(xù)學(xué)習(xí)、終身成長(zhǎng),是因?yàn)榇竽X同時(shí)用多種“生物時(shí)鐘”在工作。有些神經(jīng)元回路快速反應(yīng),處理瞬息萬(wàn)變的感官信息(如正在進(jìn)行對(duì)話);有些則緩慢而堅(jiān)定地鞏固,將重要模式沉淀為長(zhǎng)期知識(shí)或技能。這是一個(gè)連續(xù)、平滑的時(shí)間頻譜,信息在不同頻率的“通道”間有序流動(dòng)、加工和儲(chǔ)存。

而當(dāng)前的大模型就像得了“順行性失憶癥”,這種病的患者在病癥發(fā)作后無(wú)法形成新的長(zhǎng)期記憶,但此前的既有記憶則保持完好。這種狀況將患者的知識(shí)與體驗(yàn)局限在兩個(gè)時(shí)間片段:一個(gè)是很久遠(yuǎn)的過(guò)去(發(fā)病之前),另一個(gè)是極其短暫的現(xiàn)在。患者會(huì)不斷地經(jīng)歷每一個(gè)“當(dāng)下”,仿佛它們永遠(yuǎn)是嶄新的、無(wú)法被記住的。

這與當(dāng)前的大模型情況相似,只有兩種極端的工作頻率:一種是快速響應(yīng)但轉(zhuǎn)瞬即逝的對(duì)話緩存,另一種是在預(yù)訓(xùn)練完成后便凍結(jié)的長(zhǎng)期知識(shí)。它嚴(yán)重缺失了中間所有頻譜的“記憶通道”。因此,任何新知識(shí)都無(wú)處安放,要么在對(duì)話結(jié)束后遺忘,要么覆蓋舊記憶為代價(jià)以高昂的計(jì)算成本更新——這正是“數(shù)字失憶癥”的根源。



HOPE與連續(xù)記憶光譜

全新的理論,需要全新的架構(gòu)來(lái)證明。基于“嵌套學(xué)習(xí)”范式,研究團(tuán)隊(duì)構(gòu)建了名為HOPE的新型架構(gòu)。其核心創(chuàng)新是一個(gè)連續(xù)記憶系統(tǒng)。

這不再是一兩個(gè)孤立的記憶模塊,而是一系列像光譜一樣排列的MLP模塊。每個(gè)模塊都以預(yù)設(shè)的、不同的頻率進(jìn)行更新。信息輸入后,會(huì)在這些不同節(jié)奏的記憶模塊間自動(dòng)流動(dòng)與分配:

高頻模塊像“工作記憶”,快速捕捉對(duì)話中的即時(shí)細(xì)節(jié)與上下文。

中頻模塊像“近期記憶”,負(fù)責(zé)提煉和歸納一段時(shí)間內(nèi)出現(xiàn)的模式。

低頻模塊像“長(zhǎng)期記憶”,緩慢而穩(wěn)定地將最重要的知識(shí)沉淀為模型固有能力。

這個(gè)過(guò)程,高度模仿了神經(jīng)科學(xué)中信息從海馬體向新皮層轉(zhuǎn)移、鞏固的經(jīng)典機(jī)制。在初步實(shí)驗(yàn)中,HOPE已經(jīng)在標(biāo)準(zhǔn)語(yǔ)言建模和常識(shí)推理任務(wù)上展現(xiàn)了強(qiáng)大的競(jìng)爭(zhēng)力。



更重要的是,它顯露出了解決持續(xù)學(xué)習(xí)問(wèn)題的巨大潛力——新知識(shí)可以在這條“記憶光譜”上找到自己合適的位置,被漸進(jìn)式地消化吸收,而非引發(fā)系統(tǒng)性的崩潰或遺忘。

一場(chǎng)靜待發(fā)生的范式轉(zhuǎn)移

“嵌套學(xué)習(xí)”的價(jià)值,或許不在于明天就取代Transformer,成為大模型的主流骨架。它的深遠(yuǎn)意義在于,提供了一套全新的設(shè)計(jì)邏輯和思考框架。

它的成功啟示我們,下一代AI的突破,不一定依賴(lài)于發(fā)明更復(fù)雜的“神經(jīng)元積木”,而在于為AI設(shè)計(jì)一套能激發(fā)潛能的框架。這正是其被譽(yù)為“V2”的原因——如同2017年“注意力”機(jī)制統(tǒng)一了序列建模的視野,“嵌套學(xué)習(xí)”正試圖為學(xué)習(xí)過(guò)程本身,構(gòu)建一個(gè)統(tǒng)一、可解釋的“白箱”模型。

當(dāng)然,這仍是非常前沿的探索,這場(chǎng)關(guān)于“記憶”與“學(xué)習(xí)”本質(zhì)的重新思考,才剛剛拉開(kāi)序幕。人工智能的未來(lái),或許不僅需要更深的網(wǎng)絡(luò),更需要一個(gè)能夠?qū)W習(xí)和演化的系統(tǒng),而不僅僅是作為一個(gè)靜止的、被凝固在訓(xùn)練完成那一刻的“知識(shí)琥珀”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鄧婕六十八歲離婚是終生的傷,繼子不爭(zhēng)氣,養(yǎng)女愈發(fā)像丈夫!

鄧婕六十八歲離婚是終生的傷,繼子不爭(zhēng)氣,養(yǎng)女愈發(fā)像丈夫!

一盅情懷
2026-03-01 17:51:08
中國(guó)軍號(hào):對(duì)于那一天我們不期待,但絕不懼怕!

中國(guó)軍號(hào):對(duì)于那一天我們不期待,但絕不懼怕!

瀟湘晨報(bào)
2026-03-01 15:18:15
全軍啟用預(yù)備役人員證

全軍啟用預(yù)備役人員證

界面新聞
2026-03-01 10:34:50
女子回湖北婆家過(guò)年,車(chē)被妯娌砸稀爛,報(bào)警后絕不和解,結(jié)局爽了

女子回湖北婆家過(guò)年,車(chē)被妯娌砸稀爛,報(bào)警后絕不和解,結(jié)局爽了

不寫(xiě)散文詩(shī)
2026-02-28 17:19:21
特朗普:美國(guó)正在“大規(guī)!贝驌粢晾 消息人士:伊朗遇難者身份將令人震驚

特朗普:美國(guó)正在“大規(guī)!贝驌粢晾 消息人士:伊朗遇難者身份將令人震驚

環(huán)球網(wǎng)資訊
2026-02-28 16:16:05
深度 | 最高領(lǐng)袖身亡,美以叫囂繼續(xù)打,伊朗能否挺過(guò)47年來(lái)最致命危機(jī)?

深度 | 最高領(lǐng)袖身亡,美以叫囂繼續(xù)打,伊朗能否挺過(guò)47年來(lái)最致命危機(jī)?

上觀新聞
2026-03-01 16:17:08
世界首次五百?gòu)?qiáng)斷崖差:日本149家,美國(guó)151家,中國(guó)3家,現(xiàn)在呢

世界首次五百?gòu)?qiáng)斷崖差:日本149家,美國(guó)151家,中國(guó)3家,現(xiàn)在呢

紀(jì)中百大事
2026-03-01 12:24:25
周末打“三虎”,都是來(lái)自安徽,力度夠大,拍手稱(chēng)贊!

周末打“三虎”,都是來(lái)自安徽,力度夠大,拍手稱(chēng)贊!

呼呼歷史論
2026-03-01 21:19:21
哈梅內(nèi)伊之死和伊朗性史

哈梅內(nèi)伊之死和伊朗性史

哲空空
2026-03-01 11:14:17
外媒稱(chēng)哈梅內(nèi)伊在其工作場(chǎng)所遇害,為何沒(méi)躲避?為何能精準(zhǔn)定位?

外媒稱(chēng)哈梅內(nèi)伊在其工作場(chǎng)所遇害,為何沒(méi)躲避?為何能精準(zhǔn)定位?

之乎者也小魚(yú)兒
2026-03-01 11:44:00
1只都不行!2015年廣東老人半個(gè)小時(shí)徒手抓了22只,想煲湯喝

1只都不行!2015年廣東老人半個(gè)小時(shí)徒手抓了22只,想煲湯喝

萬(wàn)象硬核本尊
2026-02-07 21:05:46
特朗普沒(méi)想到:哈梅內(nèi)伊雖然死了,但臨終前的一項(xiàng)安排會(huì)這么厲害

特朗普沒(méi)想到:哈梅內(nèi)伊雖然死了,但臨終前的一項(xiàng)安排會(huì)這么厲害

健身狂人
2026-03-01 13:53:47
荷蘭半導(dǎo)體專(zhuān)家:ASML花費(fèi)40年鉆研光刻機(jī),中國(guó)企業(yè)竟比ASML還狠

荷蘭半導(dǎo)體專(zhuān)家:ASML花費(fèi)40年鉆研光刻機(jī),中國(guó)企業(yè)竟比ASML還狠

策略述
2026-02-28 17:11:40
復(fù)旦神級(jí)教授“預(yù)言”:美國(guó)不敢打伊朗,國(guó)力嚴(yán)重下降難支撐全球霸權(quán)

復(fù)旦神級(jí)教授“預(yù)言”:美國(guó)不敢打伊朗,國(guó)力嚴(yán)重下降難支撐全球霸權(quán)

回旋鏢
2026-03-01 21:20:11
哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會(huì)接受美國(guó)為烏克蘭提供的安全保證 | 狼叔看世界

哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會(huì)接受美國(guó)為烏克蘭提供的安全保證 | 狼叔看世界

狼叔看世界
2026-03-01 11:40:52
美國(guó)終于明白,當(dāng)年他們“誤炸”中國(guó)大使館,中國(guó)為什么不反擊

美國(guó)終于明白,當(dāng)年他們“誤炸”中國(guó)大使館,中國(guó)為什么不反擊

蜉蝣說(shuō)
2025-10-07 16:08:53
哈梅內(nèi)伊開(kāi)會(huì)時(shí)遭襲身亡,細(xì)節(jié)披露!美媒:伊朗防長(zhǎng)等約40名官員在襲擊中死亡!伊方:總統(tǒng)等將領(lǐng)導(dǎo)國(guó)家

哈梅內(nèi)伊開(kāi)會(huì)時(shí)遭襲身亡,細(xì)節(jié)披露!美媒:伊朗防長(zhǎng)等約40名官員在襲擊中死亡!伊方:總統(tǒng)等將領(lǐng)導(dǎo)國(guó)家

每日經(jīng)濟(jì)新聞
2026-03-01 12:09:04
今起,這些錢(qián)不用交了!國(guó)家明確:3月1日起,一批收費(fèi)取消

今起,這些錢(qián)不用交了!國(guó)家明確:3月1日起,一批收費(fèi)取消

陳博世財(cái)經(jīng)
2026-03-01 10:46:47
新加坡大滿(mǎn)貫:孫穎莎4-2再勝王曼昱,奪女單冠軍獲2000分+93萬(wàn)

新加坡大滿(mǎn)貫:孫穎莎4-2再勝王曼昱,奪女單冠軍獲2000分+93萬(wàn)

乒談
2026-03-01 20:21:27
全線拉升!剛剛,超10萬(wàn)人爆倉(cāng)!伊朗總統(tǒng),最新發(fā)聲!伊朗股市按下“暫停鍵”

全線拉升!剛剛,超10萬(wàn)人爆倉(cāng)!伊朗總統(tǒng),最新發(fā)聲!伊朗股市按下“暫停鍵”

每日經(jīng)濟(jì)新聞
2026-03-01 19:40:50
2026-03-01 23:39:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12211文章數(shù) 176399關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

媒體:美以能精準(zhǔn)"斬首"背后 摩薩德的"手筆"令人咋舌

頭條要聞

媒體:美以能精準(zhǔn)"斬首"背后 摩薩德的"手筆"令人咋舌

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂(lè)要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來(lái)襲

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車(chē)要聞

理想汽車(chē)2月交付26421輛 歷史累計(jì)交付超159萬(wàn)輛

態(tài)度原創(chuàng)

旅游
游戲
教育
健康
時(shí)尚

旅游要聞

連線滯留巴林的廣州游客:跟媽媽睡酒店大堂,當(dāng)?shù)爻掷m(xù)被轟炸

《寶可夢(mèng)》新游熱銷(xiāo)登頂!模擬建造休閑風(fēng)

教育要聞

11年,學(xué)生平均增高5.52厘米!成都這所小學(xué),登上教育部發(fā)布會(huì)

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

今年春天最流行的4件衛(wèi)衣,照著穿就很好看

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版