国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

頂會(huì)研究系列 | EFLA:可精確求解的穩(wěn)定線性注意力!

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開放的AI開源社區(qū),始終堅(jiān)持“中立、開放、共建、共創(chuàng)、合作”五項(xiàng)基本原則,歡迎加入共同成長(zhǎng)。

wisemodel社區(qū)持續(xù)舉辦系列頂會(huì)會(huì)享,歡迎研究人員的團(tuán)隊(duì)報(bào)名分享與投稿

線性注意力和 SSM 這兩年被頻繁拿出來(lái)討論,原因很簡(jiǎn)單:softmax attention 的二次復(fù)雜度在長(zhǎng)上下文場(chǎng)景下已經(jīng)越來(lái)越難以接受。但與此同時(shí),一個(gè)同樣反復(fù)出現(xiàn)的現(xiàn)象也越來(lái)越明顯——只要上下文一拉長(zhǎng)、輸入尺度一放大,很多線性注意力模型就開始數(shù)值不穩(wěn)定,性能迅速退化。

通常的解釋路徑是熟悉的:線性注意力缺少 softmax 的歸一化、對(duì)輸入能量敏感、需要額外的 gate 或 decay 機(jī)制來(lái)穩(wěn)住訓(xùn)練。但 EFLA 這篇論文提出了一個(gè)更底層、也更“數(shù)學(xué)正確”的解釋:問(wèn)題不在注意力本身,而在于之前一直在用一個(gè)過(guò)于粗糙的數(shù)值方法去實(shí)現(xiàn)它。


項(xiàng)目地址:https://wisemodel.cn/codes/kkkkkleeiii/EFLA

01.

線性注意力其實(shí)在“解一個(gè)連續(xù)系統(tǒng)”

如果把 DeltaNet 這一類線性注意力的狀態(tài)更新寫下來(lái),會(huì)發(fā)現(xiàn)它本質(zhì)上是在維護(hù)一個(gè) key→value 的關(guān)聯(lián)矩陣,并在每個(gè)時(shí)間步對(duì)這個(gè)矩陣做一次小幅修正。這個(gè)過(guò)程通常被解釋為 online regression 或 fast weights:


但 EFLA 指出,更自然的理解其實(shí)是:

這是一個(gè)連續(xù)時(shí)間動(dòng)力系統(tǒng),被強(qiáng)行離散化成了逐 token 的更新。


在連續(xù)時(shí)間里,這個(gè)系統(tǒng)的行為非常清晰:一方面,舊的記憶沿著當(dāng)前 key 的方向指數(shù)衰減;另一方面,新的 value 沿著同一個(gè)方向被注入進(jìn)狀態(tài)中。換句話說(shuō),這是一個(gè)帶衰減項(xiàng)和輸入項(xiàng)的一階線性 ODE。

而在代碼里看到的 DeltaNet 更新,其實(shí)只是對(duì)這個(gè)連續(xù)系統(tǒng)做了一步最簡(jiǎn)單的數(shù)值積分。

02.

真正的問(wèn)題:之前一直在用Euler

從數(shù)值分析的角度看,DeltaNet 使用的更新方式等價(jià)于顯式 Euler 方法。Euler 的優(yōu)點(diǎn)是簡(jiǎn)單、快,但它也是最低階的一種數(shù)值積分方法。它的誤差在單步看起來(lái)很小,但會(huì)隨著步數(shù)線性累積。

把這個(gè)事實(shí)代回線性注意力,就會(huì)發(fā)現(xiàn)很多“經(jīng)驗(yàn)現(xiàn)象”突然說(shuō)得通了:

為什么序列一長(zhǎng)就容易不穩(wěn)?為什么 key 的范數(shù)一大,狀態(tài)就會(huì)爆?為什么在高能輸入或者 OOD scale 下模型直接崩掉?

不是模型設(shè)計(jì)出了問(wèn)題,而是你在用一個(gè)一階方法,去長(zhǎng)期積分一個(gè)本來(lái)就帶指數(shù)行為的系統(tǒng)。

03.

那為什么不直接“把系統(tǒng)解對(duì)”

聽(tīng)起來(lái)很自然的一個(gè)想法是:既然這是一個(gè)連續(xù)系統(tǒng),那能不能直接用更高階的方法,甚至直接算解析解?

答案通常是否定的。原因也很現(xiàn)實(shí):連續(xù)系統(tǒng)的精確解會(huì)涉及矩陣指數(shù),而對(duì)一般矩陣來(lái)說(shuō),解 的計(jì)算代價(jià)是

,在注意力里根本不可接受。但 EFLA 的關(guān)鍵發(fā)現(xiàn)是:線性注意力里的這個(gè)系統(tǒng),有一個(gè)被長(zhǎng)期忽略的特殊結(jié)構(gòu)。

04.

關(guān)鍵在于:這個(gè)矩陣幾乎永遠(yuǎn)是rank-1

在 DeltaNet 和類似方法中,決定衰減方向的矩陣,實(shí)際上是由當(dāng)前 key 的外積構(gòu)成的。也就是說(shuō),它只有一個(gè)非零方向,本質(zhì)上是 rank-1。


這個(gè)結(jié)構(gòu)帶來(lái)了一個(gè)非?!鞍讚臁钡慕Y(jié)果:矩陣指數(shù)可以被化簡(jiǎn)成一個(gè)閉式表達(dá),而且計(jì)算量仍然是線性的。

換句話說(shuō),原本看起來(lái)不可能的“精確解”,在這里突然變成了可計(jì)算的。

05.

EFLA做的事情,其實(shí)非??酥?/b>

最終得到的 EFLA 更新形式,和 DeltaNet 幾乎一模一樣:


原來(lái)直接使用的地方,被替換成了一個(gè)由 key 能量自動(dòng)調(diào)節(jié)的系數(shù)。


這個(gè)系數(shù)的行為非常直觀:當(dāng) key 的能量很大時(shí),更新會(huì)自然飽和,避免狀態(tài)被一次輸入沖垮;當(dāng) key 很弱時(shí),它又會(huì)退化回原來(lái)的 delta rule 行為。重要的是,這不是人為設(shè)計(jì)的 gate,而是連續(xù)系統(tǒng)的精確解本來(lái)就應(yīng)該長(zhǎng)成這樣。

06.

穩(wěn)定性不是“調(diào)出來(lái)的”,而是算出來(lái)的

這也解釋了一個(gè)論文中看似反直覺(jué)、但非常一致的實(shí)驗(yàn)現(xiàn)象:EFLA 在訓(xùn)練早期通常更穩(wěn)、更抗噪,但在后期可能需要更大的全局學(xué)習(xí)率。原因并不復(fù)雜。精確解帶來(lái)的指數(shù)衰減,本身就會(huì)壓縮高能更新的幅度。如果學(xué)習(xí)率還沿用 DeltaNet 的設(shè)置,模型反而會(huì)“更新不夠”。這不是缺點(diǎn),而是精確解的自然代價(jià)。

07.

工程上,它并不更難用

一個(gè)很容易被誤解的點(diǎn)是:EFLA 會(huì)不會(huì)犧牲并行性,或者只能串行計(jì)算?

答案是否定的。因?yàn)樗母陆Y(jié)構(gòu)與 DeltaNet 完全同構(gòu),所有已有的 chunk-wise 并行技巧、硬件友好的實(shí)現(xiàn)路徑都可以直接復(fù)用。從工程視角看,它更像是把一個(gè)近似更新,替換成了一個(gè)物理上正確的更新核。

EFLA 并沒(méi)有試圖“發(fā)明一種更聰明的注意力”。它只是指出了一件被長(zhǎng)期忽略的事實(shí):線性注意力本來(lái)就是一個(gè)連續(xù)時(shí)間系統(tǒng),而之前一直在用最低階的方法去解它。在 rank-1 這個(gè)極其常見(jiàn)的結(jié)構(gòu)下,精確解并不昂貴。而一旦把系統(tǒng)解對(duì)了,很多穩(wěn)定性問(wèn)題會(huì)自然消失。

編輯:成蘊(yùn)年

----- END -----

wisemodel相關(guān):

系列模型:


關(guān)于wisemodel更多


1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
房?jī)r(jià)上漲的最強(qiáng)信號(hào)!

房?jī)r(jià)上漲的最強(qiáng)信號(hào)!

米宅
2026-03-24 07:26:02
國(guó)民黨大亂!馬英九緊急發(fā)聲,鄭麗文下場(chǎng)開罵:扯破臉、斗到底

國(guó)民黨大亂!馬英九緊急發(fā)聲,鄭麗文下場(chǎng)開罵:扯破臉、斗到底

小小科普員
2026-03-25 19:25:13
20年后再看《亮劍》:軍事上漏洞百出,政治上莫名其妙

20年后再看《亮劍》:軍事上漏洞百出,政治上莫名其妙

明月清風(fēng)閣
2026-03-25 14:50:09
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
中國(guó)移動(dòng)正式發(fā)布通知:全國(guó)將統(tǒng)一執(zhí)行,4月30日起

中國(guó)移動(dòng)正式發(fā)布通知:全國(guó)將統(tǒng)一執(zhí)行,4月30日起

林子說(shuō)事
2026-03-27 00:39:14
朗斯反對(duì)無(wú)效!法甲確認(rèn)爭(zhēng)冠戰(zhàn)延期為大巴黎歐冠讓路,2隊(duì)僅差1分

朗斯反對(duì)無(wú)效!法甲確認(rèn)爭(zhēng)冠戰(zhàn)延期為大巴黎歐冠讓路,2隊(duì)僅差1分

夏侯看英超
2026-03-27 01:37:53
中方堅(jiān)決扣留船只,美方及時(shí)干預(yù) 取消中企投標(biāo)資格,巴拿馬難挽

中方堅(jiān)決扣留船只,美方及時(shí)干預(yù) 取消中企投標(biāo)資格,巴拿馬難挽

南宗歷史
2026-03-25 16:04:15
銀行內(nèi)部提醒:今明兩年慎存定期,這3個(gè)原因很現(xiàn)實(shí)

銀行內(nèi)部提醒:今明兩年慎存定期,這3個(gè)原因很現(xiàn)實(shí)

小陸搞笑日常
2026-03-26 17:44:10
中央定調(diào)養(yǎng)老金調(diào)整方向!工齡增加設(shè)為一年3元,可行嗎?

中央定調(diào)養(yǎng)老金調(diào)整方向!工齡增加設(shè)為一年3元,可行嗎?

王五說(shuō)說(shuō)看
2026-03-24 07:06:10
FIFA系列賽新規(guī):比賽需決出勝負(fù) 打平將互射點(diǎn)球

FIFA系列賽新規(guī):比賽需決出勝負(fù) 打平將互射點(diǎn)球

體壇周報(bào)
2026-03-26 15:53:18
上映4天,僅3個(gè)觀眾,總票房104元,2026年最慘電影誕生

上映4天,僅3個(gè)觀眾,總票房104元,2026年最慘電影誕生

錯(cuò)過(guò)美好
2026-03-24 23:41:07
打壓其他球員!除非加入杜鋒經(jīng)紀(jì)公司,徐昕是最好的例子

打壓其他球員!除非加入杜鋒經(jīng)紀(jì)公司,徐昕是最好的例子

籃球大陸
2026-03-26 14:26:19
A股:兩個(gè)信息落地,明天,周五或會(huì)這樣走了!

A股:兩個(gè)信息落地,明天,周五或會(huì)這樣走了!

明心
2026-03-26 16:35:30
油價(jià)反轉(zhuǎn)!95號(hào)汽油破9元后迎下調(diào),4月7日調(diào)價(jià)最新預(yù)測(cè)

油價(jià)反轉(zhuǎn)!95號(hào)汽油破9元后迎下調(diào),4月7日調(diào)價(jià)最新預(yù)測(cè)

復(fù)轉(zhuǎn)這些年
2026-03-26 09:40:14
外媒:以軍對(duì)18個(gè)月大嬰兒施酷刑,逼其父招供

外媒:以軍對(duì)18個(gè)月大嬰兒施酷刑,逼其父招供

觀察者網(wǎng)
2026-03-24 13:44:04
“根本不敢上路”!深圳男子買全新百萬(wàn)豪車,修了15次還是壞的!很多車主受害

“根本不敢上路”!深圳男子買全新百萬(wàn)豪車,修了15次還是壞的!很多車主受害

南方都市報(bào)
2026-03-26 09:26:45
太可恨!飛機(jī)一落地上海,女孩立馬報(bào)案!更多年輕受害人浮出水面……

太可恨!飛機(jī)一落地上海,女孩立馬報(bào)案!更多年輕受害人浮出水面……

環(huán)球網(wǎng)資訊
2026-03-26 21:48:04
國(guó)足VS庫(kù)拉索:留洋小將坐鎮(zhèn)中場(chǎng),韋世豪王鈺棟領(lǐng)銜,張玉寧沖鋒

國(guó)足VS庫(kù)拉索:留洋小將坐鎮(zhèn)中場(chǎng),韋世豪王鈺棟領(lǐng)銜,張玉寧沖鋒

零度眼看球
2026-03-26 07:23:48
歐盟威脅越南:若中方參與了…

歐盟威脅越南:若中方參與了…

觀察者網(wǎng)
2026-03-25 15:19:16
初代丑男何潤(rùn)東的突然爆火,狠狠抽了內(nèi)娛一巴掌

初代丑男何潤(rùn)東的突然爆火,狠狠抽了內(nèi)娛一巴掌

娛樂(lè)圈筆娛君
2026-03-24 16:08:36
2026-03-27 01:55:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國(guó)版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

手機(jī)
藝術(shù)
時(shí)尚
數(shù)碼
軍事航空

手機(jī)要聞

1499 iQOO Z11系列發(fā)布丨9020mAh電池 165Hz高刷

藝術(shù)要聞

北京大興機(jī)場(chǎng)和青島膠東機(jī)場(chǎng)“撞臉”,長(zhǎng)得像就是抄襲?

400萬(wàn)人愛(ài)過(guò)的女孩,被黃謠網(wǎng)暴180天后

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動(dòng),支持B70 / B65顯卡

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版