国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

將注意力旋轉(zhuǎn) 90 度!今天,Kimi 的「注意力殘差」火了

0
分享至



編輯|冷貓

自從 2015 年 ResNet 誕生以來,這種「將輸入直接加到輸出上」的簡單邏輯,統(tǒng)治了幾乎所有神經(jīng)網(wǎng)絡(luò)架構(gòu)。

但就在剛剛,沿用了十年的殘差機制「升級」了。隨橙想呢,替代方法竟然是「注意力機制」



就連 OpenAI 「推理模型之父」,主導(dǎo)了 o1/o3 系列、Codex 編程模型及 GPT-4 的 STEM 能力開發(fā)的 Jerry Tworek 都深受這一論文啟發(fā),認為應(yīng)當重新思考之前的一切,「深度學(xué)習 2.0」的時代即將到來



這篇顛覆傳統(tǒng)殘差連接機制的工作來自Kimi 團隊,發(fā)布了一項重磅技術(shù)報告:Attention Residuals ,該方法旨在通過對前序?qū)舆M行學(xué)習到的、依賴輸入的注意力機制,來取代標準的深度遞歸。



  • 論文標題:Attention Residuals
  • 論文鏈接:https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf
  • 項目鏈接:https://github.com/MoonshotAI/Attention-Residuals

時間與深度的對偶

要理解Attention Residuals 是在做什么,我們得先看傳統(tǒng)的殘差連接 y = x + f (x) 出了什么問題。

在大模型向更深、更強演進的過程中,這種殘差的加法機制帶來了兩個副作用:

1.信息稀釋: 殘差連接采用固定單位權(quán)重的均勻聚合,導(dǎo)致淺層特征在向深層傳遞時,其相對貢獻度隨深度線性衰減。這種「信息稀釋」現(xiàn)象限制了深層網(wǎng)絡(luò)對底層原始表示的直接利用能力。隨著層數(shù)增加,第一層的信息傳到第一百層時,已經(jīng)被后面九十九層的信息層層沖淡。

2.隱藏狀態(tài)爆炸:為了在不斷累加的殘差流中維持信號強度,深層模塊往往需要輸出模長更大的激活值。這種隱狀態(tài)的無序擴張不僅破壞了數(shù)值穩(wěn)定性,還導(dǎo)致梯度分布不均,增加了超大規(guī)模模型訓(xùn)練收斂的難度,直接導(dǎo)致了訓(xùn)練的不穩(wěn)定性。

本文的天才之處在于,發(fā)現(xiàn)模型的「深度」其實就是另一種形式的「時間」



論文作者之一的 Yulun Du 老師道出了該論文的核心思想:將注意力旋轉(zhuǎn) 90°

Attention Residuals (AttnRes)由此誕生:為每一層配備了一個「智能篩選器」。每一層都會發(fā)出一個 Query,去之前的所有層里尋找最相關(guān)的特征,并按需分配權(quán)重進行聚合。



注意力殘差

理論重構(gòu):完整的注意力殘差

傳統(tǒng)的殘差連接(ResNet)本質(zhì)上是深度遞歸:它像 RNN 一樣,把過去所有層的信息死板地 「壓縮」進一個求和狀態(tài)中。



  • 核心創(chuàng)新: 既然 Transformer 用注意力機制取代了 RNN,解決了長序列的遺忘問題;那么 AttnRes 就在深度上取代了殘差累加。
  • 數(shù)學(xué)實現(xiàn): 每一層不再是簡單地加上前一層,而是發(fā)出一個可學(xué)習的 Query,去和之前所有層產(chǎn)生的 Key 做匹配。
  • Softmax 權(quán)重: 通過 Softmax 歸一化,模型可以 「挑選」 出對自己最有用的某幾層。比如第 50 層可以直接提取第 2 層的特征,權(quán)重占比可以高達 0.8,而不用擔心被中間的 48 層稀釋。

工程落地:Block AttnRes 的分塊策略



  • 效率奇跡: 實驗發(fā)現(xiàn),即便模型有上百層,只要劃分成 N≈8 個塊,就能獲得絕大部分性能增益。
  • 復(fù)雜度驟降: 內(nèi)存開銷從隨層數(shù) L 增長,降到了隨塊數(shù)增長。這意味著你可以用極小的代價(推理延遲增加 < 2%),獲得一個 「更聰明」 的深層網(wǎng)絡(luò)。



圖 1:Attention Residuals 概覽:(a) 標準殘差(Standard Residuals): 采用均勻加法累加的傳統(tǒng)殘差連接方式。(b) 全量注意力殘差(Full AttnRes): 每一層都通過學(xué)習到的注意力權(quán)重,有選擇地聚合之前所有層的輸出。(c) 塊注意力殘差(Block AttnRes): 將各層劃分為若干個「塊」,將內(nèi)存開銷從 O (Ld) 降低至 O (Nd)。

戰(zhàn)果:1.25 倍的「計算杠桿」

根據(jù)論文信息,實驗架構(gòu)與 Kimi Linear 完全一致,這是一種遵循 Moonlight / DeepSeek-V3 設(shè)計的混合專家模型(MoE)Transformer。唯一的修改是在殘差連接中加入了 AttnRes;模型深度、隱藏維度、專家路由和 MLP 結(jié)構(gòu)等其他組件均保持不變。

研究團隊測試了五種模型規(guī)模,并為每種規(guī)模訓(xùn)練了三個變體:PreNorm 基準模型、全量 AttnRes 以及約 8 個塊的 Block AttnRes。



下圖展示了擬合后的規(guī)?;€。



三個變體的斜率相似,但 AttnRes 在整個計算范圍內(nèi)一致實現(xiàn)了更低的損耗(Loss)?;跀M合曲線,在 5.6 PFLOP/s-days 的計算量下,Block AttnRes 的損耗為 1.692,而基準模型為 1.714,這相當于1.25 倍的計算優(yōu)勢(Compute Advantage)。隨著模型規(guī)模增大,F(xiàn)ull 與 Block 變體之間的差距在縮小。

研究團隊的最大模型基于 Kimi Linear 48B 配置:27 個 Transformer 塊(共 54 層),在 256 個路由專家中激活 8 個,外加 1 個共享專家,總參數(shù) 48B,激活參數(shù) 3B。該模型采用 Block AttnRes,每塊 6 層,共產(chǎn)生 9 個塊外加 1 個 Token 嵌入,形成 10 個深度方向的來源。



上圖展示了模型在 1T token 訓(xùn)練過程中的動態(tài)變化:

  • 驗證損耗: AttnRes 在整個訓(xùn)練過程中始終保持較低的驗證損耗,尤其在衰減(Decay)階段差距進一步拉大。
  • 輸出量級: 基準模型遭受PreNorm 稀釋問題:隨著隱狀態(tài)量級隨深度單調(diào)增長,深層網(wǎng)絡(luò)被迫從固定縮放的歸一化輸入中學(xué)習越來越大的輸出,以維持影響力。而 Block AttnRes 將這種增長限制在每個塊內(nèi),通過塊邊界的選擇性聚合重置了累加過程,呈現(xiàn)出有界的周期性模式。
  • 梯度量級: 在所有殘差權(quán)重固定為 1 的基準模型中,梯度流在深度上的分布極不均勻,導(dǎo)致早期層梯度過大。Block AttnRes 的可學(xué)習 Softmax 權(quán)重引入了來源之間的競爭,從而實現(xiàn)了顯著更均勻的梯度分布



下游性能表現(xiàn): 如上表所示,Block AttnRes 在所有評測任務(wù)中均達到或超過了基準模型。

  • 提升顯著的任務(wù): 在多步推理任務(wù)中提升尤為突出,如GPQA-Diamond (+7.5)Minerva Math (+3.6)以及代碼生成HumanEval (+3.1)
  • 知識類任務(wù)MMLU (+1.1)TriviaQA (+1.9)也展現(xiàn)了穩(wěn)健的提升。

數(shù)據(jù)給出了最有力的證明:

  • 計算效率: 達到同樣的性能,AttnRes 相比傳統(tǒng)殘差節(jié)省了約20% 的計算量(1.25x 優(yōu)勢)。
  • 邏輯推理: 在數(shù)學(xué)、代碼等硬核任務(wù)上提升顯著。例如,在極難的 GPQA-Diamond 測試中,性能提升了7.5 分
  • 穩(wěn)定性: 成功抑制了隱藏狀態(tài)的數(shù)值爆炸,讓深層網(wǎng)絡(luò)依然能保持「冷靜」和「高效」。

總結(jié):Rethink & Imagine

用更高維的視角看基礎(chǔ)架構(gòu)的研究,時間和空間都是相通的。

這篇論文「將注意力旋轉(zhuǎn) 90°」的思想,似乎帶給 Karpathy 一些啟示和思考。



ResNet 的殘差流是信息在不同空間深度上的傳遞。SGD (隨機梯度下降)的權(quán)重流是信息在不同時間維度上的傳遞。

研究團隊覺得 ResNet 的加法太樸素了,所以提議用 Attention 來篩選過去每一層的輸出。 既然 SGD 也是 ResNet,「Attention is All You Need」,那我們?yōu)槭裁床荒茉趦?yōu)化器里也加上 Attention?

架構(gòu)的生命力,往往來自于對慣性的反思。

當我們回過頭去審視那些基礎(chǔ)架構(gòu),或許就能在過去的故紙堆中,發(fā)現(xiàn)更多通往未來的巧妙結(jié)合。

更多信息,請參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
勝山西發(fā)布會!盧偉點贊傳導(dǎo)球,擺明球隊厚度,李弘權(quán)好謙遜!

勝山西發(fā)布會!盧偉點贊傳導(dǎo)球,擺明球隊厚度,李弘權(quán)好謙遜!

籃球資訊達人
2026-03-26 00:40:56
震驚!河北35歲女子征婚,不上班不做飯,要求每個月給一萬生活費

震驚!河北35歲女子征婚,不上班不做飯,要求每個月給一萬生活費

火山詩話
2026-03-23 07:28:09
山東省政協(xié)原常委、人口資源環(huán)境委員會原副主任李興軍被公訴

山東省政協(xié)原常委、人口資源環(huán)境委員會原副主任李興軍被公訴

新浪財經(jīng)
2026-03-25 16:25:15
悶聲發(fā)大財!這四大星座女2026年橫財不斷,存款暴增擋不住

悶聲發(fā)大財!這四大星座女2026年橫財不斷,存款暴增擋不住

別人都叫我阿螫
2026-03-26 04:12:17
算電協(xié)同加快推進 上市公司搶灘布局

算電協(xié)同加快推進 上市公司搶灘布局

中國經(jīng)濟網(wǎng)
2026-03-25 08:25:17
河南一地停放兩架廢棄飛機占用基本農(nóng)田?當?shù)鼗貞?yīng):已停放10余年,占用土地非基本農(nóng)田

河南一地停放兩架廢棄飛機占用基本農(nóng)田?當?shù)鼗貞?yīng):已停放10余年,占用土地非基本農(nóng)田

半島官網(wǎng)
2026-03-25 19:50:08
張雪峰離世1天后,才發(fā)現(xiàn)女兒名字取得暗藏深意,字字都有來頭

張雪峰離世1天后,才發(fā)現(xiàn)女兒名字取得暗藏深意,字字都有來頭

潮鹿逐夢
2026-03-25 12:06:23
后悔把公積金取光了!原來退休前不取,竟有這4個大好處

后悔把公積金取光了!原來退休前不取,竟有這4個大好處

蜉蝣說
2026-02-27 11:45:56
600358,申請“摘帽”!

600358,申請“摘帽”!

證券時報e公司
2026-03-25 22:59:14
“香港演員幾乎全軍覆沒!無戲可拍”引發(fā)網(wǎng)友熱議

“香港演員幾乎全軍覆沒!無戲可拍”引發(fā)網(wǎng)友熱議

阿廢冷眼觀察所
2026-03-17 17:42:50
蔡崇信-阿里為戰(zhàn)略誤判付出超千億代價,附最新訪談資料

蔡崇信-阿里為戰(zhàn)略誤判付出超千億代價,附最新訪談資料

零售商業(yè)財經(jīng)
2026-03-24 00:29:16
5換1?拿26年前五順位打包換文班?名嘴西蒙斯開出離譜報價!

5換1?拿26年前五順位打包換文班?名嘴西蒙斯開出離譜報價!

仰臥撐FTUer
2026-03-25 13:34:02
日媒:高市的謊言被拆穿,2.4萬日本民眾雨中示威“我不想死”

日媒:高市的謊言被拆穿,2.4萬日本民眾雨中示威“我不想死”

王稱吃吃喝喝
2026-03-26 01:43:01
霍爾木茲斷航!第一個亞洲國家已斷糧倒下,下一個受害者浮出水面

霍爾木茲斷航!第一個亞洲國家已斷糧倒下,下一個受害者浮出水面

小影的娛樂
2026-03-22 20:31:39
伊朗最高領(lǐng)袖失蹤37天,美方密會其“表妹夫”

伊朗最高領(lǐng)袖失蹤37天,美方密會其“表妹夫”

心靈短笛
2026-03-25 09:35:54
中國腦梗人數(shù)全球第一:肉吃得越少,血管就越通,真的嗎?

中國腦梗人數(shù)全球第一:肉吃得越少,血管就越通,真的嗎?

蜉蝣說
2026-03-24 10:00:57
錢多有什么用!張雪峰死后心愿曝光,給女兒買很多保險,一語成讖

錢多有什么用!張雪峰死后心愿曝光,給女兒買很多保險,一語成讖

不甜的李子
2026-03-25 07:42:44
愛奇藝、優(yōu)酷、騰訊發(fā)力“王炸劇” 輪番開播,哪部最有黑馬潛質(zhì)

愛奇藝、優(yōu)酷、騰訊發(fā)力“王炸劇” 輪番開播,哪部最有黑馬潛質(zhì)

追星頂流大姑娘
2026-03-24 00:55:31
善惡到頭終有報,如今73歲的唐國強,已經(jīng)走上了一條不歸路!

善惡到頭終有報,如今73歲的唐國強,已經(jīng)走上了一條不歸路!

吳蒂旅行ing
2026-03-20 05:20:46
1986年,葉劍英追悼會舉行,中央邀請其遺孀參加,聶榮臻:我不讓

1986年,葉劍英追悼會舉行,中央邀請其遺孀參加,聶榮臻:我不讓

簡史檔案館
2026-03-25 11:05:03
2026-03-26 05:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關(guān)停

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機 現(xiàn)場畫面披露

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機 現(xiàn)場畫面披露

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

教育
游戲
時尚
健康
數(shù)碼

教育要聞

雄安新區(qū):北京史家胡同小學(xué)分校,傳承“和諧教育”理念

PS6升級動力遭質(zhì)疑!玩家或當“PS5釘子戶”

女人過了40歲別胡亂穿衣,趕緊看看這些日系穿搭,舒適又耐看

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

英特爾發(fā)布基于第三代酷睿Ultra處理器vPro平臺

無障礙瀏覽 進入關(guān)懷版