国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

楊植麟帶隊發(fā)論文,Kimi下一代模型架構曝光,推理之父驚呼:深度學習2.0要來了!

0
分享至


智東西
作者|陳駿達
編輯|云鵬

“一切都需要被重新思考,深度學習2.0時代即將來臨?!?/strong>在讀完下方這篇來自月之暗面的最新論文后,前OpenAI大牛、“推理模型之父”Jerry Tworek發(fā)出感嘆。


智東西3月16日報道,今天,月之暗面發(fā)布論文,提前預覽了下一代模型的關鍵模塊——注意力殘差(Attention Residuals,簡稱AttnRes)。論文的核心亮點在于對大模型中最基礎、但長期被忽視的結構——殘差連接(Residual Connection)進行了重新設計。

在傳統(tǒng)Transformer架構中,每一層都會將前一層的輸出與當前層的計算結果直接相加,這種“等權累加”的方式雖然穩(wěn)定了深度網(wǎng)絡訓練,但隨著模型層數(shù)不斷增加,所有歷史層的表示被簡單疊加,容易導致信息被逐漸稀釋,深層網(wǎng)絡的表達能力受到限制。

AttnRes用注意力機制替代固定的殘差相加方式,讓每一層能夠從所有歷史層表示中動態(tài)選擇最有用的信息。每一層相當于一個查詢(Query),在之前層的表示中進行檢索并分配權重,使模型能更靈活地利用不同層級的特征。

在實現(xiàn)層面,論文還提出了塊級注意力殘差(Block AttnRes)來解決大模型訓練時的計算和通信開銷問題。

實驗中,月之暗面將AttnRes集成到Kimi Linear架構(總參數(shù)量48B/激活參數(shù)量3B)中,在1.4T token上進行預訓練。AttnRes緩解了預歸一化的稀釋問題,產(chǎn)生更均勻的跨深度輸出幅度和梯度分布,從而緩解深層模型訓練中的不穩(wěn)定問題。

在相同計算預算下,引入AttnRes的模型在多個基準測試中均取得穩(wěn)定提升,尤其是在數(shù)學推理、科學問答以及代碼生成等需要復雜推理能力的任務上。

此外,Block AttnRes的驗證損失為1.692,而基線為1.714,相當于約1.25倍的計算效率優(yōu)勢。


這篇論文在大模型圈引發(fā)廣泛討論,月之暗面官方在X平臺發(fā)布的帖子閱讀量已逼近60萬次。除了Jerry Tworek之外,OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy也評論道:“隨機梯度下降(常用的優(yōu)化算法之一)也是一種ResNet,殘差流就是權重……看來我們還沒把‘Attention is All You Need’ 這句話完全按字面意思理解透。


月之暗面的數(shù)十名研究員參與了這項研究,對項目貢獻最大的三位研究員包括Guangyu Chen、Yu Zhang(Kimi-Linear一作)、Jialin Su。月之暗面的三位聯(lián)合創(chuàng)始人楊植麟、吳育昕、周昕宇帶領團隊完成了這項研究。


一、標準殘差連接,面臨“等權累加”之困

由知名華人AI學者何愷明等人提出的標準殘差連接,最早在ResNet中系統(tǒng)化提出,并迅速成為現(xiàn)代深度神經(jīng)網(wǎng)絡的核心結構之一。

隨著深度學習的發(fā)展,這一設計不僅在計算機視覺中取得巨大成功,也逐漸成為大型語言模型和各類Transformer系統(tǒng)中的基礎構建模塊。

其核心思想非常直觀:讓網(wǎng)絡學習“殘差”(即輸入與輸出之間的差值),而不是直接擬合完整映射。標準殘差連接中,每一層的輸入等于所有之前層輸出的累積和。殘差連接實際上是一種跨深度的信息聚合機制,所有層的貢獻權重都是1,也就是均勻加權。

在現(xiàn)代大模型中,殘差結構通常還會與PreNorm(預歸一化)結合使用。具體做法是在每個子層計算之前先進行層歸一化,然后再進入注意力或前饋網(wǎng)絡模塊,最后再通過殘差連接將輸出加回原始表示。

這種結構在Transformer模型中被廣泛采用,因為它能夠進一步改善訓練穩(wěn)定性,使梯度在深層網(wǎng)絡中更容易傳播,并避免訓練后期出現(xiàn)數(shù)值不穩(wěn)定的問題。

標準殘差連接之所以能獲得廣泛采用,在于其解決了深層網(wǎng)絡訓練困難的問題,允許梯度繞過復雜變換,緩解了梯度消失的問題。同時,殘差使每層對表示的修改是漸進的,不會破壞已有表示。模型訓練更穩(wěn)定、更容易優(yōu)化。

然而,這一方式也存在一些局限性。標準殘差連接中所有層的權重一致,但現(xiàn)實情況是不同層信息的重要性不同。理想情況下應該采用可學習的權重。

此外,學習時,每層網(wǎng)絡只能看到壓縮后的狀態(tài),導致許多早期信息被混合壓縮,無法單獨訪問某一層輸出,導致信息不可逆的丟失。同時,后期層在模型的貢獻中變大,早期層被逐漸淹沒。

模型剪枝(prune)等方式對模型性能影響不大,這一現(xiàn)象也從側面證明,當前廣泛采用的殘差結構,使很多層貢獻很小。

正是在這樣的背景下,月之暗面的研究團隊提出了一種新的思路:用習得的softmax注意力機制來替代固定的殘差累積,也就是AttnRes。

二、用注意力替代固定權重,讓每一層學會“檢索”歷史

在AttnRes中,每一層在計算時不再僅僅依賴上一層的輸出,而是可以對之前多個層的表示進行一次注意力檢索。模型通過學習得到的一組權重,對不同層的輸出進行加權組合,從而生成當前層的輸入表示。

由于這些權重通過softmax歸一化,它們能夠反映不同層在當前上下文中的相對重要性,使信息聚合過程更加靈活和自適應。

這種機制帶來的一個直接好處是,模型能夠更有效地利用早期層的信息。由于每一層都可以直接訪問歷史層的表示,早期信息不再被完全壓縮到單一狀態(tài)中,而是可以在需要時被重新調(diào)用。

這種“跨層檢索”的能力,使得深層網(wǎng)絡在信息利用上更加接近于Transformer在時間維度上的注意力機制。

對于每個token,完整AttnRes需要O(L2d)的算術運算和O(Ld)的內(nèi)存來存儲層輸出。由于深度遠小于序列長度,算術成本適中。

當然,如果讓每一層都對所有歷史層進行注意力計算,也就是使用全注意力殘差,計算成本會迅速增加。為了解決這一問題,研究團隊進一步提出了Block AttnRes(塊注意力殘差)的結構設計。

該方法將網(wǎng)絡層劃分為若干塊,每個塊內(nèi)部保持常規(guī)計算方式,而跨塊之間則使用壓縮后的表示進行注意力交互。

通過這種方式,模型在保持靈活信息檢索能力的同時,也能有效控制計算復雜度,使這一機制在大規(guī)模模型中仍然具有可行性。


▲從左到右:傳統(tǒng)殘差、全注意力殘差、塊注意力殘差

三、基礎設施協(xié)同優(yōu)化,計算效率達1.25倍

不過,Block AttnRes也給基礎設施帶來新的挑戰(zhàn)。

在訓練階段,Block AttnRes帶來更多的流水線并行中通信開銷。標準殘差結構在流水線階段之間只需傳輸固定大小的隱藏狀態(tài),而Block AttnRes需要在每個階段訪問此前所有塊的表征。

如果采用樸素實現(xiàn),就必須在階段轉(zhuǎn)換時重復傳輸完整的歷史塊表示,通信量會隨著塊數(shù)量累積呈平方增長。為了解決這一問題,月之暗面引入跨階段緩存(cross-stage cache)機制,大幅減少冗余通信。

同時,每個塊只需在虛擬階段中存儲一次,結合激活檢查點機制后,每層激活內(nèi)存占用與標準Transformer基本一致,因此整體訓練的額外開銷很小,在實際系統(tǒng)中端到端訓練時間增加不到4%。

在推理階段,Block AttnRes的主要挑戰(zhàn)來自跨層塊表征的重復訪問和長上下文緩存帶來的內(nèi)存壓力。為此他們采用了兩階段計算策略,首先在階段一中對緩存的塊表征執(zhí)行一次批量查詢,為同一塊內(nèi)的所有層同時計算塊間注意力,從而將原本每層都需要訪問歷史塊的操作合并為一次矩陣計算,顯著降低內(nèi)存讀取次數(shù)。

隨后在階段二中按順序計算塊內(nèi)各層的注意力,并通過在線softmax將結果與階段一的輸出合并,這一階段可以與周圍算子進行內(nèi)核融合,從而進一步減少I/O開銷。

此外,為緩解長上下文預填充時塊表征緩存過大的問題,系統(tǒng)將這些表征沿序列維度在張量并行設備之間進行分片,使每個設備只存儲部分序列。通過兩階段計算和序列分片的結合,BlockAttnRes在推理時僅帶來不到2%的延遲開銷,同時顯著降低了長上下文場景下的顯存需求。

在實驗方面,研究團隊將這一結構集成到Kimi Linear架構中進行驗證。

實驗表明,在相同參數(shù)規(guī)模下,引入Block AttnRes后,模型在多個基準測試中都取得了性能提升。其中提升最多的是多步推理基準測試GPQA-Diamond,采用AttnRes的模型得分提升幅度超過了20%。


與此同時,該方法還表現(xiàn)出良好的計算效率,Block AttnRes在損失函數(shù)上與使用1.25倍計算量訓練的基線模型相當。

結語:將注意力引入“網(wǎng)絡深度維度”,有望成為下一代模型關鍵架構

通過將注意力機制引入深度維度,Attention Residuals為深層網(wǎng)絡提供了一種更加靈活的信息聚合方式,使模型能夠動態(tài)選擇歷史表示,而不是被動接受均勻累積的結果。這一思路有望進一步提升深層模型的信息利用效率。

從架構演進的角度來看,這項工作也提出了一個值得關注的思路:在過去,注意力機制主要用于解決序列維度上的信息交互問題,而AttnRes則將注意力引入到了“網(wǎng)絡深度維度”,讓模型能夠在不同層之間建立更加靈活的信息通路,可能為下一代大模型架構演進提供新的方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報
2025-12-14 22:36:54
如果美國解體,猶太財閥的巨資何處安放下一個宿主,答案超乎想象

如果美國解體,猶太財閥的巨資何處安放下一個宿主,答案超乎想象

芳芳歷史燴
2026-03-25 22:24:25
國產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應:生產(chǎn)失誤、全額退款

國產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應:生產(chǎn)失誤、全額退款

快科技
2026-03-25 10:14:04
現(xiàn)實中的大齡剩女最后妥協(xié)了嗎?網(wǎng)友爆笑評論,真是一言難盡。

現(xiàn)實中的大齡剩女最后妥協(xié)了嗎?網(wǎng)友爆笑評論,真是一言難盡。

侃神評故事
2026-03-25 11:30:09
悲催!遼寧一200多斤男子飲酒時突發(fā)腦出血,8個月身孕妻子崩潰了

悲催!遼寧一200多斤男子飲酒時突發(fā)腦出血,8個月身孕妻子崩潰了

火山詩話
2026-03-26 13:34:59
老人離世房產(chǎn)未過戶,2026年法律新規(guī):繼承權真的會作廢嗎?

老人離世房產(chǎn)未過戶,2026年法律新規(guī):繼承權真的會作廢嗎?

復轉(zhuǎn)這些年
2026-03-22 17:48:38
闞清子產(chǎn)后現(xiàn)身機場!手上鴿子蛋大鉆戒搶鏡,富豪老公拎包似保姆

闞清子產(chǎn)后現(xiàn)身機場!手上鴿子蛋大鉆戒搶鏡,富豪老公拎包似保姆

老好人的憤怒
2026-03-26 18:02:04
油價反轉(zhuǎn)!95號汽油破9元后迎下調(diào),4月7日調(diào)價最新預測

油價反轉(zhuǎn)!95號汽油破9元后迎下調(diào),4月7日調(diào)價最新預測

復轉(zhuǎn)這些年
2026-03-26 09:40:14
游戲結束,國債突破39萬億,美聯(lián)儲通知全世界,中方分批運回金條

游戲結束,國債突破39萬億,美聯(lián)儲通知全世界,中方分批運回金條

涵豆說娛
2026-03-26 11:46:21
女孩“全損課本”火了,自認為是清北的料子,老師:自我感動罷了

女孩“全損課本”火了,自認為是清北的料子,老師:自我感動罷了

復轉(zhuǎn)這些年
2026-03-23 20:48:15
為什么女教師成了單身女的最重災區(qū)?

為什么女教師成了單身女的最重災區(qū)?

深度報
2026-03-24 22:03:07
國產(chǎn)螺絲刀在海外躥紅,在TikTok狂賣2800萬

國產(chǎn)螺絲刀在海外躥紅,在TikTok狂賣2800萬

跨境派Pro
2026-03-23 14:16:59
高三男孩喀納斯湖失蹤,母親守岸7天后直言放棄,意外竟在此時發(fā)生

高三男孩喀納斯湖失蹤,母親守岸7天后直言放棄,意外竟在此時發(fā)生

古怪奇談錄
2025-10-16 10:53:42
向鵬林詩棟退出世界杯

向鵬林詩棟退出世界杯

乒乓11分
2026-03-26 09:48:25
社?;鸪止墒兄稻忧暗闹貍}股一覽

社?;鸪止墒兄稻忧暗闹貍}股一覽

證券時報
2026-03-26 07:34:15
改期!除了阿森納曼城,包括英超四大豪門,7場比賽時間可能變化

改期!除了阿森納曼城,包括英超四大豪門,7場比賽時間可能變化

嗨皮看球
2026-03-26 18:36:10
美方提“15點計劃”,伊朗稱“又一個謊言”,美國“一邊準備談判一邊握拳”

美方提“15點計劃”,伊朗稱“又一個謊言”,美國“一邊準備談判一邊握拳”

環(huán)球網(wǎng)資訊
2026-03-26 06:58:33
山東女子造出“天眼導彈”,突破中國導彈50年難關,坐擁26項專利

山東女子造出“天眼導彈”,突破中國導彈50年難關,坐擁26項專利

策略述
2026-03-26 13:44:30
眉毛冒出一根很長的毛?不要大意!俗話說“眉生長毛,必有一遭”

眉毛冒出一根很長的毛?不要大意!俗話說“眉生長毛,必有一遭”

一根香煙的少婦
2026-03-17 17:54:13
A股:今天收3889.08,尾盤已明確,做好準備,明天周五,要變盤了

A股:今天收3889.08,尾盤已明確,做好準備,明天周五,要變盤了

虎哥閑聊
2026-03-26 15:09:13
2026-03-26 19:36:49
智東西 incentive-icons
智東西
聚焦智能變革,服務產(chǎn)業(yè)升級。
11436文章數(shù) 117015關注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權,700名員工卻下崗

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
時尚
旅游
房產(chǎn)
家居

教育要聞

2026人工智能時代下的教育課堂變革

皮衣+裙,高級到炸

旅游要聞

魯冰花開啦!快來新鄉(xiāng)南太行八里溝 赴一場春日之約

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補償方案出爐!

家居要聞

傍海而居 靜觀蝴蝶海

無障礙瀏覽 進入關懷版