国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

深度|馬斯克點贊、Karpathy銳評、推理之父驚呼,Kimi 新架構直接炸出半個硅谷AI 圈

0
分享至


圖片來源:AI生成

很少有一篇純底層的技術報告,能在發(fā)布瞬間直接“炸出”硅谷半個 AI 圈。

昨晚,Kimi 團隊發(fā)布了重磅技術報告《Attention Residuals》。這項研究試圖用一種動態(tài)的、依賴輸入的注意力機制,徹底取代大模型中沿用了十年的標準殘差遞歸。

簡單來說,它讓模型不再只是機械地堆疊層數,而是學會了在深度維度上進行“內容感知”的選擇。這一大膽的挑戰(zhàn)讓一眾硅谷頂流大佬紛紛開啟點贊模式。

OpenAI 聯合創(chuàng)始人 Andrej Karpathy 這么評價:“看來我們還沒把‘Attention is All You Need’這句話按字面意思理解透?!?/p>


一向不會輕易對具體技術論文做這種公開表態(tài)的馬斯克,也在評論區(qū)留下一句:“Impressive work from Kimi.”


甚至有AI從業(yè)者公開評價,上一次中國實驗室發(fā)布這樣的成果,是DeepSeek讓英偉達一天蒸發(fā)6000億美金。


論文鏈接:https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

這項研究集結了月之暗面數十名研究員的智慧。對項目貢獻最突出的三位研究員分別是陳光宇、Yu Zhang(Kimi-Linear 一作)以及 Jianlin Su。

更有意思的是,論文的一作陳光宇是一名年僅 18 歲、加入團隊僅 5 個月的準高三學生。


深度的陷阱

在深度學習的世界里,殘差連接自 2015 年誕生以來,一直被視為神經網絡邁向深層的默認配置。它像一條梯度高速公路,讓梯度能夠繞過復雜的變換直接傳導,從而解決了深層網絡難以訓練的難題 。

但在大語言模型步入數百層的今天,這種被奉為圭臬的標準結構正悄然陷入一種“深度的陷阱” 。

目前的殘差結構本質上是固定權重的線性累加,這意味著每一層輸出都以完全相同的分量強行擠進主干路徑 。這種“一視同仁”的堆疊方式,缺乏一種靈活的選擇機制。它無法根據當前的輸入內容決定哪些層的信息更關鍵,就像在讀一本厚書時每一頁的權重都完全一樣,讀到最后你可能已經忘了開頭最重要的伏筆 。

Kimi 團隊指出,這種信息流動的僵化不僅限制了模型的有效深度,還導致了一個嚴重的問題:信息稀釋 。

在現代 LLM 普遍采用的 PreNorm 范式下,殘差連接導致隱藏狀態(tài)的范數會隨著深度呈線性增長 。想象一下,當你把上百層網絡的輸出簡單地疊加在一起,主干路徑會變得越來越“臃腫”,每一層對最終結果的影響力被逐層攤薄 。早期層辛苦提取的基礎特征被掩沒在后續(xù)層的海量輸出中,甚至導致深度增加后的收益遞減 。

這種不受控的增長還強迫深層網絡必須學習產生越來越大的輸出,才能在已經巨大的殘差流中獲得一點點“發(fā)言權”,這不僅增加了訓練的不穩(wěn)定性,也造成了參數的極大浪費 。實證研究發(fā)現,在這種結構下,模型中相當比例的層甚至可以被直接修剪掉而不影響性能,這說明目前的殘差機制并沒有讓每一層都發(fā)揮出應有的潛力 。


圖 b 中,藍色曲線代表的基準模型顯示,隨著 Transformer 塊索引的增加,輸出范數幾乎呈現指數級的飛躍增長 。這意味著越往后的層,由于之前的累加量已經巨大,為了能夠產生影響,它被迫輸出極其巨大的數值 。 圖 c 揭示了固定權重累加帶來的另一個弊端 - 梯度分布極度不均 。在基準模型中,梯度主要集中在最開始的幾層,深層的梯度非常微弱且分布不穩(wěn) 。這種失衡意味著靠近輸入的層在被過度訓練,而深層則在“劃水” 。

由于殘差連接將所有先前的層信息壓縮進一個單一的狀態(tài),模型無法實現對早期信息的選擇性檢索 。這種不可逆的信息流失,使得模型在處理需要長程依賴或多步推理的復雜任務時,往往力不從心 。

Kimi 團隊的這一洞察,不僅是對現狀的批判,更是為后續(xù) AttnRes 的登場鋪平了道路。我們需要的不是更厚的堆疊,而是更聰明的選擇 。

AttnRes 的降維打擊

為了打破這種僵局,Kimi 團隊提出了 Attention Residuals(簡稱 AttnRes)。

這場變革的靈感源于序列建模與網絡深度之間的形式對偶性。既然 Transformer 能夠通過注意力機制取代循環(huán)神經網絡(RNN)在序列維度上的僵化遞歸,那么在深度維度上,我們也理應可以用注意力來取代固定的殘差累加。

AttnRes 的核心邏輯在于將每一層原本被動的線性接收轉變?yōu)橹鲃拥膬热莞兄獧z索,通過將深度軸轉化為一個可供檢索的特征空間,讓模型能夠像查閱字典一樣,根據當前的輸入內容精確調取之前的關鍵表征 。


在具體實現上,Kimi 團隊引入了一個極其輕量的“導航大腦”——層專屬偽查詢向量 。每一層不再是盲目接收前序總和,而是帶著這個學習到的向量去掃描之前所有層的輸出 。通過計算相似度,模型會生成一套 Softmax 注意力權重 。為了防止某些幅度異常的層主導整個注意力分布,架構中還加入了 RMSNorm 歸一化 。

為了將概念推向工業(yè)級應用,團隊研發(fā)了分塊注意力殘差(Block AttnRes) 。全量注意力雖好,但其平方級的開銷在大規(guī)模訓練中極其昂貴 。通過將數百層網絡劃分為若干個塊,模型在塊內維持低成本的基礎累加,僅在塊間進行精細的注意力聚合 。這一改進直接將顯存復雜度降至塊數量級別 。實測發(fā)現,僅需約 8 個塊就能找回全量版絕大部分的性能增益,實現了性能與效率的完美平衡 。

在工程落地層面,這套架構配合了精妙的兩階段計算策略 。由于查詢向量是層特定的且獨立于實時輸入,模型可以在進入每個塊時,批量計算出該塊內所有層對歷史塊的關注權重 。這種設計將零散的讀取整合為高效的批處理,極大地攤薄了內存訪問成本 。最終,這種從底層互聯方式上的徹底重構,讓端到端的推理延遲開銷控制在2% 以內,幾乎做到了“性能暴增,成本微增” 。


圖中的 block_attn_res 函數展示了如何利用一個學習到的權重矩陣并行地處理歷史表征,而 forward 部分則展示了模型如何維護一個“塊歷史記錄”,在保證邏輯嚴密的同時,將顯存占用維持在極低水平 。
Kimi 的實戰(zhàn)成果

任何理論的優(yōu)雅最終都要在算力的火海中接受毒打。Kimi 團隊在包含 480 億參數(30 億激活參數)的 Kimi Linear 架構上,利用 1.4 萬億 Token 的實測結果證明,AttnRes 絕非實驗室里的花拳繡腿 。

最令技術圈振奮的是它對Scaling Law的重塑 。實驗數據顯示,在同等損失水平下,AttnRes 展示出了極高的“算力杠桿”:它僅需基準模型約 80% 的算力即可達到同樣的效果 ,意味著它自帶 1.25 倍的算力優(yōu)勢。這一提升在不同的模型規(guī)模下均保持一致,打破了傳統架構在極深尺度下的效率天花板 。


這種“深度進化”最終轉化為了一份驚艷的下游任務成績單。在衡量知識深度的GPQA-Diamond任務上,新架構直接拉升了7.5 分;而在數學競賽級的Minerva Math和代碼生成的HumanEval任務中,也分別實現了3.6 分3.1 分的顯著飛躍。即便是通用理解領域的 MMLU (+1.1) 或中文能力測試 C-Eval (+2.9),也展現出全面打平或超越基準模型的統治力 。


除了分數,AttnRes 還從底層治愈了模型的“健康”問題 。它通過限制每一層的輸出幅度增長,并讓梯度分布更加均勻,確保了從第一層到最后一層都在同步進化,而不是在深度的稀釋中“劃水” 。


深色的對角線代表模型依然尊重層級的局部流動,而散落在背景中的亮點,則證明模型學會了跨越數十層去“翻閱”之前的知識 。特別是第一層嵌入信息在后續(xù)每一層中都有留存,證明了 AttnRes 能夠讓最初的靈感穿透重重阻礙,直達決策層 。
深度學習 2.0 的序幕

AttnRes 的出現,或許標志著大模型架構演進正在經歷一次“回溯式”的爆發(fā)。隨著計算硬件對內存帶寬瓶頸的進一步突破,這種深度維度的“全量檢索”將徹底重構我們對 Scaling Law 的傳統認知。

自 2015 年 ResNet 問世以來,殘差連接就被當作神經網絡的“默認配置”,整整十年幾乎無人質疑。而 Kimi 團隊卻選擇回到地基,去撬動那個十年未變的底層范式。

這是一個明確的行業(yè)信號:大模型的架構競爭已經從表層的模塊優(yōu)化,正式深入到了最底層的“毛細血管”。這種底層范式的松動,其意義遠比單純的跑分提升更為深遠。

正如前 OpenAI 核心研究員、被譽為“推理模型之父”的 Jerry Tworek 在看到這項研究后所給出的評價:“一切都需要被重新思考,深度學習 2.0 要來了。

當殘差連接不再是死板的加法,大模型的靈魂才真正從深度的束縛中解脫出來。在這場通往 AGI 的長跑中,單純地堆疊規(guī)模已成過去式,如何更聰明地“調度深度”,或許才是決定誰能率先觸達終點的勝負手。

加入ZF討論群,請先添加小助手微信

我們相信認知能夠跨越階層,

致力于為年輕人提供高質量的科技和財經內容。

稿件經采用可獲邀進入Z Finance內部社群,優(yōu)秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創(chuàng)成員。

我們正在招募新一期的實習生

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
5小時扣押!普京硬剛以色列,劃紅線力挺伊朗,美以收到危險信號

5小時扣押!普京硬剛以色列,劃紅線力挺伊朗,美以收到危險信號

涼羽亭
2026-04-29 18:05:08
去銀行注銷銀行卡,柜員問銷卡還是銷戶?一字之差后果完全不一樣

去銀行注銷銀行卡,柜員問銷卡還是銷戶?一字之差后果完全不一樣

復轉這些年
2026-04-16 12:15:01
隨著廣東男籃不敵廣州,杜峰和教練組,有可能做出以下3大改變

隨著廣東男籃不敵廣州,杜峰和教練組,有可能做出以下3大改變

阿晞體育
2026-04-29 12:32:42
最后的瘋狂:許家印被抓捕的失控三秒鐘

最后的瘋狂:許家印被抓捕的失控三秒鐘

財經保探長
2026-04-09 22:30:38
八大軍區(qū)司令員對調,中央開會氣氛很緊張,毛主席:先開個玩笑吧

八大軍區(qū)司令員對調,中央開會氣氛很緊張,毛主席:先開個玩笑吧

春秋硯
2026-04-29 06:45:13
除了登貝萊還有他!10球5助攻巴黎25歲邊鋒攔不住,他已是頂級

除了登貝萊還有他!10球5助攻巴黎25歲邊鋒攔不住,他已是頂級

里芃芃體育
2026-04-29 15:00:06
許家印拿錢開路:5千萬簽女明星 送幾十瓶茅臺 沒他搞不定的人?

許家印拿錢開路:5千萬簽女明星 送幾十瓶茅臺 沒他搞不定的人?

念洲
2026-04-29 14:46:42
水聲工程專家田坦逝世,曾參與“東風五號”落點定位系統研制

水聲工程專家田坦逝世,曾參與“東風五號”落點定位系統研制

澎湃新聞
2026-04-29 11:00:27
蔣萬安發(fā)出強硬警告,"中國臺灣?。⒆呦驀H,10國選擇明智應對

蔣萬安發(fā)出強硬警告,"中國臺灣?。⒆呦驀H,10國選擇明智應對

混沌錄
2026-04-29 20:17:16
阿聯酋為什么退出歐佩克及“歐佩克+”?

阿聯酋為什么退出歐佩克及“歐佩克+”?

新京報
2026-04-29 08:16:37
今日最慘股,從38跌到了2.7,觸底反彈一天后,現又2個20cm跌停!

今日最慘股,從38跌到了2.7,觸底反彈一天后,現又2個20cm跌停!

丁丁鯉史紀
2026-04-29 10:43:52
上海兩女子地鐵打架續(xù):真相曝光 老人先挑事動手 女子工作恐不保

上海兩女子地鐵打架續(xù):真相曝光 老人先挑事動手 女子工作恐不保

小鋭有話說
2026-04-29 08:41:27
2026年4月北京各區(qū)老破小房價最新出爐!

2026年4月北京各區(qū)老破小房價最新出爐!

說故事的阿襲
2026-04-29 18:34:02
“二女兒長大得多恨你們!”家長否認重男輕女,名字卻暴露了私心

“二女兒長大得多恨你們!”家長否認重男輕女,名字卻暴露了私心

妍妍教育日記
2026-04-28 16:14:08
奧尼爾談文班亞馬:兩年后他會和約基奇并肩成為聯盟最佳內線

奧尼爾談文班亞馬:兩年后他會和約基奇并肩成為聯盟最佳內線

懂球帝
2026-04-29 10:32:07
醪糟再次被關注!醫(yī)生發(fā)現:高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關注!醫(yī)生發(fā)現:高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
澤連斯基指責以色列接收烏克蘭被盜糧食,以色列暗示烏克蘭說謝謝

澤連斯基指責以色列接收烏克蘭被盜糧食,以色列暗示烏克蘭說謝謝

山河路口
2026-04-28 23:32:52
鳳崗鎮(zhèn)黨委原書記黃樂瑜被查,曾在東莞多地任職

鳳崗鎮(zhèn)黨委原書記黃樂瑜被查,曾在東莞多地任職

南方都市報
2026-04-29 12:41:07
香港頂級富二代共進早餐,何超瓊李澤楷坐中間,霍啟剛鄭志雯也在

香港頂級富二代共進早餐,何超瓊李澤楷坐中間,霍啟剛鄭志雯也在

漫婷侃娛樂
2026-03-29 19:37:50
美股盤前要聞一覽:美聯儲利率決議在即;馬斯克天價薪酬方案曝光;全球央行一季度增儲黃金244噸

美股盤前要聞一覽:美聯儲利率決議在即;馬斯克天價薪酬方案曝光;全球央行一季度增儲黃金244噸

財聯社
2026-04-29 20:50:04
2026-04-29 21:27:00
ZFinance
ZFinance
Z世代的一站式AI、科技和財經資訊
174文章數 15關注度
往期回顧 全部

科技要聞

今晨庭審紀實|馬斯克當庭講述OpenAI被偷走

頭條要聞

男子詐騙熟人350萬 朋友圈發(fā)文"我跑路了 你們報案吧"

頭條要聞

男子詐騙熟人350萬 朋友圈發(fā)文"我跑路了 你們報案吧"

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節(jié)目組2小時

財經要聞

蘇州,率先進入牛市

汽車要聞

技術天花板再摸高 全能型的奕境X9首秀

態(tài)度原創(chuàng)

房產
藝術
本地
教育
軍事航空

房產要聞

80億投資!浙商總部基地+??诒闭?,金沙灣這是要起飛??!

藝術要聞

這些女神,竟然都是攝影師切爾尼亞季耶夫的復古作品!

本地新聞

用青花瓷的方式,打開西溪濕地

教育要聞

有趣的循環(huán)問題,你會嗎?

軍事要聞

美國參議院否決限制特朗普對古巴動武的決議

無障礙瀏覽 進入關懷版