国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

哈工深張正團隊提出模長感知線性注意力!顯存直降92.3%!

0
分享至



本文一作孟維康是哈爾濱工業(yè)大學(深圳)與鵬城實驗室聯(lián)合培養(yǎng)的博士生,本科畢業(yè)于哈爾濱工業(yè)大學,主要研究方向是高效能基礎模型。通訊作者張正教授,哈爾濱工業(yè)大學(深圳)的長聘教授及博士生導師,教育部青年長江學者,廣東特支計劃青年珠江學者,深圳市優(yōu)青。長期從事高效能多模態(tài)機器學習的研究,專注于高效與可信多模態(tài)大模型。

當 Transformer 席卷計算機視覺領域,高分辨率圖像、超長序列任務帶來的算力與顯存瓶頸愈發(fā)凸顯:標準 Softmax 注意力的二次復雜度,讓 70K+token 的超分辨率任務直接顯存爆炸,高分辨率圖像分割、檢測的推理延遲居高不下。

線性注意力雖通過核函數重構實現了線性復雜度,完美解決了算力開銷問題,卻始終無法擺脫性能退化的問題,與原生 Softmax 注意力的精度差距始終難以彌合。

近日,哈工深張正團隊、聯(lián)合鵬城實驗室、昆士蘭大學等團隊,發(fā)布重磅論文《Norm×Direction: Restoring the Missing Query Norm in Vision Linear Attention》,提出 NaLaFormer(Norm-aware Linear Attention Transformer) 框架,首次通過模長 - 方向分解,精準定位并解決了線性注意力的兩大核心缺陷,在保持線性復雜度的同時,實現了視覺任務的精度全面超越,更在 70K+token 超分任務中實現 92.3% 的峰值顯存降低,為線性注意力在視覺領域的落地開辟了全新范式!



  • 論文標題:Norm×Direction: Restoring the Missing Query Norm in Vision Linear Attention
  • 論文鏈接:https://arxiv.org/pdf/2506.21137
  • 核心作者:Weikang Meng、Yadan Luo、Liangyu Huo、Yingjian Li、Yaowei Wang、Xin Li、Zheng Zhang

痛點直擊:

線性注意力性能崩塌的兩大致命傷

線性注意力的核心目標,是通過線性可分核函數替代 Softmax 中的指數算子,利用矩陣結合律將計算復雜度從 O (N2) 降至 O (N)。但在 NaLaFormer 的研究中,首次系統(tǒng)性揭示了現有方案始終無法逼近 Softmax 性能的兩大根源:

1、Query Norm 被抵消,注意力尖峰性徹底丟失

團隊通過數學推導與實驗驗證發(fā)現:在 Softmax 注意力中,Query 向量的模長(Norm)與注意力分布的熵呈強負相關 ——Query 模長越大,注意力分布越尖銳(熵越低),模型越能精準聚焦于語義關鍵的 token,這是 Softmax 注意力具備強表征能力的核心原因。但在傳統(tǒng)線性注意力中,歸一化操作會直接抵消 Query Norm 的影響,讓線性注意力徹底失去了對注意力分布尖峰性的動態(tài)調控能力,最終輸出過于平滑的注意力分布,無法聚焦關鍵信息,表征能力大幅退化。



圖 1 Softmax 注意力中熵與模長的相關性:Query 模長(x 軸)與注意力熵(y 軸)呈強負相關,Key 模長則無穩(wěn)定影響

2、非負性約束導致不可逆的信息損失

線性注意力的核函數必須滿足非負性,才能將注意力得分解釋為歸一化的概率分布。現有方案普遍通過 ReLU、1+ELU 等激活函數直接抹除向量中的負值,卻直接導致了 q-k 內積中有效交互信息的丟失 —— 原本具有區(qū)分度的負向語義關聯(lián)被直接清零,最終讓相似度表征變得稀疏且缺乏細粒度信息。



圖 2 不同非負策略的內積貢獻對比:ReLU、1+ELU 均丟失了原始內積的尖峰性與細粒度信息,而本文提出的余弦方向方法完美保留了原始分布特征

核心創(chuàng)新:

Norm×Direction 分解,補全線性注意力機制短板

針對上述兩大核心痛點,NaLaFormer 團隊提出了基于 Norm×Direction(ND)向量分解的解決方案,將向量的模長(Norm,表征信息重要性)與方向(Direction,編碼語義信息)解耦,分別針對性解決兩大缺陷,最終實現了對 Softmax 注意力核心特性的完美復刻,同時完整保留線性復雜度。

1、Query-Norm-Aware Feature Map:重建丟失的模長 - 信息熵關聯(lián)

團隊首先通過 ND 分解,對線性注意力的計算過程進行了數學重構,精準定位了 Query Norm 被抵消的核心環(huán)節(jié),清晰揭示了傳統(tǒng)線性注意力的輸出僅受 Key Norm 影響,Query Norm 在歸一化中被完全抵消,導致模型對 Query Norm 的無感。



對此,團隊設計了 Query-Norm-Aware 特征映射,將 Query Norm 顯式編碼進核函數中,通過 Norm 依賴的銳化函數動態(tài)調控注意力熵:



其中銳化函數 f (x)=λ?(τ+tanh (x)),可根據 Query Norm 動態(tài)調整冪次,完美復刻了 Softmax 注意力中 “Query 模長越大,注意力分布越尖銳” 的核心特性,重建了 Query Norm 與注意力熵的負相關關系。

2、余弦方向相似度:無損實現非負性,零信息丟失

針對傳統(tǒng)非負約束的信息丟失問題,團隊基于托勒密理論,提出了全新的余弦方向相似度機制,對方向分量進行幾何變換,在保證非負性的同時,完整保留內積的細粒度信息。

團隊為每個標量方向分量設計了二維向量映射:



經過變換后,Query 與 Key 的內積可轉化為:



通過 tanh 映射將方向分量縮放至 [?π/4, π/4],即可保證余弦項始終非負,同時完整保留了原始內積的方向交互信息,徹底避免了傳統(tǒng)激活函數帶來的信息損失。

3. NaLaFormer:統(tǒng)一的 Norm 感知線性注意力架構

基于上述兩大核心創(chuàng)新,團隊構建了端到端的 NaLaFormer 架構,將模長感知線性注意力模塊與門控架構深度融合,實現了對視覺 Transformer 的直接替換。



圖 3 NaLaFormer 整體架構與核心機制:(a) NaLaFormer 基礎模塊;(b) Norm 感知方法恢復了 Query Norm - 熵負相關;(c) 余弦方向機制實現無損非負性約束

最終的注意力輸出公式為:





實驗結果

? 圖像分類任務 ImageNet1K:

在 ImageNet-1K 圖像分類基準上,NaLaFormer 實現了對現有線性注意力模型的全面超越。輕量級 NaLaFormer-XT 僅 8M 參數量就拿下 79.1% Top-1 精度,同量級下較基線最高提升 7.5%;大規(guī)模 NaLaFormer-L 以 95M 參數量實現 85.7% Top-1 精度,刷新了高效視覺模型在該基準上的新紀錄。



? 密集預測:檢測、分割全面領跑同量級模型

在 COCO 目標檢測、ADE20K/CityScapes 語義分割等密集預測任務中,NaLaFormer 展現出極強的細粒度表征能力。COCO 數據集上,NaLaFormer-T 基于 Mask R-CNN 框架實現 47.6% APb、43.0% 分割 APm,全面超越同量級經典視覺 Transformer 骨干;ADE20K 語義分割任務中,較同量級基線最高提升 4.7% mIoU,CityScapes 城市場景分割也以 82.5% mIoU 領跑同規(guī)模模型。



? 超分辨率:70K+token 峰值顯存直降 92.3%

在 70K+token 的高分辨率超分任務中,NaLaFormer 的線性復雜度優(yōu)勢被徹底釋放。在保持重建精度與主流方案持平的同時,Urban100 4× 超分任務中實現 36.4% 的推理延遲降低,峰值顯存從 69G 降至 5.3G,降幅高達 92.3%,徹底解決了高分辨率視覺任務的顯存爆炸痛點。





? 長序列與跨模態(tài)能力:LRA 新 SOTA,語言建模超越 Mamba。

團隊進一步驗證了 NaLaFormer 的跨模態(tài)泛化性與長序列建模能力:在長序列建?;鶞?Long Range Arena(LRA)上,NaLaFormer 實現 61.2% 的平均精度,刷新了線性注意力模型的 SOTA 紀錄,同時保持 827.7 的高吞吐量與極低的顯存占用;從零訓練 340M 參數量的語言模型,在常識推理任務中,NaLaFormer 平均得分超越 Mamba、RetNet、GLA 等強基線,證明了其在語言模態(tài)的超強適配性。



? 擴散生成:DiT/SiT 性能穩(wěn)步提升

團隊進一步在擴散 Transformer(DiT)框架中驗證了 NaLaFormer 的生成建模能力。在 ImageNet-1K 256×256 生成任務中,將原始注意力模塊替換為 NaLaFormer 后:

  • NaLaDiT 相比原版 DiT,FID 從 68.40 降至 61.64,IS 提升至 23.24,生成質量穩(wěn)步提升;
  • NaLaSiT 在 SiT 變體中的表現,FID 低至 53.08,sFID 8.94,IS 27.63,實現基于 SiT 架構的高效能生成。





NaLaDiT 生成圖片可視化

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
張凌赫新劇熱戀孫千,他憑2大理由,火速擠走原定男主敖瑞鵬

張凌赫新劇熱戀孫千,他憑2大理由,火速擠走原定男主敖瑞鵬

陳意小可愛
2026-03-26 14:09:51
卷來卷去,工資重回3000元時代!為什么這次大家不再抱怨了?

卷來卷去,工資重回3000元時代!為什么這次大家不再抱怨了?

另子維愛讀史
2026-01-26 20:08:00
“貞潔是女孩最高貴的嫁妝”,公交廣告別變公害廣告|新京報快評

“貞潔是女孩最高貴的嫁妝”,公交廣告別變公害廣告|新京報快評

新京報
2026-03-25 13:18:07
跌宕起伏,火箭加時13-0一度占優(yōu),森林狼15-0逆轉創(chuàng)歷史紀錄

跌宕起伏,火箭加時13-0一度占優(yōu),森林狼15-0逆轉創(chuàng)歷史紀錄

懂球帝
2026-03-26 13:21:12
楊鳴談廣東現狀:外援持球過多,讓球隊丟失了拿手的進攻組織

楊鳴談廣東現狀:外援持球過多,讓球隊丟失了拿手的進攻組織

懂球帝
2026-03-26 12:27:11
為何美國敢打伊朗,卻不敢打朝鮮?因為朝鮮成功學到了中國精髓

為何美國敢打伊朗,卻不敢打朝鮮?因為朝鮮成功學到了中國精髓

鑒史錄
2026-03-25 18:19:06
提醒:這“5種”東西千萬別從網上買,全是套路,再便宜也不行

提醒:這“5種”東西千萬別從網上買,全是套路,再便宜也不行

美食格物
2026-03-14 01:05:06
馬筱梅曬兒子滿月宴!六菜一湯連家宴都不算,婆婆沒表示也不重視

馬筱梅曬兒子滿月宴!六菜一湯連家宴都不算,婆婆沒表示也不重視

手工制作阿殲
2026-03-26 14:04:28
192國收到通知,中國支持巴勒斯坦獨立,以色列面臨審判

192國收到通知,中國支持巴勒斯坦獨立,以色列面臨審判

菲兒愛蛋糕
2026-03-26 13:09:00
越扒越有!張雪峰去世早有預兆,他的2個不良愛好,或成催命符

越扒越有!張雪峰去世早有預兆,他的2個不良愛好,或成催命符

潮鹿逐夢
2026-03-26 11:34:46
東契奇:六連客最滿意的是從不放棄,布朗尼相比去年進步很大

東契奇:六連客最滿意的是從不放棄,布朗尼相比去年進步很大

懂球帝
2026-03-26 11:13:10
雷迪克談父子同臺:對布朗尼很有信心 他在聚光燈外默默進步

雷迪克談父子同臺:對布朗尼很有信心 他在聚光燈外默默進步

北青網-北京青年報
2026-03-26 13:55:05
1982年血色使館:中國外交官唐健生為了生存殺光了所有同事

1982年血色使館:中國外交官唐健生為了生存殺光了所有同事

阿校談史
2026-03-20 11:03:27
賴清德“返核”讓綠營崩潰?謝寒冰酸:苗博雅、黃捷精神錯亂了

賴清德“返核”讓綠營崩潰?謝寒冰酸:苗博雅、黃捷精神錯亂了

海峽導報社
2026-03-25 08:17:03
馬云預言應驗了?未來5年,把存款換成4個資產,或將衣食無憂?

馬云預言應驗了?未來5年,把存款換成4個資產,或將衣食無憂?

璀璨幻行者
2026-01-31 18:59:25
原來她是張雪峰妻子,高校副教授歷史博士,相差7歲認識40天閃婚

原來她是張雪峰妻子,高校副教授歷史博士,相差7歲認識40天閃婚

奇思妙想草葉君
2026-03-26 14:01:49
1965年,毛主席點名讓彭德懷復出,背后有人拼命阻撓,這人后來判了18年

1965年,毛主席點名讓彭德懷復出,背后有人拼命阻撓,這人后來判了18年

史海孤雁
2026-03-25 18:31:11
玄學提醒:如果一個人還在穿著10年前的衣服,只說明3個問題

玄學提醒:如果一個人還在穿著10年前的衣服,只說明3個問題

洞讀君
2026-03-04 14:30:12
毛新宇參觀祖宅時突然發(fā)現家譜記載:原來毛主席是毛太華第20代孫

毛新宇參觀祖宅時突然發(fā)現家譜記載:原來毛主席是毛太華第20代孫

老杉說歷史
2026-03-14 20:54:20
你永遠不知道勤快起來能闖多大禍!網友:想好怎么挨揍了嗎

你永遠不知道勤快起來能闖多大禍!網友:想好怎么挨揍了嗎

另子維愛讀史
2026-03-25 21:27:45
2026-03-26 14:47:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12604文章數 142593關注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權,700名員工卻下崗

頭條要聞

擔心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設施

頭條要聞

擔心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設施

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰家人首發(fā)聲 不設追思會喪事從簡

財經要聞

黃仁勛:芯片公司的時代已經結束了

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

健康
藝術
時尚
本地
教育

轉頭就暈的耳石癥,能開車上班嗎?

藝術要聞

哪一座橋不是風景?

2026年了,最好看的還是“這件針織”!

本地新聞

救命,這只醬板鴨已經在我手機復仇了一萬遍

教育要聞

高考地理中的花海經濟

無障礙瀏覽 進入關懷版