国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

NeurIPS25 | 清華&北大提出LinearDiff-ViT:讓Transformer學(xué)會(huì)“找不同”,實(shí)打?qū)嵦嵘P托阅?/h1>
0
分享至

文章來(lái)源:我愛計(jì)算機(jī)視覺(ID:aicvml)

大家好,我是CV君。今天想和大家聊一篇來(lái)自清華大學(xué)和北京大學(xué)的最新研究,它給熱門的Vision Transformer(ViT)帶來(lái)了一次相當(dāng)漂亮的“線性提速”。

這篇被 NeurIPS 2025 錄用的論文,標(biāo)題為《Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials》,提出了一種名為“視覺對(duì)比注意力”(Visual-Contrast Attention, VCA)的新模塊。簡(jiǎn)單來(lái)說,VCA就像是給ViT裝上了一雙“火眼金睛”,讓它不再是“一視同仁”地看圖中所有內(nèi)容,而是學(xué)會(huì)了主動(dòng)“找不同”,聚焦于那些真正具有區(qū)分度的信息。最關(guān)鍵的是,這個(gè)新模塊幾乎不增加計(jì)算量,卻能實(shí)打?qū)嵉靥嵘P托阅堋?/p>

下面是論文的基本信息,感興趣的朋友可以深入研究:



  • 論文標(biāo)題 : Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials

  • 作者團(tuán)隊(duì) : Yifan Pu, Jixuan Ying, Qixiu Li, Tianzhu Ye, Dongchen Han, Xiaochen Wang, Ziyi Wang, Xinyu Shao, Gao Huang, Xiu Li

  • 所屬機(jī)構(gòu) : 清華大學(xué)、北京大學(xué)

  • 論文地址 : https://arxiv.org/abs/2511.00833

  • 項(xiàng)目主頁(yè) : https://github.com/LeapLabTHU/LinearDiff

ViT的“甜蜜煩惱”與VCA的誕生

熟悉CV的朋友們都知道,Vision Transformer(ViT)現(xiàn)在是遍地開花,無(wú)論圖像識(shí)別還是圖像生成,都能看到它的身影。但ViT也有個(gè)“甜蜜的煩惱”——它的核心部件,多頭自注意力(Multi-Head Self-Attention, MHSA),計(jì)算量太大了。

MHSA會(huì)對(duì)圖像中的每一對(duì)圖塊(token)都進(jìn)行相似度計(jì)算,這是一個(gè)平方級(jí)別的復(fù)雜度(O(N2))。這意味著,圖像越大、圖塊越多,計(jì)算成本就呈指數(shù)級(jí)增長(zhǎng)。很多時(shí)候,模型把大量的算力都浪費(fèi)在了計(jì)算那些沒啥信息量或者重復(fù)的區(qū)域關(guān)系上。

為了解決這個(gè)問題,研究者們想了不少辦法。有的方法限制注意力范圍,比如只在局部窗口內(nèi)計(jì)算,但這又可能丟失全局信息。有的方法用低秩分解或傅里葉變換來(lái)近似注意力矩陣,但它們還是平等地對(duì)待所有信息,沒能抓住重點(diǎn)。

而這篇論文的作者們另辟蹊徑,他們認(rèn)為,與其被動(dòng)地處理所有信息,不如讓模型主動(dòng)去發(fā)現(xiàn)“對(duì)比”和“差異”。這個(gè)想法催生了 視覺對(duì)比注意力(VCA)。

VCA如何實(shí)現(xiàn)“找不同”?

VCA的設(shè)計(jì)非常巧妙,可以即插即用地替換掉原來(lái)ViT中的MHSA模塊。它的核心思想分為兩步:

第一階段:生成全局對(duì)比信息

首先,VCA不再讓所有的查詢(query)都去和鍵(key)直接硬碰硬。它選擇了一種更聰明的方式:

  1. 信息壓縮 :對(duì)于每個(gè)注意力頭,VCA先把整個(gè)圖像的查詢特征圖(Query Feature Map)通過平均池化(Average Pooling)操作,壓縮成一個(gè)很小的網(wǎng)格(比如8x8)。這樣,原來(lái)成百上千的圖塊(token)就被濃縮成了幾十個(gè)“視覺對(duì)比令牌”(visual-contrast tokens)。

  2. 創(chuàng)建正負(fù)“視角” :接下來(lái)是關(guān)鍵一步。VCA為這些濃縮后的令牌添加兩種不同的、可學(xué)習(xí)的位置編碼,從而創(chuàng)造出兩個(gè)“流”:一個(gè)“正向流”(positive stream)和一個(gè)“負(fù)向流”(negative stream)。你可以把它們想象成從兩個(gè)略有不同的角度去觀察同一份濃縮信息。

  3. 差分交互 :這兩個(gè)流分別與全局的鍵(key)和值(value)進(jìn)行交互,然后將得到的結(jié)果相減。這一減,神奇的事情發(fā)生了——那些在兩個(gè)“視角”下都差不多的普通信息被抵消了,而那些有顯著差異的、真正重要的對(duì)比信息就被凸顯了出來(lái)。

通過這個(gè)過程,VCA用很小的計(jì)算代價(jià),就提煉出了一份信息量極高的“全局對(duì)比圖”。

第二階段:基于對(duì)比圖進(jìn)行精細(xì)化注意力

有了這份“全局對(duì)比圖”,第二階段就簡(jiǎn)單高效多了。原始的每個(gè)圖塊查詢(patch query)不再需要跟所有其他圖塊去比較,而是直接與這份濃縮的“對(duì)比圖”進(jìn)行交互。

這個(gè)交互同樣是差分式的,查詢會(huì)同時(shí)關(guān)注對(duì)比圖的“正向”和“負(fù)向”信息,最終計(jì)算出每個(gè)圖塊在“對(duì)比”視角下的重要性。

整個(gè)過程下來(lái),VCA成功地將計(jì)算復(fù)雜度從 O(N2C) 降低到了 O(NnC),其中 n 是對(duì)比令牌的數(shù)量,遠(yuǎn)小于 N。這意味著計(jì)算成本與圖塊數(shù)量 N 之間變成了線性關(guān)系,ViT終于可以“減負(fù)”了。

效果如何?數(shù)據(jù)說話

理論說得再好,還得看實(shí)際效果。作者們?cè)趫D像分類和圖像生成兩大任務(wù)上對(duì)VCA進(jìn)行了充分驗(yàn)證。

圖像分類:精度顯著提升

在ImageNet-1K分類任務(wù)上,VCA的效果非常驚人。


從上表可以看到:

  • 給輕量的DeiT-Tiny模型換上VCA后,參數(shù)量只增加了0.3M,計(jì)算量(FLOPs)不變,但Top-1準(zhǔn)確率直接從72.2%提升到了 75.6% ,足足高了 3.4 個(gè)百分點(diǎn)!

  • 即使是對(duì)于Swin Transformer這類已經(jīng)經(jīng)過優(yōu)化的層級(jí)式ViT,VCA同樣能帶來(lái)穩(wěn)定的性能提升,最高提升了 3.1 個(gè)百分點(diǎn)(在PVT-Tiny上)。

CV君認(rèn)為,這個(gè)結(jié)果說明VCA的“對(duì)比”機(jī)制確實(shí)抓住了圖像識(shí)別的關(guān)鍵,而且它的普適性很好,能給各種ViT架構(gòu)帶來(lái)增益。

圖像生成:生成質(zhì)量更高

在類條件圖像生成任務(wù)上,作者們將VCA應(yīng)用到了DiT(Diffusion Transformer)和SiT(Flow Transformer)模型上。評(píng)價(jià)指標(biāo)是FID,這個(gè)值越低說明生成圖像的質(zhì)量越高。


結(jié)果同樣令人印象深刻:

  • 在各種模型尺寸和配置下,VCA都穩(wěn)定地降低了FID分?jǐn)?shù)。

  • 對(duì)于DiT-S/4模型,F(xiàn)ID分?jǐn)?shù)降低了 5.2 點(diǎn);對(duì)于DiT-S/2模型,F(xiàn)ID降低了 4.9 點(diǎn)。

  • 無(wú)論是基于擴(kuò)散的DiT還是基于流的SiT,VCA都能起作用,證明了它對(duì)生成范式的普適性。

消融實(shí)驗(yàn):每個(gè)設(shè)計(jì)都不可或缺

為了證明VCA的設(shè)計(jì)不是“玄學(xué)”,作者還做了詳盡的消融實(shí)驗(yàn)。


上表驗(yàn)證了VCA兩個(gè)階段的協(xié)同作用。無(wú)論是只用第一階段的全局對(duì)比,還是只用第二階段的差分注意力,性能都有提升,但將兩者結(jié)合起來(lái)效果最好。


而這張表則證明了“空間池化”和“雙位置編碼”這兩個(gè)設(shè)計(jì)的必要性。簡(jiǎn)單地使用可學(xué)習(xí)的嵌入(Embedding)雖然也有效果,但遠(yuǎn)不如從圖像本身通過池化(Pooling)獲取信息,并用正負(fù)位置編碼來(lái)區(qū)分“視角”來(lái)得有效。這說明,讓模型從數(shù)據(jù)中學(xué)習(xí)對(duì)比線索,才是VCA成功的關(guān)鍵。

總結(jié)

總的來(lái)說,VCA用一個(gè)簡(jiǎn)單、輕量且高效的“差分”思想,漂亮地解決了ViT的計(jì)算瓶頸,并帶來(lái)了實(shí)實(shí)在在的性能飛躍。它提醒我們,有時(shí)候注意力機(jī)制不一定非得是“相似性”的度量,也可以是“差異性”的發(fā)現(xiàn)者。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張學(xué)良被囚禁54年,生活奢華,每月經(jīng)費(fèi)是北京人均工資400多倍

張學(xué)良被囚禁54年,生活奢華,每月經(jīng)費(fèi)是北京人均工資400多倍

大千世界觀
2025-12-20 19:10:41
梁偉鏗/王昶2-1擊敗蘭基雷迪/謝提,時(shí)隔兩年再進(jìn)年終賽決賽

梁偉鏗/王昶2-1擊敗蘭基雷迪/謝提,時(shí)隔兩年再進(jìn)年終賽決賽

懂球帝
2025-12-20 23:10:24
科學(xué)家最終確定:仙女座正在撞向銀河系,速度高達(dá)每秒300公里

科學(xué)家最終確定:仙女座正在撞向銀河系,速度高達(dá)每秒300公里

觀察宇宙
2025-12-19 21:59:03
95小花紅毯拼待遇!趙露思戴高珠完勝孟子義,白鹿三套高定鎮(zhèn)場(chǎng)

95小花紅毯拼待遇!趙露思戴高珠完勝孟子義,白鹿三套高定鎮(zhèn)場(chǎng)

萌神木木
2025-12-21 19:18:45
“特朗普想翻篇,卻成了火上澆油”

“特朗普想翻篇,卻成了火上澆油”

觀察者網(wǎng)
2025-12-21 16:17:04
演員王傳君發(fā)文宣布退出

演員王傳君發(fā)文宣布退出

民間平哥
2025-12-19 15:41:11
臀大腰粗不用愁,粉色吊帶搭灰色瑜伽褲,透露著野性的時(shí)尚感

臀大腰粗不用愁,粉色吊帶搭灰色瑜伽褲,透露著野性的時(shí)尚感

小喬古裝漢服
2025-12-21 12:10:43
平定陜甘后慈禧密召左宗棠,卻問道:都說李鴻章比你更有才能?

平定陜甘后慈禧密召左宗棠,卻問道:都說李鴻章比你更有才能?

卡西莫多的故事
2025-12-19 11:10:40
庫(kù)里28+9創(chuàng)NBA第1神跡,勇士逆轉(zhuǎn)太陽(yáng)!格林被驅(qū)逐,布克38+5

庫(kù)里28+9創(chuàng)NBA第1神跡,勇士逆轉(zhuǎn)太陽(yáng)!格林被驅(qū)逐,布克38+5

一將籃球
2025-12-21 12:58:40
Model YL 11月大賣12800輛,特斯拉亮出“絕招”,國(guó)產(chǎn)車饞哭了?

Model YL 11月大賣12800輛,特斯拉亮出“絕招”,國(guó)產(chǎn)車饞哭了?

功夫AUTO
2025-12-20 13:27:58
3種魚已被列入致癌名單,吃多了會(huì)致癌?醫(yī)生忠告:盡量少吃

3種魚已被列入致癌名單,吃多了會(huì)致癌?醫(yī)生忠告:盡量少吃

阿兵科普
2025-12-06 12:43:28
方舒女兒:母親因屠洪剛舍棄糟糠之夫,她的優(yōu)秀為爸爸爭(zhēng)了口氣

方舒女兒:母親因屠洪剛舍棄糟糠之夫,她的優(yōu)秀為爸爸爭(zhēng)了口氣

白面書誏
2025-12-10 16:23:20
隨著哈登升至歷史助攻榜第12位,他生涯有望突破10000助攻嗎?

隨著哈登升至歷史助攻榜第12位,他生涯有望突破10000助攻嗎?

田先生籃球
2025-12-21 18:12:05
穩(wěn)定才是硬道理,火箭探花連續(xù)4場(chǎng)砍兩雙,后期變陣有望更進(jìn)一步

穩(wěn)定才是硬道理,火箭探花連續(xù)4場(chǎng)砍兩雙,后期變陣有望更進(jìn)一步

拾叁懂球
2025-12-21 19:45:53
直降2140元!iPhone 17全系大幅降價(jià),性價(jià)比飆升

直降2140元!iPhone 17全系大幅降價(jià),性價(jià)比飆升

科技堡壘
2025-12-20 11:05:31
徹底被杜鋒棄用!廣東宏遠(yuǎn)25歲前鋒跌出輪換,曾被譽(yù)為周鵬接班人

徹底被杜鋒棄用!廣東宏遠(yuǎn)25歲前鋒跌出輪換,曾被譽(yù)為周鵬接班人

籃球大陸
2025-12-21 14:59:29
全新奧迪Q5L內(nèi)飾改三屏,預(yù)售31.3萬(wàn)起,軸距2945mm,標(biāo)配2.0T

全新奧迪Q5L內(nèi)飾改三屏,預(yù)售31.3萬(wàn)起,軸距2945mm,標(biāo)配2.0T

念寒車評(píng)
2025-12-21 19:21:16
足壇奇景!巴西巨星太自律:41歲重返歐洲豪門!比主帥還大5歲

足壇奇景!巴西巨星太自律:41歲重返歐洲豪門!比主帥還大5歲

球場(chǎng)沒跑道
2025-12-21 11:09:17
新華社證實(shí)南京博物院賣了《江南春》,事情變得更加撲朔迷離

新華社證實(shí)南京博物院賣了《江南春》,事情變得更加撲朔迷離

銀河敘事
2025-12-19 13:00:27
6國(guó)已派兵過南海,菲防長(zhǎng)通告中國(guó),不許出手,中方直接噴射水炮

6國(guó)已派兵過南海,菲防長(zhǎng)通告中國(guó),不許出手,中方直接噴射水炮

諦聽骨語(yǔ)本尊
2025-12-18 16:17:58
2025-12-21 20:43:00

算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5273文章數(shù) 64595關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬(wàn)個(gè)應(yīng)用

頭條要聞

妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

頭條要聞

妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場(chǎng)地還小

財(cái)經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

游戲
藝術(shù)
教育
數(shù)碼
軍事航空

德瑪西亞杯:讓一追二,EDG三局戰(zhàn)勝LGD

藝術(shù)要聞

Anatoliy Lukash陽(yáng)光明媚的風(fēng)景,真是美!

教育要聞

26考研初試估分通道開啟,想估分的速來(lái)!

數(shù)碼要聞

主板存嚴(yán)重漏洞用于作弊:拳頭封殺所有未更新BIOS玩家!

軍事要聞

石破茂:擁核絕不會(huì)給日本帶來(lái)正面影響

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版