国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

源自電路理論的即插即用方法讓視覺Transformer重獲高清細節(jié)

0
分享至



針對視覺 Transformer(ViT)因其固有 “低通濾波” 特性導致深度網(wǎng)絡中細節(jié)信息丟失的問題,我們提出了一種即插即用、受電路理論啟發(fā)的 頻率動態(tài)注意力調制(FDAM)模塊。它通過巧妙地 “反轉” 注意力以生成高頻補償,并對特征頻譜進行動態(tài)縮放,最終在幾乎不增加計算成本的情況下,大幅提升了模型在分割、檢測等密集預測任務上的性能,并取得了 SOTA 效果。

該工作來自北京理工大學、RIKEN AIP和東京大學的研究團隊。



  • 論文全文: https://arxiv.org/abs/2507.12006
  • 作者主頁: https://linwei-chen.github.io
  • 實驗室主頁: https://ying-fu.github.io
  • 開源代碼: https://github.com/Linwei-Chen/FDAM

研究背景:為什么這是一個重要的問題?

視覺 Transformer(ViT)無疑是近年來計算機視覺領域最耀眼的明星。它憑借強大的全局建模能力,在圖像分類、目標檢測、語義分割等眾多任務上刷新了紀錄。然而,當我們構建更深、更強大的 ViT 模型時,一個 “隱秘的角落” 里的問題逐漸浮出水面:模型看世界,怎么越來越模糊了?

這并非錯覺。對于分割、檢測這類需要精確定位的 “密集預測” 任務而言,圖像的邊緣、紋理等高頻細節(jié)至關重要。但研究發(fā)現(xiàn),ViT 中的核心部件 —— 自注意力機制(Self-Attention),其本質上像一個低通濾波器。這意味著每經(jīng)過一層注意力,圖像特征中的高頻細節(jié)就會被削弱一分,而平滑的低頻結構則被保留和增強。當我們將數(shù)十個這樣的 “濾波器” 堆疊起來,災難性的“頻率消失”(Frequency Vanishing)現(xiàn)象便發(fā)生了:網(wǎng)絡深層的特征幾乎完全丟失了細節(jié)信息,導致表征坍塌(Representation Collapse),最終輸出的預測結果自然也就模糊不清、邊界不準。



正如上圖所示,在標準的 ViT 中,高頻信息隨著層數(shù)加深迅速衰減至零。解決這一根本性缺陷,釋放 ViT 在高清視覺任務上的全部潛力,是當前領域亟待突破的關鍵瓶頸。

現(xiàn)有方法的局限性


此前,一些工作嘗試緩解 ViT 的 “過平滑” 問題,例如通過正則化或直接在頻域上對衰減的高頻信號進行靜態(tài)補償(如 AttnScale, NeuTRENO 等)。這些方法起到了一定作用,但它們更像是 “亡羊補牢”—— 在細節(jié)丟失后進行被動修復,而未能從根本上改變注意力機制的低通天性。它們缺乏一種動態(tài)、自適應的能力,來根據(jù)不同圖像內容和任務需求,靈活地處理全頻譜的視覺信息。

FDAM 的核心思想是什么?


既然問題出在注意力機制這個 “元件” 上,我們能否重新設計這個 “電路”?我們的核心思想,源于經(jīng)典的電路理論。

想象一下音響上的均衡器。標準注意力就像一個只有 “重低音”(Low-Pass)的旋鈕,它會濾掉清亮的高音。我們如何憑空造出一個 “高音”(High-Pass)旋鈕呢?電路理論給了我們一個絕妙的啟示:高通濾波器 = 全通濾波器 - 低通濾波器。

這個簡單的公式正是我們方法的核心 ——注意力反轉(Attention Inversion, AttInv)。

  • “全通濾波器”是什么?就是未經(jīng)處理的原始特征,它包含了所有頻率的信息。
  • “低通濾波器”是什么?就是標準注意力模塊處理后的特征,它只保留了低頻成分。

兩者相減,得到的 “殘差” 不就恰好是那些被濾掉的高頻細節(jié)么?



基于此,我們的 AttInv 模塊不再是單一的低通濾波器。在每一層,它都同時擁有了原始的 “低通” 路徑和我們創(chuàng)造的 “高通” 路徑。更關鍵的是,我們引入了一個輕量級的動態(tài) “混音器”,讓模型能夠根據(jù)圖像上每個區(qū)域的特點,自主學習是該更關注平滑的整體結構(低頻),還是更聚焦于銳利的邊緣紋理(高頻)。當這樣的模塊堆疊起來,模型便擁有了 2^L 種(L 為層數(shù))復雜的頻率組合能力,能夠擬合出遠比之前豐富多樣的頻率響應。



方法的關鍵組成部分


當然,僅有 “低音” 和 “高音” 兩個旋鈕對于專業(yè)音響師來說還不夠。為了實現(xiàn)更精細的 “調音”,我們設計了第二個關鍵組件:頻率動態(tài)縮放(Frequency Dynamic Scaling, FreqScale)。

FreqScale 就像一個多頻段圖形均衡器。它將特征圖轉換到頻域,將其劃分為多個頻段,并為每個頻段學習一個動態(tài)的增益權重。這樣,模型不僅能區(qū)分高低頻,還能根據(jù)需要精確地 “增強” 或 “抑制” 某個特定頻段的信號,例如,為分割任務特別增強中高頻的邊緣信號。

FDAM = AttInv (粗調高低頻) + FreqScale (精調各頻段)。兩者結合,構成了一套完整、高效且自適應的全頻譜解決方案。

實驗效果有多驚艷?


我們的 FDAM 模塊是 “即插即用” 的,可以輕松集成到各種主流 ViT 架構中,且?guī)淼膮?shù)量和計算量開銷微乎其微。但效果的提升卻是實實在在的:

定量展示:

  • 在語義分割任務中,F(xiàn)DAM 為輕量的SegFormer-B0在 ADE20K 數(shù)據(jù)集上帶來了+2.4 mIoU的巨幅提升。對于強大的DeiT3-Base,F(xiàn)DAM 依然能穩(wěn)定提升+0.8 mIoU,達到了52.6%的 SOTA 性能。
  • 在目標檢測與實例分割的 “兵家必爭之地” COCO 數(shù)據(jù)集上,F(xiàn)DAM 賦能Mask DINO,將檢測 AP 提升了+1.6,分割 AP 提升了+1.4,效果顯著。
  • 在遙感圖像檢測 DOTA 數(shù)據(jù)集上,我們的方法同樣取得了當前單尺度設定的最優(yōu)成績。







定性展示:

  • “一圖勝千言”。從下方的特征圖對比中可以直觀地看到,標準 DeiT 的特征圖(b)細節(jié)模糊,而經(jīng)過 FDAM 增強后的特征圖(c)輪廓清晰、紋理銳利,物體的結構被完美地保留了下來。其對應的頻譜圖(e)也證實了我們的方法保留了更豐富的高頻成分。



理論支撐:

  • 我們的方法不僅效果好,理論上也站得住腳。分析表明,F(xiàn)DAM 能有效抵抗表征坍塌,其 “有效秩”(Effective Rank)在網(wǎng)絡深層遠高于基線模型,證明了特征的多樣性得到了更好的維持。



這項工作意味著什么?


FDAM 的價值不僅在于刷新了幾個 SOTA 點數(shù),更在于:

1.提供了新視角:它成功地將經(jīng)典的電路理論思想引入到前沿的 Transformer 設計中,為解決深度學習中的基礎問題(如信息衰減)提供了一個全新的、符合第一性原理的思考框架。

2.解決了真問題:它精準地定位并有效解決了 ViT 在密集預測任務中的一個核心痛點 ——“頻率消失”,將 ViT 的潛力更充分地釋放出來。

3.兼具實用與優(yōu)雅:作為一個輕量、即插即用的模塊,F(xiàn)DAM 可以毫不費力地為現(xiàn)有模型 “增壓”,在工業(yè)界和學術界都有著巨大的應用潛力。

這項工作可能會推動社區(qū)在需要高清細節(jié)的領域(如醫(yī)學影像分析、高分辨率遙感、自動駕駛感知)中更廣泛地應用和探索更深層的 ViT 模型。

未來可以探索的方向

FDAM 也為未來研究打開了新的大門。例如,我們是否可以設計一個完全在頻域中進行動態(tài)路由的全新網(wǎng)絡結構?這種頻率調制的思想能否被拓展到視頻、三維點云甚至多模態(tài)數(shù)據(jù)中?這些都是激動人心的未來方向。

歡迎在 ICCV 2025 現(xiàn)場與我們交流!

作者介紹:



付瑩是北京理工大學計算機學院的教授、博士生導師,入選國家高層次青年人才計劃。她的研究領域主要為人工智能、計算機視覺與計算攝像學。近五年,她在中科院一區(qū)期刊和 CCF A 類會議上發(fā)表了超過 50 篇論文。她的研究成果已應用于 “嫦娥工程”、智慧城市建設等重要項目。她主編的《計算機視覺基礎》教材入選北京理工大學 “十四五” 規(guī)劃教材。她獲得的榮譽包括 ICML 杰出論文獎、日內瓦國際發(fā)明展金獎,并入選中國圖象圖形學學會石青云青年女科學家獎和中國電子學會青年科學家獎等。此外,付教授還擔任 TIP 等期刊的編委,并擔任 CVPR、ICCV 等頂級會議的領域主席。



谷林(Lin Gu)是 RIKEN AIP(理化學研究所)的研究科學家,同時也是東京大學的特別研究員。他的研究重點是通過進化方法開發(fā)新一代人工智能,旨在超越人腦的局限性。

谷林先生的研究涵蓋了計算機視覺、醫(yī)學成像、大型語言模型(LLM)、機器人技術甚至核聚變等多個領域。 他在 Nature Methods、PAMI、IJCV、AAAI 等頂級期刊和會議上發(fā)表了 60 多篇論文。此外,他還是 Pattern Recognition 期刊的副主編,并擔任 ICCV、ICML、NeurIPS 和 ICLR 等多個會議的領域主席。

目前,谷林先生是日本內閣府監(jiān)督的國家級項目 “Moonshot Program” 的項目經(jīng)理,并擔任 RIKEN-MOST 項目的日本首席研究員(PI),該項目專注于通過人工智能技術對精神分裂癥進行亞型分類和早期診斷。



陳林蔚,北京理工大學計算機學院博士。主要研究方向為計算機視覺,重點關注圖像分割、目標檢測、低光照圖像增強與識別以及圖像生成等領域。截至目前,他已發(fā)表論文十余篇,其中多篇以第一作者身份發(fā)表在國際計算機視覺頂級期刊和會議(如 TPAMI、IJCV、CVPR、ICLR、ISPRS)上。在學術社區(qū)貢獻方面,他擔任 IJCV、TIP、CVPR、ICCV、NeurIPS、AAAI 等多個期刊會議的審稿人,并在國際計算機視覺會議 BMVC 中因專業(yè)素養(yǎng)和貢獻被評為 "杰出審稿人"。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
自斷后路!央企采用國產(chǎn)芯片,美:你不進口,我們的芯片賣給誰?

自斷后路!央企采用國產(chǎn)芯片,美:你不進口,我們的芯片賣給誰?

半路友人之他
2026-02-19 23:15:08
安徽剛剛通報:廳干鄭家齊被查!

安徽剛剛通報:廳干鄭家齊被查!

鳳凰網(wǎng)安徽
2026-03-02 17:45:32
富時中國A50指數(shù)期貨跌幅擴大,現(xiàn)跌1.0%

富時中國A50指數(shù)期貨跌幅擴大,現(xiàn)跌1.0%

每日經(jīng)濟新聞
2026-03-02 10:41:04
米蘭時裝周好真實!陳妍希假發(fā)包太夸張,陳小紜臉僵腫、滿腿淤青

米蘭時裝周好真實!陳妍希假發(fā)包太夸張,陳小紜臉僵腫、滿腿淤青

楓塵余往逝
2026-03-02 12:47:21
美軍公布傷亡情況!伊朗向美航母發(fā)射4枚導彈,美軍:導彈甚至沒有接近航母,已擊沉一艘伊朗船只;朝鮮強烈譴責美以“流氓行徑”

美軍公布傷亡情況!伊朗向美航母發(fā)射4枚導彈,美軍:導彈甚至沒有接近航母,已擊沉一艘伊朗船只;朝鮮強烈譴責美以“流氓行徑”

每日經(jīng)濟新聞
2026-03-02 00:23:54
霍爾木茲海峽關閉!中國化工全產(chǎn)業(yè)鏈承壓

霍爾木茲海峽關閉!中國化工全產(chǎn)業(yè)鏈承壓

新浪財經(jīng)
2026-03-02 11:48:58
張拿鐵在國外走失,張踩鈴想掐死婆婆溫迪,幸好巧遇熱心粉絲幫忙

張拿鐵在國外走失,張踩鈴想掐死婆婆溫迪,幸好巧遇熱心粉絲幫忙

可樂談情感
2026-03-02 01:18:35
中國不先使用核武器,如果美國炸毀北斗衛(wèi)星,中國是不是就輸了?

中國不先使用核武器,如果美國炸毀北斗衛(wèi)星,中國是不是就輸了?

暗香暗香
2026-02-24 01:54:48
讓你不選我!廣廈寶島內援盛贊胡金秋朱俊龍 若有他男籃想贏很難

讓你不選我!廣廈寶島內援盛贊胡金秋朱俊龍 若有他男籃想贏很難

大嘴爵爺侃球
2026-03-02 15:28:51
汪小菲責怪母親發(fā)他和孩子的視頻,網(wǎng)友評價:不要繼承麻六記

汪小菲責怪母親發(fā)他和孩子的視頻,網(wǎng)友評價:不要繼承麻六記

萱小蕾o
2026-03-02 13:31:09
全球只有5位領導人被永久保留遺體,他們都是誰

全球只有5位領導人被永久保留遺體,他們都是誰

扶蘇聊歷史
2026-01-29 16:13:42
高德導航到底能有多搞笑?網(wǎng)友:我在市區(qū)開車都不敢全相信導航

高德導航到底能有多搞笑?網(wǎng)友:我在市區(qū)開車都不敢全相信導航

解讀熱點事件
2026-02-22 05:43:06
他出身京劇世家,38歲才突破成名,49歲仍單身,正午陽光御用配角

他出身京劇世家,38歲才突破成名,49歲仍單身,正午陽光御用配角

芬霏劇時光
2026-03-01 17:56:02
今天,主力大幅買入!

今天,主力大幅買入!

君臨財富
2026-03-02 15:23:54
當年那些沒有聽出來的弦外之音?網(wǎng)友:她說在清華等我

當年那些沒有聽出來的弦外之音?網(wǎng)友:她說在清華等我

特約前排觀眾
2026-01-09 00:05:05
姐姐摸了下弟弟的小腳丫,我直接破防了!這畫面也太暖了吧!

姐姐摸了下弟弟的小腳丫,我直接破防了!這畫面也太暖了吧!

王二哥老搞笑
2026-02-28 04:28:55
1971年,陜西老光棍圖便宜,娶了小自己10歲又坐過牢房的女大學生

1971年,陜西老光棍圖便宜,娶了小自己10歲又坐過牢房的女大學生

南權先生
2026-02-26 15:38:59
張元英辱華升級!在港參加活動發(fā)言挑釁,相關代言被抵制連夜捂嘴

張元英辱華升級!在港參加活動發(fā)言挑釁,相關代言被抵制連夜捂嘴

瓜農(nóng)娟姐
2026-01-03 15:15:00
2號收評:中石油創(chuàng)近11年新高!所有人都注意,大盤后市或這樣走

2號收評:中石油創(chuàng)近11年新高!所有人都注意,大盤后市或這樣走

春江財富
2026-03-02 15:30:03
街頭,伊朗人悲傷地跳了起來?

街頭,伊朗人悲傷地跳了起來?

關爾東
2026-03-01 23:02:58
2026-03-03 00:00:50
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

本地
健康
教育
手機
數(shù)碼

本地新聞

津南好·四時總相宜

轉頭就暈的耳石癥,能開車上班嗎?

教育要聞

特別猛,但在留學生心中存在感很低的英國大學!

手機要聞

iPhone 17系列:國內銷量已破2200萬!網(wǎng)友:華為仍需努力

數(shù)碼要聞

英偉達發(fā)布595.71 WHQL驅動,修復顯卡風扇“翻車”問題

無障礙瀏覽 進入關懷版