国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

馬普所&谷歌等提出AnyUp:無(wú)需再訓(xùn)練的通用特征上采樣,推理即用,效果SOTA!

0
分享至

文章來(lái)源:我愛(ài)計(jì)算機(jī)視覺(jué)(ID:aicvml)

今天和大家聊一篇非常有意思的新工作,來(lái)自馬克斯·普朗克計(jì)算機(jī)科學(xué)研究所、谷歌、蘇黎世聯(lián)邦理工學(xué)院和慕尼黑工業(yè)大學(xué)的研究者們聯(lián)手打造的 AnyUp

顧名思義,“AnyUp”就是“任意上采樣”的意思。它的核心亮點(diǎn)在于,這是一個(gè)通用的特征上采樣模型,能夠處理來(lái)自任意視覺(jué)編碼器(比如DINO、CLIP)的特征,在任意分辨率之間進(jìn)行上采樣,而且最關(guān)鍵的是——無(wú)需為特定的編碼器進(jìn)行重新訓(xùn)練。這解決了現(xiàn)有方法一個(gè)很大的痛點(diǎn)。


一起來(lái)看看這項(xiàng)工作的基本信息:

  • 論文標(biāo)題 : AnyUp: Universal Feature Upsampling

  • 作者 : Thomas Wimmer, Prune Truong, Marie-Julie Rakotosaona, Michael Oechsle, Federico Tombari, Bernt Schiele, Jan Eric Lenssen

  • 機(jī)構(gòu) : 馬克斯·普朗克計(jì)算機(jī)科學(xué)研究所, 蘇黎世聯(lián)邦理工學(xué)院, 谷歌, 慕尼黑工業(yè)大學(xué)

  • 論文地址 : https://arxiv.org/abs/2510.12764

  • 項(xiàng)目主頁(yè) : https://wimmerth.github.io/anyup/

  • 代碼倉(cāng)庫(kù) : https://github.com/wimmerth/anyup

研究背景

大家知道,像DINO、CLIP這類強(qiáng)大的預(yù)訓(xùn)練視覺(jué)模型,已經(jīng)成為計(jì)算機(jī)視覺(jué)領(lǐng)域的基石。但它們通?;赥ransformer架構(gòu),為了計(jì)算效率,輸出的特征圖分辨率往往比較低(比如16x16或32x32)。這對(duì)于需要像素級(jí)預(yù)測(cè)的下游任務(wù),如語(yǔ)義分割、深度估計(jì)等,是一個(gè)天然的限制。


為了解決這個(gè)問(wèn)題,學(xué)術(shù)界提出了不少特征上采樣的方法。但現(xiàn)有方法,特別是那些基于學(xué)習(xí)的方法(如FeatUp, LoftUp, JAFAR),通常存在一個(gè)“綁定”問(wèn)題:它們需要針對(duì)某一個(gè)特定的特征提取器(encoder)進(jìn)行訓(xùn)練。如果你想換一個(gè)編碼器,比如從DINOv2換到SigLIP,對(duì)不起,請(qǐng)重新訓(xùn)練你的上采樣模型。這不僅耗時(shí)耗力,有時(shí)甚至不可行(比如最新的大模型沒(méi)有開(kāi)放訓(xùn)練接口)。


AnyUp的出現(xiàn),就是為了打破這種“一對(duì)一”的束縛,目標(biāo)是創(chuàng)建一個(gè)“萬(wàn)能”的上采樣器,訓(xùn)練一次,就能服務(wù)于所有視覺(jué)模型。

AnyUp的核心方法

AnyUp的整體架構(gòu)基于一個(gè)Attention機(jī)制,這和近期的JAFAR、LoftUp等工作思路相似。但它通過(guò)幾個(gè)關(guān)鍵設(shè)計(jì),實(shí)現(xiàn)了“編碼器無(wú)關(guān)”(encoder-agnostic)的特性。


特征無(wú)關(guān)層 (Feature-Agnostic Layer)

這是實(shí)現(xiàn)通用性的核心。傳統(tǒng)的上采樣模型在處理輸入特征時(shí),通常會(huì)用一個(gè)卷積層,但這個(gè)卷積層的輸入通道數(shù)是固定的,所以只能處理特定維度的特征。

AnyUp設(shè)計(jì)了一個(gè)巧妙的“特征無(wú)關(guān)層”。它的工作方式是:

  1. 對(duì)輸入特征的 每一個(gè)通道 (channel) 都獨(dú)立地與一組共享的、可學(xué)習(xí)的卷積核 (basis filters) 進(jìn)行卷積。

  2. 對(duì)每個(gè)通道的卷積結(jié)果,在“卷積核維度”上進(jìn)行Softmax歸一化。

  3. 最后,將 所有通道 的結(jié)果進(jìn)行平均,得到最終的輸出。

通過(guò)這種方式,無(wú)論輸入特征有多少個(gè)通道(維度),輸出的維度都是固定的,并且模型能夠?qū)W習(xí)到跨通道的通用結(jié)構(gòu)信息,而不是綁定在特定特征的語(yǔ)義上。CV君認(rèn)為這個(gè)設(shè)計(jì)非常簡(jiǎn)潔且有效。

局部窗口注意力 (Local Window Attention)

之前的方法(如JAFAR)使用全局注意力,即高分辨率圖像中的每個(gè)像素可以關(guān)注到低分辨率特征圖中的任何一個(gè)位置。作者發(fā)現(xiàn),這有時(shí)會(huì)導(dǎo)致模型錯(cuò)誤地關(guān)聯(lián)上圖像中距離很遠(yuǎn)且不相關(guān)的區(qū)域,產(chǎn)生偽影。


AnyUp對(duì)此進(jìn)行了簡(jiǎn)化,將注意力計(jì)算限制在一個(gè) 局部窗口 內(nèi)。這樣做不僅提升了效率,也讓模型的學(xué)習(xí)任務(wù)變得更簡(jiǎn)單,因?yàn)樗恍枰P(guān)注局部信息,從而避免了不必要的“遠(yuǎn)距離聯(lián)想”,使得上采樣結(jié)果更穩(wěn)定。

基于圖像塊的訓(xùn)練策略

在訓(xùn)練中如何獲得用于監(jiān)督訓(xùn)練的“真值”高分辨率特征呢?直接用大尺寸圖像輸入編碼器計(jì)算,成本太高。AnyUp采用了一種高效的策略:

  1. 從一張高分辨率圖像 I 中,隨機(jī)裁剪出一個(gè)小塊 I'

  2. 將完整圖像 I 縮放到與 I' 同樣的分辨率,并提取低分辨率特征 p

  3. p 通過(guò)AnyUp上采樣到目標(biāo)分辨率,得到 q 。

  4. 同時(shí),直接從圖像塊 I' 提取“真值”特征 ? 。

  5. 監(jiān)督信號(hào)來(lái)自于上采樣結(jié)果 q 中對(duì)應(yīng) I' 的區(qū)域 q'? 之間的差異。

這個(gè)策略非常高效,因?yàn)樗苊饬藢?duì)超大分辨率圖像進(jìn)行特征提取。

實(shí)驗(yàn)效果如何?

AnyUp在多個(gè)下游任務(wù)上都展示了卓越的性能和泛化能力。

視覺(jué)質(zhì)量對(duì)比

從PCA可視化的特征圖可以看出,相比之前的方法(如LoftUp、JAFAR、FeatUp),AnyUp生成的特征圖邊緣更銳利,細(xì)節(jié)保留得更好,并且沒(méi)有出現(xiàn)明顯的偽影或特征分布偏移。


下游任務(wù)性能

在語(yǔ)義分割、深度估計(jì)和表面法線估計(jì)等任務(wù)上,AnyUp全面超越了之前的SOTA方法。

  • 語(yǔ)義分割 : 在ADE20k數(shù)據(jù)集上取得了SOTA表現(xiàn)。

  • 深度和法線估計(jì) : 同樣達(dá)到了SOTA,這表明AnyUp很好地保留了特征的局部幾何信息,而這正是LoftUp等方法所欠缺的。

下面是更多在語(yǔ)義分割和深度估計(jì)任務(wù)上的定性結(jié)果,可以看到AnyUp的結(jié)果在細(xì)節(jié)和邊界上都非常出色。



強(qiáng)大的泛化能力

這是AnyUp最令人印象深刻的地方。

  • 跨模型泛化 : 一個(gè)僅在DINOv2特征上訓(xùn)練的AnyUp模型,可以直接用于上采樣SigLIP、DINOv3等完全不同的編碼器特征,并且性能依然強(qiáng)大,甚至接近或超過(guò)了為這些特定模型專門訓(xùn)練的上采樣器。

  • 跨分辨率泛化 : AnyUp支持從任意分辨率到任意分辨率的上采樣,在各種分辨率組合下都保持了強(qiáng)大的性能。

  • 特征空間保持 : 實(shí)驗(yàn)證明,AnyUp上采樣后的特征很好地保留了原始低分辨率特征的分布,這意味著一個(gè)在低分辨率特征上訓(xùn)練好的線性分類器(probe)可以直接用在高分辨率特征上,性能幾乎無(wú)損,甚至有所提升。

消融實(shí)驗(yàn)

消融研究證實(shí)了AnyUp每個(gè)設(shè)計(jì)的重要性,無(wú)論是特征無(wú)關(guān)層、局部窗口注意力還是數(shù)據(jù)采樣策略,都對(duì)最終性能有顯著貢獻(xiàn)。


總結(jié)

總而言之,AnyUp通過(guò)簡(jiǎn)潔而創(chuàng)新的設(shè)計(jì),實(shí)現(xiàn)了一個(gè)真正意義上的“即插即用”的通用特征上采樣器。它不僅性能達(dá)到了SOTA,更重要的是其出色的泛化能力,極大地提升了預(yù)訓(xùn)練視覺(jué)模型在下游任務(wù)中的易用性和靈活性。作者已經(jīng)開(kāi)源了代碼,感興趣的同學(xué)可以去試試看!

大家對(duì)這個(gè)“萬(wàn)能”上采樣方法怎么看?歡迎在評(píng)論區(qū)留下你的看法!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
舒淇在節(jié)目里第一次承認(rèn),她和馮德倫為了要孩子已經(jīng)折騰了九年。

舒淇在節(jié)目里第一次承認(rèn),她和馮德倫為了要孩子已經(jīng)折騰了九年。

歲月有情1314
2025-11-29 15:40:25
還想買燃油車的要小心,2026年,燃油車市場(chǎng)必將發(fā)生幾大變化

還想買燃油車的要小心,2026年,燃油車市場(chǎng)必將發(fā)生幾大變化

李子櫥
2025-12-21 14:15:05
12月22日中央一套開(kāi)播!78位實(shí)力派演員領(lǐng)銜,網(wǎng)友: 這劇收視要炸

12月22日中央一套開(kāi)播!78位實(shí)力派演員領(lǐng)銜,網(wǎng)友: 這劇收視要炸

鄉(xiāng)野小珥
2025-12-20 14:01:37
活到90歲靠的從來(lái)不是基因!這“9個(gè)不”,做到一半就賺了

活到90歲靠的從來(lái)不是基因!這“9個(gè)不”,做到一半就賺了

貓大夫醫(yī)學(xué)科普
2025-09-27 06:56:23
普京喊話呂特:“為何執(zhí)意要跟我們打仗?”

普京喊話呂特:“為何執(zhí)意要跟我們打仗?”

參考消息
2025-12-20 21:25:31
“訂單去哪兒了?”當(dāng)網(wǎng)約車集體怒吼,平臺(tái)第一次把底牌攤在桌上

“訂單去哪兒了?”當(dāng)網(wǎng)約車集體怒吼,平臺(tái)第一次把底牌攤在桌上

侃故事的阿慶
2025-12-20 13:14:15
空砍36+4+3!我追不上老詹,哈登賽后無(wú)奈請(qǐng)求,泰倫盧也承認(rèn)事實(shí)

空砍36+4+3!我追不上老詹,哈登賽后無(wú)奈請(qǐng)求,泰倫盧也承認(rèn)事實(shí)

巴叔GO聊體育
2025-12-21 15:54:01
太陽(yáng)女神去老公團(tuán)隊(duì)抓小三

太陽(yáng)女神去老公團(tuán)隊(duì)抓小三

毒舌扒姨太
2025-12-21 22:15:22
特朗普放話炸平莫斯科,美俄核對(duì)峙升級(jí)!

特朗普放話炸平莫斯科,美俄核對(duì)峙升級(jí)!

回京歷史夢(mèng)
2025-12-21 04:10:03
女子醉駕找人“擺平”被騙7萬(wàn)后跳樓身亡,詐騙者獲刑 家屬起訴中間“介紹人”索賠23萬(wàn)

女子醉駕找人“擺平”被騙7萬(wàn)后跳樓身亡,詐騙者獲刑 家屬起訴中間“介紹人”索賠23萬(wàn)

紅星新聞
2025-12-21 13:39:17
上海富豪為癡傻兒子娶妻,農(nóng)村女孩主動(dòng)上門,可是新婚當(dāng)晚卻傻眼了

上海富豪為癡傻兒子娶妻,農(nóng)村女孩主動(dòng)上門,可是新婚當(dāng)晚卻傻眼了

五元講堂
2025-03-25 21:28:36
北斗、GPS信號(hào)受精準(zhǔn)干擾壓制!導(dǎo)航集體失靈事件原因公布!

北斗、GPS信號(hào)受精準(zhǔn)干擾壓制!導(dǎo)航集體失靈事件原因公布!

荊楚寰宇文樞
2025-12-20 22:07:33
“彈劾賴清德”網(wǎng)絡(luò)連署結(jié)果驚人,藍(lán)白有重要決定,鄭麗文被打臉

“彈劾賴清德”網(wǎng)絡(luò)連署結(jié)果驚人,藍(lán)白有重要決定,鄭麗文被打臉

聞識(shí)
2025-12-21 13:36:51
中東,突發(fā)!以軍總參謀長(zhǎng):以色列正經(jīng)歷“最長(zhǎng)最復(fù)雜的戰(zhàn)爭(zhēng)”

中東,突發(fā)!以軍總參謀長(zhǎng):以色列正經(jīng)歷“最長(zhǎng)最復(fù)雜的戰(zhàn)爭(zhēng)”

證券時(shí)報(bào)e公司
2025-12-21 22:33:41
德韓上位,中國(guó)出局,越南建高鐵為了避開(kāi)中國(guó),不惜拿國(guó)運(yùn)做賭注

德韓上位,中國(guó)出局,越南建高鐵為了避開(kāi)中國(guó),不惜拿國(guó)運(yùn)做賭注

博覽歷史
2025-12-21 12:40:30
皇馬2-0十人塞維利亞!距巴薩1分 姆巴佩點(diǎn)射+年度59球平C羅紀(jì)錄

皇馬2-0十人塞維利亞!距巴薩1分 姆巴佩點(diǎn)射+年度59球平C羅紀(jì)錄

我愛(ài)英超
2025-12-21 06:06:19
對(duì)付俄羅斯,高市早苗已有妙招?動(dòng)手前,她先對(duì)中國(guó)提了一個(gè)要求

對(duì)付俄羅斯,高市早苗已有妙招?動(dòng)手前,她先對(duì)中國(guó)提了一個(gè)要求

博覽歷史
2025-12-20 17:47:03
又老又丑,連普通話都說(shuō)不好,為何能讓千億富豪對(duì)她情有獨(dú)鐘?

又老又丑,連普通話都說(shuō)不好,為何能讓千億富豪對(duì)她情有獨(dú)鐘?

素衣讀史
2025-12-20 16:26:36
南海撞機(jī)王偉成功跳傘,咋10萬(wàn)人都找不到他?直到20多年后才明白

南海撞機(jī)王偉成功跳傘,咋10萬(wàn)人都找不到他?直到20多年后才明白

鶴羽說(shuō)個(gè)事
2025-12-12 14:31:49
前國(guó)腳戴琳還清欠球迷的欠款,球迷家屬:多轉(zhuǎn)了5000元,想退回,對(duì)方未發(fā)送賬號(hào)

前國(guó)腳戴琳還清欠球迷的欠款,球迷家屬:多轉(zhuǎn)了5000元,想退回,對(duì)方未發(fā)送賬號(hào)

紅星新聞
2025-12-21 14:43:14
2025-12-21 23:07:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5273文章數(shù) 64595關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬(wàn)個(gè)應(yīng)用

頭條要聞

美國(guó)外交系統(tǒng)現(xiàn)重大調(diào)整 約有24名駐外大使被要求離任

頭條要聞

美國(guó)外交系統(tǒng)現(xiàn)重大調(diào)整 約有24名駐外大使被要求離任

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂(lè)要聞

星光大賞太尷尬!搶話擋鏡頭,場(chǎng)地還小

財(cái)經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

本地
教育
藝術(shù)
時(shí)尚
公開(kāi)課

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

教育要聞

遇到油鹽不進(jìn)的孩子,該怎么辦?

藝術(shù)要聞

俄羅斯畫家尼古拉·波格丹諾夫·貝爾斯基人物繪畫作品

紅色不流行了?今年最火的穿搭居然是它

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版