国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ImageNet分?jǐn)?shù)越高,生成反而越糊?iREPA給出解釋

0
分享至


新智元報(bào)道

編輯:傾傾

【新智元導(dǎo)讀】學(xué)霸的謊言被揭穿!一篇來自Adobe Research的論文發(fā)現(xiàn),高語義理解并不會提升生成質(zhì)量,反而可能破壞空間結(jié)構(gòu)。用iREPA簡單修改,削弱全局干擾,生成質(zhì)量立即飆升 。

我們經(jīng)常會疑惑:為什么視覺模型越高級,生成效果反而越差?

最近,Adobe Research發(fā)了一篇論文,專門解釋了這個(gè)看起來有點(diǎn)反常、但反復(fù)出現(xiàn)的現(xiàn)象。


論文地址:https://arxiv.org/pdf/2512.10794

按直覺,模型要先知道「這是什么」,才能把它畫出來。

ImageNet上的分類準(zhǔn)確率越高,說明模型的語義理解越強(qiáng),生成的內(nèi)容越穩(wěn)定、越靠譜。

但這篇論文給出的結(jié)果,完全相反:

一些在識別任務(wù)中表現(xiàn)平平、甚至看起來「很不聰明」的視覺編碼器,反而能生成出結(jié)構(gòu)更清晰、質(zhì)量更高的圖像。

全局語義能力越強(qiáng),生成反而越容易出問題。

很可能我們從一開始,就誤會了生成模型真正擅長的是什么。


為什么視覺模型越「聰明」,生成的反而越差?

先看一個(gè)已經(jīng)被反復(fù)驗(yàn)證的事實(shí):一個(gè)模型在ImageNet上的線性探測準(zhǔn)確率越高,并不意味著它更適合用來做生成。

最直觀的例子是SAM2。這是一個(gè)在識別任務(wù)里不出彩的模型,驗(yàn)證準(zhǔn)確率只有24.1%,遠(yuǎn)低于主流視覺大模型。

但當(dāng)這些編碼器被用于REPA時(shí),SAM2的生成質(zhì)量反而優(yōu)于一批準(zhǔn)確率高出約60%的模型。


SAM2的ImageNet驗(yàn)證準(zhǔn)確率僅為24.1%,但在REPA框架下的生成gFID明顯優(yōu)于多種準(zhǔn)確率超過70%的視覺編碼器。

這還不是某一個(gè)模型的偶然表現(xiàn)。

論文進(jìn)一步比較了同一編碼器家族中不同規(guī)模的模型,結(jié)果發(fā)現(xiàn):模型越大、分類準(zhǔn)確率越高,生成質(zhì)量反而可能相似或更差。


隨著模型規(guī)模和分類準(zhǔn)確率提升,生成gFID反而整體變差,表明這一現(xiàn)象并非由個(gè)別模型導(dǎo)致。

顯然,「高語義能力=好生成」這條默認(rèn)路徑,在大量實(shí)驗(yàn)中并不成立 。

更關(guān)鍵的是,這種現(xiàn)象并不是噪聲。

在跨模型、跨設(shè)置的系統(tǒng)性分析中,全局語義指標(biāo)與生成質(zhì)量之間的相關(guān)性始終非常弱。


分類能力與生成質(zhì)量幾乎無關(guān),空間結(jié)構(gòu)卻高度相關(guān)。左:線性探測準(zhǔn)確率與生成 gFID 的相關(guān)性極弱(Pearson r=-0.26)。中:空間結(jié)構(gòu)指標(biāo)(LDS)與生成質(zhì)量呈現(xiàn)出顯著強(qiáng)相關(guān)(Pearson r=-0.85)。右:基于空間結(jié)構(gòu)改進(jìn)的iREPA,在多種編碼器上穩(wěn)定優(yōu)于REPA。

論文進(jìn)一步對多種視覺編碼器做了相關(guān)性分析,結(jié)果非常明確:

線性探測準(zhǔn)確率與生成質(zhì)量之間幾乎不存在相關(guān)性。

相比之下,反映patch空間結(jié)構(gòu)的指標(biāo),與生成質(zhì)量呈現(xiàn)出極強(qiáng)的正相關(guān)關(guān)系。

如果不是「懂得多」,那生成模型到底依賴的是什么?

反復(fù)確認(rèn)會壓扁空間結(jié)構(gòu)

在理解了「高語義≠好生成」之后,真正的問題變成了:

為什么模型越是反復(fù)確認(rèn),生成反而越容易出問題?

關(guān)鍵就是,全局語義會在生成過程中壓扁空間結(jié)構(gòu)。

在生成任務(wù)中,模型并不是一次性輸出圖像,而是在訓(xùn)練和采樣過程中,不斷對局部patch之間的關(guān)系做判斷。

論文將這種能力概括為「空間結(jié)構(gòu)」:即相鄰patch之間應(yīng)保持更高相似性,而遠(yuǎn)處patch不應(yīng)被全局語義過早拉近。

但當(dāng)模型過度追求全局語義一致性,比如通過CLS token ,或?qū)λ衟atch做全局平均來強(qiáng)化「這是什么」,這些局部差異就會被系統(tǒng)性地削弱。

這種做法會導(dǎo)致一個(gè)直接后果:前景物體的patch,與本應(yīng)無關(guān)的背景patch之間,出現(xiàn)異常高的相似性。

空間對比度下降,邊界變得模糊,生成結(jié)果因此糊成一片。


PE-G和WebSSL-1B在ImageNet上具有更高的分類準(zhǔn)確率,但它們的空間自相似性顯示,前景與背景被過度拉近,邊界模糊。相比之下,空間結(jié)構(gòu)更清晰的SpatialPE-B,生成質(zhì)量顯著更好。

研究員向模型中逐步加入全局語義信息,觀察分類能力和生成質(zhì)量的變化。

結(jié)果如下圖所示:


增強(qiáng)全局語義信息會損害生成質(zhì)量

隨著全局信息權(quán)重α從0增加到0.5,模型的線性探測準(zhǔn)確率持續(xù)上升。

但生成質(zhì)量卻顯著下降,F(xiàn)ID明顯惡化。

也就是說,「更懂這是什么」確實(shí)在發(fā)生;但與此同時(shí),模型也失去生成所依賴的空間結(jié)構(gòu)。

這并不是優(yōu)化不充分的副作用,而是因?yàn)槿终Z義在生成階段扮演了一個(gè)「過強(qiáng)約束」的角色。

它讓模型更快達(dá)成結(jié)論,卻也更早放棄了對局部結(jié)構(gòu)的精細(xì)刻畫。

既然語義會干擾生成,iREPA選擇退后一步

如果說前面的實(shí)驗(yàn)回答了「問題出在哪」,那 iREPA 回答的就是另一個(gè)問題:

既然全局語義會干擾生成,那該怎么對齊表示,才不會把結(jié)構(gòu)壓扁?

iREPA給出了答案。它對原本的REPA訓(xùn)練流程做了兩處非常簡單的修改,總共不到四行代碼 。

第一處,是投影方式的改變。

在標(biāo)準(zhǔn)REPA中,patch表征通常會經(jīng)過MLP投影層進(jìn)行對齊。

但論文指出,MLP在這一過程中容易混合不同位置的信息,無意中削弱了空間對比度 。

因此,iREPA用一個(gè)3×3的卷積層(padding=1)替換了MLP投影。

卷積的歸納偏置能保留局部鄰域關(guān)系:相鄰patch的相互影響被保留,遠(yuǎn)處區(qū)域則不會被過早混在一起 。

第二處修改,直接針對全局語義。

iREPA在對齊過程中引入了一個(gè)空間歸一化層,移除了patch特征中的全局均值分量 ,讓模型專注于局部之間的差異與邊界。


iREPA如何通過兩處修改,恢復(fù)生成所需的空間結(jié)構(gòu)。 (a) 使用卷積投影替代MLP,可更好地保留局部空間關(guān)系。 (b) 空間歸一化層通過移除全局分量,提高patch之間的空間對比度。 (c) 經(jīng)過這兩步修改后,iREPA生成的diffusion特征呈現(xiàn)出更清晰的空間結(jié)構(gòu)。

正是這兩點(diǎn)改動,讓iREPA在機(jī)制上與前一節(jié)的問題形成了嚴(yán)格對應(yīng):

全局語義太強(qiáng)會抹平結(jié)構(gòu),那就在對齊階段削弱全局分量、強(qiáng)化空間關(guān)系 。

結(jié)果也在意料之中。

無論是在ImageNet規(guī)模的生成任務(wù),還是更高分辨率的設(shè)置,亦或是文本到圖像的多模態(tài)生成任務(wù)中,iREPA都表現(xiàn)出更快的收斂速度和更好的最終生成質(zhì)量。

更重要的是,這種提升并不依賴于某一個(gè)特定編碼器。

在不同模型規(guī)模、不同視覺骨干網(wǎng)絡(luò)、不同訓(xùn)練設(shè)置下,iREPA都能穩(wěn)定改進(jìn)。

這不僅是一個(gè)技巧,而是順著生成任務(wù)本身對結(jié)構(gòu)的需求,把表示對齊這件事做得更克制、更精細(xì)。

很多時(shí)候,我們討論生成模型時(shí),會下意識沿用一個(gè)標(biāo)準(zhǔn)。

但這篇論文提醒了我們,生成并不是理解的自然下游。

對生成來說,最重要的并不是「這是什么」,而是「哪些地方該靠近,哪些地方該分開」。

當(dāng)我們一味強(qiáng)化全局語義,反復(fù)催促模型給出答案,其實(shí)是在替它提前下結(jié)論。

iREPA并沒有試圖讓模型變得更聰明。它做的更像是退后一步,把空間還給空間,把結(jié)構(gòu)還給結(jié)構(gòu)。

結(jié)果不是理解能力的飛躍,而是生成質(zhì)量的回歸。

參考資料:

https://x.com/1jaskiratsingh/status/2000701128431034736?s=20

https://end2end-diffusion.github.io/irepa/

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
南博事件發(fā)酵!吳家哭訴,和龐家同病相憐,我們家捐的文物也丟了

南博事件發(fā)酵!吳家哭訴,和龐家同病相憐,我們家捐的文物也丟了

火山詩話
2025-12-24 17:35:41
美國:你的船,我想扣就扣!中國:公海之上,誰給你的膽子?

美國:你的船,我想扣就扣!中國:公海之上,誰給你的膽子?

扶蘇聊歷史
2025-12-24 10:21:30
兵馬俑中有一張令人詫異的臉,無法用科學(xué)解釋,被禁止出國展覽

兵馬俑中有一張令人詫異的臉,無法用科學(xué)解釋,被禁止出國展覽

浩渺青史
2025-12-21 20:13:07
惡意曲解法條!微博對100余個(gè)賬號予以禁言至關(guān)閉賬號處置

惡意曲解法條!微博對100余個(gè)賬號予以禁言至關(guān)閉賬號處置

大象新聞
2025-12-24 19:53:02
已經(jīng)跌出輪換陣容了?火箭現(xiàn)在到底該如何擺脫卡佩拉的垃圾合同?

已經(jīng)跌出輪換陣容了?火箭現(xiàn)在到底該如何擺脫卡佩拉的垃圾合同?

稻谷與小麥
2025-12-25 00:06:45
深圳一個(gè)老牌工業(yè)園區(qū)房產(chǎn)破產(chǎn)拍賣,被人以2.4億元接手

深圳一個(gè)老牌工業(yè)園區(qū)房產(chǎn)破產(chǎn)拍賣,被人以2.4億元接手

搗蛋窩
2025-12-22 13:33:31
新任干部炫耀公務(wù)員身份 將秘密級文件首頁拍照發(fā)朋友圈 被給予黨紀(jì)政務(wù)處分

新任干部炫耀公務(wù)員身份 將秘密級文件首頁拍照發(fā)朋友圈 被給予黨紀(jì)政務(wù)處分

閃電新聞
2025-11-05 11:12:01
博主舉報(bào)展銷會商家用豬肉冒充牛肉賣,與多人發(fā)生肢體沖突,致肋骨骨折!當(dāng)?shù)鼐搅刚{(diào)查

博主舉報(bào)展銷會商家用豬肉冒充牛肉賣,與多人發(fā)生肢體沖突,致肋骨骨折!當(dāng)?shù)鼐搅刚{(diào)查

封面新聞
2025-12-24 01:07:08
王思聰37歲再爆雷!這次的丑聞比想象更勁爆?

王思聰37歲再爆雷!這次的丑聞比想象更勁爆?

搞笑娛樂笑話
2025-12-23 19:01:14
丁元英:永遠(yuǎn)要記住,和周圍人搞好關(guān)系的秘訣,就是這4“不”

丁元英:永遠(yuǎn)要記住,和周圍人搞好關(guān)系的秘訣,就是這4“不”

富書
2025-12-24 06:50:03
社會主義中國不能允許如此大規(guī)模當(dāng)?shù)?>
    </a>
        <h3>
      <a href=凱利經(jīng)濟(jì)觀察
2025-12-18 09:35:23
韓媒:孫準(zhǔn)浩將與忠南牙山續(xù)約4年;他仍被中國足協(xié)終身禁賽

韓媒:孫準(zhǔn)浩將與忠南牙山續(xù)約4年;他仍被中國足協(xié)終身禁賽

懂球帝
2025-12-24 18:07:14
中年返貧三件套,一個(gè)都別碰!

中年返貧三件套,一個(gè)都別碰!

黯泉
2025-12-24 17:47:13
明年將對全國高速路服務(wù)區(qū)廁所改造,坐便位比例提至兩成以上

明年將對全國高速路服務(wù)區(qū)廁所改造,坐便位比例提至兩成以上

南方都市報(bào)
2025-12-23 17:34:05
搞笑,公牛隊(duì)多桑姆不滿特雷·楊“拍他屁股”:沒男人喜歡這樣

搞笑,公牛隊(duì)多桑姆不滿特雷·楊“拍他屁股”:沒男人喜歡這樣

好火子
2025-12-25 01:08:18
剛復(fù)出就開演唱會,票價(jià)賣到1280,到底誰給的自信?

剛復(fù)出就開演唱會,票價(jià)賣到1280,到底誰給的自信?

易同學(xué)愛談娛樂
2025-07-02 08:32:15
徐湖平跑不了!收藏家顏明:江南春剛調(diào)撥出去,隔天就被陸挺買走

徐湖平跑不了!收藏家顏明:江南春剛調(diào)撥出去,隔天就被陸挺買走

削桐作琴
2025-12-24 16:11:38
長征十二號甲運(yùn)載火箭首飛入軌成功 回收未取得預(yù)期成效

長征十二號甲運(yùn)載火箭首飛入軌成功 回收未取得預(yù)期成效

財(cái)聯(lián)社
2025-12-23 11:38:05
中國的“性蕭條”時(shí)代,正式到來了

中國的“性蕭條”時(shí)代,正式到來了

律法刑道
2025-12-15 08:28:58
WTO有點(diǎn)過時(shí)了,如今 CPTPP成為香餑餑!中國二次申請背后的深意

WTO有點(diǎn)過時(shí)了,如今 CPTPP成為香餑餑!中國二次申請背后的深意

詩意世界
2025-12-16 09:00:03
2025-12-25 02:43:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
14175文章數(shù) 66395關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會跟進(jìn)?

汽車要聞

“運(yùn)動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

旅游
教育
本地
時(shí)尚
公開課

旅游要聞

豫西地下4000年:地坑院的重生,藏著中國古村振興的密碼!

教育要聞

孩子不聽話怎么辦?

本地新聞

云游安徽|一川江水潤安慶,一塔一戲一城史

對不起周柯宇,是陳靖可先來的

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版