ImageNet分?jǐn)?shù)越高，生成反而越糊？iREPA給出解釋

2025-12-22 21:49:14　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：傾傾

【新智元導(dǎo)讀】學(xué)霸的謊言被揭穿！一篇來自Adobe Research的論文發(fā)現(xiàn)，高語義理解并不會提升生成質(zhì)量，反而可能破壞空間結(jié)構(gòu)。用iREPA簡單修改，削弱全局干擾，生成質(zhì)量立即飆升。

我們經(jīng)常會疑惑：為什么視覺模型越高級，生成效果反而越差？

最近，Adobe Research發(fā)了一篇論文，專門解釋了這個(gè)看起來有點(diǎn)反常、但反復(fù)出現(xiàn)的現(xiàn)象。

論文地址：https://arxiv.org/pdf/2512.10794

按直覺，模型要先知道「這是什么」，才能把它畫出來。

ImageNet上的分類準(zhǔn)確率越高，說明模型的語義理解越強(qiáng)，生成的內(nèi)容越穩(wěn)定、越靠譜。

但這篇論文給出的結(jié)果，完全相反：

一些在識別任務(wù)中表現(xiàn)平平、甚至看起來「很不聰明」的視覺編碼器，反而能生成出結(jié)構(gòu)更清晰、質(zhì)量更高的圖像。

全局語義能力越強(qiáng)，生成反而越容易出問題。

很可能我們從一開始，就誤會了生成模型真正擅長的是什么。

為什么視覺模型越「聰明」，生成的反而越差？

先看一個(gè)已經(jīng)被反復(fù)驗(yàn)證的事實(shí)：一個(gè)模型在ImageNet上的線性探測準(zhǔn)確率越高，并不意味著它更適合用來做生成。

最直觀的例子是SAM2。這是一個(gè)在識別任務(wù)里不出彩的模型，驗(yàn)證準(zhǔn)確率只有24.1%，遠(yuǎn)低于主流視覺大模型。

但當(dāng)這些編碼器被用于REPA時(shí)，SAM2的生成質(zhì)量反而優(yōu)于一批準(zhǔn)確率高出約60%的模型。

SAM2的ImageNet驗(yàn)證準(zhǔn)確率僅為24.1%，但在REPA框架下的生成gFID明顯優(yōu)于多種準(zhǔn)確率超過70%的視覺編碼器。

這還不是某一個(gè)模型的偶然表現(xiàn)。

論文進(jìn)一步比較了同一編碼器家族中不同規(guī)模的模型，結(jié)果發(fā)現(xiàn)：模型越大、分類準(zhǔn)確率越高，生成質(zhì)量反而可能相似或更差。

隨著模型規(guī)模和分類準(zhǔn)確率提升，生成gFID反而整體變差，表明這一現(xiàn)象并非由個(gè)別模型導(dǎo)致。

顯然，「高語義能力=好生成」這條默認(rèn)路徑，在大量實(shí)驗(yàn)中并不成立。

更關(guān)鍵的是，這種現(xiàn)象并不是噪聲。

在跨模型、跨設(shè)置的系統(tǒng)性分析中，全局語義指標(biāo)與生成質(zhì)量之間的相關(guān)性始終非常弱。

分類能力與生成質(zhì)量幾乎無關(guān)，空間結(jié)構(gòu)卻高度相關(guān)。左：線性探測準(zhǔn)確率與生成 gFID 的相關(guān)性極弱（Pearson r=-0.26）。中：空間結(jié)構(gòu)指標(biāo)（LDS）與生成質(zhì)量呈現(xiàn)出顯著強(qiáng)相關(guān)（Pearson r=-0.85）。右：基于空間結(jié)構(gòu)改進(jìn)的iREPA，在多種編碼器上穩(wěn)定優(yōu)于REPA。

論文進(jìn)一步對多種視覺編碼器做了相關(guān)性分析，結(jié)果非常明確：

線性探測準(zhǔn)確率與生成質(zhì)量之間幾乎不存在相關(guān)性。

相比之下，反映patch空間結(jié)構(gòu)的指標(biāo)，與生成質(zhì)量呈現(xiàn)出極強(qiáng)的正相關(guān)關(guān)系。

如果不是「懂得多」，那生成模型到底依賴的是什么？

反復(fù)確認(rèn)會壓扁空間結(jié)構(gòu)

在理解了「高語義≠好生成」之后，真正的問題變成了：

為什么模型越是反復(fù)確認(rèn)，生成反而越容易出問題？

關(guān)鍵就是，全局語義會在生成過程中壓扁空間結(jié)構(gòu)。

在生成任務(wù)中，模型并不是一次性輸出圖像，而是在訓(xùn)練和采樣過程中，不斷對局部patch之間的關(guān)系做判斷。

論文將這種能力概括為「空間結(jié)構(gòu)」：即相鄰patch之間應(yīng)保持更高相似性，而遠(yuǎn)處patch不應(yīng)被全局語義過早拉近。

但當(dāng)模型過度追求全局語義一致性，比如通過CLS token ，或?qū)λ衟atch做全局平均來強(qiáng)化「這是什么」，這些局部差異就會被系統(tǒng)性地削弱。

這種做法會導(dǎo)致一個(gè)直接后果：前景物體的patch，與本應(yīng)無關(guān)的背景patch之間，出現(xiàn)異常高的相似性。

空間對比度下降，邊界變得模糊，生成結(jié)果因此糊成一片。

PE-G和WebSSL-1B在ImageNet上具有更高的分類準(zhǔn)確率，但它們的空間自相似性顯示，前景與背景被過度拉近，邊界模糊。相比之下，空間結(jié)構(gòu)更清晰的SpatialPE-B，生成質(zhì)量顯著更好。

研究員向模型中逐步加入全局語義信息，觀察分類能力和生成質(zhì)量的變化。

結(jié)果如下圖所示：

增強(qiáng)全局語義信息會損害生成質(zhì)量

隨著全局信息權(quán)重α從0增加到0.5，模型的線性探測準(zhǔn)確率持續(xù)上升。

但生成質(zhì)量卻顯著下降，F(xiàn)ID明顯惡化。

也就是說，「更懂這是什么」確實(shí)在發(fā)生；但與此同時(shí)，模型也失去生成所依賴的空間結(jié)構(gòu)。

這并不是優(yōu)化不充分的副作用，而是因?yàn)槿终Z義在生成階段扮演了一個(gè)「過強(qiáng)約束」的角色。

它讓模型更快達(dá)成結(jié)論，卻也更早放棄了對局部結(jié)構(gòu)的精細(xì)刻畫。

既然語義會干擾生成，iREPA選擇退后一步

如果說前面的實(shí)驗(yàn)回答了「問題出在哪」，那 iREPA 回答的就是另一個(gè)問題：

既然全局語義會干擾生成，那該怎么對齊表示，才不會把結(jié)構(gòu)壓扁？

iREPA給出了答案。它對原本的REPA訓(xùn)練流程做了兩處非常簡單的修改，總共不到四行代碼。

第一處，是投影方式的改變。

在標(biāo)準(zhǔn)REPA中，patch表征通常會經(jīng)過MLP投影層進(jìn)行對齊。

但論文指出，MLP在這一過程中容易混合不同位置的信息，無意中削弱了空間對比度。

因此，iREPA用一個(gè)3×3的卷積層（padding=1）替換了MLP投影。

卷積的歸納偏置能保留局部鄰域關(guān)系：相鄰patch的相互影響被保留，遠(yuǎn)處區(qū)域則不會被過早混在一起。

第二處修改，直接針對全局語義。

iREPA在對齊過程中引入了一個(gè)空間歸一化層，移除了patch特征中的全局均值分量，讓模型專注于局部之間的差異與邊界。

iREPA如何通過兩處修改，恢復(fù)生成所需的空間結(jié)構(gòu)。 (a) 使用卷積投影替代MLP，可更好地保留局部空間關(guān)系。 (b) 空間歸一化層通過移除全局分量，提高patch之間的空間對比度。 (c) 經(jīng)過這兩步修改后，iREPA生成的diffusion特征呈現(xiàn)出更清晰的空間結(jié)構(gòu)。

正是這兩點(diǎn)改動，讓iREPA在機(jī)制上與前一節(jié)的問題形成了嚴(yán)格對應(yīng)：

全局語義太強(qiáng)會抹平結(jié)構(gòu)，那就在對齊階段削弱全局分量、強(qiáng)化空間關(guān)系。

結(jié)果也在意料之中。

無論是在ImageNet規(guī)模的生成任務(wù)，還是更高分辨率的設(shè)置，亦或是文本到圖像的多模態(tài)生成任務(wù)中，iREPA都表現(xiàn)出更快的收斂速度和更好的最終生成質(zhì)量。

更重要的是，這種提升并不依賴于某一個(gè)特定編碼器。

在不同模型規(guī)模、不同視覺骨干網(wǎng)絡(luò)、不同訓(xùn)練設(shè)置下，iREPA都能穩(wěn)定改進(jìn)。

這不僅是一個(gè)技巧，而是順著生成任務(wù)本身對結(jié)構(gòu)的需求，把表示對齊這件事做得更克制、更精細(xì)。

很多時(shí)候，我們討論生成模型時(shí)，會下意識沿用一個(gè)標(biāo)準(zhǔn)。

但這篇論文提醒了我們，生成并不是理解的自然下游。

對生成來說，最重要的并不是「這是什么」，而是「哪些地方該靠近，哪些地方該分開」。

當(dāng)我們一味強(qiáng)化全局語義，反復(fù)催促模型給出答案，其實(shí)是在替它提前下結(jié)論。

iREPA并沒有試圖讓模型變得更聰明。它做的更像是退后一步，把空間還給空間，把結(jié)構(gòu)還給結(jié)構(gòu)。

結(jié)果不是理解能力的飛躍，而是生成質(zhì)量的回歸。

參考資料：

https://x.com/1jaskiratsingh/status/2000701128431034736?s=20

https://end2end-diffusion.github.io/irepa/

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo)，鎖定新智元極速推送！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.