国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

謝賽寧REPA得到大幅改進(jìn),只需不到4行代碼

0
分享至



機器之心報道

編輯:Panda

鄒忌曾經(jīng)有一個問題:吾與徐公孰美?

而對于 REPA,也有一個類似的問題:全局信息空間結(jié)構(gòu),哪個對表征對齊更重要?

表征對齊(REPA)可通過將強大的預(yù)訓(xùn)練視覺編碼器的表征蒸餾為中間擴(kuò)散特征,來指導(dǎo)生成式訓(xùn)練。該方法于去年十月份問世,一直以來都備受關(guān)注,已成為加速擴(kuò)散 Transformer(Diffusion Transformers)訓(xùn)練的一項有力技術(shù)。參閱報道《擴(kuò)散模型訓(xùn)練方法一直錯了!謝賽寧:Representation matters》。

但是,其還有一個很基本的問題懸而未決:對生成而言,目標(biāo)表征的哪個方面更重要?是其「全局」語義信息(例如,以 ImageNet-1K 準(zhǔn)確率衡量),還是其空間結(jié)構(gòu)(即,圖像塊 token 之間的成對余弦相似度)?

此前,普遍觀點認(rèn)為,如果使用更強的全局語義性能作為目標(biāo)表征,可以帶來更好的生成效果。

為了研究這一點,Adobe Research、澳大利亞國立大學(xué)和紐約大學(xué)的一個聯(lián)合團(tuán)隊對 27 種不同的視覺編碼器和不同的模型規(guī)模進(jìn)行了大規(guī)模的實證分析。

然后他們得到了一個出人意料的結(jié)果:驅(qū)動目標(biāo)表征生成性能的是空間結(jié)構(gòu),而非全局性能!



更令人驚訝的是,基于此發(fā)現(xiàn),他們還構(gòu)建了一種簡單方法(代碼實現(xiàn)少于 4 行),即iREPA,其能在各種視覺編碼器、模型大小和訓(xùn)練變體(如 REPA、REPA-E、Meanflow、JiT 等)中持續(xù)提高 REPA 的收斂速度。



  • 論文標(biāo)題:What matters for Representation Alignment: Global Information or Spatial Structure?
  • 論文地址:https://arxiv.org/abs/2512.10794v1
  • 項目頁面:https://end2end-diffusion.github.io/irepa/

本論文的第一作者是 Jaskirat Singh,澳大利亞國立大學(xué)二年級博士生,他在 Adobe 實習(xí)期間完成了此研究。目前也正在 Meta 實習(xí)。

此外,作者名單中還有多位萬引大佬,包括 Adobe 資深研究科學(xué)家 Richard Zhang、Adobe 高級首席科學(xué)家 Eli Shechtman 以及我們熟悉的紐約大學(xué)謝賽寧。

下面我們來看看這項研究的具體內(nèi)容。

反直覺的發(fā)現(xiàn):全局強,不代表生成強

在深入探究之前,我們先來看幾個令人費解的現(xiàn)象。

長期以來,研究人員通常假設(shè):一個視覺編碼器在 ImageNet-1K 上的分類準(zhǔn)確率越高,它提取的特征就越好,用來指導(dǎo)擴(kuò)散模型生成圖像的效果也就應(yīng)該越好。

然而,論文作者在測試了 27 種不同的編碼器后,發(fā)現(xiàn)事實并非如此。

該團(tuán)隊舉了幾個非常有力的反例:

  • SAM2 的逆襲:分割模型 SAM2-S 的 ImageNet 準(zhǔn)確率僅為 24.1%,這在分類任務(wù)上可以說表現(xiàn)平平。然而,當(dāng)它被用作 REPA 的目標(biāo)表征時,其生成的圖像質(zhì)量(FID 分?jǐn)?shù))竟然優(yōu)于那些準(zhǔn)確率比它高出 60% 的模型(如 PE-Core-G)。
  • 大模型的困境:在同一個模型家族中,更大的參數(shù)量通常意味著更高的分類準(zhǔn)確率。但在表征對齊中,更大的模型(如 DINOv2-g)并不一定能帶來更好的生成效果,有時甚至更差。
  • 畫蛇添足的 CLS token:如果強行將包含全局信息的 [CLS] token 融合到圖像塊(patch)特征中,雖然線性探測(Linear Probing)準(zhǔn)確率上升了,但生成質(zhì)量(FID)卻顯著下降了。



這些現(xiàn)象指向了一個結(jié)論:更高的驗證準(zhǔn)確率,并不意味著它是更好的生成表征。

真正的主宰:空間結(jié)構(gòu)

如果不是全局語義信息在起作用,那究竟是什么在驅(qū)動生成性能?

作者提出假設(shè):是空間結(jié)構(gòu),即圖像塊 token 之間的成對余弦相似度。

為了量化這一指標(biāo),作者引入了空間自相似性(Spatial Self-Similarity)的概念。簡單來說,就是衡量特征圖在空間上的「紋理」和「關(guān)系」是否清晰。作者使用了幾種不同的度量標(biāo)準(zhǔn),其中最直觀的是LDS(Local vs. Distant Similarity):



通俗點說,LDS 衡量的是:在特征空間中,相鄰的圖像塊是否比相距較遠(yuǎn)的圖像塊更相似?如果一個編碼器能很好地保留這種「近親遠(yuǎn)疏」的空間結(jié)構(gòu),它的 LDS 分?jǐn)?shù)就高。



令人震驚的相關(guān)性出現(xiàn)了(如上圖所示):傳統(tǒng)的線性探測準(zhǔn)確率(代表全局信息)與生成質(zhì)量(FID)的相關(guān)性極低,皮爾遜相關(guān)系數(shù)僅為 r = -0.260。而空間結(jié)構(gòu)指標(biāo)(LDS) 與生成質(zhì)量的相關(guān)性高達(dá) |r| = 0.852!

這完美解釋了之前的反例:SAM2 雖然不懂「這張圖是貓」,但它極其擅長理解「貓的輪廓在哪里」,因此擁有極佳的空間結(jié)構(gòu),進(jìn)而帶來了出色的生成效果。

iREPA:不到 4 行代碼的改進(jìn)

既然明確了「空間結(jié)構(gòu)」才是核心,那么與其盲目追求更強的語義編碼器,不如想辦法在訓(xùn)練過程中強化空間信息的傳遞。

基于此,該團(tuán)隊提出了iREPA。但其核心改動非常簡單,代碼實現(xiàn)甚至不到 4 行,主要包含兩個修改:

1. 用卷積層替代 MLP 投影層

標(biāo)準(zhǔn)的 REPA 使用 MLP 將擴(kuò)散模型的特征映射到目標(biāo)表征的維度。作者指出,MLP 是「有損」的,會破壞 patch 之間的空間對比度。

其改進(jìn)方法是:將其替換為一個簡單的3×3 卷積層。卷積天然具有歸納偏置(Inductive Bias),能夠更好地保留局部的空間關(guān)系。

2. 引入空間歸一化層

作者發(fā)現(xiàn),預(yù)訓(xùn)練視覺編碼器的 patch token 中往往包含大量的全局信息(就像一層籠罩全圖的「霧」),導(dǎo)致前景和背景的 token 居然有不低的相似度。

其改進(jìn)方法是:既然這層全局均值信息對生成沒用甚至有害,那就把它去掉。作者對目標(biāo)表征引入了一個空間歸一化(Spatial Normalization)層,減去均值,除以標(biāo)準(zhǔn)差。這犧牲了全局信息,但極大地增強了 patch 之間的空間對比度。

算法代碼如下:



效果:提升顯著

iREPA 的有效性并非僅停留在理論層面,作者通過一系列大規(guī)模實驗,證明了這一改進(jìn)方案具有極強的魯棒性和通用性。



收斂速度更快

對于擴(kuò)散 Transformer(如 SiT-XL/2)的訓(xùn)練而言,收斂速度就是金錢。實驗結(jié)果表明,無論使用何種視覺編碼器作為「教師」,iREPA 都能顯著加速「學(xué)生」模型的訓(xùn)練收斂。

從下圖可以看到,在各種模型規(guī)模(SiT-XL/2, SiT-B/2)和編碼器(DINOv3, WebSSL, CLIP 等)下,iREPA 都顯著提高了收斂速度 。



編碼器通用性

通常一種優(yōu)化方法可能只對特定類型的模型有效,但 iREPA 展現(xiàn)出了驚人的通用性。作者測試了多達(dá) 27 種不同的視覺編碼器,涵蓋了監(jiān)督學(xué)習(xí)(如 DeiT)、自監(jiān)督學(xué)習(xí)(如 DINOv2, MoCo v3, MAE)以及多模態(tài)模型(如 CLIP)。

如下圖所示,在橫跨所有測試的編碼器中,iREPA(紅色柱狀圖)的生成 FID 分?jǐn)?shù)均低于標(biāo)準(zhǔn) REPA(藍(lán)色柱狀圖)。



可以看到,即使是像 SAM2 這樣分類準(zhǔn)確率極低(24.1%)的分割模型,在經(jīng)過 iREPA 的空間增強處理后,其指導(dǎo)生成的 FID 分?jǐn)?shù)甚至優(yōu)于許多分類強模型。

同時,對于 DINOv3 和 WebSSL 等目前最強的特征提取器,iREPA 依然能進(jìn)一步壓低 FID,提升生成上限。

擴(kuò)展性:模型越大,收益越高

這是一個非常符合「Scaling Law」趨勢的發(fā)現(xiàn)。作者探究了 iREPA 在不同規(guī)模模型上的表現(xiàn):

  • 編碼器規(guī)模:當(dāng)視覺編碼器從 PE-B (90M) 增大到 PE-G (1.88B) 時,iREPA 帶來的性能提升百分比也隨之增加(從 22.2% 提升至 39.6%)。
  • 擴(kuò)散模型規(guī)模:當(dāng)生成模型從 SiT-B (130M) 擴(kuò)展到 SiT-XL (675M) 時,iREPA 帶來的相對增益同樣在擴(kuò)大。這意味著,模型做得越大,空間結(jié)構(gòu)的重要性就越顯著,iREPA 的價值也就越高



廣泛適用性

iREPA 并不僅限于特定的 Transformer 架構(gòu),它能無縫集成到各種現(xiàn)有的先進(jìn)訓(xùn)練流中.

像素空間擴(kuò)散 (Pixel-space Diffusion):在下圖中,作者展示了將 iREPA 應(yīng)用于 JiT (Just-in-Time) 模型的結(jié)果。即使在像素空間操作,強化空間信息傳遞依然能顯著加速收斂.



先進(jìn)配方兼容: 如下表所示,當(dāng)結(jié)合 REPA-E(一種端到端調(diào)優(yōu) VAE 的方法)或 MeanFlow 等最新技術(shù)時,iREPA 依然能穩(wěn)定地提供額外的性能增益。這說明它觸及了生成模型訓(xùn)練的一個底層共性問題,而非僅僅是某種特定設(shè)置下的特例。



視覺質(zhì)量有肉眼可見的結(jié)構(gòu)改善

除了枯燥的數(shù)據(jù),生成的圖像本身最有說服力。

如下圖所示,對比標(biāo)準(zhǔn) REPA 和 iREPA 生成的樣本(如魚、公雞、貓等類別),可以發(fā)現(xiàn) iREPA 生成的圖像在物體輪廓、紋理細(xì)節(jié)和整體結(jié)構(gòu)的連貫性上都要優(yōu)于前者。



而在下圖中,作者可視化了經(jīng)過卷積投影和空間歸一化后的特征圖??梢钥吹?,通過 iREPA 處理后,特征圖(右側(cè))明顯比標(biāo)準(zhǔn) REPA(左側(cè))保留了更清晰的語義邊界和空間對比度,前景與背景的區(qū)分更加鮮明。



該團(tuán)隊也進(jìn)行了消融實驗,驗證了各組件的有效性。



結(jié)語

這篇論文與其說是提出了一種新方法,不如說是通過扎實的實證分析,撥正了社區(qū)的關(guān)注點。它告訴我們,在利用預(yù)訓(xùn)練模型加速生成任務(wù)時,不要被「ImageNet 準(zhǔn)確率」這一單一指標(biāo)所迷惑。

對于生成模型而言,理解像素之間的空間關(guān)系,遠(yuǎn)比知道「這圖里有只狗」要重要得多。正如作者在文中總結(jié)的那樣:Spatial structure not global information determines the generation performance.

更多詳情請訪問原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

商業(yè)與生活
2025-12-19 11:43:38
蘇聯(lián)不要的裝備,70萬武器被八路軍拉3天3夜,撿出“半個軍械庫”

蘇聯(lián)不要的裝備,70萬武器被八路軍拉3天3夜,撿出“半個軍械庫”

古書記史
2025-12-15 23:29:05
誰說屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

誰說屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

小喬古裝漢服
2025-11-12 11:46:01
4天5條人命,中國不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負(fù)

4天5條人命,中國不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負(fù)

春秋論娛
2025-12-18 07:11:35
Angelababy在上海與一眾網(wǎng)紅聚會!這真是“美得突出”

Angelababy在上海與一眾網(wǎng)紅聚會!這真是“美得突出”

今古深日報
2025-12-18 11:58:58
案例:北京一女教授在家養(yǎng)病長達(dá)10年,民警進(jìn)門后,當(dāng)場愣在原地

案例:北京一女教授在家養(yǎng)病長達(dá)10年,民警進(jìn)門后,當(dāng)場愣在原地

蘭姐說故事
2025-01-02 20:00:06
掃地機器人鼻祖宣布破產(chǎn)

掃地機器人鼻祖宣布破產(chǎn)

臺州交通廣播
2025-12-16 20:24:44
王雷李小萌露餡!出席活動冷臉互不理睬 原來恩愛只是“遮羞布”

王雷李小萌露餡!出席活動冷臉互不理睬 原來恩愛只是“遮羞布”

好賢觀史記
2025-12-18 12:44:59
緬甸電詐園區(qū)暗藏軍事基地,遭泰軍大規(guī)模轟炸

緬甸電詐園區(qū)暗藏軍事基地,遭泰軍大規(guī)模轟炸

遠(yuǎn)方青木
2025-12-18 23:51:19
全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國首富在干啥

全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國首富在干啥

策略述
2025-12-19 12:39:06
男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發(fā)地為私人承包區(qū),已排查公園安全隱患

男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發(fā)地為私人承包區(qū),已排查公園安全隱患

極目新聞
2025-12-18 17:10:51
不查不知道!龐萊臣后人與南京博物院,早在2014年就打起了官司…

不查不知道!龐萊臣后人與南京博物院,早在2014年就打起了官司…

火山詩話
2025-12-18 18:47:29
劉二狗栽了!泳池派對搞低俗親密互動直播,4400 萬粉也救不了!

劉二狗栽了!泳池派對搞低俗親密互動直播,4400 萬粉也救不了!

小椰的奶奶
2025-12-19 12:15:15
日本人靠它發(fā)財,美國人用它打仗,中國人卻把它當(dāng)毒藥扔進(jìn)垃圾桶

日本人靠它發(fā)財,美國人用它打仗,中國人卻把它當(dāng)毒藥扔進(jìn)垃圾桶

策略述
2025-12-18 14:11:27
張繼科"炮轟"劉國梁,2017年換教練不提前說,誰會高三換語文老師

張繼科"炮轟"劉國梁,2017年換教練不提前說,誰會高三換語文老師

查爾菲的筆記
2025-10-12 17:15:34
1984年他一聲令下,把老山幾千噸炮彈當(dāng)水潑,2019年葬禮現(xiàn)場,昔日部下已是軍委副主席,含淚送別這位鐵血師長!

1984年他一聲令下,把老山幾千噸炮彈當(dāng)水潑,2019年葬禮現(xiàn)場,昔日部下已是軍委副主席,含淚送別這位鐵血師長!

史海孤雁
2025-12-17 16:50:24
石破茂預(yù)言果然應(yīng)驗,中方還沒開始反制,日企就已經(jīng)撐不住了

石破茂預(yù)言果然應(yīng)驗,中方還沒開始反制,日企就已經(jīng)撐不住了

鐵錘簡科
2025-12-19 13:22:04
泰王又封00后“新妃”,王后素顏跑馬淡定!真宮斗冠軍不在怕的

泰王又封00后“新妃”,王后素顏跑馬淡定!真宮斗冠軍不在怕的

商務(wù)范
2025-12-18 14:16:58
當(dāng)前最火的五部電視劇,《老舅》跌至第二,你在追哪一部?

當(dāng)前最火的五部電視劇,《老舅》跌至第二,你在追哪一部?

草莓解說體育
2025-12-19 10:26:11
美國一富豪被冷凍50年,原定2017年蘇醒,解凍時工作人員緊急叫停

美國一富豪被冷凍50年,原定2017年蘇醒,解凍時工作人員緊急叫停

蜉蝣說
2025-12-01 11:20:58
2025-12-19 14:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11953文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

團(tuán)播女生私下賣力維護(hù)"大哥":經(jīng)常擦邊 有女生會被約走

頭條要聞

團(tuán)播女生私下賣力維護(hù)"大哥":經(jīng)常擦邊 有女生會被約走

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬

態(tài)度原創(chuàng)

手機
本地
家居
房產(chǎn)
公開課

手機要聞

榮耀WIN系列手機配置曝光:6.83英寸185Hz直屏,跑分超440萬

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

家居要聞

高端私宅 理想隱居圣地

房產(chǎn)要聞

萬科·三亞嘉瀾地,萬科高端旅居系1號作品全球發(fā)布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版