国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

推特吵架吵出篇論文!謝賽寧團(tuán)隊(duì)新作iREPA只要3行代碼

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

要說(shuō)真學(xué)術(shù),還得看推特。

剛剛,謝賽寧自曝團(tuán)隊(duì)新作iREPA其實(shí)來(lái)自4個(gè)多月前的,一次與網(wǎng)友的辯論。



這場(chǎng)短暫的線上辯論雖然以謝賽寧被網(wǎng)友說(shuō)服告終,但在3個(gè)多月后,居然有了意料之外的后續(xù)——

多個(gè)團(tuán)隊(duì)合作,沿著這一思路寫出了一篇完整的論文,而且核心框架僅需3行代碼。



致謝部分還感謝了當(dāng)時(shí)參與討論的網(wǎng)友。



一篇推特引發(fā)的學(xué)術(shù)論文

事情是這樣的。

一位網(wǎng)友在8月份表示:

  • 別再癡迷于ImageNet-1K的分類分?jǐn)?shù)了!自監(jiān)督學(xué)習(xí)(SSL)模型應(yīng)該專門為稠密任務(wù)(如REPA、VLM等)進(jìn)行訓(xùn)練,因?yàn)檫@些任務(wù)真正依賴的是patch tokens中的空間和局部信息,而不是[CLS]token所代表的全局分類性能。



(注:稠密任務(wù)就是要求模型對(duì)圖像中的“每一個(gè)像素”或“每一個(gè)局部區(qū)域”都做出預(yù)測(cè)的計(jì)算機(jī)視覺任務(wù),這類任務(wù)需要精確的空間和局部細(xì)節(jié)信息,而不僅僅是全局分類標(biāo)簽)

對(duì)于網(wǎng)友的觀點(diǎn),謝賽寧表示:

  • 不,使用patch token并不意味著就是在做稠密任務(wù)。VLM和REPA的性能與它們?cè)贗N1K上的得分高度相關(guān),而與patch級(jí)別的對(duì)應(yīng)關(guān)系只有很弱的關(guān)聯(lián)。這并不是[CLS]token的問(wèn)題,而是高層語(yǔ)義與低層像素相似性之間的差別。



對(duì)于謝賽寧的反駁,網(wǎng)友舉出了SigLIPv2和PE-core優(yōu)于DINOv2 for REPA的例子。



與此同時(shí),另一位網(wǎng)友也加入了戰(zhàn)斗:

  • 這是個(gè)合理的問(wèn)題。為了做直接對(duì)比,在沒有DINOv3早期checkpoint的情況下,或許可以用REPA來(lái)比較PEspatial和PEcore。其中,PEspatial可以理解為:將PEcore的Gram-anchor對(duì)齊到更早的網(wǎng)絡(luò)層,并結(jié)合SAM2.1。



對(duì)此,謝賽寧表示:

  • 非常好!感謝你的指路/提示。我很喜歡這個(gè)方案。否則干擾因素會(huì)太多了。兩個(gè)checkpoint都已經(jīng)有了(G/14,448 分辨率),希望我們很快就能拿到一些結(jié)果。



3個(gè)多月后,謝賽寧表示自己之前的判斷站不住腳,而且這次的論文反而帶來(lái)了更深入的理解。

還有貼心小貼士,提示網(wǎng)友可以看看致謝部分。



對(duì)于自己在致謝中被提到,參與討論的網(wǎng)友之一表示很有意思:

  • 也謝謝你一路跟進(jìn)!被致謝提到我也很受寵若驚。



謝賽寧還表示,這次討論本身就是一次小實(shí)驗(yàn)——他想看看,一種新的“線上茶水間效應(yīng)”是否真的能夠發(fā)生。

他很享受這種狀態(tài):先有分歧、有爭(zhēng)論,再通過(guò)真正的實(shí)驗(yàn)和投入,把直覺拉回到可被驗(yàn)證的科學(xué)結(jié)論上。

不得不說(shuō),這樣開放、即時(shí)、可糾錯(cuò)的學(xué)術(shù)討論,確實(shí)值得多來(lái)一些。

接下來(lái),我們就一起來(lái)看看由此催生的最新論文。

空間結(jié)構(gòu)才是驅(qū)動(dòng)目標(biāo)表征生成性能的主要因素

承接上面的討論,這篇最新論文探討了一個(gè)核心的基礎(chǔ)問(wèn)題:

在用預(yù)訓(xùn)練視覺編碼器表征來(lái)指導(dǎo)生成模型時(shí),究竟是表征的哪一部分在決定生成質(zhì)量?

是其全局語(yǔ)義信息(ImageNet-1K上的分類準(zhǔn)確率)還是其空間結(jié)構(gòu)(即補(bǔ)丁tokens之間的成對(duì)余弦相似度)?

論文給出的結(jié)論是:更好的全局語(yǔ)義信息并不等于更好的生成,空間結(jié)構(gòu)(而非全局語(yǔ)義)才是表征生成性能的驅(qū)動(dòng)力。

傳統(tǒng)觀念(包括謝賽寧本人)認(rèn)為具有更強(qiáng)全局語(yǔ)義性能的表征會(huì)帶來(lái)更好的生成效果,但研究卻表明更大的視覺編碼器反而可能帶來(lái)更差的生成性能

其中,線性檢測(cè)準(zhǔn)確率只有約20%的視覺編碼器,反而可以超過(guò)準(zhǔn)確率>80%的編碼器。

而且,如果試圖通過(guò)CLS token向patch token注入更多全局語(yǔ)義,生成性能還會(huì)被拉低。



與此同時(shí),研究還發(fā)現(xiàn)生成效果更好的表征,往往具有更強(qiáng)的空間結(jié)構(gòu)(可通過(guò)空間自相似性指標(biāo)來(lái)衡量)

也就是說(shuō),圖像中某一部分的token會(huì)如何關(guān)注圖像中其他區(qū)域的token。



在具體的研究方法上,研究通過(guò)一次大規(guī)模的定量相關(guān)性分析對(duì)這一觀察進(jìn)行了細(xì)化驗(yàn)證:分析覆蓋了27 種不同的視覺編碼器(包括 DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP 等)以及3種模型規(guī)模(B、L、XL)。



而在進(jìn)一步的評(píng)測(cè)中,空間信息的重要性被進(jìn)一步拔高:即便是像SIFT、HOG這樣的經(jīng)典空間特征,也能帶來(lái)與PE-G等現(xiàn)代、更大規(guī)模視覺編碼器相當(dāng)、具有競(jìng)爭(zhēng)力的提升。



在測(cè)試得出結(jié)論后,論文又基于現(xiàn)有的表征對(duì)齊(REPA)框架進(jìn)行分析和修改,提出了iREPA。

  • 投影層改進(jìn): 將REPA中標(biāo)準(zhǔn)的MLP投影層替換為一個(gè)簡(jiǎn)單的卷積層。
  • 空間規(guī)范化: 為外部表征引入一個(gè)空間規(guī)范化層。



這些簡(jiǎn)單的修改(如在DeCo框架下的實(shí)現(xiàn))旨在保留并強(qiáng)化空間結(jié)構(gòu)信息,相比原始的REPA方法能顯著提升性能。

值得一提的是iREPA,只需3行代碼即可添加到任何表示對(duì)齊方法中,并且在各種訓(xùn)練方案(如REPA、REPA-E、Meanflow 以及最近推出的 JiT)中都能實(shí)現(xiàn)持續(xù)更快的收斂。



[1]https://x.com/YouJiacheng/status/1957073253769380258

[2]https://arxiv.org/abs/2512.10794

[3]https://x.com/sainingxie/status/2000709656491286870

[4]https://x.com/1jaskiratsingh/status/2000701128431034736

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“女吃播三巨頭”現(xiàn)狀:臉像骷髏、摘除味覺神經(jīng),有人已立好遺囑

“女吃播三巨頭”現(xiàn)狀:臉像骷髏、摘除味覺神經(jīng),有人已立好遺囑

爆侃君
2025-12-15 10:17:51
對(duì)臺(tái)110億軍售后,不到24小時(shí),美國(guó)收中方通知,13萬(wàn)噸訂單沒了

對(duì)臺(tái)110億軍售后,不到24小時(shí),美國(guó)收中方通知,13萬(wàn)噸訂單沒了

時(shí)時(shí)有聊
2025-12-18 20:55:37
日本邀中亞五國(guó)參會(huì),只托卡耶夫一人抵達(dá),中亞現(xiàn)首個(gè)“變色龍”

日本邀中亞五國(guó)參會(huì),只托卡耶夫一人抵達(dá),中亞現(xiàn)首個(gè)“變色龍”

觸摸史跡
2025-12-19 10:38:14
啃老式孝順正在流行,65歲大媽哭訴:去女兒家養(yǎng)老,倒貼錢還遭罪

啃老式孝順正在流行,65歲大媽哭訴:去女兒家養(yǎng)老,倒貼錢還遭罪

人間百態(tài)大全
2025-12-18 06:45:03
被中國(guó)捏中死穴,日本國(guó)內(nèi)大亂,高市徹底慌了神,緊急討?zhàn)堃矝]用

被中國(guó)捏中死穴,日本國(guó)內(nèi)大亂,高市徹底慌了神,緊急討?zhàn)堃矝]用

星落山間
2025-12-18 18:40:35
洪森危險(xiǎn)了,不在佩通坦報(bào)復(fù),而是馬仔陳志的150億比特幣被抄!

洪森危險(xiǎn)了,不在佩通坦報(bào)復(fù),而是馬仔陳志的150億比特幣被抄!

南宮一二
2025-10-26 07:52:25
臺(tái)北發(fā)生攻擊事件,已致9人受傷其中4人命危

臺(tái)北發(fā)生攻擊事件,已致9人受傷其中4人命危

澎湃新聞
2025-12-19 20:41:06
國(guó)安玩兒的就是心跳!三鎮(zhèn)解散啪啪打臉 亞泰有機(jī)會(huì)遞補(bǔ) 梅州回爐

國(guó)安玩兒的就是心跳!三鎮(zhèn)解散啪啪打臉 亞泰有機(jī)會(huì)遞補(bǔ) 梅州回爐

刀鋒體育
2025-12-19 08:12:53
Angelababy在上海與一眾網(wǎng)紅聚會(huì)!這真是“美得突出”

Angelababy在上海與一眾網(wǎng)紅聚會(huì)!這真是“美得突出”

今古深日?qǐng)?bào)
2025-12-18 11:58:58
案例:北京一女教授在家養(yǎng)病長(zhǎng)達(dá)10年,民警進(jìn)門后,當(dāng)場(chǎng)愣在原地

案例:北京一女教授在家養(yǎng)病長(zhǎng)達(dá)10年,民警進(jìn)門后,當(dāng)場(chǎng)愣在原地

蘭姐說(shuō)故事
2025-01-02 20:00:06
斯諾克賽程:決出4強(qiáng),中國(guó)3將對(duì)陣冠軍選手,2大TOP16登場(chǎng)!

斯諾克賽程:決出4強(qiáng),中國(guó)3將對(duì)陣冠軍選手,2大TOP16登場(chǎng)!

劉姚堯的文字城堡
2025-12-19 08:44:14
上海卷煙廠的那些老牌子,抽過(guò)五個(gè)的都是有頭有臉的人物

上海卷煙廠的那些老牌子,抽過(guò)五個(gè)的都是有頭有臉的人物

小怪吃美食
2025-12-19 13:57:56
30年果粉兌換禮品卡后被封號(hào):用了25年的Apple ID被永久停用

30年果粉兌換禮品卡后被封號(hào):用了25年的Apple ID被永久停用

快科技
2025-12-19 14:26:06
浙江多個(gè)縣(市、區(qū))委書記調(diào)整

浙江多個(gè)縣(市、區(qū))委書記調(diào)整

上觀新聞
2025-12-19 08:47:13
什么是執(zhí)行力?執(zhí)行力就是:跳過(guò)情緒直接做事,理解的就在理解中執(zhí)行,不理解的就在執(zhí)行中理解。

什么是執(zhí)行力?執(zhí)行力就是:跳過(guò)情緒直接做事,理解的就在理解中執(zhí)行,不理解的就在執(zhí)行中理解。

德魯克博雅管理
2025-12-18 17:06:29
我給市長(zhǎng)寫了8年發(fā)言稿,關(guān)系戶頂了我位置,大會(huì)前稿子卻出現(xiàn)問(wèn)題

我給市長(zhǎng)寫了8年發(fā)言稿,關(guān)系戶頂了我位置,大會(huì)前稿子卻出現(xiàn)問(wèn)題

張道陵秘話
2025-12-14 21:35:05
放過(guò)觀眾吧!這5位春晚“混子”演啥啥不行,遭到觀眾抵制

放過(guò)觀眾吧!這5位春晚“混子”演啥啥不行,遭到觀眾抵制

趣文說(shuō)娛
2025-12-18 16:56:26
塔吊距樓18米、安全出口減半……中央安全生產(chǎn)考核巡查組明察暗訪細(xì)節(jié)披露

塔吊距樓18米、安全出口減半……中央安全生產(chǎn)考核巡查組明察暗訪細(xì)節(jié)披露

環(huán)球網(wǎng)資訊
2025-12-15 14:55:13
影子調(diào)查|一起家校矛盾,沖突到“裂開”

影子調(diào)查|一起家校矛盾,沖突到“裂開”

澎湃新聞
2025-12-19 08:02:28
鄭麗文殺雞儆猴!對(duì)黨內(nèi)開刀、向大陸交底,劍指“藍(lán)皮綠骨”之徒

鄭麗文殺雞儆猴!對(duì)黨內(nèi)開刀、向大陸交底,劍指“藍(lán)皮綠骨”之徒

老范談史
2025-12-18 18:31:42
2025-12-19 21:16:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11883文章數(shù) 176340關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

美方"國(guó)防授權(quán)法案"塞入涉臺(tái)錯(cuò)誤內(nèi)容 國(guó)臺(tái)辦回應(yīng)

頭條要聞

美方"國(guó)防授權(quán)法案"塞入涉臺(tái)錯(cuò)誤內(nèi)容 國(guó)臺(tái)辦回應(yīng)

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

日元加息,恐慌來(lái)了?貨幣三國(guó)殺

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

本地
親子
房產(chǎn)
旅游
公開課

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

親子要聞

幼師專業(yè)大幅縮招,去年幼兒園教師減少超24萬(wàn)

房產(chǎn)要聞

廣州有態(tài)度,一座國(guó)際化社區(qū)給出的城市答案

旅游要聞

爽居暢游!貴州到廣州發(fā)布“小車小團(tuán)”高端服務(wù)產(chǎn)品

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版