国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

自回歸也能做強(qiáng)視覺模型?NEPA「下一嵌入預(yù)測」時(shí)代,謝賽寧參與

0
分享至



編輯|Panda

眾所周知,LeCun 不喜自回歸,并且還提出了一種名為聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)的新方向,并且該方向也一直在有新成果涌現(xiàn)。

然而,自回歸模型的成功也是有目共睹的,尤其是在語言領(lǐng)域。那么,生成式預(yù)訓(xùn)練在自然語言上的成功能否在視覺領(lǐng)域重現(xiàn)呢?

近日,密歇根大學(xué)、紐約大學(xué)、普林斯頓大學(xué)和弗吉尼亞大學(xué)的一個(gè)聯(lián)合研究團(tuán)隊(duì)對此給出了肯定答案。

只不過,他們不是訓(xùn)練模型輸出用于下游任務(wù)的特征,而是讓它們生成嵌入(embeddings)以直接執(zhí)行預(yù)測任務(wù)。可以說,這是從學(xué)習(xí)表征(learning representations)到學(xué)習(xí)模型(learning models)的一種范式轉(zhuǎn)變。

具體而言,模型會(huì)通過因果掩碼(causal masking)和停止梯度(stop gradient),以過去圖塊嵌入為條件,學(xué)習(xí)預(yù)測未來的圖塊嵌入。類似于下一 token 預(yù)測,該團(tuán)隊(duì)將這種方法稱為下一嵌入預(yù)測自回歸(Next-Embedding Predictive Autoregression),簡稱NEPA



  • 論文標(biāo)題:Next-Embedding Prediction Makes Strong Vision Learners
  • 論文地址:https://arxiv.org/abs/2512.16922v1
  • 項(xiàng)目地址:https://sihanxu.me/nepa/
  • 代碼地址:https://github.com/SihanXU/nepa
  • 模型地址:https://huggingface.co/collections/SixAILab/nepa

該論文目前正是 alphaXiv 上熱度第一的論文。



本文第一作者為 Sihan Xu,密歇根大學(xué)博士生,導(dǎo)師是密歇根大學(xué)電氣工程與計(jì)算機(jī)科學(xué)系正教授 Stella X. Yu;這項(xiàng)研究的部分工作是其在紐約大學(xué)訪問期間完成。紐約大學(xué)著名研究科學(xué)家謝賽寧也在作者名單中。

范式的轉(zhuǎn)變

視覺預(yù)訓(xùn)練是計(jì)算機(jī)視覺的核心議題之一。自監(jiān)督學(xué)習(xí)也已成為現(xiàn)代視覺預(yù)訓(xùn)練方法的基石,使得無需人工標(biāo)簽即可訓(xùn)練可擴(kuò)展的視覺學(xué)習(xí)器。

其核心目標(biāo)是學(xué)習(xí)表征(learn representations):優(yōu)化模型,從而將原始像素映射到固定維度的表征,這些表征隨后可被使用或針對下游任務(wù)進(jìn)行微調(diào)。

這一哲學(xué)統(tǒng)一了基于實(shí)例判別(instance discrimination)、自蒸餾(self-distillation)和掩碼重建(masked reconstruction)的方法。

其目標(biāo)是學(xué)習(xí)能夠被各種規(guī)模的下游模塊(從輕量級的特定于任務(wù)的頭到諸如視覺 - 語言模型等大型級聯(lián)系統(tǒng))所使用的視覺表征。

現(xiàn)代自然語言處理的成功則建立在一個(gè)根本不同的范式之上。

語言模型的預(yù)訓(xùn)練目標(biāo)并不是作為特征提取器;而是作為生成式和預(yù)測式系統(tǒng)。其目標(biāo)不是生成句子的靜態(tài)嵌入,而是通過一個(gè)簡單的因果目標(biāo)(causal objective)對數(shù)據(jù)分布本身進(jìn)行建模。

這種訓(xùn)練會(huì)迫使模型內(nèi)化語言中的語義和條件依賴關(guān)系。推理不再是一個(gè)「編碼→解決任務(wù)」的兩階段過程,而是由模型本身執(zhí)行的單一預(yù)測計(jì)算。

這一區(qū)別至關(guān)重要,涉及根本。它表明:生成式預(yù)測(而非表征學(xué)習(xí))可能提供了一條擴(kuò)展預(yù)訓(xùn)練的直接途徑。

最近的一系列研究已經(jīng)轉(zhuǎn)向了這一哲學(xué)。例如:

  • 早期的像素級生成式預(yù)訓(xùn)練(iGPT)展示了可遷移的特征,但在處理超長序列和弱語義對齊方面表現(xiàn)一般。
  • JEPA 超越了像素層面,通過預(yù)測潛在目標(biāo)(latent targets)來更緊密地與語義結(jié)構(gòu)對齊。然而,JEPA 依然是通過從動(dòng)量編碼器(momentum encoder)回歸到潛在目標(biāo)來進(jìn)行訓(xùn)練,而不是將生成式預(yù)測作為自監(jiān)督目標(biāo)。

基于這些觀察,Sihan Xu 等人想知道:極簡的因果預(yù)訓(xùn)練是否也能產(chǎn)生強(qiáng)大的視覺學(xué)習(xí)器。

具體來說,圖像被分解為圖塊(patches),這些圖塊再被映射為圖塊級嵌入的序列。然后訓(xùn)練一個(gè)因果 Transformer,在給定所有先前嵌入的情況下預(yù)測下一個(gè)嵌入,這與語言模型中的「下一 Token 預(yù)測」范式非常近似。

基于這些觀察,Sihan Xu 等人想知道:極簡的因果預(yù)訓(xùn)練是否也能產(chǎn)生強(qiáng)大的視覺學(xué)習(xí)器?

具體來說,圖像被分解為圖塊(patches),這些圖塊再被映射為圖塊級嵌入的序列。然后訓(xùn)練一個(gè)因果 Transformer,在給定所有先前嵌入的情況下預(yù)測下一個(gè)嵌入,這與語言模型中的「下一 Token 預(yù)測」范式非常近似。

該團(tuán)隊(duì)對目標(biāo)嵌入使用停止梯度(stop-gradient)以創(chuàng)建一個(gè)穩(wěn)定的預(yù)測任務(wù)。這種形式是刻意保持極簡的。它不需要像素級解碼器、不需要離散的視覺 Tokenizer(分詞器),也不需要對比學(xué)習(xí)中常見的工程化數(shù)據(jù)增強(qiáng)、負(fù)樣本對或動(dòng)量編碼器。整個(gè)學(xué)習(xí)信號源于模型在嵌入空間中預(yù)測未來的能力。

于是乎,一個(gè)新的模型家族誕生了:下一嵌入預(yù)測自回歸(NEPA)

下一嵌入預(yù)測自回歸(NEPA)

整體來看,NEPA 方法是極簡主義的。如果說現(xiàn)在的視覺模型都在比拼誰的裝備更復(fù)雜(動(dòng)量編碼器、解碼器、離散 Tokenizer……),那么 NEPA 就是那個(gè)穿著白 T 恤走進(jìn)戰(zhàn)場的選手。它的核心哲學(xué)非常簡單:像 GPT 預(yù)測下一個(gè)詞那樣,去預(yù)測圖像的下一個(gè)「特征塊」。



其核心思路可以總結(jié)如下:

  • 切塊與編碼:首先,把一張圖切成若干小塊(Patch),每一塊通過編碼器變成一個(gè)向量(Embedding)。
  • 預(yù)測未來:觀看前面的塊,猜下一塊長什么樣。這和語言模型(LLM)的「下一詞預(yù)測」相似,只不過這里處理的是連續(xù)的數(shù)學(xué)向量,而不是離散的詞。
  • 防止「作弊」:為了防止模型偷懶(比如輸出一樣的結(jié)果),作者借用了 SimSiam 的經(jīng)典招數(shù):停止梯度(Stop-Gradient)。簡單說,就是讓作為「標(biāo)準(zhǔn)答案」的那個(gè)目標(biāo)向量保持靜止,不參與反向傳播。這就像是射箭時(shí),靶子必須固定,不能讓你把靶子移到箭射中的地方。

具體到架構(gòu)設(shè)計(jì)上,他們采用了一個(gè)帶有因果注意力掩碼的標(biāo)準(zhǔn)視覺 Transformer(ViT)主干網(wǎng)絡(luò)。

與像素級重建方法不同,該方法不需要單獨(dú)的解碼器。該 Transformer 直接根據(jù)過去的圖像塊嵌入來預(yù)測未來的圖像塊嵌入,使用單個(gè)主干網(wǎng)絡(luò)同時(shí)進(jìn)行上下文編碼和預(yù)測,這與自回歸語言模型類似。圖像通過一個(gè)二維卷積(Conv2d)圖像塊嵌入層被分割成不重疊的圖像塊,并在輸入到 Transformer 之前添加可學(xué)習(xí)的位置嵌入。

他們采用了帶有層歸一化(LayerNorm) 的預(yù)歸一化設(shè)計(jì),并對輸出特征應(yīng)用最終的層歸一化。

為了提高穩(wěn)定性和可擴(kuò)展性,該團(tuán)隊(duì)該結(jié)合了受 DINOv3 和視覺大語言模型 VisionLLaMA 啟發(fā)的現(xiàn)代訓(xùn)練和歸一化方法,如圖 2 所示。



這些模型設(shè)計(jì)有助于訓(xùn)練,但與核心框架無關(guān),感興趣的讀者可參閱原論文以及相關(guān)論文。

訓(xùn)練好之后怎么用呢?換個(gè)「頭」就行。下面是兩個(gè)例子:

  • 分類:取出最后一個(gè)預(yù)測出來的嵌入向量,接個(gè)簡單的分類頭,就能識(shí)別這是貓還是狗。
  • 分割:接一個(gè) UPerNet 頭。有趣的是,雖然訓(xùn)練時(shí)是「只看過去」的單向預(yù)測,但在做分割這種需要全局信息的任務(wù)時(shí),可以解除封印,開啟雙向注意力(Bidirectional Attention),讓模型看清全圖。

總之,NEPA 證明了,只要你有一個(gè)好的預(yù)測目標(biāo),就不需要那些花里胡哨的架構(gòu),一個(gè)標(biāo)準(zhǔn)的 Transformer 加上「防坍塌」技巧,就能成為頂級的視覺學(xué)習(xí)者。

實(shí)驗(yàn)結(jié)果

在量化性能方面,NEPA 展現(xiàn)出了與 SOTA 方法相媲美甚至更優(yōu)的實(shí)力。

僅在 ImageNet-1K 上進(jìn)行預(yù)訓(xùn)練,NEPA 的 ViT-B 和 ViT-L 模型分別達(dá)到了 83.8% 和 85.3% 的 Top-1 準(zhǔn)確率,這一成績優(yōu)于 MoCo v3、BEiT,并與 MAE 和 JEPA 處于同一水平。



更重要的是,盡管預(yù)訓(xùn)練過程中從未涉及像素重建,NEPA 依然表現(xiàn)出了強(qiáng)大的遷移能力,在 ADE20K 語義分割任務(wù)上分別取得了 48.3% 和 54.0% 的 mIoU,證明了純粹的嵌入預(yù)測足以學(xué)習(xí)到處理密集預(yù)測任務(wù)所需的豐富語義特征。



最后,通過對模型內(nèi)部注意力和嵌入的可視化分析,研究揭示了 NEPA 的有效性來源。



可視化結(jié)果顯示,模型自動(dòng)學(xué)會(huì)了長距離且以對象為中心的注意力模式,能夠忽略背景干擾,將注意力集中在語義相關(guān)的區(qū)域。同時(shí),預(yù)測出的嵌入向量在語義上與屬于同一物體的其他圖塊高度相似,表明模型并非死記硬背局部紋理,而是真正理解了物體層面的結(jié)構(gòu)。

這種通過簡單的「下一嵌入預(yù)測」所習(xí)得的全局語義依賴,不僅驗(yàn)證了該方法的有效性,也為跨模態(tài)的統(tǒng)一預(yù)訓(xùn)練范式提供了一種無需復(fù)雜手工設(shè)計(jì)的通用視角。

消融實(shí)驗(yàn)和更多詳情請參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“新國補(bǔ)”首周,哪些產(chǎn)品銷售最火

“新國補(bǔ)”首周,哪些產(chǎn)品銷售最火

新華社
2026-01-09 15:50:07
特雷楊缺席!鵜鶘大勝奇才結(jié)束9連敗 墨菲35分錫安31分奎因三雙

特雷楊缺席!鵜鶘大勝奇才結(jié)束9連敗 墨菲35分錫安31分奎因三雙

醉臥浮生
2026-01-10 10:30:44
別想歪,廢止《關(guān)于嚴(yán)禁賣淫嫖娼的決定》≠賣淫嫖娼合法化了

別想歪,廢止《關(guān)于嚴(yán)禁賣淫嫖娼的決定》≠賣淫嫖娼合法化了

知識(shí)圈
2026-01-09 20:01:22
67歲千萬富翁李幼斌:錢再多有何用?中老年人當(dāng)醒悟

67歲千萬富翁李幼斌:錢再多有何用?中老年人當(dāng)醒悟

半身Naked
2026-01-09 23:07:33
丈夫出軌贈(zèng)與情人超1900萬!妻子起訴要求返還獲法院支持

丈夫出軌贈(zèng)與情人超1900萬!妻子起訴要求返還獲法院支持

南方都市報(bào)
2026-01-10 10:18:07
來伊份深陷虧損,實(shí)控人施永雷夫婦累計(jì)套現(xiàn)超4億

來伊份深陷虧損,實(shí)控人施永雷夫婦累計(jì)套現(xiàn)超4億

財(cái)中社
2026-01-09 14:55:51
閆學(xué)晶事件再升級!官媒下場發(fā)文銳評,言辭犀利,句句直戳她心窩

閆學(xué)晶事件再升級!官媒下場發(fā)文銳評,言辭犀利,句句直戳她心窩

社會(huì)日日鮮
2026-01-08 10:43:19
沖突升級!美抓捕影子油輪與俄核潛艇大西洋對峙,強(qiáng)行登船扣船

沖突升級!美抓捕影子油輪與俄核潛艇大西洋對峙,強(qiáng)行登船扣船

史政先鋒
2026-01-08 12:50:30
楊瀚森:世界上只有400個(gè)人打NBA 上場時(shí)間要去爭取而不是要求

楊瀚森:世界上只有400個(gè)人打NBA 上場時(shí)間要去爭取而不是要求

羅說NBA
2026-01-10 06:47:19
“讓我睡一次,不然死給你看!”17歲少年持刀,威脅舅媽發(fā)生關(guān)系

“讓我睡一次,不然死給你看!”17歲少年持刀,威脅舅媽發(fā)生關(guān)系

有書
2026-01-09 21:30:59
玄彬哭紅眼李政宰捧遺像,韓國半個(gè)影壇為噎死的老影帝長跪不起

玄彬哭紅眼李政宰捧遺像,韓國半個(gè)影壇為噎死的老影帝長跪不起

安寧007
2026-01-09 19:28:49
朝鮮不會(huì)成為第二個(gè)委內(nèi)瑞拉!因?yàn)槌r有兩個(gè)后盾

朝鮮不會(huì)成為第二個(gè)委內(nèi)瑞拉!因?yàn)槌r有兩個(gè)后盾

米君文史
2026-01-07 10:01:47
四川一小學(xué)生花50元從學(xué)校跳蚤市場淘回茅臺(tái),爸爸:已聯(lián)系對方家長準(zhǔn)備歸還

四川一小學(xué)生花50元從學(xué)校跳蚤市場淘回茅臺(tái),爸爸:已聯(lián)系對方家長準(zhǔn)備歸還

環(huán)球網(wǎng)資訊
2026-01-09 10:06:33
美國海岸警衛(wèi)隊(duì)登上“奧利娜”油輪

美國海岸警衛(wèi)隊(duì)登上“奧利娜”油輪

界面新聞
2026-01-09 21:42:11
不得不服俄羅斯!油輪被抓后,榛樹高超連夜報(bào)復(fù),10馬赫警告美國

不得不服俄羅斯!油輪被抓后,榛樹高超連夜報(bào)復(fù),10馬赫警告美國

劍道萬古似長夜
2026-01-09 14:36:31
兩省會(huì)城市政府主要領(lǐng)導(dǎo)“去代轉(zhuǎn)正”

兩省會(huì)城市政府主要領(lǐng)導(dǎo)“去代轉(zhuǎn)正”

上觀新聞
2026-01-09 19:12:08
升西部第11!哈登31+6快船大勝籃網(wǎng) 小卡26+5+5波特三分9中0

升西部第11!哈登31+6快船大勝籃網(wǎng) 小卡26+5+5波特三分9中0

醉臥浮生
2026-01-10 10:51:27
已放棄美國國籍,恢復(fù)中國籍,81歲董事長擬套現(xiàn)近1億元:為辦理稅務(wù)的需要!他60歲歸國創(chuàng)業(yè),帶出2000億元芯片巨頭

已放棄美國國籍,恢復(fù)中國籍,81歲董事長擬套現(xiàn)近1億元:為辦理稅務(wù)的需要!他60歲歸國創(chuàng)業(yè),帶出2000億元芯片巨頭

每日經(jīng)濟(jì)新聞
2026-01-09 23:53:10
正式取消!不打了,2萬球迷全程看擦地,鮑威爾:11年第一次遇見

正式取消!不打了,2萬球迷全程看擦地,鮑威爾:11年第一次遇見

球童無忌
2026-01-09 15:17:39
南通市第一人民醫(yī)院就宋女士醫(yī)療事件致歉

南通市第一人民醫(yī)院就宋女士醫(yī)療事件致歉

新京報(bào)
2026-01-09 20:24:35
2026-01-10 11:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142533關(guān)注度
往期回顧 全部

科技要聞

傳DeepSeek準(zhǔn)備第二次震驚全世界

頭條要聞

媒體:中國若在其任期統(tǒng)一特朗普不悅 中方回應(yīng)滴水不漏

頭條要聞

媒體:中國若在其任期統(tǒng)一特朗普不悅 中方回應(yīng)滴水不漏

體育要聞

楊瀚森:上場時(shí)間要去爭取 而不是要求

娛樂要聞

曹西平遺照曝光:靈堂布置過于簡陋

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

寶馬25年全球銷量246.3萬臺(tái) 中國仍是第一大市場

態(tài)度原創(chuàng)

家居
游戲
數(shù)碼
房產(chǎn)
健康

家居要聞

木色留白 演繹現(xiàn)代自由

美任玩具宣傳圖疑似AI生成引批判 參演演員否認(rèn)

數(shù)碼要聞

三星Galaxy S26+手機(jī)通過認(rèn)證:額定電池容量4755mAh

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

這些新療法,讓化療不再那么痛苦

無障礙瀏覽 進(jìn)入關(guān)懷版