国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上交大提出LatentUM:UnifiedModel真正戰(zhàn)場在視覺推理與世界模型

0
分享至



本文作者團(tuán)隊來自上海交通大學(xué) DENG Lab 與清華大學(xué)、加州大學(xué)圣地亞哥分校(UCSD)。該研究由博士生金佳純、準(zhǔn)博士生周澤同共同完成,指導(dǎo)教師為鄧志杰、朱軍、劉鵬飛、張昊、楊嘯老師。DENG Lab 隸屬上海交通大學(xué),致力于高效、跨模態(tài)生成模型的研究。

過去一段時間,生成理解統(tǒng)一模型(Unified Model)經(jīng)常被理解成一種「既能看懂圖、又能生成圖」的多模態(tài)通用系統(tǒng)。

但如果統(tǒng)一模型的價值只停留在「會看會畫」,那它和把 VLM、T2I 簡單拼在一起并沒有本質(zhì)區(qū)別。真正更值得追問的問題是:模型能不能把自己生成出的視覺內(nèi)容直接納入推理閉環(huán),讓圖像不只是輸出結(jié)果,而是推理、規(guī)劃乃至世界建模過程中的中間思維狀態(tài)?

近期,上海交通大學(xué) DENG Lab 提出的 LatentUM嘗試去回答上述問題。

從結(jié)果上看,這條路線確實帶來了實際性能收益:LatentUM 在 GenEval 上最高達(dá)到 0.92,在 Visual Spatial Planning 任務(wù)上準(zhǔn)確率最高達(dá)到 0.99,在導(dǎo)航世界模型任務(wù)上,LatentUM 在 NWM 評測上取得 ATE 1.34、RPE 0.34,超過近期 Transfusion-RAE 等統(tǒng)一世界模型基線。

這說明,共享語義 latent space 并不只是一個更「統(tǒng)一」的建模方案,它確實有機(jī)會把視覺生成變成推理與建模過程中的有效中間變量。



  • 論文地址:https://arxiv.org/pdf/2604.02097
  • 代碼地址:https://github.com/SJTU-DENG-Lab/LatentUM
  • 模型倉庫:https://huggingface.co/collections/SJTU-DENG-Lab/latentum

重新思考 Unified Model 的價值與存在的問題

現(xiàn)有多數(shù)生成理解統(tǒng)一模型 (Unified Model) 的目標(biāo),仍然停留在打造一個「能看又能畫」的多模態(tài)六邊形戰(zhàn)士,但它們往往在理解和生成兩端都不及最好的 specific model。

LatentUM 想推動大家重新思考這個方向的目標(biāo)函數(shù):Unified Model 的真正潛力,并不只是把視覺理解和視覺生成裝進(jìn)同一個框架里,而是在模態(tài)交錯生成中把生成出的視覺內(nèi)容真正納入 reasoning loop,形成 cross-modal chain-of-thought,進(jìn)一步服務(wù)于復(fù)雜視覺推理、規(guī)劃乃至世界建模。

換句話說,Unified Model 最值得做的事,是讓模型在推理過程中真的把圖像當(dāng)作中間思維載體來使用,而不是把「會看會畫」本身當(dāng)作終點(diǎn)。



圖 1:LatentUM 在帶有自我反思的文生圖任務(wù)、視覺空間規(guī)劃任務(wù)、世界建模任務(wù)上都超越了基線模型。

基于這一觀察,LatentUM 給出的核心思路是:不再讓視覺生成服務(wù)于像素空間,而是讓模型直接生成與語言共享語義空間的離散 visual semantic tokens。這樣一來,模型生成出來的視覺內(nèi)容,就可以被模型自己直接讀取、繼續(xù)推理,而不必再經(jīng)過「像素中轉(zhuǎn)」。

換句話說,LatentUM 想實現(xiàn)的,不是一個簡單把理解和生成拼在一起的 Unified Model,而是一個真正基于 shared semantic latent space 運(yùn)作的 latent-space unified model。

當(dāng)前大部分 Unified Model 通常把理解和生成建立在兩套不同的視覺表示上:理解側(cè)使用與語言對齊的語義特征,生成側(cè)使用面向像素重建的 VAE 特征。結(jié)果就是,模型一旦想基于自己生成的圖繼續(xù)思考,就不得不先把生成特征解碼成像素,再重新編碼回理解特征。這個過程不僅低效,也會引入額外的 codec bias,造成跨模態(tài)錯位,限制圖文交錯推理能力。

也正因為如此,很多現(xiàn)有統(tǒng)一模型雖然「既能看又能畫」,但在真正需要視覺中間態(tài)參與推理的任務(wù)上,并沒有把 unified 的優(yōu)勢發(fā)揮出來。

LatentUM 的模型設(shè)計



圖 2:LatentUM 架構(gòu)的三個關(guān)鍵設(shè)計。

圍繞這一目標(biāo),LatentUM 主要包含三個關(guān)鍵設(shè)計。

首先是 Model Behavior Aligned Quantization(MBAQ)。由于連續(xù)語義特征維度高,難以直接進(jìn)行生成建模。LatentUM 選擇先將其量化為可自回歸預(yù)測的離散 visual semantic tokens。傳統(tǒng)視覺離散化方法通常追求還原像素或原始特征,但對 Unified Model 來說,更關(guān)鍵的是量化后的 token 能否繼續(xù)支撐視覺理解與語言推理。

因此,MBAQ 不是優(yōu)化重建誤差,而是讓量化后的視覺特征盡可能保留原始視覺特征所對應(yīng)的 VLM 的理解行為。

這意味著量化器會優(yōu)先保留那些真正影響視覺理解結(jié)果的語義信息,主動舍棄對預(yù)測貢獻(xiàn)有限的低層像素細(xì)節(jié)。相比關(guān)注特征還原,MBAQ 更關(guān)注量化后的 token 是否仍然能夠支持原有的視覺問答與語言推理能力。

這對于 Unified Model 尤其關(guān)鍵,因為只有當(dāng)生成出的 visual token 仍然能夠被模型自己穩(wěn)定理解時,它們才能真正作為中間思維狀態(tài)參與后續(xù)的跨模態(tài)推理。

第二是 Mixture-of-Modal Experts(MoME)。統(tǒng)一建模并不意味著所有模態(tài)都必須完全走同一套參數(shù)路徑。為降低視覺理解與視覺生成之間的訓(xùn)練干擾,LatentUM 將理解和生成分成兩條并行分支,它們共享 self-attention,但在其余部分適度解耦。

這樣既保留圖文之間的信息流動,也減少了不同目標(biāo)之間的負(fù)遷移。雖然生成理解兩套參數(shù)解耦,但模型生成的視覺 token 可以重新被理解分支直接讀取并緩存進(jìn)上下文,從而繼續(xù)參與后續(xù)推理。

第三是 Decoupled Pixel Decoder。雖然 LatentUM 的離散語義特征不再圍繞像素重建來訓(xùn)練,但作者們發(fā)現(xiàn)離散語義特征中仍然保有大部分的像素信息,可以通過一個獨(dú)立的 diffusion decoder 將其恢復(fù)成像素。

這樣一來,像素空間在 LatentUM 中不再是內(nèi)部推理的必經(jīng)橋梁,而只是一個按需調(diào)用的可視化接口,從而避免模型為了像素保真而犧牲統(tǒng)一語義空間本身的表達(dá)能力。

實驗結(jié)果

基于上述設(shè)計,論文實現(xiàn)了 LatentUM-Base。模型以 InternVL3.5-4B 為初始化底座,直接繼承其成熟的視覺理解能力,并在圖文數(shù)據(jù)上進(jìn)行訓(xùn)練來補(bǔ)足視覺生成分支,總訓(xùn)練成本大約是 6000 GPU hours。

實驗結(jié)果首先驗證了這種 shared semantic latent space 不會顯著損害視覺理解能力。論文在多項理解基準(zhǔn)上評估 LatentUM-Base,發(fā)現(xiàn)當(dāng)輸入圖像被量化成離散語義 token 后,視覺理解的能力依舊在線。

這說明MBAQ 學(xué)到的 token 并不是簡單壓縮結(jié)果,而是真的保留了足夠支撐視覺理解的語義結(jié)構(gòu)。



圖 3:LatentUM-Base 的視覺理解能力與基線方法的對比。

在視覺生成方面,得益于視覺 token 的語義對齊,LatentUM-Base 同樣展現(xiàn)出了很強(qiáng)的 instruction-following 能力。在 GenEval 上,LatentUM-Base 達(dá)到 0.85,已經(jīng)超過大多數(shù)已有 Unified Model,而且這一結(jié)果是在相對有限的數(shù)據(jù)規(guī)模下取得的。

這說明共享語義空間讓模型更容易把文本條件中的語義約束真正落實到視覺 token 上。



圖 4:LatentUM-Base 的文生圖樣例展示。

除了基本的 text-to-image generation,LatentUM 還能利用自己的理解能力反過來提升生成。

論文在 post-training 階段探索了 generate-then-reflect 的范式:先生成,再讓模型基于自己的理解分支對結(jié)果做「自檢」,并通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化。僅基于自我理解 reward,LatentUM-Vis-Gen 在 GenEval 上從 0.85 提升到 0.87;如果進(jìn)一步使用外部 pixel-level reward,最終可以達(dá)到 0.92,在統(tǒng)一模型中取得新的最好結(jié)果。

在更強(qiáng)調(diào)語義判斷穩(wěn)健性的 GenEval2 上,LatentUM 也顯著領(lǐng)先已有 Unified Model。



圖 5:LatentUM 在 GenEval bench 上超越了 Unified Model 的基線。

為了驗證共享語義 latent space 是否真的能支撐復(fù)雜的圖文交錯推理,論文進(jìn)一步在 Visual Spatial Planning 任務(wù)上做了系統(tǒng)評測。

這個任務(wù)要求模型在迷宮環(huán)境中進(jìn)行規(guī)劃,不僅要讀懂當(dāng)前視覺狀態(tài),還要在推理過程中基于采取的 action 持續(xù)更新下一個未來狀態(tài)。

結(jié)果上,LatentUM-Vis-Plan 在粗粒度中間狀態(tài)的設(shè)定下平均準(zhǔn)確率達(dá)到 0.85,在細(xì)粒度中間狀態(tài)的逐步交錯推理的設(shè)定下達(dá)到 0.99,顯著超過 ThinkMorph 等需要經(jīng)過像素空間中轉(zhuǎn)的方法。

這說明,如果視覺內(nèi)容本身就處在統(tǒng)一語義空間里,那么「邊想邊看、邊看邊想」并不是概念展示,而是可以帶來性能增益的實際能力。



LatentUM 在 VSP 任務(wù)上的 demo。



圖 6:LatentUM 在 Visual Spatial Planning bench 上大幅超越了各類跨模態(tài)推理基線。

最后,論文還進(jìn)一步探索了 LatentUM 在 world modeling 中的潛力。

在導(dǎo)航世界模型設(shè)定下,LatentUM-WM 在 NWM 評測上取得 ATE 1.34、RPE 0.34,超過了近期 Transfusion-RAE 這類統(tǒng)一世界模型基線。

這說明shared semantic latent space 也許不僅是連接理解和生成的一種方法,也可能是連接推理與世界建模的一條自然路徑。



LatentUM 在 navigation world modeling 任務(wù)上的 demo。

從更大的角度看,LatentUM 想推動大家重新思考 Unified Model 的目標(biāo)。它不應(yīng)該只是把「看」和「畫」放進(jìn)同一個模型里,而應(yīng)該成為一個能夠在共享語義空間中進(jìn)行交錯生成、反思、規(guī)劃與預(yù)測的通用多模態(tài)系統(tǒng)。

對 Unified Model 來說,真正重要的,也許從來不是「既會看又會畫」,而是能不能在共享語義空間中用各種模態(tài)持續(xù)地生成、推理。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不打了!恩比德附加賽報銷!76人遭遇最大危機(jī)

不打了!恩比德附加賽報銷!76人遭遇最大危機(jī)

籃球教學(xué)論壇
2026-04-14 14:21:31
緊急!即日起中小學(xué)全面嚴(yán)查!教師、家長、學(xué)生三類人紅線碰不得

緊急!即日起中小學(xué)全面嚴(yán)查!教師、家長、學(xué)生三類人紅線碰不得

糖逗在娛樂
2026-04-13 16:35:12
又一知名演員去世

又一知名演員去世

無錫eTV全媒體
2026-04-14 05:53:10
現(xiàn)役球星進(jìn)入季后賽次數(shù)!詹姆斯19次,杜蘭特14次,哈登創(chuàng)紀(jì)錄

現(xiàn)役球星進(jìn)入季后賽次數(shù)!詹姆斯19次,杜蘭特14次,哈登創(chuàng)紀(jì)錄

兵哥籃球故事
2026-04-14 13:58:11
上海男籃沖擊20連勝!盧偉拒絕爆冷,懷特塞德回歸,央視直播

上海男籃沖擊20連勝!盧偉拒絕爆冷,懷特塞德回歸,央視直播

體壇瞎白話
2026-04-14 10:42:39
寶馬炮轟比亞迪背后真相:如果閃充不傷電池,就不需要固態(tài)電池了

寶馬炮轟比亞迪背后真相:如果閃充不傷電池,就不需要固態(tài)電池了

王新喜
2026-04-13 10:45:56
巴基斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混了一個霸主

巴基斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混了一個霸主

荷蘭豆愛健康
2026-04-14 12:34:02
鄭麗文滿載而歸!藍(lán)營集體倒戈,柯志恩直接變臉,鄭麗文預(yù)言成真

鄭麗文滿載而歸!藍(lán)營集體倒戈,柯志恩直接變臉,鄭麗文預(yù)言成真

阿纂看事
2026-04-13 17:38:48
6.8萬紫貂被扯壞后續(xù):女子丟工作后道歉,黑歷史被扒,全網(wǎng)社死

6.8萬紫貂被扯壞后續(xù):女子丟工作后道歉,黑歷史被扒,全網(wǎng)社死

小徐講八卦
2026-04-12 15:43:13
演員文章飯店生意火爆,全家都到場支持,前妻馬伊琍被曝也在場

演員文章飯店生意火爆,全家都到場支持,前妻馬伊琍被曝也在場

韓小娛
2026-04-14 09:56:38
中央定調(diào)!養(yǎng)老金22連漲穩(wěn)了,但漲幅或許讓人意外

中央定調(diào)!養(yǎng)老金22連漲穩(wěn)了,但漲幅或許讓人意外

小談食刻美食
2026-04-14 08:04:47
Taylor Swift 霉霉在健身房,鍛煉健康體格

Taylor Swift 霉霉在健身房,鍛煉健康體格

下水道男孩
2026-04-11 23:22:29
炸了!2026有線電視8類收費(fèi)全取消,以后看電視再也不花冤枉錢!

炸了!2026有線電視8類收費(fèi)全取消,以后看電視再也不花冤枉錢!

小蜜情感說
2026-04-14 12:22:54
何超蕸私生活曝光!信德員工證實:相伴多年伴侶,3位密友陪伴

何超蕸私生活曝光!信德員工證實:相伴多年伴侶,3位密友陪伴

一盅情懷
2026-04-14 09:47:33
首輪“火湖”大戰(zhàn)看好誰?23.8w網(wǎng)友投票:結(jié)果一針見血!

首輪“火湖”大戰(zhàn)看好誰?23.8w網(wǎng)友投票:結(jié)果一針見血!

運(yùn)籌帷幄的籃球
2026-04-14 14:43:18
騎士躺贏了,季后賽對手核心大將受傷,他們晉級半決賽板上釘釘

騎士躺贏了,季后賽對手核心大將受傷,他們晉級半決賽板上釘釘

野渡舟山人
2026-04-14 13:59:59
錢再多也沒用!浙江55歲富婆"黑馬"去世,死因曝光,名下眾多公司

錢再多也沒用!浙江55歲富婆"黑馬"去世,死因曝光,名下眾多公司

閱微札記
2026-04-13 17:06:03
伊朗軍方:地區(qū)港口安全“要么屬于所有人,要么不屬于任何人”

伊朗軍方:地區(qū)港口安全“要么屬于所有人,要么不屬于任何人”

每日經(jīng)濟(jì)新聞
2026-04-13 15:54:12
中央候補(bǔ)委員新職務(wù)明確!七個省級黨委組織部部長調(diào)整

中央候補(bǔ)委員新職務(wù)明確!七個省級黨委組織部部長調(diào)整

上觀新聞
2026-04-14 11:58:06
霍爾木茲海峽又變天了,三個國家的巨輪在通行,特朗普不高興了

霍爾木茲海峽又變天了,三個國家的巨輪在通行,特朗普不高興了

奇思妙想生活家
2026-04-13 17:49:20
2026-04-14 15:15:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12756文章數(shù) 142626關(guān)注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

恒大集團(tuán)、恒大地產(chǎn)及許家印案開庭 許家印認(rèn)罪悔罪

頭條要聞

恒大集團(tuán)、恒大地產(chǎn)及許家印案開庭 許家印認(rèn)罪悔罪

體育要聞

他做對了所有事,卻被整個職業(yè)網(wǎng)壇放逐了八年

娛樂要聞

宋祖兒劉宇寧戀情大反轉(zhuǎn) 正主火速辟謠

財經(jīng)要聞

許家印受審當(dāng)庭表示認(rèn)罪悔罪

汽車要聞

長城歐拉5限定版純電版上市 限量99臺售價13.38萬元

態(tài)度原創(chuàng)

教育
藝術(shù)
房產(chǎn)
數(shù)碼
手機(jī)

教育要聞

2026高考考生注意!7所高校全部啟動

藝術(shù)要聞

這位美女畫家的夏天竟如此夢幻

房產(chǎn)要聞

改善標(biāo)桿,1.5w+起橫掃國興!?跇鞘,打出最猛一張牌!

數(shù)碼要聞

TCL T7M Pro體驗:SQD-Mini LED技術(shù)加持,客廳換代首選

手機(jī)要聞

安卓最強(qiáng)Pro!小米18 Pro首發(fā)高通驍龍8E6系列:電池突破7000mAh

無障礙瀏覽 進(jìn)入關(guān)懷版