国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

VEGA-3D:釋放視頻生成模型中的隱式3D知識(shí),重塑3D場(chǎng)景

0
分享至



研究團(tuán)隊(duì): 本工作由華中科技大學(xué)(Huazhong University of Science and Technology)與百度(Baidu Inc.)聯(lián)合完成。

作者列表:Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai。



  • 論文標(biāo)題:Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
  • 論文鏈接:https://arxiv.org/abs/2603.19235
  • 倉(cāng)庫(kù)鏈接:https://github.com/H-EmbodVis/VEGA-3D

核心問(wèn)題:視頻生成模型真的理解世界嗎?

生成模型,到底能不能理解世界,或者說(shuō),它們能否促進(jìn)對(duì)世界的理解?這是我們?cè)谕七M(jìn) Generation Models Know Space 這項(xiàng)研究時(shí),最核心的出發(fā)點(diǎn)。

過(guò)去在 3D 場(chǎng)景理解這個(gè)領(lǐng)域,我們往往習(xí)慣于一種思維定勢(shì):如果要讓模型懂空間,就必須給它顯式的 3D 數(shù)據(jù),比如點(diǎn)云,或者在系統(tǒng)里硬塞進(jìn)復(fù)雜的幾何重建模塊。這就導(dǎo)致整個(gè)理解鏈路非常沉重,而且嚴(yán)重受限于高質(zhì)量的三維標(biāo)注數(shù)據(jù)。

但當(dāng)我們觀察這兩年飛速發(fā)展的視頻生成模型時(shí),我們意識(shí)到了一個(gè)常常被忽視的事實(shí)。當(dāng)一個(gè)模型能夠自然地生成一段視角切換、包含復(fù)雜遮擋關(guān)系的視頻時(shí),它其實(shí)已經(jīng)在內(nèi)部默默處理了深度、透視和物理距離。如果它不懂三維幾何,生成的畫(huà)面早就崩塌成了一堆混亂的像素。

所以Motivation變得非常清晰且直接:既然這些在大規(guī)模無(wú)標(biāo)注視頻上訓(xùn)練出的生成模型,為了造出逼真的畫(huà)面,已經(jīng)偷偷掌握了物理世界的空間邏輯,我們?yōu)槭裁催€要舍近求遠(yuǎn),去重新教理解模型學(xué)幾何?

這篇論文提出了VEGA-3D,旨在釋放深藏于生成大模型內(nèi)部的 3D 先驗(yàn)知識(shí)。研究表明,生成模型不僅是一個(gè)高超的“畫(huà)師”,更像是一個(gè)開(kāi)箱即用的“空間知識(shí)庫(kù)”。它將物理規(guī)律與幾何結(jié)構(gòu)壓縮進(jìn)參數(shù)之中,由生成任務(wù)催生出的隱式空間表征,具有很強(qiáng)的遷移能力,并能夠直接服務(wù)于理解任務(wù)。

這不僅是一次技術(shù)路線的替換,更是一種研究范式的轉(zhuǎn)變。我們不再將“生成”和“理解”視作彼此平行的兩條軌道。尤其在具身智能場(chǎng)景下,當(dāng)機(jī)器人需要在復(fù)雜物理空間中完成感知、推理與交互時(shí),模型對(duì)三維環(huán)境的尺度感、幾何直覺(jué)和空間一致性的把握,往往正是關(guān)鍵瓶頸。而借助生成模型反哺理解,則為突破這一瓶頸提供了一條極具潛力的新路徑。

基于這一思路,來(lái)自華中科技大學(xué)與百度的聯(lián)合團(tuán)隊(duì)設(shè)計(jì)了VEGA-3D框架,用于系統(tǒng)挖掘并利用生成模型中的空間先驗(yàn),從而提升模型在場(chǎng)景理解、空間推理與具身任務(wù)中的表現(xiàn)。

它把物理法則壓縮在了自己的參數(shù)里,這種為了生成而被迫建立的隱式空間表征極其強(qiáng)大,且可以直接遷移到理解任務(wù)中。在具體實(shí)現(xiàn)上,VEGA-3D將視頻生成模型(如 Wan2.1)作為 “潛在世界模擬器”,通過(guò)自適應(yīng)門(mén)控機(jī)制,將生成模型在中間去噪階段展現(xiàn)出的純粹 3D 結(jié)構(gòu)先驗(yàn),與原有的語(yǔ)義特征進(jìn)行優(yōu)雅融合。



Figure 1 摒棄復(fù)雜的 3D 依賴(lài)和幾何監(jiān)督,VEGA-3D 開(kāi)創(chuàng)了生成先驗(yàn)增強(qiáng)的新范式。

為什么視頻生成模型能懂 3D?因?yàn)橐梢欢畏铣@怼r(shí)間連貫的視頻,生成模型在內(nèi)部必然學(xué)會(huì)了物體遮擋、相機(jī)運(yùn)動(dòng)帶來(lái)的視差以及交互物理法則。VEGA-3D 的核心創(chuàng)新就在于如何 “榨干” 這股隱式力量:

1. 將視頻生成模型作為 “潛在世界模擬器”

摒棄了只用生成模型 “畫(huà)圖” 的常規(guī)思路,VEGA-3D 將凍結(jié)的視頻擴(kuò)散模型引入視覺(jué)流。為了徹底激活其內(nèi)部的幾何結(jié)構(gòu)認(rèn)知,研究團(tuán)隊(duì)通過(guò)在其前向過(guò)程中注入特定水平的噪聲(Noise Injection),提取其在中間去噪階段和中間網(wǎng)絡(luò)層(如 DiT layer 20)的時(shí)空特征。此時(shí)的特征,完美平衡了底層紋理與高層抽象,蘊(yùn)含著最純粹的 3D 結(jié)構(gòu)先驗(yàn)。



Figure 2 可視化證明,Wan2.1 在不同視角下展現(xiàn)出驚人的多視角幾何一致性。結(jié)合 VEGA-3D,大模型的注意力圖瞬間精準(zhǔn)鎖定了目標(biāo)物體,徹底告別 “空間盲區(qū)”。

2. Token 級(jí)自適應(yīng)門(mén)控融合

連續(xù)的物理生成特征與離散的語(yǔ)義特征天然存在 “語(yǔ)義 - 幾何鴻溝”。如果簡(jiǎn)單粗暴地相加,只會(huì)導(dǎo)致信號(hào)沖突。 VEGA-3D 獨(dú)創(chuàng)了自適應(yīng)門(mén)控融合機(jī)制:對(duì)于每一個(gè)空間 Token,網(wǎng)絡(luò)會(huì)動(dòng)態(tài)計(jì)算一個(gè)權(quán)重門(mén)控,讓模型在回答 “這是什么”(依賴(lài)語(yǔ)義先驗(yàn))和 “它在哪里”(依賴(lài)生成空間先驗(yàn))時(shí),自適應(yīng)地調(diào)節(jié)兩股特征的比例,實(shí)現(xiàn)真正的優(yōu)勢(shì)互補(bǔ)。



Figure 3VEGA-3D 極簡(jiǎn)而優(yōu)雅的架構(gòu)設(shè)計(jì),即插即用,雙流視覺(jué)編碼。

深度剖析:為什么 “多視角一致性”

是解鎖空間認(rèn)知的密鑰?

評(píng)價(jià)一個(gè)模型是否真正理解真實(shí)物理世界,關(guān)鍵在于其能否在不同視角下保持幾何結(jié)構(gòu)的一致性。為了揭示這一底層邏輯,我們對(duì)特征域進(jìn)行了深入分析。

實(shí)驗(yàn)表明,多視角一致性得分與下游 3D 理解任務(wù)的歸一化綜合得分(NOS)呈現(xiàn)出極其顯著的正相關(guān)。傳統(tǒng)的判別式模型在應(yīng)對(duì) 3D 任務(wù)時(shí)往往會(huì)遇到瓶頸:例如 DINOv3-Large 和 V-JEPA v2 的一致性得分分別為 61.90% 和 72.00%。即便是專(zhuān)門(mén)針對(duì) 3D 提取的判別模型 VGGT,其一致性得分也僅達(dá)到 77.21%。這說(shuō)明傳統(tǒng)的降維壓縮過(guò)程不可逆地丟失了密集的物理與幾何細(xì)節(jié)。

相反,以 Wan2.1 為代表的視頻生成大模型展現(xiàn)出了降維打擊般的空間理解力。Wan2.1-VACE 和 Wan2.1-T2V 的多視角一致性得分分別飆升至驚人的 97.04% 和 96.88%。這意味著,為了 “不穿幫” 地生成連貫視頻,DiT 架構(gòu)被迫在腦海中構(gòu)建了極其魯棒的 3D 物體結(jié)構(gòu)。當(dāng) VEGA-3D 將這股強(qiáng)大的隱式先驗(yàn)釋放出來(lái)時(shí),它為多模態(tài)大模型提供了一個(gè)堅(jiān)實(shí)的 “空間錨點(diǎn)”,直接驅(qū)動(dòng)了下游性能的暴漲。



Figure 4 多視角一致性得分與下游 3D 理解性能呈強(qiáng)正相關(guān),DiT 架構(gòu)的生成模型完勝傳統(tǒng)判別式模型

實(shí)驗(yàn)結(jié)果:

依靠這套機(jī)制,VEGA-3D 展現(xiàn)出了出色下游任務(wù)統(tǒng)治力,并且這一切提升都不需要任何額外的 3D 標(biāo)注數(shù)據(jù):

  • 3D 場(chǎng)景理解全面領(lǐng)先:在 ScanRefer(視覺(jué)定位)、ScanQA(空間問(wèn)答)等 5 個(gè)基準(zhǔn)測(cè)試中,VEGA-3D 將原有基線模型(Video-3D LLM)的定位精度和準(zhǔn)確率拉升至全新高度,ScanRefer Acc@0.5 從 51.7 大幅提升至 56.2。
  • 空間推理無(wú)死角:在專(zhuān)門(mén)診斷模型視覺(jué) - 空間技能的 VSI-Bench 上,引入 VEGA-3D 后的 Qwen2.5VL-7B 在相對(duì)距離、相對(duì)方向和路線規(guī)劃等子任務(wù)上獲得一致性暴漲。
  • 賦能具身智能 (Embodied AI):更硬核的是,在 LIBERO 機(jī)器人仿真操作基準(zhǔn)中,將生成先驗(yàn)注入到 OpenVLA 視覺(jué)流后,機(jī)器人在復(fù)雜物體交互和長(zhǎng)視野(Long-horizon)任務(wù)上的成功率突破原有瓶頸,平均成功率達(dá)到 97.3%。



Figure 5 3D 場(chǎng)景理解中, ScanRefer 和 ScanQA 數(shù)據(jù)集等空間定位與問(wèn)答任務(wù)全面領(lǐng)先

總結(jié)與展望:探索 3D 推理的下一個(gè)前沿

VEGA-3D 不僅僅是一個(gè)性能卓越的系統(tǒng),它更向整個(gè)社區(qū)傳遞了一個(gè)重要的設(shè)計(jì)思路:大模型 3D 空間推理的下一個(gè)突破口,也許不在于繼續(xù)堆疊海量且昂貴的 3D 數(shù)據(jù),而在于如何釋放生成式基礎(chǔ)模型體內(nèi)早已沉睡的 “物理先驗(yàn)”。作為一種高擴(kuò)展性、數(shù)據(jù)高效的基礎(chǔ)設(shè)施,隨著未來(lái)視頻生成模型(如 Sora、Wan 等)的進(jìn)一步進(jìn)化,VEGA-3D 的上限將被無(wú)限拉高。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點(diǎn)
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來(lái) | 伊朗的反應(yīng)為何如此激烈

偉偉道來(lái) | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報(bào)
2026-05-06 11:40:46
吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國(guó)買(mǎi)房,50萬(wàn)英鎊獎(jiǎng)金需交稅超23萬(wàn)鎊,實(shí)際到手約26.5萬(wàn)鎊

吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國(guó)買(mǎi)房,50萬(wàn)英鎊獎(jiǎng)金需交稅超23萬(wàn)鎊,實(shí)際到手約26.5萬(wàn)鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請(qǐng)賽5月9日開(kāi)桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請(qǐng)賽5月9日開(kāi)桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個(gè)隱私,是性感嗎?

女性跑步:暴露這個(gè)隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國(guó)人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒(méi)一個(gè)在出現(xiàn)場(chǎng)

在中國(guó)人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒(méi)一個(gè)在出現(xiàn)場(chǎng)

侃故事的阿慶
2026-05-06 09:21:32
被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

新京報(bào)
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說(shuō)她索取無(wú)度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說(shuō)她索取無(wú)度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來(lái),誰(shuí)敢動(dòng)筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來(lái),誰(shuí)敢動(dòng)筷子

畫(huà)夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說(shuō)故事的阿襲
2026-05-05 20:20:30
8.84億的美國(guó)工廠說(shuō)關(guān)就關(guān)?曹德旺:美國(guó)不講理,我就不陪玩了

8.84億的美國(guó)工廠說(shuō)關(guān)就關(guān)?曹德旺:美國(guó)不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點(diǎn)半》人走茶涼,賺不到錢(qián)球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢(qián)球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買(mǎi)菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買(mǎi)菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報(bào)
2026-05-06 12:38:05
中美同時(shí)向全球下達(dá)禁令,各國(guó)都傻眼了!美媒:中國(guó)此舉史無(wú)前例

中美同時(shí)向全球下達(dá)禁令,各國(guó)都傻眼了!美媒:中國(guó)此舉史無(wú)前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽(tīng)到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽(tīng)到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬(wàn)買(mǎi)"熊膽"心虛

頭條要聞

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬(wàn)買(mǎi)"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂(lè)要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰(shuí)真能賣(mài) 誰(shuí)在講故事?

汽車(chē)要聞

領(lǐng)克10/領(lǐng)克10+ 無(wú)論能源形式 領(lǐng)克都要快樂(lè)

態(tài)度原創(chuàng)

家居
旅游
手機(jī)
房產(chǎn)
軍事航空

家居要聞

大膽前衛(wèi) 時(shí)尚大宅

旅游要聞

龍江新觀察|“五一”文旅熱力十足 特色體驗(yàn)燃動(dòng)春日消費(fèi)

手機(jī)要聞

谷歌推送5月Pixel手機(jī)更新,修復(fù)無(wú)線充電慢、相機(jī)卡死等問(wèn)題

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉(cāng)凱旋新世界

軍事要聞

實(shí)施不到48小時(shí) 特朗普緊急喊停"霍爾木茲自由計(jì)劃"

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版