国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

騰訊 ARC Lab 胡文博:“如何實(shí)現(xiàn)三維感知的視頻世界模型,這非常值得探索”|GAIR 2025

0
分享至

作者丨齊鋮湧

編輯丨馬曉寧

世界模型的研究尚處于起步階段,共識(shí)尚未形成,有關(guān)該領(lǐng)域的研究形成了無(wú)數(shù)支流,過(guò)去一年多,Sora為代表的視頻生成模型,成為繼大語(yǔ)言模型(LLM)后新的學(xué)術(shù)熱點(diǎn)。本質(zhì)上講,當(dāng)下火爆的視頻生成模型,是一種世界模型,其核心目的是生成一段逼真、連貫的視頻。

要達(dá)到這樣的目的,模型必須在一定程度上理解這個(gè)世界的運(yùn)作方式(比如水往低處流、物體碰撞后的運(yùn)動(dòng)、人的合理動(dòng)作等)。

胡文博正是世界模型研究領(lǐng)域近兩年的絕對(duì)新銳。

在剛剛結(jié)束的 GAIR 2025,騰訊ARC Lab高級(jí)研究員胡文博,在雷峰網(wǎng)舉辦的GAIR大會(huì)現(xiàn)場(chǎng)帶來(lái)了非常有見解的演講:《邁向三維感知的視頻世界模型》(Towards 3D-aware Video World Models )。

以下是具體內(nèi)容,AI科技評(píng)論做了不改變?cè)獾木庉嫼驼怼?/p>

感謝邀請(qǐng)和介紹,我今天分享的題目是《邁向三維感知的視頻世界模型》(Towards 3D-aware Video World Models)。

之所以講這個(gè),是因?yàn)镾ora在2024年初出來(lái)時(shí),給大家?guī)?lái)很大震撼。比如它生成的視頻,雖然看起來(lái)是二維的,但已經(jīng)具備一定的3D一致性。不過(guò)從我們做三維重建的角度看,比如嘗試把它重建出來(lái),會(huì)發(fā)現(xiàn)墻面與地面的垂直性、平整度等都還不夠好。


基于這個(gè)觀察,領(lǐng)域內(nèi)認(rèn)為視頻擴(kuò)散模型有潛力作為世界模型的一種表示方式,但視頻本身仍是二維的,而我們的世界是三維的。

所以我們思考:如何實(shí)現(xiàn)一個(gè)具備三維感知能力的視頻世界模型?

為了實(shí)現(xiàn)這種三維感知,我們主要做了兩方面工作,今天重點(diǎn)講第二方面。

第一方面是如何從二維觀測(cè)中重建三維信息,這部分和前面彭老師講的內(nèi)容比較接近。第二方面是如何將重建得到的三維信息融入到生成過(guò)程中,使二維空間的視頻擴(kuò)散模型具備三維感知特性。

我先簡(jiǎn)單介紹一下第一方面的工作:如何在開放世界環(huán)境中,從二維視頻中重建三維信息。

我們做了一系列工作,例如video depth (DepthCrafter)(2024年10月掛在arXiv上,現(xiàn)在效果可能已經(jīng)不是最新的了)。

除了video depth (DepthCrafter),我們進(jìn)一步思考:既然video depth還是2.5維的信息,能否直接從視頻中估計(jì)點(diǎn)云。這就是GeometryCrafter,有了點(diǎn)云,我們就能做類似4D重建的任務(wù),把各幀融合到同一坐標(biāo)系中。

再進(jìn)一步,我們還估計(jì)了運(yùn)動(dòng)信息,這部分我們最新的工作叫Holi4D,可以從單目視頻中重建運(yùn)動(dòng)。最后一塊是表面法線估計(jì)NormalCrafter,與前幾項(xiàng)相比,法線包含更多高頻細(xì)節(jié),因?yàn)樗俏恢玫囊浑A偏導(dǎo)數(shù)?;诜ň€我們可以做重打光、材質(zhì)編輯等任務(wù)。


總的來(lái)說(shuō),目前從任意開放世界二維視頻中重建三維信息的技術(shù)已經(jīng)發(fā)展得不錯(cuò),我們能得到比較好的三維重建結(jié)果了。

接下來(lái)重點(diǎn)講第二方面:如何將三維信息用在視頻擴(kuò)散過(guò)程中,使模型具備三維感知能力。我們首先探索了靜態(tài)場(chǎng)景下的生成任務(wù):輸入一張單圖,希望模型能根據(jù)任意指定的相機(jī)位姿,生成對(duì)應(yīng)的觀測(cè)圖像。這樣我們就能像玩游戲一樣,通過(guò)控制相機(jī),實(shí)現(xiàn)對(duì)靜態(tài)場(chǎng)景的探索。

這個(gè)工作叫ViewCrafter,2024年10月公開,后來(lái)被PAMI接收。方法上,我們借助重建能力:給定一張圖,先重建出一個(gè)粗糙的三維點(diǎn)云,形成場(chǎng)景的“骨架”。然后基于這個(gè)點(diǎn)云進(jìn)行漫游渲染,渲染結(jié)果雖然粗糙(可能有空洞),但視角變換關(guān)系非常準(zhǔn)確。(雷峰網(wǎng))

這些空洞正好由擅長(zhǎng)內(nèi)容生成的視頻擴(kuò)散模型來(lái)填補(bǔ)。我們將渲染的點(diǎn)云作為條件,控制視頻擴(kuò)散過(guò)程,從而生成既逼真又符合指定視角變換的圖像。

更重要的是,生成的新圖像可以反過(guò)來(lái)用于多視角重建,更新點(diǎn)云,從而實(shí)現(xiàn)迭代式、更大范圍的場(chǎng)景探索。這其實(shí)與世界模型中的記憶機(jī)制相關(guān):三維點(diǎn)云作為一種記憶,通過(guò)新探索內(nèi)容更新點(diǎn)云,再中查詢信息作為條件,支持更遠(yuǎn)的探索。


我們展示一些結(jié)果:左側(cè)是指定的相機(jī)軌跡,右側(cè)是從單圖出發(fā)生成的探索結(jié)果。

效果還不錯(cuò),不僅支持單圖輸入,也支持稀疏多視圖輸入。從兩張圖出發(fā)的話,探索范圍會(huì)大很多。探索得到的多視圖圖像可以直接用于重建三維高斯?jié)姙R模型(3D Gaussian Splatting),實(shí)現(xiàn)實(shí)時(shí)渲染。


剛才講的是靜態(tài)場(chǎng)景探索,接下來(lái)是如何對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行探索。這是我們發(fā)表在ICCV 2025上的Oral工作TrajectoryCrafter。

核心思想是:用戶輸入一段單目視頻(它是四維世界的二維投影),模型應(yīng)允許用戶對(duì)其背后的四維世界進(jìn)行探索,即同時(shí)指定相機(jī)位姿和時(shí)間點(diǎn),生成對(duì)應(yīng)的動(dòng)態(tài)觀測(cè)。

方法延續(xù)之前的思路:核心是如何將重建的三維信息注入生成過(guò)程。輸入是一段視頻,我們通過(guò)視頻重建方法將其提升為三維空間中的動(dòng)態(tài)點(diǎn)云。然后像ViewCrafter一樣,基于指定位姿渲染點(diǎn)云。

不同之處在于,動(dòng)態(tài)探索對(duì)生成質(zhì)量要求更高,因此我們除了注入點(diǎn)云信息外,還將原始視頻(質(zhì)量最高)也作為條件注入擴(kuò)散模型,從而在精準(zhǔn)控制相機(jī)位姿的同時(shí)實(shí)現(xiàn)高質(zhì)量生成。

結(jié)果展示:左側(cè)是原始動(dòng)態(tài)視頻,右側(cè)是依據(jù)新指定相機(jī)位姿生成的動(dòng)態(tài)視頻。例如左上角第一個(gè)例子,甚至可以繞到人物背后觀看,光影反射效果也不錯(cuò)。(雷峰網(wǎng))

模型還能實(shí)現(xiàn)“子彈時(shí)間”特效:固定時(shí)間點(diǎn),旋轉(zhuǎn)相機(jī)。另外也能模擬“Dolly Zoom”特效(電影常用手法:邊推移相機(jī)邊調(diào)整焦距,使主體大小不變而背景變化),我們的模型可以從原始固定相機(jī)視頻出發(fā),同時(shí)修改相機(jī)內(nèi)參和外參,復(fù)現(xiàn)這種效果。

以上兩個(gè)工作分別實(shí)現(xiàn)了對(duì)靜態(tài)和動(dòng)態(tài)場(chǎng)景的探索。

對(duì)于世界模型,除了探索,下一步是實(shí)現(xiàn)交互:如何對(duì)場(chǎng)景中多個(gè)物體進(jìn)行交互?這是我們最新工作VerseCrafter(即將公開)。

仍從單圖輸入出發(fā),重建幾何信息,并將可移動(dòng)物體用高斯球標(biāo)注出來(lái)。相機(jī)和物體軌跡可在Blender中編輯:用戶可以交互式設(shè)計(jì)相機(jī)和每個(gè)物體的運(yùn)動(dòng)軌跡。然后,我們的模型能根據(jù)這些交互結(jié)果,生成逼真的觀測(cè)視頻。也就是說(shuō),相機(jī)和所有物體的運(yùn)動(dòng)都是可交互的。(雷峰網(wǎng))

實(shí)現(xiàn)方案上,我們構(gòu)建了一個(gè)“4D控制視頻世界模型”:從單圖出發(fā),基于重建和分割方法,重建出部分三維場(chǎng)景,并標(biāo)注可移動(dòng)物體。這樣就在Blender中得到一個(gè)粗糙的、可交互的三維(或四維)世界。雖然粗糙,但易于交互。交互結(jié)果作為條件,輸入到我們?cè)O(shè)計(jì)的視頻擴(kuò)散模型中,生成最終逼真的觀測(cè)。

這個(gè)方案的關(guān)鍵在于如何構(gòu)建訓(xùn)練數(shù)據(jù)。我們建立了一套完整的訓(xùn)練數(shù)據(jù)標(biāo)注流程,核心基于重建算法和視覺語(yǔ)言模型(VLM)進(jìn)行標(biāo)注與過(guò)濾。最終我們獲得了約35K個(gè)高質(zhì)量視頻片段的數(shù)據(jù)集。

基于這個(gè)模型,我們可以做很多事情:固定相機(jī)只移動(dòng)物體、固定物體只移動(dòng)相機(jī)、同時(shí)移動(dòng)相機(jī)和物體。我們對(duì)比了現(xiàn)有方案,很多方法只能處理特定類別(如僅限人體),而我們的方法在運(yùn)動(dòng)符合度和生成質(zhì)量上都有不錯(cuò)表現(xiàn)。我們還測(cè)試了多玩家聯(lián)機(jī)探索場(chǎng)景的能力:用兩個(gè)人各自拍攝的照片作為Player A和Player B的視角,讓他們?cè)谕粋€(gè)場(chǎng)景中同時(shí)探索與交互,模型能分別生成各自的視角視頻。

總結(jié)一下,今天主要關(guān)注第二方面——三維感知視頻世界模型,但這部分非常依賴第一方面的開放世界三維重建技術(shù)(包括深度、點(diǎn)云、運(yùn)動(dòng)、法線等重建)。

在三維感知視頻世界模型方面,我們實(shí)現(xiàn)了靜態(tài)場(chǎng)景探索模型、動(dòng)態(tài)場(chǎng)景探索模型,以及支持在四維場(chǎng)景中同時(shí)進(jìn)行探索與交互的模型。

這就是今天想和大家分享的內(nèi)容,謝謝。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
記者在街頭采訪年輕人“年薪20萬(wàn)屬于什么水平”,得到的回答令人咋舌!

記者在街頭采訪年輕人“年薪20萬(wàn)屬于什么水平”,得到的回答令人咋舌!

張曉磊
2025-10-31 09:44:39
特朗普通告全球,解決臺(tái)灣問(wèn)題,中國(guó)自己決定,外交部的回應(yīng)亮了

特朗普通告全球,解決臺(tái)灣問(wèn)題,中國(guó)自己決定,外交部的回應(yīng)亮了

博覽歷史
2026-01-10 19:35:34
死了么APP發(fā)文回應(yīng):將把主要精力投入到產(chǎn)品打磨中,對(duì)新名稱的積極建議,會(huì)認(rèn)真研究和考慮

死了么APP發(fā)文回應(yīng):將把主要精力投入到產(chǎn)品打磨中,對(duì)新名稱的積極建議,會(huì)認(rèn)真研究和考慮

大風(fēng)新聞
2026-01-11 15:26:05
美國(guó)強(qiáng)硬表態(tài):退出66組織非棄世界促改革

美國(guó)強(qiáng)硬表態(tài):退出66組織非棄世界促改革

我是盲流
2026-01-11 10:57:52
700萬(wàn)婚車配軍裝。最帥升旗手張自軒結(jié)婚不到1天,新娘無(wú)辜受牽連

700萬(wàn)婚車配軍裝。最帥升旗手張自軒結(jié)婚不到1天,新娘無(wú)辜受牽連

桑葚愛動(dòng)畫
2026-01-11 16:56:14
炸了!夏奇拉雙平臺(tái)點(diǎn)名梓渝,《Zoo》舞臺(tái)破圈,次元壁碎一地

炸了!夏奇拉雙平臺(tái)點(diǎn)名梓渝,《Zoo》舞臺(tái)破圈,次元壁碎一地

距離距離
2026-01-11 10:18:49
美軍抓馬杜羅,中俄防空“失聲”,特朗普要再炸伊朗,結(jié)局更揪心

美軍抓馬杜羅,中俄防空“失聲”,特朗普要再炸伊朗,結(jié)局更揪心

小丸說(shuō)故事
2026-01-11 16:19:43
終于終于……南六環(huán)改擴(kuò)建!

終于終于……南六環(huán)改擴(kuò)建!

新豐臺(tái)
2026-01-11 22:31:01
年內(nèi)跌的最慘股票之一,跌了10個(gè)月,從28跌到5塊,這還怎么玩!

年內(nèi)跌的最慘股票之一,跌了10個(gè)月,從28跌到5塊,這還怎么玩!

財(cái)經(jīng)市界
2026-01-11 17:26:52
西方軍事專家:不同于其他大國(guó),中國(guó)是全世界最完美的超級(jí)大國(guó)

西方軍事專家:不同于其他大國(guó),中國(guó)是全世界最完美的超級(jí)大國(guó)

遁走的兩輪
2026-01-10 00:17:12
出軌忍了,私生子也忍了,套現(xiàn)2億后,“贅婿”最終被踢出豪門

出軌忍了,私生子也忍了,套現(xiàn)2億后,“贅婿”最終被踢出豪門

文史旺旺旺
2025-12-29 19:40:04
嫂子堅(jiān)持要求無(wú)菌育兒,多年細(xì)心養(yǎng)育下,她兒子因?yàn)橐粋€(gè)屁進(jìn)了ICU

嫂子堅(jiān)持要求無(wú)菌育兒,多年細(xì)心養(yǎng)育下,她兒子因?yàn)橐粋€(gè)屁進(jìn)了ICU

溫情郵局
2026-01-05 10:24:02
賈玲為張小斐慶生!本人沒復(fù)胖目測(cè)100斤,私下沒架子超級(jí)好相處

賈玲為張小斐慶生!本人沒復(fù)胖目測(cè)100斤,私下沒架子超級(jí)好相處

章眽八卦
2026-01-11 13:23:59
徹底怒了,許利民怒批有隊(duì)員耍大牌,知名媒體人揭開謎底

徹底怒了,許利民怒批有隊(duì)員耍大牌,知名媒體人揭開謎底

鄒維體育
2026-01-11 23:02:38
原來(lái)有這么多不體面但掙錢的小生意!原來(lái)都是悶聲發(fā)大財(cái)?。?>
    </a>
        <h3>
      <a href=原來(lái)有這么多不體面但掙錢的小生意!原來(lái)都是悶聲發(fā)大財(cái)?。?/a> 另子維愛讀史
2025-12-06 22:09:07
復(fù)仇戰(zhàn)全面打響,俄羅斯開始掀桌,27國(guó)陷入恐慌,事態(tài)失控了

復(fù)仇戰(zhàn)全面打響,俄羅斯開始掀桌,27國(guó)陷入恐慌,事態(tài)失控了

青春染指紅顏夢(mèng)
2026-01-12 01:02:56
無(wú)限期缺陣!徹底砸手里了,爭(zhēng)冠豪門遭重創(chuàng),三方史詩(shī)交易虧大了

無(wú)限期缺陣!徹底砸手里了,爭(zhēng)冠豪門遭重創(chuàng),三方史詩(shī)交易虧大了

老侃侃球
2026-01-11 03:30:03
浙大研究:阿爾茲海默癥早期不是記性差,而是身上6表現(xiàn),需注意

浙大研究:阿爾茲海默癥早期不是記性差,而是身上6表現(xiàn),需注意

岐黃傳人孫大夫
2026-01-05 14:28:04
為什么錢越來(lái)越不經(jīng)用了?網(wǎng)友:是通縮,黃金價(jià)格越高越說(shuō)明通縮

為什么錢越來(lái)越不經(jīng)用了?網(wǎng)友:是通縮,黃金價(jià)格越高越說(shuō)明通縮

帶你感受人間冷暖
2026-01-12 00:10:11
開國(guó)大將次子羅宇,89年攜香港女星叛逃出國(guó),晚年在美國(guó)黯然離世

開國(guó)大將次子羅宇,89年攜香港女星叛逃出國(guó),晚年在美國(guó)黯然離世

搜史君
2025-12-31 13:00:10
2026-01-12 05:24:49
雷峰網(wǎng) incentive-icons
雷峰網(wǎng)
關(guān)注智能與未來(lái)!
68317文章數(shù) 656051關(guān)注度
往期回顧 全部

科技要聞

“我們與美國(guó)的差距也許還在拉大”

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

體育要聞

U23國(guó)足形勢(shì):末輪不負(fù)泰國(guó)即確保晉級(jí)

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣平臺(tái)"燒錢搶存量市場(chǎng)"迎來(lái)終局?

汽車要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬(wàn)起

態(tài)度原創(chuàng)

旅游
手機(jī)
游戲
房產(chǎn)
軍事航空

旅游要聞

山東濟(jì)南趵突泉,游客100萬(wàn)元古錢幣掉水里:水下探測(cè)器打撈上岸

手機(jī)要聞

曝三星Galaxy S26 Ultra支持?eSIM,新機(jī)下月見

Epic喜加二/LPL、KPL春季賽開戰(zhàn)| 下周玩什么

房產(chǎn)要聞

66萬(wàn)方!4755套!三亞巨量房源正瘋狂砸出!

軍事要聞

俄大使:馬杜羅夫婦被控制時(shí)身邊沒人

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版