国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

騰訊 ARC Lab 胡文博:“如何實(shí)現(xiàn)三維感知的視頻世界模型,這非常值得探索”|GAIR 2025

0
分享至


我們正在努力創(chuàng)建一個(gè)具備三維感知能力的視頻世界模型。

作者丨齊鋮湧

編輯丨馬曉寧


世界模型的研究尚處于起步階段,共識(shí)尚未形成,有關(guān)該領(lǐng)域的研究形成了無(wú)數(shù)支流,過(guò)去一年多,Sora為代表的視頻生成模型,成為繼大語(yǔ)言模型(LLM)后新的學(xué)術(shù)熱點(diǎn)。本質(zhì)上講,當(dāng)下火爆的視頻生成模型,是一種世界模型,其核心目的是生成一段逼真、連貫的視頻。

要達(dá)到這樣的目的,模型必須在一定程度上理解這個(gè)世界的運(yùn)作方式(比如水往低處流、物體碰撞后的運(yùn)動(dòng)、人的合理動(dòng)作等)。

胡文博正是世界模型研究領(lǐng)域近兩年的絕對(duì)新銳。

在剛剛結(jié)束的 GAIR 2025,騰訊ARC Lab高級(jí)研究員胡文博,在雷峰網(wǎng)舉辦的GAIR大會(huì)現(xiàn)場(chǎng)帶來(lái)了非常有見(jiàn)解的演講:《邁向三維感知的視頻世界模型》(Towards 3D-aware Video World Models )。

以下是具體內(nèi)容,AI科技評(píng)論做了不改變?cè)獾木庉嫼驼怼?/p>

感謝邀請(qǐng)和介紹,我今天分享的題目是《邁向三維感知的視頻世界模型》(Towards 3D-aware Video World Models)。

之所以講這個(gè),是因?yàn)镾ora在2024年初出來(lái)時(shí),給大家?guī)?lái)很大震撼。比如它生成的視頻,雖然看起來(lái)是二維的,但已經(jīng)具備一定的3D一致性。不過(guò)從我們做三維重建的角度看,比如嘗試把它重建出來(lái),會(huì)發(fā)現(xiàn)墻面與地面的垂直性、平整度等都還不夠好。


基于這個(gè)觀察,領(lǐng)域內(nèi)認(rèn)為視頻擴(kuò)散模型有潛力作為世界模型的一種表示方式,但視頻本身仍是二維的,而我們的世界是三維的。

所以我們思考:如何實(shí)現(xiàn)一個(gè)具備三維感知能力的視頻世界模型?

為了實(shí)現(xiàn)這種三維感知,我們主要做了兩方面工作,今天重點(diǎn)講第二方面。

第一方面是如何從二維觀測(cè)中重建三維信息,這部分和前面彭老師講的內(nèi)容比較接近。第二方面是如何將重建得到的三維信息融入到生成過(guò)程中,使二維空間的視頻擴(kuò)散模型具備三維感知特性。

我先簡(jiǎn)單介紹一下第一方面的工作:如何在開(kāi)放世界環(huán)境中,從二維視頻中重建三維信息。

我們做了一系列工作,例如video depth (DepthCrafter)(2024年10月掛在arXiv上,現(xiàn)在效果可能已經(jīng)不是最新的了)。


除了video depth (DepthCrafter),我們進(jìn)一步思考:既然video depth還是2.5維的信息,能否直接從視頻中估計(jì)點(diǎn)云。這就是GeometryCrafter,有了點(diǎn)云,我們就能做類似4D重建的任務(wù),把各幀融合到同一坐標(biāo)系中。


再進(jìn)一步,我們還估計(jì)了運(yùn)動(dòng)信息,這部分我們最新的工作叫Holi4D,可以從單目視頻中重建運(yùn)動(dòng)。最后一塊是表面法線估計(jì)NormalCrafter,與前幾項(xiàng)相比,法線包含更多高頻細(xì)節(jié),因?yàn)樗俏恢玫囊浑A偏導(dǎo)數(shù)?;诜ň€我們可以做重打光、材質(zhì)編輯等任務(wù)。

總的來(lái)說(shuō),目前從任意開(kāi)放世界二維視頻中重建三維信息的技術(shù)已經(jīng)發(fā)展得不錯(cuò),我們能得到比較好的三維重建結(jié)果了。

接下來(lái)重點(diǎn)講第二方面:如何將三維信息用在視頻擴(kuò)散過(guò)程中,使模型具備三維感知能力。我們首先探索了靜態(tài)場(chǎng)景下的生成任務(wù):輸入一張單圖,希望模型能根據(jù)任意指定的相機(jī)位姿,生成對(duì)應(yīng)的觀測(cè)圖像。這樣我們就能像玩游戲一樣,通過(guò)控制相機(jī),實(shí)現(xiàn)對(duì)靜態(tài)場(chǎng)景的探索。

這個(gè)工作叫ViewCrafter,2024年10月公開(kāi),后來(lái)被PAMI接收。


方法上,我們借助重建能力:給定一張圖,先重建出一個(gè)粗糙的三維點(diǎn)云,形成場(chǎng)景的“骨架”。然后基于這個(gè)點(diǎn)云進(jìn)行漫游渲染,渲染結(jié)果雖然粗糙(可能有空洞),但視角變換關(guān)系非常準(zhǔn)確。

這些空洞正好由擅長(zhǎng)內(nèi)容生成的視頻擴(kuò)散模型來(lái)填補(bǔ)。我們將渲染的點(diǎn)云作為條件,控制視頻擴(kuò)散過(guò)程,從而生成既逼真又符合指定視角變換的圖像。

更重要的是,生成的新圖像可以反過(guò)來(lái)用于多視角重建,更新點(diǎn)云,從而實(shí)現(xiàn)迭代式、更大范圍的場(chǎng)景探索。這其實(shí)與世界模型中的記憶機(jī)制相關(guān):三維點(diǎn)云作為一種記憶,通過(guò)新探索內(nèi)容更新點(diǎn)云,再?gòu)闹胁樵冃畔⒆鳛闂l件,支持更遠(yuǎn)的探索。


我們展示一些結(jié)果:左側(cè)是指定的相機(jī)軌跡,右側(cè)是從單圖出發(fā)生成的探索結(jié)果。

效果還不錯(cuò),不僅支持單圖輸入,也支持稀疏多視圖輸入。從兩張圖出發(fā)的話,探索范圍會(huì)大很多。探索得到的多視圖圖像可以直接用于重建三維高斯?jié)姙R模型(3D Gaussian Splatting),實(shí)現(xiàn)實(shí)時(shí)渲染。


剛才講的是靜態(tài)場(chǎng)景探索,接下來(lái)是如何對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行探索。這是我們發(fā)表在ICCV 2025上的Oral工作TrajectoryCrafter。


核心思想是:用戶輸入一段單目視頻(它是四維世界的二維投影),模型應(yīng)允許用戶對(duì)其背后的四維世界進(jìn)行探索,即同時(shí)指定相機(jī)位姿和時(shí)間點(diǎn),生成對(duì)應(yīng)的動(dòng)態(tài)觀測(cè)。

方法延續(xù)之前的思路:核心是如何將重建的三維信息注入生成過(guò)程。輸入是一段視頻,我們通過(guò)視頻重建方法將其提升為三維空間中的動(dòng)態(tài)點(diǎn)云。然后像ViewCrafter一樣,基于指定位姿渲染點(diǎn)云。

不同之處在于,動(dòng)態(tài)探索對(duì)生成質(zhì)量要求更高,因此我們除了注入點(diǎn)云信息外,還將原始視頻(質(zhì)量最高)也作為條件注入擴(kuò)散模型,從而在精準(zhǔn)控制相機(jī)位姿的同時(shí)實(shí)現(xiàn)高質(zhì)量生成。



結(jié)果展示:左側(cè)是原始動(dòng)態(tài)視頻,右側(cè)是依據(jù)新指定相機(jī)位姿生成的動(dòng)態(tài)視頻。例如左上角第一個(gè)例子,甚至可以繞到人物背后觀看,光影反射效果也不錯(cuò)。



模型還能實(shí)現(xiàn)“子彈時(shí)間”特效:固定時(shí)間點(diǎn),旋轉(zhuǎn)相機(jī)。另外也能模擬“Dolly Zoom”特效(電影常用手法:邊推移相機(jī)邊調(diào)整焦距,使主體大小不變而背景變化),我們的模型可以從原始固定相機(jī)視頻出發(fā),同時(shí)修改相機(jī)內(nèi)參和外參,復(fù)現(xiàn)這種效果。

以上兩個(gè)工作分別實(shí)現(xiàn)了對(duì)靜態(tài)和動(dòng)態(tài)場(chǎng)景的探索。

對(duì)于世界模型,除了探索,下一步是實(shí)現(xiàn)交互:如何對(duì)場(chǎng)景中多個(gè)物體進(jìn)行交互?這是我們最新工作VerseCrafter(即將公開(kāi))。


仍從單圖輸入出發(fā),重建幾何信息,并將可移動(dòng)物體用高斯球標(biāo)注出來(lái)。相機(jī)和物體軌跡可在Blender中編輯:用戶可以交互式設(shè)計(jì)相機(jī)和每個(gè)物體的運(yùn)動(dòng)軌跡。然后,我們的模型能根據(jù)這些交互結(jié)果,生成逼真的觀測(cè)視頻。也就是說(shuō),相機(jī)和所有物體的運(yùn)動(dòng)都是可交互的。


實(shí)現(xiàn)方案上,我們構(gòu)建了一個(gè)“4D控制視頻世界模型”:從單圖出發(fā),基于重建和分割方法,重建出部分三維場(chǎng)景,并標(biāo)注可移動(dòng)物體。這樣就在Blender中得到一個(gè)粗糙的、可交互的三維(或四維)世界。雖然粗糙,但易于交互。交互結(jié)果作為條件,輸入到我們?cè)O(shè)計(jì)的視頻擴(kuò)散模型中,生成最終逼真的觀測(cè)。


這個(gè)方案的關(guān)鍵在于如何構(gòu)建訓(xùn)練數(shù)據(jù)。我們建立了一套完整的訓(xùn)練數(shù)據(jù)標(biāo)注流程,核心基于重建算法和視覺(jué)語(yǔ)言模型(VLM)進(jìn)行標(biāo)注與過(guò)濾。最終我們獲得了約35K個(gè)高質(zhì)量視頻片段的數(shù)據(jù)集。



基于這個(gè)模型,我們可以做很多事情:固定相機(jī)只移動(dòng)物體、固定物體只移動(dòng)相機(jī)、同時(shí)移動(dòng)相機(jī)和物體。我們對(duì)比了現(xiàn)有方案,很多方法只能處理特定類別(如僅限人體),而我們的方法在運(yùn)動(dòng)符合度和生成質(zhì)量上都有不錯(cuò)表現(xiàn)。我們還測(cè)試了多玩家聯(lián)機(jī)探索場(chǎng)景的能力:用兩個(gè)人各自拍攝的照片作為Player A和Player B的視角,讓他們?cè)谕粋€(gè)場(chǎng)景中同時(shí)探索與交互,模型能分別生成各自的視角視頻。


總結(jié)一下,今天主要關(guān)注第二方面——三維感知視頻世界模型,但這部分非常依賴第一方面的開(kāi)放世界三維重建技術(shù)(包括深度、點(diǎn)云、運(yùn)動(dòng)、法線等重建)。

在三維感知視頻世界模型方面,我們實(shí)現(xiàn)了靜態(tài)場(chǎng)景探索模型、動(dòng)態(tài)場(chǎng)景探索模型,以及支持在四維場(chǎng)景中同時(shí)進(jìn)行探索與交互的模型。

這就是今天想和大家分享的內(nèi)容,謝謝。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
多打1人98分鐘!澳超隊(duì)點(diǎn)球戰(zhàn)出局無(wú)緣8強(qiáng),中超保住3個(gè)亞冠席位

多打1人98分鐘!澳超隊(duì)點(diǎn)球戰(zhàn)出局無(wú)緣8強(qiáng),中超保住3個(gè)亞冠席位

我愛(ài)英超
2026-03-10 23:55:30
膽大包天!美國(guó)一邊對(duì)伊發(fā)動(dòng)斬首滅國(guó)戰(zhàn)爭(zhēng),一邊對(duì)中國(guó)電網(wǎng)動(dòng)手!

膽大包天!美國(guó)一邊對(duì)伊發(fā)動(dòng)斬首滅國(guó)戰(zhàn)爭(zhēng),一邊對(duì)中國(guó)電網(wǎng)動(dòng)手!

來(lái)科點(diǎn)譜
2026-03-07 12:00:42
沙特、阿聯(lián)酋、伊拉克和科威特或削減至多670萬(wàn)桶/天的原油產(chǎn)量,其中伊拉克將原油產(chǎn)量削減約290萬(wàn)桶/天

沙特、阿聯(lián)酋、伊拉克和科威特或削減至多670萬(wàn)桶/天的原油產(chǎn)量,其中伊拉克將原油產(chǎn)量削減約290萬(wàn)桶/天

瀟湘晨報(bào)
2026-03-10 16:24:26
江蘇一網(wǎng)友曬媽媽攢了10年快遞不拆,全都堆放在倉(cāng)庫(kù)!因倉(cāng)庫(kù)房東不租了,近日全家正在拆快遞準(zhǔn)備搬走!

江蘇一網(wǎng)友曬媽媽攢了10年快遞不拆,全都堆放在倉(cāng)庫(kù)!因倉(cāng)庫(kù)房東不租了,近日全家正在拆快遞準(zhǔn)備搬走!

觀威海
2026-03-10 16:28:05
剛剛,伊朗爆出大消息!

剛剛,伊朗爆出大消息!

君臨財(cái)富
2026-03-10 17:14:59
香港“豪門(mén)壞女孩”去世,醉駕、襲警、毆打父母、虐待外傭一樣不落!

香港“豪門(mén)壞女孩”去世,醉駕、襲警、毆打父母、虐待外傭一樣不落!

港漂圈
2026-03-09 20:57:29
深夜利空!大盤(pán)縮量上漲藏殺機(jī),明天A股將迎來(lái)大變盤(pán)?

深夜利空!大盤(pán)縮量上漲藏殺機(jī),明天A股將迎來(lái)大變盤(pán)?

財(cái)報(bào)翻譯官
2026-03-10 19:05:37
3月10日俄烏:最直接的受益者

3月10日俄烏:最直接的受益者

山河路口
2026-03-10 18:29:13
中國(guó)有源相控陣?yán)走_(dá)真實(shí)水平:并非世界第一,和美差距有多大

中國(guó)有源相控陣?yán)走_(dá)真實(shí)水平:并非世界第一,和美差距有多大

黑翼天使
2026-01-10 03:28:16
生活是苦澀的,是無(wú)奈的嘆息

生活是苦澀的,是無(wú)奈的嘆息

疾跑的小蝸牛
2026-03-10 23:20:36
鏢人巨虧近4億,成2026最慘電影!被罵偽愛(ài)國(guó)的吳京,恐難再自救

鏢人巨虧近4億,成2026最慘電影!被罵偽愛(ài)國(guó)的吳京,恐難再自救

林輕吟
2026-03-10 19:35:59
震驚!網(wǎng)傳廣東一車一日8次占應(yīng)急車道被扣48分,橫跨贛鄂湘三省

震驚!網(wǎng)傳廣東一車一日8次占應(yīng)急車道被扣48分,橫跨贛鄂湘三省

火山詩(shī)話
2026-03-10 17:06:29
中國(guó)向全世界宣布!建成全球首條超音速鐵路,最高速度可達(dá)1馬赫

中國(guó)向全世界宣布!建成全球首條超音速鐵路,最高速度可達(dá)1馬赫

嫹筆牂牂
2026-02-19 11:28:50
2名中國(guó)女留學(xué)生在澳登山不幸遇難!警方:帶夠防寒衣物卻沒(méi)穿,均死于失溫

2名中國(guó)女留學(xué)生在澳登山不幸遇難!警方:帶夠防寒衣物卻沒(méi)穿,均死于失溫

澳洲紅領(lǐng)巾
2026-03-10 13:38:46
已有八名球星身價(jià)過(guò)億!平心而論,英超不愧為世界第一聯(lián)賽!

已有八名球星身價(jià)過(guò)億!平心而論,英超不愧為世界第一聯(lián)賽!

田先生籃球
2026-03-09 21:40:37
大眾擬裁員 5 萬(wàn)人!

大眾擬裁員 5 萬(wàn)人!

中國(guó)半導(dǎo)體論壇
2026-03-10 21:14:33
上海交大解剖322名腦梗死者,驚訝發(fā)現(xiàn):患腦梗的人,有8大共性

上海交大解剖322名腦梗死者,驚訝發(fā)現(xiàn):患腦梗的人,有8大共性

侯醫(yī)生談健康
2026-03-08 15:40:05
美媒評(píng)論東風(fēng)5C導(dǎo)彈:恐怖!如果丟一枚到美國(guó),會(huì)造成怎樣的景象

美媒評(píng)論東風(fēng)5C導(dǎo)彈:恐怖!如果丟一枚到美國(guó),會(huì)造成怎樣的景象

朝子亥
2026-03-10 19:15:03
曝俄軍半道遇襲造成五百人傷亡!瑟爾斯基透露春季反攻信號(hào)

曝俄軍半道遇襲造成五百人傷亡!瑟爾斯基透露春季反攻信號(hào)

項(xiàng)鵬飛
2026-03-10 17:25:55
WTT重慶冠軍賽:男單16強(qiáng)已出7!國(guó)乒2勝1負(fù),莫雷加德約戰(zhàn)溫瑞博

WTT重慶冠軍賽:男單16強(qiáng)已出7!國(guó)乒2勝1負(fù),莫雷加德約戰(zhàn)溫瑞博

全言作品
2026-03-10 21:24:11
2026-03-11 02:36:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣Token

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開(kāi)發(fā)表講話 官方回應(yīng)

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開(kāi)發(fā)表講話 官方回應(yīng)

體育要聞

加蘭沒(méi)那么差,但鱸魚(yú)會(huì)用嗎?

娛樂(lè)要聞

《逐玉》注水風(fēng)波升級(jí)!315評(píng)論區(qū)淪陷

財(cái)經(jīng)要聞

“龍蝦補(bǔ)貼”密集出爐 最高1000萬(wàn)!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

時(shí)尚
房產(chǎn)
教育
數(shù)碼
軍事航空

看來(lái)看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

房產(chǎn)要聞

信號(hào)!千億巨頭入局,三亞開(kāi)啟新一輪大征拆!

教育要聞

南京十三中發(fā)來(lái)邀請(qǐng)函!

數(shù)碼要聞

3月31日!RTX 50系玩家可體驗(yàn)英偉達(dá)DLSS 4.5新特性

軍事要聞

剛說(shuō)完戰(zhàn)爭(zhēng)很快結(jié)束 特朗普改口

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版