国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

NVIDIA與伊利諾伊大學(xué):AI視頻生成實(shí)現(xiàn)因果邏輯分離式運(yùn)動(dòng)控制

0
分享至


這項(xiàng)由NVIDIA研究院與美國(guó)伊利諾伊大學(xué)厄巴納-香檳分校聯(lián)合完成的研究,以預(yù)印本形式于2026年4月8日發(fā)布在arXiv平臺(tái),論文編號(hào)為arXiv:2604.07348。對(duì)于想深入了解的讀者,可通過該編號(hào)直接檢索原文。

當(dāng)你拿起手機(jī)拍視頻,想要既追蹤桌上那只移動(dòng)的杯子,又慢慢把鏡頭推近看清楚細(xì)節(jié),這兩件事同時(shí)做起來(lái)其實(shí)相當(dāng)自然。然而對(duì)于現(xiàn)有的AI視頻生成系統(tǒng)來(lái)說,這種"兩件事同時(shí)做"卻是一個(gè)棘手的難題——鏡頭動(dòng)了,畫面里所有東西的運(yùn)動(dòng)軌跡都跟著變,AI根本分不清哪些是"鏡頭在動(dòng)"、哪些是"物體本身在動(dòng)"。更麻煩的是,當(dāng)一只手推動(dòng)一個(gè)杯子,杯子會(huì)滑動(dòng),這個(gè)"推"和"滑"之間存在因果關(guān)系,而現(xiàn)有的AI系統(tǒng)對(duì)此幾乎視而不見——它只知道機(jī)械地跟隨預(yù)設(shè)軌跡,根本不理解"手推了,所以杯子滑了"這件事。

正是為了解決這兩個(gè)深層問題,NVIDIA的研究團(tuán)隊(duì)提出了一個(gè)名為MoRight的新框架。這個(gè)名字可以理解為"用正確的方式做運(yùn)動(dòng)控制",而它的核心思路,就像是給AI配了一套"雙眼睛+因果推理大腦"的組合。

一、為什么現(xiàn)有系統(tǒng)總是"手忙腳亂"

要理解MoRight解決了什么問題,不妨先想象這樣一個(gè)場(chǎng)景:你是一位舞臺(tái)導(dǎo)演,既要指揮演員按照劇本走位,又要控制攝像機(jī)從不同角度拍攝?,F(xiàn)有的AI視頻系統(tǒng)面對(duì)這個(gè)任務(wù)時(shí),會(huì)把"演員走位"和"攝像機(jī)移動(dòng)"混在一起,交給系統(tǒng)一張標(biāo)注了每個(gè)像素運(yùn)動(dòng)軌跡的地圖。問題是,當(dāng)攝像機(jī)向右移動(dòng)時(shí),畫面里所有東西的像素軌跡都會(huì)向左偏移——演員的軌跡和攝像機(jī)移動(dòng)的效果完全混在一起,AI根本無(wú)法區(qū)分哪個(gè)位移是演員自己走的,哪個(gè)是因?yàn)殓R頭動(dòng)了才產(chǎn)生的視覺偏移。

研究團(tuán)隊(duì)把這種現(xiàn)象稱為"運(yùn)動(dòng)糾纏"。就像一團(tuán)毛線被繞在一起,想要單獨(dú)抽出某一根幾乎不可能?,F(xiàn)有方法試圖給AI額外提供深度信息、3D軌跡或者前景背景分割等"特權(quán)信息"來(lái)緩解這個(gè)問題,但這些信息在現(xiàn)實(shí)應(yīng)用中往往很難獲取,而且只能在已知完整視頻序列的情況下使用——如果你只有一張參考圖,這些方法就束手無(wú)策了。

第二個(gè)問題同樣根深蒂固。當(dāng)AI被告知"讓這只手沿著這條軌跡移動(dòng)",它會(huì)盡力讓畫面中的手跟隨軌跡,但對(duì)于"手推動(dòng)了什么東西、那個(gè)東西會(huì)怎么反應(yīng)",它完全不在乎。這就好比一個(gè)演員只按照腳本走位,卻完全無(wú)視臺(tái)詞中的邏輯——他走到了桌子旁邊,但桌上的道具是否因此移動(dòng),與他無(wú)關(guān)。在物理世界中,因果關(guān)系是無(wú)處不在的:推一下積木會(huì)倒,提起茶壺水會(huì)流,踢一腳球球會(huì)飛出去。但對(duì)現(xiàn)有AI而言,這些都只是"像素位移",而非"原因和結(jié)果"。

MoRight的出現(xiàn),正是為了同時(shí)拆解這兩個(gè)困局。

二、"雙流"設(shè)計(jì):給運(yùn)動(dòng)和鏡頭各自一條獨(dú)立的跑道

MoRight的第一個(gè)核心創(chuàng)新,是引入了一種叫做"雙流生成"的架構(gòu)。用一個(gè)直觀的比喻來(lái)理解:把整個(gè)視頻生成過程想象成一個(gè)專業(yè)攝影棚的工作流程。棚里有兩套獨(dú)立系統(tǒng)同時(shí)運(yùn)行——一套負(fù)責(zé)"演員在固定舞臺(tái)上的走位",另一套負(fù)責(zé)"攝像機(jī)的移動(dòng)軌跡"。這兩套系統(tǒng)彼此獨(dú)立運(yùn)作,但又通過內(nèi)部的信息傳遞機(jī)制保持協(xié)調(diào),最終呈現(xiàn)出既有演員按設(shè)定走位、又有鏡頭靈活移動(dòng)的連貫畫面。

具體來(lái)說,MoRight把運(yùn)動(dòng)控制拆成了兩個(gè)并行的處理通道。第一個(gè)通道叫做"規(guī)范視角流"(Canonical Stream),它在一個(gè)假設(shè)攝像機(jī)靜止不動(dòng)的虛擬環(huán)境中處理物體的運(yùn)動(dòng)軌跡。用戶在這里畫出物體的運(yùn)動(dòng)路徑,比如"讓茶壺從左移到右",這條路徑是在固定視角下定義的,清晰且無(wú)歧義。第二個(gè)通道叫做"目標(biāo)視角流"(Target Stream),它負(fù)責(zé)處理攝像機(jī)的移動(dòng)——比如"鏡頭向右旋轉(zhuǎn)30度"或者"鏡頭推近"。這個(gè)通道不直接處理物體的運(yùn)動(dòng),而是接收攝像機(jī)參數(shù)作為輸入。

兩個(gè)通道的神經(jīng)網(wǎng)絡(luò)權(quán)重是完全共享的,這意味著它們本質(zhì)上是同一個(gè)AI大腦在同時(shí)處理兩類不同的任務(wù)。兩個(gè)通道通過每個(gè)Transformer模塊內(nèi)部的"自注意力層"進(jìn)行信息交流——在這一層,兩個(gè)通道的特征被拼接在一起,讓目標(biāo)視角通道的像素可以"看到"規(guī)范視角通道里的運(yùn)動(dòng)信息,從而學(xué)會(huì)如何把固定視角下的物體運(yùn)動(dòng)轉(zhuǎn)化為攝像機(jī)移動(dòng)后的視角下應(yīng)該呈現(xiàn)的樣子。研究團(tuán)隊(duì)把這種機(jī)制稱為"跨視角運(yùn)動(dòng)遷移",它實(shí)現(xiàn)了在不知道未來(lái)幀的情況下,僅憑第一幀圖像就能完成運(yùn)動(dòng)與鏡頭的解耦。

在技術(shù)實(shí)現(xiàn)層面,物體運(yùn)動(dòng)的編碼方式是構(gòu)建一張"逐像素軌跡圖",讓沿同一條軌跡運(yùn)動(dòng)的像素共享相同的時(shí)間對(duì)應(yīng)關(guān)系嵌入,然后通過一個(gè)輕量級(jí)編碼器壓縮成緊湊的特征。攝像機(jī)運(yùn)動(dòng)的編碼則借鑒了Gen3C的方法,利用攝像機(jī)位姿和深度估計(jì)對(duì)第一幀圖像進(jìn)行"扭曲"——相當(dāng)于模擬攝像機(jī)移動(dòng)后場(chǎng)景應(yīng)該看起來(lái)的樣子,再通過VAE編碼器編碼成攝像機(jī)條件特征。這兩種條件特征都在每個(gè)Transformer模塊中被注入到視頻特征里,形成"注入后同步"的循環(huán),逐步把運(yùn)動(dòng)信息從規(guī)范視角傳遞到目標(biāo)視角。

三、教會(huì)AI懂"因果":主動(dòng)運(yùn)動(dòng)和被動(dòng)運(yùn)動(dòng)的拆分

解決了鏡頭與運(yùn)動(dòng)的糾纏問題之后,MoRight還要面對(duì)更深層的挑戰(zhàn):如何讓AI理解"原因?qū)е陆Y(jié)果"。

研究團(tuán)隊(duì)的解決方案出奇地優(yōu)雅。他們把場(chǎng)景中所有物體的運(yùn)動(dòng)軌跡拆分成兩類。第一類叫做"主動(dòng)運(yùn)動(dòng)",指的是由用戶驅(qū)動(dòng)的意圖性動(dòng)作,比如手的移動(dòng)、機(jī)器人手臂的伸展——這些動(dòng)作是"原因"。第二類叫做"被動(dòng)運(yùn)動(dòng)",指的是因主動(dòng)動(dòng)作而產(chǎn)生的反應(yīng)性運(yùn)動(dòng),比如被推動(dòng)的杯子滑行、被提起茶壺倒出的水流——這些是"結(jié)果"。

在訓(xùn)練過程中,研究團(tuán)隊(duì)引入了一種叫做"運(yùn)動(dòng)丟棄"的訓(xùn)練策略。在每次訓(xùn)練時(shí),系統(tǒng)會(huì)隨機(jī)地只給AI展示主動(dòng)運(yùn)動(dòng)軌跡或者只給被動(dòng)運(yùn)動(dòng)軌跡,然后要求它生成包含兩類運(yùn)動(dòng)全部效果的完整視頻。這就好比告訴AI一道題的一半條件,讓它自己推斷出另一半。當(dāng)AI只看到手的運(yùn)動(dòng)軌跡時(shí),它必須自己預(yù)測(cè)杯子會(huì)怎么滑動(dòng);當(dāng)AI只看到杯子的滑動(dòng)軌跡時(shí),它必須反推出是什么樣的手部動(dòng)作導(dǎo)致了這個(gè)結(jié)果。

經(jīng)過大量這樣的訓(xùn)練,AI就像一個(gè)在廚房里觀察了無(wú)數(shù)次"廚師切菜→食材被切開"過程的學(xué)徒,開始內(nèi)化這些因果規(guī)律,而不再只是機(jī)械地復(fù)制像素軌跡。

這種設(shè)計(jì)帶來(lái)了兩種推理能力,在測(cè)試階段可以靈活切換使用。"正向推理"就是用戶給出主動(dòng)運(yùn)動(dòng)(比如畫出手往前推的軌跡),AI自動(dòng)生成被推物體合理的反應(yīng)動(dòng)作。"逆向推理"則反過來(lái),用戶指定想要的被動(dòng)效果(比如"我希望球朝左飛去"),AI反推出是什么樣的主動(dòng)動(dòng)作導(dǎo)致了這個(gè)效果,進(jìn)而生成完整視頻。這兩種能力讓用戶可以以完全不同的交互方式驅(qū)動(dòng)視頻生成,極大地?cái)U(kuò)展了系統(tǒng)的應(yīng)用范圍。

四、數(shù)據(jù)從哪里來(lái):一套巧妙的數(shù)據(jù)工廠

MoRight的雙流架構(gòu)需要"同一場(chǎng)景在不同攝像機(jī)角度下的成對(duì)視頻"作為訓(xùn)練數(shù)據(jù),但現(xiàn)實(shí)世界中幾乎不存在這樣的天然配對(duì)數(shù)據(jù)。研究團(tuán)隊(duì)因此設(shè)計(jì)了一套三階段數(shù)據(jù)生產(chǎn)流水線,堪稱一座自動(dòng)化數(shù)據(jù)工廠。

第一階段是"運(yùn)動(dòng)提取與規(guī)范化"。研究團(tuán)隊(duì)從大量互聯(lián)網(wǎng)視頻中提取深度信息、攝像機(jī)位姿和密集像素軌跡,然后通過幾何投影把所有軌跡"還原"到第一幀的靜態(tài)視角坐標(biāo)系下,得到規(guī)范化的運(yùn)動(dòng)軌跡。具體公式是把2D軌跡點(diǎn)根據(jù)深度"反投影"到3D空間,再投影到第一幀的相機(jī)平面,從而消除攝像機(jī)運(yùn)動(dòng)對(duì)軌跡的影響。

第二階段是"運(yùn)動(dòng)分解"。研究團(tuán)隊(duì)使用Qwen3視覺語(yǔ)言模型對(duì)視頻內(nèi)容進(jìn)行理解,讓它識(shí)別哪些是主動(dòng)物體(比如人、手、機(jī)器人),哪些是被動(dòng)物體(比如被操作的工具或被推動(dòng)的物品),然后用SAM2視頻分割模型對(duì)這些物體進(jìn)行幀級(jí)別的精確分割,生成主動(dòng)/被動(dòng)物體的掩碼,從而把軌跡也分配到對(duì)應(yīng)類別。與此同時(shí),系統(tǒng)還會(huì)生成針對(duì)每個(gè)視頻的文字描述,并在訓(xùn)練時(shí)只提供其中一類運(yùn)動(dòng)的文字描述,防止AI靠文字"作弊"來(lái)繞過因果推理。

第三階段是"成對(duì)多視角數(shù)據(jù)合成"。研究團(tuán)隊(duì)先篩選出攝像機(jī)靜止的視頻(要求旋轉(zhuǎn)誤差不超過0.5度、平移不超過5毫米),然后用一個(gè)攝像機(jī)控制的視頻到視頻轉(zhuǎn)換模型生成對(duì)應(yīng)的移動(dòng)攝像機(jī)版本,從而人工制造出"同一物體運(yùn)動(dòng)在不同攝像機(jī)下的成對(duì)視頻"。為了增加攝像機(jī)多樣性,系統(tǒng)還補(bǔ)充了軌道旋轉(zhuǎn)、平移、推拉等基本攝像機(jī)操作,以及從真實(shí)視頻中提取的動(dòng)態(tài)攝像機(jī)軌跡。

除了合成數(shù)據(jù),研究團(tuán)隊(duì)還設(shè)計(jì)了一套混合訓(xùn)練策略來(lái)引入大量真實(shí)視頻。對(duì)于攝像機(jī)靜止的真實(shí)視頻,系統(tǒng)直接把它復(fù)制一份當(dāng)作"目標(biāo)流"輸出,讓AI學(xué)習(xí)如何把運(yùn)動(dòng)條件從第一個(gè)流傳遞到第二個(gè)流。對(duì)于同時(shí)包含攝像機(jī)和物體運(yùn)動(dòng)的真實(shí)視頻,系統(tǒng)只對(duì)第二個(gè)流施加監(jiān)督損失,第一個(gè)流的損失設(shè)為零,這樣AI能接觸到各種真實(shí)的攝像機(jī)和運(yùn)動(dòng)配置,提升泛化能力。研究團(tuán)隊(duì)還額外引入了SyncCamMaster生成的合成圖形數(shù)據(jù),進(jìn)一步豐富攝像機(jī)多樣性。

五、訓(xùn)練細(xì)節(jié)和推理流程:從粗到細(xì),從簡(jiǎn)到難

在具體訓(xùn)練中,MoRight采用了幾種互補(bǔ)的數(shù)據(jù)增強(qiáng)策略來(lái)提升模型魯棒性。首先是"多粒度運(yùn)動(dòng)丟棄"——不僅按主動(dòng)/被動(dòng)類型隨機(jī)丟棄運(yùn)動(dòng),還隨機(jī)在像素級(jí)精細(xì)軌跡和物體級(jí)粗粒度軌跡之間切換,讓AI既能處理精細(xì)的像素控制,也能處理粗略的物體級(jí)別操作指令。其次是"遮擋和軌跡丟棄"——隨機(jī)遮掩部分軌跡點(diǎn),模擬現(xiàn)實(shí)推理時(shí)可能遇到的遮擋和追蹤失敗情況,提高系統(tǒng)對(duì)不完整輸入的容忍度。此外,訓(xùn)練時(shí)還會(huì)隨機(jī)截?cái)嘬壽E(只提供中間某幀之前的運(yùn)動(dòng)信息),模擬部分觀測(cè)的場(chǎng)景。

整個(gè)系統(tǒng)建立在預(yù)訓(xùn)練的Wan2.1-14B視頻生成模型之上,只對(duì)攝像機(jī)編碼器、軌跡編碼器和自注意力層進(jìn)行微調(diào),凍結(jié)其余網(wǎng)絡(luò)參數(shù)。訓(xùn)練使用了64塊GPU,共進(jìn)行15000次迭代,批大小為16,學(xué)習(xí)率設(shè)置為每秒3×10^-5。軌跡條件的丟棄概率為0.1,文字條件的丟棄概率為0.2。在推理階段,用戶只需在第一幀圖像上畫幾條稀疏的運(yùn)動(dòng)軌跡(簡(jiǎn)單的曲線或筆畫),指定運(yùn)動(dòng)方向和幅度,再選擇目標(biāo)攝像機(jī)位姿序列,系統(tǒng)就會(huì)同時(shí)對(duì)兩個(gè)流進(jìn)行聯(lián)合去噪,最終把第二流(目標(biāo)視角)的輸出呈現(xiàn)給用戶。在推理時(shí),系統(tǒng)還會(huì)利用第一幀深度信息進(jìn)行遮擋感知處理,確保被遮擋物體的軌跡不會(huì)影響前景物體。

研究團(tuán)隊(duì)還開發(fā)了一個(gè)交互式圖形界面,讓用戶可以在第一幀上直接繪制軌跡,同時(shí)獨(dú)立設(shè)置攝像機(jī)運(yùn)動(dòng)模式(如軌道環(huán)繞、推近推遠(yuǎn)等),實(shí)時(shí)預(yù)覽軌跡效果和遮擋關(guān)系,進(jìn)行直觀的場(chǎng)景編輯。

六、實(shí)驗(yàn)結(jié)果:和同行相比,表現(xiàn)如何

研究團(tuán)隊(duì)在三個(gè)評(píng)測(cè)數(shù)據(jù)集上測(cè)試了MoRight的性能:DynPose-100K(一個(gè)包含高動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的野外視頻數(shù)據(jù)集,團(tuán)隊(duì)從中選取了50段有明顯視角變化和物體交互的視頻)、WISA(一個(gè)大規(guī)模物理動(dòng)力學(xué)數(shù)據(jù)集,覆蓋碰撞、形變、彈性、液體和剛體運(yùn)動(dòng)等類別,選取了50段視頻)以及研究團(tuán)隊(duì)自行收集的50段真實(shí)烹飪視頻(包含復(fù)雜的手-物體交互)。

評(píng)測(cè)指標(biāo)涵蓋四個(gè)維度:視頻質(zhì)量用PSNR和SSIM(與參考視頻的相似度)以及FID和FVD(分布級(jí)別的相似度)來(lái)衡量;攝像機(jī)控制精度用旋轉(zhuǎn)誤差和平移誤差來(lái)衡量;物體運(yùn)動(dòng)精度用終點(diǎn)誤差(EPE,即預(yù)測(cè)軌跡終點(diǎn)與真實(shí)軌跡終點(diǎn)之間的像素距離)來(lái)衡量;運(yùn)動(dòng)真實(shí)性用VideoPhy提供的"物理常識(shí)得分"(PC)和"語(yǔ)義一致性得分"(SA)來(lái)衡量,兩者都是0到1之間的歸一化分?jǐn)?shù)。

與之對(duì)比的基線方法包括Wan2.1(基礎(chǔ)視頻生成模型,無(wú)運(yùn)動(dòng)控制能力)、Gen3C(僅支持?jǐn)z像機(jī)控制)、Motion Prompting(MP,接收密集像素軌跡作為運(yùn)動(dòng)控制信號(hào))、ATI(任意軌跡指令控制視頻生成)以及WanMove(通過潛在軌跡引導(dǎo)進(jìn)行運(yùn)動(dòng)控制)。重要的是,后三種方法都需要提供包含前景和背景所有像素的完整運(yùn)動(dòng)軌跡,相當(dāng)于擁有"特權(quán)信息",而MoRight只需要在第一幀上定義稀疏的規(guī)范視角軌跡,不需要未來(lái)幀的軌跡信息。

在攝像機(jī)和物體運(yùn)動(dòng)聯(lián)合控制的評(píng)測(cè)中,WanMove在DynPose-100K數(shù)據(jù)集上總體成績(jī)最好,MoRight略微落后——主要原因是高動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)下,攝像機(jī)位姿估計(jì)和軌跡重投影的誤差會(huì)影響輸入控制信號(hào)的質(zhì)量。盡管如此,MoRight在物體運(yùn)動(dòng)精度(EPE)上達(dá)到了與需要特權(quán)信息的方法相當(dāng)甚至更好的水平,而在烹飪數(shù)據(jù)集上,MoRight則在視頻質(zhì)量和運(yùn)動(dòng)控制精度兩個(gè)維度上都取得了最佳整體表現(xiàn)。值得一提的是,ATI和WanMove由于把攝像機(jī)和物體運(yùn)動(dòng)捆綁在同一個(gè)追蹤信號(hào)里,在高動(dòng)態(tài)場(chǎng)景中往往會(huì)偏向主導(dǎo)的運(yùn)動(dòng)模式,有時(shí)犧牲攝像機(jī)精度,有時(shí)犧牲物體追蹤精度。

在物理交互生成的評(píng)測(cè)中,MoRight的表現(xiàn)更為突出。在WISA數(shù)據(jù)集上,MoRight獲得了最高的物理常識(shí)得分(0.76),而MP、ATI和WanMove的得分均為0.75或更低。在烹飪數(shù)據(jù)集上,MoRight同樣取得了最高的物理常識(shí)得分(0.88)和最低的FID(39.94)、FVD(730.46)。語(yǔ)義一致性得分方面,由于MoRight只接收主動(dòng)運(yùn)動(dòng)描述而不提供被動(dòng)效果的文字描述(為了避免作弊),它的得分略低于那些使用完整描述的方法,但差距極小,仍在可比范圍內(nèi)。

七、人類主觀評(píng)測(cè):真實(shí)用戶如何選擇

為了更直觀地驗(yàn)證效果,研究團(tuán)隊(duì)還進(jìn)行了一項(xiàng)人類感知評(píng)測(cè)研究。他們從三個(gè)測(cè)試數(shù)據(jù)集中隨機(jī)抽取了30個(gè)案例,邀請(qǐng)11位參與者對(duì)不同方法的生成結(jié)果進(jìn)行盲評(píng),三類視頻以隨機(jī)順序展示,避免位置偏差。參與者從"可控性"(物體和攝像機(jī)運(yùn)動(dòng)與輸入的一致程度)、"運(yùn)動(dòng)真實(shí)性"(交互的物理合理性)和"照片真實(shí)感"(視覺質(zhì)量)三個(gè)維度選出最好的結(jié)果,允許多選或選擇"無(wú)一滿意"。過濾掉不可靠提交后,共收到330份有效評(píng)測(cè)。

結(jié)果顯示,MoRight在三個(gè)維度上均獲得了超過一半的偏好票:可控性53.5%,運(yùn)動(dòng)真實(shí)性54.6%,照片真實(shí)感55.9%。ATI的三項(xiàng)得分分別為18.8%、18.2%和17.4%,WanMove分別為25.0%、25.7%和23.1%。要知道,ATI和WanMove都使用了包含完整前景背景軌跡的特權(quán)信息,而MoRight只用了第一幀的主動(dòng)軌跡。這一對(duì)比說明,擁有更多輸入信息并不必然帶來(lái)更好的生成效果,系統(tǒng)對(duì)運(yùn)動(dòng)的理解方式和架構(gòu)設(shè)計(jì)才是關(guān)鍵。

八、消融研究:每個(gè)設(shè)計(jì)選擇是否真的有用

研究團(tuán)隊(duì)還對(duì)MoRight的各個(gè)設(shè)計(jì)決策進(jìn)行了系統(tǒng)性驗(yàn)證,通過在烹飪數(shù)據(jù)集上對(duì)比不同變體來(lái)確認(rèn)每個(gè)模塊的實(shí)際貢獻(xiàn)。

第一個(gè)對(duì)比是"級(jí)聯(lián)流水線"——把雙流并行設(shè)計(jì)換成先生成靜態(tài)攝像機(jī)視頻、再用Gen3C風(fēng)格的攝像機(jī)控制器移動(dòng)攝像機(jī)的兩階段串聯(lián)方案。結(jié)果顯示,這種方案引入了兩個(gè)階段之間的誤差累積,導(dǎo)致控制精度明顯下降。

第二個(gè)對(duì)比是"去掉固定視角分支"——只用動(dòng)態(tài)攝像機(jī)視頻訓(xùn)練,并把重投影軌跡和攝像機(jī)嵌入聯(lián)合編碼,去掉規(guī)范視角這個(gè)錨點(diǎn)。結(jié)果顯示,模型在攝像機(jī)精度和物體追蹤精度上都出現(xiàn)了大幅下滑,證明規(guī)范視角分支是雙流解耦成功的關(guān)鍵。

第三個(gè)對(duì)比是"去掉因果推理"——在訓(xùn)練時(shí)不進(jìn)行主動(dòng)/被動(dòng)運(yùn)動(dòng)分解。結(jié)果顯示,F(xiàn)ID/FVD上升,物理常識(shí)得分下降,交互質(zhì)量明顯劣化,說明因果推理模塊是改善物理合理性的核心。

第四個(gè)對(duì)比是"只用成對(duì)數(shù)據(jù)訓(xùn)練"——不加入單視角真實(shí)數(shù)據(jù)的混合訓(xùn)練。結(jié)果顯示,攝像機(jī)控制精度略有下降,原因是成對(duì)合成數(shù)據(jù)集的攝像機(jī)多樣性有限。這驗(yàn)證了混合訓(xùn)練策略對(duì)提升泛化能力的必要性。

在運(yùn)動(dòng)輸入配置的魯棒性測(cè)試中,研究團(tuán)隊(duì)分別測(cè)試了粗粒度物體級(jí)軌跡、細(xì)粒度像素級(jí)軌跡、僅主動(dòng)運(yùn)動(dòng)輸入和僅被動(dòng)運(yùn)動(dòng)輸入四種條件。結(jié)果顯示,性能在各種配置下保持穩(wěn)定,證明MoRight能靈活應(yīng)對(duì)不同粒度和類型的運(yùn)動(dòng)輸入,而不是只能在特定輸入格式下工作。

九、局限性:哪些地方還做不好

研究團(tuán)隊(duì)對(duì)系統(tǒng)的局限性進(jìn)行了坦誠(chéng)的分析。第一,系統(tǒng)可能出現(xiàn)錯(cuò)誤的因果推理,導(dǎo)致不合理的結(jié)果,比如兩根烤串在運(yùn)動(dòng)過程中神奇地合并成一根。第二,當(dāng)輸入軌跡因遮擋而在時(shí)間上變得稀疏時(shí),生成的運(yùn)動(dòng)可能會(huì)不自然,比如手在遮擋后出現(xiàn)異常的運(yùn)動(dòng)模式。第三,生成的運(yùn)動(dòng)有時(shí)會(huì)違反物理一致性,比如足球在運(yùn)動(dòng)過程中突然消失。第四,在視頻后期幀中可能會(huì)出現(xiàn)幻覺內(nèi)容,比如憑空多出一只手。此外,系統(tǒng)對(duì)極端快速或大幅度的攝像機(jī)運(yùn)動(dòng)(如劇烈的自我運(yùn)動(dòng))的處理能力有限,當(dāng)攝像機(jī)運(yùn)動(dòng)過于劇烈時(shí),生成的交互動(dòng)態(tài)質(zhì)量會(huì)明顯下降。

說到底,MoRight做的是一件之前大家都覺得很難的事情:既讓AI的"眼睛"(攝像機(jī)視角)和"手"(物體運(yùn)動(dòng))各自獨(dú)立受控,又讓AI真正理解"因?yàn)槭滞屏?,所以杯子才滑?dòng)了"這種最基本的物理邏輯。

這件事的意義遠(yuǎn)不止于好看的演示視頻。對(duì)于做具身智能的研究者來(lái)說,能夠預(yù)測(cè)"我執(zhí)行這個(gè)動(dòng)作,環(huán)境會(huì)怎么變化"是機(jī)器人理解世界的核心能力之一;對(duì)于想要?jiǎng)?chuàng)作沉浸式內(nèi)容的創(chuàng)作者來(lái)說,能夠在一張參考圖上自由指定物體運(yùn)動(dòng)方向并切換觀察角度,而不需要專業(yè)3D建模知識(shí),是真正降低了創(chuàng)作門檻;對(duì)于未來(lái)的世界模型研究,這種能夠同時(shí)建模"視角"和"交互后果"的系統(tǒng),提供了一種更接近人類感知方式的視頻生成路徑。

當(dāng)然,MoRight還有明顯的局限,幻覺內(nèi)容、物理不一致、極端攝像機(jī)運(yùn)動(dòng)處理等問題都需要進(jìn)一步解決。單次視頻生成在A100 GPU上大約需要15分鐘,也還不夠?qū)嵱?。但作為一個(gè)研究性框架,它清晰地證明了"把運(yùn)動(dòng)拆開來(lái)理解"和"教AI懂因果"這兩個(gè)方向是有效的。有興趣深入研究的讀者,可以通過arXiv編號(hào)2604.07348查閱完整論文和補(bǔ)充材料。

Q&A

Q1:MoRight和普通AI視頻生成系統(tǒng)的最大區(qū)別是什么?

A:MoRight最大的區(qū)別在于兩點(diǎn):一是它能把攝像機(jī)的移動(dòng)和畫面里物體的運(yùn)動(dòng)分開獨(dú)立控制,不會(huì)互相干擾;二是它能理解因果關(guān)系,比如用戶指定"手往前推",系統(tǒng)會(huì)自動(dòng)生成被推物體的合理反應(yīng),而不需要用戶提前把所有物體的運(yùn)動(dòng)都畫出來(lái)。普通系統(tǒng)通常只能跟隨預(yù)設(shè)軌跡,不理解"為什么會(huì)這樣動(dòng)"。

Q2:MoRight的逆向推理功能具體怎么用?

A:逆向推理是指用戶指定想要的"結(jié)果",系統(tǒng)反推出"原因"。比如用戶畫出一個(gè)球應(yīng)該朝左飛的軌跡,MoRight會(huì)自動(dòng)推斷是什么樣的踢球動(dòng)作導(dǎo)致了這個(gè)結(jié)果,并生成包含這個(gè)踢球動(dòng)作的完整視頻。用戶不需要知道具體是哪只腳怎么踢,只需要描述想要的最終效果。

Q3:MoRight需要用戶提供哪些輸入才能生成視頻?

A:用戶只需要提供一張參考圖,然后在圖上畫幾條稀疏的運(yùn)動(dòng)軌跡(比如畫一條箭頭表示"讓這個(gè)物體往這個(gè)方向移動(dòng)多遠(yuǎn)"),再選擇攝像機(jī)運(yùn)動(dòng)模式(如推近、軌道旋轉(zhuǎn)等),可以選擇性地加一段文字描述。系統(tǒng)不需要未來(lái)幀的信息、不需要深度數(shù)據(jù)、不需要3D坐標(biāo),也不需要把所有像素的軌跡都畫出來(lái)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
千億市值的大瓜:當(dāng)“金絲雀”遇上“正宮團(tuán)”!

千億市值的大瓜:當(dāng)“金絲雀”遇上“正宮團(tuán)”!

挖掘機(jī)007
2026-04-21 11:31:00
蘋果換CEO原因:庫(kù)克不夠果斷、搞垮了Vision Pro、汽車等項(xiàng)目

蘋果換CEO原因:庫(kù)克不夠果斷、搞垮了Vision Pro、汽車等項(xiàng)目

Switch2來(lái)了
2026-04-22 17:00:33
沈騰一家近況!王琦復(fù)胖目測(cè)200斤疑懷二胎,7歲兒子胖乎乎也有肚腩

沈騰一家近況!王琦復(fù)胖目測(cè)200斤疑懷二胎,7歲兒子胖乎乎也有肚腩

八卦王者
2026-04-21 15:01:28
拉科塞維奇抵達(dá)東莞!借隊(duì)友的電動(dòng)車,去買了床上用品

拉科塞維奇抵達(dá)東莞!借隊(duì)友的電動(dòng)車,去買了床上用品

體育哲人
2026-04-22 17:29:46
“中年返貧三件套”,正在吞掉一代人的存款

“中年返貧三件套”,正在吞掉一代人的存款

十點(diǎn)讀書
2026-04-18 18:36:15
總決賽2-2戰(zhàn)平!核心重傷退場(chǎng),王思雨李緣難救場(chǎng),搶5誰(shuí)能贏?

總決賽2-2戰(zhàn)平!核心重傷退場(chǎng),王思雨李緣難救場(chǎng),搶5誰(shuí)能贏?

老吳說體育
2026-04-22 21:28:21
大不了關(guān)掉美國(guó)工廠!曹德旺談美國(guó)加征關(guān)稅:福耀絕不做賠本買賣

大不了關(guān)掉美國(guó)工廠!曹德旺談美國(guó)加征關(guān)稅:福耀絕不做賠本買賣

澎湃新聞
2026-04-22 17:42:34
中南醫(yī)院護(hù)士長(zhǎng)王婷:顏值、身材、能力“三絕”,各種獎(jiǎng)拿到手軟

中南醫(yī)院護(hù)士長(zhǎng)王婷:顏值、身材、能力“三絕”,各種獎(jiǎng)拿到手軟

漢史趣聞
2026-04-21 10:45:23
特斯拉 Model Y 新版本現(xiàn)身!值得期待

特斯拉 Model Y 新版本現(xiàn)身!值得期待

花果科技
2026-04-22 15:35:37
《穿普拉達(dá)的女王2》全網(wǎng)捂嘴!炸詞條刪話題,還幫著韓國(guó)偷文化

《穿普拉達(dá)的女王2》全網(wǎng)捂嘴!炸詞條刪話題,還幫著韓國(guó)偷文化

萌神木木
2026-04-22 19:23:48
年租金從12.8萬(wàn)飆至28萬(wàn)!杭州一小吃店老板發(fā)愁:一上來(lái)就漲價(jià),真是扛不牢!搬走又舍不得老街坊;運(yùn)營(yíng)方稱系市場(chǎng)行為,管理方介入?yún)f(xié)調(diào)

年租金從12.8萬(wàn)飆至28萬(wàn)!杭州一小吃店老板發(fā)愁:一上來(lái)就漲價(jià),真是扛不牢!搬走又舍不得老街坊;運(yùn)營(yíng)方稱系市場(chǎng)行為,管理方介入?yún)f(xié)調(diào)

極目新聞
2026-04-22 12:46:14
10大天規(guī),不可打破,君子知命不算命!

10大天規(guī),不可打破,君子知命不算命!

神奇故事
2026-04-20 19:27:24
笑不活了!女孩把雞畫得圓肥被判不合格,家長(zhǎng)把雞的照片發(fā)給老師

笑不活了!女孩把雞畫得圓肥被判不合格,家長(zhǎng)把雞的照片發(fā)給老師

火山詩(shī)話
2026-04-21 09:46:21
壓力大的可以看看拼多多法務(wù)部

壓力大的可以看看拼多多法務(wù)部

大嘴説
2026-04-22 15:47:20
又一只十倍股,688048!固態(tài)電池產(chǎn)業(yè)化提速,潛力股揭秘(附名單)

又一只十倍股,688048!固態(tài)電池產(chǎn)業(yè)化提速,潛力股揭秘(附名單)

數(shù)據(jù)寶
2026-04-22 12:37:23
田馥甄回應(yīng)拒接《浪姐》:所有大陸綜藝都邀過,全拒絕

田馥甄回應(yīng)拒接《浪姐》:所有大陸綜藝都邀過,全拒絕

陳意小可愛
2026-04-22 12:23:14
別等心梗才慌!美國(guó)心臟協(xié)會(huì)2026?最新指南,照著吃就能預(yù)防80%的心臟問題

別等心梗才慌!美國(guó)心臟協(xié)會(huì)2026?最新指南,照著吃就能預(yù)防80%的心臟問題

臨床營(yíng)養(yǎng)師劉遂謙
2026-04-20 07:02:47
世錦賽第5日戰(zhàn)報(bào),中國(guó)軍團(tuán)再添1人晉級(jí)16強(qiáng),奧沙利文大比分

世錦賽第5日戰(zhàn)報(bào),中國(guó)軍團(tuán)再添1人晉級(jí)16強(qiáng),奧沙利文大比分

youyou喜歡你
2026-04-22 13:15:58
德國(guó)蔡司:美國(guó)制裁錯(cuò)了,DUV比EUV重要,今天封鎖DUV已經(jīng)遲了

德國(guó)蔡司:美國(guó)制裁錯(cuò)了,DUV比EUV重要,今天封鎖DUV已經(jīng)遲了

王新喜
2026-04-22 17:08:24
去臺(tái)灣玩了七天回來(lái),說實(shí)在的,普通人來(lái)臺(tái)灣還真有點(diǎn)不適應(yīng)

去臺(tái)灣玩了七天回來(lái),說實(shí)在的,普通人來(lái)臺(tái)灣還真有點(diǎn)不適應(yīng)

復(fù)轉(zhuǎn)這些年
2026-04-20 18:03:08
2026-04-22 22:36:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8097文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

媒體:伊朗用“不怕死”三個(gè)字 勸退特朗普

頭條要聞

媒體:伊朗用“不怕死”三個(gè)字 勸退特朗普

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

醫(yī)院專家號(hào)"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

教育
手機(jī)
藝術(shù)
本地
家居

教育要聞

民辦普高集中補(bǔ)錄分?jǐn)?shù)門檻降低!成都公布2026年民辦中小學(xué)招生優(yōu)化政策

手機(jī)要聞

iPhone18標(biāo)準(zhǔn)版降檔坐實(shí),將開啟大減配時(shí)代!

藝術(shù)要聞

無(wú)花不風(fēng)景

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

家居要聞

極簡(jiǎn)繪夢(mèng) 克制和諧

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版