網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

NVIDIA與伊利諾伊大學(xué)：AI視頻生成實(shí)現(xiàn)因果邏輯分離式運(yùn)動(dòng)控制

2026-04-16 20:35:58　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由NVIDIA研究院與美國(guó)伊利諾伊大學(xué)厄巴納-香檳分校聯(lián)合完成的研究，以預(yù)印本形式于2026年4月8日發(fā)布在arXiv平臺(tái)，論文編號(hào)為arXiv:2604.07348。對(duì)于想深入了解的讀者，可通過該編號(hào)直接檢索原文。

當(dāng)你拿起手機(jī)拍視頻，想要既追蹤桌上那只移動(dòng)的杯子，又慢慢把鏡頭推近看清楚細(xì)節(jié)，這兩件事同時(shí)做起來(lái)其實(shí)相當(dāng)自然。然而對(duì)于現(xiàn)有的AI視頻生成系統(tǒng)來(lái)說，這種"兩件事同時(shí)做"卻是一個(gè)棘手的難題——鏡頭動(dòng)了，畫面里所有東西的運(yùn)動(dòng)軌跡都跟著變，AI根本分不清哪些是"鏡頭在動(dòng)"、哪些是"物體本身在動(dòng)"。更麻煩的是，當(dāng)一只手推動(dòng)一個(gè)杯子，杯子會(huì)滑動(dòng)，這個(gè)"推"和"滑"之間存在因果關(guān)系，而現(xiàn)有的AI系統(tǒng)對(duì)此幾乎視而不見——它只知道機(jī)械地跟隨預(yù)設(shè)軌跡，根本不理解"手推了，所以杯子滑了"這件事。

正是為了解決這兩個(gè)深層問題，NVIDIA的研究團(tuán)隊(duì)提出了一個(gè)名為MoRight的新框架。這個(gè)名字可以理解為"用正確的方式做運(yùn)動(dòng)控制"，而它的核心思路，就像是給AI配了一套"雙眼睛+因果推理大腦"的組合。

一、為什么現(xiàn)有系統(tǒng)總是"手忙腳亂"

要理解MoRight解決了什么問題，不妨先想象這樣一個(gè)場(chǎng)景：你是一位舞臺(tái)導(dǎo)演，既要指揮演員按照劇本走位，又要控制攝像機(jī)從不同角度拍攝?，F(xiàn)有的AI視頻系統(tǒng)面對(duì)這個(gè)任務(wù)時(shí)，會(huì)把"演員走位"和"攝像機(jī)移動(dòng)"混在一起，交給系統(tǒng)一張標(biāo)注了每個(gè)像素運(yùn)動(dòng)軌跡的地圖。問題是，當(dāng)攝像機(jī)向右移動(dòng)時(shí)，畫面里所有東西的像素軌跡都會(huì)向左偏移——演員的軌跡和攝像機(jī)移動(dòng)的效果完全混在一起，AI根本無(wú)法區(qū)分哪個(gè)位移是演員自己走的，哪個(gè)是因?yàn)殓R頭動(dòng)了才產(chǎn)生的視覺偏移。

研究團(tuán)隊(duì)把這種現(xiàn)象稱為"運(yùn)動(dòng)糾纏"。就像一團(tuán)毛線被繞在一起，想要單獨(dú)抽出某一根幾乎不可能?，F(xiàn)有方法試圖給AI額外提供深度信息、3D軌跡或者前景背景分割等"特權(quán)信息"來(lái)緩解這個(gè)問題，但這些信息在現(xiàn)實(shí)應(yīng)用中往往很難獲取，而且只能在已知完整視頻序列的情況下使用——如果你只有一張參考圖，這些方法就束手無(wú)策了。

第二個(gè)問題同樣根深蒂固。當(dāng)AI被告知"讓這只手沿著這條軌跡移動(dòng)"，它會(huì)盡力讓畫面中的手跟隨軌跡，但對(duì)于"手推動(dòng)了什么東西、那個(gè)東西會(huì)怎么反應(yīng)"，它完全不在乎。這就好比一個(gè)演員只按照腳本走位，卻完全無(wú)視臺(tái)詞中的邏輯——他走到了桌子旁邊，但桌上的道具是否因此移動(dòng)，與他無(wú)關(guān)。在物理世界中，因果關(guān)系是無(wú)處不在的：推一下積木會(huì)倒，提起茶壺水會(huì)流，踢一腳球球會(huì)飛出去。但對(duì)現(xiàn)有AI而言，這些都只是"像素位移"，而非"原因和結(jié)果"。

MoRight的出現(xiàn)，正是為了同時(shí)拆解這兩個(gè)困局。

二、"雙流"設(shè)計(jì)：給運(yùn)動(dòng)和鏡頭各自一條獨(dú)立的跑道

MoRight的第一個(gè)核心創(chuàng)新，是引入了一種叫做"雙流生成"的架構(gòu)。用一個(gè)直觀的比喻來(lái)理解：把整個(gè)視頻生成過程想象成一個(gè)專業(yè)攝影棚的工作流程。棚里有兩套獨(dú)立系統(tǒng)同時(shí)運(yùn)行——一套負(fù)責(zé)"演員在固定舞臺(tái)上的走位"，另一套負(fù)責(zé)"攝像機(jī)的移動(dòng)軌跡"。這兩套系統(tǒng)彼此獨(dú)立運(yùn)作，但又通過內(nèi)部的信息傳遞機(jī)制保持協(xié)調(diào)，最終呈現(xiàn)出既有演員按設(shè)定走位、又有鏡頭靈活移動(dòng)的連貫畫面。

具體來(lái)說，MoRight把運(yùn)動(dòng)控制拆成了兩個(gè)并行的處理通道。第一個(gè)通道叫做"規(guī)范視角流"（Canonical Stream），它在一個(gè)假設(shè)攝像機(jī)靜止不動(dòng)的虛擬環(huán)境中處理物體的運(yùn)動(dòng)軌跡。用戶在這里畫出物體的運(yùn)動(dòng)路徑，比如"讓茶壺從左移到右"，這條路徑是在固定視角下定義的，清晰且無(wú)歧義。第二個(gè)通道叫做"目標(biāo)視角流"（Target Stream），它負(fù)責(zé)處理攝像機(jī)的移動(dòng)——比如"鏡頭向右旋轉(zhuǎn)30度"或者"鏡頭推近"。這個(gè)通道不直接處理物體的運(yùn)動(dòng)，而是接收攝像機(jī)參數(shù)作為輸入。

兩個(gè)通道的神經(jīng)網(wǎng)絡(luò)權(quán)重是完全共享的，這意味著它們本質(zhì)上是同一個(gè)AI大腦在同時(shí)處理兩類不同的任務(wù)。兩個(gè)通道通過每個(gè)Transformer模塊內(nèi)部的"自注意力層"進(jìn)行信息交流——在這一層，兩個(gè)通道的特征被拼接在一起，讓目標(biāo)視角通道的像素可以"看到"規(guī)范視角通道里的運(yùn)動(dòng)信息，從而學(xué)會(huì)如何把固定視角下的物體運(yùn)動(dòng)轉(zhuǎn)化為攝像機(jī)移動(dòng)后的視角下應(yīng)該呈現(xiàn)的樣子。研究團(tuán)隊(duì)把這種機(jī)制稱為"跨視角運(yùn)動(dòng)遷移"，它實(shí)現(xiàn)了在不知道未來(lái)幀的情況下，僅憑第一幀圖像就能完成運(yùn)動(dòng)與鏡頭的解耦。

在技術(shù)實(shí)現(xiàn)層面，物體運(yùn)動(dòng)的編碼方式是構(gòu)建一張"逐像素軌跡圖"，讓沿同一條軌跡運(yùn)動(dòng)的像素共享相同的時(shí)間對(duì)應(yīng)關(guān)系嵌入，然后通過一個(gè)輕量級(jí)編碼器壓縮成緊湊的特征。攝像機(jī)運(yùn)動(dòng)的編碼則借鑒了Gen3C的方法，利用攝像機(jī)位姿和深度估計(jì)對(duì)第一幀圖像進(jìn)行"扭曲"——相當(dāng)于模擬攝像機(jī)移動(dòng)后場(chǎng)景應(yīng)該看起來(lái)的樣子，再通過VAE編碼器編碼成攝像機(jī)條件特征。這兩種條件特征都在每個(gè)Transformer模塊中被注入到視頻特征里，形成"注入后同步"的循環(huán)，逐步把運(yùn)動(dòng)信息從規(guī)范視角傳遞到目標(biāo)視角。

三、教會(huì)AI懂"因果"：主動(dòng)運(yùn)動(dòng)和被動(dòng)運(yùn)動(dòng)的拆分

解決了鏡頭與運(yùn)動(dòng)的糾纏問題之后，MoRight還要面對(duì)更深層的挑戰(zhàn)：如何讓AI理解"原因?qū)е陆Y(jié)果"。

研究團(tuán)隊(duì)的解決方案出奇地優(yōu)雅。他們把場(chǎng)景中所有物體的運(yùn)動(dòng)軌跡拆分成兩類。第一類叫做"主動(dòng)運(yùn)動(dòng)"，指的是由用戶驅(qū)動(dòng)的意圖性動(dòng)作，比如手的移動(dòng)、機(jī)器人手臂的伸展——這些動(dòng)作是"原因"。第二類叫做"被動(dòng)運(yùn)動(dòng)"，指的是因主動(dòng)動(dòng)作而產(chǎn)生的反應(yīng)性運(yùn)動(dòng)，比如被推動(dòng)的杯子滑行、被提起茶壺倒出的水流——這些是"結(jié)果"。

在訓(xùn)練過程中，研究團(tuán)隊(duì)引入了一種叫做"運(yùn)動(dòng)丟棄"的訓(xùn)練策略。在每次訓(xùn)練時(shí)，系統(tǒng)會(huì)隨機(jī)地只給AI展示主動(dòng)運(yùn)動(dòng)軌跡或者只給被動(dòng)運(yùn)動(dòng)軌跡，然后要求它生成包含兩類運(yùn)動(dòng)全部效果的完整視頻。這就好比告訴AI一道題的一半條件，讓它自己推斷出另一半。當(dāng)AI只看到手的運(yùn)動(dòng)軌跡時(shí)，它必須自己預(yù)測(cè)杯子會(huì)怎么滑動(dòng)；當(dāng)AI只看到杯子的滑動(dòng)軌跡時(shí)，它必須反推出是什么樣的手部動(dòng)作導(dǎo)致了這個(gè)結(jié)果。

經(jīng)過大量這樣的訓(xùn)練，AI就像一個(gè)在廚房里觀察了無(wú)數(shù)次"廚師切菜→食材被切開"過程的學(xué)徒，開始內(nèi)化這些因果規(guī)律，而不再只是機(jī)械地復(fù)制像素軌跡。

這種設(shè)計(jì)帶來(lái)了兩種推理能力，在測(cè)試階段可以靈活切換使用。"正向推理"就是用戶給出主動(dòng)運(yùn)動(dòng)（比如畫出手往前推的軌跡），AI自動(dòng)生成被推物體合理的反應(yīng)動(dòng)作。"逆向推理"則反過來(lái)，用戶指定想要的被動(dòng)效果（比如"我希望球朝左飛去"），AI反推出是什么樣的主動(dòng)動(dòng)作導(dǎo)致了這個(gè)效果，進(jìn)而生成完整視頻。這兩種能力讓用戶可以以完全不同的交互方式驅(qū)動(dòng)視頻生成，極大地?cái)U(kuò)展了系統(tǒng)的應(yīng)用范圍。

四、數(shù)據(jù)從哪里來(lái)：一套巧妙的數(shù)據(jù)工廠

MoRight的雙流架構(gòu)需要"同一場(chǎng)景在不同攝像機(jī)角度下的成對(duì)視頻"作為訓(xùn)練數(shù)據(jù)，但現(xiàn)實(shí)世界中幾乎不存在這樣的天然配對(duì)數(shù)據(jù)。研究團(tuán)隊(duì)因此設(shè)計(jì)了一套三階段數(shù)據(jù)生產(chǎn)流水線，堪稱一座自動(dòng)化數(shù)據(jù)工廠。

第一階段是"運(yùn)動(dòng)提取與規(guī)范化"。研究團(tuán)隊(duì)從大量互聯(lián)網(wǎng)視頻中提取深度信息、攝像機(jī)位姿和密集像素軌跡，然后通過幾何投影把所有軌跡"還原"到第一幀的靜態(tài)視角坐標(biāo)系下，得到規(guī)范化的運(yùn)動(dòng)軌跡。具體公式是把2D軌跡點(diǎn)根據(jù)深度"反投影"到3D空間，再投影到第一幀的相機(jī)平面，從而消除攝像機(jī)運(yùn)動(dòng)對(duì)軌跡的影響。

第二階段是"運(yùn)動(dòng)分解"。研究團(tuán)隊(duì)使用Qwen3視覺語(yǔ)言模型對(duì)視頻內(nèi)容進(jìn)行理解，讓它識(shí)別哪些是主動(dòng)物體（比如人、手、機(jī)器人），哪些是被動(dòng)物體（比如被操作的工具或被推動(dòng)的物品），然后用SAM2視頻分割模型對(duì)這些物體進(jìn)行幀級(jí)別的精確分割，生成主動(dòng)/被動(dòng)物體的掩碼，從而把軌跡也分配到對(duì)應(yīng)類別。與此同時(shí)，系統(tǒng)還會(huì)生成針對(duì)每個(gè)視頻的文字描述，并在訓(xùn)練時(shí)只提供其中一類運(yùn)動(dòng)的文字描述，防止AI靠文字"作弊"來(lái)繞過因果推理。

第三階段是"成對(duì)多視角數(shù)據(jù)合成"。研究團(tuán)隊(duì)先篩選出攝像機(jī)靜止的視頻（要求旋轉(zhuǎn)誤差不超過0.5度、平移不超過5毫米），然后用一個(gè)攝像機(jī)控制的視頻到視頻轉(zhuǎn)換模型生成對(duì)應(yīng)的移動(dòng)攝像機(jī)版本，從而人工制造出"同一物體運(yùn)動(dòng)在不同攝像機(jī)下的成對(duì)視頻"。為了增加攝像機(jī)多樣性，系統(tǒng)還補(bǔ)充了軌道旋轉(zhuǎn)、平移、推拉等基本攝像機(jī)操作，以及從真實(shí)視頻中提取的動(dòng)態(tài)攝像機(jī)軌跡。

除了合成數(shù)據(jù)，研究團(tuán)隊(duì)還設(shè)計(jì)了一套混合訓(xùn)練策略來(lái)引入大量真實(shí)視頻。對(duì)于攝像機(jī)靜止的真實(shí)視頻，系統(tǒng)直接把它復(fù)制一份當(dāng)作"目標(biāo)流"輸出，讓AI學(xué)習(xí)如何把運(yùn)動(dòng)條件從第一個(gè)流傳遞到第二個(gè)流。對(duì)于同時(shí)包含攝像機(jī)和物體運(yùn)動(dòng)的真實(shí)視頻，系統(tǒng)只對(duì)第二個(gè)流施加監(jiān)督損失，第一個(gè)流的損失設(shè)為零，這樣AI能接觸到各種真實(shí)的攝像機(jī)和運(yùn)動(dòng)配置，提升泛化能力。研究團(tuán)隊(duì)還額外引入了SyncCamMaster生成的合成圖形數(shù)據(jù)，進(jìn)一步豐富攝像機(jī)多樣性。

五、訓(xùn)練細(xì)節(jié)和推理流程：從粗到細(xì)，從簡(jiǎn)到難

在具體訓(xùn)練中，MoRight采用了幾種互補(bǔ)的數(shù)據(jù)增強(qiáng)策略來(lái)提升模型魯棒性。首先是"多粒度運(yùn)動(dòng)丟棄"——不僅按主動(dòng)/被動(dòng)類型隨機(jī)丟棄運(yùn)動(dòng)，還隨機(jī)在像素級(jí)精細(xì)軌跡和物體級(jí)粗粒度軌跡之間切換，讓AI既能處理精細(xì)的像素控制，也能處理粗略的物體級(jí)別操作指令。其次是"遮擋和軌跡丟棄"——隨機(jī)遮掩部分軌跡點(diǎn)，模擬現(xiàn)實(shí)推理時(shí)可能遇到的遮擋和追蹤失敗情況，提高系統(tǒng)對(duì)不完整輸入的容忍度。此外，訓(xùn)練時(shí)還會(huì)隨機(jī)截?cái)嘬壽E（只提供中間某幀之前的運(yùn)動(dòng)信息），模擬部分觀測(cè)的場(chǎng)景。

整個(gè)系統(tǒng)建立在預(yù)訓(xùn)練的Wan2.1-14B視頻生成模型之上，只對(duì)攝像機(jī)編碼器、軌跡編碼器和自注意力層進(jìn)行微調(diào)，凍結(jié)其余網(wǎng)絡(luò)參數(shù)。訓(xùn)練使用了64塊GPU，共進(jìn)行15000次迭代，批大小為16，學(xué)習(xí)率設(shè)置為每秒3×10^-5。軌跡條件的丟棄概率為0.1，文字條件的丟棄概率為0.2。在推理階段，用戶只需在第一幀圖像上畫幾條稀疏的運(yùn)動(dòng)軌跡（簡(jiǎn)單的曲線或筆畫），指定運(yùn)動(dòng)方向和幅度，再選擇目標(biāo)攝像機(jī)位姿序列，系統(tǒng)就會(huì)同時(shí)對(duì)兩個(gè)流進(jìn)行聯(lián)合去噪，最終把第二流（目標(biāo)視角）的輸出呈現(xiàn)給用戶。在推理時(shí)，系統(tǒng)還會(huì)利用第一幀深度信息進(jìn)行遮擋感知處理，確保被遮擋物體的軌跡不會(huì)影響前景物體。

研究團(tuán)隊(duì)還開發(fā)了一個(gè)交互式圖形界面，讓用戶可以在第一幀上直接繪制軌跡，同時(shí)獨(dú)立設(shè)置攝像機(jī)運(yùn)動(dòng)模式（如軌道環(huán)繞、推近推遠(yuǎn)等），實(shí)時(shí)預(yù)覽軌跡效果和遮擋關(guān)系，進(jìn)行直觀的場(chǎng)景編輯。

六、實(shí)驗(yàn)結(jié)果：和同行相比，表現(xiàn)如何

研究團(tuán)隊(duì)在三個(gè)評(píng)測(cè)數(shù)據(jù)集上測(cè)試了MoRight的性能：DynPose-100K（一個(gè)包含高動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的野外視頻數(shù)據(jù)集，團(tuán)隊(duì)從中選取了50段有明顯視角變化和物體交互的視頻）、WISA（一個(gè)大規(guī)模物理動(dòng)力學(xué)數(shù)據(jù)集，覆蓋碰撞、形變、彈性、液體和剛體運(yùn)動(dòng)等類別，選取了50段視頻）以及研究團(tuán)隊(duì)自行收集的50段真實(shí)烹飪視頻（包含復(fù)雜的手-物體交互）。

評(píng)測(cè)指標(biāo)涵蓋四個(gè)維度：視頻質(zhì)量用PSNR和SSIM（與參考視頻的相似度）以及FID和FVD（分布級(jí)別的相似度）來(lái)衡量；攝像機(jī)控制精度用旋轉(zhuǎn)誤差和平移誤差來(lái)衡量；物體運(yùn)動(dòng)精度用終點(diǎn)誤差（EPE，即預(yù)測(cè)軌跡終點(diǎn)與真實(shí)軌跡終點(diǎn)之間的像素距離）來(lái)衡量；運(yùn)動(dòng)真實(shí)性用VideoPhy提供的"物理常識(shí)得分"（PC）和"語(yǔ)義一致性得分"（SA）來(lái)衡量，兩者都是0到1之間的歸一化分?jǐn)?shù)。

與之對(duì)比的基線方法包括Wan2.1（基礎(chǔ)視頻生成模型，無(wú)運(yùn)動(dòng)控制能力）、Gen3C（僅支持?jǐn)z像機(jī)控制）、Motion Prompting（MP，接收密集像素軌跡作為運(yùn)動(dòng)控制信號(hào)）、ATI（任意軌跡指令控制視頻生成）以及WanMove（通過潛在軌跡引導(dǎo)進(jìn)行運(yùn)動(dòng)控制）。重要的是，后三種方法都需要提供包含前景和背景所有像素的完整運(yùn)動(dòng)軌跡，相當(dāng)于擁有"特權(quán)信息"，而MoRight只需要在第一幀上定義稀疏的規(guī)范視角軌跡，不需要未來(lái)幀的軌跡信息。

在攝像機(jī)和物體運(yùn)動(dòng)聯(lián)合控制的評(píng)測(cè)中，WanMove在DynPose-100K數(shù)據(jù)集上總體成績(jī)最好，MoRight略微落后——主要原因是高動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)下，攝像機(jī)位姿估計(jì)和軌跡重投影的誤差會(huì)影響輸入控制信號(hào)的質(zhì)量。盡管如此，MoRight在物體運(yùn)動(dòng)精度（EPE）上達(dá)到了與需要特權(quán)信息的方法相當(dāng)甚至更好的水平，而在烹飪數(shù)據(jù)集上，MoRight則在視頻質(zhì)量和運(yùn)動(dòng)控制精度兩個(gè)維度上都取得了最佳整體表現(xiàn)。值得一提的是，ATI和WanMove由于把攝像機(jī)和物體運(yùn)動(dòng)捆綁在同一個(gè)追蹤信號(hào)里，在高動(dòng)態(tài)場(chǎng)景中往往會(huì)偏向主導(dǎo)的運(yùn)動(dòng)模式，有時(shí)犧牲攝像機(jī)精度，有時(shí)犧牲物體追蹤精度。

在物理交互生成的評(píng)測(cè)中，MoRight的表現(xiàn)更為突出。在WISA數(shù)據(jù)集上，MoRight獲得了最高的物理常識(shí)得分（0.76），而MP、ATI和WanMove的得分均為0.75或更低。在烹飪數(shù)據(jù)集上，MoRight同樣取得了最高的物理常識(shí)得分（0.88）和最低的FID（39.94）、FVD（730.46）。語(yǔ)義一致性得分方面，由于MoRight只接收主動(dòng)運(yùn)動(dòng)描述而不提供被動(dòng)效果的文字描述（為了避免作弊），它的得分略低于那些使用完整描述的方法，但差距極小，仍在可比范圍內(nèi)。

七、人類主觀評(píng)測(cè)：真實(shí)用戶如何選擇

為了更直觀地驗(yàn)證效果，研究團(tuán)隊(duì)還進(jìn)行了一項(xiàng)人類感知評(píng)測(cè)研究。他們從三個(gè)測(cè)試數(shù)據(jù)集中隨機(jī)抽取了30個(gè)案例，邀請(qǐng)11位參與者對(duì)不同方法的生成結(jié)果進(jìn)行盲評(píng)，三類視頻以隨機(jī)順序展示，避免位置偏差。參與者從"可控性"（物體和攝像機(jī)運(yùn)動(dòng)與輸入的一致程度）、"運(yùn)動(dòng)真實(shí)性"（交互的物理合理性）和"照片真實(shí)感"（視覺質(zhì)量）三個(gè)維度選出最好的結(jié)果，允許多選或選擇"無(wú)一滿意"。過濾掉不可靠提交后，共收到330份有效評(píng)測(cè)。

結(jié)果顯示，MoRight在三個(gè)維度上均獲得了超過一半的偏好票：可控性53.5%，運(yùn)動(dòng)真實(shí)性54.6%，照片真實(shí)感55.9%。ATI的三項(xiàng)得分分別為18.8%、18.2%和17.4%，WanMove分別為25.0%、25.7%和23.1%。要知道，ATI和WanMove都使用了包含完整前景背景軌跡的特權(quán)信息，而MoRight只用了第一幀的主動(dòng)軌跡。這一對(duì)比說明，擁有更多輸入信息并不必然帶來(lái)更好的生成效果，系統(tǒng)對(duì)運(yùn)動(dòng)的理解方式和架構(gòu)設(shè)計(jì)才是關(guān)鍵。

八、消融研究：每個(gè)設(shè)計(jì)選擇是否真的有用

研究團(tuán)隊(duì)還對(duì)MoRight的各個(gè)設(shè)計(jì)決策進(jìn)行了系統(tǒng)性驗(yàn)證，通過在烹飪數(shù)據(jù)集上對(duì)比不同變體來(lái)確認(rèn)每個(gè)模塊的實(shí)際貢獻(xiàn)。

第一個(gè)對(duì)比是"級(jí)聯(lián)流水線"——把雙流并行設(shè)計(jì)換成先生成靜態(tài)攝像機(jī)視頻、再用Gen3C風(fēng)格的攝像機(jī)控制器移動(dòng)攝像機(jī)的兩階段串聯(lián)方案。結(jié)果顯示，這種方案引入了兩個(gè)階段之間的誤差累積，導(dǎo)致控制精度明顯下降。

第二個(gè)對(duì)比是"去掉固定視角分支"——只用動(dòng)態(tài)攝像機(jī)視頻訓(xùn)練，并把重投影軌跡和攝像機(jī)嵌入聯(lián)合編碼，去掉規(guī)范視角這個(gè)錨點(diǎn)。結(jié)果顯示，模型在攝像機(jī)精度和物體追蹤精度上都出現(xiàn)了大幅下滑，證明規(guī)范視角分支是雙流解耦成功的關(guān)鍵。

第三個(gè)對(duì)比是"去掉因果推理"——在訓(xùn)練時(shí)不進(jìn)行主動(dòng)/被動(dòng)運(yùn)動(dòng)分解。結(jié)果顯示，F(xiàn)ID/FVD上升，物理常識(shí)得分下降，交互質(zhì)量明顯劣化，說明因果推理模塊是改善物理合理性的核心。

第四個(gè)對(duì)比是"只用成對(duì)數(shù)據(jù)訓(xùn)練"——不加入單視角真實(shí)數(shù)據(jù)的混合訓(xùn)練。結(jié)果顯示，攝像機(jī)控制精度略有下降，原因是成對(duì)合成數(shù)據(jù)集的攝像機(jī)多樣性有限。這驗(yàn)證了混合訓(xùn)練策略對(duì)提升泛化能力的必要性。

在運(yùn)動(dòng)輸入配置的魯棒性測(cè)試中，研究團(tuán)隊(duì)分別測(cè)試了粗粒度物體級(jí)軌跡、細(xì)粒度像素級(jí)軌跡、僅主動(dòng)運(yùn)動(dòng)輸入和僅被動(dòng)運(yùn)動(dòng)輸入四種條件。結(jié)果顯示，性能在各種配置下保持穩(wěn)定，證明MoRight能靈活應(yīng)對(duì)不同粒度和類型的運(yùn)動(dòng)輸入，而不是只能在特定輸入格式下工作。

九、局限性：哪些地方還做不好

研究團(tuán)隊(duì)對(duì)系統(tǒng)的局限性進(jìn)行了坦誠(chéng)的分析。第一，系統(tǒng)可能出現(xiàn)錯(cuò)誤的因果推理，導(dǎo)致不合理的結(jié)果，比如兩根烤串在運(yùn)動(dòng)過程中神奇地合并成一根。第二，當(dāng)輸入軌跡因遮擋而在時(shí)間上變得稀疏時(shí)，生成的運(yùn)動(dòng)可能會(huì)不自然，比如手在遮擋后出現(xiàn)異常的運(yùn)動(dòng)模式。第三，生成的運(yùn)動(dòng)有時(shí)會(huì)違反物理一致性，比如足球在運(yùn)動(dòng)過程中突然消失。第四，在視頻后期幀中可能會(huì)出現(xiàn)幻覺內(nèi)容，比如憑空多出一只手。此外，系統(tǒng)對(duì)極端快速或大幅度的攝像機(jī)運(yùn)動(dòng)（如劇烈的自我運(yùn)動(dòng)）的處理能力有限，當(dāng)攝像機(jī)運(yùn)動(dòng)過于劇烈時(shí)，生成的交互動(dòng)態(tài)質(zhì)量會(huì)明顯下降。

說到底，MoRight做的是一件之前大家都覺得很難的事情：既讓AI的"眼睛"（攝像機(jī)視角）和"手"（物體運(yùn)動(dòng)）各自獨(dú)立受控，又讓AI真正理解"因?yàn)槭滞屏?，所以杯子才滑?dòng)了"這種最基本的物理邏輯。

這件事的意義遠(yuǎn)不止于好看的演示視頻。對(duì)于做具身智能的研究者來(lái)說，能夠預(yù)測(cè)"我執(zhí)行這個(gè)動(dòng)作，環(huán)境會(huì)怎么變化"是機(jī)器人理解世界的核心能力之一；對(duì)于想要?jiǎng)?chuàng)作沉浸式內(nèi)容的創(chuàng)作者來(lái)說，能夠在一張參考圖上自由指定物體運(yùn)動(dòng)方向并切換觀察角度，而不需要專業(yè)3D建模知識(shí)，是真正降低了創(chuàng)作門檻；對(duì)于未來(lái)的世界模型研究，這種能夠同時(shí)建模"視角"和"交互后果"的系統(tǒng)，提供了一種更接近人類感知方式的視頻生成路徑。

當(dāng)然，MoRight還有明顯的局限，幻覺內(nèi)容、物理不一致、極端攝像機(jī)運(yùn)動(dòng)處理等問題都需要進(jìn)一步解決。單次視頻生成在A100 GPU上大約需要15分鐘，也還不夠?qū)嵱?。但作為一個(gè)研究性框架，它清晰地證明了"把運(yùn)動(dòng)拆開來(lái)理解"和"教AI懂因果"這兩個(gè)方向是有效的。有興趣深入研究的讀者，可以通過arXiv編號(hào)2604.07348查閱完整論文和補(bǔ)充材料。

Q&A

Q1：MoRight和普通AI視頻生成系統(tǒng)的最大區(qū)別是什么？

A：MoRight最大的區(qū)別在于兩點(diǎn)：一是它能把攝像機(jī)的移動(dòng)和畫面里物體的運(yùn)動(dòng)分開獨(dú)立控制，不會(huì)互相干擾；二是它能理解因果關(guān)系，比如用戶指定"手往前推"，系統(tǒng)會(huì)自動(dòng)生成被推物體的合理反應(yīng)，而不需要用戶提前把所有物體的運(yùn)動(dòng)都畫出來(lái)。普通系統(tǒng)通常只能跟隨預(yù)設(shè)軌跡，不理解"為什么會(huì)這樣動(dòng)"。

Q2：MoRight的逆向推理功能具體怎么用？

A：逆向推理是指用戶指定想要的"結(jié)果"，系統(tǒng)反推出"原因"。比如用戶畫出一個(gè)球應(yīng)該朝左飛的軌跡，MoRight會(huì)自動(dòng)推斷是什么樣的踢球動(dòng)作導(dǎo)致了這個(gè)結(jié)果，并生成包含這個(gè)踢球動(dòng)作的完整視頻。用戶不需要知道具體是哪只腳怎么踢，只需要描述想要的最終效果。

Q3：MoRight需要用戶提供哪些輸入才能生成視頻？

A：用戶只需要提供一張參考圖，然后在圖上畫幾條稀疏的運(yùn)動(dòng)軌跡（比如畫一條箭頭表示"讓這個(gè)物體往這個(gè)方向移動(dòng)多遠(yuǎn)"），再選擇攝像機(jī)運(yùn)動(dòng)模式（如推近、軌道旋轉(zhuǎn)等），可以選擇性地加一段文字描述。系統(tǒng)不需要未來(lái)幀的信息、不需要深度數(shù)據(jù)、不需要3D坐標(biāo)，也不需要把所有像素的軌跡都畫出來(lái)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.