網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

POSTECH團(tuán)隊(duì)突破視頻生成瓶頸：用虛擬數(shù)據(jù)教AI生成現(xiàn)實(shí)中的動(dòng)作

2026-04-13 21:43:44　來(lái)源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

這項(xiàng)由韓國(guó)浦項(xiàng)科技大學(xué)（POSTECH）聯(lián)合微軟亞洲研究院完成的研究，發(fā)表于2024年4月的計(jì)算機(jī)視覺(jué)頂會(huì)，論文編號(hào)為arXiv:2604.01666v1。該研究解決了一個(gè)讓視頻生成領(lǐng)域頭疼已久的問(wèn)題：如何讓AI生成那些在現(xiàn)實(shí)中極其罕見(jiàn)但又極具視覺(jué)沖擊力的動(dòng)態(tài)視頻。

當(dāng)我們打開(kāi)抖音或其他短視頻平臺(tái)時(shí)，最能抓住眼球的往往是那些充滿(mǎn)動(dòng)感的內(nèi)容——街舞高手的炫酷breakdance、極限運(yùn)動(dòng)員的驚險(xiǎn)動(dòng)作，或者電影中快速移動(dòng)的鏡頭。然而，對(duì)于目前的AI視頻生成技術(shù)來(lái)說(shuō)，創(chuàng)造這樣的動(dòng)態(tài)內(nèi)容卻是一個(gè)巨大的挑戰(zhàn)。就好比讓一個(gè)只見(jiàn)過(guò)慢走的人去學(xué)習(xí)跑步一樣困難，因?yàn)锳I的"老師"——那些用來(lái)訓(xùn)練的視頻數(shù)據(jù)中，這類(lèi)高動(dòng)態(tài)內(nèi)容實(shí)在太少了。

研究團(tuán)隊(duì)面臨的核心困境可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解：如果你想學(xué)會(huì)做一道復(fù)雜的菜，但食譜書(shū)里幾乎沒(méi)有這道菜的做法，你該怎么辦？傳統(tǒng)的解決方案是拼命尋找更多食譜，但這既費(fèi)時(shí)又費(fèi)力。而POSTECH的研究團(tuán)隊(duì)選擇了一條截然不同的道路——他們決定創(chuàng)造一本"虛擬食譜"，但這本食譜只教你如何掌握烹飪的動(dòng)作技巧，而不涉及菜品的具體外觀。

這個(gè)創(chuàng)新思路的核心在于一個(gè)重要發(fā)現(xiàn)：動(dòng)作和外觀其實(shí)是可以分開(kāi)學(xué)習(xí)的。就像學(xué)習(xí)舞蹈時(shí)，你可以先掌握動(dòng)作要領(lǐng)，再考慮服裝和妝容一樣。研究團(tuán)隊(duì)開(kāi)發(fā)的DynaVid系統(tǒng)采用了一種巧妙的"兩階段"方法。第一個(gè)階段專(zhuān)門(mén)學(xué)習(xí)"如何動(dòng)"，第二個(gè)階段再學(xué)習(xí)"如何讓動(dòng)作看起來(lái)真實(shí)"。

具體來(lái)說(shuō)，研究團(tuán)隊(duì)首先利用計(jì)算機(jī)圖形學(xué)技術(shù)，在虛擬世界中創(chuàng)造了大量包含極限動(dòng)作的場(chǎng)景。這就像在模擬器中訓(xùn)練飛行員一樣——雖然是虛擬環(huán)境，但動(dòng)作原理是完全真實(shí)的。他們讓虛擬角色在這些場(chǎng)景中表演各種高難度動(dòng)作，但重點(diǎn)不是記錄這些虛擬角色的外觀（因?yàn)樘摂M角色看起來(lái)往往很假），而是記錄它們的運(yùn)動(dòng)軌跡——也就是"光流"信息。

光流可以理解為一種特殊的"動(dòng)作指紋"。當(dāng)你觀看一個(gè)人做breakdance時(shí)，雖然你看到的是完整的人物形象，但其實(shí)你的大腦同時(shí)在追蹤每個(gè)身體部位的運(yùn)動(dòng)軌跡。光流就是這種運(yùn)動(dòng)軌跡的數(shù)字化表示。重要的是，光流只包含動(dòng)作信息，不包含外觀信息。這意味著即使是從虛擬角色身上提取的光流，也能準(zhǔn)確反映真實(shí)的動(dòng)作規(guī)律。

基于這個(gè)理念，DynaVid系統(tǒng)的第一個(gè)組件——"動(dòng)作生成器"——專(zhuān)門(mén)學(xué)習(xí)如何從文字描述中生成相應(yīng)的動(dòng)作光流。這個(gè)過(guò)程就像一個(gè)專(zhuān)業(yè)的動(dòng)作指導(dǎo)，能夠根據(jù)"表演一段激烈的breakdance"這樣的描述，設(shè)計(jì)出相應(yīng)的動(dòng)作序列。由于有了大量虛擬動(dòng)作數(shù)據(jù)的支持，這個(gè)動(dòng)作生成器能夠創(chuàng)造出現(xiàn)實(shí)中極其罕見(jiàn)的高動(dòng)態(tài)動(dòng)作。

系統(tǒng)的第二個(gè)組件——"動(dòng)作引導(dǎo)視頻生成器"——?jiǎng)t負(fù)責(zé)將這些抽象的動(dòng)作信息轉(zhuǎn)化為真實(shí)的視頻畫(huà)面。這個(gè)組件專(zhuān)門(mén)用真實(shí)世界的視頻進(jìn)行訓(xùn)練，學(xué)會(huì)了如何讓動(dòng)作看起來(lái)自然真實(shí)。當(dāng)它接收到第一個(gè)組件生成的動(dòng)作信息時(shí)，就能創(chuàng)造出既有極限動(dòng)作又看起來(lái)完全真實(shí)的視頻。

這種分工合作的方式巧妙地解決了一個(gè)長(zhǎng)期困擾研究者的問(wèn)題。如果直接用虛擬視頻訓(xùn)練AI，生成的結(jié)果往往帶有明顯的"塑料感"，就像那些制作粗糙的動(dòng)畫(huà)片一樣。但如果只用真實(shí)視頻訓(xùn)練，又無(wú)法學(xué)會(huì)那些現(xiàn)實(shí)中罕見(jiàn)的極限動(dòng)作。DynaVid的方案就像是讓AI同時(shí)擁有了"動(dòng)作大師"和"視覺(jué)藝術(shù)家"兩種能力，前者保證動(dòng)作的豐富性和準(zhǔn)確性，后者保證畫(huà)面的真實(shí)性和美觀性。

一、突破靜態(tài)思維：重新定義視頻生成的邊界

要理解這項(xiàng)研究的重要性，我們需要先認(rèn)識(shí)當(dāng)前視頻生成技術(shù)面臨的根本性挑戰(zhàn)。目前最先進(jìn)的AI視頻生成模型，比如廣為人知的Sora、CogVideoX等，雖然在生成普通場(chǎng)景的視頻方面表現(xiàn)不錯(cuò)，但在處理高動(dòng)態(tài)內(nèi)容時(shí)往往力不從心。這個(gè)問(wèn)題的根源在于訓(xùn)練數(shù)據(jù)的天然偏差。

考慮這樣一個(gè)現(xiàn)實(shí)情況：在網(wǎng)絡(luò)上能找到的視頻中，普通的日?；顒?dòng)（比如走路、簡(jiǎn)單對(duì)話、靜態(tài)拍攝）占據(jù)了絕大多數(shù)，而那些充滿(mǎn)動(dòng)感的內(nèi)容（比如專(zhuān)業(yè)舞者的高難度動(dòng)作、極限運(yùn)動(dòng)、快速變化的攝像機(jī)運(yùn)動(dòng)）相對(duì)稀少。這就導(dǎo)致AI在學(xué)習(xí)過(guò)程中接觸到的"教材"存在嚴(yán)重的不平衡。就好比一個(gè)學(xué)生如果只看過(guò)慢動(dòng)作的教學(xué)視頻，就很難理解正常速度甚至高速運(yùn)動(dòng)的規(guī)律一樣。

更具體地說(shuō)，當(dāng)AI嘗試生成breakdance這樣的動(dòng)作時(shí)，由于訓(xùn)練數(shù)據(jù)中這類(lèi)動(dòng)作的樣本太少，它往往只能"拼湊"出一些看似相關(guān)但實(shí)際上不合理的動(dòng)作序列。結(jié)果就是生成的人物可能會(huì)出現(xiàn)關(guān)節(jié)扭曲、動(dòng)作不連貫，甚至身體部位消失等問(wèn)題。這就像讓一個(gè)從未見(jiàn)過(guò)火車(chē)的人去畫(huà)火車(chē)，他可能會(huì)畫(huà)出一個(gè)有輪子、有車(chē)廂的東西，但細(xì)節(jié)和比例都會(huì)有嚴(yán)重問(wèn)題。

傳統(tǒng)解決這個(gè)問(wèn)題的思路主要有兩種。第一種是"擴(kuò)大搜索范圍"——努力收集更多包含高動(dòng)態(tài)內(nèi)容的真實(shí)視頻。但這種方法面臨幾個(gè)實(shí)際困難：首先，這類(lèi)視頻本身就稀少；其次，即使找到了，質(zhì)量往往參差不齊；最重要的是，要獲得足夠數(shù)量的高質(zhì)量動(dòng)態(tài)視頻來(lái)平衡訓(xùn)練數(shù)據(jù)，需要投入巨大的人力和時(shí)間成本。

第二種思路是"直接使用合成視頻"——通過(guò)計(jì)算機(jī)圖形學(xué)技術(shù)生成大量包含各種動(dòng)作的虛擬視頻。這個(gè)方向已經(jīng)有一些研究者在探索，但面臨一個(gè)關(guān)鍵問(wèn)題：虛擬視頻和真實(shí)視頻之間存在明顯的視覺(jué)差異。用虛擬視頻訓(xùn)練的AI往往會(huì)"學(xué)會(huì)"虛擬世界的視覺(jué)特征，導(dǎo)致生成的視頻帶有明顯的人工痕跡。這就像讓一個(gè)人只看動(dòng)畫(huà)片學(xué)習(xí)現(xiàn)實(shí)世界，他對(duì)真實(shí)世界的理解必然會(huì)有偏差。

POSTECH研究團(tuán)隊(duì)提出的第三種思路可以說(shuō)是革命性的：他們意識(shí)到"動(dòng)作"和"外觀"是兩個(gè)相對(duì)獨(dú)立的維度，可以分別處理。這個(gè)洞察的關(guān)鍵在于，虛擬世界中的動(dòng)作規(guī)律與真實(shí)世界是完全一致的——重力、慣性、關(guān)節(jié)運(yùn)動(dòng)范圍等物理法則在虛擬和現(xiàn)實(shí)中都是相同的。問(wèn)題只在于虛擬世界的視覺(jué)渲染效果不夠真實(shí)。

因此，研究團(tuán)隊(duì)決定從虛擬視頻中提取純粹的動(dòng)作信息（即光流），而完全拋棄其視覺(jué)外觀信息。光流是計(jì)算機(jī)視覺(jué)中一個(gè)重要概念，它描述的是圖像中每個(gè)像素點(diǎn)在連續(xù)幀之間的移動(dòng)情況?？梢园压饬飨胂蟪蛇\(yùn)動(dòng)的"指紋"——它記錄了物體如何移動(dòng)，但不關(guān)心物體本身長(zhǎng)什么樣子。

這種方法的巧妙之處在于，即使是從看起來(lái)很假的虛擬視頻中提取的光流，也能準(zhǔn)確反映真實(shí)的運(yùn)動(dòng)規(guī)律。就好比雖然動(dòng)畫(huà)片中的角色看起來(lái)不真實(shí)，但他們的跑步姿勢(shì)仍然遵循真實(shí)的人體運(yùn)動(dòng)學(xué)原理。通過(guò)這種方式，研究團(tuán)隊(duì)成功地將虛擬數(shù)據(jù)的優(yōu)勢(shì)（動(dòng)作多樣性和精確控制）與真實(shí)數(shù)據(jù)的優(yōu)勢(shì)（視覺(jué)真實(shí)性）結(jié)合起來(lái)。

為了驗(yàn)證這個(gè)思路，研究團(tuán)隊(duì)構(gòu)建了兩個(gè)專(zhuān)門(mén)的合成數(shù)據(jù)集：DynaVid-Human和DynaVid-Camera。DynaVid-Human專(zhuān)注于人體的高動(dòng)態(tài)動(dòng)作，包含了各種極限運(yùn)動(dòng)、舞蹈和體操動(dòng)作；DynaVid-Camera則專(zhuān)注于攝像機(jī)的快速運(yùn)動(dòng)，包含了各種復(fù)雜的鏡頭變化和視角切換。這兩個(gè)數(shù)據(jù)集的共同特點(diǎn)是包含了大量在真實(shí)世界中很難捕捉到的極限場(chǎng)景。

二、巧妙的雙重學(xué)習(xí)：讓AI同時(shí)掌握動(dòng)作與美學(xué)

DynaVid系統(tǒng)的核心架構(gòu)可以用一個(gè)精巧的比喻來(lái)理解：就像培養(yǎng)一個(gè)全能的電影制作人，需要同時(shí)掌握動(dòng)作指導(dǎo)和視覺(jué)效果兩項(xiàng)技能。在傳統(tǒng)的電影制作中，動(dòng)作指導(dǎo)負(fù)責(zé)設(shè)計(jì)和編排各種動(dòng)作場(chǎng)面，而視覺(jué)效果師則負(fù)責(zé)讓這些動(dòng)作在屏幕上呈現(xiàn)出最佳的視覺(jué)效果。DynaVid系統(tǒng)正是模仿了這種專(zhuān)業(yè)分工的模式。

系統(tǒng)的第一個(gè)核心組件是"動(dòng)作生成器"，它的工作就像一個(gè)經(jīng)驗(yàn)豐富的動(dòng)作指導(dǎo)。當(dāng)接收到文字描述（比如"一個(gè)穿著橙色衣服的人表演激烈的breakdance動(dòng)作"）時(shí)，這個(gè)組件需要在腦海中構(gòu)想出相應(yīng)的動(dòng)作序列，然后將這些動(dòng)作轉(zhuǎn)換成光流的形式輸出。這個(gè)過(guò)程聽(tīng)起來(lái)簡(jiǎn)單，實(shí)際上卻需要深度的理解能力。

為了讓動(dòng)作生成器掌握豐富的動(dòng)作詞匯，研究團(tuán)隊(duì)使用了兩種類(lèi)型的訓(xùn)練數(shù)據(jù)。首先是從真實(shí)視頻中提取的光流數(shù)據(jù)，這些數(shù)據(jù)教會(huì)了系統(tǒng)什么是"正常的"、"自然的"動(dòng)作模式?？梢园堰@個(gè)過(guò)程想象成讓一個(gè)舞蹈學(xué)生觀看大量的基礎(chǔ)舞蹈教學(xué)視頻，掌握基本的身體協(xié)調(diào)性和動(dòng)作流暢性。

接下來(lái)，系統(tǒng)開(kāi)始學(xué)習(xí)更高級(jí)的技能——那些在真實(shí)世界中罕見(jiàn)但又極其重要的極限動(dòng)作。這時(shí)候，從DynaVid數(shù)據(jù)集中提取的合成光流數(shù)據(jù)就發(fā)揮了關(guān)鍵作用。這些數(shù)據(jù)就像是專(zhuān)門(mén)的高難度動(dòng)作教程，包含了各種在現(xiàn)實(shí)中很難捕捉到的復(fù)雜運(yùn)動(dòng)模式。通過(guò)學(xué)習(xí)這些數(shù)據(jù)，動(dòng)作生成器的"動(dòng)作詞匯庫(kù)"得到了極大的擴(kuò)充。

訓(xùn)練策略的設(shè)計(jì)也體現(xiàn)了研究團(tuán)隊(duì)的巧思。他們采用了一種"先基礎(chǔ)后進(jìn)階"的方法：首先讓系統(tǒng)在真實(shí)光流數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，建立對(duì)正常動(dòng)作的基礎(chǔ)理解；然后在合成光流數(shù)據(jù)上進(jìn)行微調(diào)，學(xué)習(xí)極限動(dòng)作。更重要的是，在微調(diào)階段，每個(gè)訓(xùn)練批次都同時(shí)包含真實(shí)和合成的光流數(shù)據(jù)，確保系統(tǒng)在學(xué)習(xí)新技能的同時(shí)不會(huì)忘記已有的能力。這種策略就像讓一個(gè)舞者在學(xué)習(xí)高難度動(dòng)作的同時(shí)，仍然定期練習(xí)基本功一樣。

對(duì)于攝像機(jī)控制這個(gè)特殊應(yīng)用，動(dòng)作生成器還配備了一個(gè)專(zhuān)門(mén)的"控制分支"。這個(gè)分支的工作原理類(lèi)似于電影攝影師的取景器——它接收精確的攝像機(jī)參數(shù)（比如位置、角度、移動(dòng)軌跡），然后指導(dǎo)動(dòng)作生成器產(chǎn)生相應(yīng)的光流模式。這種設(shè)計(jì)使得系統(tǒng)能夠根據(jù)用戶(hù)指定的攝像機(jī)路徑，精確生成相應(yīng)的視覺(jué)運(yùn)動(dòng)效果。

系統(tǒng)的第二個(gè)核心組件是"動(dòng)作引導(dǎo)視頻生成器"，它的角色更像是一個(gè)技藝精湛的視覺(jué)效果師。這個(gè)組件的任務(wù)是接收動(dòng)作生成器輸出的光流信息，然后創(chuàng)造出看起來(lái)完全真實(shí)的視頻畫(huà)面。與動(dòng)作生成器不同，這個(gè)組件完全使用真實(shí)世界的視頻數(shù)據(jù)進(jìn)行訓(xùn)練，確保生成的畫(huà)面具有真實(shí)世界的視覺(jué)特征。

動(dòng)作引導(dǎo)視頻生成器的工作過(guò)程可以用這樣的比喻來(lái)理解：它就像一個(gè)能夠"聽(tīng)懂"動(dòng)作指令的超級(jí)演員。當(dāng)動(dòng)作指導(dǎo)（動(dòng)作生成器）給出具體的動(dòng)作要求時(shí)，這個(gè)演員能夠完美地執(zhí)行這些動(dòng)作，并且表現(xiàn)得非常自然真實(shí)。關(guān)鍵在于，這個(gè)"演員"已經(jīng)通過(guò)觀看大量真實(shí)世界的表演，學(xué)會(huì)了如何讓任何動(dòng)作都看起來(lái)真實(shí)可信。

為了提高這個(gè)組件的性能，研究團(tuán)隊(duì)還開(kāi)發(fā)了一種巧妙的數(shù)據(jù)清洗技術(shù)。他們發(fā)現(xiàn)，從真實(shí)視頻中提取的光流數(shù)據(jù)不可避免地包含一些估計(jì)誤差，就像拍攝時(shí)的輕微抖動(dòng)或者算法的小瑕疵。這些誤差如果不加處理，會(huì)影響系統(tǒng)學(xué)習(xí)正確的動(dòng)作-視頻對(duì)應(yīng)關(guān)系。

研究團(tuán)隊(duì)采用了"光流循環(huán)一致性"檢查來(lái)解決這個(gè)問(wèn)題。簡(jiǎn)單來(lái)說(shuō)，就是通過(guò)前向和后向光流估計(jì)的比較，來(lái)識(shí)別和剔除那些誤差較大的數(shù)據(jù)樣本。這個(gè)過(guò)程就像質(zhì)量檢查員檢驗(yàn)產(chǎn)品一樣——只有通過(guò)了嚴(yán)格質(zhì)量標(biāo)準(zhǔn)的訓(xùn)練樣本才會(huì)被用于最終的訓(xùn)練過(guò)程。

整個(gè)系統(tǒng)的訓(xùn)練過(guò)程體現(xiàn)了一種精妙的平衡藝術(shù)。一方面，需要保證動(dòng)作生成器能夠產(chǎn)生豐富多樣的動(dòng)作模式，特別是那些極限動(dòng)作；另一方面，需要確保動(dòng)作引導(dǎo)視頻生成器能夠忠實(shí)地執(zhí)行這些動(dòng)作指令，同時(shí)保持視覺(jué)真實(shí)性。這種平衡就像訓(xùn)練一個(gè)電影制作團(tuán)隊(duì)——既要有創(chuàng)意和想象力，又要有執(zhí)行能力和技術(shù)水準(zhǔn)。

三、數(shù)據(jù)煉金術(shù)：化虛擬為現(xiàn)實(shí)的技術(shù)魔法

DynaVid系統(tǒng)最核心的創(chuàng)新在于它對(duì)數(shù)據(jù)的獨(dú)特處理方式。如果說(shuō)傳統(tǒng)方法是"大海撈針"式地尋找稀有的高動(dòng)態(tài)真實(shí)視頻，那么DynaVid的方法更像是"點(diǎn)石成金"——將看似無(wú)用的虛擬數(shù)據(jù)轉(zhuǎn)化為極其寶貴的訓(xùn)練資源。

這個(gè)轉(zhuǎn)化過(guò)程的關(guān)鍵環(huán)節(jié)是光流表示技術(shù)。光流本身是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)經(jīng)典概念，但在這里被賦予了新的使命。研究團(tuán)隊(duì)需要解決一個(gè)技術(shù)難題：如何將光流數(shù)據(jù)輸入到原本為處理RGB視頻而設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)中？

他們的解決方案頗具創(chuàng)意：將光流轉(zhuǎn)換為一種特殊的"顏色編碼"。具體來(lái)說(shuō)，光流的每個(gè)向量都有方向和大小兩個(gè)屬性，就像風(fēng)既有風(fēng)向又有風(fēng)力一樣。研究團(tuán)隊(duì)將這兩個(gè)屬性分別映射到顏色的"色相"和"亮度"維度上。這樣，每個(gè)光流向量都對(duì)應(yīng)一個(gè)特定的顏色，而整個(gè)光流場(chǎng)就變成了一幅彩色圖像。

這種編碼方式的巧妙之處在于，它保持了光流信息的完整性，同時(shí)又讓現(xiàn)有的視頻處理網(wǎng)絡(luò)能夠直接處理這些數(shù)據(jù)。就好比發(fā)明了一種新的音樂(lè)記譜法，既能準(zhǔn)確記錄音樂(lè)信息，又能被現(xiàn)有的樂(lè)器演奏者理解和使用。

數(shù)據(jù)生成流程的設(shè)計(jì)也體現(xiàn)了研究團(tuán)隊(duì)的深思熟慮。在構(gòu)建DynaVid-Human數(shù)據(jù)集時(shí)，他們從Mixamo這個(gè)專(zhuān)業(yè)動(dòng)作數(shù)據(jù)庫(kù)中獲得了各種高質(zhì)量的人體動(dòng)作序列。這些動(dòng)作序列就像是專(zhuān)業(yè)舞者的動(dòng)作教程，包含了各種在現(xiàn)實(shí)中很難捕捉到的復(fù)雜動(dòng)作。然后，他們?cè)贐lender這個(gè)專(zhuān)業(yè)3D軟件中創(chuàng)建了各種真實(shí)感的場(chǎng)景，讓虛擬角色在這些場(chǎng)景中表演各種動(dòng)作。

值得注意的是，雖然最終的RGB視頻可能看起來(lái)有些"假"，但通過(guò)Blender的物理引擎生成的光流卻是完全準(zhǔn)確的。這是因?yàn)槲锢矸▌t在虛擬世界中被嚴(yán)格執(zhí)行——重力加速度、摩擦力、慣性等都與真實(shí)世界完全一致。因此，虛擬角色的運(yùn)動(dòng)軌跡反映了真實(shí)的人體動(dòng)力學(xué)原理。

對(duì)于DynaVid-Camera數(shù)據(jù)集的構(gòu)建，研究團(tuán)隊(duì)采用了更加復(fù)雜的攝像機(jī)軌跡設(shè)計(jì)。他們沒(méi)有簡(jiǎn)單地讓攝像機(jī)做直線運(yùn)動(dòng)或簡(jiǎn)單旋轉(zhuǎn)，而是設(shè)計(jì)了包含急速轉(zhuǎn)向、大幅度升降、快速縮放等復(fù)雜運(yùn)動(dòng)的軌跡。這些軌跡使用NURBS曲線進(jìn)行平滑處理，確保運(yùn)動(dòng)的連續(xù)性和自然性，同時(shí)又保持了足夠的動(dòng)態(tài)性。

數(shù)據(jù)處理過(guò)程中的一個(gè)重要細(xì)節(jié)是對(duì)光流幅度的歸一化處理。原始的光流數(shù)據(jù)往往包含極大的數(shù)值范圍——從幾乎靜止的微小運(yùn)動(dòng)到極快的大幅移動(dòng)。如果直接使用這些數(shù)據(jù)，神經(jīng)網(wǎng)絡(luò)很難有效學(xué)習(xí)。研究團(tuán)隊(duì)設(shè)計(jì)了一種自適應(yīng)的歸一化方法，既保持了運(yùn)動(dòng)方向的準(zhǔn)確性，又讓不同幅度的運(yùn)動(dòng)都能得到適當(dāng)?shù)谋硎尽?/p>

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)虛擬數(shù)據(jù)和真實(shí)數(shù)據(jù)之間存在某種"互補(bǔ)性"。虛擬數(shù)據(jù)的優(yōu)勢(shì)在于動(dòng)作的極致性和控制的精確性，但可能缺少真實(shí)世界中的一些微妙細(xì)節(jié)，比如衣物的飄動(dòng)、頭發(fā)的擺動(dòng)等。而真實(shí)數(shù)據(jù)雖然包含這些細(xì)節(jié)，但往往缺乏足夠的動(dòng)態(tài)性。通過(guò)巧妙的混合訓(xùn)練策略，DynaVid系統(tǒng)能夠同時(shí)利用兩種數(shù)據(jù)的優(yōu)勢(shì)。

為了驗(yàn)證數(shù)據(jù)處理策略的有效性，研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn)。他們發(fā)現(xiàn)，單獨(dú)使用虛擬數(shù)據(jù)訓(xùn)練的模型雖然能生成動(dòng)態(tài)的動(dòng)作，但往往帶有明顯的人工痕跡；單獨(dú)使用真實(shí)數(shù)據(jù)訓(xùn)練的模型雖然視覺(jué)真實(shí)，但動(dòng)作范圍受限。只有采用他們提出的混合策略，才能實(shí)現(xiàn)動(dòng)態(tài)性和真實(shí)性的完美平衡。

四、實(shí)戰(zhàn)驗(yàn)證：從理論到實(shí)踐的華麗轉(zhuǎn)身

任何技術(shù)創(chuàng)新的真正價(jià)值都需要通過(guò)實(shí)際應(yīng)用來(lái)驗(yàn)證。DynaVid系統(tǒng)在兩個(gè)極具挑戰(zhàn)性的場(chǎng)景中接受了嚴(yán)格的測(cè)試：極限人體動(dòng)作生成和復(fù)雜攝像機(jī)控制。這兩個(gè)場(chǎng)景的選擇并非偶然，而是因?yàn)樗鼈兇砹艘曨l生成技術(shù)的兩大"珠峰"——?jiǎng)討B(tài)物體建模和三維空間理解。

在人體動(dòng)作生成測(cè)試中，研究團(tuán)隊(duì)選擇了breakdance作為主要的評(píng)測(cè)對(duì)象。Breakdance之所以成為理想的測(cè)試案例，是因?yàn)樗畜w現(xiàn)了高動(dòng)態(tài)視頻生成的所有難點(diǎn)：快速的身體旋轉(zhuǎn)、復(fù)雜的肢體協(xié)調(diào)、重心的頻繁變化，以及各種在日常生活中罕見(jiàn)的極限姿態(tài)。傳統(tǒng)的視頻生成模型在面對(duì)這類(lèi)動(dòng)作時(shí)，往往會(huì)出現(xiàn)身體變形、動(dòng)作不連貫、物理規(guī)律違背等問(wèn)題。

實(shí)驗(yàn)結(jié)果令人印象深刻。與當(dāng)前最先進(jìn)的視頻生成模型（如CogVideoX-5B和Wan2.2-5B）相比，DynaVid生成的breakdance視頻在動(dòng)作的流暢性、身體比例的準(zhǔn)確性，以及整體的視覺(jué)真實(shí)性方面都有顯著提升。特別值得注意的是，DynaVid生成的人物在進(jìn)行快速旋轉(zhuǎn)或倒立等極限動(dòng)作時(shí)，身體各部位的關(guān)系仍然保持正確，這在以往的模型中是很難實(shí)現(xiàn)的。

攝像機(jī)控制測(cè)試則展現(xiàn)了DynaVid在三維空間理解方面的能力。研究團(tuán)隊(duì)設(shè)計(jì)了一系列包含180度快速旋轉(zhuǎn)、急劇升降、快速推拉等極限攝像機(jī)運(yùn)動(dòng)的測(cè)試場(chǎng)景。這些運(yùn)動(dòng)在專(zhuān)業(yè)電影制作中雖然常見(jiàn)，但對(duì)AI系統(tǒng)來(lái)說(shuō)卻是極大的挑戰(zhàn)，因?yàn)樗鼈円笙到y(tǒng)準(zhǔn)確理解三維空間關(guān)系，并能夠從全新的視角重構(gòu)場(chǎng)景。

在與專(zhuān)業(yè)攝像機(jī)控制模型（如AC3D和GEN3C）的對(duì)比中，DynaVid展現(xiàn)出了明顯的優(yōu)勢(shì)。AC3D雖然在簡(jiǎn)單攝像機(jī)運(yùn)動(dòng)下表現(xiàn)不錯(cuò)，但在面對(duì)快速的大幅度運(yùn)動(dòng)時(shí)往往失去控制，生成的視頻會(huì)出現(xiàn)不自然的跳躍或扭曲。GEN3C雖然能夠處理復(fù)雜運(yùn)動(dòng)，但由于它需要依賴(lài)輸入圖像來(lái)重建三維信息，在視角變化過(guò)大時(shí)會(huì)產(chǎn)生明顯的視覺(jué)偽影，特別是在那些原本不可見(jiàn)的區(qū)域。

DynaVid的優(yōu)勢(shì)在于它通過(guò)合成數(shù)據(jù)學(xué)習(xí)到了豐富的空間變換知識(shí)。當(dāng)攝像機(jī)進(jìn)行復(fù)雜運(yùn)動(dòng)時(shí)，系統(tǒng)能夠準(zhǔn)確預(yù)測(cè)場(chǎng)景中各個(gè)元素的相對(duì)運(yùn)動(dòng)，生成連貫自然的視頻序列。更重要的是，即使在極限運(yùn)動(dòng)場(chǎng)景下，生成的視頻仍然保持了高度的視覺(jué)真實(shí)性。

量化評(píng)估結(jié)果進(jìn)一步證實(shí)了DynaVid的優(yōu)越性。在標(biāo)準(zhǔn)的視頻質(zhì)量指標(biāo)（如FVD、美學(xué)質(zhì)量、圖像質(zhì)量等）方面，DynaVid在處理高動(dòng)態(tài)場(chǎng)景時(shí)顯著優(yōu)于現(xiàn)有方法。特別是在運(yùn)動(dòng)平滑性和時(shí)間一致性方面，DynaVid表現(xiàn)出色，這直接反映了其在動(dòng)作建模方面的優(yōu)勢(shì)。

為了深入理解系統(tǒng)的工作機(jī)制，研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。這些實(shí)驗(yàn)就像解剖學(xué)研究一樣，通過(guò)逐一移除系統(tǒng)的不同組件，來(lái)理解每個(gè)部分的具體作用。結(jié)果顯示，合成運(yùn)動(dòng)數(shù)據(jù)的引入是性能提升的最關(guān)鍵因素——沒(méi)有這些數(shù)據(jù)，系統(tǒng)在高動(dòng)態(tài)場(chǎng)景下的表現(xiàn)急劇下降。同時(shí)，混合訓(xùn)練策略也被證明是必要的——純粹使用合成數(shù)據(jù)會(huì)導(dǎo)致生成結(jié)果帶有人工痕跡，而純粹使用真實(shí)數(shù)據(jù)則無(wú)法覆蓋足夠的動(dòng)作范圍。

一個(gè)令人驚喜的發(fā)現(xiàn)是DynaVid的泛化能力。雖然DynaVid-Human數(shù)據(jù)集只包含人類(lèi)動(dòng)作，但訓(xùn)練好的系統(tǒng)卻能夠生成其他類(lèi)型的動(dòng)態(tài)對(duì)象，比如動(dòng)物的運(yùn)動(dòng)。這種跨域泛化能力暗示了系統(tǒng)學(xué)到的不僅僅是表面的動(dòng)作模式，而是更深層的運(yùn)動(dòng)規(guī)律和物理原理。

五、技術(shù)深度：解開(kāi)AI視頻生成的神秘面紗

要真正理解DynaVid的技術(shù)價(jià)值，我們需要深入了解其背后的核心技術(shù)創(chuàng)新。這些創(chuàng)新不僅解決了當(dāng)前的問(wèn)題，更為未來(lái)的視頻生成技術(shù)發(fā)展指明了方向。

首先是架構(gòu)設(shè)計(jì)的巧思。DynaVid采用的兩階段生成框架并非簡(jiǎn)單的功能分割，而是基于對(duì)視頻生成本質(zhì)的深刻理解。研究團(tuán)隊(duì)意識(shí)到，視頻的"內(nèi)容"和"表現(xiàn)"是兩個(gè)相對(duì)獨(dú)立的維度。內(nèi)容層面涉及"什么在動(dòng)"、"如何動(dòng)"等語(yǔ)義信息，而表現(xiàn)層面則涉及"看起來(lái)如何"的視覺(jué)效果。傳統(tǒng)的端到端方法試圖同時(shí)處理這兩個(gè)維度，但往往在復(fù)雜場(chǎng)景下力不從心。

DynaVid的分階段設(shè)計(jì)讓每個(gè)組件都能專(zhuān)注于自己的核心任務(wù)。動(dòng)作生成器專(zhuān)注于理解和生成運(yùn)動(dòng)模式，不需要擔(dān)心視覺(jué)渲染的細(xì)節(jié)；動(dòng)作引導(dǎo)視頻生成器專(zhuān)注于視覺(jué)質(zhì)量，可以充分利用真實(shí)世界的視覺(jué)數(shù)據(jù)。這種設(shè)計(jì)哲學(xué)類(lèi)似于現(xiàn)代軟件工程中的"關(guān)注點(diǎn)分離"原則，通過(guò)合理的模塊化來(lái)降低系統(tǒng)復(fù)雜度并提高性能。

控制機(jī)制的設(shè)計(jì)也體現(xiàn)了深刻的工程智慧。對(duì)于攝像機(jī)控制這個(gè)特殊需求，研究團(tuán)隊(duì)采用了Plucker嵌入這種數(shù)學(xué)工具來(lái)表示攝像機(jī)參數(shù)。Plucker嵌入能夠?qū)?fù)雜的三維空間關(guān)系編碼為神經(jīng)網(wǎng)絡(luò)容易處理的向量形式，同時(shí)保持空間變換的幾何性質(zhì)。這種表示方法的選擇顯示了研究團(tuán)隊(duì)在數(shù)學(xué)理論和實(shí)際應(yīng)用之間找到了恰當(dāng)?shù)钠胶恻c(diǎn)。

訓(xùn)練策略的設(shè)計(jì)更是體現(xiàn)了對(duì)機(jī)器學(xué)習(xí)深層機(jī)制的理解。傳統(tǒng)的訓(xùn)練方法往往采用單一數(shù)據(jù)源和固定的訓(xùn)練過(guò)程，但DynaVid采用了更加復(fù)雜但更有效的多階段、多數(shù)據(jù)源訓(xùn)練策略。預(yù)訓(xùn)練階段使用真實(shí)數(shù)據(jù)建立基礎(chǔ)能力，微調(diào)階段引入合成數(shù)據(jù)擴(kuò)展能力邊界，而混合批次訓(xùn)練則確保兩種能力的平衡發(fā)展。這種策略就像培養(yǎng)一個(gè)全面發(fā)展的人才，既要有扎實(shí)的基礎(chǔ)，又要有特殊的專(zhuān)長(zhǎng)，還要保持各種能力的協(xié)調(diào)發(fā)展。

數(shù)據(jù)質(zhì)量控制是另一個(gè)值得深入分析的技術(shù)亮點(diǎn)。光流循環(huán)一致性檢查看似簡(jiǎn)單，實(shí)際上涉及對(duì)視頻時(shí)序關(guān)系的深刻理解。這種方法基于一個(gè)重要的物理原理：真實(shí)世界中的運(yùn)動(dòng)是連續(xù)和可逆的。通過(guò)比較前向和后向光流的一致性，系統(tǒng)能夠有效識(shí)別那些違反物理常識(shí)的數(shù)據(jù)樣本。這種質(zhì)量控制機(jī)制不僅提高了訓(xùn)練數(shù)據(jù)的可靠性，也間接提升了最終模型的物理合理性。

模型的魯棒性分析揭示了系統(tǒng)設(shè)計(jì)的另一個(gè)優(yōu)勢(shì)。通過(guò)對(duì)噪聲光流的測(cè)試，研究團(tuán)隊(duì)發(fā)現(xiàn)DynaVid在面對(duì)輸入擾動(dòng)時(shí)表現(xiàn)出良好的穩(wěn)定性。這種魯棒性來(lái)源于動(dòng)作引導(dǎo)視頻生成器的設(shè)計(jì)——它不僅學(xué)會(huì)了如何執(zhí)行精確的動(dòng)作指令，還學(xué)會(huì)了如何處理不完美的輸入。這種能力在實(shí)際應(yīng)用中至關(guān)重要，因?yàn)楝F(xiàn)實(shí)世界的輸入往往包含各種噪聲和不確定性。

從計(jì)算效率的角度來(lái)看，DynaVid的設(shè)計(jì)也體現(xiàn)了實(shí)用性的考量。雖然采用了兩階段生成，但每個(gè)階段的計(jì)算復(fù)雜度都相對(duì)可控。更重要的是，兩個(gè)階段可以獨(dú)立優(yōu)化和部署，為不同應(yīng)用場(chǎng)景提供了靈活性。例如，在只需要生成動(dòng)作而不需要完整視頻的場(chǎng)景下，可以只使用第一階段；在已有動(dòng)作信息需要生成視頻的場(chǎng)景下，可以只使用第二階段。

技術(shù)創(chuàng)新的另一個(gè)重要方面是其可擴(kuò)展性。DynaVid的框架設(shè)計(jì)具有良好的模塊化特性，可以方便地集成新的控制信號(hào)或適應(yīng)新的應(yīng)用場(chǎng)景。例如，除了攝像機(jī)控制之外，系統(tǒng)還可以擴(kuò)展支持其他類(lèi)型的控制信號(hào)，如物體軌跡、光照變化等。這種可擴(kuò)展性為未來(lái)的技術(shù)發(fā)展留下了充分的空間。

六、應(yīng)用前景：開(kāi)啟視頻創(chuàng)作新紀(jì)元

DynaVid技術(shù)的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)研究的范疇，它為多個(gè)行業(yè)帶來(lái)了革命性的應(yīng)用可能。從內(nèi)容創(chuàng)作到教育培訓(xùn)，從娛樂(lè)產(chǎn)業(yè)到專(zhuān)業(yè)設(shè)計(jì)，這項(xiàng)技術(shù)正在重新定義我們對(duì)視頻生成和創(chuàng)作的理解。

在影視制作領(lǐng)域，DynaVid最直接的應(yīng)用是動(dòng)作預(yù)演和概念設(shè)計(jì)。傳統(tǒng)的電影制作流程中，復(fù)雜的動(dòng)作場(chǎng)面往往需要昂貴的預(yù)拍攝或詳細(xì)的故事板繪制。有了DynaVid，導(dǎo)演和動(dòng)作設(shè)計(jì)師可以快速生成各種動(dòng)作方案的視頻預(yù)覽，大大降低了創(chuàng)意實(shí)驗(yàn)的成本。特別是對(duì)于那些涉及高風(fēng)險(xiǎn)動(dòng)作的場(chǎng)面，可以先通過(guò)AI生成來(lái)驗(yàn)證可行性和視覺(jué)效果，再?zèng)Q定是否進(jìn)行實(shí)際拍攝。

對(duì)于獨(dú)立制作人和小型工作室來(lái)說(shuō)，DynaVid更是一個(gè)游戲規(guī)則改變者。以往只有大制片廠才能負(fù)擔(dān)得起的復(fù)雜動(dòng)作場(chǎng)面制作，現(xiàn)在可以通過(guò)AI技術(shù)以極低的成本實(shí)現(xiàn)。一個(gè)小團(tuán)隊(duì)可以創(chuàng)作出包含復(fù)雜武打動(dòng)作、極限運(yùn)動(dòng)或科幻場(chǎng)面的短片，這為創(chuàng)意內(nèi)容的民主化開(kāi)辟了新的道路。

在體育分析和訓(xùn)練領(lǐng)域，DynaVid的應(yīng)用同樣具有巨大價(jià)值。教練可以使用這項(xiàng)技術(shù)生成標(biāo)準(zhǔn)動(dòng)作的示范視頻，幫助運(yùn)動(dòng)員理解和學(xué)習(xí)復(fù)雜的技術(shù)動(dòng)作。更進(jìn)一步，可以根據(jù)運(yùn)動(dòng)員的具體問(wèn)題生成針對(duì)性的訓(xùn)練視頻，展示正確和錯(cuò)誤動(dòng)作的對(duì)比。這種個(gè)性化的視覺(jué)訓(xùn)練材料可以顯著提高訓(xùn)練效果。

教育行業(yè)的應(yīng)用潛力也不容小覷。在物理教學(xué)中，可以生成各種運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)現(xiàn)象的可視化視頻；在歷史教學(xué)中，可以重現(xiàn)歷史事件的場(chǎng)景；在藝術(shù)教育中，可以展示各種舞蹈和表演藝術(shù)的動(dòng)作要領(lǐng)。這些應(yīng)用不僅讓抽象概念變得具體可見(jiàn)，也大大豐富了教學(xué)資源的來(lái)源。

游戲和虛擬現(xiàn)實(shí)產(chǎn)業(yè)是另一個(gè)重要的應(yīng)用領(lǐng)域。游戲開(kāi)發(fā)者可以使用DynaVid快速生成角色動(dòng)畫(huà)的原型，減少傳統(tǒng)動(dòng)畫(huà)制作的工作量。在虛擬現(xiàn)實(shí)應(yīng)用中，可以根據(jù)用戶(hù)的動(dòng)作輸入實(shí)時(shí)生成相應(yīng)的視覺(jué)反饋，創(chuàng)造更加沉浸式的體驗(yàn)。特別是在健身和運(yùn)動(dòng)類(lèi)VR應(yīng)用中，可以提供精確的動(dòng)作指導(dǎo)和反饋。

社交媒體和內(nèi)容創(chuàng)作平臺(tái)也將從這項(xiàng)技術(shù)中受益。普通用戶(hù)可以通過(guò)簡(jiǎn)單的文字描述生成專(zhuān)業(yè)水準(zhǔn)的動(dòng)態(tài)視頻內(nèi)容，大大降低了視頻創(chuàng)作的門(mén)檻。這可能會(huì)催生新的內(nèi)容形式和創(chuàng)作模式，讓更多人能夠表達(dá)自己的創(chuàng)意想法。

在廣告和營(yíng)銷(xiāo)領(lǐng)域，DynaVid可以快速生成產(chǎn)品演示視頻，特別是那些需要展示產(chǎn)品在極端條件下性能的場(chǎng)景。例如，汽車(chē)廠商可以生成展示車(chē)輛在各種路況下行駛的視頻，運(yùn)動(dòng)用品公司可以生成展示裝備在極限運(yùn)動(dòng)中表現(xiàn)的視頻。

醫(yī)療康復(fù)領(lǐng)域的應(yīng)用也值得期待。物理治療師可以為患者生成標(biāo)準(zhǔn)的康復(fù)動(dòng)作演示視頻，幫助患者在家中進(jìn)行正確的康復(fù)訓(xùn)練。對(duì)于一些特殊的康復(fù)需求，還可以生成定制化的訓(xùn)練視頻，確保動(dòng)作的準(zhǔn)確性和安全性。

然而，任何強(qiáng)大的技術(shù)都帶來(lái)相應(yīng)的責(zé)任和挑戰(zhàn)。DynaVid的普及可能會(huì)引發(fā)內(nèi)容真實(shí)性和版權(quán)保護(hù)的新問(wèn)題。當(dāng)AI可以輕松生成逼真的人物動(dòng)作視頻時(shí)，如何區(qū)分真實(shí)內(nèi)容和AI生成內(nèi)容變得更加重要。這需要技術(shù)社區(qū)、政策制定者和社會(huì)各界共同努力，建立適當(dāng)?shù)囊?guī)范和標(biāo)準(zhǔn)。

此外，技術(shù)的民主化也可能帶來(lái)內(nèi)容質(zhì)量的分化。雖然更多人能夠創(chuàng)作視頻內(nèi)容，但如何保證內(nèi)容的質(zhì)量和創(chuàng)意水準(zhǔn)，避免同質(zhì)化的問(wèn)題，也是需要思考的問(wèn)題。這可能需要在技術(shù)工具之外，發(fā)展相應(yīng)的創(chuàng)意指導(dǎo)和質(zhì)量評(píng)估機(jī)制。

從長(zhǎng)遠(yuǎn)來(lái)看，DynaVid代表的技術(shù)方向可能會(huì)催生全新的職業(yè)和技能需求。AI動(dòng)作設(shè)計(jì)師、虛擬內(nèi)容策劃師、人機(jī)協(xié)作創(chuàng)作者等新興職業(yè)可能會(huì)逐漸出現(xiàn)。這要求教育體系和職業(yè)培訓(xùn)機(jī)制及時(shí)調(diào)整，為這個(gè)變化的世界培養(yǎng)適應(yīng)性人才。

說(shuō)到底，DynaVid不僅僅是一個(gè)技術(shù)突破，更是人類(lèi)創(chuàng)造力表達(dá)方式的一次重要進(jìn)化。它讓更多人能夠?qū)崿F(xiàn)自己的視覺(jué)創(chuàng)意，讓復(fù)雜的想法能夠以更直觀的方式呈現(xiàn)。在這個(gè)技術(shù)與創(chuàng)意融合的新時(shí)代，我們有理由期待更多令人驚喜的應(yīng)用和創(chuàng)新。畢竟，當(dāng)技術(shù)的門(mén)檻降低了，人類(lèi)的創(chuàng)造力往往會(huì)以意想不到的方式綻放。

這項(xiàng)由POSTECH聯(lián)合微軟亞洲研究院完成的研究，為我們展示了AI技術(shù)發(fā)展的一個(gè)重要方向：不是簡(jiǎn)單地模仿人類(lèi)的能力，而是通過(guò)巧妙的設(shè)計(jì)和創(chuàng)新的思路，讓AI在某些方面超越人類(lèi)的局限。有興趣深入了解技術(shù)細(xì)節(jié)的讀者，可以通過(guò)論文編號(hào)arXiv:2604.01666v1查詢(xún)完整的研究報(bào)告。隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和應(yīng)用，我們有理由相信，一個(gè)更加豐富多彩的視頻創(chuàng)作時(shí)代正在到來(lái)。

Q&A

Q1：DynaVid為什么能生成現(xiàn)實(shí)中很少見(jiàn)的極限動(dòng)作視頻？

A：DynaVid的核心創(chuàng)新在于使用虛擬世界中的運(yùn)動(dòng)數(shù)據(jù)來(lái)訓(xùn)練AI。研究團(tuán)隊(duì)發(fā)現(xiàn)，雖然虛擬角色看起來(lái)很假，但它們的運(yùn)動(dòng)規(guī)律與真實(shí)世界完全相同。通過(guò)提取這些虛擬動(dòng)作的"運(yùn)動(dòng)指紋"（光流信息），再結(jié)合真實(shí)視頻的視覺(jué)效果，系統(tǒng)就能生成既有極限動(dòng)作又看起來(lái)真實(shí)的視頻。

Q2：普通人能使用DynaVid技術(shù)制作視頻嗎？

A：目前DynaVid還是研究階段的技術(shù)，但它的設(shè)計(jì)理念是讓視頻制作更加便民。用戶(hù)只需要用文字描述想要的動(dòng)作（比如"表演breakdance"），系統(tǒng)就能自動(dòng)生成相應(yīng)的動(dòng)態(tài)視頻。這大大降低了專(zhuān)業(yè)視頻制作的門(mén)檻，讓沒(méi)有專(zhuān)業(yè)技能的普通人也能創(chuàng)作出高質(zhì)量的動(dòng)態(tài)內(nèi)容。

Q3：DynaVid生成的視頻質(zhì)量如何，會(huì)不會(huì)看起來(lái)很假？

A：DynaVid的一大優(yōu)勢(shì)就是在保持動(dòng)作豐富性的同時(shí)確保視覺(jué)真實(shí)性。系統(tǒng)采用兩階段設(shè)計(jì)：第一階段負(fù)責(zé)生成動(dòng)作，第二階段負(fù)責(zé)讓畫(huà)面看起來(lái)真實(shí)。實(shí)驗(yàn)結(jié)果顯示，它生成的視頻在視覺(jué)質(zhì)量、動(dòng)作流暢性等方面都明顯優(yōu)于現(xiàn)有的視頻生成技術(shù)，即使是復(fù)雜的breakdance動(dòng)作也能保持身體比例準(zhǔn)確和動(dòng)作自然。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.