国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

POSTECH團(tuán)隊(duì)突破視頻生成瓶頸:用虛擬數(shù)據(jù)教AI生成現(xiàn)實(shí)中的動(dòng)作

0
分享至


這項(xiàng)由韓國(guó)浦項(xiàng)科技大學(xué)(POSTECH)聯(lián)合微軟亞洲研究院完成的研究,發(fā)表于2024年4月的計(jì)算機(jī)視覺(jué)頂會(huì),論文編號(hào)為arXiv:2604.01666v1。該研究解決了一個(gè)讓視頻生成領(lǐng)域頭疼已久的問(wèn)題:如何讓AI生成那些在現(xiàn)實(shí)中極其罕見(jiàn)但又極具視覺(jué)沖擊力的動(dòng)態(tài)視頻。

當(dāng)我們打開(kāi)抖音或其他短視頻平臺(tái)時(shí),最能抓住眼球的往往是那些充滿(mǎn)動(dòng)感的內(nèi)容——街舞高手的炫酷breakdance、極限運(yùn)動(dòng)員的驚險(xiǎn)動(dòng)作,或者電影中快速移動(dòng)的鏡頭。然而,對(duì)于目前的AI視頻生成技術(shù)來(lái)說(shuō),創(chuàng)造這樣的動(dòng)態(tài)內(nèi)容卻是一個(gè)巨大的挑戰(zhàn)。就好比讓一個(gè)只見(jiàn)過(guò)慢走的人去學(xué)習(xí)跑步一樣困難,因?yàn)锳I的"老師"——那些用來(lái)訓(xùn)練的視頻數(shù)據(jù)中,這類(lèi)高動(dòng)態(tài)內(nèi)容實(shí)在太少了。

研究團(tuán)隊(duì)面臨的核心困境可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解:如果你想學(xué)會(huì)做一道復(fù)雜的菜,但食譜書(shū)里幾乎沒(méi)有這道菜的做法,你該怎么辦?傳統(tǒng)的解決方案是拼命尋找更多食譜,但這既費(fèi)時(shí)又費(fèi)力。而POSTECH的研究團(tuán)隊(duì)選擇了一條截然不同的道路——他們決定創(chuàng)造一本"虛擬食譜",但這本食譜只教你如何掌握烹飪的動(dòng)作技巧,而不涉及菜品的具體外觀。

這個(gè)創(chuàng)新思路的核心在于一個(gè)重要發(fā)現(xiàn):動(dòng)作和外觀其實(shí)是可以分開(kāi)學(xué)習(xí)的。就像學(xué)習(xí)舞蹈時(shí),你可以先掌握動(dòng)作要領(lǐng),再考慮服裝和妝容一樣。研究團(tuán)隊(duì)開(kāi)發(fā)的DynaVid系統(tǒng)采用了一種巧妙的"兩階段"方法。第一個(gè)階段專(zhuān)門(mén)學(xué)習(xí)"如何動(dòng)",第二個(gè)階段再學(xué)習(xí)"如何讓動(dòng)作看起來(lái)真實(shí)"。

具體來(lái)說(shuō),研究團(tuán)隊(duì)首先利用計(jì)算機(jī)圖形學(xué)技術(shù),在虛擬世界中創(chuàng)造了大量包含極限動(dòng)作的場(chǎng)景。這就像在模擬器中訓(xùn)練飛行員一樣——雖然是虛擬環(huán)境,但動(dòng)作原理是完全真實(shí)的。他們讓虛擬角色在這些場(chǎng)景中表演各種高難度動(dòng)作,但重點(diǎn)不是記錄這些虛擬角色的外觀(因?yàn)樘摂M角色看起來(lái)往往很假),而是記錄它們的運(yùn)動(dòng)軌跡——也就是"光流"信息。

光流可以理解為一種特殊的"動(dòng)作指紋"。當(dāng)你觀看一個(gè)人做breakdance時(shí),雖然你看到的是完整的人物形象,但其實(shí)你的大腦同時(shí)在追蹤每個(gè)身體部位的運(yùn)動(dòng)軌跡。光流就是這種運(yùn)動(dòng)軌跡的數(shù)字化表示。重要的是,光流只包含動(dòng)作信息,不包含外觀信息。這意味著即使是從虛擬角色身上提取的光流,也能準(zhǔn)確反映真實(shí)的動(dòng)作規(guī)律。

基于這個(gè)理念,DynaVid系統(tǒng)的第一個(gè)組件——"動(dòng)作生成器"——專(zhuān)門(mén)學(xué)習(xí)如何從文字描述中生成相應(yīng)的動(dòng)作光流。這個(gè)過(guò)程就像一個(gè)專(zhuān)業(yè)的動(dòng)作指導(dǎo),能夠根據(jù)"表演一段激烈的breakdance"這樣的描述,設(shè)計(jì)出相應(yīng)的動(dòng)作序列。由于有了大量虛擬動(dòng)作數(shù)據(jù)的支持,這個(gè)動(dòng)作生成器能夠創(chuàng)造出現(xiàn)實(shí)中極其罕見(jiàn)的高動(dòng)態(tài)動(dòng)作。

系統(tǒng)的第二個(gè)組件——"動(dòng)作引導(dǎo)視頻生成器"——?jiǎng)t負(fù)責(zé)將這些抽象的動(dòng)作信息轉(zhuǎn)化為真實(shí)的視頻畫(huà)面。這個(gè)組件專(zhuān)門(mén)用真實(shí)世界的視頻進(jìn)行訓(xùn)練,學(xué)會(huì)了如何讓動(dòng)作看起來(lái)自然真實(shí)。當(dāng)它接收到第一個(gè)組件生成的動(dòng)作信息時(shí),就能創(chuàng)造出既有極限動(dòng)作又看起來(lái)完全真實(shí)的視頻。

這種分工合作的方式巧妙地解決了一個(gè)長(zhǎng)期困擾研究者的問(wèn)題。如果直接用虛擬視頻訓(xùn)練AI,生成的結(jié)果往往帶有明顯的"塑料感",就像那些制作粗糙的動(dòng)畫(huà)片一樣。但如果只用真實(shí)視頻訓(xùn)練,又無(wú)法學(xué)會(huì)那些現(xiàn)實(shí)中罕見(jiàn)的極限動(dòng)作。DynaVid的方案就像是讓AI同時(shí)擁有了"動(dòng)作大師"和"視覺(jué)藝術(shù)家"兩種能力,前者保證動(dòng)作的豐富性和準(zhǔn)確性,后者保證畫(huà)面的真實(shí)性和美觀性。

一、突破靜態(tài)思維:重新定義視頻生成的邊界

要理解這項(xiàng)研究的重要性,我們需要先認(rèn)識(shí)當(dāng)前視頻生成技術(shù)面臨的根本性挑戰(zhàn)。目前最先進(jìn)的AI視頻生成模型,比如廣為人知的Sora、CogVideoX等,雖然在生成普通場(chǎng)景的視頻方面表現(xiàn)不錯(cuò),但在處理高動(dòng)態(tài)內(nèi)容時(shí)往往力不從心。這個(gè)問(wèn)題的根源在于訓(xùn)練數(shù)據(jù)的天然偏差。

考慮這樣一個(gè)現(xiàn)實(shí)情況:在網(wǎng)絡(luò)上能找到的視頻中,普通的日?;顒?dòng)(比如走路、簡(jiǎn)單對(duì)話、靜態(tài)拍攝)占據(jù)了絕大多數(shù),而那些充滿(mǎn)動(dòng)感的內(nèi)容(比如專(zhuān)業(yè)舞者的高難度動(dòng)作、極限運(yùn)動(dòng)、快速變化的攝像機(jī)運(yùn)動(dòng))相對(duì)稀少。這就導(dǎo)致AI在學(xué)習(xí)過(guò)程中接觸到的"教材"存在嚴(yán)重的不平衡。就好比一個(gè)學(xué)生如果只看過(guò)慢動(dòng)作的教學(xué)視頻,就很難理解正常速度甚至高速運(yùn)動(dòng)的規(guī)律一樣。

更具體地說(shuō),當(dāng)AI嘗試生成breakdance這樣的動(dòng)作時(shí),由于訓(xùn)練數(shù)據(jù)中這類(lèi)動(dòng)作的樣本太少,它往往只能"拼湊"出一些看似相關(guān)但實(shí)際上不合理的動(dòng)作序列。結(jié)果就是生成的人物可能會(huì)出現(xiàn)關(guān)節(jié)扭曲、動(dòng)作不連貫,甚至身體部位消失等問(wèn)題。這就像讓一個(gè)從未見(jiàn)過(guò)火車(chē)的人去畫(huà)火車(chē),他可能會(huì)畫(huà)出一個(gè)有輪子、有車(chē)廂的東西,但細(xì)節(jié)和比例都會(huì)有嚴(yán)重問(wèn)題。

傳統(tǒng)解決這個(gè)問(wèn)題的思路主要有兩種。第一種是"擴(kuò)大搜索范圍"——努力收集更多包含高動(dòng)態(tài)內(nèi)容的真實(shí)視頻。但這種方法面臨幾個(gè)實(shí)際困難:首先,這類(lèi)視頻本身就稀少;其次,即使找到了,質(zhì)量往往參差不齊;最重要的是,要獲得足夠數(shù)量的高質(zhì)量動(dòng)態(tài)視頻來(lái)平衡訓(xùn)練數(shù)據(jù),需要投入巨大的人力和時(shí)間成本。

第二種思路是"直接使用合成視頻"——通過(guò)計(jì)算機(jī)圖形學(xué)技術(shù)生成大量包含各種動(dòng)作的虛擬視頻。這個(gè)方向已經(jīng)有一些研究者在探索,但面臨一個(gè)關(guān)鍵問(wèn)題:虛擬視頻和真實(shí)視頻之間存在明顯的視覺(jué)差異。用虛擬視頻訓(xùn)練的AI往往會(huì)"學(xué)會(huì)"虛擬世界的視覺(jué)特征,導(dǎo)致生成的視頻帶有明顯的人工痕跡。這就像讓一個(gè)人只看動(dòng)畫(huà)片學(xué)習(xí)現(xiàn)實(shí)世界,他對(duì)真實(shí)世界的理解必然會(huì)有偏差。

POSTECH研究團(tuán)隊(duì)提出的第三種思路可以說(shuō)是革命性的:他們意識(shí)到"動(dòng)作"和"外觀"是兩個(gè)相對(duì)獨(dú)立的維度,可以分別處理。這個(gè)洞察的關(guān)鍵在于,虛擬世界中的動(dòng)作規(guī)律與真實(shí)世界是完全一致的——重力、慣性、關(guān)節(jié)運(yùn)動(dòng)范圍等物理法則在虛擬和現(xiàn)實(shí)中都是相同的。問(wèn)題只在于虛擬世界的視覺(jué)渲染效果不夠真實(shí)。

因此,研究團(tuán)隊(duì)決定從虛擬視頻中提取純粹的動(dòng)作信息(即光流),而完全拋棄其視覺(jué)外觀信息。光流是計(jì)算機(jī)視覺(jué)中一個(gè)重要概念,它描述的是圖像中每個(gè)像素點(diǎn)在連續(xù)幀之間的移動(dòng)情況??梢园压饬飨胂蟪蛇\(yùn)動(dòng)的"指紋"——它記錄了物體如何移動(dòng),但不關(guān)心物體本身長(zhǎng)什么樣子。

這種方法的巧妙之處在于,即使是從看起來(lái)很假的虛擬視頻中提取的光流,也能準(zhǔn)確反映真實(shí)的運(yùn)動(dòng)規(guī)律。就好比雖然動(dòng)畫(huà)片中的角色看起來(lái)不真實(shí),但他們的跑步姿勢(shì)仍然遵循真實(shí)的人體運(yùn)動(dòng)學(xué)原理。通過(guò)這種方式,研究團(tuán)隊(duì)成功地將虛擬數(shù)據(jù)的優(yōu)勢(shì)(動(dòng)作多樣性和精確控制)與真實(shí)數(shù)據(jù)的優(yōu)勢(shì)(視覺(jué)真實(shí)性)結(jié)合起來(lái)。

為了驗(yàn)證這個(gè)思路,研究團(tuán)隊(duì)構(gòu)建了兩個(gè)專(zhuān)門(mén)的合成數(shù)據(jù)集:DynaVid-Human和DynaVid-Camera。DynaVid-Human專(zhuān)注于人體的高動(dòng)態(tài)動(dòng)作,包含了各種極限運(yùn)動(dòng)、舞蹈和體操動(dòng)作;DynaVid-Camera則專(zhuān)注于攝像機(jī)的快速運(yùn)動(dòng),包含了各種復(fù)雜的鏡頭變化和視角切換。這兩個(gè)數(shù)據(jù)集的共同特點(diǎn)是包含了大量在真實(shí)世界中很難捕捉到的極限場(chǎng)景。

二、巧妙的雙重學(xué)習(xí):讓AI同時(shí)掌握動(dòng)作與美學(xué)

DynaVid系統(tǒng)的核心架構(gòu)可以用一個(gè)精巧的比喻來(lái)理解:就像培養(yǎng)一個(gè)全能的電影制作人,需要同時(shí)掌握動(dòng)作指導(dǎo)和視覺(jué)效果兩項(xiàng)技能。在傳統(tǒng)的電影制作中,動(dòng)作指導(dǎo)負(fù)責(zé)設(shè)計(jì)和編排各種動(dòng)作場(chǎng)面,而視覺(jué)效果師則負(fù)責(zé)讓這些動(dòng)作在屏幕上呈現(xiàn)出最佳的視覺(jué)效果。DynaVid系統(tǒng)正是模仿了這種專(zhuān)業(yè)分工的模式。

系統(tǒng)的第一個(gè)核心組件是"動(dòng)作生成器",它的工作就像一個(gè)經(jīng)驗(yàn)豐富的動(dòng)作指導(dǎo)。當(dāng)接收到文字描述(比如"一個(gè)穿著橙色衣服的人表演激烈的breakdance動(dòng)作")時(shí),這個(gè)組件需要在腦海中構(gòu)想出相應(yīng)的動(dòng)作序列,然后將這些動(dòng)作轉(zhuǎn)換成光流的形式輸出。這個(gè)過(guò)程聽(tīng)起來(lái)簡(jiǎn)單,實(shí)際上卻需要深度的理解能力。

為了讓動(dòng)作生成器掌握豐富的動(dòng)作詞匯,研究團(tuán)隊(duì)使用了兩種類(lèi)型的訓(xùn)練數(shù)據(jù)。首先是從真實(shí)視頻中提取的光流數(shù)據(jù),這些數(shù)據(jù)教會(huì)了系統(tǒng)什么是"正常的"、"自然的"動(dòng)作模式??梢园堰@個(gè)過(guò)程想象成讓一個(gè)舞蹈學(xué)生觀看大量的基礎(chǔ)舞蹈教學(xué)視頻,掌握基本的身體協(xié)調(diào)性和動(dòng)作流暢性。

接下來(lái),系統(tǒng)開(kāi)始學(xué)習(xí)更高級(jí)的技能——那些在真實(shí)世界中罕見(jiàn)但又極其重要的極限動(dòng)作。這時(shí)候,從DynaVid數(shù)據(jù)集中提取的合成光流數(shù)據(jù)就發(fā)揮了關(guān)鍵作用。這些數(shù)據(jù)就像是專(zhuān)門(mén)的高難度動(dòng)作教程,包含了各種在現(xiàn)實(shí)中很難捕捉到的復(fù)雜運(yùn)動(dòng)模式。通過(guò)學(xué)習(xí)這些數(shù)據(jù),動(dòng)作生成器的"動(dòng)作詞匯庫(kù)"得到了極大的擴(kuò)充。

訓(xùn)練策略的設(shè)計(jì)也體現(xiàn)了研究團(tuán)隊(duì)的巧思。他們采用了一種"先基礎(chǔ)后進(jìn)階"的方法:首先讓系統(tǒng)在真實(shí)光流數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,建立對(duì)正常動(dòng)作的基礎(chǔ)理解;然后在合成光流數(shù)據(jù)上進(jìn)行微調(diào),學(xué)習(xí)極限動(dòng)作。更重要的是,在微調(diào)階段,每個(gè)訓(xùn)練批次都同時(shí)包含真實(shí)和合成的光流數(shù)據(jù),確保系統(tǒng)在學(xué)習(xí)新技能的同時(shí)不會(huì)忘記已有的能力。這種策略就像讓一個(gè)舞者在學(xué)習(xí)高難度動(dòng)作的同時(shí),仍然定期練習(xí)基本功一樣。

對(duì)于攝像機(jī)控制這個(gè)特殊應(yīng)用,動(dòng)作生成器還配備了一個(gè)專(zhuān)門(mén)的"控制分支"。這個(gè)分支的工作原理類(lèi)似于電影攝影師的取景器——它接收精確的攝像機(jī)參數(shù)(比如位置、角度、移動(dòng)軌跡),然后指導(dǎo)動(dòng)作生成器產(chǎn)生相應(yīng)的光流模式。這種設(shè)計(jì)使得系統(tǒng)能夠根據(jù)用戶(hù)指定的攝像機(jī)路徑,精確生成相應(yīng)的視覺(jué)運(yùn)動(dòng)效果。

系統(tǒng)的第二個(gè)核心組件是"動(dòng)作引導(dǎo)視頻生成器",它的角色更像是一個(gè)技藝精湛的視覺(jué)效果師。這個(gè)組件的任務(wù)是接收動(dòng)作生成器輸出的光流信息,然后創(chuàng)造出看起來(lái)完全真實(shí)的視頻畫(huà)面。與動(dòng)作生成器不同,這個(gè)組件完全使用真實(shí)世界的視頻數(shù)據(jù)進(jìn)行訓(xùn)練,確保生成的畫(huà)面具有真實(shí)世界的視覺(jué)特征。

動(dòng)作引導(dǎo)視頻生成器的工作過(guò)程可以用這樣的比喻來(lái)理解:它就像一個(gè)能夠"聽(tīng)懂"動(dòng)作指令的超級(jí)演員。當(dāng)動(dòng)作指導(dǎo)(動(dòng)作生成器)給出具體的動(dòng)作要求時(shí),這個(gè)演員能夠完美地執(zhí)行這些動(dòng)作,并且表現(xiàn)得非常自然真實(shí)。關(guān)鍵在于,這個(gè)"演員"已經(jīng)通過(guò)觀看大量真實(shí)世界的表演,學(xué)會(huì)了如何讓任何動(dòng)作都看起來(lái)真實(shí)可信。

為了提高這個(gè)組件的性能,研究團(tuán)隊(duì)還開(kāi)發(fā)了一種巧妙的數(shù)據(jù)清洗技術(shù)。他們發(fā)現(xiàn),從真實(shí)視頻中提取的光流數(shù)據(jù)不可避免地包含一些估計(jì)誤差,就像拍攝時(shí)的輕微抖動(dòng)或者算法的小瑕疵。這些誤差如果不加處理,會(huì)影響系統(tǒng)學(xué)習(xí)正確的動(dòng)作-視頻對(duì)應(yīng)關(guān)系。

研究團(tuán)隊(duì)采用了"光流循環(huán)一致性"檢查來(lái)解決這個(gè)問(wèn)題。簡(jiǎn)單來(lái)說(shuō),就是通過(guò)前向和后向光流估計(jì)的比較,來(lái)識(shí)別和剔除那些誤差較大的數(shù)據(jù)樣本。這個(gè)過(guò)程就像質(zhì)量檢查員檢驗(yàn)產(chǎn)品一樣——只有通過(guò)了嚴(yán)格質(zhì)量標(biāo)準(zhǔn)的訓(xùn)練樣本才會(huì)被用于最終的訓(xùn)練過(guò)程。

整個(gè)系統(tǒng)的訓(xùn)練過(guò)程體現(xiàn)了一種精妙的平衡藝術(shù)。一方面,需要保證動(dòng)作生成器能夠產(chǎn)生豐富多樣的動(dòng)作模式,特別是那些極限動(dòng)作;另一方面,需要確保動(dòng)作引導(dǎo)視頻生成器能夠忠實(shí)地執(zhí)行這些動(dòng)作指令,同時(shí)保持視覺(jué)真實(shí)性。這種平衡就像訓(xùn)練一個(gè)電影制作團(tuán)隊(duì)——既要有創(chuàng)意和想象力,又要有執(zhí)行能力和技術(shù)水準(zhǔn)。

三、數(shù)據(jù)煉金術(shù):化虛擬為現(xiàn)實(shí)的技術(shù)魔法

DynaVid系統(tǒng)最核心的創(chuàng)新在于它對(duì)數(shù)據(jù)的獨(dú)特處理方式。如果說(shuō)傳統(tǒng)方法是"大海撈針"式地尋找稀有的高動(dòng)態(tài)真實(shí)視頻,那么DynaVid的方法更像是"點(diǎn)石成金"——將看似無(wú)用的虛擬數(shù)據(jù)轉(zhuǎn)化為極其寶貴的訓(xùn)練資源。

這個(gè)轉(zhuǎn)化過(guò)程的關(guān)鍵環(huán)節(jié)是光流表示技術(shù)。光流本身是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)經(jīng)典概念,但在這里被賦予了新的使命。研究團(tuán)隊(duì)需要解決一個(gè)技術(shù)難題:如何將光流數(shù)據(jù)輸入到原本為處理RGB視頻而設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)中?

他們的解決方案頗具創(chuàng)意:將光流轉(zhuǎn)換為一種特殊的"顏色編碼"。具體來(lái)說(shuō),光流的每個(gè)向量都有方向和大小兩個(gè)屬性,就像風(fēng)既有風(fēng)向又有風(fēng)力一樣。研究團(tuán)隊(duì)將這兩個(gè)屬性分別映射到顏色的"色相"和"亮度"維度上。這樣,每個(gè)光流向量都對(duì)應(yīng)一個(gè)特定的顏色,而整個(gè)光流場(chǎng)就變成了一幅彩色圖像。

這種編碼方式的巧妙之處在于,它保持了光流信息的完整性,同時(shí)又讓現(xiàn)有的視頻處理網(wǎng)絡(luò)能夠直接處理這些數(shù)據(jù)。就好比發(fā)明了一種新的音樂(lè)記譜法,既能準(zhǔn)確記錄音樂(lè)信息,又能被現(xiàn)有的樂(lè)器演奏者理解和使用。

數(shù)據(jù)生成流程的設(shè)計(jì)也體現(xiàn)了研究團(tuán)隊(duì)的深思熟慮。在構(gòu)建DynaVid-Human數(shù)據(jù)集時(shí),他們從Mixamo這個(gè)專(zhuān)業(yè)動(dòng)作數(shù)據(jù)庫(kù)中獲得了各種高質(zhì)量的人體動(dòng)作序列。這些動(dòng)作序列就像是專(zhuān)業(yè)舞者的動(dòng)作教程,包含了各種在現(xiàn)實(shí)中很難捕捉到的復(fù)雜動(dòng)作。然后,他們?cè)贐lender這個(gè)專(zhuān)業(yè)3D軟件中創(chuàng)建了各種真實(shí)感的場(chǎng)景,讓虛擬角色在這些場(chǎng)景中表演各種動(dòng)作。

值得注意的是,雖然最終的RGB視頻可能看起來(lái)有些"假",但通過(guò)Blender的物理引擎生成的光流卻是完全準(zhǔn)確的。這是因?yàn)槲锢矸▌t在虛擬世界中被嚴(yán)格執(zhí)行——重力加速度、摩擦力、慣性等都與真實(shí)世界完全一致。因此,虛擬角色的運(yùn)動(dòng)軌跡反映了真實(shí)的人體動(dòng)力學(xué)原理。

對(duì)于DynaVid-Camera數(shù)據(jù)集的構(gòu)建,研究團(tuán)隊(duì)采用了更加復(fù)雜的攝像機(jī)軌跡設(shè)計(jì)。他們沒(méi)有簡(jiǎn)單地讓攝像機(jī)做直線運(yùn)動(dòng)或簡(jiǎn)單旋轉(zhuǎn),而是設(shè)計(jì)了包含急速轉(zhuǎn)向、大幅度升降、快速縮放等復(fù)雜運(yùn)動(dòng)的軌跡。這些軌跡使用NURBS曲線進(jìn)行平滑處理,確保運(yùn)動(dòng)的連續(xù)性和自然性,同時(shí)又保持了足夠的動(dòng)態(tài)性。

數(shù)據(jù)處理過(guò)程中的一個(gè)重要細(xì)節(jié)是對(duì)光流幅度的歸一化處理。原始的光流數(shù)據(jù)往往包含極大的數(shù)值范圍——從幾乎靜止的微小運(yùn)動(dòng)到極快的大幅移動(dòng)。如果直接使用這些數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)很難有效學(xué)習(xí)。研究團(tuán)隊(duì)設(shè)計(jì)了一種自適應(yīng)的歸一化方法,既保持了運(yùn)動(dòng)方向的準(zhǔn)確性,又讓不同幅度的運(yùn)動(dòng)都能得到適當(dāng)?shù)谋硎尽?/p>

更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)虛擬數(shù)據(jù)和真實(shí)數(shù)據(jù)之間存在某種"互補(bǔ)性"。虛擬數(shù)據(jù)的優(yōu)勢(shì)在于動(dòng)作的極致性和控制的精確性,但可能缺少真實(shí)世界中的一些微妙細(xì)節(jié),比如衣物的飄動(dòng)、頭發(fā)的擺動(dòng)等。而真實(shí)數(shù)據(jù)雖然包含這些細(xì)節(jié),但往往缺乏足夠的動(dòng)態(tài)性。通過(guò)巧妙的混合訓(xùn)練策略,DynaVid系統(tǒng)能夠同時(shí)利用兩種數(shù)據(jù)的優(yōu)勢(shì)。

為了驗(yàn)證數(shù)據(jù)處理策略的有效性,研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn)。他們發(fā)現(xiàn),單獨(dú)使用虛擬數(shù)據(jù)訓(xùn)練的模型雖然能生成動(dòng)態(tài)的動(dòng)作,但往往帶有明顯的人工痕跡;單獨(dú)使用真實(shí)數(shù)據(jù)訓(xùn)練的模型雖然視覺(jué)真實(shí),但動(dòng)作范圍受限。只有采用他們提出的混合策略,才能實(shí)現(xiàn)動(dòng)態(tài)性和真實(shí)性的完美平衡。

四、實(shí)戰(zhàn)驗(yàn)證:從理論到實(shí)踐的華麗轉(zhuǎn)身

任何技術(shù)創(chuàng)新的真正價(jià)值都需要通過(guò)實(shí)際應(yīng)用來(lái)驗(yàn)證。DynaVid系統(tǒng)在兩個(gè)極具挑戰(zhàn)性的場(chǎng)景中接受了嚴(yán)格的測(cè)試:極限人體動(dòng)作生成和復(fù)雜攝像機(jī)控制。這兩個(gè)場(chǎng)景的選擇并非偶然,而是因?yàn)樗鼈兇砹艘曨l生成技術(shù)的兩大"珠峰"——?jiǎng)討B(tài)物體建模和三維空間理解。

在人體動(dòng)作生成測(cè)試中,研究團(tuán)隊(duì)選擇了breakdance作為主要的評(píng)測(cè)對(duì)象。Breakdance之所以成為理想的測(cè)試案例,是因?yàn)樗畜w現(xiàn)了高動(dòng)態(tài)視頻生成的所有難點(diǎn):快速的身體旋轉(zhuǎn)、復(fù)雜的肢體協(xié)調(diào)、重心的頻繁變化,以及各種在日常生活中罕見(jiàn)的極限姿態(tài)。傳統(tǒng)的視頻生成模型在面對(duì)這類(lèi)動(dòng)作時(shí),往往會(huì)出現(xiàn)身體變形、動(dòng)作不連貫、物理規(guī)律違背等問(wèn)題。

實(shí)驗(yàn)結(jié)果令人印象深刻。與當(dāng)前最先進(jìn)的視頻生成模型(如CogVideoX-5B和Wan2.2-5B)相比,DynaVid生成的breakdance視頻在動(dòng)作的流暢性、身體比例的準(zhǔn)確性,以及整體的視覺(jué)真實(shí)性方面都有顯著提升。特別值得注意的是,DynaVid生成的人物在進(jìn)行快速旋轉(zhuǎn)或倒立等極限動(dòng)作時(shí),身體各部位的關(guān)系仍然保持正確,這在以往的模型中是很難實(shí)現(xiàn)的。

攝像機(jī)控制測(cè)試則展現(xiàn)了DynaVid在三維空間理解方面的能力。研究團(tuán)隊(duì)設(shè)計(jì)了一系列包含180度快速旋轉(zhuǎn)、急劇升降、快速推拉等極限攝像機(jī)運(yùn)動(dòng)的測(cè)試場(chǎng)景。這些運(yùn)動(dòng)在專(zhuān)業(yè)電影制作中雖然常見(jiàn),但對(duì)AI系統(tǒng)來(lái)說(shuō)卻是極大的挑戰(zhàn),因?yàn)樗鼈円笙到y(tǒng)準(zhǔn)確理解三維空間關(guān)系,并能夠從全新的視角重構(gòu)場(chǎng)景。

在與專(zhuān)業(yè)攝像機(jī)控制模型(如AC3D和GEN3C)的對(duì)比中,DynaVid展現(xiàn)出了明顯的優(yōu)勢(shì)。AC3D雖然在簡(jiǎn)單攝像機(jī)運(yùn)動(dòng)下表現(xiàn)不錯(cuò),但在面對(duì)快速的大幅度運(yùn)動(dòng)時(shí)往往失去控制,生成的視頻會(huì)出現(xiàn)不自然的跳躍或扭曲。GEN3C雖然能夠處理復(fù)雜運(yùn)動(dòng),但由于它需要依賴(lài)輸入圖像來(lái)重建三維信息,在視角變化過(guò)大時(shí)會(huì)產(chǎn)生明顯的視覺(jué)偽影,特別是在那些原本不可見(jiàn)的區(qū)域。

DynaVid的優(yōu)勢(shì)在于它通過(guò)合成數(shù)據(jù)學(xué)習(xí)到了豐富的空間變換知識(shí)。當(dāng)攝像機(jī)進(jìn)行復(fù)雜運(yùn)動(dòng)時(shí),系統(tǒng)能夠準(zhǔn)確預(yù)測(cè)場(chǎng)景中各個(gè)元素的相對(duì)運(yùn)動(dòng),生成連貫自然的視頻序列。更重要的是,即使在極限運(yùn)動(dòng)場(chǎng)景下,生成的視頻仍然保持了高度的視覺(jué)真實(shí)性。

量化評(píng)估結(jié)果進(jìn)一步證實(shí)了DynaVid的優(yōu)越性。在標(biāo)準(zhǔn)的視頻質(zhì)量指標(biāo)(如FVD、美學(xué)質(zhì)量、圖像質(zhì)量等)方面,DynaVid在處理高動(dòng)態(tài)場(chǎng)景時(shí)顯著優(yōu)于現(xiàn)有方法。特別是在運(yùn)動(dòng)平滑性和時(shí)間一致性方面,DynaVid表現(xiàn)出色,這直接反映了其在動(dòng)作建模方面的優(yōu)勢(shì)。

為了深入理解系統(tǒng)的工作機(jī)制,研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。這些實(shí)驗(yàn)就像解剖學(xué)研究一樣,通過(guò)逐一移除系統(tǒng)的不同組件,來(lái)理解每個(gè)部分的具體作用。結(jié)果顯示,合成運(yùn)動(dòng)數(shù)據(jù)的引入是性能提升的最關(guān)鍵因素——沒(méi)有這些數(shù)據(jù),系統(tǒng)在高動(dòng)態(tài)場(chǎng)景下的表現(xiàn)急劇下降。同時(shí),混合訓(xùn)練策略也被證明是必要的——純粹使用合成數(shù)據(jù)會(huì)導(dǎo)致生成結(jié)果帶有人工痕跡,而純粹使用真實(shí)數(shù)據(jù)則無(wú)法覆蓋足夠的動(dòng)作范圍。

一個(gè)令人驚喜的發(fā)現(xiàn)是DynaVid的泛化能力。雖然DynaVid-Human數(shù)據(jù)集只包含人類(lèi)動(dòng)作,但訓(xùn)練好的系統(tǒng)卻能夠生成其他類(lèi)型的動(dòng)態(tài)對(duì)象,比如動(dòng)物的運(yùn)動(dòng)。這種跨域泛化能力暗示了系統(tǒng)學(xué)到的不僅僅是表面的動(dòng)作模式,而是更深層的運(yùn)動(dòng)規(guī)律和物理原理。

五、技術(shù)深度:解開(kāi)AI視頻生成的神秘面紗

要真正理解DynaVid的技術(shù)價(jià)值,我們需要深入了解其背后的核心技術(shù)創(chuàng)新。這些創(chuàng)新不僅解決了當(dāng)前的問(wèn)題,更為未來(lái)的視頻生成技術(shù)發(fā)展指明了方向。

首先是架構(gòu)設(shè)計(jì)的巧思。DynaVid采用的兩階段生成框架并非簡(jiǎn)單的功能分割,而是基于對(duì)視頻生成本質(zhì)的深刻理解。研究團(tuán)隊(duì)意識(shí)到,視頻的"內(nèi)容"和"表現(xiàn)"是兩個(gè)相對(duì)獨(dú)立的維度。內(nèi)容層面涉及"什么在動(dòng)"、"如何動(dòng)"等語(yǔ)義信息,而表現(xiàn)層面則涉及"看起來(lái)如何"的視覺(jué)效果。傳統(tǒng)的端到端方法試圖同時(shí)處理這兩個(gè)維度,但往往在復(fù)雜場(chǎng)景下力不從心。

DynaVid的分階段設(shè)計(jì)讓每個(gè)組件都能專(zhuān)注于自己的核心任務(wù)。動(dòng)作生成器專(zhuān)注于理解和生成運(yùn)動(dòng)模式,不需要擔(dān)心視覺(jué)渲染的細(xì)節(jié);動(dòng)作引導(dǎo)視頻生成器專(zhuān)注于視覺(jué)質(zhì)量,可以充分利用真實(shí)世界的視覺(jué)數(shù)據(jù)。這種設(shè)計(jì)哲學(xué)類(lèi)似于現(xiàn)代軟件工程中的"關(guān)注點(diǎn)分離"原則,通過(guò)合理的模塊化來(lái)降低系統(tǒng)復(fù)雜度并提高性能。

控制機(jī)制的設(shè)計(jì)也體現(xiàn)了深刻的工程智慧。對(duì)于攝像機(jī)控制這個(gè)特殊需求,研究團(tuán)隊(duì)采用了Plucker嵌入這種數(shù)學(xué)工具來(lái)表示攝像機(jī)參數(shù)。Plucker嵌入能夠?qū)?fù)雜的三維空間關(guān)系編碼為神經(jīng)網(wǎng)絡(luò)容易處理的向量形式,同時(shí)保持空間變換的幾何性質(zhì)。這種表示方法的選擇顯示了研究團(tuán)隊(duì)在數(shù)學(xué)理論和實(shí)際應(yīng)用之間找到了恰當(dāng)?shù)钠胶恻c(diǎn)。

訓(xùn)練策略的設(shè)計(jì)更是體現(xiàn)了對(duì)機(jī)器學(xué)習(xí)深層機(jī)制的理解。傳統(tǒng)的訓(xùn)練方法往往采用單一數(shù)據(jù)源和固定的訓(xùn)練過(guò)程,但DynaVid采用了更加復(fù)雜但更有效的多階段、多數(shù)據(jù)源訓(xùn)練策略。預(yù)訓(xùn)練階段使用真實(shí)數(shù)據(jù)建立基礎(chǔ)能力,微調(diào)階段引入合成數(shù)據(jù)擴(kuò)展能力邊界,而混合批次訓(xùn)練則確保兩種能力的平衡發(fā)展。這種策略就像培養(yǎng)一個(gè)全面發(fā)展的人才,既要有扎實(shí)的基礎(chǔ),又要有特殊的專(zhuān)長(zhǎng),還要保持各種能力的協(xié)調(diào)發(fā)展。

數(shù)據(jù)質(zhì)量控制是另一個(gè)值得深入分析的技術(shù)亮點(diǎn)。光流循環(huán)一致性檢查看似簡(jiǎn)單,實(shí)際上涉及對(duì)視頻時(shí)序關(guān)系的深刻理解。這種方法基于一個(gè)重要的物理原理:真實(shí)世界中的運(yùn)動(dòng)是連續(xù)和可逆的。通過(guò)比較前向和后向光流的一致性,系統(tǒng)能夠有效識(shí)別那些違反物理常識(shí)的數(shù)據(jù)樣本。這種質(zhì)量控制機(jī)制不僅提高了訓(xùn)練數(shù)據(jù)的可靠性,也間接提升了最終模型的物理合理性。

模型的魯棒性分析揭示了系統(tǒng)設(shè)計(jì)的另一個(gè)優(yōu)勢(shì)。通過(guò)對(duì)噪聲光流的測(cè)試,研究團(tuán)隊(duì)發(fā)現(xiàn)DynaVid在面對(duì)輸入擾動(dòng)時(shí)表現(xiàn)出良好的穩(wěn)定性。這種魯棒性來(lái)源于動(dòng)作引導(dǎo)視頻生成器的設(shè)計(jì)——它不僅學(xué)會(huì)了如何執(zhí)行精確的動(dòng)作指令,還學(xué)會(huì)了如何處理不完美的輸入。這種能力在實(shí)際應(yīng)用中至關(guān)重要,因?yàn)楝F(xiàn)實(shí)世界的輸入往往包含各種噪聲和不確定性。

從計(jì)算效率的角度來(lái)看,DynaVid的設(shè)計(jì)也體現(xiàn)了實(shí)用性的考量。雖然采用了兩階段生成,但每個(gè)階段的計(jì)算復(fù)雜度都相對(duì)可控。更重要的是,兩個(gè)階段可以獨(dú)立優(yōu)化和部署,為不同應(yīng)用場(chǎng)景提供了靈活性。例如,在只需要生成動(dòng)作而不需要完整視頻的場(chǎng)景下,可以只使用第一階段;在已有動(dòng)作信息需要生成視頻的場(chǎng)景下,可以只使用第二階段。

技術(shù)創(chuàng)新的另一個(gè)重要方面是其可擴(kuò)展性。DynaVid的框架設(shè)計(jì)具有良好的模塊化特性,可以方便地集成新的控制信號(hào)或適應(yīng)新的應(yīng)用場(chǎng)景。例如,除了攝像機(jī)控制之外,系統(tǒng)還可以擴(kuò)展支持其他類(lèi)型的控制信號(hào),如物體軌跡、光照變化等。這種可擴(kuò)展性為未來(lái)的技術(shù)發(fā)展留下了充分的空間。

六、應(yīng)用前景:開(kāi)啟視頻創(chuàng)作新紀(jì)元

DynaVid技術(shù)的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)研究的范疇,它為多個(gè)行業(yè)帶來(lái)了革命性的應(yīng)用可能。從內(nèi)容創(chuàng)作到教育培訓(xùn),從娛樂(lè)產(chǎn)業(yè)到專(zhuān)業(yè)設(shè)計(jì),這項(xiàng)技術(shù)正在重新定義我們對(duì)視頻生成和創(chuàng)作的理解。

在影視制作領(lǐng)域,DynaVid最直接的應(yīng)用是動(dòng)作預(yù)演和概念設(shè)計(jì)。傳統(tǒng)的電影制作流程中,復(fù)雜的動(dòng)作場(chǎng)面往往需要昂貴的預(yù)拍攝或詳細(xì)的故事板繪制。有了DynaVid,導(dǎo)演和動(dòng)作設(shè)計(jì)師可以快速生成各種動(dòng)作方案的視頻預(yù)覽,大大降低了創(chuàng)意實(shí)驗(yàn)的成本。特別是對(duì)于那些涉及高風(fēng)險(xiǎn)動(dòng)作的場(chǎng)面,可以先通過(guò)AI生成來(lái)驗(yàn)證可行性和視覺(jué)效果,再?zèng)Q定是否進(jìn)行實(shí)際拍攝。

對(duì)于獨(dú)立制作人和小型工作室來(lái)說(shuō),DynaVid更是一個(gè)游戲規(guī)則改變者。以往只有大制片廠才能負(fù)擔(dān)得起的復(fù)雜動(dòng)作場(chǎng)面制作,現(xiàn)在可以通過(guò)AI技術(shù)以極低的成本實(shí)現(xiàn)。一個(gè)小團(tuán)隊(duì)可以創(chuàng)作出包含復(fù)雜武打動(dòng)作、極限運(yùn)動(dòng)或科幻場(chǎng)面的短片,這為創(chuàng)意內(nèi)容的民主化開(kāi)辟了新的道路。

在體育分析和訓(xùn)練領(lǐng)域,DynaVid的應(yīng)用同樣具有巨大價(jià)值。教練可以使用這項(xiàng)技術(shù)生成標(biāo)準(zhǔn)動(dòng)作的示范視頻,幫助運(yùn)動(dòng)員理解和學(xué)習(xí)復(fù)雜的技術(shù)動(dòng)作。更進(jìn)一步,可以根據(jù)運(yùn)動(dòng)員的具體問(wèn)題生成針對(duì)性的訓(xùn)練視頻,展示正確和錯(cuò)誤動(dòng)作的對(duì)比。這種個(gè)性化的視覺(jué)訓(xùn)練材料可以顯著提高訓(xùn)練效果。

教育行業(yè)的應(yīng)用潛力也不容小覷。在物理教學(xué)中,可以生成各種運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)現(xiàn)象的可視化視頻;在歷史教學(xué)中,可以重現(xiàn)歷史事件的場(chǎng)景;在藝術(shù)教育中,可以展示各種舞蹈和表演藝術(shù)的動(dòng)作要領(lǐng)。這些應(yīng)用不僅讓抽象概念變得具體可見(jiàn),也大大豐富了教學(xué)資源的來(lái)源。

游戲和虛擬現(xiàn)實(shí)產(chǎn)業(yè)是另一個(gè)重要的應(yīng)用領(lǐng)域。游戲開(kāi)發(fā)者可以使用DynaVid快速生成角色動(dòng)畫(huà)的原型,減少傳統(tǒng)動(dòng)畫(huà)制作的工作量。在虛擬現(xiàn)實(shí)應(yīng)用中,可以根據(jù)用戶(hù)的動(dòng)作輸入實(shí)時(shí)生成相應(yīng)的視覺(jué)反饋,創(chuàng)造更加沉浸式的體驗(yàn)。特別是在健身和運(yùn)動(dòng)類(lèi)VR應(yīng)用中,可以提供精確的動(dòng)作指導(dǎo)和反饋。

社交媒體和內(nèi)容創(chuàng)作平臺(tái)也將從這項(xiàng)技術(shù)中受益。普通用戶(hù)可以通過(guò)簡(jiǎn)單的文字描述生成專(zhuān)業(yè)水準(zhǔn)的動(dòng)態(tài)視頻內(nèi)容,大大降低了視頻創(chuàng)作的門(mén)檻。這可能會(huì)催生新的內(nèi)容形式和創(chuàng)作模式,讓更多人能夠表達(dá)自己的創(chuàng)意想法。

在廣告和營(yíng)銷(xiāo)領(lǐng)域,DynaVid可以快速生成產(chǎn)品演示視頻,特別是那些需要展示產(chǎn)品在極端條件下性能的場(chǎng)景。例如,汽車(chē)廠商可以生成展示車(chē)輛在各種路況下行駛的視頻,運(yùn)動(dòng)用品公司可以生成展示裝備在極限運(yùn)動(dòng)中表現(xiàn)的視頻。

醫(yī)療康復(fù)領(lǐng)域的應(yīng)用也值得期待。物理治療師可以為患者生成標(biāo)準(zhǔn)的康復(fù)動(dòng)作演示視頻,幫助患者在家中進(jìn)行正確的康復(fù)訓(xùn)練。對(duì)于一些特殊的康復(fù)需求,還可以生成定制化的訓(xùn)練視頻,確保動(dòng)作的準(zhǔn)確性和安全性。

然而,任何強(qiáng)大的技術(shù)都帶來(lái)相應(yīng)的責(zé)任和挑戰(zhàn)。DynaVid的普及可能會(huì)引發(fā)內(nèi)容真實(shí)性和版權(quán)保護(hù)的新問(wèn)題。當(dāng)AI可以輕松生成逼真的人物動(dòng)作視頻時(shí),如何區(qū)分真實(shí)內(nèi)容和AI生成內(nèi)容變得更加重要。這需要技術(shù)社區(qū)、政策制定者和社會(huì)各界共同努力,建立適當(dāng)?shù)囊?guī)范和標(biāo)準(zhǔn)。

此外,技術(shù)的民主化也可能帶來(lái)內(nèi)容質(zhì)量的分化。雖然更多人能夠創(chuàng)作視頻內(nèi)容,但如何保證內(nèi)容的質(zhì)量和創(chuàng)意水準(zhǔn),避免同質(zhì)化的問(wèn)題,也是需要思考的問(wèn)題。這可能需要在技術(shù)工具之外,發(fā)展相應(yīng)的創(chuàng)意指導(dǎo)和質(zhì)量評(píng)估機(jī)制。

從長(zhǎng)遠(yuǎn)來(lái)看,DynaVid代表的技術(shù)方向可能會(huì)催生全新的職業(yè)和技能需求。AI動(dòng)作設(shè)計(jì)師、虛擬內(nèi)容策劃師、人機(jī)協(xié)作創(chuàng)作者等新興職業(yè)可能會(huì)逐漸出現(xiàn)。這要求教育體系和職業(yè)培訓(xùn)機(jī)制及時(shí)調(diào)整,為這個(gè)變化的世界培養(yǎng)適應(yīng)性人才。

說(shuō)到底,DynaVid不僅僅是一個(gè)技術(shù)突破,更是人類(lèi)創(chuàng)造力表達(dá)方式的一次重要進(jìn)化。它讓更多人能夠?qū)崿F(xiàn)自己的視覺(jué)創(chuàng)意,讓復(fù)雜的想法能夠以更直觀的方式呈現(xiàn)。在這個(gè)技術(shù)與創(chuàng)意融合的新時(shí)代,我們有理由期待更多令人驚喜的應(yīng)用和創(chuàng)新。畢竟,當(dāng)技術(shù)的門(mén)檻降低了,人類(lèi)的創(chuàng)造力往往會(huì)以意想不到的方式綻放。

這項(xiàng)由POSTECH聯(lián)合微軟亞洲研究院完成的研究,為我們展示了AI技術(shù)發(fā)展的一個(gè)重要方向:不是簡(jiǎn)單地模仿人類(lèi)的能力,而是通過(guò)巧妙的設(shè)計(jì)和創(chuàng)新的思路,讓AI在某些方面超越人類(lèi)的局限。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)論文編號(hào)arXiv:2604.01666v1查詢(xún)完整的研究報(bào)告。隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和應(yīng)用,我們有理由相信,一個(gè)更加豐富多彩的視頻創(chuàng)作時(shí)代正在到來(lái)。

Q&A

Q1:DynaVid為什么能生成現(xiàn)實(shí)中很少見(jiàn)的極限動(dòng)作視頻?

A:DynaVid的核心創(chuàng)新在于使用虛擬世界中的運(yùn)動(dòng)數(shù)據(jù)來(lái)訓(xùn)練AI。研究團(tuán)隊(duì)發(fā)現(xiàn),雖然虛擬角色看起來(lái)很假,但它們的運(yùn)動(dòng)規(guī)律與真實(shí)世界完全相同。通過(guò)提取這些虛擬動(dòng)作的"運(yùn)動(dòng)指紋"(光流信息),再結(jié)合真實(shí)視頻的視覺(jué)效果,系統(tǒng)就能生成既有極限動(dòng)作又看起來(lái)真實(shí)的視頻。

Q2:普通人能使用DynaVid技術(shù)制作視頻嗎?

A:目前DynaVid還是研究階段的技術(shù),但它的設(shè)計(jì)理念是讓視頻制作更加便民。用戶(hù)只需要用文字描述想要的動(dòng)作(比如"表演breakdance"),系統(tǒng)就能自動(dòng)生成相應(yīng)的動(dòng)態(tài)視頻。這大大降低了專(zhuān)業(yè)視頻制作的門(mén)檻,讓沒(méi)有專(zhuān)業(yè)技能的普通人也能創(chuàng)作出高質(zhì)量的動(dòng)態(tài)內(nèi)容。

Q3:DynaVid生成的視頻質(zhì)量如何,會(huì)不會(huì)看起來(lái)很假?

A:DynaVid的一大優(yōu)勢(shì)就是在保持動(dòng)作豐富性的同時(shí)確保視覺(jué)真實(shí)性。系統(tǒng)采用兩階段設(shè)計(jì):第一階段負(fù)責(zé)生成動(dòng)作,第二階段負(fù)責(zé)讓畫(huà)面看起來(lái)真實(shí)。實(shí)驗(yàn)結(jié)果顯示,它生成的視頻在視覺(jué)質(zhì)量、動(dòng)作流暢性等方面都明顯優(yōu)于現(xiàn)有的視頻生成技術(shù),即使是復(fù)雜的breakdance動(dòng)作也能保持身體比例準(zhǔn)確和動(dòng)作自然。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
47:52!美投票結(jié)果出來(lái)了,特朗普態(tài)度轉(zhuǎn)變,希拉里:美處于弱勢(shì)

47:52!美投票結(jié)果出來(lái)了,特朗普態(tài)度轉(zhuǎn)變,希拉里:美處于弱勢(shì)

凡知
2026-04-17 10:13:40
特朗普:美伊已非常接近達(dá)成協(xié)議,協(xié)議將帶來(lái)免費(fèi)石油和霍爾木茲海峽;美對(duì)伊啟動(dòng)“經(jīng)濟(jì)狂怒”,伊斥其為“經(jīng)濟(jì)恐怖主義”和“敲詐”

特朗普:美伊已非常接近達(dá)成協(xié)議,協(xié)議將帶來(lái)免費(fèi)石油和霍爾木茲海峽;美對(duì)伊啟動(dòng)“經(jīng)濟(jì)狂怒”,伊斥其為“經(jīng)濟(jì)恐怖主義”和“敲詐”

大象新聞
2026-04-17 08:45:05
陳麗華頂奢收藏,從鴿血紅到天價(jià)帝王綠手鐲,都比不上她看家之寶

陳麗華頂奢收藏,從鴿血紅到天價(jià)帝王綠手鐲,都比不上她看家之寶

電影爛番茄
2026-04-12 22:56:39
莫氏雞煲?guī)凸すべY曝光,引全網(wǎng)羨慕,老莫透露后續(xù)打算,太通透

莫氏雞煲?guī)凸すべY曝光,引全網(wǎng)羨慕,老莫透露后續(xù)打算,太通透

阿萊美食匯
2026-04-16 16:00:21
四年仗打活了烏克蘭軍工業(yè),無(wú)人武器爆發(fā),從FPV到巡飛彈改寫(xiě)戰(zhàn)爭(zhēng)規(guī)則

四年仗打活了烏克蘭軍工業(yè),無(wú)人武器爆發(fā),從FPV到巡飛彈改寫(xiě)戰(zhàn)爭(zhēng)規(guī)則

網(wǎng)易新聞出品
2026-04-16 13:47:19
切記,半夜醒來(lái)千萬(wàn)不要看時(shí)間!

切記,半夜醒來(lái)千萬(wàn)不要看時(shí)間!

環(huán)球網(wǎng)資訊
2026-04-16 07:56:25
電訊報(bào):越早承認(rèn)英超不是最佳聯(lián)賽,越早重新享受足球

電訊報(bào):越早承認(rèn)英超不是最佳聯(lián)賽,越早重新享受足球

懂球帝
2026-04-17 12:30:04
民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長(zhǎng)期一家獨(dú)大政黨

民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長(zhǎng)期一家獨(dú)大政黨

李橑在北漂
2026-04-02 10:22:26
本田被曝將關(guān)停廣州、武漢兩座燃油車(chē)工廠 年產(chǎn)能砍至72萬(wàn)輛

本田被曝將關(guān)停廣州、武漢兩座燃油車(chē)工廠 年產(chǎn)能砍至72萬(wàn)輛

金融界
2026-04-17 13:45:07
人生苦短,放過(guò)自己

人生苦短,放過(guò)自己

綠茵下
2026-04-10 17:30:03
世界最短航線只要57秒,輪子都來(lái)不及收!

世界最短航線只要57秒,輪子都來(lái)不及收!

深度知局
2026-04-17 07:38:21
48小時(shí)內(nèi),俄美伊都對(duì)中國(guó)提了一個(gè)要求,涉及中方主權(quán),必須滿(mǎn)足

48小時(shí)內(nèi),俄美伊都對(duì)中國(guó)提了一個(gè)要求,涉及中方主權(quán),必須滿(mǎn)足

安珈使者啊
2026-04-17 11:50:45
定了!4月起全國(guó)農(nóng)村統(tǒng)一執(zhí)行:子女再有錢(qián),這2類(lèi)人也能單獨(dú)領(lǐng)

定了!4月起全國(guó)農(nóng)村統(tǒng)一執(zhí)行:子女再有錢(qián),這2類(lèi)人也能單獨(dú)領(lǐng)

三農(nóng)雷哥
2026-04-14 13:50:39
張琳梵現(xiàn)狀:全家落戶(hù)上海,退役后準(zhǔn)備當(dāng)教練,兩個(gè)兒子都愛(ài)踢球

張琳梵現(xiàn)狀:全家落戶(hù)上海,退役后準(zhǔn)備當(dāng)教練,兩個(gè)兒子都愛(ài)踢球

北緯的咖啡豆
2026-04-16 19:40:25
你有知道哪些炸裂的秘密?網(wǎng)友:我有個(gè)秘密說(shuō)出來(lái)肯定大家要笑死

你有知道哪些炸裂的秘密?網(wǎng)友:我有個(gè)秘密說(shuō)出來(lái)肯定大家要笑死

帶你感受人間冷暖
2026-01-29 00:10:05
土以要開(kāi)打?埃爾多安威脅攻打以色列后,不到1天,卡茨強(qiáng)勢(shì)出招

土以要開(kāi)打?埃爾多安威脅攻打以色列后,不到1天,卡茨強(qiáng)勢(shì)出招

泠泠說(shuō)史
2026-04-14 19:41:44
向太自曝拆散向佐多段戀情:豪門(mén)不是童話,是另一場(chǎng)博弈

向太自曝拆散向佐多段戀情:豪門(mén)不是童話,是另一場(chǎng)博弈

宛沐
2026-04-17 09:30:13
拉胯!西甲3隊(duì)歐戰(zhàn)全輸+丟10球 積分將被德甲反超:歐冠或失5名額

拉胯!西甲3隊(duì)歐戰(zhàn)全輸+丟10球 積分將被德甲反超:歐冠或失5名額

我愛(ài)英超
2026-04-17 07:26:36
一個(gè)女人最珍貴的3個(gè)部位,留給真正懂她的男人!

一個(gè)女人最珍貴的3個(gè)部位,留給真正懂她的男人!

風(fēng)起見(jiàn)你
2026-04-17 01:21:18
睡遍好萊塢的種馬影帝:性欲成癮每天與情人交歡,私生子多達(dá)25人

睡遍好萊塢的種馬影帝:性欲成癮每天與情人交歡,私生子多達(dá)25人

錢(qián)小刀娛樂(lè)
2026-04-15 21:30:57
2026-04-17 14:28:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專(zhuān)注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
3306文章數(shù) 170關(guān)注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

特朗普強(qiáng)推后被迫對(duì)黎巴嫩?;?以色列被指成"犧牲品"

頭條要聞

特朗普強(qiáng)推后被迫對(duì)黎巴嫩?;?以色列被指成"犧牲品"

體育要聞

贏下快船,這場(chǎng)很庫(kù)里,很格林,很科爾

娛樂(lè)要聞

劉德華摯友潘宏彬離世 曾一起租房住

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰(shuí)的生意?

汽車(chē)要聞

又快又穩(wěn)的開(kāi)掛動(dòng)力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

本地
數(shù)碼
家居
親子
公開(kāi)課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

數(shù)碼要聞

佳翼推出M.2平裝版ArcherX PCIe擴(kuò)展卡,利用顯卡陰影下插槽

家居要聞

法式線條 時(shí)光靜淌

親子要聞

美國(guó)婆婆發(fā)消息,杰森的叔叔去世了,我聽(tīng)后很惋惜,對(duì)他也是解脫

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版