国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

港中大與字節(jié)跳動:AI視頻實現(xiàn)聲音動作與產(chǎn)品識別多模態(tài)協(xié)同

0
分享至


這項由香港中文大學(xué)、字節(jié)跳動、莫納什大學(xué)和香港大學(xué)聯(lián)合完成的研究,以預(yù)印本形式發(fā)布于2026年4月,論文編號為arXiv:2604.11804v1。感興趣的讀者可以通過這一編號在arXiv平臺上查閱完整論文。

假設(shè)你正在為一款新上市的護膚品拍攝一條推廣視頻。你需要一個真實可信的人物形象出鏡,手里握著那瓶護膚品,用符合產(chǎn)品調(diào)性的語氣介紹它,身體的動作還要自然流暢,嘴唇的開合要精確地跟上旁白的每一個音節(jié)。這四件事——人物長什么樣、產(chǎn)品長什么樣、說什么聲音、做什么動作——缺一不可,而且必須天衣無縫地融合在同一段視頻里。

這正是當(dāng)今視頻生成領(lǐng)域最棘手的挑戰(zhàn)之一。現(xiàn)有的AI視頻工具大多只擅長其中一兩件事:有些能讓人物「看起來像那個人」,有些能讓嘴唇跟上音頻節(jié)奏,有些能讓身體按照指定姿勢運動,但幾乎沒有任何一個工具能同時把這四件事都做好。

研究團隊把這類需求歸納為一個新的任務(wù)類型,稱之為「人物與物體交互視頻生成」,英文縮寫是HOIVG。為了攻克這個難題,他們提出了一個名為OmniShow的系統(tǒng),這是目前第一個能夠同時接受文字描述、人物與物品參考圖片、語音音頻、以及姿態(tài)動作序列這四類輸入,并將它們?nèi)诤仙筛哔|(zhì)量視頻的端到端框架。

研究團隊面對的不僅是技術(shù)難題,還有三重現(xiàn)實困境:如何在讓AI受到更多控制的同時不讓生成質(zhì)量下降、如何在訓(xùn)練數(shù)據(jù)極度匱乏的情況下讓模型學(xué)會處理四種模態(tài)的信息、以及如何建立一套公平可靠的評測標(biāo)準來衡量這類任務(wù)的表現(xiàn)。OmniShow針對這三個困境分別提出了創(chuàng)新性的解決方案,并通過大量實驗驗證了其有效性。

一、為什么現(xiàn)有工具都「差那么一口氣」

回到剛才那個護膚品視頻的場景。假設(shè)你用某個現(xiàn)有工具生成了視頻,你可能會遇到這樣的結(jié)果:人物臉是對的,但產(chǎn)品被貼在了身上一個奇怪的位置,大小也不對勁,像是被粗暴地PS上去的;或者嘴唇確實在動,但身體完全僵在那里,像一個被施了定身術(shù)的蠟像;又或者動作很流暢,但產(chǎn)品換了個顏色或形狀,完全認不出來了。

研究團隊系統(tǒng)梳理了現(xiàn)有方法的局限性。專注于「參考圖像到視頻」的工具,比如Phantom和SkyReels,能夠較好地保留人物外觀,但它們對音頻一無所知,生成的視頻是徹底「沉默」的,嘴唇不會隨聲音變化。與此相對,那些專門做「音頻驅(qū)動視頻」的系統(tǒng),比如Hallo3和OmniAvatar,雖然能讓嘴唇跟上聲音,但它們通常只接受一張初始幀圖片作為參考,無法同時處理人物圖片和產(chǎn)品圖片兩個參考對象。

還有一些工作嘗試把音頻和參考圖像結(jié)合起來,比如HuMo和HunyuanCustom,但這類方法忽視了姿態(tài)控制,而姿態(tài)對于展示人物如何拿著產(chǎn)品、如何做出特定手勢至關(guān)重要——這些細節(jié)是純文字描述根本說不清楚的。另外,AnchorCrafter、DreamActor-H1和HunyuanVideo-HOMA等針對人物與物體交互場景的專用方法雖然更貼近實際需求,但它們要求額外提供物體遮罩、軌跡點或身體網(wǎng)格模板等苛刻的輸入條件,使用門檻很高,而且同樣不支持音頻驅(qū)動。

換句話說,整個領(lǐng)域就像一支樂隊,每個樂手只練好了自己的那一段,但沒有人能把整首曲子完整地演奏下來。OmniShow的目標(biāo),正是成為那個能協(xié)調(diào)所有樂手、把完整樂曲演奏出來的指揮。

二、統(tǒng)一通道:讓四路信號不打架地進入同一扇門

OmniShow構(gòu)建在一個名為Waver 1.0的基礎(chǔ)模型之上,這是字節(jié)跳動開發(fā)的一個擁有120億參數(shù)的視頻生成大模型,采用了一種叫做「多模態(tài)擴散變換器」的架構(gòu)??梢园堰@個基礎(chǔ)模型理解為一臺精密的視頻生成機器,它已經(jīng)經(jīng)過大量訓(xùn)練,具備了從文字或圖片出發(fā)生成流暢視頻的能力。OmniShow要做的,是在不打壞這臺機器原有精密結(jié)構(gòu)的前提下,給它安裝上三套新的「感知器官」,讓它同時能聽音頻、識姿態(tài)、認參考圖像。

處理參考圖像和姿態(tài)信號的方案,研究團隊稱之為「統(tǒng)一通道式條件注入」。這個名字聽起來很拗口,但背后的思路其實相當(dāng)優(yōu)雅。

Waver 1.0原本就有一個設(shè)計:為了支持「圖像生成視頻」任務(wù),它會在視頻的時間維度上預(yù)留一些槽位,用來放置輸入圖像的編碼信息。研究團隊發(fā)現(xiàn),與其引入全新的模塊來處理參考圖像和姿態(tài),不如沿用這套已有的槽位機制,只是把它擴展一下。具體來說,他們在原來的視頻序列前面額外附加了若干個「偽幀」,也就是專門用來承載參考圖像信息的虛擬幀。參考圖像經(jīng)過VAE編碼器壓縮成特征向量后,就填充到這些偽幀對應(yīng)的槽位里。與此同時,姿態(tài)骨架圖被渲染成RGB格式的視頻,同樣經(jīng)過VAE編碼后,通過通道拼接的方式和原始視頻特征合并在一起。

這樣一來,兩路視覺信息——參考圖像和姿態(tài)——都通過同一套通道拼接的機制進入了模型,模型不需要為此學(xué)習(xí)全新的交互方式,它只需要在熟悉的框架下稍加適應(yīng)。這就像一個已經(jīng)熟悉接受信件的郵筒,不需要拆掉重建,只需要稍微擴大一下投信口,就能同時接收兩種規(guī)格的信封。

更進一步,研究團隊還給這些偽幀加上了一個「重建損失」的訓(xùn)練目標(biāo)。簡單來說,模型在訓(xùn)練時不僅要學(xué)會生成視頻,還要學(xué)會從那些偽幀里重建出參考圖像本身。這相當(dāng)于給模型施加了一個額外的壓力:你必須仔細記住參考圖像里的每一個細節(jié),因為待會兒要考你。有了這個機制,模型在生成視頻時對參考人物和物品外觀的保真度大幅提升。

實驗結(jié)果印證了這個設(shè)計的優(yōu)越性。研究團隊與另一種叫做「令牌拼接」的主流方法做了對比,后者會把參考圖像的信息轉(zhuǎn)化為獨立的特征令牌插入模型的注意力序列中。結(jié)果顯示,在人臉相似度、物體一致性和視頻美觀度等多個指標(biāo)上,OmniShow的通道注入方法都取得了更好的成績。研究團隊認為,這背后的原因是通道注入保留了模型原有的輸入結(jié)構(gòu),避免了引入混合令牌所帶來的額外學(xué)習(xí)負擔(dān)。

三、門控局部注意力:讓聲音和畫面「對上口型」

視覺和聽覺的同步,是整個系統(tǒng)里最精妙也最難搞定的部分。一個人在說話時,嘴唇的形狀、下巴的幅度、頭部的微微抖動,都要精確地對應(yīng)到音頻流里的每一個音素。稍有偏差,人眼立刻能察覺到那種「配音奇怪」的不適感。

OmniShow為此專門設(shè)計了「門控局部上下文注意力」機制,分三個層次來解決這個問題。

第一個層次是音頻特征的豐富化。研究團隊使用了一個叫做Wav2Vec 2.0的預(yù)訓(xùn)練模型來提取音頻特征,這個模型能夠同時捕捉語音的語義內(nèi)容和節(jié)奏韻律信息。但僅僅提取當(dāng)前幀對應(yīng)時刻的音頻特征是不夠的,因為人在發(fā)一個音的時候,嘴形往往受到前后音的影響——比如你要發(fā)「哦」這個音,嘴唇在發(fā)聲之前就已經(jīng)開始撅起來了。為了捕捉這種前后文關(guān)系,研究團隊采用了一個大小為5的滑動窗口,把每個時刻前后各兩幀的音頻特征堆疊在一起,形成一個更豐富的上下文音頻表示。之后再用步長為4的采樣來對齊視頻的時間壓縮比例,最終得到一個密集的二維音頻特征序列。

第二個層次是精確的幀級對齊。提取出音頻特征之后,研究團隊用了一種叫「掩碼注意力」的機制來限制視頻幀和音頻特征之間的交互范圍。具體來說,每一幀視頻的特征,只被允許關(guān)注它所對應(yīng)那個時間窗口內(nèi)的5個音頻特征,而不能去關(guān)注其他幀對應(yīng)的音頻。這就像給每幀視頻戴上了一副耳罩,讓它只能聽到屬于自己那一刻的聲音,而不會被其他時刻的聲音所干擾。這種精確的對應(yīng)關(guān)系,是實現(xiàn)清晰口型同步的關(guān)鍵。同時,為了適配前面新增的偽幀,研究團隊還對音頻特征做了補零處理,確保偽幀位置不會意外地和某段音頻產(chǎn)生錯誤的對應(yīng)關(guān)系。

第三個層次是自適應(yīng)門控。這是一個非常巧妙的訓(xùn)練穩(wěn)定性設(shè)計。當(dāng)一個新的模塊(音頻注意力層)被隨機初始化并插入一個已經(jīng)訓(xùn)練好的大模型時,初期這個新模塊的輸出是噪聲,直接加入到模型的特征流里會嚴重干擾原有的生成能力,導(dǎo)致訓(xùn)練崩潰或者花很長時間才能恢復(fù)穩(wěn)定。為了解決這個問題,研究團隊在音頻注意力的輸出上乘以了一個可學(xué)習(xí)的門控向量,這個向量的初始值被設(shè)置為接近零的極小數(shù)。這樣一來,在訓(xùn)練初期,音頻模塊的輸出幾乎被完全壓制,模型仍然按照原來的方式運作;隨著訓(xùn)練進行,門控向量的數(shù)值會逐漸增大,音頻信息的影響也逐漸滲透進來,整個過程平滑自然,不會造成沖擊。

研究團隊還通過觀察這個門控向量的數(shù)值變化,得到了一個意外收獲。他們發(fā)現(xiàn),在模型的「雙流注意力塊」區(qū)域,門控向量的數(shù)值明顯高于「單流注意力塊」區(qū)域,而且前者會隨訓(xùn)練步數(shù)持續(xù)增長,后者則相對低平。這說明音頻信息主要在雙流注意力塊中發(fā)揮作用。于是他們做出了一個精簡的決策:只在雙流注意力塊中插入音頻注意力層,而跳過單流注意力塊。這個決策使得整個模型因為音頻模塊而增加的參數(shù)量僅為約3億,整體模型規(guī)模從120億增加到約123億,增幅僅約2.5%。相比之下,HuMo等同類方法引入音頻能力后參數(shù)量增加了約21.4%,效率差距相當(dāng)顯著。

四、先分后合的訓(xùn)練策略:用「零花錢」拼出「大蛋糕」

數(shù)據(jù)稀缺是這個研究面臨的最棘手問題之一。要訓(xùn)練一個能處理四種模態(tài)輸入的模型,理論上需要大量同時具備高質(zhì)量文字描述、人物參考圖、物品參考圖、配套音頻和姿態(tài)序列的視頻數(shù)據(jù)。然而這樣的「五合一」數(shù)據(jù)在現(xiàn)實中極難找到——任何一個條件沒達標(biāo),這條視頻就要被丟棄。

面對這個困境,研究團隊沒有選擇強行搜集完整數(shù)據(jù),而是設(shè)計了一套「分開訓(xùn)練、再行合并」的策略,正式名稱叫做「解耦-再聯(lián)合訓(xùn)練」。這套策略的思路可以用一個日常場景來理解:假設(shè)你想學(xué)會同時用左手彈鋼琴的旋律聲部、右手彈和聲聲部,還要用腳踩踏板。如果你一開始就試圖同時練這三件事,可能每件都學(xué)得一塌糊涂。更聰明的方法是先專心練好右手旋律,再專心練好左手和聲,然后再把兩手合在一起練,最后才加入踏板的練習(xí)。

OmniShow的訓(xùn)練過程正是遵循這個邏輯。在「解耦訓(xùn)練階段」,研究團隊分別訓(xùn)練了一個專注于參考圖像到視頻任務(wù)的R2V模型,以及一個專注于音頻驅(qū)動視頻任務(wù)的A2V模型。前者利用專門的參考圖像視頻數(shù)據(jù)集訓(xùn)練,不包含任何音頻模塊;后者利用音頻視頻數(shù)據(jù)集訓(xùn)練,按照常見范式將第一幀圖像作為附加條件。兩個模型在各自的專屬數(shù)據(jù)上進行了充分的專項訓(xùn)練,每個模型都掌握了一套獨立的能力。

接下來是「聯(lián)合訓(xùn)練階段」里最有趣的一步:模型融合。研究團隊將兩個專項模型的權(quán)重進行加權(quán)平均,具體做法是繼承A2V模型中的音頻模塊(這是新增的結(jié)構(gòu),R2V模型里沒有),然后對兩個模型共有的其余參數(shù)按照0.6(A2V)和0.4(R2V)的比例進行線性插值。權(quán)重比例的選擇依據(jù)一個重要觀察:音頻同步依賴于精細的時序?qū)R,對權(quán)重擾動極為敏感,因此更多地保留A2V模型的權(quán)重;而視覺外觀保真度依賴的是全局特征,對權(quán)重擾動的容忍度更高,因此R2V模型的權(quán)重可以占據(jù)較小比例。

融合之后的模型展現(xiàn)出了一個令研究團隊驚喜的現(xiàn)象:即便還沒有經(jīng)過任何專門的「音頻加參考圖像」聯(lián)合訓(xùn)練,這個模型就已經(jīng)能夠自發(fā)地生成既尊重參考圖像、又跟隨音頻節(jié)奏的視頻。研究團隊把這個現(xiàn)象稱為「涌現(xiàn)能力」——就像兩個分別學(xué)會了游泳和騎自行車的人融合在一起,竟然無師自通地學(xué)會了同時游泳和騎車。這個發(fā)現(xiàn)本身就是一個頗具啟發(fā)意義的研究結(jié)論:通過權(quán)重融合,模型的可控能力可以自發(fā)涌現(xiàn),而不必依賴專門的聯(lián)合訓(xùn)練數(shù)據(jù)。

隨后,這個融合后的模型先在完整的參考圖像加音頻數(shù)據(jù)集上進行聯(lián)合微調(diào),進一步提升自然度和美學(xué)質(zhì)量;最后才在一個高質(zhì)量的包含姿態(tài)信息的子集上引入姿態(tài)條件,完成最終的全模態(tài)統(tǒng)一。姿態(tài)被放在最后引入,是為了防止模型過度依賴這個強監(jiān)督信號——如果過早引入,模型可能會「偷懶」,完全靠著姿態(tài)信號來決定所有動作,而不去充分學(xué)習(xí)參考圖像和音頻所提供的信息。

五、數(shù)據(jù)工廠:從零開始建造訓(xùn)練原料

巧婦難為無米之炊。為了支撐上述訓(xùn)練策略,研究團隊構(gòu)建了一套大規(guī)模的異構(gòu)數(shù)據(jù)收集流水線,最終積累了約百萬量級的視頻片段,累計時長約3500小時。

整個流水線分三個大階段運轉(zhuǎn)。第一階段是鏡頭切割:從一個龐大的內(nèi)部人物視頻庫出發(fā),使用場景切割算法把長視頻拆解成連續(xù)的單一鏡頭片段,確保每個片段內(nèi)容連貫、沒有跳切。第二階段是多維度過濾:對每個片段從視頻分辨率、畫面美觀度、運動強度、以及水印文字的密集程度等多個維度進行自動評分,去掉低質(zhì)量樣本。

第三階段是針對不同子任務(wù)的專項處理。對于參考圖像視頻數(shù)據(jù),研究團隊一方面從現(xiàn)有視頻中提取參考幀,做超分辨率處理,并用算法評估參考圖和視頻內(nèi)容的一致性;另一方面還建立了一套合成數(shù)據(jù)流水線,利用內(nèi)部的物品圖像數(shù)據(jù)庫,通過圖像編輯將人物和產(chǎn)品合成在一起,再用內(nèi)部的圖像轉(zhuǎn)視頻模型生成對應(yīng)視頻,并經(jīng)過人工質(zhì)檢篩掉有明顯AI痕跡(比如手指變形、細節(jié)丟失)的樣本。對于音頻視頻數(shù)據(jù),核心工作是做音視頻同步評估,專門篩選出語音和視覺動作高度吻合的片段。對于同時包含參考圖像和音頻的高質(zhì)量數(shù)據(jù),則疊加上述所有標(biāo)準,并加入人工專家篩選環(huán)節(jié),對每條視頻進行獨立審查。最后,在這部分高質(zhì)量數(shù)據(jù)的基礎(chǔ)上,使用DWPose工具逐幀提取人體姿態(tài)骨架,形成帶姿態(tài)標(biāo)注的最終微調(diào)數(shù)據(jù)集。

六、評測標(biāo)準:填補領(lǐng)域空白

在提出解決方案的同時,研究團隊還意識到,這個領(lǐng)域缺乏一個專門的評測基準?,F(xiàn)有的各類評測集要么只關(guān)注文字和姿態(tài)、要么只關(guān)注文字和圖像,沒有一個能夠同時評估文字、人物圖像、物品圖像、音頻、姿態(tài)這五類輸入?yún)f(xié)同效果的基準。

為此,研究團隊建立了HOIVG-Bench,一個包含135個精心構(gòu)建樣本的評測基準。每個樣本都配備了詳細的文字描述、一張人物參考圖、一張物品參考圖、一段語義匹配的語音音頻,以及一段連貫的姿態(tài)序列。

數(shù)據(jù)構(gòu)建過程嚴格遵循了幾個原則。視頻素材從內(nèi)部視頻庫中精選,要求時長超過4秒、包含清晰的人物物品交互、并且在人物屬性(性別、年齡、族裔)和物品類別(日用品、工具等)上盡量多樣。為了模擬真實的生成場景,物品參考圖不是直接從視頻中截取,而是用Google的Nano Banana模型對原始物品進行紋理和顏色的修改,并添加更多細節(jié),形成與原物有所區(qū)別但同類別的參考圖。人物參考圖則是基于視頻截圖通過Nano Banana生成的風(fēng)格相似但外貌不同的形象,這樣既保護了原始人物的隱私,又保持了對模型泛化能力的考驗。音頻則通過兩階段合成:先用GPT-4o生成一段介紹目標(biāo)物品的口播文字,再由GPT-4o分析人物參考圖中的性別和年齡,最后用ElevenLabs合成匹配音色的語音。所有樣本還經(jīng)過了人工審核,過濾掉有明顯AI感的圖像,確?;鶞寿N近真實數(shù)據(jù)分布。

評測維度涵蓋五個方面:文字語義對齊(用VideoReward預(yù)測文字對齊分數(shù))、參考一致性(用人臉相似度FaceSim和綜合一致性評分NexusScore衡量)、音視頻同步(用Sync-C和Sync-D兩個指標(biāo),前者越高越好,后者越低越好)、姿態(tài)精度(用平均關(guān)鍵點距離AKD和正確關(guān)鍵點比例PCK衡量)、視頻質(zhì)量(用VBench的美學(xué)和畫質(zhì)評分,以及VideoReward的整體視覺質(zhì)量和動作質(zhì)量評分)。所有測試統(tǒng)一在5秒時長、720p分辨率的豎屏視頻上進行,以確保和只支持短片生成的基準方法做公平對比。

七、實驗結(jié)果:OmniShow的成績單

研究團隊將OmniShow與六個主流方法進行了對比,涵蓋了不同規(guī)模的模型變體。在僅使用文字和參考圖像生成視頻的場景下,OmniShow在人臉相似度上與專門做這件事的Phantom-14B相當(dāng),而在物品一致性(NexusScore)和視頻質(zhì)量指標(biāo)上則表現(xiàn)更優(yōu),在文字對齊和動作質(zhì)量兩項上也達到了參賽方法中的最高分。

在同時處理參考圖像和音頻的場景下,OmniShow在物品一致性、音視頻同步的Sync-C、視頻美觀度、畫質(zhì)、視覺質(zhì)量和動作質(zhì)量這六項指標(biāo)上均領(lǐng)先對手,只在文字對齊一項上略低于HuMo-17B,但HuMo-17B的參數(shù)量是OmniShow的約1.38倍。

在使用參考圖像和姿態(tài)序列生成視頻的場景下,OmniShow在物品一致性、正確關(guān)鍵點比例和畫質(zhì)三項上領(lǐng)先,但在人臉相似度上低于VACE,這一點研究團隊解釋為:在嚴格的姿態(tài)約束下,視角和面部形態(tài)會發(fā)生較大變化,導(dǎo)致基于人臉檢測的相似度評分天然偏低,并不能準確反映實際生成質(zhì)量。

在RAP2V這個最完整的四路輸入場景下,目前沒有其他方法支持這種設(shè)置,因此研究團隊構(gòu)造了一個級聯(lián)基準方法(先用VACE生成帶姿態(tài)的視頻,再用LatentSync做口型后處理)來做對比。結(jié)果顯示,OmniShow在所有11項指標(biāo)上全面超越了這個級聯(lián)方法,特別是在視頻質(zhì)量(VQ為11.06對10.05)和動作質(zhì)量(MQ為5.88對3.91)上有較大幅度的提升。研究團隊指出,級聯(lián)方法的口型處理模塊在遭遇手部遮擋嘴巴的情況時特別容易產(chǎn)生模糊和偽影,而端到端的OmniShow因為在生成階段就已經(jīng)整合了音頻信息,能夠更自然地處理這類復(fù)雜遮擋情況。

在用戶偏好研究中,研究團隊分別組織了30名評測者對RA2V結(jié)果做選邊站評測,以及33名評測者對RP2V結(jié)果做選邊站評測,每次評測20個隨機樣本。在RA2V設(shè)置下,超過51%的評測者認為OmniShow的視頻質(zhì)量優(yōu)于HuMo-17B,約42%認為參考一致性更好,約42%認為音視頻同步更好。在RP2V設(shè)置下,超過52%的評測者認為OmniShow的視頻質(zhì)量更好,超過56%認為姿態(tài)精度更好。這表明OmniShow的優(yōu)勢在人類感知層面比單純的數(shù)值指標(biāo)更為明顯,研究團隊認為這主要來自于視頻在時間維度上更流暢的動態(tài)表現(xiàn)。

八、深挖一步:消融實驗告訴我們什么

研究團隊還做了一系列「拆零件」實驗,逐個去掉某個設(shè)計,觀察性能下降程度,從而反向驗證每個設(shè)計的必要性。

去掉參考重建損失之后,人臉相似度從0.707下降到0.678,物品一致性評分也有所下降,證明這個額外的重建約束對保真度有實質(zhì)貢獻。把通道注入方式換成令牌拼接之后,人臉相似度進一步下降到0.601,物品一致性也更低,印證了通道注入對于任務(wù)統(tǒng)一模型的優(yōu)越性。

在音頻注意力模塊的消融實驗中,去掉音頻上下文打包(即滑動窗口機制)之后,Sync-D指標(biāo)變差,說明上下文信息對于捕捉時序連貫性至關(guān)重要。去掉注意力圖的幀級約束之后,Sync-C從9.023驟降到2.201,Sync-D從7.419惡化到13.01,這是整個消融表格里最戲劇性的下降,直觀地說明幀級精確對齊是音視頻同步的核心機制,缺了它整個音頻注入幾乎失效。去掉自適應(yīng)門控之后,視頻美觀度指標(biāo)下降,驗證了門控機制對訓(xùn)練穩(wěn)定性的保護作用。

在訓(xùn)練策略的消融實驗中,直接在完整的參考加音頻數(shù)據(jù)上訓(xùn)練(不做分階段)的模型,音視頻同步表現(xiàn)最差(Sync-D高達13.11)。先用R2V數(shù)據(jù)訓(xùn)練再切換到聯(lián)合數(shù)據(jù)的方案,音視頻同步也沒有改善。先用A2V數(shù)據(jù)訓(xùn)練再切換的方案則參考一致性最弱。只有研究團隊提出的先分別訓(xùn)練、再融合、再聯(lián)合微調(diào)的完整策略,才在參考一致性和音視頻同步之間取得最佳平衡。

研究團隊還專門測試了只經(jīng)過音頻視頻訓(xùn)練階段的OmniShow-A2V模型,在一個叫做EMTD的專門音頻驅(qū)動視頻基準上,這個模型的Sync-C得分達到6.49,超過了MultiTalk的6.34,成為當(dāng)前最優(yōu)結(jié)果之一,驗證了門控局部上下文注意力機制在單獨的音頻視頻任務(wù)上也有競爭力。

此外,研究團隊還驗證了OmniShow在更寬泛應(yīng)用場景下的靈活性。給定單張人物圖像和音頻,OmniShow可以作為音頻驅(qū)動數(shù)字人的工具,生成表情自然、口型同步的動態(tài)形象。通過在工作流中插入姿態(tài)提取步驟,可以從現(xiàn)有視頻中提取人物的動作序列,再結(jié)合一個新的物品參考圖,生成一段人物手持新物品的視頻,實現(xiàn)「物品替換」效果。通過分別從不同來源提取姿態(tài)、物品參考圖和人物參考圖,還可以合成出一段全新的、人物和物品都來自不同原始素材的融合視頻,實現(xiàn)「視頻重混」的創(chuàng)作效果。

說到底,OmniShow解決的是一個在技術(shù)層面長期懸而未決、在實際應(yīng)用層面又有真實強烈需求的問題。它的核心貢獻在于,證明了可以用極小的架構(gòu)改動(僅增加約2.5%的參數(shù))就撬動對四種模態(tài)輸入的統(tǒng)一處理能力,同時證明了通過權(quán)重融合讓多模態(tài)可控性自發(fā)涌現(xiàn)的可能性。這兩個發(fā)現(xiàn),對于整個視頻生成領(lǐng)域的后續(xù)研究都有一定的方法論啟示價值。

當(dāng)然,這項研究也坦承了一些局限性。當(dāng)前的評測僅覆蓋5秒時長的片段,而模型實際上能生成長達10秒的視頻,更長時間的全面評測尚待完成。評測基準中的人物參考圖均為AI生成,與完全真實的照片相比存在一定的域偏移,這可能使評測結(jié)果與真實部署場景之間存在些許差距。在極端的大幅度運動或多模態(tài)信號相互沖突的情況下,生成視頻有時仍會出現(xiàn)模糊或偽影,這是未來需要進一步攻克的方向。研究團隊還展望了幾個值得探索的后續(xù)方向,包括引入基于人類偏好反饋的強化學(xué)習(xí)來進一步對齊真實場景、擴大訓(xùn)練數(shù)據(jù)和模型規(guī)模、支持更豐富的輸入形式(如攝像機運動軌跡或參考視頻片段),以及向分鐘級長視頻合成和實時交互式生成邁進。

對這項研究感興趣的讀者,可以通過arXiv編號2604.11804v1找到完整論文,也可以訪問論文中提到的項目主頁查看視頻演示。

Q&A

Q1:OmniShow和現(xiàn)有的AI視頻生成工具有什么本質(zhì)區(qū)別?

A:現(xiàn)有工具通常只能處理一兩種輸入條件,比如只能接受文字描述,或者只能根據(jù)一張參考圖生成視頻,無法同時處理人物參考圖、物品參考圖、語音音頻和姿態(tài)動作這四類輸入。OmniShow是目前第一個能夠同時接受這四類輸入并生成高質(zhì)量視頻的端到端框架,生成的視頻中人物和物品的外觀高度保真,嘴唇動作與音頻同步,身體動作符合指定姿態(tài)。

Q2:門控局部上下文注意力機制是如何實現(xiàn)嘴唇和聲音同步的?

A:這個機制分三步工作。首先用滑動窗口把每幀對應(yīng)時刻前后的音頻特征聚合在一起,讓模型理解發(fā)音的前后文關(guān)系。然后通過掩碼約束,強制每幀視頻只能關(guān)注自己時間段內(nèi)的音頻,避免串?dāng)_。最后用初始值接近零的可學(xué)習(xí)門控向量控制音頻信號的影響力度,確保訓(xùn)練初期模型不被隨機初始化的音頻模塊干擾,隨著訓(xùn)練推進才逐漸開放音頻的影響。

Q3:HOIVG-Bench評測基準里的人物和物品圖片為什么要用AI生成而不直接用真實照片?

A:使用AI生成圖像主要出于兩方面考慮。一是隱私和合規(guī)保護,直接使用真實人物照片涉及肖像權(quán)和個人信息保護問題,公開發(fā)布會面臨法律風(fēng)險。二是物品參考圖需要模擬真實使用場景,即參考圖中的物品與視頻中的物品有所不同,不能直接從視頻幀中截取,需要通過AI修改紋理和細節(jié)來構(gòu)造差異化的參考樣本。研究團隊還專門進行了人工審核,過濾掉有明顯AI感的圖像,確保基準貼近真實數(shù)據(jù)分布。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
綜合ROI時代,這些高速增長的商家做對了什么?

綜合ROI時代,這些高速增長的商家做對了什么?

刀法研究所
2026-04-16 15:00:13
G2湖人101-94戰(zhàn)勝火箭 球員評價:4人優(yōu)秀,3人及格,2人低迷

G2湖人101-94戰(zhàn)勝火箭 球員評價:4人優(yōu)秀,3人及格,2人低迷

籃球資訊達人
2026-04-22 13:27:16
注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

夜深愛雜談
2026-04-21 07:45:20
iPhone Fold 國內(nèi)售價1.4萬元?散熱方案曝光,這次信息量有點大

iPhone Fold 國內(nèi)售價1.4萬元?散熱方案曝光,這次信息量有點大

數(shù)碼Antenna
2026-04-22 11:47:48
建國后外逃級別最高的貪官!至今未落網(wǎng),23年來逃跑方式仍是謎

建國后外逃級別最高的貪官!至今未落網(wǎng),23年來逃跑方式仍是謎

老范談史
2026-04-22 16:45:31
段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

米果說識
2026-04-22 14:41:50
到賬230億,賈躍亭起飛!

到賬230億,賈躍亭起飛!

鳴金網(wǎng)
2026-04-21 19:58:22
華為乾崑的3次“死磕”舉動,成了車圈最難抄的作業(yè)

華為乾崑的3次“死磕”舉動,成了車圈最難抄的作業(yè)

金錯刀
2026-04-21 14:22:17
炸裂!網(wǎng)傳寧波某豪宅業(yè)主群夫妻大戰(zhàn),虎狼之詞流出,444人圍觀

炸裂!網(wǎng)傳寧波某豪宅業(yè)主群夫妻大戰(zhàn),虎狼之詞流出,444人圍觀

火山詩話
2026-04-22 17:56:13
拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

燕梳樓頻道
2026-04-20 21:12:04
你寫的Skill,正在拖慢模型?策略式Gene才是正確答案

你寫的Skill,正在拖慢模型?策略式Gene才是正確答案

機器之心Pro
2026-04-21 18:54:52
5月1日起正式嚴打!8類灰色行為直接入刑,所有人務(wù)必警惕

5月1日起正式嚴打!8類灰色行為直接入刑,所有人務(wù)必警惕

另子維愛讀史
2026-04-22 07:39:03
曾高喊打敗美帝:如今卻全家跑去美國,84歲活成這樣,引人熱議!

曾高喊打敗美帝:如今卻全家跑去美國,84歲活成這樣,引人熱議!

小莜讀史
2026-04-20 22:58:35
演員王大陸一審被判刑

演員王大陸一審被判刑

極目新聞
2026-04-22 12:35:08
情侶約會求“刺激”,雙雙被抓,審訊時互相甩鍋

情侶約會求“刺激”,雙雙被抓,審訊時互相甩鍋

深圳晚報
2026-04-22 10:11:17
讓華北的地下水上一次熱搜吧!

讓華北的地下水上一次熱搜吧!

細雨中的呼喊
2026-04-22 13:29:31
2013年,江青拍攝的照片以34萬元的高價拍出,毛澤東曾稱贊并題詞

2013年,江青拍攝的照片以34萬元的高價拍出,毛澤東曾稱贊并題詞

南書房
2026-04-21 07:25:06
俄羅斯為什么刪除20年法院數(shù)據(jù):審判記錄一夜清空

俄羅斯為什么刪除20年法院數(shù)據(jù):審判記錄一夜清空

律法刑道
2026-04-22 08:53:34
把 DeepSeek、Kimi、智譜和 MiniMax 拉進群聊

把 DeepSeek、Kimi、智譜和 MiniMax 拉進群聊

愛范兒
2026-04-21 22:36:25
出海更難了!俄朝圖們江公路大橋合攏,預(yù)計今年6月正式通車

出海更難了!俄朝圖們江公路大橋合攏,預(yù)計今年6月正式通車

全城探秘
2026-04-22 16:41:13
2026-04-22 19:39:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

體育要聞

網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

家居
本地
健康
公開課
軍事航空

家居要聞

極簡繪夢 克制和諧

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

干細胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普宣布延長停火 伊朗表態(tài)

無障礙瀏覽 進入關(guān)懷版