港中大與字節(jié)跳動：AI視頻實現(xiàn)聲音動作與產(chǎn)品識別多模態(tài)協(xié)同

2026-04-21 21:53:17　來源: 科技行者

天津舉報

分享至

這項由香港中文大學(xué)、字節(jié)跳動、莫納什大學(xué)和香港大學(xué)聯(lián)合完成的研究，以預(yù)印本形式發(fā)布于2026年4月，論文編號為arXiv:2604.11804v1。感興趣的讀者可以通過這一編號在arXiv平臺上查閱完整論文。

假設(shè)你正在為一款新上市的護膚品拍攝一條推廣視頻。你需要一個真實可信的人物形象出鏡，手里握著那瓶護膚品，用符合產(chǎn)品調(diào)性的語氣介紹它，身體的動作還要自然流暢，嘴唇的開合要精確地跟上旁白的每一個音節(jié)。這四件事——人物長什么樣、產(chǎn)品長什么樣、說什么聲音、做什么動作——缺一不可，而且必須天衣無縫地融合在同一段視頻里。

這正是當(dāng)今視頻生成領(lǐng)域最棘手的挑戰(zhàn)之一。現(xiàn)有的AI視頻工具大多只擅長其中一兩件事：有些能讓人物「看起來像那個人」，有些能讓嘴唇跟上音頻節(jié)奏，有些能讓身體按照指定姿勢運動，但幾乎沒有任何一個工具能同時把這四件事都做好。

研究團隊把這類需求歸納為一個新的任務(wù)類型，稱之為「人物與物體交互視頻生成」，英文縮寫是HOIVG。為了攻克這個難題，他們提出了一個名為OmniShow的系統(tǒng)，這是目前第一個能夠同時接受文字描述、人物與物品參考圖片、語音音頻、以及姿態(tài)動作序列這四類輸入，并將它們?nèi)诤仙筛哔|(zhì)量視頻的端到端框架。

研究團隊面對的不僅是技術(shù)難題，還有三重現(xiàn)實困境：如何在讓AI受到更多控制的同時不讓生成質(zhì)量下降、如何在訓(xùn)練數(shù)據(jù)極度匱乏的情況下讓模型學(xué)會處理四種模態(tài)的信息、以及如何建立一套公平可靠的評測標(biāo)準來衡量這類任務(wù)的表現(xiàn)。OmniShow針對這三個困境分別提出了創(chuàng)新性的解決方案，并通過大量實驗驗證了其有效性。

一、為什么現(xiàn)有工具都「差那么一口氣」

回到剛才那個護膚品視頻的場景。假設(shè)你用某個現(xiàn)有工具生成了視頻，你可能會遇到這樣的結(jié)果：人物臉是對的，但產(chǎn)品被貼在了身上一個奇怪的位置，大小也不對勁，像是被粗暴地PS上去的；或者嘴唇確實在動，但身體完全僵在那里，像一個被施了定身術(shù)的蠟像；又或者動作很流暢，但產(chǎn)品換了個顏色或形狀，完全認不出來了。

研究團隊系統(tǒng)梳理了現(xiàn)有方法的局限性。專注于「參考圖像到視頻」的工具，比如Phantom和SkyReels，能夠較好地保留人物外觀，但它們對音頻一無所知，生成的視頻是徹底「沉默」的，嘴唇不會隨聲音變化。與此相對，那些專門做「音頻驅(qū)動視頻」的系統(tǒng)，比如Hallo3和OmniAvatar，雖然能讓嘴唇跟上聲音，但它們通常只接受一張初始幀圖片作為參考，無法同時處理人物圖片和產(chǎn)品圖片兩個參考對象。

還有一些工作嘗試把音頻和參考圖像結(jié)合起來，比如HuMo和HunyuanCustom，但這類方法忽視了姿態(tài)控制，而姿態(tài)對于展示人物如何拿著產(chǎn)品、如何做出特定手勢至關(guān)重要——這些細節(jié)是純文字描述根本說不清楚的。另外，AnchorCrafter、DreamActor-H1和HunyuanVideo-HOMA等針對人物與物體交互場景的專用方法雖然更貼近實際需求，但它們要求額外提供物體遮罩、軌跡點或身體網(wǎng)格模板等苛刻的輸入條件，使用門檻很高，而且同樣不支持音頻驅(qū)動。

換句話說，整個領(lǐng)域就像一支樂隊，每個樂手只練好了自己的那一段，但沒有人能把整首曲子完整地演奏下來。OmniShow的目標(biāo)，正是成為那個能協(xié)調(diào)所有樂手、把完整樂曲演奏出來的指揮。

二、統(tǒng)一通道：讓四路信號不打架地進入同一扇門

OmniShow構(gòu)建在一個名為Waver 1.0的基礎(chǔ)模型之上，這是字節(jié)跳動開發(fā)的一個擁有120億參數(shù)的視頻生成大模型，采用了一種叫做「多模態(tài)擴散變換器」的架構(gòu)?？梢园堰@個基礎(chǔ)模型理解為一臺精密的視頻生成機器，它已經(jīng)經(jīng)過大量訓(xùn)練，具備了從文字或圖片出發(fā)生成流暢視頻的能力。OmniShow要做的，是在不打壞這臺機器原有精密結(jié)構(gòu)的前提下，給它安裝上三套新的「感知器官」，讓它同時能聽音頻、識姿態(tài)、認參考圖像。

處理參考圖像和姿態(tài)信號的方案，研究團隊稱之為「統(tǒng)一通道式條件注入」。這個名字聽起來很拗口，但背后的思路其實相當(dāng)優(yōu)雅。

Waver 1.0原本就有一個設(shè)計：為了支持「圖像生成視頻」任務(wù)，它會在視頻的時間維度上預(yù)留一些槽位，用來放置輸入圖像的編碼信息。研究團隊發(fā)現(xiàn)，與其引入全新的模塊來處理參考圖像和姿態(tài)，不如沿用這套已有的槽位機制，只是把它擴展一下。具體來說，他們在原來的視頻序列前面額外附加了若干個「偽幀」，也就是專門用來承載參考圖像信息的虛擬幀。參考圖像經(jīng)過VAE編碼器壓縮成特征向量后，就填充到這些偽幀對應(yīng)的槽位里。與此同時，姿態(tài)骨架圖被渲染成RGB格式的視頻，同樣經(jīng)過VAE編碼后，通過通道拼接的方式和原始視頻特征合并在一起。

這樣一來，兩路視覺信息——參考圖像和姿態(tài)——都通過同一套通道拼接的機制進入了模型，模型不需要為此學(xué)習(xí)全新的交互方式，它只需要在熟悉的框架下稍加適應(yīng)。這就像一個已經(jīng)熟悉接受信件的郵筒，不需要拆掉重建，只需要稍微擴大一下投信口，就能同時接收兩種規(guī)格的信封。

更進一步，研究團隊還給這些偽幀加上了一個「重建損失」的訓(xùn)練目標(biāo)。簡單來說，模型在訓(xùn)練時不僅要學(xué)會生成視頻，還要學(xué)會從那些偽幀里重建出參考圖像本身。這相當(dāng)于給模型施加了一個額外的壓力：你必須仔細記住參考圖像里的每一個細節(jié)，因為待會兒要考你。有了這個機制，模型在生成視頻時對參考人物和物品外觀的保真度大幅提升。

實驗結(jié)果印證了這個設(shè)計的優(yōu)越性。研究團隊與另一種叫做「令牌拼接」的主流方法做了對比，后者會把參考圖像的信息轉(zhuǎn)化為獨立的特征令牌插入模型的注意力序列中。結(jié)果顯示，在人臉相似度、物體一致性和視頻美觀度等多個指標(biāo)上，OmniShow的通道注入方法都取得了更好的成績。研究團隊認為，這背后的原因是通道注入保留了模型原有的輸入結(jié)構(gòu)，避免了引入混合令牌所帶來的額外學(xué)習(xí)負擔(dān)。

三、門控局部注意力：讓聲音和畫面「對上口型」

視覺和聽覺的同步，是整個系統(tǒng)里最精妙也最難搞定的部分。一個人在說話時，嘴唇的形狀、下巴的幅度、頭部的微微抖動，都要精確地對應(yīng)到音頻流里的每一個音素。稍有偏差，人眼立刻能察覺到那種「配音奇怪」的不適感。

OmniShow為此專門設(shè)計了「門控局部上下文注意力」機制，分三個層次來解決這個問題。

第一個層次是音頻特征的豐富化。研究團隊使用了一個叫做Wav2Vec 2.0的預(yù)訓(xùn)練模型來提取音頻特征，這個模型能夠同時捕捉語音的語義內(nèi)容和節(jié)奏韻律信息。但僅僅提取當(dāng)前幀對應(yīng)時刻的音頻特征是不夠的，因為人在發(fā)一個音的時候，嘴形往往受到前后音的影響——比如你要發(fā)「哦」這個音，嘴唇在發(fā)聲之前就已經(jīng)開始撅起來了。為了捕捉這種前后文關(guān)系，研究團隊采用了一個大小為5的滑動窗口，把每個時刻前后各兩幀的音頻特征堆疊在一起，形成一個更豐富的上下文音頻表示。之后再用步長為4的采樣來對齊視頻的時間壓縮比例，最終得到一個密集的二維音頻特征序列。

第二個層次是精確的幀級對齊。提取出音頻特征之后，研究團隊用了一種叫「掩碼注意力」的機制來限制視頻幀和音頻特征之間的交互范圍。具體來說，每一幀視頻的特征，只被允許關(guān)注它所對應(yīng)那個時間窗口內(nèi)的5個音頻特征，而不能去關(guān)注其他幀對應(yīng)的音頻。這就像給每幀視頻戴上了一副耳罩，讓它只能聽到屬于自己那一刻的聲音，而不會被其他時刻的聲音所干擾。這種精確的對應(yīng)關(guān)系，是實現(xiàn)清晰口型同步的關(guān)鍵。同時，為了適配前面新增的偽幀，研究團隊還對音頻特征做了補零處理，確保偽幀位置不會意外地和某段音頻產(chǎn)生錯誤的對應(yīng)關(guān)系。

第三個層次是自適應(yīng)門控。這是一個非常巧妙的訓(xùn)練穩(wěn)定性設(shè)計。當(dāng)一個新的模塊（音頻注意力層）被隨機初始化并插入一個已經(jīng)訓(xùn)練好的大模型時，初期這個新模塊的輸出是噪聲，直接加入到模型的特征流里會嚴重干擾原有的生成能力，導(dǎo)致訓(xùn)練崩潰或者花很長時間才能恢復(fù)穩(wěn)定。為了解決這個問題，研究團隊在音頻注意力的輸出上乘以了一個可學(xué)習(xí)的門控向量，這個向量的初始值被設(shè)置為接近零的極小數(shù)。這樣一來，在訓(xùn)練初期，音頻模塊的輸出幾乎被完全壓制，模型仍然按照原來的方式運作；隨著訓(xùn)練進行，門控向量的數(shù)值會逐漸增大，音頻信息的影響也逐漸滲透進來，整個過程平滑自然，不會造成沖擊。

研究團隊還通過觀察這個門控向量的數(shù)值變化，得到了一個意外收獲。他們發(fā)現(xiàn)，在模型的「雙流注意力塊」區(qū)域，門控向量的數(shù)值明顯高于「單流注意力塊」區(qū)域，而且前者會隨訓(xùn)練步數(shù)持續(xù)增長，后者則相對低平。這說明音頻信息主要在雙流注意力塊中發(fā)揮作用。于是他們做出了一個精簡的決策：只在雙流注意力塊中插入音頻注意力層，而跳過單流注意力塊。這個決策使得整個模型因為音頻模塊而增加的參數(shù)量僅為約3億，整體模型規(guī)模從120億增加到約123億，增幅僅約2.5%。相比之下，HuMo等同類方法引入音頻能力后參數(shù)量增加了約21.4%，效率差距相當(dāng)顯著。

四、先分后合的訓(xùn)練策略：用「零花錢」拼出「大蛋糕」

數(shù)據(jù)稀缺是這個研究面臨的最棘手問題之一。要訓(xùn)練一個能處理四種模態(tài)輸入的模型，理論上需要大量同時具備高質(zhì)量文字描述、人物參考圖、物品參考圖、配套音頻和姿態(tài)序列的視頻數(shù)據(jù)。然而這樣的「五合一」數(shù)據(jù)在現(xiàn)實中極難找到——任何一個條件沒達標(biāo)，這條視頻就要被丟棄。

面對這個困境，研究團隊沒有選擇強行搜集完整數(shù)據(jù)，而是設(shè)計了一套「分開訓(xùn)練、再行合并」的策略，正式名稱叫做「解耦-再聯(lián)合訓(xùn)練」。這套策略的思路可以用一個日常場景來理解：假設(shè)你想學(xué)會同時用左手彈鋼琴的旋律聲部、右手彈和聲聲部，還要用腳踩踏板。如果你一開始就試圖同時練這三件事，可能每件都學(xué)得一塌糊涂。更聰明的方法是先專心練好右手旋律，再專心練好左手和聲，然后再把兩手合在一起練，最后才加入踏板的練習(xí)。

OmniShow的訓(xùn)練過程正是遵循這個邏輯。在「解耦訓(xùn)練階段」，研究團隊分別訓(xùn)練了一個專注于參考圖像到視頻任務(wù)的R2V模型，以及一個專注于音頻驅(qū)動視頻任務(wù)的A2V模型。前者利用專門的參考圖像視頻數(shù)據(jù)集訓(xùn)練，不包含任何音頻模塊；后者利用音頻視頻數(shù)據(jù)集訓(xùn)練，按照常見范式將第一幀圖像作為附加條件。兩個模型在各自的專屬數(shù)據(jù)上進行了充分的專項訓(xùn)練，每個模型都掌握了一套獨立的能力。

接下來是「聯(lián)合訓(xùn)練階段」里最有趣的一步：模型融合。研究團隊將兩個專項模型的權(quán)重進行加權(quán)平均，具體做法是繼承A2V模型中的音頻模塊（這是新增的結(jié)構(gòu)，R2V模型里沒有），然后對兩個模型共有的其余參數(shù)按照0.6（A2V）和0.4（R2V）的比例進行線性插值。權(quán)重比例的選擇依據(jù)一個重要觀察：音頻同步依賴于精細的時序?qū)R，對權(quán)重擾動極為敏感，因此更多地保留A2V模型的權(quán)重；而視覺外觀保真度依賴的是全局特征，對權(quán)重擾動的容忍度更高，因此R2V模型的權(quán)重可以占據(jù)較小比例。

融合之后的模型展現(xiàn)出了一個令研究團隊驚喜的現(xiàn)象：即便還沒有經(jīng)過任何專門的「音頻加參考圖像」聯(lián)合訓(xùn)練，這個模型就已經(jīng)能夠自發(fā)地生成既尊重參考圖像、又跟隨音頻節(jié)奏的視頻。研究團隊把這個現(xiàn)象稱為「涌現(xiàn)能力」——就像兩個分別學(xué)會了游泳和騎自行車的人融合在一起，竟然無師自通地學(xué)會了同時游泳和騎車。這個發(fā)現(xiàn)本身就是一個頗具啟發(fā)意義的研究結(jié)論：通過權(quán)重融合，模型的可控能力可以自發(fā)涌現(xiàn)，而不必依賴專門的聯(lián)合訓(xùn)練數(shù)據(jù)。

隨后，這個融合后的模型先在完整的參考圖像加音頻數(shù)據(jù)集上進行聯(lián)合微調(diào)，進一步提升自然度和美學(xué)質(zhì)量；最后才在一個高質(zhì)量的包含姿態(tài)信息的子集上引入姿態(tài)條件，完成最終的全模態(tài)統(tǒng)一。姿態(tài)被放在最后引入，是為了防止模型過度依賴這個強監(jiān)督信號——如果過早引入，模型可能會「偷懶」，完全靠著姿態(tài)信號來決定所有動作，而不去充分學(xué)習(xí)參考圖像和音頻所提供的信息。

五、數(shù)據(jù)工廠：從零開始建造訓(xùn)練原料

巧婦難為無米之炊。為了支撐上述訓(xùn)練策略，研究團隊構(gòu)建了一套大規(guī)模的異構(gòu)數(shù)據(jù)收集流水線，最終積累了約百萬量級的視頻片段，累計時長約3500小時。

整個流水線分三個大階段運轉(zhuǎn)。第一階段是鏡頭切割：從一個龐大的內(nèi)部人物視頻庫出發(fā)，使用場景切割算法把長視頻拆解成連續(xù)的單一鏡頭片段，確保每個片段內(nèi)容連貫、沒有跳切。第二階段是多維度過濾：對每個片段從視頻分辨率、畫面美觀度、運動強度、以及水印文字的密集程度等多個維度進行自動評分，去掉低質(zhì)量樣本。

第三階段是針對不同子任務(wù)的專項處理。對于參考圖像視頻數(shù)據(jù)，研究團隊一方面從現(xiàn)有視頻中提取參考幀，做超分辨率處理，并用算法評估參考圖和視頻內(nèi)容的一致性；另一方面還建立了一套合成數(shù)據(jù)流水線，利用內(nèi)部的物品圖像數(shù)據(jù)庫，通過圖像編輯將人物和產(chǎn)品合成在一起，再用內(nèi)部的圖像轉(zhuǎn)視頻模型生成對應(yīng)視頻，并經(jīng)過人工質(zhì)檢篩掉有明顯AI痕跡（比如手指變形、細節(jié)丟失）的樣本。對于音頻視頻數(shù)據(jù)，核心工作是做音視頻同步評估，專門篩選出語音和視覺動作高度吻合的片段。對于同時包含參考圖像和音頻的高質(zhì)量數(shù)據(jù)，則疊加上述所有標(biāo)準，并加入人工專家篩選環(huán)節(jié)，對每條視頻進行獨立審查。最后，在這部分高質(zhì)量數(shù)據(jù)的基礎(chǔ)上，使用DWPose工具逐幀提取人體姿態(tài)骨架，形成帶姿態(tài)標(biāo)注的最終微調(diào)數(shù)據(jù)集。

六、評測標(biāo)準：填補領(lǐng)域空白

在提出解決方案的同時，研究團隊還意識到，這個領(lǐng)域缺乏一個專門的評測基準?，F(xiàn)有的各類評測集要么只關(guān)注文字和姿態(tài)、要么只關(guān)注文字和圖像，沒有一個能夠同時評估文字、人物圖像、物品圖像、音頻、姿態(tài)這五類輸入?yún)f(xié)同效果的基準。

為此，研究團隊建立了HOIVG-Bench，一個包含135個精心構(gòu)建樣本的評測基準。每個樣本都配備了詳細的文字描述、一張人物參考圖、一張物品參考圖、一段語義匹配的語音音頻，以及一段連貫的姿態(tài)序列。

數(shù)據(jù)構(gòu)建過程嚴格遵循了幾個原則。視頻素材從內(nèi)部視頻庫中精選，要求時長超過4秒、包含清晰的人物物品交互、并且在人物屬性（性別、年齡、族裔）和物品類別（日用品、工具等）上盡量多樣。為了模擬真實的生成場景，物品參考圖不是直接從視頻中截取，而是用Google的Nano Banana模型對原始物品進行紋理和顏色的修改，并添加更多細節(jié)，形成與原物有所區(qū)別但同類別的參考圖。人物參考圖則是基于視頻截圖通過Nano Banana生成的風(fēng)格相似但外貌不同的形象，這樣既保護了原始人物的隱私，又保持了對模型泛化能力的考驗。音頻則通過兩階段合成：先用GPT-4o生成一段介紹目標(biāo)物品的口播文字，再由GPT-4o分析人物參考圖中的性別和年齡，最后用ElevenLabs合成匹配音色的語音。所有樣本還經(jīng)過了人工審核，過濾掉有明顯AI感的圖像，確?；鶞寿N近真實數(shù)據(jù)分布。

評測維度涵蓋五個方面：文字語義對齊（用VideoReward預(yù)測文字對齊分數(shù)）、參考一致性（用人臉相似度FaceSim和綜合一致性評分NexusScore衡量）、音視頻同步（用Sync-C和Sync-D兩個指標(biāo)，前者越高越好，后者越低越好）、姿態(tài)精度（用平均關(guān)鍵點距離AKD和正確關(guān)鍵點比例PCK衡量）、視頻質(zhì)量（用VBench的美學(xué)和畫質(zhì)評分，以及VideoReward的整體視覺質(zhì)量和動作質(zhì)量評分）。所有測試統(tǒng)一在5秒時長、720p分辨率的豎屏視頻上進行，以確保和只支持短片生成的基準方法做公平對比。

七、實驗結(jié)果：OmniShow的成績單

研究團隊將OmniShow與六個主流方法進行了對比，涵蓋了不同規(guī)模的模型變體。在僅使用文字和參考圖像生成視頻的場景下，OmniShow在人臉相似度上與專門做這件事的Phantom-14B相當(dāng)，而在物品一致性（NexusScore）和視頻質(zhì)量指標(biāo)上則表現(xiàn)更優(yōu)，在文字對齊和動作質(zhì)量兩項上也達到了參賽方法中的最高分。

在同時處理參考圖像和音頻的場景下，OmniShow在物品一致性、音視頻同步的Sync-C、視頻美觀度、畫質(zhì)、視覺質(zhì)量和動作質(zhì)量這六項指標(biāo)上均領(lǐng)先對手，只在文字對齊一項上略低于HuMo-17B，但HuMo-17B的參數(shù)量是OmniShow的約1.38倍。

在使用參考圖像和姿態(tài)序列生成視頻的場景下，OmniShow在物品一致性、正確關(guān)鍵點比例和畫質(zhì)三項上領(lǐng)先，但在人臉相似度上低于VACE，這一點研究團隊解釋為：在嚴格的姿態(tài)約束下，視角和面部形態(tài)會發(fā)生較大變化，導(dǎo)致基于人臉檢測的相似度評分天然偏低，并不能準確反映實際生成質(zhì)量。

在RAP2V這個最完整的四路輸入場景下，目前沒有其他方法支持這種設(shè)置，因此研究團隊構(gòu)造了一個級聯(lián)基準方法（先用VACE生成帶姿態(tài)的視頻，再用LatentSync做口型后處理）來做對比。結(jié)果顯示，OmniShow在所有11項指標(biāo)上全面超越了這個級聯(lián)方法，特別是在視頻質(zhì)量（VQ為11.06對10.05）和動作質(zhì)量（MQ為5.88對3.91）上有較大幅度的提升。研究團隊指出，級聯(lián)方法的口型處理模塊在遭遇手部遮擋嘴巴的情況時特別容易產(chǎn)生模糊和偽影，而端到端的OmniShow因為在生成階段就已經(jīng)整合了音頻信息，能夠更自然地處理這類復(fù)雜遮擋情況。

在用戶偏好研究中，研究團隊分別組織了30名評測者對RA2V結(jié)果做選邊站評測，以及33名評測者對RP2V結(jié)果做選邊站評測，每次評測20個隨機樣本。在RA2V設(shè)置下，超過51%的評測者認為OmniShow的視頻質(zhì)量優(yōu)于HuMo-17B，約42%認為參考一致性更好，約42%認為音視頻同步更好。在RP2V設(shè)置下，超過52%的評測者認為OmniShow的視頻質(zhì)量更好，超過56%認為姿態(tài)精度更好。這表明OmniShow的優(yōu)勢在人類感知層面比單純的數(shù)值指標(biāo)更為明顯，研究團隊認為這主要來自于視頻在時間維度上更流暢的動態(tài)表現(xiàn)。

八、深挖一步：消融實驗告訴我們什么

研究團隊還做了一系列「拆零件」實驗，逐個去掉某個設(shè)計，觀察性能下降程度，從而反向驗證每個設(shè)計的必要性。

去掉參考重建損失之后，人臉相似度從0.707下降到0.678，物品一致性評分也有所下降，證明這個額外的重建約束對保真度有實質(zhì)貢獻。把通道注入方式換成令牌拼接之后，人臉相似度進一步下降到0.601，物品一致性也更低，印證了通道注入對于任務(wù)統(tǒng)一模型的優(yōu)越性。

在音頻注意力模塊的消融實驗中，去掉音頻上下文打包（即滑動窗口機制）之后，Sync-D指標(biāo)變差，說明上下文信息對于捕捉時序連貫性至關(guān)重要。去掉注意力圖的幀級約束之后，Sync-C從9.023驟降到2.201，Sync-D從7.419惡化到13.01，這是整個消融表格里最戲劇性的下降，直觀地說明幀級精確對齊是音視頻同步的核心機制，缺了它整個音頻注入幾乎失效。去掉自適應(yīng)門控之后，視頻美觀度指標(biāo)下降，驗證了門控機制對訓(xùn)練穩(wěn)定性的保護作用。

在訓(xùn)練策略的消融實驗中，直接在完整的參考加音頻數(shù)據(jù)上訓(xùn)練（不做分階段）的模型，音視頻同步表現(xiàn)最差（Sync-D高達13.11）。先用R2V數(shù)據(jù)訓(xùn)練再切換到聯(lián)合數(shù)據(jù)的方案，音視頻同步也沒有改善。先用A2V數(shù)據(jù)訓(xùn)練再切換的方案則參考一致性最弱。只有研究團隊提出的先分別訓(xùn)練、再融合、再聯(lián)合微調(diào)的完整策略，才在參考一致性和音視頻同步之間取得最佳平衡。

研究團隊還專門測試了只經(jīng)過音頻視頻訓(xùn)練階段的OmniShow-A2V模型，在一個叫做EMTD的專門音頻驅(qū)動視頻基準上，這個模型的Sync-C得分達到6.49，超過了MultiTalk的6.34，成為當(dāng)前最優(yōu)結(jié)果之一，驗證了門控局部上下文注意力機制在單獨的音頻視頻任務(wù)上也有競爭力。

此外，研究團隊還驗證了OmniShow在更寬泛應(yīng)用場景下的靈活性。給定單張人物圖像和音頻，OmniShow可以作為音頻驅(qū)動數(shù)字人的工具，生成表情自然、口型同步的動態(tài)形象。通過在工作流中插入姿態(tài)提取步驟，可以從現(xiàn)有視頻中提取人物的動作序列，再結(jié)合一個新的物品參考圖，生成一段人物手持新物品的視頻，實現(xiàn)「物品替換」效果。通過分別從不同來源提取姿態(tài)、物品參考圖和人物參考圖，還可以合成出一段全新的、人物和物品都來自不同原始素材的融合視頻，實現(xiàn)「視頻重混」的創(chuàng)作效果。

說到底，OmniShow解決的是一個在技術(shù)層面長期懸而未決、在實際應(yīng)用層面又有真實強烈需求的問題。它的核心貢獻在于，證明了可以用極小的架構(gòu)改動（僅增加約2.5%的參數(shù)）就撬動對四種模態(tài)輸入的統(tǒng)一處理能力，同時證明了通過權(quán)重融合讓多模態(tài)可控性自發(fā)涌現(xiàn)的可能性。這兩個發(fā)現(xiàn)，對于整個視頻生成領(lǐng)域的后續(xù)研究都有一定的方法論啟示價值。

當(dāng)然，這項研究也坦承了一些局限性。當(dāng)前的評測僅覆蓋5秒時長的片段，而模型實際上能生成長達10秒的視頻，更長時間的全面評測尚待完成。評測基準中的人物參考圖均為AI生成，與完全真實的照片相比存在一定的域偏移，這可能使評測結(jié)果與真實部署場景之間存在些許差距。在極端的大幅度運動或多模態(tài)信號相互沖突的情況下，生成視頻有時仍會出現(xiàn)模糊或偽影，這是未來需要進一步攻克的方向。研究團隊還展望了幾個值得探索的后續(xù)方向，包括引入基于人類偏好反饋的強化學(xué)習(xí)來進一步對齊真實場景、擴大訓(xùn)練數(shù)據(jù)和模型規(guī)模、支持更豐富的輸入形式（如攝像機運動軌跡或參考視頻片段），以及向分鐘級長視頻合成和實時交互式生成邁進。

對這項研究感興趣的讀者，可以通過arXiv編號2604.11804v1找到完整論文，也可以訪問論文中提到的項目主頁查看視頻演示。

Q&A

Q1：OmniShow和現(xiàn)有的AI視頻生成工具有什么本質(zhì)區(qū)別？

A：現(xiàn)有工具通常只能處理一兩種輸入條件，比如只能接受文字描述，或者只能根據(jù)一張參考圖生成視頻，無法同時處理人物參考圖、物品參考圖、語音音頻和姿態(tài)動作這四類輸入。OmniShow是目前第一個能夠同時接受這四類輸入并生成高質(zhì)量視頻的端到端框架，生成的視頻中人物和物品的外觀高度保真，嘴唇動作與音頻同步，身體動作符合指定姿態(tài)。

Q2：門控局部上下文注意力機制是如何實現(xiàn)嘴唇和聲音同步的？

A：這個機制分三步工作。首先用滑動窗口把每幀對應(yīng)時刻前后的音頻特征聚合在一起，讓模型理解發(fā)音的前后文關(guān)系。然后通過掩碼約束，強制每幀視頻只能關(guān)注自己時間段內(nèi)的音頻，避免串?dāng)_。最后用初始值接近零的可學(xué)習(xí)門控向量控制音頻信號的影響力度，確保訓(xùn)練初期模型不被隨機初始化的音頻模塊干擾，隨著訓(xùn)練推進才逐漸開放音頻的影響。

Q3：HOIVG-Bench評測基準里的人物和物品圖片為什么要用AI生成而不直接用真實照片？

A：使用AI生成圖像主要出于兩方面考慮。一是隱私和合規(guī)保護，直接使用真實人物照片涉及肖像權(quán)和個人信息保護問題，公開發(fā)布會面臨法律風(fēng)險。二是物品參考圖需要模擬真實使用場景，即參考圖中的物品與視頻中的物品有所不同，不能直接從視頻幀中截取，需要通過AI修改紋理和細節(jié)來構(gòu)造差異化的參考樣本。研究團隊還專門進行了人工審核，過濾掉有明顯AI感的圖像，確保基準貼近真實數(shù)據(jù)分布。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.