網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

上海人工智能實(shí)驗(yàn)室與復(fù)旦大學(xué)聯(lián)手：讓AI視頻生成器"反向思考"

2026-04-21 21:42:57　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由上海人工智能實(shí)驗(yàn)室（Shanghai Academy of AI for Science）與復(fù)旦大學(xué)聯(lián)合主導(dǎo)、新加坡科技設(shè)計(jì)大學(xué)參與的研究，以預(yù)印本形式于2026年4月9日發(fā)布在arXiv平臺(tái)，論文編號(hào)為arXiv:2604.08121。有興趣深入了解的讀者可通過(guò)該編號(hào)在arXiv檢索到完整論文。

研究背景：一場(chǎng)代價(jià)高昂的"文理之爭(zhēng)"

人類在成長(zhǎng)過(guò)程中，往往先學(xué)會(huì)用眼睛感知世界，才慢慢發(fā)展出用語(yǔ)言描述所見(jiàn)之物的能力。一個(gè)嬰兒在開(kāi)口說(shuō)話之前，已經(jīng)能辨認(rèn)媽媽的臉、貓咪的輪廓和蘋(píng)果的顏色。這種"先看后說(shuō)"的發(fā)育順序暗示了一件有趣的事：視覺(jué)感知能力在某種程度上先于語(yǔ)言表達(dá)能力存在。

AI研究者們?cè)跇?gòu)建"能看懂視頻又能生成視頻"的智能系統(tǒng)時(shí)，卻走上了一條截然相反的路。過(guò)去幾年里，主流做法是先建一個(gè)很強(qiáng)大的"語(yǔ)言模型"——也就是能讀懂文字、回答問(wèn)題的AI大腦——然后費(fèi)盡心思地往里面塞進(jìn)"生成視頻"的能力。這就好比先培養(yǎng)了一個(gè)博學(xué)的圖書(shū)館員，再逼他去學(xué)拍電影，過(guò)程費(fèi)時(shí)費(fèi)力不說(shuō)，拍出來(lái)的電影質(zhì)量也未必好。

問(wèn)題的根源在于一個(gè)巨大的計(jì)算量鴻溝。生成一段視頻所需要的計(jì)算量，遠(yuǎn)遠(yuǎn)超過(guò)理解一段文字所需的計(jì)算量。以目前最先進(jìn)的圖像生成模型為例，生成一張高清圖片需要處理約4096個(gè)"計(jì)算單元"，而且要反復(fù)運(yùn)算50次。再把這個(gè)規(guī)模放大到視頻，一段僅僅5秒的720P視頻就需要處理將近74000個(gè)計(jì)算單元，同樣要重復(fù)運(yùn)算40到50次。換句話說(shuō)，生成視頻的計(jì)算量輕松突破數(shù)百萬(wàn)，而生成一段相同長(zhǎng)度的文字描述，所需計(jì)算量可能只有前者的幾千分之一。

正是這個(gè)懸殊的代價(jià)差異，催生了這項(xiàng)研究的核心問(wèn)題：既然視頻生成本來(lái)就這么"貴"，為什么不直接從一個(gè)已經(jīng)會(huì)生成視頻的AI出發(fā)，再教會(huì)它理解視頻呢？畢竟，能夠生成一段視頻的AI，必然已經(jīng)深刻理解了文字和畫(huà)面之間的對(duì)應(yīng)關(guān)系——否則它根本沒(méi)辦法根據(jù)文字描述畫(huà)出對(duì)應(yīng)的畫(huà)面。

Uni-ViGU（統(tǒng)一視頻生成與理解框架）就是這一思路的具體實(shí)現(xiàn)。它的名字本身就是一份宣言：Unified Video Generation and Understanding，統(tǒng)一的視頻生成與理解。

一、視頻生成器為什么天然就"懂"視頻？

在深入了解Uni-ViGU的設(shè)計(jì)之前，有必要先弄清楚一個(gè)關(guān)鍵問(wèn)題：為什么一個(gè)"只會(huì)生成視頻"的AI，會(huì)被認(rèn)為已經(jīng)對(duì)視頻有了深入理解？

現(xiàn)代視頻生成AI的核心工作方式，是把一堆隨機(jī)噪點(diǎn)（可以理解為一張布滿雪花的電視屏幕）逐步"雕刻"成一段清晰的視頻。這個(gè)過(guò)程叫做"擴(kuò)散"，整個(gè)模型則叫做擴(kuò)散模型。具體來(lái)說(shuō)，這類AI會(huì)先把輸入的視頻壓縮成一種更緊湊的"隱藏表示"（類似于把一本厚厚的書(shū)提煉成一頁(yè)摘要），然后在這個(gè)壓縮的空間里學(xué)習(xí)如何從噪點(diǎn)還原出有意義的畫(huà)面。

這個(gè)過(guò)程中，AI需要接受文字提示作為引導(dǎo)——你告訴它"一只貓坐在陽(yáng)光下的窗臺(tái)上"，它就要生成對(duì)應(yīng)的畫(huà)面。要做到這一點(diǎn)，AI必須深刻理解"貓""陽(yáng)光""窗臺(tái)"這些概念在視覺(jué)上的表現(xiàn)形式，以及它們之間的空間和光線關(guān)系。這意味著，一個(gè)訓(xùn)練成熟的視頻生成AI，其內(nèi)部已經(jīng)隱含了大量關(guān)于"文字-視頻"對(duì)應(yīng)關(guān)系的知識(shí)。

Uni-ViGU的研究團(tuán)隊(duì)正是看到了這一點(diǎn)。他們的核心判斷是：如果AI已經(jīng)學(xué)會(huì)了"從文字到視頻"的映射，那么"從視頻到文字"的映射（也就是視頻理解）本質(zhì)上是同一個(gè)映射的反向過(guò)程。利用這種對(duì)稱性，可以大大降低讓AI學(xué)會(huì)看懂視頻的難度。

研究團(tuán)隊(duì)選擇的基礎(chǔ)模型是WAN2.1，這是目前業(yè)界最先進(jìn)且高效的文字-視頻生成模型之一。WAN2.1的內(nèi)部架構(gòu)包含三個(gè)主要部分：一個(gè)叫做VAE的視頻壓縮器（負(fù)責(zé)把視頻壓縮成緊湊的數(shù)字表示，以及把數(shù)字表示還原成視頻），一個(gè)文字編碼器（負(fù)責(zé)把文字轉(zhuǎn)換成AI能理解的數(shù)字形式），以及一個(gè)叫做DiT的擴(kuò)散Transformer（負(fù)責(zé)實(shí)際的"去噪"生成過(guò)程，是整個(gè)系統(tǒng)的大腦）。

在這個(gè)架構(gòu)基礎(chǔ)上，Uni-ViGU要做的事情可以比作給一位技藝精湛的導(dǎo)演加裝了一套"看片寫(xiě)劇本"的新技能——原有的拍攝能力完好保留，新增的能力則建立在拍攝經(jīng)驗(yàn)的基礎(chǔ)之上。

二、解決"兩種語(yǔ)言"的沖突：統(tǒng)一流匹配方法

現(xiàn)在出現(xiàn)了一個(gè)棘手的技術(shù)問(wèn)題。視頻生成和文字生成在本質(zhì)上是兩種截然不同的過(guò)程，把它們強(qiáng)行合并在一個(gè)框架里，就像試圖讓一臺(tái)打字機(jī)同時(shí)承擔(dān)鋼琴的工作——鍵盤(pán)長(zhǎng)得有點(diǎn)像，但運(yùn)作原理完全不同。

視頻的世界是"連續(xù)的"——顏色、亮度、運(yùn)動(dòng)可以取任意中間值，視頻中每一幀的每一個(gè)像素都是一個(gè)連續(xù)變化的數(shù)值。文字的世界則是"離散的"——詞語(yǔ)就是詞語(yǔ)，"貓"和"狗"之間沒(méi)有半步的中間狀態(tài)，每個(gè)詞要么存在要么不存在，不能取0.5個(gè)詞這種中間值。

傳統(tǒng)的擴(kuò)散模型擅長(zhǎng)處理連續(xù)數(shù)據(jù)，而傳統(tǒng)的文字生成則依賴"從左到右，一個(gè)字一個(gè)字預(yù)測(cè)下一個(gè)字"的自回歸方式（就像我們寫(xiě)文章時(shí)的正常習(xí)慣），兩者在數(shù)學(xué)上是互不兼容的。

研究團(tuán)隊(duì)提出了一個(gè)叫做"統(tǒng)一流匹配"的方法來(lái)解決這個(gè)問(wèn)題。可以把它理解為設(shè)計(jì)了一套雙軌制的變形規(guī)則：視頻的"變形"走一條連續(xù)的軌道（從隨機(jī)噪點(diǎn)平滑地變成清晰視頻），文字的"變形"走另一條離散的軌道（從隨機(jī)亂碼平滑地聚攏成有意義的詞語(yǔ)），兩條軌道在同一個(gè)系統(tǒng)里同時(shí)運(yùn)作，互相協(xié)同。

具體來(lái)說(shuō)，對(duì)于視頻，模型學(xué)習(xí)的是如何從一團(tuán)隨機(jī)噪點(diǎn)（數(shù)學(xué)上叫高斯噪聲）出發(fā)，沿著一條直線路徑"流動(dòng)"到真實(shí)視頻的數(shù)字表示。這條路徑上的每一步，都是噪點(diǎn)和真實(shí)視頻按比例混合的結(jié)果——就像調(diào)色板上，純白和純紅各占多少比例，中間就是對(duì)應(yīng)比例的粉紅色。

對(duì)于文字，處理方式稍有不同，但思路相似。研究團(tuán)隊(duì)把詞匯表里的每一個(gè)詞都先轉(zhuǎn)換成一個(gè)連續(xù)的數(shù)字向量（可以理解為詞語(yǔ)的"數(shù)字指紋"），然后同樣讓模型學(xué)習(xí)從隨機(jī)噪點(diǎn)"流動(dòng)"到對(duì)應(yīng)詞語(yǔ)的數(shù)字指紋。當(dāng)推理完成后，最終得到的數(shù)字向量再通過(guò)查找最相似詞匯的方式，還原成具體的文字。

最關(guān)鍵的設(shè)計(jì)在于：視頻的流動(dòng)進(jìn)度和文字的流動(dòng)進(jìn)度是相互獨(dú)立的。在一次訓(xùn)練中，視頻可能已經(jīng)80%清晰了，而文字只有20%成形；或者反過(guò)來(lái)。這種獨(dú)立性讓模型必須學(xué)會(huì)在各種信息不完整的組合下，都能正確理解視頻和文字之間的對(duì)應(yīng)關(guān)系，從而習(xí)得更魯棒的跨模態(tài)理解能力。

在推理（實(shí)際使用）時(shí)，這套系統(tǒng)可以靈活切換工作模式。如果要做視頻理解（看懂視頻并生成描述），就把視頻固定為已知的清晰狀態(tài)，讓文字從噪點(diǎn)開(kāi)始慢慢"還原"出來(lái)。如果要做視頻生成，就把文字固定為已知的提示詞，讓視頻從噪點(diǎn)開(kāi)始生成。如果要同時(shí)生成視頻和配套描述文字，就讓兩者都從噪點(diǎn)出發(fā)，同步演化，互相引導(dǎo)。

三、聰明地改造大腦：模態(tài)驅(qū)動(dòng)的專家混合架構(gòu)

有了處理兩種模態(tài)的數(shù)學(xué)框架，下一個(gè)問(wèn)題是：在AI的神經(jīng)網(wǎng)絡(luò)內(nèi)部，應(yīng)該怎么修改它的"大腦結(jié)構(gòu)"，才能在不破壞原有視頻生成能力的前提下，添加文字生成能力？

研究團(tuán)隊(duì)對(duì)WAN2.1的內(nèi)部結(jié)構(gòu)進(jìn)行了一番解剖分析。視頻生成AI的大腦（DiT，擴(kuò)散Transformer）由許多層神經(jīng)網(wǎng)絡(luò)堆疊而成，每一層包含三個(gè)主要組件：自注意力層、交叉注意力層和前饋網(wǎng)絡(luò)層（FFN）。

自注意力層的功能類似于讓視頻中的每一個(gè)區(qū)域都"環(huán)顧四周"，觀察其他區(qū)域的情況，從而理解整個(gè)場(chǎng)景的空間和時(shí)間關(guān)系。交叉注意力層則負(fù)責(zé)讓視頻內(nèi)容與文字提示相互"對(duì)話"——它是AI理解"畫(huà)面要符合文字描述"的核心機(jī)制。前饋網(wǎng)絡(luò)層則是獨(dú)立處理每一個(gè)位置的信息，可以理解為對(duì)每個(gè)局部特征進(jìn)行深度加工和提煉，其中儲(chǔ)存的主要是特定模態(tài)（視頻）的專有知識(shí)。

這種功能分工揭示了一個(gè)關(guān)鍵洞察：跨模態(tài)的對(duì)齊知識(shí)（也就是"這個(gè)詞對(duì)應(yīng)這種畫(huà)面"的知識(shí)）主要儲(chǔ)存在注意力層里，因?yàn)樽⒁饬犹烊簧瞄L(zhǎng)處理不同位置、不同實(shí)體之間的關(guān)系。而具體模態(tài)的生成技巧（視頻要怎么畫(huà)、文字要怎么寫(xiě)）則主要由前饋網(wǎng)絡(luò)層負(fù)責(zé)。

基于這個(gè)判斷，研究團(tuán)隊(duì)采取了一個(gè)外科手術(shù)般精準(zhǔn)的改造方案：保留所有注意力層不動(dòng)，只為每個(gè)前饋網(wǎng)絡(luò)層添加一個(gè)新的"文字專家"分支，而原有的"視頻專家"前饋網(wǎng)絡(luò)權(quán)重完全保留。

改造后的架構(gòu)可以用一個(gè)工作室的比喻來(lái)理解：所有人（視頻和文字的信息）共用同一個(gè)開(kāi)放式會(huì)議室（共享的注意力層），在這里自由交流、互通信息；但離開(kāi)會(huì)議室后，視頻工作者回到自己的視頻編輯工作臺(tái)（視頻專用前饋網(wǎng)絡(luò)），文字工作者則去自己的寫(xiě)作桌（文字專用前饋網(wǎng)絡(luò)），各自用專業(yè)工具完成深度加工。

這個(gè)設(shè)計(jì)有幾個(gè)實(shí)際好處值得細(xì)說(shuō)。首先，注意力參數(shù)完全共享，意味著視頻生成過(guò)程中已經(jīng)學(xué)會(huì)的跨模態(tài)對(duì)齊知識(shí)，可以直接被文字生成過(guò)程所使用，不需要從零學(xué)起。其次，新增的文字前饋網(wǎng)絡(luò)是獨(dú)立的，不會(huì)干擾原有的視頻生成能力，視頻生成的質(zhì)量得以完全保留。第三，增加的參數(shù)量相對(duì)很小——僅僅是為每一層多加了一個(gè)前饋網(wǎng)絡(luò)——而不需要復(fù)制整個(gè)模型。

值得一提的是，這種架構(gòu)在AI領(lǐng)域有一個(gè)專門(mén)的名字叫"專家混合"（Mixture of Experts，MoE），但通常的MoE需要用一個(gè)額外的"路由器"來(lái)決定每次應(yīng)該使用哪個(gè)專家。Uni-ViGU的設(shè)計(jì)更為簡(jiǎn)潔：路由規(guī)則完全由輸入數(shù)據(jù)的模態(tài)類型決定——視頻就用視頻專家，文字就用文字專家，沒(méi)有任何額外的路由器開(kāi)銷，也沒(méi)有路由決策出錯(cuò)的風(fēng)險(xiǎn)。

四、兩階段漸進(jìn)式訓(xùn)練：從"記住老本"到"學(xué)會(huì)新技能"

架構(gòu)設(shè)計(jì)好了，接下來(lái)是訓(xùn)練方法。研究團(tuán)隊(duì)設(shè)計(jì)了一套兩階段漸進(jìn)式訓(xùn)練方案，把它命名為"雙向訓(xùn)練機(jī)制"。

第一階段叫做"知識(shí)喚醒"階段。還記得前面說(shuō)過(guò)，視頻生成AI已經(jīng)學(xué)會(huì)了"從文字到視頻"的映射嗎？知識(shí)喚醒階段要做的，就是把這個(gè)映射"激活"成雙向的。具體操作是：用一批視頻和對(duì)應(yīng)的文字提示詞作為訓(xùn)練數(shù)據(jù)，讓模型在看到視頻的同時(shí)，試圖"猜出"這段視頻當(dāng)初是用什么提示詞生成的。

但這里有個(gè)潛在的取巧風(fēng)險(xiǎn)：如果訓(xùn)練時(shí)直接把原始提示詞也輸入給模型，模型可能會(huì)偷懶地直接復(fù)制提示詞，完全不去理會(huì)視頻內(nèi)容。為了堵住這個(gè)漏洞，研究團(tuán)隊(duì)引入了一個(gè)叫做"條件丟棄"的機(jī)制——在訓(xùn)練時(shí)，有一定概率隨機(jī)抹掉輸入的提示詞，迫使模型必須從視頻本身去推斷對(duì)應(yīng)的文字，而不能依賴現(xiàn)成的提示詞作弊。

訓(xùn)練數(shù)據(jù)規(guī)模方面，第一階段使用了1萬(wàn)個(gè)視頻-提示詞對(duì)。這看起來(lái)數(shù)量不多，但這里有個(gè)聰明的設(shè)計(jì)：訓(xùn)練用的視頻本身就是由WAN2.1（也就是Uni-ViGU的基礎(chǔ)模型）根據(jù)提示詞生成的合成視頻。由于視頻和提示詞來(lái)自同一個(gè)生成模型，它們之間的對(duì)應(yīng)關(guān)系對(duì)這個(gè)模型來(lái)說(shuō)是"與生俱來(lái)"的知識(shí)，所以只需要相對(duì)少量的訓(xùn)練樣本就能完成知識(shí)喚醒。

另一個(gè)值得注意的工程細(xì)節(jié)是損失函數(shù)的權(quán)重設(shè)置。在訓(xùn)練過(guò)程中，視頻部分大約有3萬(wàn)個(gè)計(jì)算單元，而文字部分只有256個(gè)。如果按照相同的權(quán)重來(lái)優(yōu)化，視頻已經(jīng)訓(xùn)練得很好的部分會(huì)主導(dǎo)整個(gè)訓(xùn)練過(guò)程，文字理解能力反而得不到充分訓(xùn)練。研究團(tuán)隊(duì)因此把文字部分的訓(xùn)練權(quán)重相應(yīng)放大（具體數(shù)值約為30000/256，大約120倍），確保每個(gè)計(jì)算單元得到同等程度的優(yōu)化關(guān)注。

第一階段完成后，模型已經(jīng)能夠根據(jù)視頻內(nèi)容生成基本的文字描述，但生成的內(nèi)容往往比較粗淺——畢竟訓(xùn)練用的目標(biāo)文字只是簡(jiǎn)短的提示詞，而短提示詞通常只包含場(chǎng)景的大致輪廓，缺少細(xì)節(jié)。

這就引出了第二階段：能力精煉階段。這個(gè)階段的目標(biāo)是把模型的視頻理解能力從"看個(gè)大概"升級(jí)到"深入觀察"。具體做法是：在原有視頻和提示詞的基礎(chǔ)上，再引入一批由大語(yǔ)言模型輔助生成的"詳細(xì)說(shuō)明"——這些詳細(xì)說(shuō)明包含了視頻中人物的服裝顏色、表情動(dòng)作、背景中的細(xì)節(jié)裝飾、場(chǎng)景的光線變化、物體的運(yùn)動(dòng)軌跡等大量具體信息。

訓(xùn)練目標(biāo)從"猜出簡(jiǎn)短提示詞"變成了"生成詳盡描述"。這樣的訓(xùn)練數(shù)據(jù)有一個(gè)精心設(shè)計(jì)的約束：簡(jiǎn)短提示詞被限制在0到128個(gè)詞以內(nèi)，而詳細(xì)說(shuō)明則必須在128到256個(gè)詞之間。這種長(zhǎng)度差異確保了詳細(xì)說(shuō)明中包含大量提示詞里根本沒(méi)有的信息，模型必須真正去"看"視頻，才能生成這些額外的細(xì)節(jié)，無(wú)法再靠讀取提示詞取巧。

能力精煉階段使用了另外1萬(wàn)個(gè)視頻-提示詞-詳細(xì)說(shuō)明的三元組數(shù)據(jù)，訓(xùn)練步數(shù)為6萬(wàn)步，學(xué)習(xí)率相對(duì)第一階段降低，采用更精細(xì)的微調(diào)方式。整個(gè)訓(xùn)練過(guò)程在16塊H800顯卡上進(jìn)行，耗時(shí)約一周。

五、同時(shí)"拍視頻"和"寫(xiě)劇本"：聯(lián)合生成能力

Uni-ViGU最令人眼前一亮的能力，是能夠同時(shí)生成視頻和與之配套的詳細(xì)文字描述。這不是"先生成視頻，再用另一個(gè)模型描述視頻"的串聯(lián)做法，而是在同一個(gè)模型內(nèi)部，讓視頻和文字從各自的隨機(jī)噪點(diǎn)出發(fā)，同步演化、互相引導(dǎo)。

這個(gè)過(guò)程可以用一段即興音樂(lè)表演來(lái)理解。兩位演奏者（視頻和文字）同時(shí)從"隨機(jī)亂彈"開(kāi)始，逐漸找到共同的節(jié)奏和旋律。在整個(gè)演奏過(guò)程中，每一步，視頻流正在成形的畫(huà)面會(huì)提供視覺(jué)上的"情緒"和"氛圍"，引導(dǎo)文字流產(chǎn)生更貼切的描述；與此同時(shí)，文字流中逐漸成形的語(yǔ)義結(jié)構(gòu)，反過(guò)來(lái)告訴視頻流應(yīng)該往哪個(gè)方向繼續(xù)發(fā)展。兩者通過(guò)共享的自注意力層不斷交換信息，最終共同收斂到一個(gè)語(yǔ)義高度一致的視頻-文字對(duì)。

從論文給出的具體案例可以看到這種協(xié)同效應(yīng)的威力。以一個(gè)"海邊房屋門(mén)廊上的男服務(wù)員手持飲料托盤(pán)"的場(chǎng)景為例，原始提示詞只給出了大致場(chǎng)景描述，而Uni-ViGU聯(lián)合生成的詳細(xì)說(shuō)明則包含了服務(wù)員穿著黑色西裝配白襯衫、右手高舉銀色托盤(pán)、托盤(pán)上有四個(gè)裝有橙色飲料的高腳杯、走過(guò)淺色木質(zhì)甲板、海鷗在頭頂飛翔并投下動(dòng)態(tài)陰影等大量具體細(xì)節(jié)。這些細(xì)節(jié)不僅忠實(shí)反映了視頻內(nèi)容，而且用詞準(zhǔn)確、表達(dá)流暢，達(dá)到了真實(shí)視頻字幕的質(zhì)量水平。

另一個(gè)案例是一個(gè)紅蘋(píng)果被水流沖淋的極簡(jiǎn)場(chǎng)景，生成的詳細(xì)說(shuō)明捕捉到了蘋(píng)果放在木架上的具體姿態(tài)、水流的節(jié)律性涌動(dòng)、背景中升起的蒸汽、從側(cè)面透進(jìn)來(lái)的戲劇性光束等視覺(jué)細(xì)節(jié)，整個(gè)描述具有強(qiáng)烈的臨場(chǎng)感和電影質(zhì)感。

六、研究的位置與意義：站在哪條河流的交匯點(diǎn)

Uni-ViGU的出現(xiàn)并非憑空而來(lái)，它處于幾條重要研究脈絡(luò)的交匯點(diǎn)上，理解這些背景有助于更準(zhǔn)確地把握這項(xiàng)研究的價(jià)值。

在"統(tǒng)一多模態(tài)理解與生成"這個(gè)大方向上，過(guò)去的主流路線是從語(yǔ)言模型出發(fā)擴(kuò)展視覺(jué)能力。早期方法（如Janus、Show-o等）把圖像生成變成了詞語(yǔ)預(yù)測(cè)的一種——把圖像切成一個(gè)個(gè)小格子，每個(gè)格子用一個(gè)詞來(lái)表示，這樣圖像生成就變成了"寫(xiě)一篇關(guān)于圖像的特殊文章"。這種做法實(shí)現(xiàn)了統(tǒng)一，但視覺(jué)質(zhì)量有所損失，因?yàn)閳D像的細(xì)膩層次被粗糙的離散詞匯抹平了。后來(lái)的方法（如MetaMorph、BLIP3-O等）保留了擴(kuò)散模型的視覺(jué)質(zhì)量，但讓語(yǔ)言模型和擴(kuò)散模塊分開(kāi)訓(xùn)練，導(dǎo)致兩邊的知識(shí)無(wú)法充分共享。更新的方法（如引用中的雙塔框架）則讓理解模塊和生成模塊各建一套語(yǔ)言模型，再用交叉注意力連接，雖然更緊密，但參數(shù)量翻倍的代價(jià)相當(dāng)可觀。

Uni-ViGU選擇了一條不同的路：從生成模型出發(fā)，以最小的架構(gòu)改動(dòng)（只增加文字專用FFN層）和最小的訓(xùn)練成本（共2萬(wàn)樣本，一周訓(xùn)練）實(shí)現(xiàn)統(tǒng)一。這種"輕量化改造強(qiáng)大基礎(chǔ)模型"的思路，與另外兩項(xiàng)相關(guān)工作有相似之處：一個(gè)是MMAR（在擴(kuò)散模型中統(tǒng)一圖文生成的早期工作），另一個(gè)是Omni-Diffusion（用離散擴(kuò)散方法統(tǒng)一圖文理解與生成）。但Uni-ViGU的特點(diǎn)在于專注于視頻模態(tài)，并且充分利用了預(yù)訓(xùn)練視頻生成模型中已有的豐富知識(shí)，而非從頭訓(xùn)練。

在"擴(kuò)散模型做文字生成"這條研究線上，LLaDA等工作已經(jīng)證明了擴(kuò)散框架可以在文字生成任務(wù)上與自回歸語(yǔ)言模型相競(jìng)爭(zhēng)。Uni-ViGU把這種離散文字?jǐn)U散和連續(xù)視頻擴(kuò)散放在同一個(gè)模型里聯(lián)合訓(xùn)練，是對(duì)這一研究方向的自然延伸，同時(shí)也是其在視頻理解場(chǎng)景下的首次系統(tǒng)性應(yīng)用。

說(shuō)到底，這項(xiàng)研究告訴了我們什么

歸根結(jié)底，Uni-ViGU代表了一種思維方式的轉(zhuǎn)變：不是把"會(huì)說(shuō)話的AI"訓(xùn)練到也能"畫(huà)畫(huà)"，而是把"會(huì)畫(huà)畫(huà)的AI"教會(huì)了"用語(yǔ)言描述自己畫(huà)的東西"。前者的代價(jià)極其昂貴，因?yàn)槔L畫(huà)（尤其是視頻）是這兩件事里更難更復(fù)雜的那個(gè)；后者則聰明得多，因?yàn)槟墚?huà)出東西的AI已經(jīng)理解了畫(huà)面，讓它用語(yǔ)言說(shuō)出來(lái)不過(guò)是把內(nèi)部知識(shí)外化。

當(dāng)然，這項(xiàng)研究還有很多待完善之處。訓(xùn)練數(shù)據(jù)目前僅有2萬(wàn)個(gè)樣本，這與動(dòng)輒數(shù)百萬(wàn)樣本的主流訓(xùn)練規(guī)模相比還相當(dāng)有限。當(dāng)前版本也主要展示了視頻理解（生成描述）和視頻生成的能力，在需要回答具體問(wèn)題（如"視頻中有幾個(gè)人？"）等更復(fù)雜的理解任務(wù)上，還需要進(jìn)一步驗(yàn)證和改進(jìn)。此外，所用的訓(xùn)練視頻是由AI生成的合成視頻，真實(shí)世界視頻的復(fù)雜性和多樣性是否能被同樣好地處理，也是值得持續(xù)關(guān)注的問(wèn)題。

但這項(xiàng)研究在方法論上提出的問(wèn)題，卻有著相當(dāng)深遠(yuǎn)的意義：當(dāng)我們擁有了一個(gè)能夠"模擬世界"的生成模型，它對(duì)世界的"理解"究竟達(dá)到了什么程度？這種理解能夠如何被解鎖和利用？這些問(wèn)題的答案，也許將深刻影響AI系統(tǒng)的未來(lái)發(fā)展方向。對(duì)于對(duì)這個(gè)方向感興趣的讀者，可以通過(guò)arXiv檢索編號(hào)arXiv:2604.08121查閱完整論文，獲取所有技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果。

Q&A

Q1：Uni-ViGU是什么，它和普通的視頻AI有什么不同？

A：Uni-ViGU是由上海人工智能實(shí)驗(yàn)室與復(fù)旦大學(xué)聯(lián)合研發(fā)的統(tǒng)一視頻生成與理解框架。普通視頻AI要么只會(huì)生成視頻，要么只會(huì)分析視頻，兩者通常是分開(kāi)的系統(tǒng)。Uni-ViGU的特別之處在于，它從一個(gè)已經(jīng)能生成高質(zhì)量視頻的AI出發(fā)，通過(guò)輕量化改造，讓同一個(gè)模型既能根據(jù)文字提示生成視頻，也能看懂視頻并生成詳細(xì)的文字描述，甚至可以同時(shí)生成視頻和配套說(shuō)明。

Q2：Uni-ViGU是如何讓視頻生成AI學(xué)會(huì)"看懂"視頻的？

A：核心思路是利用視頻生成和視頻理解的對(duì)稱性。一個(gè)能根據(jù)文字提示生成視頻的AI，內(nèi)部已經(jīng)編碼了大量"文字-畫(huà)面"對(duì)應(yīng)關(guān)系。Uni-ViGU通過(guò)兩階段訓(xùn)練來(lái)激活這種反向能力：第一階段讓模型從視頻中猜出原始提示詞，第二階段則要求模型生成包含更多細(xì)節(jié)的詳盡描述，迫使模型真正"看"視頻而非靠提示詞取巧。整個(gè)過(guò)程只用了2萬(wàn)個(gè)訓(xùn)練樣本，一周內(nèi)完成訓(xùn)練。

Q3：統(tǒng)一流匹配方法解決了什么具體問(wèn)題，為什么不能直接把視頻和文字放在一起訓(xùn)練？

A：視頻數(shù)據(jù)是連續(xù)的（顏色亮度可以取任意中間值），而文字是離散的（詞語(yǔ)之間沒(méi)有"半個(gè)詞"的中間狀態(tài)），兩者在數(shù)學(xué)上不兼容，無(wú)法直接用同一套訓(xùn)練方式處理。統(tǒng)一流匹配方法的解決方案是給視頻設(shè)計(jì)一條連續(xù)變化的"流動(dòng)軌道"，給文字設(shè)計(jì)一條離散但同樣可以用連續(xù)數(shù)學(xué)表示的"流動(dòng)軌道"，兩條軌道在同一個(gè)模型里同步運(yùn)作，速度可以相互獨(dú)立，從而讓模型在各種信息不完整的組合下都能學(xué)習(xí)兩種模態(tài)之間的對(duì)應(yīng)關(guān)系。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.