国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

上海人工智能實(shí)驗(yàn)室與復(fù)旦大學(xué)聯(lián)手:讓AI視頻生成器"反向思考"

0
分享至


這項(xiàng)由上海人工智能實(shí)驗(yàn)室(Shanghai Academy of AI for Science)與復(fù)旦大學(xué)聯(lián)合主導(dǎo)、新加坡科技設(shè)計(jì)大學(xué)參與的研究,以預(yù)印本形式于2026年4月9日發(fā)布在arXiv平臺(tái),論文編號(hào)為arXiv:2604.08121。有興趣深入了解的讀者可通過(guò)該編號(hào)在arXiv檢索到完整論文。

研究背景:一場(chǎng)代價(jià)高昂的"文理之爭(zhēng)"

人類在成長(zhǎng)過(guò)程中,往往先學(xué)會(huì)用眼睛感知世界,才慢慢發(fā)展出用語(yǔ)言描述所見(jiàn)之物的能力。一個(gè)嬰兒在開(kāi)口說(shuō)話之前,已經(jīng)能辨認(rèn)媽媽的臉、貓咪的輪廓和蘋(píng)果的顏色。這種"先看后說(shuō)"的發(fā)育順序暗示了一件有趣的事:視覺(jué)感知能力在某種程度上先于語(yǔ)言表達(dá)能力存在。

AI研究者們?cè)跇?gòu)建"能看懂視頻又能生成視頻"的智能系統(tǒng)時(shí),卻走上了一條截然相反的路。過(guò)去幾年里,主流做法是先建一個(gè)很強(qiáng)大的"語(yǔ)言模型"——也就是能讀懂文字、回答問(wèn)題的AI大腦——然后費(fèi)盡心思地往里面塞進(jìn)"生成視頻"的能力。這就好比先培養(yǎng)了一個(gè)博學(xué)的圖書(shū)館員,再逼他去學(xué)拍電影,過(guò)程費(fèi)時(shí)費(fèi)力不說(shuō),拍出來(lái)的電影質(zhì)量也未必好。

問(wèn)題的根源在于一個(gè)巨大的計(jì)算量鴻溝。生成一段視頻所需要的計(jì)算量,遠(yuǎn)遠(yuǎn)超過(guò)理解一段文字所需的計(jì)算量。以目前最先進(jìn)的圖像生成模型為例,生成一張高清圖片需要處理約4096個(gè)"計(jì)算單元",而且要反復(fù)運(yùn)算50次。再把這個(gè)規(guī)模放大到視頻,一段僅僅5秒的720P視頻就需要處理將近74000個(gè)計(jì)算單元,同樣要重復(fù)運(yùn)算40到50次。換句話說(shuō),生成視頻的計(jì)算量輕松突破數(shù)百萬(wàn),而生成一段相同長(zhǎng)度的文字描述,所需計(jì)算量可能只有前者的幾千分之一。

正是這個(gè)懸殊的代價(jià)差異,催生了這項(xiàng)研究的核心問(wèn)題:既然視頻生成本來(lái)就這么"貴",為什么不直接從一個(gè)已經(jīng)會(huì)生成視頻的AI出發(fā),再教會(huì)它理解視頻呢?畢竟,能夠生成一段視頻的AI,必然已經(jīng)深刻理解了文字和畫(huà)面之間的對(duì)應(yīng)關(guān)系——否則它根本沒(méi)辦法根據(jù)文字描述畫(huà)出對(duì)應(yīng)的畫(huà)面。

Uni-ViGU(統(tǒng)一視頻生成與理解框架)就是這一思路的具體實(shí)現(xiàn)。它的名字本身就是一份宣言:Unified Video Generation and Understanding,統(tǒng)一的視頻生成與理解。

一、視頻生成器為什么天然就"懂"視頻?

在深入了解Uni-ViGU的設(shè)計(jì)之前,有必要先弄清楚一個(gè)關(guān)鍵問(wèn)題:為什么一個(gè)"只會(huì)生成視頻"的AI,會(huì)被認(rèn)為已經(jīng)對(duì)視頻有了深入理解?

現(xiàn)代視頻生成AI的核心工作方式,是把一堆隨機(jī)噪點(diǎn)(可以理解為一張布滿雪花的電視屏幕)逐步"雕刻"成一段清晰的視頻。這個(gè)過(guò)程叫做"擴(kuò)散",整個(gè)模型則叫做擴(kuò)散模型。具體來(lái)說(shuō),這類AI會(huì)先把輸入的視頻壓縮成一種更緊湊的"隱藏表示"(類似于把一本厚厚的書(shū)提煉成一頁(yè)摘要),然后在這個(gè)壓縮的空間里學(xué)習(xí)如何從噪點(diǎn)還原出有意義的畫(huà)面。

這個(gè)過(guò)程中,AI需要接受文字提示作為引導(dǎo)——你告訴它"一只貓坐在陽(yáng)光下的窗臺(tái)上",它就要生成對(duì)應(yīng)的畫(huà)面。要做到這一點(diǎn),AI必須深刻理解"貓""陽(yáng)光""窗臺(tái)"這些概念在視覺(jué)上的表現(xiàn)形式,以及它們之間的空間和光線關(guān)系。這意味著,一個(gè)訓(xùn)練成熟的視頻生成AI,其內(nèi)部已經(jīng)隱含了大量關(guān)于"文字-視頻"對(duì)應(yīng)關(guān)系的知識(shí)。

Uni-ViGU的研究團(tuán)隊(duì)正是看到了這一點(diǎn)。他們的核心判斷是:如果AI已經(jīng)學(xué)會(huì)了"從文字到視頻"的映射,那么"從視頻到文字"的映射(也就是視頻理解)本質(zhì)上是同一個(gè)映射的反向過(guò)程。利用這種對(duì)稱性,可以大大降低讓AI學(xué)會(huì)看懂視頻的難度。

研究團(tuán)隊(duì)選擇的基礎(chǔ)模型是WAN2.1,這是目前業(yè)界最先進(jìn)且高效的文字-視頻生成模型之一。WAN2.1的內(nèi)部架構(gòu)包含三個(gè)主要部分:一個(gè)叫做VAE的視頻壓縮器(負(fù)責(zé)把視頻壓縮成緊湊的數(shù)字表示,以及把數(shù)字表示還原成視頻),一個(gè)文字編碼器(負(fù)責(zé)把文字轉(zhuǎn)換成AI能理解的數(shù)字形式),以及一個(gè)叫做DiT的擴(kuò)散Transformer(負(fù)責(zé)實(shí)際的"去噪"生成過(guò)程,是整個(gè)系統(tǒng)的大腦)。

在這個(gè)架構(gòu)基礎(chǔ)上,Uni-ViGU要做的事情可以比作給一位技藝精湛的導(dǎo)演加裝了一套"看片寫(xiě)劇本"的新技能——原有的拍攝能力完好保留,新增的能力則建立在拍攝經(jīng)驗(yàn)的基礎(chǔ)之上。

二、解決"兩種語(yǔ)言"的沖突:統(tǒng)一流匹配方法

現(xiàn)在出現(xiàn)了一個(gè)棘手的技術(shù)問(wèn)題。視頻生成和文字生成在本質(zhì)上是兩種截然不同的過(guò)程,把它們強(qiáng)行合并在一個(gè)框架里,就像試圖讓一臺(tái)打字機(jī)同時(shí)承擔(dān)鋼琴的工作——鍵盤(pán)長(zhǎng)得有點(diǎn)像,但運(yùn)作原理完全不同。

視頻的世界是"連續(xù)的"——顏色、亮度、運(yùn)動(dòng)可以取任意中間值,視頻中每一幀的每一個(gè)像素都是一個(gè)連續(xù)變化的數(shù)值。文字的世界則是"離散的"——詞語(yǔ)就是詞語(yǔ),"貓"和"狗"之間沒(méi)有半步的中間狀態(tài),每個(gè)詞要么存在要么不存在,不能取0.5個(gè)詞這種中間值。

傳統(tǒng)的擴(kuò)散模型擅長(zhǎng)處理連續(xù)數(shù)據(jù),而傳統(tǒng)的文字生成則依賴"從左到右,一個(gè)字一個(gè)字預(yù)測(cè)下一個(gè)字"的自回歸方式(就像我們寫(xiě)文章時(shí)的正常習(xí)慣),兩者在數(shù)學(xué)上是互不兼容的。

研究團(tuán)隊(duì)提出了一個(gè)叫做"統(tǒng)一流匹配"的方法來(lái)解決這個(gè)問(wèn)題。可以把它理解為設(shè)計(jì)了一套雙軌制的變形規(guī)則:視頻的"變形"走一條連續(xù)的軌道(從隨機(jī)噪點(diǎn)平滑地變成清晰視頻),文字的"變形"走另一條離散的軌道(從隨機(jī)亂碼平滑地聚攏成有意義的詞語(yǔ)),兩條軌道在同一個(gè)系統(tǒng)里同時(shí)運(yùn)作,互相協(xié)同。

具體來(lái)說(shuō),對(duì)于視頻,模型學(xué)習(xí)的是如何從一團(tuán)隨機(jī)噪點(diǎn)(數(shù)學(xué)上叫高斯噪聲)出發(fā),沿著一條直線路徑"流動(dòng)"到真實(shí)視頻的數(shù)字表示。這條路徑上的每一步,都是噪點(diǎn)和真實(shí)視頻按比例混合的結(jié)果——就像調(diào)色板上,純白和純紅各占多少比例,中間就是對(duì)應(yīng)比例的粉紅色。

對(duì)于文字,處理方式稍有不同,但思路相似。研究團(tuán)隊(duì)把詞匯表里的每一個(gè)詞都先轉(zhuǎn)換成一個(gè)連續(xù)的數(shù)字向量(可以理解為詞語(yǔ)的"數(shù)字指紋"),然后同樣讓模型學(xué)習(xí)從隨機(jī)噪點(diǎn)"流動(dòng)"到對(duì)應(yīng)詞語(yǔ)的數(shù)字指紋。當(dāng)推理完成后,最終得到的數(shù)字向量再通過(guò)查找最相似詞匯的方式,還原成具體的文字。

最關(guān)鍵的設(shè)計(jì)在于:視頻的流動(dòng)進(jìn)度和文字的流動(dòng)進(jìn)度是相互獨(dú)立的。在一次訓(xùn)練中,視頻可能已經(jīng)80%清晰了,而文字只有20%成形;或者反過(guò)來(lái)。這種獨(dú)立性讓模型必須學(xué)會(huì)在各種信息不完整的組合下,都能正確理解視頻和文字之間的對(duì)應(yīng)關(guān)系,從而習(xí)得更魯棒的跨模態(tài)理解能力。

在推理(實(shí)際使用)時(shí),這套系統(tǒng)可以靈活切換工作模式。如果要做視頻理解(看懂視頻并生成描述),就把視頻固定為已知的清晰狀態(tài),讓文字從噪點(diǎn)開(kāi)始慢慢"還原"出來(lái)。如果要做視頻生成,就把文字固定為已知的提示詞,讓視頻從噪點(diǎn)開(kāi)始生成。如果要同時(shí)生成視頻和配套描述文字,就讓兩者都從噪點(diǎn)出發(fā),同步演化,互相引導(dǎo)。

三、聰明地改造大腦:模態(tài)驅(qū)動(dòng)的專家混合架構(gòu)

有了處理兩種模態(tài)的數(shù)學(xué)框架,下一個(gè)問(wèn)題是:在AI的神經(jīng)網(wǎng)絡(luò)內(nèi)部,應(yīng)該怎么修改它的"大腦結(jié)構(gòu)",才能在不破壞原有視頻生成能力的前提下,添加文字生成能力?

研究團(tuán)隊(duì)對(duì)WAN2.1的內(nèi)部結(jié)構(gòu)進(jìn)行了一番解剖分析。視頻生成AI的大腦(DiT,擴(kuò)散Transformer)由許多層神經(jīng)網(wǎng)絡(luò)堆疊而成,每一層包含三個(gè)主要組件:自注意力層、交叉注意力層和前饋網(wǎng)絡(luò)層(FFN)。

自注意力層的功能類似于讓視頻中的每一個(gè)區(qū)域都"環(huán)顧四周",觀察其他區(qū)域的情況,從而理解整個(gè)場(chǎng)景的空間和時(shí)間關(guān)系。交叉注意力層則負(fù)責(zé)讓視頻內(nèi)容與文字提示相互"對(duì)話"——它是AI理解"畫(huà)面要符合文字描述"的核心機(jī)制。前饋網(wǎng)絡(luò)層則是獨(dú)立處理每一個(gè)位置的信息,可以理解為對(duì)每個(gè)局部特征進(jìn)行深度加工和提煉,其中儲(chǔ)存的主要是特定模態(tài)(視頻)的專有知識(shí)。

這種功能分工揭示了一個(gè)關(guān)鍵洞察:跨模態(tài)的對(duì)齊知識(shí)(也就是"這個(gè)詞對(duì)應(yīng)這種畫(huà)面"的知識(shí))主要儲(chǔ)存在注意力層里,因?yàn)樽⒁饬犹烊簧瞄L(zhǎng)處理不同位置、不同實(shí)體之間的關(guān)系。而具體模態(tài)的生成技巧(視頻要怎么畫(huà)、文字要怎么寫(xiě))則主要由前饋網(wǎng)絡(luò)層負(fù)責(zé)。

基于這個(gè)判斷,研究團(tuán)隊(duì)采取了一個(gè)外科手術(shù)般精準(zhǔn)的改造方案:保留所有注意力層不動(dòng),只為每個(gè)前饋網(wǎng)絡(luò)層添加一個(gè)新的"文字專家"分支,而原有的"視頻專家"前饋網(wǎng)絡(luò)權(quán)重完全保留。

改造后的架構(gòu)可以用一個(gè)工作室的比喻來(lái)理解:所有人(視頻和文字的信息)共用同一個(gè)開(kāi)放式會(huì)議室(共享的注意力層),在這里自由交流、互通信息;但離開(kāi)會(huì)議室后,視頻工作者回到自己的視頻編輯工作臺(tái)(視頻專用前饋網(wǎng)絡(luò)),文字工作者則去自己的寫(xiě)作桌(文字專用前饋網(wǎng)絡(luò)),各自用專業(yè)工具完成深度加工。

這個(gè)設(shè)計(jì)有幾個(gè)實(shí)際好處值得細(xì)說(shuō)。首先,注意力參數(shù)完全共享,意味著視頻生成過(guò)程中已經(jīng)學(xué)會(huì)的跨模態(tài)對(duì)齊知識(shí),可以直接被文字生成過(guò)程所使用,不需要從零學(xué)起。其次,新增的文字前饋網(wǎng)絡(luò)是獨(dú)立的,不會(huì)干擾原有的視頻生成能力,視頻生成的質(zhì)量得以完全保留。第三,增加的參數(shù)量相對(duì)很小——僅僅是為每一層多加了一個(gè)前饋網(wǎng)絡(luò)——而不需要復(fù)制整個(gè)模型。

值得一提的是,這種架構(gòu)在AI領(lǐng)域有一個(gè)專門(mén)的名字叫"專家混合"(Mixture of Experts,MoE),但通常的MoE需要用一個(gè)額外的"路由器"來(lái)決定每次應(yīng)該使用哪個(gè)專家。Uni-ViGU的設(shè)計(jì)更為簡(jiǎn)潔:路由規(guī)則完全由輸入數(shù)據(jù)的模態(tài)類型決定——視頻就用視頻專家,文字就用文字專家,沒(méi)有任何額外的路由器開(kāi)銷,也沒(méi)有路由決策出錯(cuò)的風(fēng)險(xiǎn)。

四、兩階段漸進(jìn)式訓(xùn)練:從"記住老本"到"學(xué)會(huì)新技能"

架構(gòu)設(shè)計(jì)好了,接下來(lái)是訓(xùn)練方法。研究團(tuán)隊(duì)設(shè)計(jì)了一套兩階段漸進(jìn)式訓(xùn)練方案,把它命名為"雙向訓(xùn)練機(jī)制"。

第一階段叫做"知識(shí)喚醒"階段。還記得前面說(shuō)過(guò),視頻生成AI已經(jīng)學(xué)會(huì)了"從文字到視頻"的映射嗎?知識(shí)喚醒階段要做的,就是把這個(gè)映射"激活"成雙向的。具體操作是:用一批視頻和對(duì)應(yīng)的文字提示詞作為訓(xùn)練數(shù)據(jù),讓模型在看到視頻的同時(shí),試圖"猜出"這段視頻當(dāng)初是用什么提示詞生成的。

但這里有個(gè)潛在的取巧風(fēng)險(xiǎn):如果訓(xùn)練時(shí)直接把原始提示詞也輸入給模型,模型可能會(huì)偷懶地直接復(fù)制提示詞,完全不去理會(huì)視頻內(nèi)容。為了堵住這個(gè)漏洞,研究團(tuán)隊(duì)引入了一個(gè)叫做"條件丟棄"的機(jī)制——在訓(xùn)練時(shí),有一定概率隨機(jī)抹掉輸入的提示詞,迫使模型必須從視頻本身去推斷對(duì)應(yīng)的文字,而不能依賴現(xiàn)成的提示詞作弊。

訓(xùn)練數(shù)據(jù)規(guī)模方面,第一階段使用了1萬(wàn)個(gè)視頻-提示詞對(duì)。這看起來(lái)數(shù)量不多,但這里有個(gè)聰明的設(shè)計(jì):訓(xùn)練用的視頻本身就是由WAN2.1(也就是Uni-ViGU的基礎(chǔ)模型)根據(jù)提示詞生成的合成視頻。由于視頻和提示詞來(lái)自同一個(gè)生成模型,它們之間的對(duì)應(yīng)關(guān)系對(duì)這個(gè)模型來(lái)說(shuō)是"與生俱來(lái)"的知識(shí),所以只需要相對(duì)少量的訓(xùn)練樣本就能完成知識(shí)喚醒。

另一個(gè)值得注意的工程細(xì)節(jié)是損失函數(shù)的權(quán)重設(shè)置。在訓(xùn)練過(guò)程中,視頻部分大約有3萬(wàn)個(gè)計(jì)算單元,而文字部分只有256個(gè)。如果按照相同的權(quán)重來(lái)優(yōu)化,視頻已經(jīng)訓(xùn)練得很好的部分會(huì)主導(dǎo)整個(gè)訓(xùn)練過(guò)程,文字理解能力反而得不到充分訓(xùn)練。研究團(tuán)隊(duì)因此把文字部分的訓(xùn)練權(quán)重相應(yīng)放大(具體數(shù)值約為30000/256,大約120倍),確保每個(gè)計(jì)算單元得到同等程度的優(yōu)化關(guān)注。

第一階段完成后,模型已經(jīng)能夠根據(jù)視頻內(nèi)容生成基本的文字描述,但生成的內(nèi)容往往比較粗淺——畢竟訓(xùn)練用的目標(biāo)文字只是簡(jiǎn)短的提示詞,而短提示詞通常只包含場(chǎng)景的大致輪廓,缺少細(xì)節(jié)。

這就引出了第二階段:能力精煉階段。這個(gè)階段的目標(biāo)是把模型的視頻理解能力從"看個(gè)大概"升級(jí)到"深入觀察"。具體做法是:在原有視頻和提示詞的基礎(chǔ)上,再引入一批由大語(yǔ)言模型輔助生成的"詳細(xì)說(shuō)明"——這些詳細(xì)說(shuō)明包含了視頻中人物的服裝顏色、表情動(dòng)作、背景中的細(xì)節(jié)裝飾、場(chǎng)景的光線變化、物體的運(yùn)動(dòng)軌跡等大量具體信息。

訓(xùn)練目標(biāo)從"猜出簡(jiǎn)短提示詞"變成了"生成詳盡描述"。這樣的訓(xùn)練數(shù)據(jù)有一個(gè)精心設(shè)計(jì)的約束:簡(jiǎn)短提示詞被限制在0到128個(gè)詞以內(nèi),而詳細(xì)說(shuō)明則必須在128到256個(gè)詞之間。這種長(zhǎng)度差異確保了詳細(xì)說(shuō)明中包含大量提示詞里根本沒(méi)有的信息,模型必須真正去"看"視頻,才能生成這些額外的細(xì)節(jié),無(wú)法再靠讀取提示詞取巧。

能力精煉階段使用了另外1萬(wàn)個(gè)視頻-提示詞-詳細(xì)說(shuō)明的三元組數(shù)據(jù),訓(xùn)練步數(shù)為6萬(wàn)步,學(xué)習(xí)率相對(duì)第一階段降低,采用更精細(xì)的微調(diào)方式。整個(gè)訓(xùn)練過(guò)程在16塊H800顯卡上進(jìn)行,耗時(shí)約一周。

五、同時(shí)"拍視頻"和"寫(xiě)劇本":聯(lián)合生成能力

Uni-ViGU最令人眼前一亮的能力,是能夠同時(shí)生成視頻和與之配套的詳細(xì)文字描述。這不是"先生成視頻,再用另一個(gè)模型描述視頻"的串聯(lián)做法,而是在同一個(gè)模型內(nèi)部,讓視頻和文字從各自的隨機(jī)噪點(diǎn)出發(fā),同步演化、互相引導(dǎo)。

這個(gè)過(guò)程可以用一段即興音樂(lè)表演來(lái)理解。兩位演奏者(視頻和文字)同時(shí)從"隨機(jī)亂彈"開(kāi)始,逐漸找到共同的節(jié)奏和旋律。在整個(gè)演奏過(guò)程中,每一步,視頻流正在成形的畫(huà)面會(huì)提供視覺(jué)上的"情緒"和"氛圍",引導(dǎo)文字流產(chǎn)生更貼切的描述;與此同時(shí),文字流中逐漸成形的語(yǔ)義結(jié)構(gòu),反過(guò)來(lái)告訴視頻流應(yīng)該往哪個(gè)方向繼續(xù)發(fā)展。兩者通過(guò)共享的自注意力層不斷交換信息,最終共同收斂到一個(gè)語(yǔ)義高度一致的視頻-文字對(duì)。

從論文給出的具體案例可以看到這種協(xié)同效應(yīng)的威力。以一個(gè)"海邊房屋門(mén)廊上的男服務(wù)員手持飲料托盤(pán)"的場(chǎng)景為例,原始提示詞只給出了大致場(chǎng)景描述,而Uni-ViGU聯(lián)合生成的詳細(xì)說(shuō)明則包含了服務(wù)員穿著黑色西裝配白襯衫、右手高舉銀色托盤(pán)、托盤(pán)上有四個(gè)裝有橙色飲料的高腳杯、走過(guò)淺色木質(zhì)甲板、海鷗在頭頂飛翔并投下動(dòng)態(tài)陰影等大量具體細(xì)節(jié)。這些細(xì)節(jié)不僅忠實(shí)反映了視頻內(nèi)容,而且用詞準(zhǔn)確、表達(dá)流暢,達(dá)到了真實(shí)視頻字幕的質(zhì)量水平。

另一個(gè)案例是一個(gè)紅蘋(píng)果被水流沖淋的極簡(jiǎn)場(chǎng)景,生成的詳細(xì)說(shuō)明捕捉到了蘋(píng)果放在木架上的具體姿態(tài)、水流的節(jié)律性涌動(dòng)、背景中升起的蒸汽、從側(cè)面透進(jìn)來(lái)的戲劇性光束等視覺(jué)細(xì)節(jié),整個(gè)描述具有強(qiáng)烈的臨場(chǎng)感和電影質(zhì)感。

六、研究的位置與意義:站在哪條河流的交匯點(diǎn)

Uni-ViGU的出現(xiàn)并非憑空而來(lái),它處于幾條重要研究脈絡(luò)的交匯點(diǎn)上,理解這些背景有助于更準(zhǔn)確地把握這項(xiàng)研究的價(jià)值。

在"統(tǒng)一多模態(tài)理解與生成"這個(gè)大方向上,過(guò)去的主流路線是從語(yǔ)言模型出發(fā)擴(kuò)展視覺(jué)能力。早期方法(如Janus、Show-o等)把圖像生成變成了詞語(yǔ)預(yù)測(cè)的一種——把圖像切成一個(gè)個(gè)小格子,每個(gè)格子用一個(gè)詞來(lái)表示,這樣圖像生成就變成了"寫(xiě)一篇關(guān)于圖像的特殊文章"。這種做法實(shí)現(xiàn)了統(tǒng)一,但視覺(jué)質(zhì)量有所損失,因?yàn)閳D像的細(xì)膩層次被粗糙的離散詞匯抹平了。后來(lái)的方法(如MetaMorph、BLIP3-O等)保留了擴(kuò)散模型的視覺(jué)質(zhì)量,但讓語(yǔ)言模型和擴(kuò)散模塊分開(kāi)訓(xùn)練,導(dǎo)致兩邊的知識(shí)無(wú)法充分共享。更新的方法(如引用中的雙塔框架)則讓理解模塊和生成模塊各建一套語(yǔ)言模型,再用交叉注意力連接,雖然更緊密,但參數(shù)量翻倍的代價(jià)相當(dāng)可觀。

Uni-ViGU選擇了一條不同的路:從生成模型出發(fā),以最小的架構(gòu)改動(dòng)(只增加文字專用FFN層)和最小的訓(xùn)練成本(共2萬(wàn)樣本,一周訓(xùn)練)實(shí)現(xiàn)統(tǒng)一。這種"輕量化改造強(qiáng)大基礎(chǔ)模型"的思路,與另外兩項(xiàng)相關(guān)工作有相似之處:一個(gè)是MMAR(在擴(kuò)散模型中統(tǒng)一圖文生成的早期工作),另一個(gè)是Omni-Diffusion(用離散擴(kuò)散方法統(tǒng)一圖文理解與生成)。但Uni-ViGU的特點(diǎn)在于專注于視頻模態(tài),并且充分利用了預(yù)訓(xùn)練視頻生成模型中已有的豐富知識(shí),而非從頭訓(xùn)練。

在"擴(kuò)散模型做文字生成"這條研究線上,LLaDA等工作已經(jīng)證明了擴(kuò)散框架可以在文字生成任務(wù)上與自回歸語(yǔ)言模型相競(jìng)爭(zhēng)。Uni-ViGU把這種離散文字?jǐn)U散和連續(xù)視頻擴(kuò)散放在同一個(gè)模型里聯(lián)合訓(xùn)練,是對(duì)這一研究方向的自然延伸,同時(shí)也是其在視頻理解場(chǎng)景下的首次系統(tǒng)性應(yīng)用。

說(shuō)到底,這項(xiàng)研究告訴了我們什么

歸根結(jié)底,Uni-ViGU代表了一種思維方式的轉(zhuǎn)變:不是把"會(huì)說(shuō)話的AI"訓(xùn)練到也能"畫(huà)畫(huà)",而是把"會(huì)畫(huà)畫(huà)的AI"教會(huì)了"用語(yǔ)言描述自己畫(huà)的東西"。前者的代價(jià)極其昂貴,因?yàn)槔L畫(huà)(尤其是視頻)是這兩件事里更難更復(fù)雜的那個(gè);后者則聰明得多,因?yàn)槟墚?huà)出東西的AI已經(jīng)理解了畫(huà)面,讓它用語(yǔ)言說(shuō)出來(lái)不過(guò)是把內(nèi)部知識(shí)外化。

當(dāng)然,這項(xiàng)研究還有很多待完善之處。訓(xùn)練數(shù)據(jù)目前僅有2萬(wàn)個(gè)樣本,這與動(dòng)輒數(shù)百萬(wàn)樣本的主流訓(xùn)練規(guī)模相比還相當(dāng)有限。當(dāng)前版本也主要展示了視頻理解(生成描述)和視頻生成的能力,在需要回答具體問(wèn)題(如"視頻中有幾個(gè)人?")等更復(fù)雜的理解任務(wù)上,還需要進(jìn)一步驗(yàn)證和改進(jìn)。此外,所用的訓(xùn)練視頻是由AI生成的合成視頻,真實(shí)世界視頻的復(fù)雜性和多樣性是否能被同樣好地處理,也是值得持續(xù)關(guān)注的問(wèn)題。

但這項(xiàng)研究在方法論上提出的問(wèn)題,卻有著相當(dāng)深遠(yuǎn)的意義:當(dāng)我們擁有了一個(gè)能夠"模擬世界"的生成模型,它對(duì)世界的"理解"究竟達(dá)到了什么程度?這種理解能夠如何被解鎖和利用?這些問(wèn)題的答案,也許將深刻影響AI系統(tǒng)的未來(lái)發(fā)展方向。對(duì)于對(duì)這個(gè)方向感興趣的讀者,可以通過(guò)arXiv檢索編號(hào)arXiv:2604.08121查閱完整論文,獲取所有技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果。

Q&A

Q1:Uni-ViGU是什么,它和普通的視頻AI有什么不同?

A:Uni-ViGU是由上海人工智能實(shí)驗(yàn)室與復(fù)旦大學(xué)聯(lián)合研發(fā)的統(tǒng)一視頻生成與理解框架。普通視頻AI要么只會(huì)生成視頻,要么只會(huì)分析視頻,兩者通常是分開(kāi)的系統(tǒng)。Uni-ViGU的特別之處在于,它從一個(gè)已經(jīng)能生成高質(zhì)量視頻的AI出發(fā),通過(guò)輕量化改造,讓同一個(gè)模型既能根據(jù)文字提示生成視頻,也能看懂視頻并生成詳細(xì)的文字描述,甚至可以同時(shí)生成視頻和配套說(shuō)明。

Q2:Uni-ViGU是如何讓視頻生成AI學(xué)會(huì)"看懂"視頻的?

A:核心思路是利用視頻生成和視頻理解的對(duì)稱性。一個(gè)能根據(jù)文字提示生成視頻的AI,內(nèi)部已經(jīng)編碼了大量"文字-畫(huà)面"對(duì)應(yīng)關(guān)系。Uni-ViGU通過(guò)兩階段訓(xùn)練來(lái)激活這種反向能力:第一階段讓模型從視頻中猜出原始提示詞,第二階段則要求模型生成包含更多細(xì)節(jié)的詳盡描述,迫使模型真正"看"視頻而非靠提示詞取巧。整個(gè)過(guò)程只用了2萬(wàn)個(gè)訓(xùn)練樣本,一周內(nèi)完成訓(xùn)練。

Q3:統(tǒng)一流匹配方法解決了什么具體問(wèn)題,為什么不能直接把視頻和文字放在一起訓(xùn)練?

A:視頻數(shù)據(jù)是連續(xù)的(顏色亮度可以取任意中間值),而文字是離散的(詞語(yǔ)之間沒(méi)有"半個(gè)詞"的中間狀態(tài)),兩者在數(shù)學(xué)上不兼容,無(wú)法直接用同一套訓(xùn)練方式處理。統(tǒng)一流匹配方法的解決方案是給視頻設(shè)計(jì)一條連續(xù)變化的"流動(dòng)軌道",給文字設(shè)計(jì)一條離散但同樣可以用連續(xù)數(shù)學(xué)表示的"流動(dòng)軌道",兩條軌道在同一個(gè)模型里同步運(yùn)作,速度可以相互獨(dú)立,從而讓模型在各種信息不完整的組合下都能學(xué)習(xí)兩種模態(tài)之間的對(duì)應(yīng)關(guān)系。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
綜合ROI時(shí)代,這些高速增長(zhǎng)的商家做對(duì)了什么?

綜合ROI時(shí)代,這些高速增長(zhǎng)的商家做對(duì)了什么?

刀法研究所
2026-04-16 15:00:13
G2湖人101-94戰(zhàn)勝火箭 球員評(píng)價(jià):4人優(yōu)秀,3人及格,2人低迷

G2湖人101-94戰(zhàn)勝火箭 球員評(píng)價(jià):4人優(yōu)秀,3人及格,2人低迷

籃球資訊達(dá)人
2026-04-22 13:27:16
注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

夜深愛(ài)雜談
2026-04-21 07:45:20
iPhone Fold 國(guó)內(nèi)售價(jià)1.4萬(wàn)元?散熱方案曝光,這次信息量有點(diǎn)大

iPhone Fold 國(guó)內(nèi)售價(jià)1.4萬(wàn)元?散熱方案曝光,這次信息量有點(diǎn)大

數(shù)碼Antenna
2026-04-22 11:47:48
建國(guó)后外逃級(jí)別最高的貪官!至今未落網(wǎng),23年來(lái)逃跑方式仍是謎

建國(guó)后外逃級(jí)別最高的貪官!至今未落網(wǎng),23年來(lái)逃跑方式仍是謎

老范談史
2026-04-22 16:45:31
段睿悲痛萬(wàn)分,深夜發(fā)布訃告:他走了,再也沒(méi)有人等我回去了!

段睿悲痛萬(wàn)分,深夜發(fā)布訃告:他走了,再也沒(méi)有人等我回去了!

米果說(shuō)識(shí)
2026-04-22 14:41:50
到賬230億,賈躍亭起飛!

到賬230億,賈躍亭起飛!

鳴金網(wǎng)
2026-04-21 19:58:22
華為乾崑的3次“死磕”舉動(dòng),成了車圈最難抄的作業(yè)

華為乾崑的3次“死磕”舉動(dòng),成了車圈最難抄的作業(yè)

金錯(cuò)刀
2026-04-21 14:22:17
炸裂!網(wǎng)傳寧波某豪宅業(yè)主群夫妻大戰(zhàn),虎狼之詞流出,444人圍觀

炸裂!網(wǎng)傳寧波某豪宅業(yè)主群夫妻大戰(zhàn),虎狼之詞流出,444人圍觀

火山詩(shī)話
2026-04-22 17:56:13
拼多多暴力抗法震驚全網(wǎng),市值萬(wàn)億巨頭為何如此囂張

拼多多暴力抗法震驚全網(wǎng),市值萬(wàn)億巨頭為何如此囂張

燕梳樓頻道
2026-04-20 21:12:04
你寫(xiě)的Skill,正在拖慢模型?策略式Gene才是正確答案

你寫(xiě)的Skill,正在拖慢模型?策略式Gene才是正確答案

機(jī)器之心Pro
2026-04-21 18:54:52
5月1日起正式嚴(yán)打!8類灰色行為直接入刑,所有人務(wù)必警惕

5月1日起正式嚴(yán)打!8類灰色行為直接入刑,所有人務(wù)必警惕

另子維愛(ài)讀史
2026-04-22 07:39:03
曾高喊打敗美帝:如今卻全家跑去美國(guó),84歲活成這樣,引人熱議!

曾高喊打敗美帝:如今卻全家跑去美國(guó),84歲活成這樣,引人熱議!

小莜讀史
2026-04-20 22:58:35
演員王大陸一審被判刑

演員王大陸一審被判刑

極目新聞
2026-04-22 12:35:08
情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

深圳晚報(bào)
2026-04-22 10:11:17
讓華北的地下水上一次熱搜吧!

讓華北的地下水上一次熱搜吧!

細(xì)雨中的呼喊
2026-04-22 13:29:31
2013年,江青拍攝的照片以34萬(wàn)元的高價(jià)拍出,毛澤東曾稱贊并題詞

2013年,江青拍攝的照片以34萬(wàn)元的高價(jià)拍出,毛澤東曾稱贊并題詞

南書(shū)房
2026-04-21 07:25:06
俄羅斯為什么刪除20年法院數(shù)據(jù):審判記錄一夜清空

俄羅斯為什么刪除20年法院數(shù)據(jù):審判記錄一夜清空

律法刑道
2026-04-22 08:53:34
把 DeepSeek、Kimi、智譜和 MiniMax 拉進(jìn)群聊

把 DeepSeek、Kimi、智譜和 MiniMax 拉進(jìn)群聊

愛(ài)范兒
2026-04-21 22:36:25
出海更難了!俄朝圖們江公路大橋合攏,預(yù)計(jì)今年6月正式通車

出海更難了!俄朝圖們江公路大橋合攏,預(yù)計(jì)今年6月正式通車

全城探秘
2026-04-22 16:41:13
2026-04-22 19:39:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)停火期限

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

時(shí)尚
本地
教育
健康
公開(kāi)課

初夏穿赫本的白褲子,清新又高級(jí)!

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

教育要聞

【媒體聚焦】南方工報(bào) | 廣東省教育研究院走進(jìn)湛江開(kāi)展教研幫扶

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版