網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

北大VABench：首個(gè)音視頻生成綜合評(píng)估基準(zhǔn)

2025-12-19 17:46:39　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由北京大學(xué)、螞蟻集團(tuán)、中科院自動(dòng)化所以及華中科技大學(xué)聯(lián)合完成的研究發(fā)表于2025年12月，論文編號(hào)為arXiv:2512.09299v1。有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢(xún)完整論文。

當(dāng)你打開(kāi)手機(jī)觀看短視頻時(shí)，是否曾經(jīng)驚嘆于那些栩栩如生的人物配音和背景音效？現(xiàn)在的人工智能已經(jīng)能夠生成令人驚嘆的視頻內(nèi)容，但這些視頻中的聲音和畫(huà)面是否真正匹配，一直是個(gè)讓研究者頭疼的問(wèn)題。就好比一個(gè)廚師做菜，雖然能做出色香味俱全的菜肴，但如何準(zhǔn)確評(píng)判這道菜是否真正達(dá)到了完美的平衡，卻缺少一套科學(xué)的標(biāo)準(zhǔn)。

以往的視頻生成技術(shù)主要關(guān)注畫(huà)面質(zhì)量，就像只看菜的外觀是否精美，卻忽略了味道是否協(xié)調(diào)。但現(xiàn)實(shí)世界中，我們的感官體驗(yàn)是多維度的——當(dāng)你看到瀑布奔流時(shí)，耳邊應(yīng)該響起水聲；當(dāng)你看到吉他手撥弦時(shí)，音樂(lè)應(yīng)該與手指動(dòng)作完全同步。這種音畫(huà)同步的自然體驗(yàn)，正是現(xiàn)在AI技術(shù)努力追求的目標(biāo)。

然而，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵問(wèn)題：雖然現(xiàn)在已經(jīng)出現(xiàn)了Sora 2、Veo 3、萬(wàn)象2.5等能夠同時(shí)生成音頻和視頻的先進(jìn)模型，但學(xué)術(shù)界缺乏一套全面、科學(xué)的評(píng)估體系來(lái)判斷這些模型的表現(xiàn)。這就像擁有了世界頂級(jí)的廚師，卻沒(méi)有專(zhuān)業(yè)的美食評(píng)委來(lái)公正評(píng)判他們的作品。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)開(kāi)發(fā)了VABench——一個(gè)專(zhuān)門(mén)針對(duì)音視頻同步生成的綜合評(píng)估基準(zhǔn)。這套系統(tǒng)就像是為AI視頻生成領(lǐng)域量身定制的"全能考試"，不僅要測(cè)試AI能否生成清晰的畫(huà)面和悅耳的聲音，更要檢驗(yàn)它們是否能像真實(shí)世界一樣自然協(xié)調(diào)。

研究團(tuán)隊(duì)的創(chuàng)新之處在于，他們不僅僅關(guān)注技術(shù)指標(biāo)，更從人類(lèi)感知的角度出發(fā)，設(shè)計(jì)了一套既科學(xué)又貼近實(shí)際的評(píng)估方法。這套方法涵蓋了從簡(jiǎn)單的文字轉(zhuǎn)視頻，到復(fù)雜的圖像轉(zhuǎn)視頻，再到立體聲音頻生成等多個(gè)維度，確保能夠全方位地考察AI模型的能力。

一、音視頻生成的三大挑戰(zhàn)：從單一到協(xié)調(diào)的技術(shù)跨越

當(dāng)我們欣賞一部電影時(shí)，很少會(huì)刻意去思考聲音和畫(huà)面是如何完美融合的。但對(duì)于AI來(lái)說(shuō)，要實(shí)現(xiàn)這種看似自然的協(xié)調(diào)，卻需要解決三個(gè)層次遞增的技術(shù)難題。

第一個(gè)挑戰(zhàn)是文字轉(zhuǎn)音視頻生成。這就像讓一個(gè)從未見(jiàn)過(guò)外面世界的人僅憑文字描述就要畫(huà)出一幅聲畫(huà)并茂的作品。比如，當(dāng)輸入"清晨鳥(niǎo)兒在枝頭歡快歌唱"這樣的文字時(shí)，AI不僅要生成鳥(niǎo)兒在枝頭的畫(huà)面，還要配上相應(yīng)的鳥(niǎo)鳴聲，更重要的是，鳥(niǎo)兒的嘴部動(dòng)作要與鳥(niǎo)鳴的節(jié)拍完全吻合。這種從抽象文字到具體多媒體內(nèi)容的轉(zhuǎn)換，需要AI具備超強(qiáng)的想象力和創(chuàng)造力。

第二個(gè)挑戰(zhàn)是圖像轉(zhuǎn)音視頻生成。這個(gè)過(guò)程可以理解為給一張靜態(tài)照片"賦予生命"。假設(shè)你有一張海浪拍打礁石的照片，AI需要讓這張照片動(dòng)起來(lái)，不僅要讓海浪真實(shí)地翻滾，還要配上相應(yīng)的海浪聲。這個(gè)過(guò)程比文字轉(zhuǎn)換更加復(fù)雜，因?yàn)锳I必須從有限的視覺(jué)信息中推斷出合理的動(dòng)態(tài)過(guò)程和聲音特征，就像偵探通過(guò)現(xiàn)場(chǎng)照片重構(gòu)犯罪現(xiàn)場(chǎng)一樣。

第三個(gè)挑戰(zhàn)是立體聲音頻生成。在真實(shí)世界中，我們的雙耳能夠感知聲音的方向和距離。當(dāng)飛機(jī)從左側(cè)飛過(guò)時(shí)，我們能清楚地感受到聲音從左向右移動(dòng)。這種空間聽(tīng)覺(jué)體驗(yàn)對(duì)于營(yíng)造沉浸感至關(guān)重要。AI需要學(xué)會(huì)生成這種具有空間感的立體聲，讓用戶(hù)通過(guò)耳機(jī)就能感受到仿佛身臨其境的音響效果。

研究團(tuán)隊(duì)在設(shè)計(jì)VABench時(shí)，特別針對(duì)這三個(gè)挑戰(zhàn)設(shè)置了相應(yīng)的測(cè)試場(chǎng)景。他們收集了778個(gè)文字轉(zhuǎn)視頻樣本和521個(gè)圖像轉(zhuǎn)視頻樣本，涵蓋了從簡(jiǎn)單的動(dòng)物叫聲到復(fù)雜的城市環(huán)境等各種場(chǎng)景。為了測(cè)試立體聲生成能力，他們還設(shè)計(jì)了116個(gè)專(zhuān)門(mén)的立體聲測(cè)試樣本，每個(gè)樣本都明確指定了左右聲道應(yīng)該呈現(xiàn)的不同聲音內(nèi)容。

有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有的AI模型在處理這三個(gè)挑戰(zhàn)時(shí)表現(xiàn)差異巨大。一些模型在生成單一音頻或視頻方面表現(xiàn)出色，但在音畫(huà)同步方面卻差強(qiáng)人意，就像一個(gè)優(yōu)秀的獨(dú)唱演員在合唱時(shí)卻找不準(zhǔn)拍子。而另一些模型雖然能夠較好地實(shí)現(xiàn)同步，但生成的內(nèi)容質(zhì)量卻有待提高。

更令人意外的是，在立體聲生成方面，幾乎所有現(xiàn)有模型都表現(xiàn)不佳。大多數(shù)模型生成的所謂"立體聲"實(shí)際上只是單聲道的復(fù)制，缺乏真正的空間感。這個(gè)發(fā)現(xiàn)提醒研究者，AI在音頻空間感知方面還有很大的提升空間。

二、七大內(nèi)容類(lèi)別：從動(dòng)物世界到虛擬空間的全景測(cè)試

為了全面測(cè)試AI模型的能力，研究團(tuán)隊(duì)精心設(shè)計(jì)了七個(gè)內(nèi)容類(lèi)別，這些類(lèi)別就像是一個(gè)完整的世界地圖，涵蓋了從最基礎(chǔ)的自然聲音到最復(fù)雜的虛擬場(chǎng)景。

動(dòng)物類(lèi)別是最基礎(chǔ)也是最有趣的測(cè)試領(lǐng)域。每種動(dòng)物都有其獨(dú)特的聲音特征和行為模式。當(dāng)AI生成一只獅子咆哮的畫(huà)面時(shí)，不僅要確保獅子的口型與咆哮聲匹配，還要體現(xiàn)出獅子咆哮時(shí)的威嚴(yán)姿態(tài)。研究團(tuán)隊(duì)發(fā)現(xiàn)，AI在處理不同動(dòng)物時(shí)表現(xiàn)差異顯著，對(duì)于常見(jiàn)的貓狗等寵物，AI的表現(xiàn)相對(duì)較好，但對(duì)于一些稀有動(dòng)物或昆蟲(chóng)的聲音，準(zhǔn)確度就大打折扣。

人類(lèi)聲音類(lèi)別是技術(shù)難度最高的測(cè)試項(xiàng)目。這個(gè)類(lèi)別又分為語(yǔ)言類(lèi)和非語(yǔ)言類(lèi)兩個(gè)子類(lèi)別。語(yǔ)言類(lèi)包括正常說(shuō)話(huà)、唱歌等，需要實(shí)現(xiàn)精確的唇語(yǔ)同步；非語(yǔ)言類(lèi)則包括哭泣、笑聲、嘆息等情感表達(dá)。研究團(tuán)隊(duì)發(fā)現(xiàn)，幾乎所有AI模型在人類(lèi)聲音處理方面都存在明顯短板，特別是在情感表達(dá)的細(xì)膩程度上還遠(yuǎn)不如人類(lèi)演員。

音樂(lè)類(lèi)別測(cè)試AI對(duì)結(jié)構(gòu)化聲音的理解能力。當(dāng)生成一個(gè)鋼琴演奏的場(chǎng)景時(shí)，AI不僅要讓琴鍵的按壓動(dòng)作與音樂(lè)節(jié)拍吻合，還要體現(xiàn)出演奏者的情感投入。有趣的是，AI在處理音樂(lè)類(lèi)內(nèi)容時(shí)表現(xiàn)相對(duì)較好，可能是因?yàn)橐魳?lè)有著相對(duì)清晰的結(jié)構(gòu)和規(guī)律，更容易被AI學(xué)習(xí)和模仿。

環(huán)境類(lèi)別涵蓋了自然、城市和室內(nèi)三大場(chǎng)景類(lèi)型。海浪聲配合海岸畫(huà)面、車(chē)流聲配合城市街道、咖啡機(jī)聲配合咖啡廳場(chǎng)景等，這些看似簡(jiǎn)單的組合實(shí)際上需要AI對(duì)不同環(huán)境的深度理解。研究顯示，AI在處理自然環(huán)境聲音時(shí)表現(xiàn)最佳，而在復(fù)雜的城市環(huán)境中容易出現(xiàn)聲音混亂的問(wèn)題。

同步物理聲音類(lèi)別是對(duì)AI物理常識(shí)的直接考驗(yàn)。當(dāng)一個(gè)皮球掉落時(shí)，撞擊地面的聲音應(yīng)該與皮球接觸地面的瞬間完全同步；當(dāng)雨滴打在不同材質(zhì)表面時(shí)，應(yīng)該產(chǎn)生相應(yīng)的聲音差異。這個(gè)類(lèi)別要求AI不僅要理解物理規(guī)律，還要將這種理解準(zhǔn)確地體現(xiàn)在音畫(huà)同步上。

復(fù)雜場(chǎng)景類(lèi)別是對(duì)AI綜合能力的終極考驗(yàn)。這個(gè)類(lèi)別包括多重音源、主觀感受、世界知識(shí)、象征性聯(lián)想和隱藏音源等五個(gè)維度。比如，在一個(gè)繁忙的咖啡廳場(chǎng)景中，AI需要同時(shí)處理對(duì)話(huà)聲、咖啡機(jī)聲、背景音樂(lè)等多種聲音，并合理地分配它們的音量和空間位置。這種復(fù)雜場(chǎng)景的處理能力直接反映了AI的智能水平。

虛擬世界類(lèi)別是最具創(chuàng)意挑戰(zhàn)的測(cè)試領(lǐng)域。在這個(gè)類(lèi)別中，AI需要為超越現(xiàn)實(shí)物理規(guī)律的場(chǎng)景創(chuàng)造合理的音效。比如，魔法師施法時(shí)應(yīng)該配什么樣的聲音？飛龍吐火時(shí)應(yīng)該是怎樣的音效？這些都沒(méi)有現(xiàn)實(shí)世界的直接參照，完全依賴(lài)AI的創(chuàng)意能力和對(duì)虛擬世界邏輯的理解。

三、十五維度評(píng)估體系：科學(xué)與藝術(shù)的完美結(jié)合

為了公正而全面地評(píng)估AI模型的表現(xiàn)，研究團(tuán)隊(duì)開(kāi)發(fā)了一套包含15個(gè)維度的評(píng)估體系。這套體系就像是一個(gè)精密的儀器，能夠從不同角度測(cè)量AI生成內(nèi)容的質(zhì)量。

評(píng)估體系分為兩大類(lèi)：專(zhuān)家模型評(píng)估和多模態(tài)語(yǔ)言模型評(píng)估。這種設(shè)計(jì)就像是請(qǐng)來(lái)了兩種不同類(lèi)型的評(píng)委——一類(lèi)是專(zhuān)精某個(gè)領(lǐng)域的技術(shù)專(zhuān)家，另一類(lèi)是具有綜合判斷能力的通才評(píng)委。

專(zhuān)家模型評(píng)估主要關(guān)注可以量化的技術(shù)指標(biāo)。在音頻質(zhì)量方面，系統(tǒng)會(huì)檢測(cè)語(yǔ)音的清晰度、自然度和美學(xué)品質(zhì)。就像專(zhuān)業(yè)的錄音師能夠精確判斷錄音質(zhì)量一樣，這些專(zhuān)家模型能夠客觀地評(píng)估音頻的技術(shù)水準(zhǔn)。語(yǔ)音清晰度測(cè)試主要針對(duì)人類(lèi)語(yǔ)言?xún)?nèi)容，檢查是否有背景噪音干擾和發(fā)音是否清晰；語(yǔ)音自然度則評(píng)估合成語(yǔ)音是否聽(tīng)起來(lái)像真人說(shuō)話(huà)；音頻美學(xué)評(píng)估則從娛樂(lè)性、實(shí)用性、制作復(fù)雜度和制作質(zhì)量四個(gè)角度進(jìn)行綜合評(píng)分。

跨模態(tài)語(yǔ)義對(duì)齊是評(píng)估系統(tǒng)的核心技術(shù)指標(biāo)。這個(gè)維度檢查文字描述、視頻內(nèi)容和音頻內(nèi)容是否在語(yǔ)義上保持一致。比如，當(dāng)文字描述是"雷雨夜"時(shí)，視頻應(yīng)該顯示閃電和烏云，音頻應(yīng)該有雷聲和雨聲，三者必須在主題上高度統(tǒng)一。系統(tǒng)通過(guò)計(jì)算不同模態(tài)之間的語(yǔ)義相似度來(lái)量化這種對(duì)齊程度。

時(shí)間同步評(píng)估是最具挑戰(zhàn)性的技術(shù)測(cè)試。系統(tǒng)會(huì)精確測(cè)量音頻事件與視頻事件之間的時(shí)間偏差，特別是唇語(yǔ)同步的準(zhǔn)確性。這個(gè)過(guò)程需要先檢測(cè)視頻中是否存在說(shuō)話(huà)的人臉，然后分析嘴唇動(dòng)作與語(yǔ)音的匹配程度。研究團(tuán)隊(duì)使用了專(zhuān)門(mén)的同步評(píng)估模型，能夠檢測(cè)出毫秒級(jí)的時(shí)間偏差。

多模態(tài)語(yǔ)言模型評(píng)估則關(guān)注更加主觀和綜合的質(zhì)量判斷。這類(lèi)評(píng)估就像請(qǐng)來(lái)了一批具有藝術(shù)鑒賞力的評(píng)委，他們不僅關(guān)注技術(shù)指標(biāo)，更重視整體的感受和體驗(yàn)。

音視頻協(xié)調(diào)性評(píng)估檢查音頻和視頻是否給人以和諧統(tǒng)一的感覺(jué)。這個(gè)維度不僅考慮技術(shù)同步，還關(guān)注情感一致性。比如，悲傷的畫(huà)面配上歡快的音樂(lè)就會(huì)被判定為協(xié)調(diào)性差，即使在技術(shù)上沒(méi)有明顯錯(cuò)誤。

藝術(shù)性評(píng)估關(guān)注生成內(nèi)容的美學(xué)價(jià)值和創(chuàng)意表達(dá)。這個(gè)維度考察音視頻融合是否產(chǎn)生了超越單純技術(shù)指標(biāo)的藝術(shù)效果，是否能夠觸動(dòng)觀看者的情感，是否體現(xiàn)了獨(dú)特的創(chuàng)意理念。

表現(xiàn)力評(píng)估關(guān)注音頻對(duì)視覺(jué)內(nèi)容的敘事支持能力。優(yōu)秀的音視頻作品中，聲音不僅僅是畫(huà)面的附屬品，更是情感表達(dá)和故事敘述的重要工具。這個(gè)維度評(píng)估音頻是否有效地增強(qiáng)了視覺(jué)內(nèi)容的表現(xiàn)力，是否幫助觀眾更好地理解和感受作品想要傳達(dá)的信息。

真實(shí)性評(píng)估則分為音頻真實(shí)性和視覺(jué)真實(shí)性?xún)蓚€(gè)子維度。音頻真實(shí)性檢查聲音是否符合物理規(guī)律，比如音量是否隨距離合理變化，不同材質(zhì)的撞擊聲是否符合真實(shí)世界的聲學(xué)特性。視覺(jué)真實(shí)性則評(píng)估畫(huà)面是否遵循物理法則，光影效果是否合理，物體運(yùn)動(dòng)是否符合力學(xué)原理。

細(xì)粒度問(wèn)答評(píng)估是最具創(chuàng)新性的評(píng)估方法。系統(tǒng)會(huì)針對(duì)每個(gè)測(cè)試樣本生成3到7個(gè)具體的問(wèn)題，涵蓋聲音和畫(huà)面的各種細(xì)節(jié)。比如，對(duì)于一個(gè)鋼琴演奏的視頻，可能會(huì)問(wèn)"演奏者的手指動(dòng)作是否與音符節(jié)拍一致？"、"鋼琴的音色是否明亮清晰？"、"演奏者的表情是否與音樂(lè)情緒匹配？"這種評(píng)估方法能夠深入挖掘AI生成內(nèi)容的具體優(yōu)缺點(diǎn)。

四、立體聲空間音頻：讓聽(tīng)覺(jué)體驗(yàn)真正立體化

在所有的評(píng)估維度中，立體聲音頻生成能力的測(cè)試最為特殊，也最能體現(xiàn)AI技術(shù)的先進(jìn)程度。這個(gè)測(cè)試就像是檢驗(yàn)AI是否具備了人類(lèi)的空間聽(tīng)覺(jué)能力。

人類(lèi)的雙耳系統(tǒng)就像是一個(gè)精密的聲音定位雷達(dá)。當(dāng)聲音從不同方向傳來(lái)時(shí)，由于到達(dá)兩只耳朵的時(shí)間差和音量差，大腦能夠準(zhǔn)確判斷聲源的位置。這種能力讓我們?cè)趶?fù)雜的聲音環(huán)境中也能準(zhǔn)確定位，比如在嘈雜的聚會(huì)中依然能聽(tīng)清楚特定人的說(shuō)話(huà)聲。

研究團(tuán)隊(duì)設(shè)計(jì)了116個(gè)專(zhuān)門(mén)的立體聲測(cè)試樣本，每個(gè)樣本都明確指定了左右聲道應(yīng)該呈現(xiàn)的不同內(nèi)容。比如，一個(gè)測(cè)試樣本可能要求"左聲道播放海浪聲，右聲道播放海鷗叫聲"，AI需要生成相應(yīng)的立體聲視頻，讓觀看者通過(guò)耳機(jī)能夠清楚地感受到聲音的空間分布。

立體聲評(píng)估包含九個(gè)核心聲學(xué)指標(biāo)，這些指標(biāo)構(gòu)成了一個(gè)完整的空間音頻質(zhì)量評(píng)估體系。空間成像質(zhì)量主要評(píng)估聲音在空間中的分布是否合理，包括立體聲寬度、成像穩(wěn)定性、電平穩(wěn)定性等。立體聲寬度測(cè)量的是聲場(chǎng)的開(kāi)闊程度，優(yōu)秀的立體聲應(yīng)該能夠營(yíng)造出寬廣的聽(tīng)音環(huán)境；成像穩(wěn)定性檢查聲源位置是否穩(wěn)定，避免聲音在左右聲道間無(wú)規(guī)律地跳動(dòng)；電平穩(wěn)定性則確保左右聲道的音量平衡合理。

信號(hào)完整性和兼容性主要關(guān)注技術(shù)穩(wěn)定性和跨設(shè)備兼容性。相位一致性檢查左右聲道的相位關(guān)系是否正確，避免出現(xiàn)相位抵消導(dǎo)致的音質(zhì)下降；單聲道兼容性測(cè)試確保立體聲在單聲道設(shè)備上播放時(shí)不會(huì)出現(xiàn)嚴(yán)重的音質(zhì)損失；方向一致性則驗(yàn)證聲音的空間定位是否準(zhǔn)確。

研究結(jié)果顯示，目前的AI模型在立體聲生成方面普遍表現(xiàn)不佳。大多數(shù)模型生成的所謂"立體聲"實(shí)際上只是將單聲道音頻簡(jiǎn)單復(fù)制到兩個(gè)聲道，缺乏真正的空間分離效果。即使在某些表現(xiàn)較好的模型中，立體聲效果也主要體現(xiàn)為簡(jiǎn)單的左右音量分配，而不是語(yǔ)義層面的空間布局。

這個(gè)發(fā)現(xiàn)揭示了一個(gè)重要問(wèn)題：當(dāng)前的AI模型雖然在音視頻生成方面已經(jīng)取得了顯著進(jìn)步，但在空間音頻理解方面仍處于起步階段。這就像是一個(gè)畫(huà)家雖然能畫(huà)出精美的平面作品，但對(duì)于立體透視的掌握還不夠嫻熟。

五、模型大比拼：端到端訓(xùn)練 vs 分步組裝的技術(shù)路線(xiàn)之爭(zhēng)

研究團(tuán)隊(duì)測(cè)試了多個(gè)當(dāng)前最先進(jìn)的AI模型，這些模型代表了兩種不同的技術(shù)路線(xiàn)。第一種是端到端的音視頻聯(lián)合生成模型，如Veo3、Sora2和萬(wàn)象2.5；第二種是分步式的視頻加音頻組合模型，如Seedance配合MMAudio、Kling配合ThinkSound等組合。

這兩種技術(shù)路線(xiàn)就像是兩種不同的烹飪方法：一種是一鍋燉，所有食材從一開(kāi)始就放在一起慢慢烹飪，各種味道能夠充分融合；另一種是分別烹飪，最后再組合裝盤(pán)，每個(gè)部分都能精工細(xì)作，但融合度可能稍遜一籌。

在端到端模型中，Veo3表現(xiàn)最為均衡，特別是在音頻質(zhì)量和跨模態(tài)語(yǔ)義對(duì)齊方面表現(xiàn)突出。這個(gè)模型就像是一個(gè)全能型選手，雖然在某些單項(xiàng)上不是最強(qiáng)，但綜合實(shí)力最為均衡。Veo3在動(dòng)物聲音處理方面表現(xiàn)最佳，在復(fù)雜場(chǎng)景的音視頻協(xié)調(diào)上也有不錯(cuò)的表現(xiàn)。

Sora2在視覺(jué)真實(shí)性方面表現(xiàn)最好，特別是在人物表情和物理運(yùn)動(dòng)的真實(shí)性上有著明顯優(yōu)勢(shì)。但是，Sora2在音頻美學(xué)方面稍顯不足，生成的音頻有時(shí)聽(tīng)起來(lái)比較機(jī)械化，缺乏自然的變化。

萬(wàn)象2.5的最大優(yōu)勢(shì)在于音視頻同步，特別是在唇語(yǔ)同步方面表現(xiàn)最佳。當(dāng)生成人物說(shuō)話(huà)的場(chǎng)景時(shí)，萬(wàn)象2.5能夠?qū)崿F(xiàn)幾乎完美的口型匹配。然而，這個(gè)模型在跨模態(tài)語(yǔ)義對(duì)齊方面稍有不足，有時(shí)音頻內(nèi)容與文字描述的匹配度不夠高。

在分步式模型組合中，表現(xiàn)最好的是Kling配合MMAudio的組合。Kling作為視頻生成模型，在視覺(jué)質(zhì)量方面表現(xiàn)優(yōu)異，而MMAudio在音頻生成方面有著不錯(cuò)的表現(xiàn)。這個(gè)組合的優(yōu)勢(shì)在于可以針對(duì)視頻和音頻分別進(jìn)行優(yōu)化，在某些細(xì)分領(lǐng)域甚至能夠超越端到端模型。

有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)，端到端模型在需要高度音視頻協(xié)調(diào)的任務(wù)中表現(xiàn)明顯更好，特別是在人類(lèi)語(yǔ)音和復(fù)雜場(chǎng)景處理方面。這個(gè)發(fā)現(xiàn)證實(shí)了聯(lián)合訓(xùn)練的重要性——當(dāng)音頻和視頻從訓(xùn)練階段就開(kāi)始協(xié)同學(xué)習(xí)時(shí)，它們之間的配合會(huì)更加默契。

然而，分步式模型在某些特定領(lǐng)域表現(xiàn)出了獨(dú)特優(yōu)勢(shì)。比如，在音樂(lè)生成方面，專(zhuān)門(mén)的音頻模型往往能夠產(chǎn)生更高質(zhì)量的音樂(lè)內(nèi)容。這就像是請(qǐng)專(zhuān)業(yè)的音樂(lè)家來(lái)配樂(lè)，效果可能比多面手更加出色。

更令人意外的是，在虛擬世界內(nèi)容生成方面，所有模型的表現(xiàn)都相對(duì)較差。這個(gè)類(lèi)別沒(méi)有現(xiàn)實(shí)世界的直接參照，完全依賴(lài)模型的創(chuàng)意能力和邏輯推理。這個(gè)發(fā)現(xiàn)提醒研究者，雖然AI在模仿現(xiàn)實(shí)世界方面已經(jīng)相當(dāng)出色，但在創(chuàng)造性想象方面還有很大的提升空間。

六、音畫(huà)同步的物理挑戰(zhàn)：多普勒效應(yīng)與雷電先后的智能考驗(yàn)

為了深入了解AI模型對(duì)物理規(guī)律的理解程度，研究團(tuán)隊(duì)設(shè)計(jì)了一系列特殊的測(cè)試場(chǎng)景，其中最具挑戰(zhàn)性的是多普勒效應(yīng)和雷電順序的模擬。

多普勒效應(yīng)是日常生活中常見(jiàn)的物理現(xiàn)象。當(dāng)救護(hù)車(chē)從遠(yuǎn)處駛來(lái)再遠(yuǎn)去時(shí)，我們會(huì)聽(tīng)到聲音從尖銳逐漸變得低沉，這是因?yàn)槁曉磁c接收者之間的相對(duì)運(yùn)動(dòng)導(dǎo)致頻率發(fā)生變化。對(duì)于AI來(lái)說(shuō)，要準(zhǔn)確模擬這種效應(yīng)，不僅需要理解物理原理，還要將這種理解準(zhǔn)確地體現(xiàn)在生成的音視頻內(nèi)容中。

研究團(tuán)隊(duì)設(shè)計(jì)了飛機(jī)高速飛過(guò)的測(cè)試場(chǎng)景。在這個(gè)場(chǎng)景中，AI需要生成一架飛機(jī)從畫(huà)面左側(cè)飛向右側(cè)的視頻，同時(shí)配上相應(yīng)的引擎聲。最關(guān)鍵的是，引擎聲必須體現(xiàn)出明顯的多普勒效應(yīng)——當(dāng)飛機(jī)接近時(shí)音調(diào)較高，飛過(guò)后音調(diào)逐漸降低。

測(cè)試結(jié)果顯示，不同模型的表現(xiàn)差異顯著。Veo3的表現(xiàn)最為出色，生成的頻譜圖清楚地顯示了聲音頻率的平滑下降軌跡，準(zhǔn)確模擬了飛機(jī)引擎聲的多普勒變化。這種表現(xiàn)表明Veo3不僅學(xué)會(huì)了多普勒效應(yīng)的表象，更可能理解了其背后的物理機(jī)制。

萬(wàn)象2.5雖然也能生成引擎聲的衰減效果，但多普勒頻移特征不如Veo3明顯。這個(gè)模型似乎更側(cè)重于音量的變化，而對(duì)頻率變化的處理相對(duì)粗糙。Sora2的表現(xiàn)則更加接近人類(lèi)的感知直覺(jué)——考慮到飛機(jī)的高度和距離，其生成的引擎聲頻率相對(duì)較低，多普勒效應(yīng)也相對(duì)溫和，這種處理方式在感知上更加合理。

雷電場(chǎng)景的測(cè)試更加復(fù)雜，因?yàn)樗婕暗焦馑俸吐曀俨町惖捏w現(xiàn)。在真實(shí)世界中，我們總是先看到閃電，然后才聽(tīng)到雷聲，這是因?yàn)楣獾膫鞑ニ俣冗h(yuǎn)快于聲音。AI模型需要理解這個(gè)物理常識(shí)，并在生成內(nèi)容中準(zhǔn)確體現(xiàn)。

研究團(tuán)隊(duì)設(shè)計(jì)了漆黑夜晚中遠(yuǎn)方閃電的場(chǎng)景測(cè)試。AI需要生成閃電劃過(guò)天空的畫(huà)面，同時(shí)配上相應(yīng)的雷聲。關(guān)鍵在于，雷聲必須在閃電出現(xiàn)之后才開(kāi)始，而且聲音的強(qiáng)度和持續(xù)時(shí)間要與閃電的強(qiáng)度相匹配。

通過(guò)頻譜分析，研究團(tuán)隊(duì)發(fā)現(xiàn)Veo3、萬(wàn)象2.5和Kling配合MMAudio的組合都較好地遵循了光聲傳播的物理規(guī)律。在這些模型生成的內(nèi)容中，雷聲確實(shí)在閃電出現(xiàn)后才開(kāi)始，體現(xiàn)了AI對(duì)基本物理常識(shí)的掌握。

然而，更細(xì)致的分析顯示，不同模型對(duì)雷聲特征的處理存在差異。萬(wàn)象2.5生成的雷聲相對(duì)短促，衰減較快，更符合距離較近的雷電特征。Veo3的雷聲則更加低沉持久，似乎模擬的是遠(yuǎn)距離雷電的聲音特征。Kling配合MMAudio生成的雷聲在時(shí)間分布上最為合理，既體現(xiàn)了主要的雷鳴，也包含了后續(xù)的回聲效果。

這些測(cè)試結(jié)果表明，當(dāng)前的AI模型已經(jīng)開(kāi)始具備對(duì)基本物理規(guī)律的理解能力，但在精確度和一致性方面還有提升空間。更重要的是，不同模型似乎有著不同的"物理常識(shí)偏好"，這種差異可能源于訓(xùn)練數(shù)據(jù)的不同或者模型架構(gòu)的特殊性。

七、立體聲空間定位：當(dāng)AI學(xué)會(huì)"用耳朵看世界"

在所有的測(cè)試中，立體聲空間定位能力的評(píng)估最能體現(xiàn)AI技術(shù)的前沿水平。這項(xiàng)測(cè)試要求AI不僅能生成高質(zhì)量的音頻和視頻，還要具備人類(lèi)一樣的空間聽(tīng)覺(jué)能力。

研究團(tuán)隊(duì)設(shè)計(jì)了海岸場(chǎng)景的立體聲測(cè)試。在這個(gè)場(chǎng)景中，左聲道應(yīng)該播放海浪拍擊巖石的聲音，右聲道應(yīng)該播放海鷗的叫聲和輕柔的海風(fēng)聲。AI需要生成相應(yīng)的立體聲視頻，讓觀看者通過(guò)耳機(jī)能夠清楚地感受到聲音的空間分布——仿佛海浪就在左邊，而海鷗在右邊飛翔。

測(cè)試結(jié)果顯示，現(xiàn)有AI模型在這個(gè)任務(wù)上的表現(xiàn)差異巨大。Veo3在立體聲生成方面表現(xiàn)最好，能夠產(chǎn)生明顯的左右聲道差異。通過(guò)波形分析可以看出，左右聲道確實(shí)包含不同的聲音內(nèi)容，而且在某些片段中還能觀察到與視覺(jué)運(yùn)動(dòng)相對(duì)應(yīng)的空間音頻變化。

然而，即使是表現(xiàn)最好的Veo3，其立體聲效果也主要體現(xiàn)在音量分配上，而不是真正的語(yǔ)義空間分離。換句話(huà)說(shuō)，AI更像是在模仿立體聲的表面特征，而不是真正理解空間音頻的本質(zhì)。這就像一個(gè)初學(xué)者雖然知道立體聲應(yīng)該有左右差異，但不知道如何根據(jù)場(chǎng)景的實(shí)際空間布局來(lái)安排聲音。

Sora2在立體聲方面的表現(xiàn)相對(duì)較差，生成的左右聲道幾乎完全相同，這意味著用戶(hù)聽(tīng)到的實(shí)際上是單聲道音頻。萬(wàn)象2.5的表現(xiàn)更接近真正的單聲道復(fù)制，立體聲效果微乎其微。

更有趣的發(fā)現(xiàn)是，當(dāng)研究團(tuán)隊(duì)分析AI模型偶然生成的優(yōu)質(zhì)立體聲片段時(shí)，發(fā)現(xiàn)這些效果往往出現(xiàn)在特定類(lèi)型的場(chǎng)景中。比如，在賽車(chē)場(chǎng)景中，Veo3能夠生成隨汽車(chē)運(yùn)動(dòng)而移動(dòng)的引擎聲，實(shí)現(xiàn)了基本的空間音頻跟隨效果。在雷雨場(chǎng)景中，Sora2偶爾能夠生成左右不同強(qiáng)度的雷聲，營(yíng)造出風(fēng)雨的空間感。

這些發(fā)現(xiàn)表明，當(dāng)前的AI模型可能在訓(xùn)練數(shù)據(jù)中包含了一些立體聲或空間音頻的信息，但這種能力還很不穩(wěn)定，更像是偶然的巧合而不是系統(tǒng)性的掌握。這提醒研究者，要讓AI真正掌握空間音頻生成能力，可能需要在訓(xùn)練階段就專(zhuān)門(mén)引入空間聽(tīng)覺(jué)的相關(guān)知識(shí)。

八、人類(lèi)評(píng)估驗(yàn)證：AI評(píng)分與人類(lèi)感受的對(duì)比實(shí)驗(yàn)

為了確保VABench評(píng)估系統(tǒng)的有效性，研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的人類(lèi)評(píng)估驗(yàn)證實(shí)驗(yàn)。他們邀請(qǐng)了六名專(zhuān)業(yè)評(píng)估人員對(duì)代表性視頻樣本進(jìn)行評(píng)分，然后將這些人類(lèi)評(píng)分與VABench系統(tǒng)的評(píng)分進(jìn)行對(duì)比分析。

這個(gè)驗(yàn)證過(guò)程就像是為新開(kāi)發(fā)的考試系統(tǒng)尋找權(quán)威認(rèn)證。如果一套考試系統(tǒng)的評(píng)分結(jié)果與資深教師的判斷高度一致，那么這套系統(tǒng)就可以被認(rèn)為是可靠和有效的。

驗(yàn)證實(shí)驗(yàn)選擇了三個(gè)核心維度：語(yǔ)義一致性、時(shí)間同步性和真實(shí)性。這三個(gè)維度分別對(duì)應(yīng)VABench系統(tǒng)中的多個(gè)具體指標(biāo)。語(yǔ)義一致性包括文字-視頻對(duì)齊、文字-音頻對(duì)齊和音頻-視頻對(duì)齊；時(shí)間同步性主要指音視頻的時(shí)間匹配程度；真實(shí)性則包括音頻真實(shí)性和視覺(jué)真實(shí)性。

實(shí)驗(yàn)結(jié)果令人鼓舞。在語(yǔ)義一致性方面，人類(lèi)評(píng)估與VABench評(píng)分的相關(guān)性達(dá)到了0.89，這個(gè)數(shù)值表明兩者的判斷高度一致。在時(shí)間同步性方面，相關(guān)性為0.85，同樣顯示了良好的一致性。真實(shí)性評(píng)估的相關(guān)性稍低，為0.79，但仍然達(dá)到了統(tǒng)計(jì)學(xué)上的強(qiáng)相關(guān)標(biāo)準(zhǔn)。

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)人類(lèi)評(píng)估者與AI評(píng)估系統(tǒng)在某些方面的"意見(jiàn)分歧"往往揭示了評(píng)估的深層問(wèn)題。比如，有些視頻在技術(shù)指標(biāo)上表現(xiàn)完美，但人類(lèi)評(píng)估者認(rèn)為缺乏藝術(shù)感染力；而另一些視頻雖然在技術(shù)上有瑕疵，但人類(lèi)評(píng)估者卻給出了較高的整體評(píng)分。

這種分歧提醒研究者，評(píng)估AI生成內(nèi)容不能僅僅依賴(lài)技術(shù)指標(biāo)，還需要考慮人類(lèi)的主觀感受和審美標(biāo)準(zhǔn)。VABench系統(tǒng)通過(guò)引入多模態(tài)語(yǔ)言模型評(píng)估，在一定程度上彌補(bǔ)了純技術(shù)評(píng)估的不足，但如何更好地平衡客觀指標(biāo)與主觀感受，仍然是一個(gè)需要持續(xù)探索的問(wèn)題。

九、不同內(nèi)容類(lèi)別的表現(xiàn)分析：AI的強(qiáng)項(xiàng)與弱點(diǎn)全景圖

通過(guò)對(duì)七個(gè)內(nèi)容類(lèi)別的詳細(xì)分析，研究團(tuán)隊(duì)繪制出了當(dāng)前AI模型能力的全景圖。這份圖譜就像是AI模型的體檢報(bào)告，清楚地顯示了每個(gè)模型在不同領(lǐng)域的健康狀況。

在動(dòng)物類(lèi)別中，所有模型都表現(xiàn)相對(duì)較好，這可能是因?yàn)閯?dòng)物聲音和行為在訓(xùn)練數(shù)據(jù)中比較豐富，而且相對(duì)容易學(xué)習(xí)。Veo3在這個(gè)類(lèi)別中表現(xiàn)最佳，特別是在鳥(niǎo)類(lèi)叫聲和大型哺乳動(dòng)物聲音的處理上。有趣的是，AI模型對(duì)常見(jiàn)寵物的處理明顯好于對(duì)野生動(dòng)物的處理，這反映了訓(xùn)練數(shù)據(jù)分布的偏向性。

人類(lèi)聲音類(lèi)別是所有模型的共同弱點(diǎn)。無(wú)論是語(yǔ)言類(lèi)還是非語(yǔ)言類(lèi)的人類(lèi)聲音，AI模型的表現(xiàn)都不盡如意。這個(gè)發(fā)現(xiàn)特別值得關(guān)注，因?yàn)槿祟?lèi)聲音的處理質(zhì)量直接影響到AI應(yīng)用的用戶(hù)體驗(yàn)。分析顯示，AI在處理標(biāo)準(zhǔn)語(yǔ)音時(shí)表現(xiàn)相對(duì)較好，但在處理帶有強(qiáng)烈情感色彩的聲音時(shí)就顯得力不從心。

音樂(lè)類(lèi)別是一個(gè)有趣的例外。幾乎所有AI模型在這個(gè)類(lèi)別中都表現(xiàn)不錯(cuò)，甚至某些指標(biāo)超過(guò)了其他類(lèi)別。這可能是因?yàn)橐魳?lè)有著相對(duì)清晰的結(jié)構(gòu)和規(guī)律，更容易被AI學(xué)習(xí)和模仿。ThinkSound模型在音樂(lè)生成方面表現(xiàn)尤為突出，生成的音樂(lè)質(zhì)量接近專(zhuān)業(yè)水準(zhǔn)。

環(huán)境聲音類(lèi)別的表現(xiàn)呈現(xiàn)出有趣的分化。AI模型在處理自然環(huán)境聲音時(shí)表現(xiàn)最佳，對(duì)城市環(huán)境的處理次之，而室內(nèi)環(huán)境的處理相對(duì)較差。這種差異可能反映了不同環(huán)境在訓(xùn)練數(shù)據(jù)中的分布差異，也可能與不同環(huán)境聲音復(fù)雜度的差異有關(guān)。

同步物理聲音類(lèi)別是對(duì)AI物理理解能力的直接考驗(yàn)。結(jié)果顯示，AI模型雖然能夠生成基本合理的物理聲音，但在精確的時(shí)間同步和物理特性模擬方面還有不足。比如，當(dāng)模擬不同材質(zhì)的碰撞聲時(shí)，AI往往無(wú)法準(zhǔn)確體現(xiàn)材質(zhì)差異。

復(fù)雜場(chǎng)景類(lèi)別是技術(shù)挑戰(zhàn)最大的領(lǐng)域。這個(gè)類(lèi)別要求AI同時(shí)處理多種聲音源、理解復(fù)雜的空間關(guān)系、掌握豐富的世界知識(shí)。不出所料，所有模型在這個(gè)類(lèi)別的表現(xiàn)都相對(duì)較差，但端到端訓(xùn)練的模型明顯優(yōu)于分步組裝的模型，這再次證明了聯(lián)合訓(xùn)練的重要性。

虛擬世界類(lèi)別的表現(xiàn)最為特殊。由于沒(méi)有現(xiàn)實(shí)世界的直接參照，這個(gè)類(lèi)別完全依賴(lài)AI的創(chuàng)意能力和想象力。有趣的是，萬(wàn)象2.5在這個(gè)類(lèi)別中表現(xiàn)最好，可能是因?yàn)槠溆?xùn)練數(shù)據(jù)包含了更多的游戲和動(dòng)畫(huà)內(nèi)容。

十、技術(shù)發(fā)展趨勢(shì)與未來(lái)展望：AI音視頻生成的下一站

基于VABench的全面測(cè)試結(jié)果，研究團(tuán)隊(duì)對(duì)AI音視頻生成技術(shù)的發(fā)展趨勢(shì)進(jìn)行了深入分析。這些分析就像是為整個(gè)行業(yè)繪制的路線(xiàn)圖，指出了未來(lái)技術(shù)發(fā)展的方向和重點(diǎn)。

首先，端到端聯(lián)合訓(xùn)練的優(yōu)勢(shì)越來(lái)越明顯。在幾乎所有需要高度音視頻協(xié)調(diào)的任務(wù)中，聯(lián)合訓(xùn)練的模型都表現(xiàn)出了明顯的優(yōu)勢(shì)。這種趨勢(shì)表明，未來(lái)的AI音視頻生成技術(shù)將更加注重模態(tài)間的深度融合，而不是簡(jiǎn)單的后期組合。這就像是從"拼裝玩具"向"一體成型"的技術(shù)演進(jìn)。

其次，物理常識(shí)的重要性日益凸顯。測(cè)試結(jié)果表明，AI模型對(duì)物理規(guī)律的理解程度直接影響生成內(nèi)容的真實(shí)性和可信度。未來(lái)的技術(shù)發(fā)展需要更加重視物理知識(shí)的集成，讓AI不僅能夠模仿表面現(xiàn)象，更能理解其背后的物理機(jī)制。

空間音頻技術(shù)是一個(gè)亟待突破的領(lǐng)域。當(dāng)前幾乎所有模型在立體聲生成方面都表現(xiàn)不佳，但隨著虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)技術(shù)的發(fā)展，對(duì)空間音頻的需求將會(huì)急劇增長(zhǎng)。研究團(tuán)隊(duì)預(yù)測(cè)，空間音頻生成將成為下一階段技術(shù)競(jìng)爭(zhēng)的焦點(diǎn)。

人類(lèi)聲音處理仍然是技術(shù)發(fā)展的瓶頸。雖然這是所有模型的共同弱點(diǎn)，但也恰恰說(shuō)明了這個(gè)領(lǐng)域的巨大發(fā)展?jié)摿?。未?lái)的技術(shù)突破可能需要專(zhuān)門(mén)針對(duì)人類(lèi)語(yǔ)音和情感表達(dá)進(jìn)行深度優(yōu)化。

個(gè)性化和定制化將成為重要發(fā)展方向。不同的應(yīng)用場(chǎng)景對(duì)音視頻生成有著不同的要求，一刀切的解決方案已經(jīng)無(wú)法滿(mǎn)足多樣化的需求。未來(lái)的AI系統(tǒng)可能需要具備更強(qiáng)的適應(yīng)性，能夠根據(jù)具體應(yīng)用場(chǎng)景調(diào)整生成策略。

評(píng)估標(biāo)準(zhǔn)的標(biāo)準(zhǔn)化也變得越來(lái)越重要。VABench作為首個(gè)綜合性的音視頻生成評(píng)估基準(zhǔn)，為行業(yè)提供了統(tǒng)一的評(píng)判標(biāo)準(zhǔn)。但隨著技術(shù)的快速發(fā)展，評(píng)估標(biāo)準(zhǔn)也需要不斷更新和完善，以跟上技術(shù)進(jìn)步的步伐。

研究團(tuán)隊(duì)還觀察到一個(gè)有趣的現(xiàn)象：不同模型似乎有著不同的"風(fēng)格偏好"。有些模型更注重技術(shù)精確度，有些則更強(qiáng)調(diào)藝術(shù)表現(xiàn)力。這種多樣性實(shí)際上是健康的技術(shù)生態(tài)的體現(xiàn)，不同的技術(shù)路線(xiàn)可以滿(mǎn)足不同的應(yīng)用需求。

最后，數(shù)據(jù)質(zhì)量和多樣性仍然是制約技術(shù)發(fā)展的關(guān)鍵因素。測(cè)試結(jié)果顯示，AI模型的表現(xiàn)很大程度上受到訓(xùn)練數(shù)據(jù)分布的影響。未來(lái)需要構(gòu)建更加全面、平衡、高質(zhì)量的訓(xùn)練數(shù)據(jù)集，特別是在立體聲、復(fù)雜場(chǎng)景和虛擬世界等相對(duì)薄弱的領(lǐng)域。

說(shuō)到底，VABench不僅僅是一個(gè)評(píng)估工具，更是AI音視頻生成技術(shù)發(fā)展的一面鏡子。通過(guò)這面鏡子，我們能夠清楚地看到當(dāng)前技術(shù)的成就和不足，也能夠展望未來(lái)發(fā)展的方向。正如研究團(tuán)隊(duì)所期望的，VABench將成為推動(dòng)整個(gè)領(lǐng)域持續(xù)進(jìn)步的重要力量，幫助AI技術(shù)更好地理解和模擬我們的多彩世界。

這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身。隨著AI生成內(nèi)容在教育、娛樂(lè)、媒體等領(lǐng)域的廣泛應(yīng)用，如何確保這些內(nèi)容的質(zhì)量和真實(shí)性變得越來(lái)越重要。VABench提供的不僅僅是技術(shù)評(píng)估，更是對(duì)AI內(nèi)容質(zhì)量的保障機(jī)制，為AI技術(shù)的健康發(fā)展提供了重要支撐。

對(duì)于普通用戶(hù)來(lái)說(shuō)，這項(xiàng)研究的成果將最終體現(xiàn)在更自然、更真實(shí)、更具感染力的AI生成視頻中。無(wú)論是教育課件中的動(dòng)畫(huà)講解，還是社交媒體上的創(chuàng)意短視頻，都將因?yàn)檫@些技術(shù)進(jìn)步而變得更加精彩。VABench的出現(xiàn)，標(biāo)志著AI音視頻生成技術(shù)正在從"能用"向"好用"、從"模仿"向"創(chuàng)造"的重要躍升。

Q&A

Q1：VABench是什么，它有什么特別之處？

A：VABench是北京大學(xué)等機(jī)構(gòu)聯(lián)合開(kāi)發(fā)的首個(gè)專(zhuān)門(mén)評(píng)估AI音視頻同步生成能力的綜合基準(zhǔn)系統(tǒng)。它的特別之處在于不僅測(cè)試AI能否生成清晰的畫(huà)面和聲音，更重要的是檢驗(yàn)音頻和視頻是否能像真實(shí)世界一樣自然協(xié)調(diào)，包括唇語(yǔ)同步、物理聲音匹配、立體聲空間效果等15個(gè)維度的全方位評(píng)估。

Q2：目前的AI模型在音視頻生成方面表現(xiàn)如何？

A：測(cè)試結(jié)果顯示AI模型各有強(qiáng)弱。像Veo3、Sora2這樣端到端訓(xùn)練的模型在音畫(huà)同步方面表現(xiàn)更好，特別是需要高度協(xié)調(diào)的場(chǎng)景。但所有模型在人類(lèi)聲音處理和立體聲生成方面都還有很大提升空間，大多數(shù)立體聲效果實(shí)際上只是單聲道的簡(jiǎn)單復(fù)制。

Q3：VABench的評(píng)估結(jié)果對(duì)普通用戶(hù)有什么意義？

A：這些評(píng)估結(jié)果將直接影響未來(lái)AI生成視頻的質(zhì)量。通過(guò)VABench的科學(xué)測(cè)評(píng)，開(kāi)發(fā)者能夠發(fā)現(xiàn)并改進(jìn)AI模型的不足，最終讓普通用戶(hù)在使用AI生成視頻時(shí)獲得更自然、更真實(shí)的體驗(yàn)，比如更準(zhǔn)確的口型同步、更逼真的環(huán)境音效，以及更有沉浸感的立體聲效果。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.