国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北大VABench:首個(gè)音視頻生成綜合評(píng)估基準(zhǔn)

0
分享至


這項(xiàng)由北京大學(xué)、螞蟻集團(tuán)、中科院自動(dòng)化所以及華中科技大學(xué)聯(lián)合完成的研究發(fā)表于2025年12月,論文編號(hào)為arXiv:2512.09299v1。有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢(xún)完整論文。

當(dāng)你打開(kāi)手機(jī)觀看短視頻時(shí),是否曾經(jīng)驚嘆于那些栩栩如生的人物配音和背景音效?現(xiàn)在的人工智能已經(jīng)能夠生成令人驚嘆的視頻內(nèi)容,但這些視頻中的聲音和畫(huà)面是否真正匹配,一直是個(gè)讓研究者頭疼的問(wèn)題。就好比一個(gè)廚師做菜,雖然能做出色香味俱全的菜肴,但如何準(zhǔn)確評(píng)判這道菜是否真正達(dá)到了完美的平衡,卻缺少一套科學(xué)的標(biāo)準(zhǔn)。

以往的視頻生成技術(shù)主要關(guān)注畫(huà)面質(zhì)量,就像只看菜的外觀是否精美,卻忽略了味道是否協(xié)調(diào)。但現(xiàn)實(shí)世界中,我們的感官體驗(yàn)是多維度的——當(dāng)你看到瀑布奔流時(shí),耳邊應(yīng)該響起水聲;當(dāng)你看到吉他手撥弦時(shí),音樂(lè)應(yīng)該與手指動(dòng)作完全同步。這種音畫(huà)同步的自然體驗(yàn),正是現(xiàn)在AI技術(shù)努力追求的目標(biāo)。

然而,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵問(wèn)題:雖然現(xiàn)在已經(jīng)出現(xiàn)了Sora 2、Veo 3、萬(wàn)象2.5等能夠同時(shí)生成音頻和視頻的先進(jìn)模型,但學(xué)術(shù)界缺乏一套全面、科學(xué)的評(píng)估體系來(lái)判斷這些模型的表現(xiàn)。這就像擁有了世界頂級(jí)的廚師,卻沒(méi)有專(zhuān)業(yè)的美食評(píng)委來(lái)公正評(píng)判他們的作品。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了VABench——一個(gè)專(zhuān)門(mén)針對(duì)音視頻同步生成的綜合評(píng)估基準(zhǔn)。這套系統(tǒng)就像是為AI視頻生成領(lǐng)域量身定制的"全能考試",不僅要測(cè)試AI能否生成清晰的畫(huà)面和悅耳的聲音,更要檢驗(yàn)它們是否能像真實(shí)世界一樣自然協(xié)調(diào)。

研究團(tuán)隊(duì)的創(chuàng)新之處在于,他們不僅僅關(guān)注技術(shù)指標(biāo),更從人類(lèi)感知的角度出發(fā),設(shè)計(jì)了一套既科學(xué)又貼近實(shí)際的評(píng)估方法。這套方法涵蓋了從簡(jiǎn)單的文字轉(zhuǎn)視頻,到復(fù)雜的圖像轉(zhuǎn)視頻,再到立體聲音頻生成等多個(gè)維度,確保能夠全方位地考察AI模型的能力。

一、音視頻生成的三大挑戰(zhàn):從單一到協(xié)調(diào)的技術(shù)跨越

當(dāng)我們欣賞一部電影時(shí),很少會(huì)刻意去思考聲音和畫(huà)面是如何完美融合的。但對(duì)于AI來(lái)說(shuō),要實(shí)現(xiàn)這種看似自然的協(xié)調(diào),卻需要解決三個(gè)層次遞增的技術(shù)難題。

第一個(gè)挑戰(zhàn)是文字轉(zhuǎn)音視頻生成。這就像讓一個(gè)從未見(jiàn)過(guò)外面世界的人僅憑文字描述就要畫(huà)出一幅聲畫(huà)并茂的作品。比如,當(dāng)輸入"清晨鳥(niǎo)兒在枝頭歡快歌唱"這樣的文字時(shí),AI不僅要生成鳥(niǎo)兒在枝頭的畫(huà)面,還要配上相應(yīng)的鳥(niǎo)鳴聲,更重要的是,鳥(niǎo)兒的嘴部動(dòng)作要與鳥(niǎo)鳴的節(jié)拍完全吻合。這種從抽象文字到具體多媒體內(nèi)容的轉(zhuǎn)換,需要AI具備超強(qiáng)的想象力和創(chuàng)造力。

第二個(gè)挑戰(zhàn)是圖像轉(zhuǎn)音視頻生成。這個(gè)過(guò)程可以理解為給一張靜態(tài)照片"賦予生命"。假設(shè)你有一張海浪拍打礁石的照片,AI需要讓這張照片動(dòng)起來(lái),不僅要讓海浪真實(shí)地翻滾,還要配上相應(yīng)的海浪聲。這個(gè)過(guò)程比文字轉(zhuǎn)換更加復(fù)雜,因?yàn)锳I必須從有限的視覺(jué)信息中推斷出合理的動(dòng)態(tài)過(guò)程和聲音特征,就像偵探通過(guò)現(xiàn)場(chǎng)照片重構(gòu)犯罪現(xiàn)場(chǎng)一樣。

第三個(gè)挑戰(zhàn)是立體聲音頻生成。在真實(shí)世界中,我們的雙耳能夠感知聲音的方向和距離。當(dāng)飛機(jī)從左側(cè)飛過(guò)時(shí),我們能清楚地感受到聲音從左向右移動(dòng)。這種空間聽(tīng)覺(jué)體驗(yàn)對(duì)于營(yíng)造沉浸感至關(guān)重要。AI需要學(xué)會(huì)生成這種具有空間感的立體聲,讓用戶(hù)通過(guò)耳機(jī)就能感受到仿佛身臨其境的音響效果。

研究團(tuán)隊(duì)在設(shè)計(jì)VABench時(shí),特別針對(duì)這三個(gè)挑戰(zhàn)設(shè)置了相應(yīng)的測(cè)試場(chǎng)景。他們收集了778個(gè)文字轉(zhuǎn)視頻樣本和521個(gè)圖像轉(zhuǎn)視頻樣本,涵蓋了從簡(jiǎn)單的動(dòng)物叫聲到復(fù)雜的城市環(huán)境等各種場(chǎng)景。為了測(cè)試立體聲生成能力,他們還設(shè)計(jì)了116個(gè)專(zhuān)門(mén)的立體聲測(cè)試樣本,每個(gè)樣本都明確指定了左右聲道應(yīng)該呈現(xiàn)的不同聲音內(nèi)容。

有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有的AI模型在處理這三個(gè)挑戰(zhàn)時(shí)表現(xiàn)差異巨大。一些模型在生成單一音頻或視頻方面表現(xiàn)出色,但在音畫(huà)同步方面卻差強(qiáng)人意,就像一個(gè)優(yōu)秀的獨(dú)唱演員在合唱時(shí)卻找不準(zhǔn)拍子。而另一些模型雖然能夠較好地實(shí)現(xiàn)同步,但生成的內(nèi)容質(zhì)量卻有待提高。

更令人意外的是,在立體聲生成方面,幾乎所有現(xiàn)有模型都表現(xiàn)不佳。大多數(shù)模型生成的所謂"立體聲"實(shí)際上只是單聲道的復(fù)制,缺乏真正的空間感。這個(gè)發(fā)現(xiàn)提醒研究者,AI在音頻空間感知方面還有很大的提升空間。

二、七大內(nèi)容類(lèi)別:從動(dòng)物世界到虛擬空間的全景測(cè)試

為了全面測(cè)試AI模型的能力,研究團(tuán)隊(duì)精心設(shè)計(jì)了七個(gè)內(nèi)容類(lèi)別,這些類(lèi)別就像是一個(gè)完整的世界地圖,涵蓋了從最基礎(chǔ)的自然聲音到最復(fù)雜的虛擬場(chǎng)景。

動(dòng)物類(lèi)別是最基礎(chǔ)也是最有趣的測(cè)試領(lǐng)域。每種動(dòng)物都有其獨(dú)特的聲音特征和行為模式。當(dāng)AI生成一只獅子咆哮的畫(huà)面時(shí),不僅要確保獅子的口型與咆哮聲匹配,還要體現(xiàn)出獅子咆哮時(shí)的威嚴(yán)姿態(tài)。研究團(tuán)隊(duì)發(fā)現(xiàn),AI在處理不同動(dòng)物時(shí)表現(xiàn)差異顯著,對(duì)于常見(jiàn)的貓狗等寵物,AI的表現(xiàn)相對(duì)較好,但對(duì)于一些稀有動(dòng)物或昆蟲(chóng)的聲音,準(zhǔn)確度就大打折扣。

人類(lèi)聲音類(lèi)別是技術(shù)難度最高的測(cè)試項(xiàng)目。這個(gè)類(lèi)別又分為語(yǔ)言類(lèi)和非語(yǔ)言類(lèi)兩個(gè)子類(lèi)別。語(yǔ)言類(lèi)包括正常說(shuō)話(huà)、唱歌等,需要實(shí)現(xiàn)精確的唇語(yǔ)同步;非語(yǔ)言類(lèi)則包括哭泣、笑聲、嘆息等情感表達(dá)。研究團(tuán)隊(duì)發(fā)現(xiàn),幾乎所有AI模型在人類(lèi)聲音處理方面都存在明顯短板,特別是在情感表達(dá)的細(xì)膩程度上還遠(yuǎn)不如人類(lèi)演員。

音樂(lè)類(lèi)別測(cè)試AI對(duì)結(jié)構(gòu)化聲音的理解能力。當(dāng)生成一個(gè)鋼琴演奏的場(chǎng)景時(shí),AI不僅要讓琴鍵的按壓動(dòng)作與音樂(lè)節(jié)拍吻合,還要體現(xiàn)出演奏者的情感投入。有趣的是,AI在處理音樂(lè)類(lèi)內(nèi)容時(shí)表現(xiàn)相對(duì)較好,可能是因?yàn)橐魳?lè)有著相對(duì)清晰的結(jié)構(gòu)和規(guī)律,更容易被AI學(xué)習(xí)和模仿。

環(huán)境類(lèi)別涵蓋了自然、城市和室內(nèi)三大場(chǎng)景類(lèi)型。海浪聲配合海岸畫(huà)面、車(chē)流聲配合城市街道、咖啡機(jī)聲配合咖啡廳場(chǎng)景等,這些看似簡(jiǎn)單的組合實(shí)際上需要AI對(duì)不同環(huán)境的深度理解。研究顯示,AI在處理自然環(huán)境聲音時(shí)表現(xiàn)最佳,而在復(fù)雜的城市環(huán)境中容易出現(xiàn)聲音混亂的問(wèn)題。

同步物理聲音類(lèi)別是對(duì)AI物理常識(shí)的直接考驗(yàn)。當(dāng)一個(gè)皮球掉落時(shí),撞擊地面的聲音應(yīng)該與皮球接觸地面的瞬間完全同步;當(dāng)雨滴打在不同材質(zhì)表面時(shí),應(yīng)該產(chǎn)生相應(yīng)的聲音差異。這個(gè)類(lèi)別要求AI不僅要理解物理規(guī)律,還要將這種理解準(zhǔn)確地體現(xiàn)在音畫(huà)同步上。

復(fù)雜場(chǎng)景類(lèi)別是對(duì)AI綜合能力的終極考驗(yàn)。這個(gè)類(lèi)別包括多重音源、主觀感受、世界知識(shí)、象征性聯(lián)想和隱藏音源等五個(gè)維度。比如,在一個(gè)繁忙的咖啡廳場(chǎng)景中,AI需要同時(shí)處理對(duì)話(huà)聲、咖啡機(jī)聲、背景音樂(lè)等多種聲音,并合理地分配它們的音量和空間位置。這種復(fù)雜場(chǎng)景的處理能力直接反映了AI的智能水平。

虛擬世界類(lèi)別是最具創(chuàng)意挑戰(zhàn)的測(cè)試領(lǐng)域。在這個(gè)類(lèi)別中,AI需要為超越現(xiàn)實(shí)物理規(guī)律的場(chǎng)景創(chuàng)造合理的音效。比如,魔法師施法時(shí)應(yīng)該配什么樣的聲音?飛龍吐火時(shí)應(yīng)該是怎樣的音效?這些都沒(méi)有現(xiàn)實(shí)世界的直接參照,完全依賴(lài)AI的創(chuàng)意能力和對(duì)虛擬世界邏輯的理解。

三、十五維度評(píng)估體系:科學(xué)與藝術(shù)的完美結(jié)合

為了公正而全面地評(píng)估AI模型的表現(xiàn),研究團(tuán)隊(duì)開(kāi)發(fā)了一套包含15個(gè)維度的評(píng)估體系。這套體系就像是一個(gè)精密的儀器,能夠從不同角度測(cè)量AI生成內(nèi)容的質(zhì)量。

評(píng)估體系分為兩大類(lèi):專(zhuān)家模型評(píng)估和多模態(tài)語(yǔ)言模型評(píng)估。這種設(shè)計(jì)就像是請(qǐng)來(lái)了兩種不同類(lèi)型的評(píng)委——一類(lèi)是專(zhuān)精某個(gè)領(lǐng)域的技術(shù)專(zhuān)家,另一類(lèi)是具有綜合判斷能力的通才評(píng)委。

專(zhuān)家模型評(píng)估主要關(guān)注可以量化的技術(shù)指標(biāo)。在音頻質(zhì)量方面,系統(tǒng)會(huì)檢測(cè)語(yǔ)音的清晰度、自然度和美學(xué)品質(zhì)。就像專(zhuān)業(yè)的錄音師能夠精確判斷錄音質(zhì)量一樣,這些專(zhuān)家模型能夠客觀地評(píng)估音頻的技術(shù)水準(zhǔn)。語(yǔ)音清晰度測(cè)試主要針對(duì)人類(lèi)語(yǔ)言?xún)?nèi)容,檢查是否有背景噪音干擾和發(fā)音是否清晰;語(yǔ)音自然度則評(píng)估合成語(yǔ)音是否聽(tīng)起來(lái)像真人說(shuō)話(huà);音頻美學(xué)評(píng)估則從娛樂(lè)性、實(shí)用性、制作復(fù)雜度和制作質(zhì)量四個(gè)角度進(jìn)行綜合評(píng)分。

跨模態(tài)語(yǔ)義對(duì)齊是評(píng)估系統(tǒng)的核心技術(shù)指標(biāo)。這個(gè)維度檢查文字描述、視頻內(nèi)容和音頻內(nèi)容是否在語(yǔ)義上保持一致。比如,當(dāng)文字描述是"雷雨夜"時(shí),視頻應(yīng)該顯示閃電和烏云,音頻應(yīng)該有雷聲和雨聲,三者必須在主題上高度統(tǒng)一。系統(tǒng)通過(guò)計(jì)算不同模態(tài)之間的語(yǔ)義相似度來(lái)量化這種對(duì)齊程度。

時(shí)間同步評(píng)估是最具挑戰(zhàn)性的技術(shù)測(cè)試。系統(tǒng)會(huì)精確測(cè)量音頻事件與視頻事件之間的時(shí)間偏差,特別是唇語(yǔ)同步的準(zhǔn)確性。這個(gè)過(guò)程需要先檢測(cè)視頻中是否存在說(shuō)話(huà)的人臉,然后分析嘴唇動(dòng)作與語(yǔ)音的匹配程度。研究團(tuán)隊(duì)使用了專(zhuān)門(mén)的同步評(píng)估模型,能夠檢測(cè)出毫秒級(jí)的時(shí)間偏差。

多模態(tài)語(yǔ)言模型評(píng)估則關(guān)注更加主觀和綜合的質(zhì)量判斷。這類(lèi)評(píng)估就像請(qǐng)來(lái)了一批具有藝術(shù)鑒賞力的評(píng)委,他們不僅關(guān)注技術(shù)指標(biāo),更重視整體的感受和體驗(yàn)。

音視頻協(xié)調(diào)性評(píng)估檢查音頻和視頻是否給人以和諧統(tǒng)一的感覺(jué)。這個(gè)維度不僅考慮技術(shù)同步,還關(guān)注情感一致性。比如,悲傷的畫(huà)面配上歡快的音樂(lè)就會(huì)被判定為協(xié)調(diào)性差,即使在技術(shù)上沒(méi)有明顯錯(cuò)誤。

藝術(shù)性評(píng)估關(guān)注生成內(nèi)容的美學(xué)價(jià)值和創(chuàng)意表達(dá)。這個(gè)維度考察音視頻融合是否產(chǎn)生了超越單純技術(shù)指標(biāo)的藝術(shù)效果,是否能夠觸動(dòng)觀看者的情感,是否體現(xiàn)了獨(dú)特的創(chuàng)意理念。

表現(xiàn)力評(píng)估關(guān)注音頻對(duì)視覺(jué)內(nèi)容的敘事支持能力。優(yōu)秀的音視頻作品中,聲音不僅僅是畫(huà)面的附屬品,更是情感表達(dá)和故事敘述的重要工具。這個(gè)維度評(píng)估音頻是否有效地增強(qiáng)了視覺(jué)內(nèi)容的表現(xiàn)力,是否幫助觀眾更好地理解和感受作品想要傳達(dá)的信息。

真實(shí)性評(píng)估則分為音頻真實(shí)性和視覺(jué)真實(shí)性?xún)蓚€(gè)子維度。音頻真實(shí)性檢查聲音是否符合物理規(guī)律,比如音量是否隨距離合理變化,不同材質(zhì)的撞擊聲是否符合真實(shí)世界的聲學(xué)特性。視覺(jué)真實(shí)性則評(píng)估畫(huà)面是否遵循物理法則,光影效果是否合理,物體運(yùn)動(dòng)是否符合力學(xué)原理。

細(xì)粒度問(wèn)答評(píng)估是最具創(chuàng)新性的評(píng)估方法。系統(tǒng)會(huì)針對(duì)每個(gè)測(cè)試樣本生成3到7個(gè)具體的問(wèn)題,涵蓋聲音和畫(huà)面的各種細(xì)節(jié)。比如,對(duì)于一個(gè)鋼琴演奏的視頻,可能會(huì)問(wèn)"演奏者的手指動(dòng)作是否與音符節(jié)拍一致?"、"鋼琴的音色是否明亮清晰?"、"演奏者的表情是否與音樂(lè)情緒匹配?"這種評(píng)估方法能夠深入挖掘AI生成內(nèi)容的具體優(yōu)缺點(diǎn)。

四、立體聲空間音頻:讓聽(tīng)覺(jué)體驗(yàn)真正立體化

在所有的評(píng)估維度中,立體聲音頻生成能力的測(cè)試最為特殊,也最能體現(xiàn)AI技術(shù)的先進(jìn)程度。這個(gè)測(cè)試就像是檢驗(yàn)AI是否具備了人類(lèi)的空間聽(tīng)覺(jué)能力。

人類(lèi)的雙耳系統(tǒng)就像是一個(gè)精密的聲音定位雷達(dá)。當(dāng)聲音從不同方向傳來(lái)時(shí),由于到達(dá)兩只耳朵的時(shí)間差和音量差,大腦能夠準(zhǔn)確判斷聲源的位置。這種能力讓我們?cè)趶?fù)雜的聲音環(huán)境中也能準(zhǔn)確定位,比如在嘈雜的聚會(huì)中依然能聽(tīng)清楚特定人的說(shuō)話(huà)聲。

研究團(tuán)隊(duì)設(shè)計(jì)了116個(gè)專(zhuān)門(mén)的立體聲測(cè)試樣本,每個(gè)樣本都明確指定了左右聲道應(yīng)該呈現(xiàn)的不同內(nèi)容。比如,一個(gè)測(cè)試樣本可能要求"左聲道播放海浪聲,右聲道播放海鷗叫聲",AI需要生成相應(yīng)的立體聲視頻,讓觀看者通過(guò)耳機(jī)能夠清楚地感受到聲音的空間分布。

立體聲評(píng)估包含九個(gè)核心聲學(xué)指標(biāo),這些指標(biāo)構(gòu)成了一個(gè)完整的空間音頻質(zhì)量評(píng)估體系。空間成像質(zhì)量主要評(píng)估聲音在空間中的分布是否合理,包括立體聲寬度、成像穩(wěn)定性、電平穩(wěn)定性等。立體聲寬度測(cè)量的是聲場(chǎng)的開(kāi)闊程度,優(yōu)秀的立體聲應(yīng)該能夠營(yíng)造出寬廣的聽(tīng)音環(huán)境;成像穩(wěn)定性檢查聲源位置是否穩(wěn)定,避免聲音在左右聲道間無(wú)規(guī)律地跳動(dòng);電平穩(wěn)定性則確保左右聲道的音量平衡合理。

信號(hào)完整性和兼容性主要關(guān)注技術(shù)穩(wěn)定性和跨設(shè)備兼容性。相位一致性檢查左右聲道的相位關(guān)系是否正確,避免出現(xiàn)相位抵消導(dǎo)致的音質(zhì)下降;單聲道兼容性測(cè)試確保立體聲在單聲道設(shè)備上播放時(shí)不會(huì)出現(xiàn)嚴(yán)重的音質(zhì)損失;方向一致性則驗(yàn)證聲音的空間定位是否準(zhǔn)確。

研究結(jié)果顯示,目前的AI模型在立體聲生成方面普遍表現(xiàn)不佳。大多數(shù)模型生成的所謂"立體聲"實(shí)際上只是將單聲道音頻簡(jiǎn)單復(fù)制到兩個(gè)聲道,缺乏真正的空間分離效果。即使在某些表現(xiàn)較好的模型中,立體聲效果也主要體現(xiàn)為簡(jiǎn)單的左右音量分配,而不是語(yǔ)義層面的空間布局。

這個(gè)發(fā)現(xiàn)揭示了一個(gè)重要問(wèn)題:當(dāng)前的AI模型雖然在音視頻生成方面已經(jīng)取得了顯著進(jìn)步,但在空間音頻理解方面仍處于起步階段。這就像是一個(gè)畫(huà)家雖然能畫(huà)出精美的平面作品,但對(duì)于立體透視的掌握還不夠嫻熟。

五、模型大比拼:端到端訓(xùn)練 vs 分步組裝的技術(shù)路線(xiàn)之爭(zhēng)

研究團(tuán)隊(duì)測(cè)試了多個(gè)當(dāng)前最先進(jìn)的AI模型,這些模型代表了兩種不同的技術(shù)路線(xiàn)。第一種是端到端的音視頻聯(lián)合生成模型,如Veo3、Sora2和萬(wàn)象2.5;第二種是分步式的視頻加音頻組合模型,如Seedance配合MMAudio、Kling配合ThinkSound等組合。

這兩種技術(shù)路線(xiàn)就像是兩種不同的烹飪方法:一種是一鍋燉,所有食材從一開(kāi)始就放在一起慢慢烹飪,各種味道能夠充分融合;另一種是分別烹飪,最后再組合裝盤(pán),每個(gè)部分都能精工細(xì)作,但融合度可能稍遜一籌。

在端到端模型中,Veo3表現(xiàn)最為均衡,特別是在音頻質(zhì)量和跨模態(tài)語(yǔ)義對(duì)齊方面表現(xiàn)突出。這個(gè)模型就像是一個(gè)全能型選手,雖然在某些單項(xiàng)上不是最強(qiáng),但綜合實(shí)力最為均衡。Veo3在動(dòng)物聲音處理方面表現(xiàn)最佳,在復(fù)雜場(chǎng)景的音視頻協(xié)調(diào)上也有不錯(cuò)的表現(xiàn)。

Sora2在視覺(jué)真實(shí)性方面表現(xiàn)最好,特別是在人物表情和物理運(yùn)動(dòng)的真實(shí)性上有著明顯優(yōu)勢(shì)。但是,Sora2在音頻美學(xué)方面稍顯不足,生成的音頻有時(shí)聽(tīng)起來(lái)比較機(jī)械化,缺乏自然的變化。

萬(wàn)象2.5的最大優(yōu)勢(shì)在于音視頻同步,特別是在唇語(yǔ)同步方面表現(xiàn)最佳。當(dāng)生成人物說(shuō)話(huà)的場(chǎng)景時(shí),萬(wàn)象2.5能夠?qū)崿F(xiàn)幾乎完美的口型匹配。然而,這個(gè)模型在跨模態(tài)語(yǔ)義對(duì)齊方面稍有不足,有時(shí)音頻內(nèi)容與文字描述的匹配度不夠高。

在分步式模型組合中,表現(xiàn)最好的是Kling配合MMAudio的組合。Kling作為視頻生成模型,在視覺(jué)質(zhì)量方面表現(xiàn)優(yōu)異,而MMAudio在音頻生成方面有著不錯(cuò)的表現(xiàn)。這個(gè)組合的優(yōu)勢(shì)在于可以針對(duì)視頻和音頻分別進(jìn)行優(yōu)化,在某些細(xì)分領(lǐng)域甚至能夠超越端到端模型。

有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn),端到端模型在需要高度音視頻協(xié)調(diào)的任務(wù)中表現(xiàn)明顯更好,特別是在人類(lèi)語(yǔ)音和復(fù)雜場(chǎng)景處理方面。這個(gè)發(fā)現(xiàn)證實(shí)了聯(lián)合訓(xùn)練的重要性——當(dāng)音頻和視頻從訓(xùn)練階段就開(kāi)始協(xié)同學(xué)習(xí)時(shí),它們之間的配合會(huì)更加默契。

然而,分步式模型在某些特定領(lǐng)域表現(xiàn)出了獨(dú)特優(yōu)勢(shì)。比如,在音樂(lè)生成方面,專(zhuān)門(mén)的音頻模型往往能夠產(chǎn)生更高質(zhì)量的音樂(lè)內(nèi)容。這就像是請(qǐng)專(zhuān)業(yè)的音樂(lè)家來(lái)配樂(lè),效果可能比多面手更加出色。

更令人意外的是,在虛擬世界內(nèi)容生成方面,所有模型的表現(xiàn)都相對(duì)較差。這個(gè)類(lèi)別沒(méi)有現(xiàn)實(shí)世界的直接參照,完全依賴(lài)模型的創(chuàng)意能力和邏輯推理。這個(gè)發(fā)現(xiàn)提醒研究者,雖然AI在模仿現(xiàn)實(shí)世界方面已經(jīng)相當(dāng)出色,但在創(chuàng)造性想象方面還有很大的提升空間。

六、音畫(huà)同步的物理挑戰(zhàn):多普勒效應(yīng)與雷電先后的智能考驗(yàn)

為了深入了解AI模型對(duì)物理規(guī)律的理解程度,研究團(tuán)隊(duì)設(shè)計(jì)了一系列特殊的測(cè)試場(chǎng)景,其中最具挑戰(zhàn)性的是多普勒效應(yīng)和雷電順序的模擬。

多普勒效應(yīng)是日常生活中常見(jiàn)的物理現(xiàn)象。當(dāng)救護(hù)車(chē)從遠(yuǎn)處駛來(lái)再遠(yuǎn)去時(shí),我們會(huì)聽(tīng)到聲音從尖銳逐漸變得低沉,這是因?yàn)槁曉磁c接收者之間的相對(duì)運(yùn)動(dòng)導(dǎo)致頻率發(fā)生變化。對(duì)于AI來(lái)說(shuō),要準(zhǔn)確模擬這種效應(yīng),不僅需要理解物理原理,還要將這種理解準(zhǔn)確地體現(xiàn)在生成的音視頻內(nèi)容中。

研究團(tuán)隊(duì)設(shè)計(jì)了飛機(jī)高速飛過(guò)的測(cè)試場(chǎng)景。在這個(gè)場(chǎng)景中,AI需要生成一架飛機(jī)從畫(huà)面左側(cè)飛向右側(cè)的視頻,同時(shí)配上相應(yīng)的引擎聲。最關(guān)鍵的是,引擎聲必須體現(xiàn)出明顯的多普勒效應(yīng)——當(dāng)飛機(jī)接近時(shí)音調(diào)較高,飛過(guò)后音調(diào)逐漸降低。

測(cè)試結(jié)果顯示,不同模型的表現(xiàn)差異顯著。Veo3的表現(xiàn)最為出色,生成的頻譜圖清楚地顯示了聲音頻率的平滑下降軌跡,準(zhǔn)確模擬了飛機(jī)引擎聲的多普勒變化。這種表現(xiàn)表明Veo3不僅學(xué)會(huì)了多普勒效應(yīng)的表象,更可能理解了其背后的物理機(jī)制。

萬(wàn)象2.5雖然也能生成引擎聲的衰減效果,但多普勒頻移特征不如Veo3明顯。這個(gè)模型似乎更側(cè)重于音量的變化,而對(duì)頻率變化的處理相對(duì)粗糙。Sora2的表現(xiàn)則更加接近人類(lèi)的感知直覺(jué)——考慮到飛機(jī)的高度和距離,其生成的引擎聲頻率相對(duì)較低,多普勒效應(yīng)也相對(duì)溫和,這種處理方式在感知上更加合理。

雷電場(chǎng)景的測(cè)試更加復(fù)雜,因?yàn)樗婕暗焦馑俸吐曀俨町惖捏w現(xiàn)。在真實(shí)世界中,我們總是先看到閃電,然后才聽(tīng)到雷聲,這是因?yàn)楣獾膫鞑ニ俣冗h(yuǎn)快于聲音。AI模型需要理解這個(gè)物理常識(shí),并在生成內(nèi)容中準(zhǔn)確體現(xiàn)。

研究團(tuán)隊(duì)設(shè)計(jì)了漆黑夜晚中遠(yuǎn)方閃電的場(chǎng)景測(cè)試。AI需要生成閃電劃過(guò)天空的畫(huà)面,同時(shí)配上相應(yīng)的雷聲。關(guān)鍵在于,雷聲必須在閃電出現(xiàn)之后才開(kāi)始,而且聲音的強(qiáng)度和持續(xù)時(shí)間要與閃電的強(qiáng)度相匹配。

通過(guò)頻譜分析,研究團(tuán)隊(duì)發(fā)現(xiàn)Veo3、萬(wàn)象2.5和Kling配合MMAudio的組合都較好地遵循了光聲傳播的物理規(guī)律。在這些模型生成的內(nèi)容中,雷聲確實(shí)在閃電出現(xiàn)后才開(kāi)始,體現(xiàn)了AI對(duì)基本物理常識(shí)的掌握。

然而,更細(xì)致的分析顯示,不同模型對(duì)雷聲特征的處理存在差異。萬(wàn)象2.5生成的雷聲相對(duì)短促,衰減較快,更符合距離較近的雷電特征。Veo3的雷聲則更加低沉持久,似乎模擬的是遠(yuǎn)距離雷電的聲音特征。Kling配合MMAudio生成的雷聲在時(shí)間分布上最為合理,既體現(xiàn)了主要的雷鳴,也包含了后續(xù)的回聲效果。

這些測(cè)試結(jié)果表明,當(dāng)前的AI模型已經(jīng)開(kāi)始具備對(duì)基本物理規(guī)律的理解能力,但在精確度和一致性方面還有提升空間。更重要的是,不同模型似乎有著不同的"物理常識(shí)偏好",這種差異可能源于訓(xùn)練數(shù)據(jù)的不同或者模型架構(gòu)的特殊性。

七、立體聲空間定位:當(dāng)AI學(xué)會(huì)"用耳朵看世界"

在所有的測(cè)試中,立體聲空間定位能力的評(píng)估最能體現(xiàn)AI技術(shù)的前沿水平。這項(xiàng)測(cè)試要求AI不僅能生成高質(zhì)量的音頻和視頻,還要具備人類(lèi)一樣的空間聽(tīng)覺(jué)能力。

研究團(tuán)隊(duì)設(shè)計(jì)了海岸場(chǎng)景的立體聲測(cè)試。在這個(gè)場(chǎng)景中,左聲道應(yīng)該播放海浪拍擊巖石的聲音,右聲道應(yīng)該播放海鷗的叫聲和輕柔的海風(fēng)聲。AI需要生成相應(yīng)的立體聲視頻,讓觀看者通過(guò)耳機(jī)能夠清楚地感受到聲音的空間分布——仿佛海浪就在左邊,而海鷗在右邊飛翔。

測(cè)試結(jié)果顯示,現(xiàn)有AI模型在這個(gè)任務(wù)上的表現(xiàn)差異巨大。Veo3在立體聲生成方面表現(xiàn)最好,能夠產(chǎn)生明顯的左右聲道差異。通過(guò)波形分析可以看出,左右聲道確實(shí)包含不同的聲音內(nèi)容,而且在某些片段中還能觀察到與視覺(jué)運(yùn)動(dòng)相對(duì)應(yīng)的空間音頻變化。

然而,即使是表現(xiàn)最好的Veo3,其立體聲效果也主要體現(xiàn)在音量分配上,而不是真正的語(yǔ)義空間分離。換句話(huà)說(shuō),AI更像是在模仿立體聲的表面特征,而不是真正理解空間音頻的本質(zhì)。這就像一個(gè)初學(xué)者雖然知道立體聲應(yīng)該有左右差異,但不知道如何根據(jù)場(chǎng)景的實(shí)際空間布局來(lái)安排聲音。

Sora2在立體聲方面的表現(xiàn)相對(duì)較差,生成的左右聲道幾乎完全相同,這意味著用戶(hù)聽(tīng)到的實(shí)際上是單聲道音頻。萬(wàn)象2.5的表現(xiàn)更接近真正的單聲道復(fù)制,立體聲效果微乎其微。

更有趣的發(fā)現(xiàn)是,當(dāng)研究團(tuán)隊(duì)分析AI模型偶然生成的優(yōu)質(zhì)立體聲片段時(shí),發(fā)現(xiàn)這些效果往往出現(xiàn)在特定類(lèi)型的場(chǎng)景中。比如,在賽車(chē)場(chǎng)景中,Veo3能夠生成隨汽車(chē)運(yùn)動(dòng)而移動(dòng)的引擎聲,實(shí)現(xiàn)了基本的空間音頻跟隨效果。在雷雨場(chǎng)景中,Sora2偶爾能夠生成左右不同強(qiáng)度的雷聲,營(yíng)造出風(fēng)雨的空間感。

這些發(fā)現(xiàn)表明,當(dāng)前的AI模型可能在訓(xùn)練數(shù)據(jù)中包含了一些立體聲或空間音頻的信息,但這種能力還很不穩(wěn)定,更像是偶然的巧合而不是系統(tǒng)性的掌握。這提醒研究者,要讓AI真正掌握空間音頻生成能力,可能需要在訓(xùn)練階段就專(zhuān)門(mén)引入空間聽(tīng)覺(jué)的相關(guān)知識(shí)。

八、人類(lèi)評(píng)估驗(yàn)證:AI評(píng)分與人類(lèi)感受的對(duì)比實(shí)驗(yàn)

為了確保VABench評(píng)估系統(tǒng)的有效性,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的人類(lèi)評(píng)估驗(yàn)證實(shí)驗(yàn)。他們邀請(qǐng)了六名專(zhuān)業(yè)評(píng)估人員對(duì)代表性視頻樣本進(jìn)行評(píng)分,然后將這些人類(lèi)評(píng)分與VABench系統(tǒng)的評(píng)分進(jìn)行對(duì)比分析。

這個(gè)驗(yàn)證過(guò)程就像是為新開(kāi)發(fā)的考試系統(tǒng)尋找權(quán)威認(rèn)證。如果一套考試系統(tǒng)的評(píng)分結(jié)果與資深教師的判斷高度一致,那么這套系統(tǒng)就可以被認(rèn)為是可靠和有效的。

驗(yàn)證實(shí)驗(yàn)選擇了三個(gè)核心維度:語(yǔ)義一致性、時(shí)間同步性和真實(shí)性。這三個(gè)維度分別對(duì)應(yīng)VABench系統(tǒng)中的多個(gè)具體指標(biāo)。語(yǔ)義一致性包括文字-視頻對(duì)齊、文字-音頻對(duì)齊和音頻-視頻對(duì)齊;時(shí)間同步性主要指音視頻的時(shí)間匹配程度;真實(shí)性則包括音頻真實(shí)性和視覺(jué)真實(shí)性。

實(shí)驗(yàn)結(jié)果令人鼓舞。在語(yǔ)義一致性方面,人類(lèi)評(píng)估與VABench評(píng)分的相關(guān)性達(dá)到了0.89,這個(gè)數(shù)值表明兩者的判斷高度一致。在時(shí)間同步性方面,相關(guān)性為0.85,同樣顯示了良好的一致性。真實(shí)性評(píng)估的相關(guān)性稍低,為0.79,但仍然達(dá)到了統(tǒng)計(jì)學(xué)上的強(qiáng)相關(guān)標(biāo)準(zhǔn)。

更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)人類(lèi)評(píng)估者與AI評(píng)估系統(tǒng)在某些方面的"意見(jiàn)分歧"往往揭示了評(píng)估的深層問(wèn)題。比如,有些視頻在技術(shù)指標(biāo)上表現(xiàn)完美,但人類(lèi)評(píng)估者認(rèn)為缺乏藝術(shù)感染力;而另一些視頻雖然在技術(shù)上有瑕疵,但人類(lèi)評(píng)估者卻給出了較高的整體評(píng)分。

這種分歧提醒研究者,評(píng)估AI生成內(nèi)容不能僅僅依賴(lài)技術(shù)指標(biāo),還需要考慮人類(lèi)的主觀感受和審美標(biāo)準(zhǔn)。VABench系統(tǒng)通過(guò)引入多模態(tài)語(yǔ)言模型評(píng)估,在一定程度上彌補(bǔ)了純技術(shù)評(píng)估的不足,但如何更好地平衡客觀指標(biāo)與主觀感受,仍然是一個(gè)需要持續(xù)探索的問(wèn)題。

九、不同內(nèi)容類(lèi)別的表現(xiàn)分析:AI的強(qiáng)項(xiàng)與弱點(diǎn)全景圖

通過(guò)對(duì)七個(gè)內(nèi)容類(lèi)別的詳細(xì)分析,研究團(tuán)隊(duì)繪制出了當(dāng)前AI模型能力的全景圖。這份圖譜就像是AI模型的體檢報(bào)告,清楚地顯示了每個(gè)模型在不同領(lǐng)域的健康狀況。

在動(dòng)物類(lèi)別中,所有模型都表現(xiàn)相對(duì)較好,這可能是因?yàn)閯?dòng)物聲音和行為在訓(xùn)練數(shù)據(jù)中比較豐富,而且相對(duì)容易學(xué)習(xí)。Veo3在這個(gè)類(lèi)別中表現(xiàn)最佳,特別是在鳥(niǎo)類(lèi)叫聲和大型哺乳動(dòng)物聲音的處理上。有趣的是,AI模型對(duì)常見(jiàn)寵物的處理明顯好于對(duì)野生動(dòng)物的處理,這反映了訓(xùn)練數(shù)據(jù)分布的偏向性。

人類(lèi)聲音類(lèi)別是所有模型的共同弱點(diǎn)。無(wú)論是語(yǔ)言類(lèi)還是非語(yǔ)言類(lèi)的人類(lèi)聲音,AI模型的表現(xiàn)都不盡如意。這個(gè)發(fā)現(xiàn)特別值得關(guān)注,因?yàn)槿祟?lèi)聲音的處理質(zhì)量直接影響到AI應(yīng)用的用戶(hù)體驗(yàn)。分析顯示,AI在處理標(biāo)準(zhǔn)語(yǔ)音時(shí)表現(xiàn)相對(duì)較好,但在處理帶有強(qiáng)烈情感色彩的聲音時(shí)就顯得力不從心。

音樂(lè)類(lèi)別是一個(gè)有趣的例外。幾乎所有AI模型在這個(gè)類(lèi)別中都表現(xiàn)不錯(cuò),甚至某些指標(biāo)超過(guò)了其他類(lèi)別。這可能是因?yàn)橐魳?lè)有著相對(duì)清晰的結(jié)構(gòu)和規(guī)律,更容易被AI學(xué)習(xí)和模仿。ThinkSound模型在音樂(lè)生成方面表現(xiàn)尤為突出,生成的音樂(lè)質(zhì)量接近專(zhuān)業(yè)水準(zhǔn)。

環(huán)境聲音類(lèi)別的表現(xiàn)呈現(xiàn)出有趣的分化。AI模型在處理自然環(huán)境聲音時(shí)表現(xiàn)最佳,對(duì)城市環(huán)境的處理次之,而室內(nèi)環(huán)境的處理相對(duì)較差。這種差異可能反映了不同環(huán)境在訓(xùn)練數(shù)據(jù)中的分布差異,也可能與不同環(huán)境聲音復(fù)雜度的差異有關(guān)。

同步物理聲音類(lèi)別是對(duì)AI物理理解能力的直接考驗(yàn)。結(jié)果顯示,AI模型雖然能夠生成基本合理的物理聲音,但在精確的時(shí)間同步和物理特性模擬方面還有不足。比如,當(dāng)模擬不同材質(zhì)的碰撞聲時(shí),AI往往無(wú)法準(zhǔn)確體現(xiàn)材質(zhì)差異。

復(fù)雜場(chǎng)景類(lèi)別是技術(shù)挑戰(zhàn)最大的領(lǐng)域。這個(gè)類(lèi)別要求AI同時(shí)處理多種聲音源、理解復(fù)雜的空間關(guān)系、掌握豐富的世界知識(shí)。不出所料,所有模型在這個(gè)類(lèi)別的表現(xiàn)都相對(duì)較差,但端到端訓(xùn)練的模型明顯優(yōu)于分步組裝的模型,這再次證明了聯(lián)合訓(xùn)練的重要性。

虛擬世界類(lèi)別的表現(xiàn)最為特殊。由于沒(méi)有現(xiàn)實(shí)世界的直接參照,這個(gè)類(lèi)別完全依賴(lài)AI的創(chuàng)意能力和想象力。有趣的是,萬(wàn)象2.5在這個(gè)類(lèi)別中表現(xiàn)最好,可能是因?yàn)槠溆?xùn)練數(shù)據(jù)包含了更多的游戲和動(dòng)畫(huà)內(nèi)容。

十、技術(shù)發(fā)展趨勢(shì)與未來(lái)展望:AI音視頻生成的下一站

基于VABench的全面測(cè)試結(jié)果,研究團(tuán)隊(duì)對(duì)AI音視頻生成技術(shù)的發(fā)展趨勢(shì)進(jìn)行了深入分析。這些分析就像是為整個(gè)行業(yè)繪制的路線(xiàn)圖,指出了未來(lái)技術(shù)發(fā)展的方向和重點(diǎn)。

首先,端到端聯(lián)合訓(xùn)練的優(yōu)勢(shì)越來(lái)越明顯。在幾乎所有需要高度音視頻協(xié)調(diào)的任務(wù)中,聯(lián)合訓(xùn)練的模型都表現(xiàn)出了明顯的優(yōu)勢(shì)。這種趨勢(shì)表明,未來(lái)的AI音視頻生成技術(shù)將更加注重模態(tài)間的深度融合,而不是簡(jiǎn)單的后期組合。這就像是從"拼裝玩具"向"一體成型"的技術(shù)演進(jìn)。

其次,物理常識(shí)的重要性日益凸顯。測(cè)試結(jié)果表明,AI模型對(duì)物理規(guī)律的理解程度直接影響生成內(nèi)容的真實(shí)性和可信度。未來(lái)的技術(shù)發(fā)展需要更加重視物理知識(shí)的集成,讓AI不僅能夠模仿表面現(xiàn)象,更能理解其背后的物理機(jī)制。

空間音頻技術(shù)是一個(gè)亟待突破的領(lǐng)域。當(dāng)前幾乎所有模型在立體聲生成方面都表現(xiàn)不佳,但隨著虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)技術(shù)的發(fā)展,對(duì)空間音頻的需求將會(huì)急劇增長(zhǎng)。研究團(tuán)隊(duì)預(yù)測(cè),空間音頻生成將成為下一階段技術(shù)競(jìng)爭(zhēng)的焦點(diǎn)。

人類(lèi)聲音處理仍然是技術(shù)發(fā)展的瓶頸。雖然這是所有模型的共同弱點(diǎn),但也恰恰說(shuō)明了這個(gè)領(lǐng)域的巨大發(fā)展?jié)摿?。未?lái)的技術(shù)突破可能需要專(zhuān)門(mén)針對(duì)人類(lèi)語(yǔ)音和情感表達(dá)進(jìn)行深度優(yōu)化。

個(gè)性化和定制化將成為重要發(fā)展方向。不同的應(yīng)用場(chǎng)景對(duì)音視頻生成有著不同的要求,一刀切的解決方案已經(jīng)無(wú)法滿(mǎn)足多樣化的需求。未來(lái)的AI系統(tǒng)可能需要具備更強(qiáng)的適應(yīng)性,能夠根據(jù)具體應(yīng)用場(chǎng)景調(diào)整生成策略。

評(píng)估標(biāo)準(zhǔn)的標(biāo)準(zhǔn)化也變得越來(lái)越重要。VABench作為首個(gè)綜合性的音視頻生成評(píng)估基準(zhǔn),為行業(yè)提供了統(tǒng)一的評(píng)判標(biāo)準(zhǔn)。但隨著技術(shù)的快速發(fā)展,評(píng)估標(biāo)準(zhǔn)也需要不斷更新和完善,以跟上技術(shù)進(jìn)步的步伐。

研究團(tuán)隊(duì)還觀察到一個(gè)有趣的現(xiàn)象:不同模型似乎有著不同的"風(fēng)格偏好"。有些模型更注重技術(shù)精確度,有些則更強(qiáng)調(diào)藝術(shù)表現(xiàn)力。這種多樣性實(shí)際上是健康的技術(shù)生態(tài)的體現(xiàn),不同的技術(shù)路線(xiàn)可以滿(mǎn)足不同的應(yīng)用需求。

最后,數(shù)據(jù)質(zhì)量和多樣性仍然是制約技術(shù)發(fā)展的關(guān)鍵因素。測(cè)試結(jié)果顯示,AI模型的表現(xiàn)很大程度上受到訓(xùn)練數(shù)據(jù)分布的影響。未來(lái)需要構(gòu)建更加全面、平衡、高質(zhì)量的訓(xùn)練數(shù)據(jù)集,特別是在立體聲、復(fù)雜場(chǎng)景和虛擬世界等相對(duì)薄弱的領(lǐng)域。

說(shuō)到底,VABench不僅僅是一個(gè)評(píng)估工具,更是AI音視頻生成技術(shù)發(fā)展的一面鏡子。通過(guò)這面鏡子,我們能夠清楚地看到當(dāng)前技術(shù)的成就和不足,也能夠展望未來(lái)發(fā)展的方向。正如研究團(tuán)隊(duì)所期望的,VABench將成為推動(dòng)整個(gè)領(lǐng)域持續(xù)進(jìn)步的重要力量,幫助AI技術(shù)更好地理解和模擬我們的多彩世界。

這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身。隨著AI生成內(nèi)容在教育、娛樂(lè)、媒體等領(lǐng)域的廣泛應(yīng)用,如何確保這些內(nèi)容的質(zhì)量和真實(shí)性變得越來(lái)越重要。VABench提供的不僅僅是技術(shù)評(píng)估,更是對(duì)AI內(nèi)容質(zhì)量的保障機(jī)制,為AI技術(shù)的健康發(fā)展提供了重要支撐。

對(duì)于普通用戶(hù)來(lái)說(shuō),這項(xiàng)研究的成果將最終體現(xiàn)在更自然、更真實(shí)、更具感染力的AI生成視頻中。無(wú)論是教育課件中的動(dòng)畫(huà)講解,還是社交媒體上的創(chuàng)意短視頻,都將因?yàn)檫@些技術(shù)進(jìn)步而變得更加精彩。VABench的出現(xiàn),標(biāo)志著AI音視頻生成技術(shù)正在從"能用"向"好用"、從"模仿"向"創(chuàng)造"的重要躍升。

Q&A

Q1:VABench是什么,它有什么特別之處?

A:VABench是北京大學(xué)等機(jī)構(gòu)聯(lián)合開(kāi)發(fā)的首個(gè)專(zhuān)門(mén)評(píng)估AI音視頻同步生成能力的綜合基準(zhǔn)系統(tǒng)。它的特別之處在于不僅測(cè)試AI能否生成清晰的畫(huà)面和聲音,更重要的是檢驗(yàn)音頻和視頻是否能像真實(shí)世界一樣自然協(xié)調(diào),包括唇語(yǔ)同步、物理聲音匹配、立體聲空間效果等15個(gè)維度的全方位評(píng)估。

Q2:目前的AI模型在音視頻生成方面表現(xiàn)如何?

A:測(cè)試結(jié)果顯示AI模型各有強(qiáng)弱。像Veo3、Sora2這樣端到端訓(xùn)練的模型在音畫(huà)同步方面表現(xiàn)更好,特別是需要高度協(xié)調(diào)的場(chǎng)景。但所有模型在人類(lèi)聲音處理和立體聲生成方面都還有很大提升空間,大多數(shù)立體聲效果實(shí)際上只是單聲道的簡(jiǎn)單復(fù)制。

Q3:VABench的評(píng)估結(jié)果對(duì)普通用戶(hù)有什么意義?

A:這些評(píng)估結(jié)果將直接影響未來(lái)AI生成視頻的質(zhì)量。通過(guò)VABench的科學(xué)測(cè)評(píng),開(kāi)發(fā)者能夠發(fā)現(xiàn)并改進(jìn)AI模型的不足,最終讓普通用戶(hù)在使用AI生成視頻時(shí)獲得更自然、更真實(shí)的體驗(yàn),比如更準(zhǔn)確的口型同步、更逼真的環(huán)境音效,以及更有沉浸感的立體聲效果。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
最低9℃ 廣州元旦假期迎新冷空氣

最低9℃ 廣州元旦假期迎新冷空氣

魯中晨報(bào)
2025-12-28 13:49:02
警惕!2026年銀行存款改革,7萬(wàn)以上儲(chǔ)戶(hù)必看這兩個(gè)關(guān)鍵點(diǎn)!

警惕!2026年銀行存款改革,7萬(wàn)以上儲(chǔ)戶(hù)必看這兩個(gè)關(guān)鍵點(diǎn)!

復(fù)轉(zhuǎn)這些年
2025-12-28 16:42:02
多地醫(yī)院開(kāi)始降薪!

多地醫(yī)院開(kāi)始降薪!

黯泉
2025-12-28 14:36:43
“嘎子”演員謝孟偉,被鄭州市管城回族區(qū)人民法院列為失信人

“嘎子”演員謝孟偉,被鄭州市管城回族區(qū)人民法院列為失信人

草莓解說(shuō)體育
2025-12-28 10:46:52
搶中國(guó)原油的美軍,意識(shí)到玩砸了,收到最新命令,60天內(nèi)不能動(dòng)手

搶中國(guó)原油的美軍,意識(shí)到玩砸了,收到最新命令,60天內(nèi)不能動(dòng)手

阿器談史
2025-12-26 20:55:00
豐田汽車(chē)重大轉(zhuǎn)折!

豐田汽車(chē)重大轉(zhuǎn)折!

電動(dòng)知家
2025-12-26 14:44:13
18家大國(guó)企全軍覆沒(méi)!昔日世界第一的中國(guó)機(jī)床,現(xiàn)還有翻身機(jī)會(huì)嗎

18家大國(guó)企全軍覆沒(méi)!昔日世界第一的中國(guó)機(jī)床,現(xiàn)還有翻身機(jī)會(huì)嗎

牛牛叨史
2025-12-20 21:06:35
李宗仁歸國(guó)之后,希望能出任人大副委員長(zhǎng)一職,毛主席卻給出了三條關(guān)鍵理由,直言此事并不合適

李宗仁歸國(guó)之后,希望能出任人大副委員長(zhǎng)一職,毛主席卻給出了三條關(guān)鍵理由,直言此事并不合適

史海孤雁
2025-12-25 16:48:16
摩根士丹預(yù)測(cè):2026年1季度汽車(chē)銷(xiāo)量 下跌30%-35%

摩根士丹預(yù)測(cè):2026年1季度汽車(chē)銷(xiāo)量 下跌30%-35%

網(wǎng)上車(chē)市
2025-12-26 15:38:06
日本的第二大強(qiáng)援出現(xiàn)!高市早苗拍板,要在中國(guó)周邊打造一張巨網(wǎng)

日本的第二大強(qiáng)援出現(xiàn)!高市早苗拍板,要在中國(guó)周邊打造一張巨網(wǎng)

時(shí)時(shí)有聊
2025-12-28 12:23:00
臺(tái)海一旦爆發(fā)戰(zhàn)爭(zhēng),9國(guó)或?qū)⒕砣牖鞈?zhàn),中俄朝將對(duì)陣“七國(guó)聯(lián)軍”

臺(tái)海一旦爆發(fā)戰(zhàn)爭(zhēng),9國(guó)或?qū)⒕砣牖鞈?zhàn),中俄朝將對(duì)陣“七國(guó)聯(lián)軍”

起喜電影
2025-12-28 17:02:23
1960年代,許世友想要安徽一個(gè)湖,省委書(shū)記拍桌子:手伸太長(zhǎng)!結(jié)局誰(shuí)也沒(méi)想到

1960年代,許世友想要安徽一個(gè)湖,省委書(shū)記拍桌子:手伸太長(zhǎng)!結(jié)局誰(shuí)也沒(méi)想到

源溯歷史
2025-12-22 12:14:11
孟小冬究竟有多漂亮?一嫁梅蘭芳二嫁杜月笙,美得讓人移不開(kāi)眼!

孟小冬究竟有多漂亮?一嫁梅蘭芳二嫁杜月笙,美得讓人移不開(kāi)眼!

阿胂是吃瓜群眾
2025-12-26 15:46:17
男子發(fā)現(xiàn)妻子胸口有可疑痕跡,到醫(yī)院檢查后,醫(yī)生:立即聯(lián)系警察

男子發(fā)現(xiàn)妻子胸口有可疑痕跡,到醫(yī)院檢查后,醫(yī)生:立即聯(lián)系警察

眼淚博物
2025-08-07 16:47:38
山西省司法廳原一級(jí)巡視員周濤接受審查調(diào)查

山西省司法廳原一級(jí)巡視員周濤接受審查調(diào)查

界面新聞
2025-12-28 11:31:42
菲律賓通過(guò)85號(hào)決議,向中國(guó)索賠3960億,不到一天,中方反將一軍

菲律賓通過(guò)85號(hào)決議,向中國(guó)索賠3960億,不到一天,中方反將一軍

阿器談史
2025-12-28 09:58:34
他比黎智英更“毒”!潛伏30年,用510萬(wàn)策劃香港暴亂,結(jié)局如何

他比黎智英更“毒”!潛伏30年,用510萬(wàn)策劃香港暴亂,結(jié)局如何

云舟史策
2025-12-22 07:04:23
雄鹿終結(jié)公牛5連勝:字母哥復(fù)出29+8爭(zhēng)議暴扣引沖突 吉迪13+7+9

雄鹿終結(jié)公牛5連勝:字母哥復(fù)出29+8爭(zhēng)議暴扣引沖突 吉迪13+7+9

醉臥浮生
2025-12-28 11:30:16
【解局】被中方最新制裁的美國(guó)軍工企業(yè)和個(gè)人,都是什么來(lái)頭?

【解局】被中方最新制裁的美國(guó)軍工企業(yè)和個(gè)人,都是什么來(lái)頭?

環(huán)球網(wǎng)資訊
2025-12-26 22:56:11
人民幣持續(xù)升值,會(huì)引發(fā)全球金融海嘯

人民幣持續(xù)升值,會(huì)引發(fā)全球金融海嘯

何毅商業(yè)財(cái)經(jīng)
2025-12-27 20:10:50
2025-12-28 20:03:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

臺(tái)媒體人:賴(lài)清德彈劾案通過(guò) 對(duì)賴(lài)是一個(gè)很大的侮辱

頭條要聞

臺(tái)媒體人:賴(lài)清德彈劾案通過(guò) 對(duì)賴(lài)是一個(gè)很大的侮辱

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車(chē)了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車(chē)要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

時(shí)尚
本地
數(shù)碼
健康
軍事航空

瑞典拉普蘭:凜冽北境的萬(wàn)物平衡之道

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書(shū)

數(shù)碼要聞

被人民日?qǐng)?bào)“點(diǎn)名”,這款筆記本電腦適合你嗎?

這些新療法,讓化療不再那么痛苦

軍事要聞

與特朗普會(huì)晤前 澤連斯基亮明“紅線(xiàn)”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版