国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓 AI 學(xué)會(huì)“靈魂拷問”:我們?nèi)绾谓虣C(jī)器評(píng)判生成視頻 | ICCV 2025

0
分享至


ETVA的核心思想是:像人一樣,通過“提問-回答”來深入理解和評(píng)估視頻內(nèi)容。

作者丨關(guān)開思、宋睿華

(作者介紹)本文第一作者是中國人民大學(xué)高瓴人工智能學(xué)院2024 級(jí)碩士生關(guān)開思(導(dǎo)師宋睿華),他的主要研究興趣方向是多模態(tài)學(xué)習(xí)。本文通訊作者是宋睿華長聘副教授,她的 AIMind 團(tuán)隊(duì)主要研究方向是多模態(tài)感知、交互與生成。

當(dāng)你輸入一句指令——“水在空間站中從玻璃杯慢慢倒出”——視頻模型立刻生成了一段流暢的動(dòng)畫??瓷先ゲ诲e(cuò):水從杯中傾瀉而出,畫面清晰,動(dòng)作逼真。

但仔細(xì)一想,哪里不對(duì)?在空間站里,水并不會(huì)向下流,而是會(huì)在失重中漂浮成一顆顆液滴。

在AI視頻生成技術(shù)井噴的今天,我們驚嘆于 Sora、Kling、Vidu 等模型創(chuàng)造出的越來越逼真、富有想象力的視頻。然而,一個(gè)核心問題也隨之而來:除了肉眼觀看,我們?nèi)绾尉_、客觀地判斷,一個(gè)AI生成的視頻是否真的“聽懂”了我們的指令?



論文地址:
https://arxiv.org/abs/2503.16867

代碼地址:
https://github.com/guankaisi/ETVA

項(xiàng)目地址:
https://eftv-eval.github.io/etva-eval/

01

背景

長久以來,學(xué)術(shù)界與工業(yè)界主要依賴BLIP-BLEU、CLIPScore、VideoScore等自動(dòng)化指標(biāo)以評(píng)估生成視頻是否符合文本指令。然而,這類指標(biāo)通常只能給出一個(gè)“大差不差”的總體分?jǐn)?shù),難以細(xì)致判斷視頻內(nèi)容是否在細(xì)節(jié)上與指令精準(zhǔn)對(duì)齊,甚至在某些情況下會(huì)得出與人類判斷相悖的結(jié)果。

以“水在空間站中從玻璃杯慢慢倒出”這一場景為例(見下圖),傳統(tǒng)評(píng)價(jià)指標(biāo)往往只能輸出一個(gè)模糊的分?jǐn)?shù),無法有效區(qū)分視頻在物理合理性上的差異,有時(shí)甚至?xí)⒚黠@違背常識(shí)的結(jié)果評(píng)為高分。而人類觀察者卻能輕易識(shí)別出第二個(gè)視頻更為優(yōu)秀——因?yàn)樗鼫?zhǔn)確捕捉到了微重力環(huán)境下水珠漂浮的真實(shí)狀態(tài),更符合我們對(duì)“空間站”這一場景的物理認(rèn)知。


為了解決這一“霧里看花”式的評(píng)估困境,來自中國人民大學(xué)的宋睿華帶領(lǐng)的AIMind團(tuán)隊(duì)提出了一種全新的文本到視頻(T2V)指令遵循的評(píng)估方法——ETVA。相關(guān)論文已被 ICCV 2025錄用。

ETVA的核心思想是:像人一樣,通過“提問-回答”來深入理解和評(píng)估視頻內(nèi)容。它不再滿足于一個(gè)模糊的總分,而是將復(fù)雜的文本指令拆解成一系列原子化的、可被明確回答的“是/非”問題,從而對(duì)視頻進(jìn)行細(xì)致入微的“靈魂拷問”。

02

ETVA 如何實(shí)現(xiàn)“靈魂拷問”?


ETVA的評(píng)估流程模擬了人類的認(rèn)知過程,主要分為兩個(gè)關(guān)鍵階段:

第一步:多智能體協(xié)作,生成精準(zhǔn)“問題列表”

面對(duì)一句文本指令,比如“水在空間站里從一個(gè)玻璃杯中慢慢倒出”,ETVA首先會(huì)啟動(dòng)一個(gè)由三個(gè)智能體組成的“問題生成團(tuán)隊(duì)”:

1.元素提取器 (Element Extractor):首先識(shí)別出文本中的核心元素,如實(shí)體(杯子、水、空間站)、屬性(玻璃材質(zhì))和關(guān)系(從...倒出)。

2.圖構(gòu)建器 (Graph Builder):將這些離散的元素組織成一個(gè)結(jié)構(gòu)化的“場景圖”,清晰地描繪出它們之間的邏輯關(guān)系。

3.圖遍歷器 (Graph Traverser):最后,系統(tǒng)性地遍歷這張圖,將每個(gè)節(jié)點(diǎn)和連接都轉(zhuǎn)換成一個(gè)簡單的是非題。

例如,針對(duì)上述指令,它會(huì)生成如下問題列表:

  • 視頻里有杯子嗎?[是/否]

  • 視頻里有水嗎?[是/否]

  • 水是從杯子里倒出來的嗎?[是/否]

  • 水是在空間站里倒出來的嗎?[是/否]

第二步:知識(shí)增強(qiáng)+多階段推理,給出“有理有據(jù)”的答案

生成問題后,ETVA會(huì)利用先進(jìn)的視頻大語言模型(Video LLM)來自動(dòng)回答。為了避免模型產(chǎn)生“幻覺”,ETVA設(shè)計(jì)了一個(gè)嚴(yán)謹(jǐn)?shù)幕卮鹂蚣埽?/p>

1.知識(shí)增強(qiáng) (Knowledge Augmentation):在回答之前,一個(gè)輔助大語言模型會(huì)首先“回憶”與指令相關(guān)的常識(shí)知識(shí)。例如,提到“空間站”,它會(huì)補(bǔ)充“液體在微重力環(huán)境下會(huì)呈球狀漂浮,而不是向下流動(dòng)”這一物理學(xué)常識(shí)。

2.多階段推理 (Multi-Stage Reasoning):隨后,Video LLM會(huì)進(jìn)行“三步走”式思考:首先,逐幀理解視頻的客觀內(nèi)容;接著,結(jié)合文本指令、常識(shí)知識(shí)和視頻畫面進(jìn)行綜合分析與反思;最后,給出“是”或“否”的結(jié)論,并附上推理依據(jù)。

最終,視頻的指令遵循度得分,即為其正確回答問題的百分比。這種方法不僅使評(píng)估結(jié)果更為精準(zhǔn)可靠,其清晰的決策過程也賦予了模型出色的可解釋性。

03

ETVA-Bench:一把衡量T2V模型的“新標(biāo)尺”

基于ETVA框架,研究團(tuán)隊(duì)構(gòu)建了一個(gè)全面的文生視頻對(duì)齊度評(píng)估基準(zhǔn)——ETVABench,它包含從10個(gè)不同維度(如物體存在、動(dòng)作、物理、相機(jī)運(yùn)鏡等)精選的2000條指令及衍生的12000個(gè)原子問題。并分別提供了面向開源模型的ETVABench-2000與面向閉源模型的ETVABench-105兩個(gè)評(píng)測集合。


上圖是ETVABench 每個(gè)類別的問題示例和 Prompt 示例。


上圖是ETVABench-2K 以及 ETVABench-105 在各個(gè)類別上的數(shù)量分布。

在與人類偏好一致性上,實(shí)驗(yàn)結(jié)果令人振奮:ETVA與人類裁判的判斷相關(guān)性達(dá)到了58.47,遠(yuǎn)超以往最優(yōu)方法(僅為31.0),證明了其作為新一代評(píng)估工具的卓越性能 。


以下表格展示了15個(gè)不同的文生視頻(T2V)模型在ETVABench-105基準(zhǔn)測試上的詳細(xì)評(píng)估結(jié)果。這些模型被分為兩組:10個(gè)開源模型和5個(gè)閉源模型。

評(píng)估維度涵蓋了10個(gè)細(xì)分領(lǐng)域,包括物體的存在性(Existence)、動(dòng)作(Action)、材質(zhì)(Material)、空間關(guān)系(Spatial)、數(shù)量(Number)、形狀(Shape)、顏色(Color)、相機(jī)運(yùn)鏡(Camera)、物理規(guī)律(Physics)和其他(Other),并計(jì)算了每個(gè)模型的平均分(Avg)。

從最終的平均分來看:

  • 在所有參與評(píng)測的模型中,閉源模型Vidu-1.5的綜合表現(xiàn)最好,平均分達(dá)到了0.761。

  • 在開源模型中,Hunyuan-Video表現(xiàn)最佳,平均分為0.686。

總體而言,閉源模型的平均分普遍高于開源模型,尤其在空間關(guān)系(Sora得分0.870)和材質(zhì)(Vidu-1.5得分0.854)等維度上展現(xiàn)出顯著優(yōu)勢(shì)。


通過對(duì)15個(gè)主流T2V模型(包括Sora、Kling等5個(gè)閉源模型和Hunyuan-Video等10個(gè)開源模型)的系統(tǒng)性評(píng)測,ETVA揭示了當(dāng)前模型普遍存在的短板,尤其是在物理規(guī)律模擬相機(jī)運(yùn)動(dòng)控制方面能力不足,以下是四個(gè)例子。

  • 物理現(xiàn)象:在“空間站倒水”測試中,Sora準(zhǔn)確還原了微重力,得分100;而Kling則表現(xiàn)為普通重力,得分僅37.5 。

  • 顏色變化:在“葉子由綠變紅”測試中,Pika 沒有表現(xiàn)出葉子顏色變化的過程得分 50,而 Vidu 準(zhǔn)確的表現(xiàn)了出來,得分 100。

  • 數(shù)量準(zhǔn)確性:在生成“三只貓頭鷹”時(shí),Kling精準(zhǔn)無誤(100分),Sora卻多畫了一只(88.3分)。

  • 手勢(shì)語義:Hunyuan準(zhǔn)確執(zhí)行了“拇指向下”的指令(100分),而Kling則將其誤解為“豎起大拇指”,語義錯(cuò)誤(40分)。


04

未來展望

ETVA不僅為我們提供了一個(gè)更可靠、更精細(xì)的T2V模型評(píng)估工具,更重要的是,它通過精準(zhǔn)定位現(xiàn)有模型的弱點(diǎn),為下一代文生視頻技術(shù)的發(fā)展指明了方向。未來,研究團(tuán)隊(duì)將把ETVA框架拓展至更復(fù)雜、多元的視頻場景中,為構(gòu)建真正“理解”用戶意圖的智能生成模型鋪平道路。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
第二個(gè)李登輝出現(xiàn)了?她專門臥底國民黨內(nèi)部,目的就是摧毀國民黨

第二個(gè)李登輝出現(xiàn)了?她專門臥底國民黨內(nèi)部,目的就是摧毀國民黨

面包夾知識(shí)
2025-12-19 13:07:50
2025深圳企業(yè)500強(qiáng)榜單發(fā)布,中國平安、華為、比亞迪位列前三

2025深圳企業(yè)500強(qiáng)榜單發(fā)布,中國平安、華為、比亞迪位列前三

野武士
2025-12-19 11:38:04
已變光頭,雷霆前鋒托皮奇在接受睪丸癌化療手術(shù)后重返訓(xùn)練場

已變光頭,雷霆前鋒托皮奇在接受睪丸癌化療手術(shù)后重返訓(xùn)練場

懂球帝
2025-12-19 09:08:06
機(jī)關(guān)事業(yè)退休老人必看!60號(hào)文件,就是你的養(yǎng)老錢說明書

機(jī)關(guān)事業(yè)退休老人必看!60號(hào)文件,就是你的養(yǎng)老錢說明書

白淺娛樂聊
2025-12-19 10:25:20
傅作義拎著三斤黃金去面見毛澤東,主席說:“金子你拿回去,槍交出來!”

傅作義拎著三斤黃金去面見毛澤東,主席說:“金子你拿回去,槍交出來!”

老杉說歷史
2025-12-17 19:19:12
鄭國霖上海買巧克力豆,買三袋結(jié)賬時(shí)表情都變了,被網(wǎng)友笑大冤種

鄭國霖上海買巧克力豆,買三袋結(jié)賬時(shí)表情都變了,被網(wǎng)友笑大冤種

八怪娛
2025-12-16 19:52:14
上月剛升任縣委書記,在大會(huì)上我就被排擠,我準(zhǔn)備開始干部調(diào)動(dòng)

上月剛升任縣委書記,在大會(huì)上我就被排擠,我準(zhǔn)備開始干部調(diào)動(dòng)

秋風(fēng)專欄
2025-12-16 11:43:12
“姜子牙”飾演者,95歲的藍(lán)天野:白天當(dāng)演員,晚上當(dāng)間諜,隱姓埋名75年,他的人生,比電影還精彩

“姜子牙”飾演者,95歲的藍(lán)天野:白天當(dāng)演員,晚上當(dāng)間諜,隱姓埋名75年,他的人生,比電影還精彩

LULU生活家
2025-12-05 19:05:28
國產(chǎn)芯片光刻膠,70%以上依賴日本進(jìn)口,外媒:致命瓶頸!

國產(chǎn)芯片光刻膠,70%以上依賴日本進(jìn)口,外媒:致命瓶頸!

瘋狂小菠蘿
2025-12-19 13:33:16
罰球絕殺,勇士惜敗!巴特勒31+3+3,賽后狄龍一把抱住布克

罰球絕殺,勇士惜?。“吞乩?1+3+3,賽后狄龍一把抱住布克

擔(dān)酒
2025-12-19 12:46:31
50歲女士夜里翻身拿手機(jī),突然失去知覺,確診癱瘓!罪魁禍?zhǔn)拙故撬?>
    </a>
        <h3>
      <a href=上海女性
2025-12-18 19:10:56
這種碳水每天吃,4個(gè)月“洗掉”30%身體脂肪,讓70%的人悄悄瘦了

這種碳水每天吃,4個(gè)月“洗掉”30%身體脂肪,讓70%的人悄悄瘦了

時(shí)光派健康抗衰
2025-12-08 16:00:09
帶狗用餐視頻熱傳引眾怒!女子還配文:連盤底都舔了!網(wǎng)友直呼:太過分了……

帶狗用餐視頻熱傳引眾怒!女子還配文:連盤底都舔了!網(wǎng)友直呼:太過分了……

環(huán)球網(wǎng)資訊
2025-12-19 14:05:53
印度首富的家庭瑣事:小兒媳和大伯哥多次牽手,小兒子毫不在意

印度首富的家庭瑣事:小兒媳和大伯哥多次牽手,小兒子毫不在意

小書生吃瓜
2025-12-16 16:49:54
寧波“小洛熙媽媽”,2025年12月18日發(fā)布“四點(diǎn)澄清”——

寧波“小洛熙媽媽”,2025年12月18日發(fā)布“四點(diǎn)澄清”——

葉初七
2025-12-19 10:23:25
血虧5000萬?蘇富比稀世黃鉆“金絲雀”拍賣遇冷,業(yè)內(nèi):早有預(yù)料

血虧5000萬?蘇富比稀世黃鉆“金絲雀”拍賣遇冷,業(yè)內(nèi):早有預(yù)料

果殼
2025-12-19 14:25:00
陳坤廣告造型翻車,臉長鼻子扁像特效,網(wǎng)友:法拉利老了變夏利

陳坤廣告造型翻車,臉長鼻子扁像特效,網(wǎng)友:法拉利老了變夏利

蕾爸退休日記
2025-12-19 13:21:45
徐正源兒子:父親經(jīng)歷艱難的決定,成都永遠(yuǎn)是我們的第二故鄉(xiāng)

徐正源兒子:父親經(jīng)歷艱難的決定,成都永遠(yuǎn)是我們的第二故鄉(xiāng)

懂球帝
2025-12-18 23:14:30
你見過最清閑的事業(yè)編是啥?網(wǎng)友:還有一個(gè)供銷社,閑出病來

你見過最清閑的事業(yè)編是啥?網(wǎng)友:還有一個(gè)供銷社,閑出病來

帶你感受人間冷暖
2025-12-16 00:20:09
專家再次預(yù)測中國房價(jià)走勢(shì),大概率又是對(duì)的,提前做好2個(gè)準(zhǔn)備

專家再次預(yù)測中國房價(jià)走勢(shì),大概率又是對(duì)的,提前做好2個(gè)準(zhǔn)備

樂天閑聊
2025-12-19 10:52:46
2025-12-19 14:59:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7012文章數(shù) 20715關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

中戲院長郝戎被查 劉燁、章子怡、靳東等為其學(xué)生

頭條要聞

中戲院長郝戎被查 劉燁、章子怡、靳東等為其學(xué)生

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬

態(tài)度原創(chuàng)

藝術(shù)
親子
時(shí)尚
本地
房產(chǎn)

藝術(shù)要聞

諸樂三的寫意花鳥

親子要聞

81年男子去幼兒園接女兒放學(xué),被認(rèn)成爺爺。

實(shí)用|| 百元外套穿出萬元既視感,這個(gè)思路太妙了!

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

房產(chǎn)要聞

猛降1.65億!大唐集團(tuán),再次出售三亞核心資產(chǎn)!

無障礙瀏覽 進(jìn)入關(guān)懷版