国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

TPAMI | 視頻生成能成為世界模型嗎?三個(gè)被長(zhǎng)期忽視的評(píng)測(cè)門檻

0
分享至

當(dāng)Veo、Sora、Luma、Kling(可靈)、Genie 3等模型不斷刷新大眾對(duì)視頻生成的認(rèn)知時(shí),一個(gè)更根本的問(wèn)題開始浮現(xiàn):視頻生成模型,正在被當(dāng)作“世界模型”來(lái)使用了嗎?

無(wú)論是自動(dòng)駕駛仿真、具身智能、影視制作,還是交互式內(nèi)容生成,越來(lái)越多應(yīng)用正在默認(rèn)一個(gè)前提 --- 模型生成的視頻,不應(yīng)只是“看起來(lái)合理”,而是“可以當(dāng)作一個(gè)世界的演化”,而這也對(duì)視頻生成模型提出了遠(yuǎn)高于“畫面好不好看”的要求。



論文題目: VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models 論文鏈接: https://ieeexplore.ieee.org/document/11250949 代碼鏈接: https://github.com/Vchitect/VBench 項(xiàng)目主頁(yè): https://vchitect.github.io/VBench-project/
一、從“拍一段視頻”,到“建模一個(gè)世界”

早期的視頻生成,關(guān)注點(diǎn)很簡(jiǎn)單: 畫面清不清晰?動(dòng)作順不順?美不美?但當(dāng)視頻生成被推向更復(fù)雜的任務(wù),這些標(biāo)準(zhǔn)開始顯得不夠用。一個(gè)世界模型級(jí)別的視頻生成系統(tǒng),至少要回答三件事:

  • 它能否從一個(gè)給定的世界狀態(tài)繼續(xù)生成?

  • 它能否在更長(zhǎng)時(shí)間尺度上保持一致的世界規(guī)律?

  • 它在真實(shí)世界語(yǔ)境下,是否值得被信任?

換句話說(shuō):世界模型不只要會(huì)“生成”,還要 接得住、撐得久、靠得住。而這三點(diǎn),恰恰是長(zhǎng)期以來(lái)視頻生成評(píng)測(cè)中被系統(tǒng)性忽略的部分。也正因此,VBench++ 的目標(biāo)并不只是“跑分”或者“排名”,而是提供一套可解釋、可復(fù)現(xiàn)、可診斷,并且能夠覆蓋 T2V / I2V / 長(zhǎng)視頻 / 可信性的系統(tǒng)性評(píng)測(cè)體系。

二、被忽視的第一道門檻:I2V,不只是“另一個(gè)任務(wù)”

在真實(shí)應(yīng)用中,視頻生成很少是“憑空開始”的。更多時(shí)候,模型面對(duì)的是: 一張已有的圖像、一個(gè)當(dāng)前世界狀態(tài)、一個(gè)已經(jīng)存在的場(chǎng)景。這正是 Image-to-Video(I2V) 的重要性:不是生成,而是“續(xù)寫世界”。

然而,過(guò)去很長(zhǎng)一段時(shí)間里,I2V 往往只是 T2V 的“附屬測(cè)試”:

  • 不同模型被強(qiáng)行拉到同一分辨率

  • 不同寬高比被粗暴統(tǒng)一

  • 輸入圖像質(zhì)量本身成為隱性瓶頸

結(jié)果是:評(píng)測(cè)結(jié)果往往混合了模型能力、設(shè)置偏置和輸入退化。

如果說(shuō) T2V 測(cè)的是視頻生成模型“想象力”,那 I2V 測(cè)的,其實(shí)是世界模型中更關(guān)鍵的一點(diǎn) --- 狀態(tài)是否能被正確繼承與演化。

三、讓 I2V 更公平:Image Suite + 自適應(yīng)寬高比:

I2V 的評(píng)測(cè)難點(diǎn)之一是“設(shè)置不統(tǒng)一”: 有的模型默認(rèn) 1024×576,有的模型默認(rèn) 256×256;有的偏 16:9,有的偏 1:1。把所有模型強(qiáng)行拉到同一分辨率,可能會(huì)引入額外的退化,導(dǎo)致評(píng)測(cè)不公。

為此,VBench++ 引入了面向 I2V 的 Image Suite。它不是隨機(jī)抓的一堆圖片,而是一個(gè)專門為 I2V 公平評(píng)測(cè)設(shè)計(jì)的圖像測(cè)試集基準(zhǔn):

  • (1) 高分辨率:以 4K+ 圖片為主,減少輸入瓶頸對(duì)生成質(zhì)量的限制



  • (2)自適應(yīng)寬高比:通過(guò)pipeline適配/覆蓋一系列寬高比,盡量讓模型在各自的“最優(yōu)默認(rèn)設(shè)置”下被評(píng)測(cè)




  • (3) 內(nèi)容多樣且均衡:覆蓋前景 / 背景多類內(nèi)容,強(qiáng)調(diào)類別內(nèi)多樣性


  • (4) 圖文成對(duì):每張圖片配套精修文本提示,支撐 I2V 條件一致性評(píng)估,I2V 不再是“順帶測(cè)一下”,而是被當(dāng)作世界模型能力的關(guān)鍵一環(huán)來(lái)認(rèn)真對(duì)待。

第二道門檻:長(zhǎng)時(shí)間一致性,才是真正的“世界”

很多視頻生成模型,在前幾秒表現(xiàn)得相當(dāng)驚艷。但只要拉長(zhǎng)時(shí)間尺度,問(wèn)題就會(huì)逐漸顯現(xiàn):人物身份緩慢漂移,物體屬性悄然改變,場(chǎng)景結(jié)構(gòu)在不知不覺(jué)中崩塌。這些問(wèn)題,在短視頻里不一定明顯,但在長(zhǎng)序列中會(huì)被無(wú)限放大。

世界模型的難點(diǎn),從來(lái)不在“第一幀”,而在“第 N 幀”。如果模型無(wú)法在更長(zhǎng)時(shí)間跨度內(nèi)維持一致的世界狀態(tài),那么它更像是在“不斷重畫”,而不是在“模擬世界”。

第三道門檻:當(dāng)視頻生成進(jìn)入現(xiàn)實(shí)應(yīng)用,評(píng)測(cè)也必須更謹(jǐn)慎地考慮“可信性”

還有一個(gè)問(wèn)題,過(guò)去很少被當(dāng)作視頻生成評(píng)測(cè)的核心維度:這個(gè)模型,是否值得被信任?當(dāng)生成視頻開始進(jìn)入真實(shí)生產(chǎn)鏈路,以下問(wèn)題無(wú)法回避:

  • 不同文化語(yǔ)境下,模型是否存在系統(tǒng)性偏差?

  • 人物生成中是否隱含性別或膚色偏置?

  • 是否會(huì)在看似普通的提示下生成不安全(色情暴力等)內(nèi)容?

這些問(wèn)題,并不會(huì)體現(xiàn)在“畫面質(zhì)量”或“語(yǔ)義貼合度”里,卻直接決定模型能否被安全部署。世界模型不僅要“像”,還要“穩(wěn)”和“負(fù)責(zé)任”。

VBench++ 將 Trustworthiness(可信性) 正式納入評(píng)測(cè)框架,系統(tǒng)性地覆蓋:

  • 跨文化一致性(Culture Fairness)

  • 性別與膚色偏差(Gender / Skin Tone Bias)

  • 安全性與風(fēng)險(xiǎn)內(nèi)容(Safety)

這些維度同樣配套了自動(dòng)化評(píng)測(cè)方法,并通過(guò)大規(guī)模人類偏好標(biāo)注進(jìn)行對(duì)齊驗(yàn)證,讓“可信性”評(píng)估不止停留在定性討論。

評(píng)測(cè)的角色,正在發(fā)生變化

正是在這樣的背景下,VBench++讓視頻生成評(píng)測(cè)開始從“跑分工具”轉(zhuǎn)向“能力診斷”。它的目標(biāo)并不只是“給模型排名”,而是提供一套 可解釋、可復(fù)現(xiàn)、可診斷,并且能夠覆蓋 T2V / I2V / 長(zhǎng)時(shí)一致性 / 可信性 的評(píng)測(cè)體系。

VBench++的核心思想并不復(fù)雜:

不要試圖用一個(gè)分?jǐn)?shù)概括一切,而是把“視頻生成能力”拆解成可診斷的維度。

四、附錄:VBench 系列榜單怎么用?

如果你想快速對(duì)比不同視頻生成模型的能力,VBench 系列目前提供了多個(gè)互補(bǔ)的榜單入口。它們的區(qū)別不在于“誰(shuí)更權(quán)威”,而在于你關(guān)注的任務(wù)形態(tài)與能力維度不同。

總榜入口(Leaderboard): https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

下面是三個(gè)最常用的榜單:

(1) VBench-T2V 榜單:Text-to-Video 的“基礎(chǔ)體檢”

如果你評(píng)測(cè)的是文生視頻(T2V),想知道模型在“生成質(zhì)量 + 條件一致性”上的綜合表現(xiàn),從這里開始最合適。

  • 覆蓋 16 個(gè)核心能力維度(更像一份結(jié)構(gòu)化體檢報(bào)告,而不是單一總分)

  • 收錄 100+ 個(gè) Text-to-Video 模型,更新頻率高、對(duì)比范圍廣

  • 適合:做模型選型、快速定位“強(qiáng)項(xiàng)/短板”、寫實(shí)驗(yàn)對(duì)比表格

(2) VBench-I2V 榜單:Image-to-Video 的“狀態(tài)承接能力”對(duì)比

如果你關(guān)心的是 圖生視頻(I2V)—— 即“從給定世界狀態(tài)繼續(xù)生成”,那這個(gè)榜單更對(duì)口。重點(diǎn)評(píng)估:

  • 在給定輸入圖像條件下,模型能否穩(wěn)定繼承主體身份、場(chǎng)景信息

  • 當(dāng)前覆蓋約 30 個(gè) I2V 模型(更聚焦、也更貼近應(yīng)用落地場(chǎng)景)

  • 適合:I2V 模型選型、產(chǎn)品落地前的穩(wěn)定性與一致性排查

(3) VBench-2.0 榜單:評(píng)“內(nèi)在真實(shí)性”的更高階考題

如果你更關(guān)注“世界模型味兒”——模型是否真的具備更強(qiáng)的物理規(guī)律、常識(shí)推理與結(jié)構(gòu)化理解,那 VBench-2.0 是更合適的入口。 它評(píng)測(cè)的是模型的內(nèi)在真實(shí)性(Intrinsic Faithfulness),包括但不限于:

  • 物理規(guī)律(Physics Plausibility)

  • 常識(shí)與因果一致性(Common Sense / Causality)

  • 人體解剖合理性(Human Anatomy)

  • 場(chǎng)景組合與結(jié)構(gòu)約束(Composition / Structural Consistency)

這類能力往往不會(huì)在“短視頻驚艷感”里直接體現(xiàn),卻會(huì)在更復(fù)雜、更長(zhǎng)時(shí)程、更真實(shí)的任務(wù)里決定模型是否可靠。


五、寫在最后

當(dāng)視頻生成逐漸被視為世界模型的一種實(shí)現(xiàn)形式,評(píng)測(cè)本身,也需要隨之升級(jí)。I2V、長(zhǎng)時(shí)一致性、可信性,并不是附加條件,而是世界模型無(wú)法繞開的基本門檻。VBench++ 希望為這個(gè)領(lǐng)域提供一把更鋒利、也更負(fù)責(zé)任的尺子:不只告訴你“強(qiáng)不強(qiáng)”,更告訴你“強(qiáng)在哪里、差在哪里”。

合理的評(píng)測(cè)目標(biāo),本身就是指引下一階段研究與應(yīng)用的重要指南針。 視頻生成的發(fā)展日新月異:從最初只能生成 1–2 秒的“一眼 AI 視頻”,到如今在短視頻場(chǎng)景中已足以以假亂真;從展示模型能力,到逐步走入真實(shí)生產(chǎn)與交互系統(tǒng)。當(dāng)世界模型開始進(jìn)入下游應(yīng)用,整個(gè)領(lǐng)域都需要認(rèn)真思考:下一步真正值得突破的瓶頸是什么?哪些能力必須被優(yōu)先檢驗(yàn)?又有哪些風(fēng)險(xiǎn)不能被忽視?

評(píng)測(cè)不應(yīng)只是跟隨模型進(jìn)步的“事后記錄”,而應(yīng)成為定義問(wèn)題、約束方向、引導(dǎo)研究的重要工具。

相關(guān)資料: 從視頻生成到世界模型的路線圖: https://world-model-roadmap.github.ioVBench 系列評(píng)測(cè)體系: https://github.com/Vchitect/VBench 視覺(jué)生成評(píng)測(cè)的論文資料庫(kù): https://github.com/ziqihuangg/Awesome-Evaluation-of-Visual-Generation 世界模型論文資料庫(kù): https://github.com/ziqihuangg/Awesome-From-Video-Generation-to-World-Model

VBench++ 并不試圖給出終極答案,但希望至少讓我們?cè)谧穯?wèn)一個(gè)更重要的問(wèn)題時(shí),有一把更清晰的尺子:

這個(gè)模型,真的在“理解并演化一個(gè)世界”嗎?

歡迎使用、也歡迎來(lái)“挑戰(zhàn)”這個(gè) benchmark!更歡迎社區(qū)提出寶貴建議,與我們一起不斷打磨評(píng)測(cè)目標(biāo)、完善問(wèn)題定義,為視頻生成與世界模型的評(píng)測(cè)持續(xù)添磚加瓦。

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃


TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。


投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
周鴻祎力挺“龍蝦”:不進(jìn)步才是最大安全隱患

周鴻祎力挺“龍蝦”:不進(jìn)步才是最大安全隱患

中國(guó)經(jīng)濟(jì)網(wǎng)
2026-03-12 22:30:03
全球僅生產(chǎn)2枚!爆炸威力比“小男孩”大3000多倍,美國(guó)至今忌憚

全球僅生產(chǎn)2枚!爆炸威力比“小男孩”大3000多倍,美國(guó)至今忌憚

通文知史
2026-03-12 18:30:51
梅奔不演了 F1中國(guó)站沖刺排位賽毫無(wú)懸念

梅奔不演了 F1中國(guó)站沖刺排位賽毫無(wú)懸念

五星體育
2026-03-13 16:39:38
WTT冠軍賽!再爆大冷,世界冠軍被淘汰,蒯曼、申裕斌皆3-1晉級(jí)

WTT冠軍賽!再爆大冷,世界冠軍被淘汰,蒯曼、申裕斌皆3-1晉級(jí)

林子說(shuō)事
2026-03-13 12:13:15
意足壇俱樂(lè)部老板財(cái)富榜:科莫老板哈托諾家族385億歐居首

意足壇俱樂(lè)部老板財(cái)富榜:科莫老板哈托諾家族385億歐居首

懂球帝
2026-03-13 10:43:17
2026年美加墨世界杯阿根廷最強(qiáng)陣容預(yù)測(cè)!奪冠幾乎不可能了?

2026年美加墨世界杯阿根廷最強(qiáng)陣容預(yù)測(cè)!奪冠幾乎不可能了?

體壇八點(diǎn)半的那些事兒
2026-03-13 18:50:31
83分之夜卻拒絕刷分!阿德巴約最后時(shí)刻大喊“別犯規(guī)”引熱議

83分之夜卻拒絕刷分!阿德巴約最后時(shí)刻大喊“別犯規(guī)”引熱議

大眼瞄世界
2026-03-13 10:04:29
一場(chǎng)生日,戳穿37歲奚夢(mèng)瑤婚姻現(xiàn)狀,一月前就有大瓜傳出

一場(chǎng)生日,戳穿37歲奚夢(mèng)瑤婚姻現(xiàn)狀,一月前就有大瓜傳出

洲洲影視娛評(píng)
2026-03-12 18:19:35
美伊沖突升級(jí)致臺(tái)灣能源告急,臺(tái)當(dāng)局向大陸求援,國(guó)臺(tái)辦明確答復(fù)

美伊沖突升級(jí)致臺(tái)灣能源告急,臺(tái)當(dāng)局向大陸求援,國(guó)臺(tái)辦明確答復(fù)

風(fēng)眼軍情
2026-03-11 20:33:18
韓媒:薩德發(fā)射車全被拉走,若雷達(dá)走了,那意味著戰(zhàn)局的徹底崩壞

韓媒:薩德發(fā)射車全被拉走,若雷達(dá)走了,那意味著戰(zhàn)局的徹底崩壞

嘯鷹評(píng)
2026-03-11 18:26:58
美國(guó)為何對(duì)伊朗開戰(zhàn),是否被以色列拖下水?特朗普因小失大

美國(guó)為何對(duì)伊朗開戰(zhàn),是否被以色列拖下水?特朗普因小失大

青松解局
2026-03-13 20:04:33
超45萬(wàn)手買單封板!600691,強(qiáng)勢(shì)2連漲停!

超45萬(wàn)手買單封板!600691,強(qiáng)勢(shì)2連漲停!

證券時(shí)報(bào)e公司
2026-03-13 10:02:08
為了綁定足壇頂流姆巴佩,歐美名媛究竟付出了多大代價(jià)?

為了綁定足壇頂流姆巴佩,歐美名媛究竟付出了多大代價(jià)?

羅氏八卦
2026-03-13 18:35:03
大S中學(xué)顏值曝光,五官普通、目測(cè)體重120斤,小玥兒長(zhǎng)得和媽媽一個(gè)模子

大S中學(xué)顏值曝光,五官普通、目測(cè)體重120斤,小玥兒長(zhǎng)得和媽媽一個(gè)模子

不八卦掌門人
2026-03-13 11:19:21
五角大樓首席技術(shù)官:有一個(gè)AI已經(jīng)產(chǎn)生了“靈魂”,甚至有自己的“憲法”

五角大樓首席技術(shù)官:有一個(gè)AI已經(jīng)產(chǎn)生了“靈魂”,甚至有自己的“憲法”

可達(dá)鴨面面觀
2026-03-13 18:01:15
今天18點(diǎn),亞洲杯誕生首個(gè)4強(qiáng)!中國(guó)女足明天出戰(zhàn),傳來(lái)2個(gè)好消息

今天18點(diǎn),亞洲杯誕生首個(gè)4強(qiáng)!中國(guó)女足明天出戰(zhàn),傳來(lái)2個(gè)好消息

大魚簡(jiǎn)科
2026-03-13 12:34:59
苗苗終于曬三胎,母女四個(gè)坐一張椅子,小女兒露臉顏值比哥姐還高

苗苗終于曬三胎,母女四個(gè)坐一張椅子,小女兒露臉顏值比哥姐還高

八怪娛
2026-03-13 19:19:30
烏克蘭攻擊俄南部最大石油港!俄空軍基地傳出十次爆炸

烏克蘭攻擊俄南部最大石油港!俄空軍基地傳出十次爆炸

項(xiàng)鵬飛
2026-03-13 18:17:39
人大代表:中國(guó)芯片不注重長(zhǎng)期攻堅(jiān),不注重基礎(chǔ)研究,只想賺快錢

人大代表:中國(guó)芯片不注重長(zhǎng)期攻堅(jiān),不注重基礎(chǔ)研究,只想賺快錢

Thurman在昆明
2026-03-13 19:43:05
霍爾木茲海峽風(fēng)云突變,巴基斯坦亮出底牌,強(qiáng)勢(shì)護(hù)航油輪通過(guò)

霍爾木茲海峽風(fēng)云突變,巴基斯坦亮出底牌,強(qiáng)勢(shì)護(hù)航油輪通過(guò)

書紀(jì)文譚
2026-03-13 12:56:34
2026-03-13 20:28:49
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無(wú)腦”硬件或被淘汰

頭條要聞

貴州茅臺(tái)副總經(jīng)理蔣焰被查

頭條要聞

貴州茅臺(tái)副總經(jīng)理蔣焰被查

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂(lè)要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財(cái)經(jīng)要聞

2月M2同增9% 前兩個(gè)月存款增加9.26萬(wàn)億

汽車要聞

大眾汽車與小鵬首款聯(lián)合開發(fā)車型與眾08正式量產(chǎn)

態(tài)度原創(chuàng)

旅游
本地
游戲
家居
公開課

旅游要聞

北海公園山桃花盛放 春日攝影打卡正當(dāng)時(shí)

本地新聞

坐標(biāo)北京,過(guò)敏季反向遷徒

決非故意!團(tuán)隊(duì)回應(yīng)漫威爭(zhēng)鋒女性皮膚過(guò)分性感問(wèn)題

家居要聞

藝術(shù)之家 法式優(yōu)雅

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版