網易首頁 > 網易號 > 正文申請入駐

浙江大學團隊發(fā)布UniVBench：首個統一視頻基礎模型評測基準

2026-02-27 22:01:06　來源: 科技行者

北京舉報

分享至

這項由浙江大學、字節(jié)跳動和浙江實驗室聯合開展的研究發(fā)表于2026年2月25日的arXiv預印本平臺，論文編號為arXiv:2602.21835v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

當我們談論人工智能的發(fā)展時，視頻理解和生成技術可以說是當下最激動人心的領域之一。就像一位全能藝術家既要能欣賞電影又要能拍攝電影一樣，現在的AI系統也在朝著能夠同時理解視頻內容和生成視頻內容的方向發(fā)展。不過，要評判這樣一位"全能藝術家"的真實水平，我們需要一套全面而公正的考試體系。

傳統的視頻AI評測就像是讓一位全才藝術家分別參加繪畫考試、音樂考試和舞蹈考試，每個考試都有不同的評分標準，最后我們很難知道這位藝術家的綜合實力到底如何。更麻煩的是，繪畫考試可能用的是畢加索的作品做題目，音樂考試用的是貝多芬的樂曲，而舞蹈考試又用了芭蕾舞劇片段——這些素材可能在訓練階段就被AI"學"過了，就像學生提前知道了考試答案一樣，考試結果自然不夠準確。

浙江大學的研究團隊敏銳地發(fā)現了這個問題。他們注意到，現有的視頻AI評測基準存在三個根本性的局限性。首先是各自為政的評測方式，理解視頻的AI和生成視頻的AI用的是完全不同的評測標準，就像用測量身高的尺子去稱體重一樣不合理。其次是內容來源的問題，許多評測用的都是網上的視頻片段，這些內容很可能在AI訓練過程中就見過，評測結果的可信度大打折扣。最后是評測維度的不完整，現有的基準往往只關注某幾個方面，比如只看畫面質量不看故事連貫性，或者只看色彩搭配不看鏡頭運動，無法全面衡量AI的真實能力。

為了解決這些問題，研究團隊開發(fā)了一個名為UniVBench的全新評測基準。這就像是為全能藝術家設計了一套完整的綜合考試，不僅涵蓋了繪畫、音樂、舞蹈等各個藝術門類，還確保了考試內容的原創(chuàng)性和評分標準的一致性。

一、重新定義視頻AI的能力邊界

要理解UniVBench的創(chuàng)新之處，我們首先需要明白現在的視頻AI到底在做什么?；氐轿覀兊乃囆g家比喻，傳統的AI更像是專業(yè)的單項選手：有些專門"看畫"（視頻理解），能夠準確描述一幅畫里有什么內容、用了什么技法、表達了什么情感；有些專門"作畫"（視頻生成），能夠根據描述創(chuàng)作出相應的畫作。而新一代的統一視頻基礎模型則試圖成為真正的全能藝術家，既能看懂也能創(chuàng)作。

但是，如何評判一位全能藝術家的水平呢？研究團隊認為，需要從六個核心任務來考察：視頻理解（就像藝術評論）、文本生成視頻、參考圖像生成視頻、文本指令視頻編輯、參考圖像視頻編輯，以及最具挑戰(zhàn)性的視頻重構任務。

這里的視頻重構任務特別有意思，它就像是讓藝術家先欣賞一幅畫，然后用自己的話描述這幅畫，最后再根據自己的描述重新畫一遍。如果重新畫出來的作品與原作高度相似，說明這位藝術家不僅理解能力強，創(chuàng)作能力也很強。這個任務巧妙地將理解和生成兩個能力結合起來，成為檢驗AI綜合實力的試金石。

更重要的是，研究團隊為這套評測體系設定了八個主要維度和二十一個細分維度，就像是制定了一套詳細的藝術評判標準。這些維度涵蓋了視頻的方方面面：從畫面風格到主體對象，從動作表現到背景場景，從鏡頭運動到光影效果，從色彩搭配到空間關系。每一個維度都有具體的評判細則，確保評測的全面性和公正性。

二、構建無污染的評測環(huán)境

解決了評什么的問題，接下來就是用什么來評的問題。這就像是為藝術家準備考試題目，既要有足夠的難度和區(qū)分度，又要確?？忌皼]有見過這些題目。

研究團隊采用了一個非常巧妙的方法：他們沒有使用現成的網絡視頻，而是專門制作了全新的原創(chuàng)內容。整個制作過程就像是一部精心策劃的紀錄片拍攝。首先，十五位具有視頻制作背景的專業(yè)人員接受了詳細的培訓，學習如何按照研究團隊制定的八個維度標準來創(chuàng)作視頻腳本。這些專家需要確保每個腳本都覆蓋了所有評測維度，同時保持敘事的連貫性和邏輯性。

腳本完成后，團隊使用頂級的商業(yè)視頻生成接口（包括海螺、快影、Veo3等）來制作視頻。但制作過程并不是一次性完成的，而是采用了嚴格的三重質量控制機制。就像電影制作中的多輪審核一樣，每個視頻都要經過自動化預篩選、專家組評審和質量專員終檢三個環(huán)節(jié)。只有在所有環(huán)節(jié)都獲得通過的視頻才能進入最終的評測集。平均下來，每個視頻需要經過2.3次生成嘗試才能達到標準。

最終，研究團隊構建了一個包含200個高質量視頻的評測集，其中100個是單鏡頭視頻，100個是多鏡頭視頻（平均每個視頻包含3.72個鏡頭）。這些視頻不僅在技術層面達到了專業(yè)標準，更重要的是完全避免了版權問題和數據污染問題，為公平評測奠定了堅實基礎。

除了視頻本身，研究團隊還為每個視頻準備了詳細的文字描述、多格式的編輯指令和參考圖像。其中，參考圖像庫包含864張精心挑選的圖片，涵蓋了人物主體、動物主體、非生物主體等各種類型，以及現實主義、動畫、藝術、科幻、服飾、材質等六大風格類別。這樣的配置確保了評測任務的多樣性和挑戰(zhàn)性。

三、智能化評測系統的技術突破

有了好的考試內容，還需要一位公正而專業(yè)的考官。傳統的視頻評測往往依賴單一的數值指標，就像只用一把尺子來衡量藝術作品的價值一樣，顯然是不夠的。研究團隊開發(fā)了一個名為UniV-Eval的智能評測系統，它就像是一位經驗豐富的藝術評論家，能夠從多個角度深入分析作品的優(yōu)劣。

這個智能評測系統的工作流程非常巧妙。當它拿到一個需要評測的視頻時，首先會進行任務規(guī)劃和內容分解。對于多鏡頭視頻，系統會自動識別鏡頭切換點，將復雜的長視頻分解為若干個獨立的鏡頭單元。然后，它會根據不同的評測任務，將參考圖像和編輯指令與相應的鏡頭進行匹配。這就像是一位細心的老師在批改作文時，會逐段逐句地進行分析，確保不遺漏任何重要細節(jié)。

接下來是最核心的鏡頭級別精細化評測。系統會對每個鏡頭進行九個主要類別的詳細分析：主體對象、相對位置、動作表現、背景場景、色彩信息、光照信息、視頻風格、氛圍營造和鏡頭信息。每個主要類別又進一步細分為具體的子項目，總共形成21個細分維度的評測體系。

這種評測方式的優(yōu)勢在于它的可解釋性和可追溯性。傳統的評測方法可能只給出一個總分，比如"這個視頻質量得分85分"，但無法告訴你具體哪里好哪里不好。而UniV-Eval會生成一份詳細的"診斷報告"，明確指出視頻在哪些方面表現出色，哪些方面需要改進。比如，它可能會指出"鏡頭運動流暢度優(yōu)秀，但主體對象的一致性存在問題，在第3秒到第9.8秒之間出現了動作不協調的情況"。

為了確保評測結果的可靠性，研究團隊還進行了大規(guī)模的人工驗證實驗。他們隨機選擇了10%的評測數據，邀請專業(yè)的人類評審員進行獨立評分，然后與智能評測系統的結果進行對比。結果顯示，系統的判斷與人類專家的意見一致性達到了85%，這個數字充分證明了評測系統的專業(yè)性和準確性。

四、揭示當前AI視頻技術的真實水平

當這套全新的評測基準應用到現有的主流視頻AI模型時，結果既在意料之中又令人深思。研究團隊測試了包括商業(yè)化產品（如GPT-5、Gemini 2.5 Pro、Seed 1.6等）和開源模型（如CogVideoX、CoDi-2、Omni-Video等）在內的多個主流系統。

測試結果就像是一場全能運動會，每個參賽選手都有自己的強項和弱項，但沒有一個能在所有項目上都表現突出。在視頻理解任務中，Gemini 2.5 Pro表現最為出色，平均得分達到54.1%，就像是一位經驗豐富的電影評論家，能夠準確理解視頻的內容和意圖。相比之下，統一模型Showo-2在這個任務上只得到了16.3%的分數，顯示出目前的統一模型在理解能力上還有很大的提升空間。

在視頻生成任務中，情況有所不同。Seedance-1.0-Pro憑借77.9%的高分成為最強的生成模型，就像是一位技藝精湛的導演，能夠根據劇本創(chuàng)作出高質量的視頻作品。但有趣的是，即使是這樣的優(yōu)秀模型，在某些維度上仍然存在明顯的短板。

特別值得注意的是動作維度，這是所有模型的共同薄弱環(huán)節(jié)。無論是理解類任務還是生成類任務，動作維度的得分普遍偏低。這就像是讓藝術家描述或創(chuàng)作動態(tài)場景時總是顯得力不從心，說明當前的AI在處理復雜時序動態(tài)信息方面還面臨著技術挑戰(zhàn)。相比之下，生成模型在色彩、光照和視頻風格等靜態(tài)屬性上表現更為出色，這些維度的得分明顯高于動作維度。

最引人深思的是視頻重構任務的結果。這個任務最能體現統一模型的真實水平，因為它需要模型首先準確理解視頻內容，然后基于理解生成新的視頻。測試結果顯示，即使是表現最好的Wan2.1-VACE-14B模型也只達到了62.7%的得分。更重要的是，通過對比原始視頻、文本生成視頻和重構視頻三者之間的差異，研究團隊發(fā)現重構視頻與原始視頻的不一致性最為明顯，這表明在理解到生成的信息傳遞過程中存在顯著的損失。

五、技術挑戰(zhàn)與未來發(fā)展方向

通過深入的案例分析，研究團隊進一步揭示了當前視頻AI技術面臨的具體挑戰(zhàn)。以一個典型的測試案例為例，原始視頻展示的是兩只動物走向鏡頭前方并向觀眾揮手的場景。當使用文本描述生成視頻時，由于有準確的文字描述作為指導，大多數模型都能生成相對合理的結果。但在重構任務中，模型需要先自己理解視頻內容，再基于自己的理解重新生成，結果顯示幾乎所有模型都無法準確捕捉到"兩只動物走向鏡頭前方并揮手"這個關鍵動作序列。

另一個案例更加有趣。原始視頻顯示一只貓進入恐龍造型的寵物窩，而寵物窩的嘴巴在貓進入時會張開。這個細節(jié)看似簡單，但對AI來說卻是極大的挑戰(zhàn)，因為它涉及到物體間的交互邏輯和因果關系。測試結果顯示，大多數模型生成的視頻都缺失了這個關鍵的交互細節(jié)，說明當前AI在理解和生成復雜時空關系方面還有很長的路要走。

研究團隊還發(fā)現了一個有趣的現象：在參考圖像生成視頻的任務中，當視頻涉及多個鏡頭切換時，模型往往難以保持參考對象的一致性。比如，第一個鏡頭中的人物形象可能與后續(xù)鏡頭中的同一人物出現明顯差異，就像演員在電影中途突然換了臉一樣。這個問題反映了當前技術在處理長時序一致性方面的局限性。

通過與傳統評測指標的對比，研究團隊還展示了新評測系統的優(yōu)勢。傳統的BLEU分數主要關注文本層面的詞匯重疊，在面對長度差異較大的視頻描述時往往失去準確性。而基于大語言模型的評判方法雖然能提供一定的語義分析，但往往只給出整體性的評價，缺乏細粒度的診斷信息。相比之下，UniV-Eval能夠提供可追溯的多維度分析，明確指出具體問題所在，為模型改進提供了清晰的指導方向。

六、對未來AI發(fā)展的深遠影響

UniVBench的發(fā)布不僅僅是一個評測工具的誕生，更像是為整個AI視頻技術領域樹立了一座新的里程碑。它的意義就像是在一個沒有統一度量衡的市場里引入了標準的尺子和秤，讓不同的產品可以在同一個標準下進行公平比較。

從技術發(fā)展的角度來看，這套評測基準為研究人員提供了明確的努力方向。就像運動員有了明確的訓練目標和評判標準，AI研究者現在也能更有針對性地改進自己的算法。特別是那些試圖開發(fā)統一視頻基礎模型的團隊，可以利用這套基準來診斷自己模型的具體問題，然后有的放矢地進行優(yōu)化。

從產業(yè)應用的角度來看，UniVBench為視頻AI技術的商業(yè)化提供了重要的質量保證工具。就像汽車行業(yè)有碰撞測試標準、電器行業(yè)有安全認證標準一樣，視頻AI行業(yè)現在也有了自己的"質檢標準"。這將幫助用戶更好地選擇適合自己需求的AI產品，同時也推動整個行業(yè)向更高質量的方向發(fā)展。

更重要的是，這項研究揭示了當前技術發(fā)展的不均衡性。研究結果表明，盡管AI在某些方面（如靜態(tài)畫面生成、色彩搭配等）已經達到了相當高的水平，但在動態(tài)理解、時序一致性、復雜交互等方面還有很大的提升空間。這種不均衡性提醒我們，真正的AI視頻理解和生成技術還需要更多的技術突破。

研究團隊也坦誠地指出了當前工作的局限性。雖然200個高質量視頻足以進行全面的評測，但對于訓練大規(guī)模統一視頻模型來說還遠遠不夠。因此，他們計劃在未來大幅擴展數據集的規(guī)模，不僅用于評測，更要用于訓練更強大的統一模型。這就像是從建造一個精致的樣品房發(fā)展到建造整個社區(qū)，需要更多的資源投入和時間積累。

此外，當前的評測主要集中在技術層面的指標，未來還需要加入更多關于實用性、創(chuàng)意性、倫理性等方面的評判標準。畢竟，一個真正優(yōu)秀的視頻AI不僅要技術過硬，還要能夠創(chuàng)造有價值、有意義的內容。

說到底，UniVBench的出現標志著視頻AI技術評測進入了一個新的時代。它不僅為當前技術發(fā)展提供了一面鏡子，讓我們看清現狀，更為未來的技術突破指明了方向。就像GPS為旅行者提供準確的位置信息和最優(yōu)路徑一樣，這套評測基準將幫助AI研究者更好地導航在技術發(fā)展的道路上。

隨著越來越多的研究團隊開始使用這套標準，我們有理由相信，視頻AI技術將迎來更加快速和均衡的發(fā)展。也許在不久的將來，我們就能看到真正意義上的全能視頻AI助手，它們不僅能夠理解我們的視頻內容，還能根據我們的需求創(chuàng)造出令人驚嘆的視頻作品。而所有這一切的起點，正是像UniVBench這樣嚴謹而全面的評測基準的建立。

有興趣深入了解這項開創(chuàng)性研究的讀者，可以通過論文編號arXiv:2602.21835v1查詢完整的技術細節(jié)，相關代碼和數據集也已在GitHub上開源，為整個研究社區(qū)的發(fā)展貢獻了寶貴的資源。

Q&A

Q1：UniVBench與現有視頻評測基準有什么不同？

A：UniVBench最大的不同在于它是首個統一評測基準，能同時評估視頻理解、生成、編輯和重構等六個核心任務?，F有基準都是針對單一任務設計的，就像分別考繪畫、音樂、舞蹈，而UniVBench是綜合藝術考試。更重要的是，它使用完全原創(chuàng)的200個高質量視頻，避免了數據污染問題，確保評測結果更加公正準確。

Q2：視頻重構任務為什么這么重要？

A：視頻重構任務是檢驗AI綜合能力的試金石。它要求AI先理解視頻內容，用文字描述出來，再根據自己的描述重新生成視頻。如果重構視頻與原視頻高度相似，說明AI的理解和生成能力都很強。研究發(fā)現，即使是最好的模型在這個任務上也只能達到62.7%的準確率，表明現有AI在理解到生成的信息傳遞過程中存在顯著損失。

Q3：普通用戶如何利用UniVBench的研究成果？

A：雖然UniVBench主要是為AI研究者設計的專業(yè)工具，但它的研究成果對普通用戶也有重要意義。通過這套基準的測試結果，用戶可以更清楚地了解不同AI視頻工具的真實能力和局限性，從而做出更明智的選擇。比如，如果你主要需要視頻理解功能，可以優(yōu)先考慮在理解任務上得分較高的模型；如果需要生成功能，則選擇生成任務表現更好的工具。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.