国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

擠干大模型高分水分!最強模型僅49分,南大傅朝友發(fā)布Video-MME-v2

0
分享至



機器之心發(fā)布

現(xiàn)有大模型評測分數(shù)日趨飽和,但與真實體驗差距顯著。南京大學傅朝友團隊牽頭,在 Google Gemini 評測團隊邀約下推出視頻理解新基準 Video-MME-v2。憑借創(chuàng)新的分層能力體系與組級非線性評分,以及 3300 + 人工時高質(zhì)量標注,揭示模型與人類的巨大鴻溝(49 vs 90)、傳統(tǒng) Acc 指標虛高、以及 “Thinking” 并非總是增益等現(xiàn)象。



  • 論文:https://arxiv.org/pdf/2604.05015
  • 主頁:https://video-mme-v2.netlify.app/
  • MME-Survey: https://arxiv.org/pdf/2411.15296

一年多前,傅朝友帶領(lǐng)的 Video-MME 團隊發(fā)布了其第一版 Benchmark,被 Gemini、GPT 等廣泛用于視頻理解評測。根據(jù) Paper Digest 統(tǒng)計,Video-MME 在CVPR 2025 所有錄用論文中影響力排名第一(引用 1100 + 次)。

近年來,團隊進一步對多模態(tài)大模型評測進行了系統(tǒng)梳理,并發(fā)布綜述工作MME-Survey,從能力覆蓋、評測方式到指標設(shè)計,對現(xiàn)有 Benchmark 進行了全面分析。

正因如此,團隊更早、更清晰地意識到:現(xiàn)有評測范式,開始逐漸“失真”了。多模態(tài)大模型在視頻理解上進步神速,各類 Benchmark 上的分數(shù)都在趨于飽和,但真實體驗依然不足。在這樣的背景下,Video-MME-v2正式發(fā)布。

Video-MME-v2 是一個面向下一代視頻理解能力的評測基準,歷經(jīng)近一年時間準備,由12 名標注人員和50 位獨立審核人員共同完成,投入超過3300 人工時標注時間。與傳統(tǒng) Benchmark 的不同在于,一個精心設(shè)計的逐層遞進三層能力體系以及分組非線性評分方法。

評測結(jié)果顯示:人類專家的非線性得分為 90.7(傳統(tǒng) Acc 為 94.9),而當前最強的商業(yè)模型 Gemini-3-Pro 得分僅為 49.4,開源模型 Qwen 最佳結(jié)果為 39.1。

一、Video-MME-v2 在測什么?

Video-MME-v2 的第一個核心設(shè)計,是把視頻理解拆成一個逐層遞進的三層能力體系。

1. 第一層:信息檢索與聚合。這是視頻理解最基礎(chǔ)的一層,關(guān)注模型能否從跨幀、跨模態(tài)的信息中,準確識別并提取關(guān)鍵事實。

2. 第二層:時序理解。基于第一層,第二層進一步考察模型是否真正理解了時間維度。要求模型不僅能看懂不同幀的靜態(tài)畫面,更要抓住動作發(fā)生的先后關(guān)系、狀態(tài)如何變化、事件為何發(fā)生。

3. 第三層:復(fù)雜推理。基于第二層,第三層則更接近真實世界任務(wù),要求模型在更復(fù)雜、更開放的場景中進行推理。這也是最接近 “人類式理解” 的一層:不僅要看懂,還要能推斷、能解釋、能綜合。圖 1 直觀展示了這三層能力結(jié)構(gòu)。



圖 1 Video-MME-v2 能力層級分布以及部分模型能力排行

二、Video-MME-v2 不只是 “多出題”

而是換了一種新測法

Video-MME-v2 的第二個關(guān)鍵創(chuàng)新,回答的是“怎么測”。這項工作沒有繼續(xù)沿用 “每題獨立計分” 的傳統(tǒng)方法,而是引入了組級評測。即,不再只看模型某一道題答沒答對,而是看它在一組相關(guān)問題上是否表現(xiàn)出一致性連貫性。

1. 能力一致性組:看模型是不是 “真的會”

它關(guān)注的是:同一種能力,模型在不同問法、不同粒度、不同側(cè)面上,能不能都保持穩(wěn)定。舉個簡單的例子:如果一個模型真的具備空間理解能力,那它不僅應(yīng)該能回答 “物體在哪里”,也應(yīng)該能回答 “它和另一個物體的相對位置如何變化”。

2. 推理連貫性組:看模型是不是 “真正在推理”

它關(guān)注的是:當一個復(fù)雜問題需要多步推理時,模型能不能沿著合理的邏輯鏈條,一步一步走到結(jié)論。比如,在一個復(fù)雜劇情視頻里,模型可能需要先發(fā)現(xiàn)一個關(guān)鍵視覺線索,再識別異常細節(jié),再推斷人物目的,最后才能得出結(jié)論。如果中間某一環(huán)錯了,最終即使 “碰巧選對了”,這種正確也不能算作真正可信的推理。

為了和組級評測相配套,Video-MME 團隊進一步采用了非線性評分機制。這也是 Video-MME-v2 代表性的設(shè)計之一。

對于能力一致性組,四道相關(guān)問題不是簡單平均,而是采用激勵計分(一個 Group 里答對越多獎勵也多)。這意味著:零散地答對幾道題,并不能拿到很高分;只有當模型在同組問題中保持穩(wěn)定表現(xiàn),分數(shù)才會真正上來。

對于推理連貫性組,則是進一步采用“首錯截斷”機制。即,一旦某一步做錯,后面即使答對,也不再計分。

三、為什么說它更難,也更可信?

一個 Benchmark 的說服力,不只在于 “設(shè)計巧”,也在于 “數(shù)據(jù)夠不夠扎實”。團隊嚴格把控 Video-MME-v2 的數(shù)據(jù)源、標注流程、質(zhì)檢標準等各方面,投入了極高的人力成本。數(shù)據(jù)集最終包含 800 個視頻、3200 個問題;共有12 名標注者50 位獨立審核人員參與,經(jīng)過5 輪交叉審核與閉環(huán)修訂,累計投入超過3300 人工時。更多細節(jié)請查看主頁和技術(shù)報告。

四、評測結(jié)果如何?

在主榜結(jié)果中,人類的組級非線性得分達到90.7,平均準確率達到94.9;而當前表現(xiàn)最好的商業(yè)模型Gemini-3-Pro,組級非線性得分為49.4。開源模型中,Qwen3.5-397B-A17B-Think(512 frames),組級得分為39.1

它意味著:哪怕是當前最強的視頻模型,在更嚴格、更強調(diào)一致性與連貫性的評測框架下,與人類仍存在巨大的差距。

論文也特別指出,模型從 Level 1 到 Level 3 呈現(xiàn)出明顯的性能遞減,說明高層復(fù)雜推理的薄弱,并不只是 “推理模塊不夠強”,而往往是前面的信息聚合和時序建模已經(jīng)出了問題,最終層層累積,拖垮了復(fù)雜理解。



圖 2 當前評測前 10 名(完整請查看主頁)

五、非線性評分的優(yōu)勢

從 “答對一道題” 到 “穩(wěn)定理解一組問題”

在傳統(tǒng)評測中,平均準確率(Avg Acc)是最常用的指標,但它本質(zhì)上是逐題獨立統(tǒng)計的結(jié)果,容易受到 “零散命中” 的影響。

相比之下,團隊提出的組級非線性評分(Non-Lin Score),通過對問題之間的結(jié)構(gòu)關(guān)系進行建模,更強調(diào)模型在同一能力維度下的整體表現(xiàn),從而能夠更真實地刻畫模型是否 “穩(wěn)定地理解了視頻”。

進一步來看,非線性評分還揭示了模型能力中的一個重要現(xiàn)象:從 “單題正確” 到 “組內(nèi)穩(wěn)定正確” 之間存在顯著能力折損。為此,團隊引入了一個具有解釋力的指標 ——Non-Lin Score/Avg Acc 的比值,用于衡量這一折損程度。

實驗結(jié)果顯示,當前最強的模型的比值Gemini-3-Pro的比值約為 75%;Doubao-Seed-2.0-Pro的比值約為 72%;而部分中小模型(如 LLaVA-Video-7B)甚至低至約 40%。

比值越低,說明模型越容易出現(xiàn) “組內(nèi)只能答對部分題” 的現(xiàn)象,穩(wěn)定性與魯棒性越弱。由此可見非線性打分在真實刻畫能力水平、揭示模型魯棒性方面的優(yōu)勢。



圖 3 不同模型 Non-Lin Sore/Avg Acc 的比值結(jié)果

六、一個很值得關(guān)注的發(fā)現(xiàn)

Thinking,并不總是有效

在今天的大模型語境下,“Thinking” 幾乎已經(jīng)成了默認增強選項。但 Video-MME-v2 的一個非常有意思、也非常重要的發(fā)現(xiàn)是:Thinking 的收益不是無條件成立的,它高度依賴文本線索。

論文實驗顯示,開啟 Thinking 后,模型在 “有字幕” 的設(shè)定下,通常比在 “純視覺” 設(shè)定下獲得更明顯的提升。例如,Qwen3.5-122B-A10B-Think(64 frames)在無字幕和有字幕設(shè)置下,分別帶來+3.8/+5.8的提升。這說明,顯式文本語義仍然是很多模型完成多步推理時重要的 “錨點”。

但另一方面,Thinking 也可能帶來退化。Qwen3-VL-8B在無字幕設(shè)定下出現(xiàn)了-0.6的下降,而KimiVL-16B在整體上出現(xiàn)了-3.3/-3.3的性能回落,在更強調(diào)復(fù)雜推理的 Level 3 上,退化甚至達到-4.0/-3.9。

這說明一件事:當前一些模型的 “推理增強”,本質(zhì)上仍然更擅長利用語言線索,而不是穩(wěn)定地從視覺、音頻中抽取支撐推理的證據(jù)。一旦文本錨點不足,Thinking 不但未必增益,反而可能引入更多噪聲。



圖 4 在有無字幕設(shè)定下,是否開啟 Thinking 對模型性能影響

小結(jié):在視頻理解的下一階段,Video-MME-v2 想推動的是一次評測理念上的轉(zhuǎn)變,強調(diào)真正需要比較的是誰能夠在連續(xù)、動態(tài)、多模態(tài)的信息中,像人一樣,真正理解正在和已經(jīng)發(fā)生的事情。更多內(nèi)容和細節(jié)請查看主頁和技術(shù)報告。

Video-MME 系列 Project Lead 為南京大學傅朝友老師



傅朝友,南京大學模式識別實驗室研究員、助理教授、博導,入選中國科協(xié) “青年人才托舉工程”。2022 年博士畢業(yè)于中科院自動化所模式識別實驗室。研究方向為多模態(tài)內(nèi)容分析,谷歌學術(shù)引用 8700 余次,兩篇一作單篇引用過千次,六篇一作單篇引用過百次。

開源項目累計獲得 2 萬余次 GitHub Stars。代表性工作包括 VITA 多模態(tài)大模型系列(VITA-1.0/-1.5、Long-VITA、VITA-Audio),MME 多模態(tài)評測基準系列(MME、Video-MME、MME-RealWorld)和 Awesome-MLLM 社區(qū)等。

擔任 Pattern Recognition/IEEE T-BIOM 期刊編委、ICLR/ICML 會議領(lǐng)域主席、CSIG 青工委委員、CCF-AI/-CV 專委會執(zhí)行委員。曾獲小米青年學者 - 科技創(chuàng)新獎、華為紫金學者、世界人工智能大會云帆獎、中科院院長特別獎、IEEE Biometrics Council Best Doctoral Dissertation Award、北京市優(yōu)博、中科院優(yōu)博、CVPR 2023 Outstanding Reviewer。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
被班主任告知兒子遭毆打,父親到校調(diào)解6分鐘后心源性猝死,當?shù)亟逃忠殉闪0嗵幚恚矙C關(guān)已介入

被班主任告知兒子遭毆打,父親到校調(diào)解6分鐘后心源性猝死,當?shù)亟逃忠殉闪0嗵幚?,公安機關(guān)已介入

封面新聞
2026-04-14 09:39:23
演員文章飯店生意火爆,全家都到場支持,前妻馬伊琍被曝也在場

演員文章飯店生意火爆,全家都到場支持,前妻馬伊琍被曝也在場

韓小娛
2026-04-14 09:56:38
王菲穿兩千塊夾克和俞飛鴻聚餐,“勞保服”被她穿洋氣了!

王菲穿兩千塊夾克和俞飛鴻聚餐,“勞保服”被她穿洋氣了!

舊事別提
2026-04-04 04:30:00
霍爾木茲海峽又變天了,三個國家的巨輪在通行,特朗普不高興了

霍爾木茲海峽又變天了,三個國家的巨輪在通行,特朗普不高興了

奇思妙想生活家
2026-04-13 17:49:20
歐媒道破真相:對西方來說,比失敗更痛苦的,是看到美國輸給中國

歐媒道破真相:對西方來說,比失敗更痛苦的,是看到美國輸給中國

南宗歷史
2026-04-14 10:44:20
特朗普爆粗口:打伊朗每天耗資10億,美軍“最大麻煩”還是來了

特朗普爆粗口:打伊朗每天耗資10億,美軍“最大麻煩”還是來了

軍武次位面
2026-04-13 14:31:25
王晶曝陳百強真正死因,64歲何超瓊顏面盡失

王晶曝陳百強真正死因,64歲何超瓊顏面盡失

君笙的拂兮
2026-03-22 03:44:36
陳龍燦:介紹張本宇日本打球,沒想到他回來了,對方卻改了國籍

陳龍燦:介紹張本宇日本打球,沒想到他回來了,對方卻改了國籍

以茶帶書
2026-04-14 14:10:58
毛焦爾:烏克蘭迅速加入歐盟?別想了!

毛焦爾:烏克蘭迅速加入歐盟?別想了!

看看新聞Knews
2026-04-14 10:52:03
15艘美國軍艦對伊朗實施海上封鎖,伊朗準備與美國再次談判

15艘美國軍艦對伊朗實施海上封鎖,伊朗準備與美國再次談判

山河路口
2026-04-14 10:42:48
印度慘遭羞辱:250萬噸尿素全球招標,竟無人問津,中企集體缺席

印度慘遭羞辱:250萬噸尿素全球招標,竟無人問津,中企集體缺席

紀中百大事
2026-04-14 09:31:17
國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
剛剛,全線大漲!徹底引爆

剛剛,全線大漲!徹底引爆

中國基金報
2026-04-14 12:47:21
里弗斯回應(yīng)下課:和球隊達成了一致,我已從業(yè)47年,是時候了

里弗斯回應(yīng)下課:和球隊達成了一致,我已從業(yè)47年,是時候了

懂球帝
2026-04-14 13:15:53
傳得邪乎,最近風聲很緊,先是名山古剎,再是新疆野路,說封就封

傳得邪乎,最近風聲很緊,先是名山古剎,再是新疆野路,說封就封

西樓知趣雜談
2026-04-13 12:39:36
許家印認罪了!八項罪名,前無古人!

許家印認罪了!八項罪名,前無古人!

濤哥雜談
2026-04-14 13:50:44
沒想到倪妮現(xiàn)實生活中穿的這么大膽 但不得不承認她的身材真的太好

沒想到倪妮現(xiàn)實生活中穿的這么大膽 但不得不承認她的身材真的太好

TVB的四小花
2026-04-14 12:57:07
不登島不轟炸!美國深夜一招絕殺:伊朗一天損失2億,徹底扛不住

不登島不轟炸!美國深夜一招絕殺:伊朗一天損失2億,徹底扛不住

和??慈粘?/span>
2026-04-14 01:21:30
特朗普點名曝光"放人法官":至少7名罪犯再犯,選民集體破防

特朗普點名曝光"放人法官":至少7名罪犯再犯,選民集體破防

野生運營
2026-04-13 08:25:29
霍爾木茲斷航!第一個亞洲國家已斷糧倒下,下一個受害者浮出水面

霍爾木茲斷航!第一個亞洲國家已斷糧倒下,下一個受害者浮出水面

小影的娛樂
2026-03-22 20:31:39
2026-04-14 16:24:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12758文章數(shù) 142628關(guān)注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

防范特朗普政府"對華軟化" 史上最嚴對華芯片法案來了

頭條要聞

防范特朗普政府"對華軟化" 史上最嚴對華芯片法案來了

體育要聞

他做對了所有事,卻被整個職業(yè)網(wǎng)壇放逐了八年

娛樂要聞

宋祖兒劉宇寧戀情大反轉(zhuǎn) 正主火速辟謠

財經(jīng)要聞

許家印受審當庭表示認罪悔罪

汽車要聞

長城歐拉5限定版純電版上市 限量99臺售價13.38萬元

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
旅游
時尚
公開課

藝術(shù)要聞

這位美女畫家的夏天竟如此夢幻

數(shù)碼要聞

榮耀WIN游戲本首發(fā)東風尾噴散熱引擎,WIN生態(tài)全面提速

旅游要聞

秀我中國|吉林集安:桃花次第開 小城迎客來

今年科切拉的風吹向了誰?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版