国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

AAAI 2026|視頻大語言模型可不可信?23款主流模型全面測評來了

0
分享至



近年來,視頻大語言模型在理解動態(tài)視覺信息方面展現出強大能力,成為處理真實世界多模態(tài)數據的重要基礎模型。然而,它們在真實性、安全性、公平性、魯棒性和隱私保護等方面仍面臨嚴峻挑戰(zhàn)。

為此,合肥工業(yè)大學研究團隊攜手清華大學研究團隊推出了首個面向視頻大語言模型的綜合可信度評測基準 Trust-videoLLMs。

該工作以 Oral 形式被 AAAI 2026 接收。Trust-videoLLMs 對 5 款商業(yè)模型和 18 款開源模型進行了全面評估。評測涵蓋真實性、魯棒性、安全性、公平性、隱私五大維度,包含 30 項精心設計的任務。同時,團隊還提供了一個專門用于研究視頻大語言模型安全可信能力的工具箱,該工具箱采用統一接口和模塊化設計,便于模型交互和任務執(zhí)行。



  • 論文地址:https://arxiv.org/pdf/2506.12336
  • 項目主頁:https://github.com/wangyouze/Trust-videoLLMs

評測什么?

Trust-videoLLMs 構建了一個系統化、多層次、可擴展的評測體系,包含五個核心維度:

  • 真實性 (Truthfulness):視頻描述、時序理解、事件推理、幻覺抑制
  • 魯棒性 (Robustness):噪聲干擾、時序擾動、對抗攻擊、模態(tài)沖突
  • 安全性 (Safety):不良內容識別、有害指令拒絕、深度偽造檢測、越獄攻擊防御
  • 公平性 (Fairness):刻板印象識別、職業(yè)能力偏見、時間敏感性分析
  • 隱私性 (Privacy):隱私內容識別、名人隱私保護、自主隱私推理



評測任務涵蓋三個方面:

  • 動態(tài)場景覆蓋:特別設計了時空動態(tài)場景任務,區(qū)別于靜態(tài)圖像評測
  • 跨模態(tài)交互分析:研究視頻、文本等多模態(tài)輸入的相互影響
  • 實用風險評估:評估模型在現實應用中的實際風險感知



評測模型涵蓋 23 款主流的視頻大語言模型 (5 款商用模型和 18 款開源模型),包括不同參數規(guī)模和架構設計的模型。



評測結果速覽




上圖展示了整體排名,揭示了多樣化的性能格局。

閉源模型,特別是 Claude 和 Gemini1.5 系列,普遍優(yōu)于開源模型。Claude4-sonnet 位列第一,其次是 Claude3.7-sonnet 和 Gemini1.5-Flash。GPT-4o 盡管在特定子方面表現出色,但排名第六,僅次于 InternVL2.5-78B,表明其性能均衡但非領先。

在開源模型中,InternVL2.5-78B 和 Qwen2.5-VL-72B 獲得最高排名(第五和第七位),展現了與商用模型相媲美的潛力。然而,大多數開源模型(如 VideoLLaMA3-7B 和 LLaVA-OneVision-72B)排名靠后,在整體可信度、安全性以及隱私保護等方面,仍與主流閉源模型存在差距。

上圖 (a) 展示了綜合表現前 10 的模型在不同維度的表現。Claude4-Sonnet 在安全性方面表現卓越,具有均衡的高性能特征。Claude3.7-Sonnet 提供跨維度的一致可靠性,但缺乏突出優(yōu)勢。Gemini1.5-Flash 在魯棒性方面表現優(yōu)異,但性能方差相對較大,呈現不規(guī)則模式。其他模型整體得分較低,缺乏明顯的差異化特征。

上圖 (b) 展示了可信性各子方面之間的復雜關聯。我們觀察到,維度內相關性較強,尤其在真實性與安全性這兩個子維度中表現明顯??缇S度分析進一步揭示:在多模態(tài)場景下,魯棒性與安全維度高度相關;而時間魯棒性則與真實性維度呈現顯著負相關。公平性維度與其他維度的跨相關性較弱,表明其具有相對獨立的特性。

關鍵發(fā)現

(1) 模型規(guī)模 ≠ 性能更強

參數量大的模型不一定在所有任務上表現更好,尤其是在時序推理、對抗攻擊等復雜場景中。例如,Qwen2.5-VL-7B 在公平性任務上表現優(yōu)于其 72B 版本。

(2)開源模型與閉源模型仍有差距

閉源模型(如 Claude、GPT-4o)在安全性、隱私保護、多模態(tài)對齊方面明顯更強。開源模型在有害內容識別、越獄攻擊防御等方面仍有較大提升空間。

(3)視頻上下文對安全性影響顯著

同一有害文本提示,搭配相關視頻時,模型生成有害內容的概率顯著提升。說明視頻內容會放大模型的安全風險,需加強跨模態(tài)安全對齊。

(4)公平性問題普遍存在

模型在處理性別、年齡、膚色等敏感屬性時仍存在刻板印象。閉源模型通過數據清洗和倫理約束表現更好,開源模型則更容易輸出偏見內容。

(5)隱私保護是雙刃劍

模型越強,越能識別隱私內容,但也越容易自主推理出隱私信息。閉源模型在隱私識別任務上表現更好,但同時也面臨更高的隱私泄露風險。

開源工具與數據

為促進可信視頻大模型的發(fā)展,團隊同步開源了:

  • 評測框架 Trust-videoLLMs:https://github.com/wangyouze/Trust-videoLLMs
  • 大規(guī)模視頻數據集(6955 個視頻,覆蓋多場景多任務)
  • 統一評估工具箱(支持模型接入、任務執(zhí)行、自動評分)

作者信息

一作:王有澤,合肥工業(yè)大學四年級博士生,主要研究方向為多模態(tài)對抗魯棒性、多模態(tài)大模型安全可信,曾在 ACM MM, TMM, TCSVT 等頂級會議和期刊上發(fā)表論文。

通訊作者:胡文波,合肥工業(yè)大學計算機與信息學院副教授,黃山青年學者。主要研究方向為機器學習,包括貝葉斯概率機器學習、人工智能安全以及科學人工智能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

商業(yè)與生活
2025-12-19 11:43:38
蘇聯不要的裝備,70萬武器被八路軍拉3天3夜,撿出“半個軍械庫”

蘇聯不要的裝備,70萬武器被八路軍拉3天3夜,撿出“半個軍械庫”

古書記史
2025-12-15 23:29:05
誰說屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

誰說屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

小喬古裝漢服
2025-11-12 11:46:01
4天5條人命,中國不再忍耐,聯大下通牒:塔利班若再裝傻后果自負

4天5條人命,中國不再忍耐,聯大下通牒:塔利班若再裝傻后果自負

春秋論娛
2025-12-18 07:11:35
Angelababy在上海與一眾網紅聚會!這真是“美得突出”

Angelababy在上海與一眾網紅聚會!這真是“美得突出”

今古深日報
2025-12-18 11:58:58
案例:北京一女教授在家養(yǎng)病長達10年,民警進門后,當場愣在原地

案例:北京一女教授在家養(yǎng)病長達10年,民警進門后,當場愣在原地

蘭姐說故事
2025-01-02 20:00:06
掃地機器人鼻祖宣布破產

掃地機器人鼻祖宣布破產

臺州交通廣播
2025-12-16 20:24:44
王雷李小萌露餡!出席活動冷臉互不理睬 原來恩愛只是“遮羞布”

王雷李小萌露餡!出席活動冷臉互不理睬 原來恩愛只是“遮羞布”

好賢觀史記
2025-12-18 12:44:59
緬甸電詐園區(qū)暗藏軍事基地,遭泰軍大規(guī)模轟炸

緬甸電詐園區(qū)暗藏軍事基地,遭泰軍大規(guī)模轟炸

遠方青木
2025-12-18 23:51:19
全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國首富在干啥

全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國首富在干啥

策略述
2025-12-19 12:39:06
男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發(fā)地為私人承包區(qū),已排查公園安全隱患

男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發(fā)地為私人承包區(qū),已排查公園安全隱患

極目新聞
2025-12-18 17:10:51
不查不知道!龐萊臣后人與南京博物院,早在2014年就打起了官司…

不查不知道!龐萊臣后人與南京博物院,早在2014年就打起了官司…

火山詩話
2025-12-18 18:47:29
劉二狗栽了!泳池派對搞低俗親密互動直播,4400 萬粉也救不了!

劉二狗栽了!泳池派對搞低俗親密互動直播,4400 萬粉也救不了!

小椰的奶奶
2025-12-19 12:15:15
日本人靠它發(fā)財,美國人用它打仗,中國人卻把它當毒藥扔進垃圾桶

日本人靠它發(fā)財,美國人用它打仗,中國人卻把它當毒藥扔進垃圾桶

策略述
2025-12-18 14:11:27
張繼科"炮轟"劉國梁,2017年換教練不提前說,誰會高三換語文老師

張繼科"炮轟"劉國梁,2017年換教練不提前說,誰會高三換語文老師

查爾菲的筆記
2025-10-12 17:15:34
1984年他一聲令下,把老山幾千噸炮彈當水潑,2019年葬禮現場,昔日部下已是軍委副主席,含淚送別這位鐵血師長!

1984年他一聲令下,把老山幾千噸炮彈當水潑,2019年葬禮現場,昔日部下已是軍委副主席,含淚送別這位鐵血師長!

史海孤雁
2025-12-17 16:50:24
石破茂預言果然應驗,中方還沒開始反制,日企就已經撐不住了

石破茂預言果然應驗,中方還沒開始反制,日企就已經撐不住了

鐵錘簡科
2025-12-19 13:22:04
泰王又封00后“新妃”,王后素顏跑馬淡定!真宮斗冠軍不在怕的

泰王又封00后“新妃”,王后素顏跑馬淡定!真宮斗冠軍不在怕的

商務范
2025-12-18 14:16:58
當前最火的五部電視劇,《老舅》跌至第二,你在追哪一部?

當前最火的五部電視劇,《老舅》跌至第二,你在追哪一部?

草莓解說體育
2025-12-19 10:26:11
美國一富豪被冷凍50年,原定2017年蘇醒,解凍時工作人員緊急叫停

美國一富豪被冷凍50年,原定2017年蘇醒,解凍時工作人員緊急叫停

蜉蝣說
2025-12-01 11:20:58
2025-12-19 14:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11953文章數 142513關注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

團播女生私下賣力維護"大哥":經常擦邊 有女生會被約走

頭條要聞

團播女生私下賣力維護"大哥":經常擦邊 有女生會被約走

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協表態(tài)僅6天,郭德綱擔心的事還是發(fā)生

財經要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經典版售96.8萬

態(tài)度原創(chuàng)

家居
本地
時尚
公開課
軍事航空

家居要聞

高端私宅 理想隱居圣地

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風骨

“煙管褲”今年冬天爆火,怎么搭都時髦!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

媒體:美方官宣史上對臺單筆最大軍售 野心藏不住了

無障礙瀏覽 進入關懷版