網易首頁 > 網易號 > 正文申請入駐

AAAI 2026｜視頻大語言模型可不可信？23款主流模型全面測評來了

2025-12-15 18:49:13　來源: 機器之心Pro

河北舉報

分享至

近年來，視頻大語言模型在理解動態(tài)視覺信息方面展現出強大能力，成為處理真實世界多模態(tài)數據的重要基礎模型。然而，它們在真實性、安全性、公平性、魯棒性和隱私保護等方面仍面臨嚴峻挑戰(zhàn)。

為此，合肥工業(yè)大學研究團隊攜手清華大學研究團隊推出了首個面向視頻大語言模型的綜合可信度評測基準 Trust-videoLLMs。

該工作以 Oral 形式被 AAAI 2026 接收。Trust-videoLLMs 對 5 款商業(yè)模型和 18 款開源模型進行了全面評估。評測涵蓋真實性、魯棒性、安全性、公平性、隱私五大維度，包含 30 項精心設計的任務。同時，團隊還提供了一個專門用于研究視頻大語言模型安全可信能力的工具箱，該工具箱采用統一接口和模塊化設計，便于模型交互和任務執(zhí)行。

論文地址：https://arxiv.org/pdf/2506.12336
項目主頁：https://github.com/wangyouze/Trust-videoLLMs

評測什么？

Trust-videoLLMs 構建了一個系統化、多層次、可擴展的評測體系，包含五個核心維度：

真實性 (Truthfulness)：視頻描述、時序理解、事件推理、幻覺抑制
魯棒性 (Robustness)：噪聲干擾、時序擾動、對抗攻擊、模態(tài)沖突
安全性 (Safety)：不良內容識別、有害指令拒絕、深度偽造檢測、越獄攻擊防御
公平性 (Fairness)：刻板印象識別、職業(yè)能力偏見、時間敏感性分析
隱私性 (Privacy)：隱私內容識別、名人隱私保護、自主隱私推理

評測任務涵蓋三個方面：

動態(tài)場景覆蓋：特別設計了時空動態(tài)場景任務，區(qū)別于靜態(tài)圖像評測
跨模態(tài)交互分析：研究視頻、文本等多模態(tài)輸入的相互影響
實用風險評估：評估模型在現實應用中的實際風險感知

評測模型涵蓋 23 款主流的視頻大語言模型 (5 款商用模型和 18 款開源模型)，包括不同參數規(guī)模和架構設計的模型。

評測結果速覽

上圖展示了整體排名，揭示了多樣化的性能格局。

閉源模型，特別是 Claude 和 Gemini1.5 系列，普遍優(yōu)于開源模型。Claude4-sonnet 位列第一，其次是 Claude3.7-sonnet 和 Gemini1.5-Flash。GPT-4o 盡管在特定子方面表現出色，但排名第六，僅次于 InternVL2.5-78B，表明其性能均衡但非領先。

在開源模型中，InternVL2.5-78B 和 Qwen2.5-VL-72B 獲得最高排名（第五和第七位），展現了與商用模型相媲美的潛力。然而，大多數開源模型（如 VideoLLaMA3-7B 和 LLaVA-OneVision-72B）排名靠后，在整體可信度、安全性以及隱私保護等方面，仍與主流閉源模型存在差距。

上圖 (a) 展示了綜合表現前 10 的模型在不同維度的表現。Claude4-Sonnet 在安全性方面表現卓越，具有均衡的高性能特征。Claude3.7-Sonnet 提供跨維度的一致可靠性，但缺乏突出優(yōu)勢。Gemini1.5-Flash 在魯棒性方面表現優(yōu)異，但性能方差相對較大，呈現不規(guī)則模式。其他模型整體得分較低，缺乏明顯的差異化特征。

上圖 (b) 展示了可信性各子方面之間的復雜關聯。我們觀察到，維度內相關性較強，尤其在真實性與安全性這兩個子維度中表現明顯?？缇S度分析進一步揭示：在多模態(tài)場景下，魯棒性與安全維度高度相關；而時間魯棒性則與真實性維度呈現顯著負相關。公平性維度與其他維度的跨相關性較弱，表明其具有相對獨立的特性。

關鍵發(fā)現

（1）模型規(guī)模 ≠ 性能更強

參數量大的模型不一定在所有任務上表現更好，尤其是在時序推理、對抗攻擊等復雜場景中。例如，Qwen2.5-VL-7B 在公平性任務上表現優(yōu)于其 72B 版本。

（2）開源模型與閉源模型仍有差距

閉源模型（如 Claude、GPT-4o）在安全性、隱私保護、多模態(tài)對齊方面明顯更強。開源模型在有害內容識別、越獄攻擊防御等方面仍有較大提升空間。

（3）視頻上下文對安全性影響顯著

同一有害文本提示，搭配相關視頻時，模型生成有害內容的概率顯著提升。說明視頻內容會放大模型的安全風險，需加強跨模態(tài)安全對齊。

（4）公平性問題普遍存在

模型在處理性別、年齡、膚色等敏感屬性時仍存在刻板印象。閉源模型通過數據清洗和倫理約束表現更好，開源模型則更容易輸出偏見內容。

（5）隱私保護是雙刃劍

模型越強，越能識別隱私內容，但也越容易自主推理出隱私信息。閉源模型在隱私識別任務上表現更好，但同時也面臨更高的隱私泄露風險。

開源工具與數據

為促進可信視頻大模型的發(fā)展，團隊同步開源了：

評測框架 Trust-videoLLMs：https://github.com/wangyouze/Trust-videoLLMs
大規(guī)模視頻數據集（6955 個視頻，覆蓋多場景多任務）
統一評估工具箱（支持模型接入、任務執(zhí)行、自動評分）

作者信息

一作：王有澤，合肥工業(yè)大學四年級博士生，主要研究方向為多模態(tài)對抗魯棒性、多模態(tài)大模型安全可信，曾在 ACM MM, TMM, TCSVT 等頂級會議和期刊上發(fā)表論文。

通訊作者：胡文波，合肥工業(yè)大學計算機與信息學院副教授，黃山青年學者。主要研究方向為機器學習，包括貝葉斯概率機器學習、人工智能安全以及科學人工智能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.