NeurIPS 2025 | Video-RAG：革新長視頻理解，開源視頻理解模型也能媲美GPT-4o

2025-10-21 08:25:26　來源: 將門創(chuàng)投

北京舉報(bào)

分享至

面對時(shí)長從幾分鐘到數(shù)小時(shí)的長視頻，現(xiàn)有多模態(tài)視頻語言模型（Large Video-Language Models, LVLMs）卻因上下文窗口有限、視覺-文本對齊不足等問題屢屢 “失靈”，要么需海量數(shù)據(jù)與 GPU 資源進(jìn)行微調(diào)，要么依賴 GPT-4o 等閉源模型導(dǎo)致成本難以承擔(dān)。為打破這一困境，廈門大學(xué)聯(lián)合南京大學(xué)、羅切斯特大學(xué)提出Video-RAG，一種無需訓(xùn)練、低成本的長視頻理解范式。它通過提取視頻中與視覺對齊的輔助文本（如音頻轉(zhuǎn)錄、文字識別、目標(biāo)檢測結(jié)果），結(jié)合檢索增強(qiáng)生成（Retrieval-Augmented Generation, RAG）技術(shù)，為任意多模態(tài)視頻語言模型注入長視頻理解能力。

論文題目： Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension 論文鏈接： https://arxiv.org/abs/2411.13093 代碼鏈接： https://github.com/Leon1207/Video-RAG-master 項(xiàng)目主頁： https://video-rag.github.io/

一、研究背景

長視頻（如紀(jì)錄片、監(jiān)控錄像、在線課程）包含豐富的時(shí)空信息，是具身智能、視頻分析等領(lǐng)域的關(guān)鍵數(shù)據(jù)來源。但現(xiàn)有多模態(tài)視頻語言模型在處理長視頻時(shí)，面臨三大難以突破的瓶頸（圖1所示）：

1、上下文窗口受限：傳統(tǒng)依賴采樣視頻幀提取視覺特征，但幀數(shù)量增多會導(dǎo)致信息冗余，甚至引發(fā)性能下降。例如 LongVA[1]模型在幀采樣率從 128 提升至 384 時(shí)，Video-MME [2] 測試基準(zhǔn)上得分反而從 52.6% 降至 51.8%。

2、微調(diào)成本高昂：為擴(kuò)展 LVLM 的上下文長度，現(xiàn)有方法需在大規(guī)模文本上預(yù)訓(xùn)練，再遷移到視頻任務(wù)，不僅需要TB級數(shù)據(jù)，還需數(shù)十張 A100 GPU 支持，普通研究者難以企及。

3、閉源模型依賴：GPT-4o、Gemini 1.5-Pro等閉源模型雖能處理長視頻，但調(diào)用 API 成本極高（如VideoAgent [3]處理完整Video-MME數(shù)據(jù)集需消耗約2000美元API費(fèi)用，耗時(shí)超 20 天），且靈活性受限。更關(guān)鍵的是，多數(shù)方法將視頻轉(zhuǎn)化為純文本后再用 RAG 檢索，丟失了關(guān)鍵視覺信息；而多輪交互式處理又進(jìn)一步增加了計(jì)算開銷，導(dǎo)致 “性能” 與 “效率” 難以兼得。

圖1 不同主流長視頻理解方案對比。

為了推動這一問題的解決，我們提出了Video-RAG算法，旨在通過引入視覺對齊的輔助文本輸入，以無需訓(xùn)練的方式無縫集成到任何已有的LVLM中提升其處理長視頻的能力。

二、Video-RAG 算法介紹

如圖2所示，Video-RAG的核心思路是：用開源工具提取視頻中的視覺對齊輔助文本，通過 RAG 篩選出與查詢相關(guān)的信息，再輸入任意 LVLM 生成答案。整個流程無需訓(xùn)練，可即插即用，具體分為三個階段。

圖2 Video-RAG 整體框架示意圖。

圖3 Video-RAG 示例。 2.1 第一步：查詢解耦

如圖3例子所示，用戶輸入關(guān)于長視頻的查詢（如 “當(dāng)介紹“德國現(xiàn)代圣誕樹最初會用蘋果、蠟燭和漿果來裝飾”時(shí)，數(shù)量最多的是哪一種裝飾？”）后，Video-RAG 會先讓 LVLM 生成結(jié)構(gòu)化檢索請求（JSON 格式），明確需要提取的信息類型：

ASR 請求：需從音頻中獲取的信息（如 “null”）；
DET 請求：需檢測的物理實(shí)體（如 “apples、candles、berries”）；
TYPE 請求：需補(bǔ)充的實(shí)體屬性（如 “number”）。

這一步僅處理文本，無需訪問視頻幀，確保檢索目標(biāo)精準(zhǔn)，避免后續(xù)信息冗余。

2.2 第二步：輔助文本生成與檢索

基于檢索請求，Video-RAG 調(diào)用開源工具從視頻中提取三類核心輔助文本，并構(gòu)建數(shù)據(jù)庫進(jìn)行高效檢索：

OCR 文本庫：用 EasyOCR 提取每幀中的文字（如屏幕字幕、標(biāo)識牌），再用 Contriever [4]編碼為向量，存入 FAISS 索引庫；
ASR 文本庫：用 Whisper 將視頻音頻轉(zhuǎn)錄為文字（如人物對話、旁白），同樣編碼后存入數(shù)據(jù)庫；
目標(biāo)檢測（DET）庫：先通過 CLIP 篩選與查詢相關(guān)的關(guān)鍵幀（排除無關(guān)幀減少計(jì)算），再用 APE（開源開放詞匯目標(biāo)檢測模型）識別實(shí)體類別與位置，從而形成結(jié)構(gòu)化的場景圖，最后用場景圖將原始檢測結(jié)果轉(zhuǎn)化為 LVLM 易理解的文本（如 “物體 1 是蘋果，位于坐標(biāo) [x,y]，尺寸為長 × 寬；物體 2 是蠟燭，位于坐標(biāo) [a,b]”）。

隨后，Video-RAG 繼續(xù)使用Contriever編碼用戶查詢與檢索請求，通過 FAISS 計(jì)算向量相似度，篩選出相似度高于閾值（默認(rèn)0.3）的輔助文本，用以確保僅保留與查詢強(qiáng)相關(guān)的信息，避免上下文窗口溢出。

2.3 第三步：整合與生成

將篩選后的 OCR、ASR、DET 輔助文本按時(shí)間順序合并，與原始查詢、視頻采樣幀的視覺特征一起輸入 LVLM，最終生成精準(zhǔn)答案。例如上述查詢中，Video-RAG 會提取到 ASR 文本和 DET 文本（“5個蘋果，5個蠟燭和7個漿果”），輔助 LVLM 準(zhǔn)確回答 “C:漿果”。

值得注意的是，檢索過程是并行單輪執(zhí)行的，無需多輪交互，計(jì)算開銷極低；且所有工具均為開源（EasyOCR、Whisper、APE、FAISS 等），無需依賴任何閉源 API。

三、實(shí)驗(yàn)與分析
表1 主流LVLM接入Video-RAG在Video-MME上的性能表現(xiàn)。

研究團(tuán)隊(duì)在三大主流長視頻基準(zhǔn)（Video-MME、MLVU、LongVideoBench）上，對6個常見的開源 LVLM（從 7B 到 72B 參數(shù)）進(jìn)行了全面測試，結(jié)果表明 Video-RAG 的性能與效率優(yōu)勢顯著。

3.1 性能：72B 模型媲美 GPT-4o

如表1所示，在 Video-MME 數(shù)據(jù)集上，72B 參數(shù)的 LLaVA-Video [5] 結(jié)合 Video-RAG 后，整體得分達(dá) 77.4%，超過 GPT-4o 的 77.2%；在 LongVideoBench 數(shù)據(jù)集上，該組合得分 65.4%，超越 Gemini 1.5-Pro（64.0%），僅比 GPT-4o 低 1.3 個百分點(diǎn)，成為開源模型中的頂尖水平。

即使是 7B 小模型，Video-RAG 也能帶來平均 3.2% 的性能提升。例如 LongVA-7B 在添加輔助文本后，長視頻任務(wù)得分從 52.9% 升至 59.4%，且僅需額外 8GB GPU 顯存、5 秒推理時(shí)間。

3.2 效率：資源消耗遠(yuǎn)低于現(xiàn)有方法

如圖4所示，與長上下文微調(diào)模型（如 LongVA-128fs）相比，Video-RAG 在 16 幀采樣下即可實(shí)現(xiàn)更高性能，且 GPU 顯存消耗減少 150GB 以上；與 GPT-based Agent（如 VideoAgent）相比，處理相同數(shù)據(jù)集的成本從 2000 美元降至 “零 API 費(fèi)用”，推理時(shí)間從 20 天縮短至小時(shí)級。

圖4 不同方案資源消耗對比圖。 3.3 魯棒性：適配不同幀采樣率與任務(wù)類型

消融實(shí)驗(yàn)顯示，Video-RAG 在 8~256 幀采樣率下均能穩(wěn)定提升性能，尤其在低幀采樣（8 幀）時(shí)增益更明顯，適合資源受限場景；而拆分輔助文本組件后發(fā)現(xiàn)，ASR 對長視頻推理幫助最大，DET能顯著提升目標(biāo)計(jì)數(shù)與空間關(guān)系判斷精度，OCR 則優(yōu)化文字相關(guān)任務(wù)，通過三者結(jié)合可實(shí)現(xiàn)最優(yōu)長視頻效果。

如圖5所示，借助檢索增強(qiáng)機(jī)制，Video-RAG能夠精準(zhǔn)篩選出與當(dāng)前查詢高度相關(guān)的信息片段，并將其注入到模型輸入中。這些檢索到的文本不僅引導(dǎo)LVLM更聚焦于與問題相關(guān)的關(guān)鍵幀，還起到了“橋梁”作用，強(qiáng)化了問題與視覺內(nèi)容之間的語義對齊，從而提升模型在長視頻理解任務(wù)中的準(zhǔn)確性和魯棒性。

圖5 Video-RAG檢索并注入相關(guān)文本，促使LVLM聚焦關(guān)鍵幀、強(qiáng)化文-視語義對齊。四、總結(jié)

Video-RAG 的突破在于，它沒有陷入 “增大模型上下文” 或 “依賴閉源 API” 的傳統(tǒng)路徑，而是通過 “視覺對齊輔助文本 + 檢索增強(qiáng)生成” 的輕量設(shè)計(jì)，讓任意開源 LVLM 都能高效處理長視頻。其價(jià)值不僅體現(xiàn)在技術(shù)層面：

對研究者：提供無需訓(xùn)練、低成本的長視頻理解工具，代碼開源可復(fù)現(xiàn)；
對工業(yè)界：可快速集成到監(jiān)控分析、視頻內(nèi)容檢索、在線教育等場景，降低部署成本；
對領(lǐng)域發(fā)展：為 LVLM 的跨模態(tài)對齊提供新思路，后續(xù)可進(jìn)一步優(yōu)化輔助文本與視覺特征的融合方式。

目前，Video-RAG 的代碼已開源，研究者可直接基于現(xiàn)有 LVLM（如LLaVA-Video、Qwen2-VL [6]）進(jìn)行拓展。未來團(tuán)隊(duì)計(jì)劃探索自適應(yīng)幀選擇策略，進(jìn)一步提升長視頻理解的效率與精度，推動開源生態(tài)在多模態(tài)領(lǐng)域的發(fā)展。

主要引用文獻(xiàn)

[1] Zhang, Peiyuan, et al. "Long context transfer from language to vision." arXiv preprint arXiv:2406.16852 (2024).

[2] Fu, Chaoyou, et al. "Video-mme: The first-ever comprehensive evaluation benchmark of multi-modal llms in video analysis." CVPR. 2025.

[3] Fan, Yue, et al. "Videoagent: A memory-augmented multimodal agent for video understanding." ECCV, 2024.

[4] Izacard, Gautier, et al. "Unsupervised dense information retrieval with contrastive learning." arXiv preprint arXiv:2112.09118 (2021).

[5] Yuanhan Zhang, et al. "Video instruction tuning with synthetic data." arXiv preprint arXiv:2410.02713 (2024).

[6] Wang, Peng, et al. "Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution." arXiv preprint arXiv:2409.12191 (2024).

llustration From IconScout By IconScout Store

-The End-

掃碼觀看！

本周上新！

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)（www.techbeat.net）。社區(qū)上線700+期talk視頻，3000+篇技術(shù)干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺，希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn)，加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章，并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向，對用戶啟發(fā)更大的文章，做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信（michelle333_）投稿，溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu)，也是北京市標(biāo)桿型孵化器。公司致力于通過連接技術(shù)與商業(yè)，發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè)，推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底，創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成，曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè)，不僅想獲得投資，還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù)，歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com

點(diǎn)擊右上角，把文章分享到朋友圈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.