讓多模態(tài)模型學(xué)會主動說話：主動交互從訓(xùn)練到評估的完整方案

2026-03-30 13:16:01　來源: 機(jī)器之心Pro

河北舉報

分享至

本文綜合北京大學(xué)王選計算機(jī)研究所發(fā)布的 ProactiveVideoQA 和 MMDuet2 兩篇論文，介紹視頻多模態(tài)大模型如何實現(xiàn) “主動交互”—— 在視頻播放過程中自主決定何時發(fā)起回復(fù)，而非等待用戶提問。ProactiveVideoQA 提出評估指標(biāo)和 benchmark，MMDuet2 則通過強(qiáng)化學(xué)習(xí)訓(xùn)練方法實現(xiàn)了 SOTA 性能，無需精確的回復(fù)時間標(biāo)注即可訓(xùn)練出及時、準(zhǔn)確的主動交互模型。

MMDuet2: Enhancing Proactive Interaction of Video MLLMs with Multi-Turn Reinforcement Learning

論文鏈接：https://www.arxiv.org/abs/2512.06810
論文主頁：https://github.com/yellow-binary-tree/MMDuet2

ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models

論文鏈接：https://arxiv.org/abs/2507.09313
論文主頁：https://github.com/yellow-binary-tree/ProactiveVideoQA

背景：為什么視頻模型需要 "主動交互"

想象這樣一個場景：你正在使用一個基于多模態(tài)大模型的語音助手指導(dǎo)你做飯；對于大多數(shù)已有的多模態(tài)大模型，它只能在你提出問題后做出回復(fù)。也就是說，你在手忙腳亂地操作廚具的同時，還要一次一次地提問 “現(xiàn)在我該怎么做？”。但更理想的體驗是，模型可以在看你操作的時候，不需要你給出指令，就主動提供講解。

這就是 "主動交互"（Proactive Interaction）要解決的問題。如上圖所示，與傳統(tǒng)的離線交互（offline，先提供整個視頻，然后基于視頻內(nèi)容展開對話）和在線交互（online，用戶每次提問后模型回復(fù)）不同，主動交互要求模型自主決定何時回復(fù)，即能根據(jù)視頻的進(jìn)展自主選擇合適的時機(jī)主動向用戶提供信息。

這種能力對很多真實場景至關(guān)重要：例如直播管理、智能監(jiān)控、第一人稱視角助手等應(yīng)用場景都需要模型能夠主動、及時地響應(yīng)視頻中的關(guān)鍵事件。下面是 MMDuet2 模型在處理游戲直播時的一個例子：用戶在視頻開始時提出一個需要關(guān)注的事件（屏幕上出現(xiàn)表示游戲中重要事件的大字），每次這個事件發(fā)生時，MMDuet2 模型就會及時給出解釋。

視頻地址：https://mp.weixin.qq.com/s/pGnyUMZmBq0RBD0fAmlQ8A?click_id=36

但目前這個問題仍然沒有受到足夠的重視；雖然有一些工作訓(xùn)練的多模態(tài)大模型聲稱具備主動交互能力，他們也并沒有對這種能力進(jìn)行定量的評估。這背后反映的問題是：如何評估主動交互能力？如何訓(xùn)練主動交互能力？這兩個基礎(chǔ)問題一直缺乏系統(tǒng)性的解決方案。ProactiveVideoQA 和發(fā)表在 ICLR 2026 上的 MMDuet2 這兩篇工作恰好構(gòu)成了一個完整的方案：前者定義了問題和評估標(biāo)準(zhǔn)，后者提供了訓(xùn)練解決方案并達(dá)到了最佳性能。

ProactiveVideoQA：首個主動交互評估基準(zhǔn)

ProactiveVideoQA 是首個專門評估視頻多模態(tài)模型主動交互能力的綜合基準(zhǔn)測試。它的核心特征有三個：

1.多輪開放式問答：不同于大多數(shù)視頻問答基準(zhǔn)使用選擇題，ProactiveVideoQA 要求模型生成多輪、完全開放的文本回復(fù)，更接近真實對話場景。

2.多樣化的任務(wù)和多模態(tài)輸入：ProactiveVideoQA 涵蓋網(wǎng)絡(luò)視頻、第一人稱視角、電視劇、監(jiān)控視頻四大類任務(wù)，整合文本、視頻、語音多種模態(tài)，共 1377 個視頻、1427 個問題。Benchmark 的數(shù)據(jù)示例如下圖所示，每條數(shù)據(jù)含有一個問題和一個以上的答案，每個答案對應(yīng)一個時間片段：

3.提出和回復(fù)時間相關(guān)的評估指標(biāo) PAUC：提出 Proactive Area Under Curve（PAUC）指標(biāo)，通過繪制 “時間 - 質(zhì)量” 曲線并計算曲線下面積來評估模型回復(fù)的及時性和準(zhǔn)確性，而非僅評估文本內(nèi)容。

PAUC 的計算方式如上圖所示：受到人機(jī)交互領(lǐng)域中的用戶旅程地圖（User Journey Map）的啟發(fā)，我們將模型在每個時間點的累積回復(fù)質(zhì)量分?jǐn)?shù)繪制成折線圖，并計算折線下面積與最大可能面積的比值（藍(lán)色面積與黃色面積 + 藍(lán)色面積的比值）：

關(guān)于這個指標(biāo)為什么可以兼顧回復(fù)的及時性和準(zhǔn)確性，下圖有一個直觀的幾何解釋：

MMDuet2：基于強(qiáng)化學(xué)習(xí)的主動交互訓(xùn)練方法

MMDuet2 是在 ProactiveVideoQA 基準(zhǔn)上達(dá)到 SOTA 性能的支持主動交互的視頻多模態(tài)模型。它的主要貢獻(xiàn)包括：

1.高質(zhì)量訓(xùn)練數(shù)據(jù)：構(gòu)建了包含 52k 條視頻的主動交互對話數(shù)據(jù)集，根據(jù)對話中問題個數(shù)的不同分為兩種對話類型（1QnA 和 nQnA）。

2.訓(xùn)練和推理框架兼容性：基于 Qwen2.5-VL 模型，每個回復(fù)輪次輸出回復(fù)內(nèi)容或 "NO REPLY"，無需額外模塊或手動調(diào)整閾值，與主流訓(xùn)練 / 推理框架完全兼容。

3.多輪強(qiáng)化學(xué)習(xí)訓(xùn)練：提出基于 GRPO 的 RL 訓(xùn)練方法，通過精心設(shè)計的基于 PAUC 指標(biāo)的復(fù)合獎勵函數(shù)，在無需精確標(biāo)注最佳回復(fù)時間的情況下訓(xùn)練模型生成及時、準(zhǔn)確的回復(fù)。

主動交互訓(xùn)練數(shù)據(jù)集的構(gòu)建

本文提出的主動交互對話數(shù)據(jù)集的構(gòu)建流程如下：

1.場景分割與描述：將視頻根據(jù) scene 分成多個片段，為每個時間段生成詳細(xì)的視頻 caption。

2.QA 生成：用 LLM 根據(jù)所有片段的 caption 生成問題和一組答案（每個片段對應(yīng)一個答案；如果某個片段中的視頻無法回答問題，則認(rèn)為答案是 "NO REPLY"）。對于每個視頻，我們用這種方式可以生成多個問題和多組答案。

3.對話構(gòu)建：根據(jù)每個視頻對應(yīng)的多個問題和多組答案生成兩種類型的對話：

1QnA：視頻開始時提出一個問題，模型需要在對應(yīng)的時間段中給出對應(yīng)的答案
nQnA：視頻中多個隨機(jī)時間點每個時間點提出一個問題；模型需要在問題提出時立刻給出前面已經(jīng)經(jīng)過的時間段對應(yīng)的答案，并在接下來的每個時間段回復(fù)對應(yīng)的答案，直到用戶提出下一個問題為止。

純文本 Chat Template

MMDuet2 使用了如下的 chat template 來表示主動交互的過程：

首先，我們使用自定義的 system prompt 作為一個主動交互對話的開頭。這不僅為模型提供了對話規(guī)則，還通過不同的 system prompt 來區(qū)分主動和離線視頻任務(wù)。
user 輸入一條消息，其中包括來自視頻的少量（本文中為 1 或 2 幀）幀和可選的文本輸入。
在 assistant 的回合中，模型可以選擇生成一些文本內(nèi)容作為回復(fù)，或生成 "NO REPLY" 來表示它不想在這一輪中回復(fù)。
隨后，user 重新獲得發(fā)言權(quán)并繼續(xù)輸入包含幀和可選的文本的消息。這個循環(huán)持續(xù)到視頻中的所有幀都已被輸入完成。

在這個 chat template 中，視頻中每個 user 回合或 assistant 回合的時間點可以通過將此回合之前的幀數(shù)乘以幀之間的時間間隔來計算得出。例如，在每秒 1 幀的幀采樣率下，上圖中的對話表示用戶在第 2 秒說 "What are the people doing in office?"，模型在第 4 秒回復(fù) "People are working..."，在第 8 秒回復(fù) "A reporter is speaking..."。

MMDuet2 的 SFT 和 RL 兩階段訓(xùn)練

MMDuet2 的訓(xùn)練分為兩個階段。在監(jiān)督微調(diào)（SFT）階段，模型基于 Qwen2.5-VL 3B 初始化，使用 52k 條主動交互對話數(shù)據(jù)進(jìn)行訓(xùn)練，并混合 25k 離線視頻 QA 和 25k 條 video captioning 數(shù)據(jù)以保持通用視頻理解能力。為了避免模型產(chǎn)生幻覺，SFT 階段我們將模型回復(fù)的時間點選為每個時間段的末尾，確保相關(guān)內(nèi)容在回復(fù)前已經(jīng)發(fā)生。整個 SFT 階段在 16 張 H800 GPU 上訓(xùn)練 8 小時。

然而，純監(jiān)督學(xué)習(xí)存在明顯的局限性：因為我們將模型回復(fù)的時間點選在了每個時間段的末尾，這導(dǎo)致模型學(xué)會了看到關(guān)鍵信息出現(xiàn)時不立刻回復(fù)相關(guān)內(nèi)容而是等這段視頻播放完了再說，這造成了一個我們并不想要的回復(fù)延遲。另外，由于 SFT 數(shù)據(jù)中模型輸出 "NO REPLY" 的頻率遠(yuǎn)高于輸出有實際意義的回復(fù)內(nèi)容的概率，這導(dǎo)致模型在測試時也更傾向于輸出 "NO REPLY"。

通過這種方式，模型能夠在無需精確時間標(biāo)注的情況下學(xué)習(xí)到最優(yōu)的回復(fù)時機(jī)。整個 RL 階段用了 1900 個視頻，在 8 張 H800 GPU 上訓(xùn)練 20 小時，最終在 ProactiveVideoQA 基準(zhǔn)上達(dá)到了 SOTA 性能。

上圖中在 ProactiveVideoQA 的 [WEB] [EGO] 子任務(wù)上的回復(fù)輪數(shù)統(tǒng)計顯示，RL 訓(xùn)練后模型的回復(fù)次數(shù)明顯提升，解決了 SFT 模型 "回復(fù)過少" 的問題。

實驗結(jié)果

主動交互 benchmark 上的 SOTA 表現(xiàn)

上圖中展示了在 StreamingBench Proactive Output 任務(wù)上的表現(xiàn)，以及 ProactiveVideoQA benchmark 上的 PAUC 指標(biāo)和回復(fù)重復(fù)率。我們的 MMDuet2 模型達(dá)到最佳性能且明顯降低回復(fù)重復(fù)率。

和本工作中使用強(qiáng)化學(xué)習(xí)引導(dǎo)模型學(xué)會回復(fù)時機(jī)判斷相比，之前的主動交互模型 VideoLLM-Online 和 MMDuet 通過在每幀后預(yù)測代表回復(fù)概率的分?jǐn)?shù)，并比較分?jǐn)?shù)是否大于閾值來決定是否在該幀后插入回復(fù)。他們的做法的缺點是測試時很難找到合適的閾值，從而導(dǎo)致模型總是不回復(fù)或生成大量重復(fù)回復(fù)。

保持離線視頻理解能力

在 Video-MME、MVBench、LongVideoBench 等離線基準(zhǔn)上，MMDuet2 的性能與訓(xùn)練前的原模型 Qwen2.5-VL 基本持平，說明 SFT+RL 訓(xùn)練沒有損害通用視頻理解能力。

訓(xùn)練和推理階段的幀采樣密度影響

幀采樣密度是影響主動交互體驗的關(guān)鍵因素。本文在 SFT、RL 和推理三個階段測試了不同的幀采樣間距：

SFT 階段：幀間距設(shè)為 1 秒時，模型會坍縮為每輪都輸出 "NO REPLY"，因為訓(xùn)練數(shù)據(jù)中不回復(fù)（即輸出 "NO REPLY"）的占比過高。因此后續(xù)實驗中 SFT 使用 2 秒幀間距。
RL 階段：不同幀間距對性能影響不大。
推理階段：將幀間距從 2 秒降至 1 秒帶來顯著性能提升。原因是更高的決策頻率讓模型能更早（提前 1 秒）感知到合適的回復(fù)時機(jī)，這對 PAUC 指標(biāo)（尤其是 ground truth 回復(fù)時間段很短時）和用戶體驗都更有利。

這一發(fā)現(xiàn)表明 MMDuet2 在 RL 階段對不同幀采樣策略具有良好的魯棒性，且在推理時使用更密集的幀采樣能顯著改善交互體驗。

總結(jié)與展望

MMDuet2 和 ProactiveVideoQA 共同構(gòu)建了視頻多模態(tài)模型主動交互的完整解決方案：

ProactiveVideoQA提出了 PAUC 評估指標(biāo)，提供了測試 benchmark
MMDuet2通過無需精確時間標(biāo)注的 RL 方法解決了訓(xùn)練問題，構(gòu)建了訓(xùn)練數(shù)據(jù)，達(dá)到了 SOTA 性能。

對多模態(tài)大模型主動交互能力的關(guān)注和探索代表了我們關(guān)注從 “用戶驅(qū)動” 到 “AI 主動” 的多模態(tài)大模型使用范式的轉(zhuǎn)變。本文主要關(guān)注通用領(lǐng)域的視頻問答和對話場景，未來我們希望通過構(gòu)建特定領(lǐng)域的訓(xùn)練數(shù)據(jù)的方式將主動交互技術(shù)擴(kuò)展到更多實際應(yīng)用場景中。

作者介紹

本工作的第一作者為北京大學(xué)王選計算機(jī)研究所博士研究生王越千，研究方向為多模態(tài)大模型，尤其是視頻對話、視頻問答、多模態(tài)強(qiáng)化學(xué)習(xí)。

導(dǎo)師為王選計算機(jī)研究所助理教授張輝帥、研究員趙東巖。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.