国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓多模態(tài)模型學(xué)會主動說話:主動交互從訓(xùn)練到評估的完整方案

0
分享至



本文綜合北京大學(xué)王選計算機(jī)研究所發(fā)布的 ProactiveVideoQA 和 MMDuet2 兩篇論文,介紹視頻多模態(tài)大模型如何實現(xiàn) “主動交互”—— 在視頻播放過程中自主決定何時發(fā)起回復(fù),而非等待用戶提問。ProactiveVideoQA 提出評估指標(biāo)和 benchmark,MMDuet2 則通過強(qiáng)化學(xué)習(xí)訓(xùn)練方法實現(xiàn)了 SOTA 性能,無需精確的回復(fù)時間標(biāo)注即可訓(xùn)練出及時、準(zhǔn)確的主動交互模型。

MMDuet2: Enhancing Proactive Interaction of Video MLLMs with Multi-Turn Reinforcement Learning



  • 論文鏈接:https://www.arxiv.org/abs/2512.06810
  • 論文主頁:https://github.com/yellow-binary-tree/MMDuet2

ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models



  • 論文鏈接:https://arxiv.org/abs/2507.09313
  • 論文主頁:https://github.com/yellow-binary-tree/ProactiveVideoQA

背景:為什么視頻模型需要 "主動交互"

想象這樣一個場景:你正在使用一個基于多模態(tài)大模型的語音助手指導(dǎo)你做飯;對于大多數(shù)已有的多模態(tài)大模型,它只能在你提出問題后做出回復(fù)。也就是說,你在手忙腳亂地操作廚具的同時,還要一次一次地提問 “現(xiàn)在我該怎么做?”。但更理想的體驗是,模型可以在看你操作的時候,不需要你給出指令,就主動提供講解。



這就是 "主動交互"(Proactive Interaction)要解決的問題。如上圖所示,與傳統(tǒng)的離線交互(offline,先提供整個視頻,然后基于視頻內(nèi)容展開對話)和在線交互(online,用戶每次提問后模型回復(fù))不同,主動交互要求模型自主決定何時回復(fù),即能根據(jù)視頻的進(jìn)展自主選擇合適的時機(jī)主動向用戶提供信息。

這種能力對很多真實場景至關(guān)重要:例如直播管理、智能監(jiān)控、第一人稱視角助手等應(yīng)用場景都需要模型能夠主動、及時地響應(yīng)視頻中的關(guān)鍵事件。下面是 MMDuet2 模型在處理游戲直播時的一個例子:用戶在視頻開始時提出一個需要關(guān)注的事件(屏幕上出現(xiàn)表示游戲中重要事件的大字),每次這個事件發(fā)生時,MMDuet2 模型就會及時給出解釋。



視頻地址:https://mp.weixin.qq.com/s/pGnyUMZmBq0RBD0fAmlQ8A?click_id=36

但目前這個問題仍然沒有受到足夠的重視;雖然有一些工作訓(xùn)練的多模態(tài)大模型聲稱具備主動交互能力,他們也并沒有對這種能力進(jìn)行定量的評估。這背后反映的問題是:如何評估主動交互能力?如何訓(xùn)練主動交互能力?這兩個基礎(chǔ)問題一直缺乏系統(tǒng)性的解決方案。ProactiveVideoQA 和發(fā)表在 ICLR 2026 上的 MMDuet2 這兩篇工作恰好構(gòu)成了一個完整的方案:前者定義了問題和評估標(biāo)準(zhǔn),后者提供了訓(xùn)練解決方案并達(dá)到了最佳性能。

ProactiveVideoQA:首個主動交互評估基準(zhǔn)

ProactiveVideoQA 是首個專門評估視頻多模態(tài)模型主動交互能力的綜合基準(zhǔn)測試。它的核心特征有三個:

1.多輪開放式問答:不同于大多數(shù)視頻問答基準(zhǔn)使用選擇題,ProactiveVideoQA 要求模型生成多輪、完全開放的文本回復(fù),更接近真實對話場景。

2.多樣化的任務(wù)和多模態(tài)輸入:ProactiveVideoQA 涵蓋網(wǎng)絡(luò)視頻、第一人稱視角、電視劇、監(jiān)控視頻四大類任務(wù),整合文本、視頻、語音多種模態(tài),共 1377 個視頻、1427 個問題。Benchmark 的數(shù)據(jù)示例如下圖所示,每條數(shù)據(jù)含有一個問題和一個以上的答案,每個答案對應(yīng)一個時間片段:



3.提出和回復(fù)時間相關(guān)的評估指標(biāo) PAUC:提出 Proactive Area Under Curve(PAUC)指標(biāo),通過繪制 “時間 - 質(zhì)量” 曲線并計算曲線下面積來評估模型回復(fù)的及時性和準(zhǔn)確性,而非僅評估文本內(nèi)容。



PAUC 的計算方式如上圖所示:受到人機(jī)交互領(lǐng)域中的用戶旅程地圖(User Journey Map)的啟發(fā),我們將模型在每個時間點的累積回復(fù)質(zhì)量分?jǐn)?shù)繪制成折線圖,并計算折線下面積與最大可能面積的比值(藍(lán)色面積與黃色面積 + 藍(lán)色面積的比值):





關(guān)于這個指標(biāo)為什么可以兼顧回復(fù)的及時性和準(zhǔn)確性,下圖有一個直觀的幾何解釋:







MMDuet2:基于強(qiáng)化學(xué)習(xí)的主動交互訓(xùn)練方法

MMDuet2 是在 ProactiveVideoQA 基準(zhǔn)上達(dá)到 SOTA 性能的支持主動交互的視頻多模態(tài)模型。它的主要貢獻(xiàn)包括:

1.高質(zhì)量訓(xùn)練數(shù)據(jù):構(gòu)建了包含 52k 條視頻的主動交互對話數(shù)據(jù)集,根據(jù)對話中問題個數(shù)的不同分為兩種對話類型(1QnA 和 nQnA)。

2.訓(xùn)練和推理框架兼容性:基于 Qwen2.5-VL 模型,每個回復(fù)輪次輸出回復(fù)內(nèi)容或 "NO REPLY",無需額外模塊或手動調(diào)整閾值,與主流訓(xùn)練 / 推理框架完全兼容。

3.多輪強(qiáng)化學(xué)習(xí)訓(xùn)練:提出基于 GRPO 的 RL 訓(xùn)練方法,通過精心設(shè)計的基于 PAUC 指標(biāo)的復(fù)合獎勵函數(shù),在無需精確標(biāo)注最佳回復(fù)時間的情況下訓(xùn)練模型生成及時、準(zhǔn)確的回復(fù)。

主動交互訓(xùn)練數(shù)據(jù)集的構(gòu)建

本文提出的主動交互對話數(shù)據(jù)集的構(gòu)建流程如下:

1.場景分割與描述:將視頻根據(jù) scene 分成多個片段,為每個時間段生成詳細(xì)的視頻 caption。

2.QA 生成:用 LLM 根據(jù)所有片段的 caption 生成問題和一組答案(每個片段對應(yīng)一個答案;如果某個片段中的視頻無法回答問題,則認(rèn)為答案是 "NO REPLY")。對于每個視頻,我們用這種方式可以生成多個問題和多組答案。

3.對話構(gòu)建:根據(jù)每個視頻對應(yīng)的多個問題和多組答案生成兩種類型的對話:

  • 1QnA:視頻開始時提出一個問題,模型需要在對應(yīng)的時間段中給出對應(yīng)的答案
  • nQnA:視頻中多個隨機(jī)時間點每個時間點提出一個問題;模型需要在問題提出時立刻給出前面已經(jīng)經(jīng)過的時間段對應(yīng)的答案,并在接下來的每個時間段回復(fù)對應(yīng)的答案,直到用戶提出下一個問題為止。





純文本 Chat Template

MMDuet2 使用了如下的 chat template 來表示主動交互的過程:



  • 首先,我們使用自定義的 system prompt 作為一個主動交互對話的開頭。這不僅為模型提供了對話規(guī)則,還通過不同的 system prompt 來區(qū)分主動和離線視頻任務(wù)。
  • user 輸入一條消息,其中包括來自視頻的少量(本文中為 1 或 2 幀)幀和可選的文本輸入。
  • 在 assistant 的回合中,模型可以選擇生成一些文本內(nèi)容作為回復(fù),或生成 "NO REPLY" 來表示它不想在這一輪中回復(fù)。
  • 隨后,user 重新獲得發(fā)言權(quán)并繼續(xù)輸入包含幀和可選的文本的消息。這個循環(huán)持續(xù)到視頻中的所有幀都已被輸入完成。

在這個 chat template 中,視頻中每個 user 回合或 assistant 回合的時間點可以通過將此回合之前的幀數(shù)乘以幀之間的時間間隔來計算得出。例如,在每秒 1 幀的幀采樣率下,上圖中的對話表示用戶在第 2 秒說 "What are the people doing in office?",模型在第 4 秒回復(fù) "People are working...",在第 8 秒回復(fù) "A reporter is speaking..."。

MMDuet2 的 SFT 和 RL 兩階段訓(xùn)練

MMDuet2 的訓(xùn)練分為兩個階段。在監(jiān)督微調(diào)(SFT)階段,模型基于 Qwen2.5-VL 3B 初始化,使用 52k 條主動交互對話數(shù)據(jù)進(jìn)行訓(xùn)練,并混合 25k 離線視頻 QA 和 25k 條 video captioning 數(shù)據(jù)以保持通用視頻理解能力。為了避免模型產(chǎn)生幻覺,SFT 階段我們將模型回復(fù)的時間點選為每個時間段的末尾,確保相關(guān)內(nèi)容在回復(fù)前已經(jīng)發(fā)生。整個 SFT 階段在 16 張 H800 GPU 上訓(xùn)練 8 小時。

然而,純監(jiān)督學(xué)習(xí)存在明顯的局限性:因為我們將模型回復(fù)的時間點選在了每個時間段的末尾,這導(dǎo)致模型學(xué)會了看到關(guān)鍵信息出現(xiàn)時不立刻回復(fù)相關(guān)內(nèi)容而是等這段視頻播放完了再說,這造成了一個我們并不想要的回復(fù)延遲。另外,由于 SFT 數(shù)據(jù)中模型輸出 "NO REPLY" 的頻率遠(yuǎn)高于輸出有實際意義的回復(fù)內(nèi)容的概率,這導(dǎo)致模型在測試時也更傾向于輸出 "NO REPLY"。



通過這種方式,模型能夠在無需精確時間標(biāo)注的情況下學(xué)習(xí)到最優(yōu)的回復(fù)時機(jī)。整個 RL 階段用了 1900 個視頻,在 8 張 H800 GPU 上訓(xùn)練 20 小時,最終在 ProactiveVideoQA 基準(zhǔn)上達(dá)到了 SOTA 性能。



上圖中在 ProactiveVideoQA 的 [WEB] [EGO] 子任務(wù)上的回復(fù)輪數(shù)統(tǒng)計顯示,RL 訓(xùn)練后模型的回復(fù)次數(shù)明顯提升,解決了 SFT 模型 "回復(fù)過少" 的問題。

實驗結(jié)果

主動交互 benchmark 上的 SOTA 表現(xiàn)





上圖中展示了在 StreamingBench Proactive Output 任務(wù)上的表現(xiàn),以及 ProactiveVideoQA benchmark 上的 PAUC 指標(biāo)和回復(fù)重復(fù)率。我們的 MMDuet2 模型達(dá)到最佳性能且明顯降低回復(fù)重復(fù)率。

和本工作中使用強(qiáng)化學(xué)習(xí)引導(dǎo)模型學(xué)會回復(fù)時機(jī)判斷相比,之前的主動交互模型 VideoLLM-Online 和 MMDuet 通過在每幀后預(yù)測代表回復(fù)概率的分?jǐn)?shù),并比較分?jǐn)?shù)是否大于閾值來決定是否在該幀后插入回復(fù)。他們的做法的缺點是測試時很難找到合適的閾值,從而導(dǎo)致模型總是不回復(fù)或生成大量重復(fù)回復(fù)。

保持離線視頻理解能力



在 Video-MME、MVBench、LongVideoBench 等離線基準(zhǔn)上,MMDuet2 的性能與訓(xùn)練前的原模型 Qwen2.5-VL 基本持平,說明 SFT+RL 訓(xùn)練沒有損害通用視頻理解能力。

訓(xùn)練和推理階段的幀采樣密度影響

幀采樣密度是影響主動交互體驗的關(guān)鍵因素。本文在 SFT、RL 和推理三個階段測試了不同的幀采樣間距:



  • SFT 階段:幀間距設(shè)為 1 秒時,模型會坍縮為每輪都輸出 "NO REPLY",因為訓(xùn)練數(shù)據(jù)中不回復(fù)(即輸出 "NO REPLY")的占比過高。因此后續(xù)實驗中 SFT 使用 2 秒幀間距。
  • RL 階段:不同幀間距對性能影響不大。
  • 推理階段:將幀間距從 2 秒降至 1 秒帶來顯著性能提升。原因是更高的決策頻率讓模型能更早(提前 1 秒)感知到合適的回復(fù)時機(jī),這對 PAUC 指標(biāo)(尤其是 ground truth 回復(fù)時間段很短時)和用戶體驗都更有利。

這一發(fā)現(xiàn)表明 MMDuet2 在 RL 階段對不同幀采樣策略具有良好的魯棒性,且在推理時使用更密集的幀采樣能顯著改善交互體驗。

總結(jié)與展望

MMDuet2 和 ProactiveVideoQA 共同構(gòu)建了視頻多模態(tài)模型主動交互的完整解決方案:

  • ProactiveVideoQA提出了 PAUC 評估指標(biāo),提供了測試 benchmark
  • MMDuet2通過無需精確時間標(biāo)注的 RL 方法解決了訓(xùn)練問題,構(gòu)建了訓(xùn)練數(shù)據(jù),達(dá)到了 SOTA 性能。

對多模態(tài)大模型主動交互能力的關(guān)注和探索代表了我們關(guān)注從 “用戶驅(qū)動” 到 “AI 主動” 的多模態(tài)大模型使用范式的轉(zhuǎn)變。本文主要關(guān)注通用領(lǐng)域的視頻問答和對話場景,未來我們希望通過構(gòu)建特定領(lǐng)域的訓(xùn)練數(shù)據(jù)的方式將主動交互技術(shù)擴(kuò)展到更多實際應(yīng)用場景中。

作者介紹

本工作的第一作者為北京大學(xué)王選計算機(jī)研究所博士研究生王越千,研究方向為多模態(tài)大模型,尤其是視頻對話、視頻問答、多模態(tài)強(qiáng)化學(xué)習(xí)。

導(dǎo)師為王選計算機(jī)研究所助理教授張輝帥、研究員趙東巖。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
動真格了!沙特這次是真金白銀往中國投,一點都不含糊!

動真格了!沙特這次是真金白銀往中國投,一點都不含糊!

達(dá)文西看世界
2026-03-30 14:26:12
山東女籃86-80力克新疆,帕克狂砍31分,張子宇狀態(tài)低迷僅得3分!

山東女籃86-80力克新疆,帕克狂砍31分,張子宇狀態(tài)低迷僅得3分!

老周觀體育
2026-03-30 23:38:27
北京男子靠龍蝦OpenClaw實現(xiàn)36小時買房:龍蝦迅速篩出周邊房源,2小時內(nèi)獨自對比大量中介并選定,精準(zhǔn)摸清歷史最低成交價

北京男子靠龍蝦OpenClaw實現(xiàn)36小時買房:龍蝦迅速篩出周邊房源,2小時內(nèi)獨自對比大量中介并選定,精準(zhǔn)摸清歷史最低成交價

揚(yáng)子晚報
2026-03-29 19:35:46
一場96:100讓季后賽格局重新洗牌!遼寧運(yùn)氣太好,青島坐穩(wěn)前8

一場96:100讓季后賽格局重新洗牌!遼寧運(yùn)氣太好,青島坐穩(wěn)前8

后仰大風(fēng)車
2026-03-30 06:38:16
果然!伊朗,危險了

果然!伊朗,危險了

新浪財經(jīng)
2026-03-31 00:39:20
這4個小時是“黃金睡眠時間”,錯過了很難補(bǔ)回來

這4個小時是“黃金睡眠時間”,錯過了很難補(bǔ)回來

齊魯壹點
2026-03-07 05:15:12
迪麗熱巴腳真大啊

迪麗熱巴腳真大啊

手工制作阿殲
2026-03-01 11:20:11
小姑子結(jié)婚沒邀請我參加,公婆來電:你小姑子結(jié)婚,你掏18萬買家電!

小姑子結(jié)婚沒邀請我參加,公婆來電:你小姑子結(jié)婚,你掏18萬買家電!

浮生實錄集
2025-11-04 16:35:03
30分鐘鎖定,誤差1米:伊朗二號人物是怎么被精準(zhǔn)斬首的?

30分鐘鎖定,誤差1米:伊朗二號人物是怎么被精準(zhǔn)斬首的?

蘇格拉高
2026-03-30 07:40:12
田曦薇團(tuán)隊被審判!穿抹胸直播險些勒到窒息,露半胸被封禁成笑柄

田曦薇團(tuán)隊被審判!穿抹胸直播險些勒到窒息,露半胸被封禁成笑柄

素衣讀史
2026-03-30 18:21:14
向佐曬探班老婆美照!配文:沒帶孩子過二人世界,郭碧婷好會撒嬌

向佐曬探班老婆美照!配文:沒帶孩子過二人世界,郭碧婷好會撒嬌

東方不敗然多多
2026-03-30 17:32:05
家庭倫理:樓下的夫妻

家庭倫理:樓下的夫妻

嘰里呱啦講故事
2026-03-30 21:53:12
千億市值巨頭,漲停

千億市值巨頭,漲停

新浪財經(jīng)
2026-03-30 17:08:14
美國歷史,或?qū)⒂诒局苋膶懀?>
    </a>
        <h3>
      <a href=湊近看世界
2026-03-30 10:24:47
很狗血??!年入60萬副總,出軌生女,承諾上交全部收入要原配撫養(yǎng)

很狗血??!年入60萬副總,出軌生女,承諾上交全部收入要原配撫養(yǎng)

火山詩話
2026-03-30 13:08:18
霍爾木茲海峽全面封鎖,中國船只也不能通過,海灣國家坐不住了

霍爾木茲海峽全面封鎖,中國船只也不能通過,海灣國家坐不住了

明天見灌裝冰塊
2026-03-31 04:29:15
37歲毛曉彤醫(yī)美后遺癥,前臉腫脹,嘴唇周邊小疙瘩,濃妝都遮不住

37歲毛曉彤醫(yī)美后遺癥,前臉腫脹,嘴唇周邊小疙瘩,濃妝都遮不住

白宸侃片
2026-03-02 00:52:05
《毛選》中的頂級思維,讀懂這52句話,受益一輩子!

《毛選》中的頂級思維,讀懂這52句話,受益一輩子!

詩詞天地
2026-03-30 14:09:45
蒯曼決勝局1-5落后,年輕教練于子洋緊張的站起來

蒯曼決勝局1-5落后,年輕教練于子洋緊張的站起來

林子說事
2026-03-30 17:34:33
10場23分轉(zhuǎn)正呼聲高漲,然而卡里克在曼聯(lián)的挑戰(zhàn),還遠(yuǎn)沒有停止

10場23分轉(zhuǎn)正呼聲高漲,然而卡里克在曼聯(lián)的挑戰(zhàn),還遠(yuǎn)沒有停止

里芃芃體育
2026-03-31 05:00:03
2026-03-31 05:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12640文章數(shù) 142599關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

特朗普:對伊朗襲擊以煉油廠的回應(yīng)“很快到來”

頭條要聞

特朗普:對伊朗襲擊以煉油廠的回應(yīng)“很快到來”

體育要聞

想進(jìn)世界杯,意大利還要過他這一關(guān)

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠(yuǎn)航家系列上市

態(tài)度原創(chuàng)

藝術(shù)
健康
旅游
親子
公開課

藝術(shù)要聞

這個62歲大爺厲害了!他畫的超寫實美女騙了多少人?.....

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

旅游要聞

走!去蘇州河畔新開的書香文化“大船”看看

親子要聞

杰森抱著吉他給我們唱了幾首,有個愛好生活挺豐富,聽聽唱的咋樣

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版