国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

CVPR2026 | Streamo:讓大模型變成實(shí)時(shí)流式交互助手

0
分享至



當(dāng)視頻大模型在 MVBench、VideoMME 等離線基準(zhǔn)上越跑越高分,真實(shí)交互場(chǎng)景卻卡在兩個(gè)硬問(wèn)題:如何處理無(wú)界的視頻流、如何讓模型在動(dòng)態(tài)的視頻流中決定回答時(shí)機(jī)。

近期,香港浸會(huì)大學(xué)聯(lián)合騰訊優(yōu)圖實(shí)驗(yàn)室提出Streamo,其核心創(chuàng)新在于:將‘何時(shí)回答’變成模型要預(yù)測(cè)的 token,通過(guò)端到端訓(xùn)練框架把離線視頻模型直接轉(zhuǎn)化為實(shí)時(shí)流視頻助手。Streamo 能夠處理真實(shí)場(chǎng)景的視頻流,支持實(shí)時(shí)的多指令交互,實(shí)現(xiàn)實(shí)時(shí)解說(shuō)、動(dòng)作理解、事件定位、實(shí)時(shí)問(wèn)答等不同任務(wù),讓 streaming video assistant 真正走向可用。



  • 論文標(biāo)題:Streaming Video Instruction Tuning
  • 論文主頁(yè):https://jiaerxia.github.io/Streamo/
  • 論文鏈接:https://github.com/maifoundations/Streamo

1. 問(wèn)題分析

為什么視頻大模型目前還無(wú)法成為一個(gè)實(shí)時(shí)的交互助手?雖然視頻大語(yǔ)言模型近年來(lái)取得了令人矚目的進(jìn)展 ——Qwen2-VL、LLaVA-Video 等模型在視頻理解、問(wèn)答、描述等任務(wù)上屢創(chuàng)新高。然而,關(guān)鍵的卡點(diǎn)在于這些模型是基于完整視頻片段的離線場(chǎng)景設(shè)計(jì)的,而真實(shí)世界的交互需求往往是 "邊看邊說(shuō)" 的實(shí)時(shí)流式場(chǎng)景。

離線視頻理解范式假設(shè)在推理前可以獲取完整視頻,模型由此能在全局審視后再輸出答案,因此在視頻描述、視頻問(wèn)答等任務(wù)中表現(xiàn)突出。然而,真實(shí)世界的流式場(chǎng)景并不滿足這一前提。

視頻流本質(zhì)上是無(wú)界的,模型無(wú)法 “看到未來(lái)”,只能基于當(dāng)前幀及時(shí)做出判斷;又因?qū)崟r(shí)性要求,不能等視頻播放結(jié)束才給出結(jié)果,必須在關(guān)鍵事件發(fā)生的當(dāng)下響應(yīng)。同時(shí),用戶指令可能隨時(shí)到來(lái),模型需要持續(xù)監(jiān)聽(tīng)并在合適的時(shí)機(jī)觸發(fā)響應(yīng)。更復(fù)雜的是,不同應(yīng)用對(duì)響應(yīng)粒度的要求并不一致:有的任務(wù)需要幀級(jí)的即時(shí)敘述,有的則更適合在完整事件結(jié)束后再做總結(jié)與描述。

現(xiàn)有方法通常通過(guò)拆分決策模塊來(lái)適配流式場(chǎng)景:先由一個(gè)模塊判斷 “是否應(yīng)該響應(yīng)”,再調(diào)用離線模型生成內(nèi)容。但這種方案存在明顯缺陷:決策模塊如果過(guò)于輕量,就難以理解復(fù)雜指令和跨時(shí)間的上下文依賴;如果設(shè)計(jì)得過(guò)于龐大,又會(huì)拉高推理延遲,削弱流式交互所需的實(shí)時(shí)性。更關(guān)鍵的是,決策與生成彼此分離,使模型很難在持續(xù)變化的輸入中形成連貫、及時(shí)的響應(yīng)。

Streamo 的核心洞察在于:決策與生成不應(yīng)被拆開(kāi),而應(yīng)統(tǒng)一到同一個(gè)端到端框架中,讓模型直接學(xué)會(huì)“什么時(shí)候該說(shuō)話,以及該說(shuō)什么”。

2. Streamo:

端到端的決策響應(yīng)統(tǒng)一架構(gòu)





通過(guò)這種方式,Streamo 將“是否響應(yīng)”與“生成什么內(nèi)容”統(tǒng)一到同一個(gè) next-token prediction 過(guò)程中。也就是說(shuō),模型在預(yù)測(cè)下一個(gè) token 時(shí),不再只是生成文本內(nèi)容,同時(shí)也在完成響應(yīng)時(shí)機(jī)的判斷。這樣一來(lái),決策和生成共享同一語(yǔ)義空間,模型能夠在連續(xù)變化的視頻內(nèi)容中聯(lián)合建模時(shí)序線索、任務(wù)目標(biāo)與語(yǔ)言輸出,從而更自然地學(xué)習(xí) “何時(shí)該立即回應(yīng)、何時(shí)應(yīng)繼續(xù)等待”。

同時(shí),這一設(shè)計(jì)并不需要額外引入獨(dú)立的決策頭或外部控制器,而是直接將三種狀態(tài) token 融入標(biāo)準(zhǔn)的自回歸訓(xùn)練框架中。這樣既保留了與現(xiàn)有監(jiān)督微調(diào)范式的兼容性,也使訓(xùn)練和推理流程更加簡(jiǎn)潔高效,便于直接復(fù)用現(xiàn)有基礎(chǔ)設(shè)施進(jìn)行并行訓(xùn)練和部署。

3. Streamo-Instruct-465K

訓(xùn)練流式助手的核心挑戰(zhàn)在于:不同任務(wù)對(duì)應(yīng)不同的響應(yīng)節(jié)奏—— 有的需要秒級(jí)實(shí)時(shí)輸出,有的則應(yīng)等待事件結(jié)束后再總結(jié)。這意味著訓(xùn)練數(shù)據(jù)不僅要提供內(nèi)容監(jiān)督,還要給出清晰、一致的時(shí)間邊界,告訴模型什么時(shí)候該沉默、什么時(shí)候該等待、什么時(shí)候該回答。

為此,研究者構(gòu)建了Streamo-Instruct-465K。該數(shù)據(jù)集包含約 46.5 萬(wàn)條指令樣本,來(lái)源于 135,875 段視頻,整合了 ActivityNet、YouCook2、QVHighlight 等多個(gè)公開(kāi)數(shù)據(jù)源,并在統(tǒng)一協(xié)議下重新標(biāo)注。標(biāo)注過(guò)程采用多階段自動(dòng)化流程,結(jié)合 Qwen2.5-VL-72B、GLM-4.5 等大模型生成候選描述,再通過(guò)一致性過(guò)濾與后處理,盡可能保證時(shí)間邊界準(zhǔn)確、文本表達(dá)連貫。

在任務(wù)設(shè)置上,Streamo-Instruct-465K 具有多任務(wù)、多粒度的特點(diǎn)。同一段視頻可以被標(biāo)注為不同形式的流式任務(wù),包括實(shí)時(shí)旁白(Real-time Narration)、事件字幕(Event Caption)、動(dòng)作字幕(Action Caption)、事件時(shí)序定位(Event Grounding)以及時(shí)變問(wèn)答(Time-sensitive QA)。這些任務(wù)覆蓋了從連續(xù)解說(shuō)到事件總結(jié)、從動(dòng)作級(jí)描述到在線定位和動(dòng)態(tài)問(wèn)答等不同場(chǎng)景。

更重要的是,所有任務(wù)都被統(tǒng)一到同一種時(shí)間監(jiān)督框架中:每一輪標(biāo)注不僅包含文本輸出,還明確對(duì)應(yīng)模型當(dāng)下應(yīng)處于沉默、等待還是回答狀態(tài)。這樣一來(lái),模型學(xué)習(xí)的就不只是 “說(shuō)什么”,還包括 “何時(shí)說(shuō)”,從而具備適應(yīng)不同流式任務(wù)的響應(yīng)能力。

多任務(wù)數(shù)據(jù)標(biāo)注演示:

對(duì)于同一段視頻,標(biāo)注可以隨任務(wù)目標(biāo)呈現(xiàn)不同形式:在實(shí)時(shí)旁白中,模型需要跟隨畫(huà)面持續(xù)輸出;在事件字幕中,則只在關(guān)鍵事件結(jié)束后給出總結(jié);在時(shí)變問(wèn)答中,答案會(huì)隨著視頻進(jìn)展不斷更新。對(duì)應(yīng)地,每個(gè)時(shí)間點(diǎn)都會(huì)標(biāo)注模型應(yīng)保持沉默、繼續(xù)等待,還是立即響應(yīng)。

4. 實(shí)驗(yàn)結(jié)果

在 OVO-Bench 上,Streamo-7B (2fps) 以57.86%的平均性能超越 Dispider13.83個(gè)百分點(diǎn)。在三大能力維度上全面領(lǐng)先:實(shí)時(shí)感知能力達(dá)到67.44%(相對(duì) Dispider 的 54.55% 提升+12.89%);回溯追蹤能力達(dá)到49.18%(相對(duì) Dispider 的 36.06% 提升+13.12%);前向響應(yīng)能力達(dá)到56.96%(相對(duì) Dispider 的 34.72% 提升+22.24%)。同時(shí),Streamo 在1fps 訓(xùn)練的模型可直接在 2fps 下評(píng)估,性能提升4.66%, 展現(xiàn)出強(qiáng)大的泛化能力。



Streamo-Instruct vs 現(xiàn)有數(shù)據(jù)

Streamo 的性能提升不僅來(lái)自訓(xùn)練框架,也高度依賴于高質(zhì)量的訓(xùn)練數(shù)據(jù)。與廣泛使用的 ET-Instruct-164K 相比,Streamo-Instruct在 OVO-Bench 上的整體性能提升了11.79%,在關(guān)鍵的前向主動(dòng)響應(yīng)任務(wù)上提升了7.1%,并且避免了混合離線數(shù)據(jù)(如 LLaVA-Video)所帶來(lái)的 “在線能力退化” 問(wèn)題。

實(shí)驗(yàn)進(jìn)一步揭示了一個(gè)重要現(xiàn)象:直接混合離線數(shù)據(jù)可能會(huì)削弱模型的在線能力。例如,ET-Instruct 與 LLaVA-Video 結(jié)合后,雖然實(shí)時(shí)感知能力有所提升,但前向響應(yīng)表現(xiàn)反而下降。這表明,離線監(jiān)督范式與流式學(xué)習(xí)目標(biāo)之間存在一定沖突。相比之下,Streamo-Instruct 通過(guò)專門(mén)設(shè)計(jì)的流式標(biāo)注與統(tǒng)一的時(shí)間監(jiān)督,有效避免了這一問(wèn)題。

5. 結(jié)論

實(shí)現(xiàn)真正的實(shí)時(shí)多模態(tài)助手(直播理解、智能駕駛提醒、安防巡檢、運(yùn)動(dòng)教學(xué)等),最難的往往不是 "答對(duì)",而是在合適的時(shí)間點(diǎn)做合適的輸出。Streamo 不僅解決了當(dāng)前視頻大模型的關(guān)鍵瓶頸,提供了一個(gè)可復(fù)用的技術(shù)路線來(lái)將靜態(tài)感知模型轉(zhuǎn)換為動(dòng)態(tài)交互智能體,同時(shí)提供了一個(gè)統(tǒng)一時(shí)間標(biāo)注的大規(guī)模流視頻指令數(shù)據(jù),推動(dòng)流視頻理解的發(fā)展。

6. Demo


https://mp.weixin.qq.com/s/Q28azqwk-PtsXoep2i0_0Q

該 demo 展示了流視頻模型在連續(xù)視頻輸入下的實(shí)時(shí)理解與響應(yīng)能力。模型能夠隨畫(huà)面進(jìn)展動(dòng)態(tài)決定何時(shí)沉默、何時(shí)等待、何時(shí)回答,在保證時(shí)效性的同時(shí)提升響應(yīng)的準(zhǔn)確性與連貫性。對(duì)于尚無(wú)明確答案的問(wèn)題,模型會(huì)等待更多信息后再作答;對(duì)于答案隨時(shí)間變化的問(wèn)題,模型能夠持續(xù)更新輸出;同時(shí),它還支持基于歷史視頻內(nèi)容的回溯式問(wèn)答。

作者介紹:

本文第一作者為香港浸會(huì)大學(xué)計(jì)算機(jī)系博士生夏佳爾,主要研究方向?yàn)槎嗄B(tài)大模型,包括多模態(tài)思考,流視頻理解與交互,以第一作者在CVPR,ICCV,AAAI等頂級(jí)會(huì)議發(fā)表多篇文章。導(dǎo)師為香港浸會(huì)大學(xué)計(jì)算機(jī)系周鍇陽(yáng)助理教授。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
過(guò)分!一大V諷刺張雪峰:稱少一個(gè)鼓吹戰(zhàn)爭(zhēng)的瘋子,對(duì)世界更美好

過(guò)分!一大V諷刺張雪峰:稱少一個(gè)鼓吹戰(zhàn)爭(zhēng)的瘋子,對(duì)世界更美好

談史論天地
2026-03-26 07:56:52
電動(dòng)車(chē)逆行被撞身亡,家屬索賠120萬(wàn),法院判司機(jī)擔(dān)責(zé)40%引熱議!

電動(dòng)車(chē)逆行被撞身亡,家屬索賠120萬(wàn),法院判司機(jī)擔(dān)責(zé)40%引熱議!

漁夫說(shuō)事
2026-03-25 16:35:06
“史詩(shī)狂怒”行動(dòng)印證美軍A-10攻擊機(jī)無(wú)可替代的近距空中支援作用

“史詩(shī)狂怒”行動(dòng)印證美軍A-10攻擊機(jī)無(wú)可替代的近距空中支援作用

假如明天來(lái)臨
2026-03-23 12:10:03
歐爾班的好日子到頭了

歐爾班的好日子到頭了

民間胡扯老哥
2026-03-25 05:22:48
加時(shí)崩盤(pán)!火箭108-110森林狼,本場(chǎng)誰(shuí)是罪魁禍?zhǔn)?,?shù)據(jù)不會(huì)說(shuō)謊

加時(shí)崩盤(pán)!火箭108-110森林狼,本場(chǎng)誰(shuí)是罪魁禍?zhǔn)?,?shù)據(jù)不會(huì)說(shuō)謊

小徐講八卦
2026-03-26 12:55:53
英超2強(qiáng)爭(zhēng)冠前景!阿森納7場(chǎng)2敗或丟冠,曼城拿滿24分有望翻盤(pán)

英超2強(qiáng)爭(zhēng)冠前景!阿森納7場(chǎng)2敗或丟冠,曼城拿滿24分有望翻盤(pán)

體育知多少
2026-03-26 09:54:16
美軍稱林肯號(hào)航母繼續(xù)對(duì)伊朗作戰(zhàn)

美軍稱林肯號(hào)航母繼續(xù)對(duì)伊朗作戰(zhàn)

界面新聞
2026-03-26 10:03:25
未提車(chē)就變“老款”,問(wèn)界M7“背刺”車(chē)主!律師:可能構(gòu)成欺詐

未提車(chē)就變“老款”,問(wèn)界M7“背刺”車(chē)主!律師:可能構(gòu)成欺詐

北京商報(bào)
2026-03-25 19:00:22
俄羅斯宣傳三天攻占愛(ài)沙尼亞!炮制公投,又是特別軍事行動(dòng)?

俄羅斯宣傳三天攻占愛(ài)沙尼亞!炮制公投,又是特別軍事行動(dòng)?

項(xiàng)鵬飛
2026-03-24 20:28:43
“上海實(shí)體交通卡,為啥退不了?”73歲老伯來(lái)滬遭遇引發(fā)質(zhì)疑,記者調(diào)查:確實(shí)難

“上海實(shí)體交通卡,為啥退不了?”73歲老伯來(lái)滬遭遇引發(fā)質(zhì)疑,記者調(diào)查:確實(shí)難

新民晚報(bào)
2026-03-25 18:45:33
心眼壞的人,最愛(ài)問(wèn)這3件事,別傻乎乎全說(shuō)!

心眼壞的人,最愛(ài)問(wèn)這3件事,別傻乎乎全說(shuō)!

唯晨說(shuō)
2026-03-25 13:12:14
普京開(kāi)會(huì)親口承認(rèn)了殘酷現(xiàn)實(shí),俄羅斯已遭到了戰(zhàn)爭(zhēng)的反噬

普京開(kāi)會(huì)親口承認(rèn)了殘酷現(xiàn)實(shí),俄羅斯已遭到了戰(zhàn)爭(zhēng)的反噬

泠泠說(shuō)史
2026-03-25 19:57:28
廣東宏遠(yuǎn)今日早報(bào)!杜鋒深夜發(fā)聲,陳家政效仿徐昕,徐杰狀態(tài)回升

廣東宏遠(yuǎn)今日早報(bào)!杜鋒深夜發(fā)聲,陳家政效仿徐昕,徐杰狀態(tài)回升

多特體育說(shuō)
2026-03-26 10:17:08
心跳成為“勝負(fù)手”:從張雪峰猝然離世看網(wǎng)球運(yùn)動(dòng)員的心臟之殤

心跳成為“勝負(fù)手”:從張雪峰猝然離世看網(wǎng)球運(yùn)動(dòng)員的心臟之殤

網(wǎng)球之家
2026-03-25 23:38:54
大勝!杜蘭特25+6,謝潑德首發(fā)14+4,烏度卡清醒了,火箭解決頑疾

大勝!杜蘭特25+6,謝潑德首發(fā)14+4,烏度卡清醒了,火箭解決頑疾

巴叔GO聊體育
2026-03-26 11:25:52
基辛格坦言:如果爆發(fā)核戰(zhàn)爭(zhēng),中國(guó)可能只有5個(gè)地方可以躲避危險(xiǎn)

基辛格坦言:如果爆發(fā)核戰(zhàn)爭(zhēng),中國(guó)可能只有5個(gè)地方可以躲避危險(xiǎn)

鶴羽說(shuō)個(gè)事
2026-03-25 22:21:29
原來(lái)他們是夫妻,《冬去春來(lái)》他中年大火,與妻因戲生情恩愛(ài)17年

原來(lái)他們是夫妻,《冬去春來(lái)》他中年大火,與妻因戲生情恩愛(ài)17年

攬星河的筆記
2026-03-25 19:31:09
伊媒:伊朗若遭美國(guó)地面入侵將打擊曼德海峽

伊媒:伊朗若遭美國(guó)地面入侵將打擊曼德海峽

參考消息
2026-03-26 11:02:08
加時(shí)被轟15-0!火箭臉都不要了!杜蘭特致命罰丟,申京空砍30+6+3

加時(shí)被轟15-0!火箭臉都不要了!杜蘭特致命罰丟,申京空砍30+6+3

Tracy的籃球博物館
2026-03-26 12:44:12
人社部明確:事業(yè)編制改革啟動(dòng),3100萬(wàn)人的“鐵飯碗”要變了

人社部明確:事業(yè)編制改革啟動(dòng),3100萬(wàn)人的“鐵飯碗”要變了

慧眼看世界哈哈
2026-03-24 06:36:05
2026-03-26 13:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12601文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

伊朗議長(zhǎng)和外長(zhǎng)暫被移出美以清除名單 時(shí)限4到5天

頭條要聞

伊朗議長(zhǎng)和外長(zhǎng)暫被移出美以清除名單 時(shí)限4到5天

體育要聞

35歲替補(bǔ)門(mén)將,憑什么入選英格蘭隊(duì)?

娛樂(lè)要聞

張雪峰家人首發(fā)聲 不設(shè)追思會(huì)喪事從簡(jiǎn)

財(cái)經(jīng)要聞

黃仁勛:芯片公司的時(shí)代已經(jīng)結(jié)束了

汽車(chē)要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
旅游
手機(jī)
親子

房產(chǎn)要聞

質(zhì)價(jià)比標(biāo)桿!三亞首創(chuàng)浮島全景艙亮相,還得是萬(wàn)科!

藝術(shù)要聞

哪一座橋不是風(fēng)景?

旅游要聞

人不算多風(fēng)景極美 清明假期去這7座寶藏小城

手機(jī)要聞

華為全面回歸官宣!產(chǎn)品全覆蓋、麒麟全搭載,國(guó)產(chǎn)手機(jī)重回巔峰

親子要聞

躺平的孩子意外覺(jué)醒了,在父母學(xué)會(huì)當(dāng)“烏龜”!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版