国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

香港浸會大學(xué)團(tuán)隊(duì)讓AI實(shí)時看懂直播視頻

0
分享至


這項(xiàng)由香港浸會大學(xué)周凱陽教授領(lǐng)導(dǎo)、聯(lián)合騰訊優(yōu)圖實(shí)驗(yàn)室共同開展的突破性研究,發(fā)表于2024年12月的計(jì)算機(jī)視覺頂級會議論文集,研究編號為arXiv:2512.21334。有興趣深入了解的讀者可以通過該編號查詢完整論文內(nèi)容。

當(dāng)你在觀看直播時,主播可能會問"現(xiàn)在屏幕上有幾個人?"或"剛才那個動作叫什么?"傳統(tǒng)的AI就像一個總是遲到的學(xué)生,必須等你把整個視頻看完才能回答問題。而這項(xiàng)研究開發(fā)的Streamo系統(tǒng),就像一個機(jī)敏的助理,能夠一邊看直播一邊實(shí)時回答各種問題,甚至預(yù)測接下來會發(fā)生什么。

傳統(tǒng)視頻AI的工作方式就像看錄像回放——必須拿到完整視頻才能分析內(nèi)容。這種"馬后炮"式的工作方式在直播、監(jiān)控、實(shí)時互動等場景中完全派不上用場。研究團(tuán)隊(duì)意識到,真正有用的視頻AI應(yīng)該像人類一樣,能夠一邊看一邊理解,一邊分析一邊響應(yīng)。

為了解決這個問題,研究團(tuán)隊(duì)創(chuàng)建了一個名為Streamo的系統(tǒng),這個系統(tǒng)的核心創(chuàng)新在于給AI裝上了"三種工作狀態(tài)的開關(guān)"。就像一個經(jīng)驗(yàn)豐富的客服代表,Streamo會根據(jù)當(dāng)前看到的內(nèi)容選擇"保持沉默"、"準(zhǔn)備回答"或"立即響應(yīng)"。當(dāng)直播中出現(xiàn)無關(guān)內(nèi)容時,它選擇靜靜觀看;當(dāng)相關(guān)事件正在發(fā)生但尚未完結(jié)時,它進(jìn)入待機(jī)狀態(tài);只有當(dāng)獲得足夠信息能夠給出完整回答時,它才會開口說話。

更令人印象深刻的是,研究團(tuán)隊(duì)還構(gòu)建了一個包含46.5萬個樣本的大規(guī)模訓(xùn)練數(shù)據(jù)集Streamo-Instruct-465K。這個數(shù)據(jù)集就像一本超級詳細(xì)的"實(shí)時互動教科書",包含了五種不同類型的任務(wù)訓(xùn)練:實(shí)時解說(像體育解說員一樣描述正在發(fā)生的事情)、事件描述(總結(jié)發(fā)生了什么重要事件)、動作識別(識別具體的行為步驟)、時間定位(準(zhǔn)確找到某個事件發(fā)生的時間段)、以及時間敏感問答(回答那些答案會隨時間變化的問題)。

Streamo的工作原理可以用"智能交通指揮員"來比喻。傳統(tǒng)AI就像只能在路口安裝固定紅綠燈的舊系統(tǒng),而Streamo像是一個能夠?qū)崟r觀察路況、靈活調(diào)整信號的智能指揮員。它會持續(xù)觀察視頻流,當(dāng)發(fā)現(xiàn)有人問"現(xiàn)在路上有幾輛車?"時,它不會等到所有車都通過路口才回答,而是實(shí)時觀察并在合適的時機(jī)給出準(zhǔn)確答案。

在數(shù)據(jù)處理方面,研究團(tuán)隊(duì)采用了一種巧妙的"多輪對話"訓(xùn)練方式。他們將長視頻切分成一秒一秒的片段,每個片段都標(biāo)記了明確的時間邊界,就像給視頻制作了詳細(xì)的時間碼表。在訓(xùn)練過程中,AI學(xué)會了在每個時間點(diǎn)判斷應(yīng)該采取什么行動:是繼續(xù)觀察、準(zhǔn)備回應(yīng),還是立即給出答案。

為了解決訓(xùn)練中的"沉默時間過多"問題,研究團(tuán)隊(duì)設(shè)計(jì)了一個智能的權(quán)重調(diào)整機(jī)制。就像調(diào)教一個過于害羞的學(xué)生,他們使用特殊的"焦點(diǎn)損失"技術(shù),讓AI更容易學(xué)會何時應(yīng)該開口說話,而不是總是選擇保持沉默。這種技術(shù)會根據(jù)每個回答的難度和出現(xiàn)頻率自動調(diào)整學(xué)習(xí)重點(diǎn),確保AI既不會話癆般無休止地說話,也不會過于沉默錯過重要的回應(yīng)時機(jī)。

研究團(tuán)隊(duì)還開發(fā)了一個專門的測試基準(zhǔn)Streamo-Bench,用來評估AI在復(fù)雜多任務(wù)場景中的表現(xiàn)。這個測試就像是給AI安排的"綜合能力考試",包含300個視頻和3000個不同類型的任務(wù)。測試內(nèi)容涵蓋了前向時間定位(根據(jù)之前的內(nèi)容預(yù)測未來事件的時間)、后向時間定位(根據(jù)后續(xù)內(nèi)容回溯之前事件的時間)、實(shí)時解說、密集描述以及時間敏感問答等多個方面。

在性能表現(xiàn)上,Streamo在各種測試中都表現(xiàn)出色。在OVO-Bench這個權(quán)威測試中,Streamo-7B模型的綜合得分達(dá)到55.61分,比之前最好的在線視頻模型高出13.83分。更有趣的是,即使用1fps訓(xùn)練的模型在2fps測試中也能工作得很好,表明這種方法具有很強(qiáng)的適應(yīng)性。

在離線視頻理解能力方面,Streamo不僅保持了原有的分析能力,還有所提升。在MVBench、TempCompass、VideoMME等標(biāo)準(zhǔn)測試中,Streamo都取得了比基礎(chǔ)模型更好的成績。這就像是一個學(xué)會了即興表演的演員,不僅沒有丟失原有的劇本表演能力,反而因?yàn)閷?shí)時反應(yīng)能力的增強(qiáng)而變得更加全面。

在技術(shù)實(shí)現(xiàn)細(xì)節(jié)上,研究團(tuán)隊(duì)采用了端到端的訓(xùn)練方式,避免了傳統(tǒng)方法中需要單獨(dú)訓(xùn)練決策模塊的復(fù)雜性。他們使用Qwen2.5-VL作為基礎(chǔ)模型,凍結(jié)視覺編碼器,只更新連接器和語言模型部分。訓(xùn)練過程使用單個epoch、512的批次大小和1e-5的學(xué)習(xí)率,每個視頻被分割成一秒鐘的片段,以1fps采樣幀率進(jìn)行處理。

研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),證明了焦點(diǎn)損失機(jī)制的重要性。在沒有狀態(tài)感知重新加權(quán)的情況下,模型性能會嚴(yán)重下降,因?yàn)轭悇e不平衡問題會導(dǎo)致模型過度傾向于預(yù)測沉默狀態(tài)。通過引入自適應(yīng)的焦點(diǎn)權(quán)重和基于頻率的alpha權(quán)重,模型能夠更好地學(xué)習(xí)何時進(jìn)行響應(yīng)。

Streamo系統(tǒng)的應(yīng)用前景廣闊。在直播領(lǐng)域,它可以為主播提供實(shí)時的內(nèi)容分析和觀眾問題回答;在監(jiān)控系統(tǒng)中,它能夠?qū)崟r識別和報告異常事件;在教育場景中,它可以為在線課程提供實(shí)時的內(nèi)容解釋和問題解答;在娛樂領(lǐng)域,它能夠?yàn)橛螒蛑辈セ蝮w育賽事提供智能解說。

與現(xiàn)有的在線視頻模型相比,Streamo的優(yōu)勢在于其統(tǒng)一的端到端設(shè)計(jì)。以往的方法通常需要一個單獨(dú)的決策模塊來判斷何時調(diào)用離線模型,這種設(shè)計(jì)不僅增加了計(jì)算開銷,還限制了系統(tǒng)的響應(yīng)靈活性。Streamo將決策制定和內(nèi)容生成融合在一個統(tǒng)一的框架中,實(shí)現(xiàn)了更高效和準(zhǔn)確的實(shí)時處理。

研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前系統(tǒng)的局限性。主要挑戰(zhàn)在于處理超長序列時的內(nèi)存和延遲成本。隨著視頻流長度的增加,系統(tǒng)需要維護(hù)的上下文信息會急劇增長,這對硬件資源提出了更高要求。未來的改進(jìn)方向包括集成KV緩存管理、視覺標(biāo)記剪枝、滑動窗口注意力機(jī)制以及自適應(yīng)幀壓縮等技術(shù),以提高訓(xùn)練和推理效率,擴(kuò)展有效上下文長度。

這項(xiàng)研究的意義不僅在于技術(shù)層面的突破,更在于它為人工智能與實(shí)時視頻內(nèi)容的交互開辟了新的可能性。它展示了如何讓AI系統(tǒng)真正理解動態(tài)變化的視覺世界,并能夠像人類一樣進(jìn)行實(shí)時的理解和響應(yīng)。隨著直播、短視頻、實(shí)時監(jiān)控等應(yīng)用場景的快速發(fā)展,這種能夠進(jìn)行實(shí)時視頻理解的AI技術(shù)將變得越來越重要。

說到底,Streamo代表了視頻AI從"被動分析"向"主動理解"的重要轉(zhuǎn)變。它不再是那個只能在電影結(jié)束后才能告訴你劇情的AI,而是能夠陪你一起看電影、實(shí)時回答你疑問的智能伙伴。這種技術(shù)進(jìn)步不僅提升了AI的實(shí)用性,也為未來更加智能和互動的數(shù)字體驗(yàn)奠定了基礎(chǔ)。對于普通用戶來說,這意味著我們很快就能享受到更加智能、響應(yīng)更及時的視頻相關(guān)服務(wù),無論是觀看直播、學(xué)習(xí)在線課程還是使用監(jiān)控系統(tǒng),都會有一個真正理解我們需求的AI助手陪伴左右。

Q&A

Q1:Streamo和傳統(tǒng)視頻AI有什么區(qū)別?

A:傳統(tǒng)視頻AI就像看錄像回放,必須等整個視頻播完才能分析內(nèi)容,而Streamo能夠一邊看直播一邊實(shí)時理解和回答問題。它有三種工作狀態(tài):保持沉默、準(zhǔn)備回答和立即響應(yīng),能夠根據(jù)視頻內(nèi)容的變化靈活調(diào)整自己的行為,就像一個機(jī)敏的助理。

Q2:Streamo-Instruct-465K數(shù)據(jù)集包含哪些內(nèi)容?

A:這是一個包含46.5萬個樣本的大規(guī)模訓(xùn)練數(shù)據(jù)集,就像一本超級詳細(xì)的實(shí)時互動教科書。它包含五種任務(wù)類型:實(shí)時解說(像體育解說員描述正在發(fā)生的事)、事件描述(總結(jié)重要事件)、動作識別(識別具體行為)、時間定位(找到事件發(fā)生時間)以及時間敏感問答(回答隨時間變化的問題)。

Q3:Streamo的實(shí)際應(yīng)用場景有哪些?

A:Streamo的應(yīng)用前景非常廣泛,包括為直播主播提供實(shí)時內(nèi)容分析,為監(jiān)控系統(tǒng)提供異常事件實(shí)時識別,為在線教育提供實(shí)時內(nèi)容解釋,為游戲直播和體育賽事提供智能解說等。它能讓AI真正參與到需要實(shí)時理解和響應(yīng)的各種視頻場景中。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
攤牌了!72歲唐國強(qiáng)終于承認(rèn)與劉曉慶的真實(shí)關(guān)系,曾志偉當(dāng)場傻眼

攤牌了!72歲唐國強(qiáng)終于承認(rèn)與劉曉慶的真實(shí)關(guān)系,曾志偉當(dāng)場傻眼

觀察鑒娛
2025-12-28 09:51:57
俄強(qiáng)力部門:烏軍第155旅士兵集體叛逃

俄強(qiáng)力部門:烏軍第155旅士兵集體叛逃

俄羅斯衛(wèi)星通訊社
2025-12-27 16:06:54
12月28日,券商給予評級并且給出目標(biāo)價的公司一覽

12月28日,券商給予評級并且給出目標(biāo)價的公司一覽

A股數(shù)據(jù)表
2025-12-28 06:55:03
從利物浦真核到安菲爾德棄將,只用了4年時間,金左腳被性格耽誤

從利物浦真核到安菲爾德棄將,只用了4年時間,金左腳被性格耽誤

足籃大世界
2025-12-28 17:47:01
蒙古煤炭停供中國,轉(zhuǎn)向日韓,正中美國下懷?不!蒙古已經(jīng)反悔了

蒙古煤炭停供中國,轉(zhuǎn)向日韓,正中美國下懷?不!蒙古已經(jīng)反悔了

混沌錄
2025-12-15 18:12:04
失業(yè)游民的戾氣越來越重了

失業(yè)游民的戾氣越來越重了

經(jīng)濟(jì)學(xué)教授V
2025-11-12 18:49:14
劉伯承曾3次擔(dān)任紅軍總參謀長,卻因?yàn)榈米锪?個人,2次被撤職

劉伯承曾3次擔(dān)任紅軍總參謀長,卻因?yàn)榈米锪?個人,2次被撤職

舊書卷里的長安
2025-12-25 21:57:38
陳道明:老了就會明白,即使優(yōu)秀孩子,也很可能不能給你帶來幸福

陳道明:老了就會明白,即使優(yōu)秀孩子,也很可能不能給你帶來幸福

扶蘇聊歷史
2025-12-27 16:46:21
熊掌“成名”記:熊身上那么多能吃的肉,為啥唯獨(dú)熊掌出了大名?

熊掌“成名”記:熊身上那么多能吃的肉,為啥唯獨(dú)熊掌出了大名?

向航說
2025-12-24 00:55:03
72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長相遭吐槽:太丑了

72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長相遭吐槽:太丑了

深析古今
2025-12-08 12:29:36
廣東一家5口墜江身亡!駕車出游闖施工地,村委曝內(nèi)情,官方通報

廣東一家5口墜江身亡!駕車出游闖施工地,村委曝內(nèi)情,官方通報

千言娛樂記
2025-12-27 18:51:39
輪船拉導(dǎo)彈!美國萬萬沒有想到東大的反擊計(jì)劃會如此極端!

輪船拉導(dǎo)彈!美國萬萬沒有想到東大的反擊計(jì)劃會如此極端!

阿龍聊軍事
2025-12-27 22:07:28
3大國家保密中成藥:中風(fēng)急救、心?祻(fù),心血管的護(hù)身符!

3大國家保密中成藥:中風(fēng)急救、心?祻(fù),心血管的護(hù)身符!

展望云霄
2025-12-25 21:39:14
對等攔截!報仇不隔夜!1000萬升走私燃料被截,背后竟是美國人?

對等攔截!報仇不隔夜!1000萬升走私燃料被截,背后竟是美國人?

現(xiàn)代小青青慕慕
2025-12-27 13:39:34
山西省司法廳原一級巡視員周濤接受審查調(diào)查

山西省司法廳原一級巡視員周濤接受審查調(diào)查

界面新聞
2025-12-28 11:31:42
女性的私處哪種形態(tài)更好?女性陰部的形狀類型有哪些?不妨來了解

女性的私處哪種形態(tài)更好?女性陰部的形狀類型有哪些?不妨來了解

醫(yī)者榮耀
2025-12-25 12:05:06
若沒有朝鮮戰(zhàn)爭,粟裕60萬大軍能拿下臺灣嗎?

若沒有朝鮮戰(zhàn)爭,粟裕60萬大軍能拿下臺灣嗎?

何氽簡史
2025-12-28 16:58:50
顧客稱在店內(nèi)飲用星巴克競品,被工作人員提醒“盡快喝完”或“套上星巴克杯套”,星巴克回應(yīng)→

顧客稱在店內(nèi)飲用星巴克競品,被工作人員提醒“盡快喝完”或“套上星巴克杯套”,星巴克回應(yīng)→

930老友記
2025-12-27 22:15:37
他們吸過毒,曾經(jīng)是“爛人”,想要個機(jī)會

他們吸過毒,曾經(jīng)是“爛人”,想要個機(jī)會

大風(fēng)新聞
2025-12-27 15:04:03
姜昆唱歌視頻拍攝者發(fā)聲,是在洛杉磯拍攝,時間是2025年12月19日

姜昆唱歌視頻拍攝者發(fā)聲,是在洛杉磯拍攝,時間是2025年12月19日

阿纂看事
2025-12-27 09:55:58
2025-12-28 21:19:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

教育
房產(chǎn)
本地
健康
公開課

教育要聞

雅思3個月提2分,因?yàn)槲覀冏鰧α诉@幾件事!

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版