国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

香港科技大學(xué)突破性研究:讓AI像指揮樂團(tuán)一樣看懂長視頻

0
分享至


這項由香港科技大學(xué)劉潤濤、劉子藝、唐嘉琦、馬悅、皮仁杰、張季鵬和陳啟峰等研究團(tuán)隊共同完成的研究于2025年12月發(fā)表在arXiv預(yù)印本平臺上,論文編號為arXiv:2512.20618v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

當(dāng)我們坐在電視機(jī)前觀看一部兩小時的電影時,我們的大腦能夠輕松地跟蹤情節(jié)發(fā)展,記住重要角色,理解復(fù)雜的對話關(guān)系。然而,對于人工智能來說,理解這樣一段長視頻卻是一個極其困難的挑戰(zhàn)。傳統(tǒng)的AI系統(tǒng)就像一個只能看到幾秒鐘片段的近視眼,很難把握整個故事的來龍去脈。

香港科技大學(xué)的研究團(tuán)隊提出了一個革命性的解決方案:讓AI像一個經(jīng)驗豐富的樂團(tuán)指揮一樣工作。在一個交響樂團(tuán)中,指揮不需要親自演奏每一種樂器,而是協(xié)調(diào)不同的專業(yè)音樂家,讓小提琴手專注于旋律,讓打擊樂手負(fù)責(zé)節(jié)拍,最終將所有聲音融合成一首完美的交響樂。研究團(tuán)隊設(shè)計的LongVideoAgent系統(tǒng)正是采用了這種"多專家協(xié)作"的理念。

這個系統(tǒng)的核心是一個主控AI,就像樂團(tuán)指揮一樣,它不直接處理視頻畫面,而是指揮兩個專業(yè)助手。第一個助手叫做"定位專家",它的工作就像電影剪輯師一樣,能夠快速瀏覽整部電影,找到與問題相關(guān)的關(guān)鍵片段。第二個助手是"視覺專家",它就像一個細(xì)心的觀察者,能夠仔細(xì)分析被選中的片段,描述其中的人物、物品、動作和場景細(xì)節(jié)。

研究團(tuán)隊還為這個主控AI設(shè)計了一套特殊的訓(xùn)練方法,類似于教練訓(xùn)練運動員的過程。通過反復(fù)練習(xí)和反饋,這個AI學(xué)會了何時需要尋找新的視頻片段,何時需要仔細(xì)觀察當(dāng)前片段的細(xì)節(jié),以及何時已經(jīng)收集到足夠信息可以回答問題。這種訓(xùn)練方法被稱為強(qiáng)化學(xué)習(xí),就像通過獎勵和懲罰來教會小朋友如何更好地完成任務(wù)。

為了驗證這個系統(tǒng)的效果,研究團(tuán)隊構(gòu)建了兩個新的測試數(shù)據(jù)集,叫做LongTVQA和LongTVQA+。這些數(shù)據(jù)集基于知名的電視問答數(shù)據(jù)集TVQA構(gòu)建,但將原本只有60-90秒的短片段擴(kuò)展為完整的電視劇集,時長可達(dá)一小時以上。就好比原來的測試只要求AI理解一個短故事片段,現(xiàn)在要求它理解整部小說的情節(jié)發(fā)展。

在這些具有挑戰(zhàn)性的測試中,LongVideoAgent系統(tǒng)展現(xiàn)出了令人矚目的性能。與傳統(tǒng)的單一AI模型相比,這個多專家協(xié)作系統(tǒng)在回答準(zhǔn)確率上實現(xiàn)了顯著提升。特別是當(dāng)配合強(qiáng)化學(xué)習(xí)訓(xùn)練后,一些較小的開源AI模型甚至能夠達(dá)到與大型商業(yè)AI模型相當(dāng)?shù)男阅芩健?/p>

研究團(tuán)隊通過詳細(xì)的對比實驗發(fā)現(xiàn)了幾個重要規(guī)律。首先,定位專家的作用至關(guān)重要,它能夠幫助系統(tǒng)從海量視頻內(nèi)容中快速鎖定相關(guān)片段,避免被無關(guān)信息干擾。就像在圖書館查找資料時,一個好的索引系統(tǒng)能夠讓你快速找到相關(guān)章節(jié),而不需要從頭到尾翻閱整本書。

其次,視覺專家提供的詳細(xì)觀察補充了字幕信息的不足。電視劇的字幕雖然記錄了對話內(nèi)容,但往往遺漏了重要的視覺信息,比如人物的表情、動作、場景布置等。視覺專家就像一個敏銳的觀眾,能夠捕捉到這些微妙但重要的細(xì)節(jié)。

研究還發(fā)現(xiàn),給主控AI設(shè)定適當(dāng)?shù)男袆硬綌?shù)限制很重要。太少的步數(shù)會讓系統(tǒng)來不及收集足夠信息,太多的步數(shù)則會導(dǎo)致效率低下。通過實驗,研究團(tuán)隊發(fā)現(xiàn)5個行動步驟是一個比較理想的平衡點。

另一個有趣的發(fā)現(xiàn)是,擴(kuò)大視覺專家觀察的時間窗口能夠顯著提高系統(tǒng)性能。當(dāng)視覺專家不僅觀察當(dāng)前片段,還關(guān)注前后相鄰片段時,系統(tǒng)對跨場景信息的理解能力大大增強(qiáng)。這就像看電影時,理解當(dāng)前場景往往需要結(jié)合前后情節(jié)的背景信息。

在視覺專家的選擇上,研究團(tuán)隊比較了不同AI模型的效果,發(fā)現(xiàn)更強(qiáng)大的視覺識別模型確實能帶來更好的整體性能。這印證了"專家質(zhì)量決定協(xié)作效果"的樸素道理。

研究團(tuán)隊還展示了一些生動的案例來說明系統(tǒng)的工作過程。比如,當(dāng)面對"謝爾頓坐在床的哪一邊更靠近窗戶"這樣的問題時,系統(tǒng)首先會讓定位專家找到相關(guān)的臥室場景,然后讓視覺專家仔細(xì)觀察床和窗戶的位置關(guān)系,最終準(zhǔn)確回答"左邊"。整個過程就像一個偵探破案,先鎖定證據(jù)位置,再仔細(xì)分析證據(jù)細(xì)節(jié)。

這項研究的意義遠(yuǎn)不止于技術(shù)突破本身。在實際應(yīng)用中,這種長視頻理解能力可以幫助我們更好地分析監(jiān)控錄像、整理視頻資料、制作視頻摘要,甚至協(xié)助影視制作和教育培訓(xùn)。比如,它可以幫助老師從長時間的課程錄像中快速找到特定知識點,或者幫助研究人員從大量實驗視頻中提取關(guān)鍵信息。

當(dāng)然,這項研究也存在一些局限性。目前系統(tǒng)主要依賴提供的字幕信息作為文本輸入,還沒有集成語音識別功能來處理原始音頻。此外,在訓(xùn)練過程中,只有主控AI接受了優(yōu)化,而兩個專家助手保持固定不變。研究團(tuán)隊認(rèn)為,如果能夠同時優(yōu)化所有組件,系統(tǒng)性能可能會進(jìn)一步提升。

從技術(shù)發(fā)展的角度看,這項研究代表了AI系統(tǒng)設(shè)計思路的重要轉(zhuǎn)變。傳統(tǒng)方法試圖讓單一AI模型處理所有任務(wù),就像要求一個人同時成為所有領(lǐng)域的專家。而這項研究提出的多專家協(xié)作模式,則更像現(xiàn)實世界中的團(tuán)隊合作,每個成員發(fā)揮自己的專長,通過有效協(xié)調(diào)實現(xiàn)整體目標(biāo)。

說到底,這項研究為我們展示了一種更加智能和高效的視頻理解方案。通過將復(fù)雜任務(wù)分解為多個專業(yè)子任務(wù),并設(shè)計合理的協(xié)調(diào)機(jī)制,AI系統(tǒng)能夠更好地處理長時間、大容量的視頻內(nèi)容。這不僅推動了人工智能技術(shù)的發(fā)展,也為未來的多媒體應(yīng)用開辟了新的可能性。對于普通人來說,這意味著我們將擁有更智能的視頻助手,能夠幫助我們更好地理解、分析和利用視頻信息。

有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過論文編號arXiv:2512.20618v1查詢完整研究報告,其中包含了詳細(xì)的實驗數(shù)據(jù)、算法描述和案例分析。

Q&A

Q1:LongVideoAgent系統(tǒng)是怎么工作的?

A:LongVideoAgent系統(tǒng)采用三個AI協(xié)作的方式工作。主控AI像樂團(tuán)指揮一樣協(xié)調(diào)兩個專家助手:定位專家負(fù)責(zé)從長視頻中找到相關(guān)片段,視覺專家負(fù)責(zé)分析片段中的細(xì)節(jié)內(nèi)容。主控AI根據(jù)問題需要,決定何時調(diào)用哪個專家,最終整合信息給出答案。

Q2:這個系統(tǒng)比傳統(tǒng)AI視頻理解有什么優(yōu)勢?

A:傳統(tǒng)AI系統(tǒng)通常將整個長視頻壓縮處理,容易丟失重要信息。而LongVideoAgent系統(tǒng)能夠精確定位相關(guān)片段,然后進(jìn)行詳細(xì)分析,就像用放大鏡仔細(xì)觀察而不是粗略瀏覽。實驗顯示,這種方法在長視頻問答任務(wù)中的準(zhǔn)確率顯著高于傳統(tǒng)方法。

Q3:這項技術(shù)可以應(yīng)用在哪些實際場景中?

A:這項技術(shù)可以廣泛應(yīng)用于監(jiān)控錄像分析、視頻資料整理、教育課程檢索、影視制作輔助等領(lǐng)域。比如幫助老師從長時間課程錄像中快速找到特定知識點,或者協(xié)助研究人員從實驗視頻中提取關(guān)鍵信息,大大提高視頻內(nèi)容理解和利用的效率。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“第三次世界大戰(zhàn)”導(dǎo)火索?如果中國攔截售臺武器,會發(fā)生什么?

“第三次世界大戰(zhàn)”導(dǎo)火索?如果中國攔截售臺武器,會發(fā)生什么?

扶蘇聊歷史
2025-12-27 10:30:21
俄羅斯運輸核反應(yīng)堆船只被擊沉,烏克蘭笑了

俄羅斯運輸核反應(yīng)堆船只被擊沉,烏克蘭笑了

史政先鋒
2025-12-31 21:38:56
下月起,看病開藥新規(guī)!6類藥超7天全自費,慢病一次開3個月

下月起,看病開藥新規(guī)!6類藥超7天全自費,慢病一次開3個月

蜉蝣說
2025-12-30 11:59:54
龐家后人硬剛新華社!七條質(zhì)疑炸鍋,香港媒體敢報的真相太炸裂

龐家后人硬剛新華社!七條質(zhì)疑炸鍋,香港媒體敢報的真相太炸裂

滄海一書客
2025-12-25 19:27:44
剛剛!濱江道、世紀(jì)鐘、解放橋跨年夜震撼一幕···

剛剛!濱江道、世紀(jì)鐘、解放橋跨年夜震撼一幕···

天津人
2025-12-31 22:59:53
攤牌了!徐帆回應(yīng)婚變傳聞才4個月左右 ,馮小剛就連演都懶得演了

攤牌了!徐帆回應(yīng)婚變傳聞才4個月左右 ,馮小剛就連演都懶得演了

阿廢冷眼觀察所
2025-12-10 06:53:04
孔令輝現(xiàn)身!乒乓王子如今的樣子變化巨大,國乒教練組競聘已結(jié)束

孔令輝現(xiàn)身!乒乓王子如今的樣子變化巨大,國乒教練組競聘已結(jié)束

三十年萊斯特城球迷
2025-12-31 22:34:39
浙江足協(xié)官方:寧波職業(yè)足球俱樂部成立,新賽季亮相中甲

浙江足協(xié)官方:寧波職業(yè)足球俱樂部成立,新賽季亮相中甲

懂球帝
2025-12-31 14:41:11
李川跟錘娜麗莎求婚成功!搞笑女終于遇到了同頻共振的那個人

李川跟錘娜麗莎求婚成功!搞笑女終于遇到了同頻共振的那個人

璀璨幻行者
2026-01-01 01:51:57
隨著快船5連勝原地杵,湖人慘敗東部第一,西部最新排名!

隨著快船5連勝原地杵,湖人慘敗東部第一,西部最新排名!

止境
2026-01-01 00:43:43
李在明動身訪華前,先給了中國一記下馬威,高市早苗卻笑不出來?

李在明動身訪華前,先給了中國一記下馬威,高市早苗卻笑不出來?

策前論
2025-12-31 18:05:08
美媒評各隊2025年最后悔決策:開拓者選瀚森在列 失誤比助攻還多

美媒評各隊2025年最后悔決策:開拓者選瀚森在列 失誤比助攻還多

羅說NBA
2025-12-31 21:38:12
姜昆風(fēng)波持續(xù)發(fā)酵,洛杉磯鄰居紛紛出面,更多偶遇照又被扒出啦

姜昆風(fēng)波持續(xù)發(fā)酵,洛杉磯鄰居紛紛出面,更多偶遇照又被扒出啦

振華觀史
2025-12-31 09:33:49
洛克希德·馬丁生產(chǎn)線停了,是中國凍結(jié)了他們在華的全部資產(chǎn)。

洛克希德·馬丁生產(chǎn)線停了,是中國凍結(jié)了他們在華的全部資產(chǎn)。

百態(tài)人間
2025-12-31 16:18:36
36歲男明星曬南極旅游!天天吃泡面,吐槽企鵝屎臭,網(wǎng)友:祛魅了

36歲男明星曬南極旅游!天天吃泡面,吐槽企鵝屎臭,網(wǎng)友:祛魅了

瓜汁橘長Dr
2025-12-29 17:52:06
在剛剛,28家公司發(fā)布重大利好利空消息,看看都有哪些個股受影響

在剛剛,28家公司發(fā)布重大利好利空消息,看看都有哪些個股受影響

股市皆大事
2025-12-31 20:52:15
回國后我才敢說:越南是我去過的所有國家中,最被低估的

回國后我才敢說:越南是我去過的所有國家中,最被低估的

阿纂看事
2025-12-29 09:43:52
被處決毒梟要水喝,3停5口是17年前教的暗號:我是臥底,有內(nèi)鬼!

被處決毒梟要水喝,3停5口是17年前教的暗號:我是臥底,有內(nèi)鬼!

星宇共鳴
2025-12-29 09:56:33
洗浴中心成跨年熱門目的地,KTV一房難求,長沙進(jìn)入全國休閑玩樂交易規(guī)模前十城市

洗浴中心成跨年熱門目的地,KTV一房難求,長沙進(jìn)入全國休閑玩樂交易規(guī)模前十城市

瀟湘晨報
2025-12-31 20:38:14
這4個器官“用得勤”的人,更長壽

這4個器官“用得勤”的人,更長壽

大象新聞
2025-05-20 19:23:04
2026-01-01 03:03:00
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。
895文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

日企代表團(tuán)推遲原定訪華行程 外交部回應(yīng)

頭條要聞

日企代表團(tuán)推遲原定訪華行程 外交部回應(yīng)

體育要聞

布基納法索2-0蘇丹,拉西納-特拉奧雷破門,阿爾塞納-夸西鎖定勝局

娛樂要聞

官宣才兩天就翻車?七七被連環(huán)爆料

財經(jīng)要聞

高培勇:分配制度改革是提振消費的抓手

汽車要聞

凱迪拉克純電中型SUV 售價不足24萬/33寸曲面屏

態(tài)度原創(chuàng)

本地
游戲
數(shù)碼
家居
公開課

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠(yuǎn)

Epic下周免費游戲曝光!經(jīng)典塔防Steam特別好評

數(shù)碼要聞

三星將在CES 2026發(fā)布廚房家電陣容,首次將谷歌Gemini塞進(jìn)冰箱

家居要聞

無形有行 自然與靈感詩意

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版