国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當(dāng)AI學(xué)會看電影:復(fù)旦大學(xué)團隊如何教會機器理解"動作"語言

0
分享至


這項由復(fù)旦大學(xué)丁恒輝、劉暢、何舒婷、應(yīng)凱寧等研究者與新加坡南洋理工大學(xué)、上海財經(jīng)大學(xué)合作完成的突破性研究,于2025年發(fā)表在IEEE模式分析與機器智能匯刊(IEEE TPAMI)上。對于想要深入了解技術(shù)細節(jié)的讀者,可以通過論文編號arXiv:2512.10945v1查詢完整論文。這項研究首次構(gòu)建了專門針對動作表達的大規(guī)模視頻分割數(shù)據(jù)集MeViS,徹底改變了機器理解視頻內(nèi)容的方式。

想象一下,當(dāng)你對朋友說"那只向右飛走的鳥"時,朋友能立刻明白你指的是哪只鳥,即使畫面中有三只外觀相似的鳥。但對于計算機來說,這卻是一個巨大的挑戰(zhàn)。傳統(tǒng)的AI系統(tǒng)更像是色盲癥患者試圖通過顏色分辨不同的物體——它們往往依賴靜態(tài)特征如形狀、顏色來識別目標,而忽視了動作這一關(guān)鍵信息。

研究團隊發(fā)現(xiàn),現(xiàn)有的視頻理解數(shù)據(jù)集存在一個根本性問題:它們過于關(guān)注靜態(tài)描述。就好比在一群穿著相同校服的學(xué)生中,傳統(tǒng)方法只會說"那個穿藍色衣服的學(xué)生",而無法說出"那個正在跑步的學(xué)生"。這種局限性使得AI在面對真實世界的復(fù)雜場景時顯得力不從心,特別是當(dāng)多個相似物體同時出現(xiàn),只能通過它們的動作來區(qū)分時。

為了解決這個問題,研究團隊歷時數(shù)年,精心構(gòu)建了一個名為MeViS的超大規(guī)模數(shù)據(jù)集。這個數(shù)據(jù)集包含2006個視頻,涵蓋8171個物體,最重要的是,它提供了超過33000個專門描述動作的表達式。與以往數(shù)據(jù)集不同,MeViS專門挑選那些包含多個相似物體的復(fù)雜場景,就像在一個熱鬧的菜市場中,你需要通過"那個正在挑西瓜的大媽"來指出特定的人一樣。

這個數(shù)據(jù)集的構(gòu)建過程就像訓(xùn)練一群專業(yè)的體育解說員。研究團隊制定了嚴格的標注規(guī)則:首先,目標物體必須有顯著的運動;其次,如果可以通過動作明確區(qū)分物體,就絕對不使用顏色、形狀等靜態(tài)描述;再次,允許用一個表達式同時指代多個物體,比如"兩只一起跳舞的企鵝"。更具挑戰(zhàn)性的是,數(shù)據(jù)集還包含了"陷阱表達式"——那些聽起來合理但實際上不對應(yīng)任何物體的描述,就像問"那只綠色的大象在哪里",而畫面中根本沒有大象。

在注釋過程中,研究團隊采用了類似游戲的雙人驗證機制。一個注釋者根據(jù)視頻寫出動作描述,另一個驗證者獨立觀看視頻并嘗試找到對應(yīng)的物體。只有當(dāng)兩人選擇的目標完全一致時,這個樣本才被認為是有效的。這種方法確保了數(shù)據(jù)的質(zhì)量和一致性,避免了模糊或有爭議的標注。

除了文本描述,研究團隊還為每個表達式錄制了語音版本,總時長超過15萬秒。這些語音既包括了來自不同背景的10位真人錄音,也包括了使用先進文字轉(zhuǎn)語音技術(shù)生成的合成語音。這種多模態(tài)設(shè)計使得MeViS不僅可以用于傳統(tǒng)的文本指導(dǎo)視頻分割,還支持語音指導(dǎo)的視頻理解任務(wù),這對于未來的智能助手和機器人應(yīng)用具有重要意義。

當(dāng)研究團隊將現(xiàn)有的先進AI模型在MeViS上進行測試時,結(jié)果令人震驚。那些在傳統(tǒng)數(shù)據(jù)集上表現(xiàn)優(yōu)異的模型,在MeViS上的表現(xiàn)急劇下降。比如,一個在其他數(shù)據(jù)集上能達到60%以上準確率的模型,在MeViS上只能達到30%左右的準確率。這就像一個擅長在明亮房間里找東西的人,突然被放到了一個昏暗復(fù)雜的倉庫中一樣。

這種性能下降揭示了一個重要事實:現(xiàn)有的AI模型嚴重依賴靜態(tài)線索,而缺乏真正的時序理解能力。當(dāng)面對"先跳得高然后跳得遠"和"先跳得遠然后跳得高"這樣的描述時,傳統(tǒng)模型往往無法區(qū)分其中的時間順序差異。就好比一個不懂音樂的人聽貝多芬的交響樂,只能聽到音符而聽不出旋律一樣。

針對這些挑戰(zhàn),研究團隊開發(fā)了一種新的AI方法,稱為LMPM++(Language-guided Motion Perception and Matching)。這個方法的核心思想是將大型語言模型的推理能力引入視頻理解中。傳統(tǒng)方法就像是用一臺簡單的計算器處理復(fù)雜的數(shù)學(xué)問題,而LMPM++則像是請來了一位數(shù)學(xué)教授來解決同樣的問題。

LMPM++的工作原理可以比作一個經(jīng)驗豐富的電影導(dǎo)演觀看毛片的過程。首先,它會在每一幀中識別出所有可能的目標物體,就像導(dǎo)演標記出每個演員的位置。然后,它將這些物體在時間序列上的表現(xiàn)轉(zhuǎn)化為"物體嵌入"——類似于為每個演員創(chuàng)建一份表演檔案。接下來,大型語言模型像一個資深評委一樣,綜合分析這些檔案,理解整個時間序列中的動作模式,最終確定哪些物體符合給定的動作描述。

為了增強模型對時間序列的理解,研究團隊還設(shè)計了一種巧妙的"時序?qū)Ρ葘W(xué)習(xí)"機制。這種機制故意打亂動作的時間順序,然后訓(xùn)練模型區(qū)分正確和錯誤的時間序列。就像訓(xùn)練一個音樂家通過故意演奏錯誤的音符順序,來增強他對正確旋律的敏感度一樣。

實驗結(jié)果顯示,LMPM++在MeViS數(shù)據(jù)集上取得了顯著的性能提升。在處理單目標場景時,準確率達到了41.2%,在多目標場景中達到了51.6%,在識別"無目標"陷阱表達式方面的準確率更是達到了87.4%。雖然這些數(shù)字看起來可能不夠完美,但考慮到任務(wù)的極端困難性,這已經(jīng)是一個重大突破。就像在奧運會的體操比賽中,一個高難度動作哪怕只有50%的成功率,也足以震驚全場。

研究團隊還在傳統(tǒng)的視頻分割數(shù)據(jù)集上測試了LMPM++,結(jié)果顯示它在這些相對簡單的任務(wù)上也取得了最佳性能。在Refer-YouTube-VOS數(shù)據(jù)集上達到了67.8%的準確率,在DAVIS17-RVOS上達到了65.0%。這證明了LMPM++不僅能夠處理困難的動作理解任務(wù),在傳統(tǒng)任務(wù)上也保持了領(lǐng)先優(yōu)勢。

除了視頻分割,MeViS數(shù)據(jù)集還支持多項相關(guān)任務(wù)。其中包括多目標跟蹤,即同時追蹤視頻中多個符合描述的物體;語音引導(dǎo)的視頻分割,允許用戶通過語音指令來操作AI系統(tǒng);以及一個全新的任務(wù)——動作表達生成,即讓AI自動為給定的物體生成準確的動作描述。

在多目標跟蹤任務(wù)中,LMPM++顯示出了強大的泛化能力。傳統(tǒng)的跟蹤方法往往假設(shè)一個表達式只對應(yīng)一個目標,就像一個只會單線程工作的程序員。而LMPM++則像一個能夠同時管理多個項目的項目經(jīng)理,能夠靈活處理從零個到多個目標的各種情況。

語音引導(dǎo)任務(wù)的結(jié)果特別值得關(guān)注。雖然簡單地將語音轉(zhuǎn)換為文本再處理是一種直接的方法,但直接處理語音信號能夠保留更多的語義信息,如語調(diào)、重音等。實驗顯示,LMPM++在處理語音指令時達到了42.3%的準確率,明顯優(yōu)于其他專門的音頻處理方法。這就像一個真正懂音樂的人不僅能聽懂歌詞,還能理解歌曲的情感表達一樣。

在動作表達生成任務(wù)中,AI需要觀看視頻并自動描述特定物體的動作。這是一個完全相反的過程——不是根據(jù)描述找物體,而是根據(jù)物體生成描述。研究團隊測試了多種現(xiàn)有的視頻描述方法,包括傳統(tǒng)的計算機視覺方法和基于大型語言模型的新方法。結(jié)果顯示,基于大型語言模型的方法表現(xiàn)更好,但仍有很大改進空間。這說明讓AI準確描述動作仍然是一個極具挑戰(zhàn)性的問題。

研究團隊深入分析了系統(tǒng)失敗的案例,發(fā)現(xiàn)了幾個主要的挑戰(zhàn)。第一是復(fù)雜動作的長期追蹤問題。當(dāng)物體的運動軌跡復(fù)雜,或者多個物體相互遮擋時,系統(tǒng)容易丟失目標。就像在一場混亂的足球比賽中,即使是專業(yè)解說員也可能在激烈的爭球過程中短暫失去對特定球員的追蹤。

第二是細粒度動作區(qū)分的困難。當(dāng)需要區(qū)分"低頭吃草"和"低頭喝水"這樣的相似動作時,僅僅從物體的運動軌跡很難做出準確判斷,還需要結(jié)合場景上下文和常識推理。這就像要求AI不僅看得見,還要"想得通"。

第三是語言表達的歧義性處理。自然語言本身存在歧義,同一個動作可能有多種描述方式,而同一個描述也可能對應(yīng)不同的動作。比如"快速移動"可能指跑步、游泳或者開車,這需要AI具備強大的上下文理解能力。

研究團隊還進行了大量的對比實驗,驗證了MeViS數(shù)據(jù)集的必要性。他們發(fā)現(xiàn),在傳統(tǒng)數(shù)據(jù)集上訓(xùn)練的模型,即使性能看起來不錯,但一旦遇到真正需要動作理解的場景就會露出馬腳。這就像一個只會在理想實驗室條件下工作的機器,無法適應(yīng)真實世界的復(fù)雜環(huán)境。通過將模型在圖像數(shù)據(jù)集上訓(xùn)練然后在視頻數(shù)據(jù)集上測試,研究團隊證明了時序信息對于視頻理解的關(guān)鍵重要性。

值得注意的是,MeViS的影響已經(jīng)超出了學(xué)術(shù)研究的范圍。已經(jīng)有其他研究團隊開始使用這個數(shù)據(jù)集來訓(xùn)練視頻編輯AI和多模態(tài)大型語言模型。這就像一個高質(zhì)量的訓(xùn)練場不僅培養(yǎng)出了優(yōu)秀的運動員,還成為了整個體育界的標桿和參考。

從技術(shù)發(fā)展的角度來看,MeViS代表了AI視頻理解領(lǐng)域的一個重要轉(zhuǎn)折點。過去的研究往往將視頻理解簡化為靜態(tài)圖像理解的延伸,而MeViS強調(diào)了時序動態(tài)信息的獨特價值。這種轉(zhuǎn)變類似于從看照片到看電影的差別——不僅僅是圖像數(shù)量的增加,更是理解維度的質(zhì)的飛躍。

在實際應(yīng)用前景方面,這項研究具有廣泛的潛在價值。在安防監(jiān)控領(lǐng)域,系統(tǒng)可以更準確地識別和描述可疑行為,比如"正在撬鎖的人"或"快速逃跑的車輛"。在體育分析中,可以自動識別和標記運動員的技術(shù)動作,為教練和運動員提供詳細的表現(xiàn)分析。在醫(yī)療康復(fù)領(lǐng)域,可以監(jiān)測和評估患者的運動恢復(fù)情況。在娛樂產(chǎn)業(yè),可以幫助視頻創(chuàng)作者更快速地編輯和檢索視頻內(nèi)容。

對于普通用戶而言,這項技術(shù)的發(fā)展意味著未來的智能設(shè)備將能夠更好地理解我們的日;顒印D憧梢詫χ悄芤粝湔f"幫我找到昨天那個孩子在花園里踢球的視頻",而不需要記住具體的文件名或時間。或者在觀看直播時,AI助手可以自動為你標記精彩瞬間,比如"進球時刻"或"精彩撲救"。

從更廣闊的人工智能發(fā)展角度來看,這項研究體現(xiàn)了AI技術(shù)從單純的模式匹配向真正的理解轉(zhuǎn)變的趨勢。傳統(tǒng)的AI更像是一個非常精確但缺乏靈活性的工業(yè)機器人,而新一代的AI則更像是一個能夠觀察、思考和理解的智能助手。MeViS數(shù)據(jù)集和LMPM++方法的成功,為構(gòu)建更加智能和自然的人機交互系統(tǒng)奠定了重要基礎(chǔ)。

研究團隊還指出了未來的幾個重要發(fā)展方向。首先是提高模型對復(fù)雜場景的適應(yīng)能力,特別是在多物體交互和長期跟蹤方面。其次是增強跨模態(tài)理解能力,不僅要理解視覺和語言,還要整合音頻、觸覺等其他感官信息。再次是提升實時處理能力,使技術(shù)能夠在移動設(shè)備和邊緣計算環(huán)境中部署。最后是增強模型的泛化能力,讓在一個領(lǐng)域訓(xùn)練的模型能夠更好地適應(yīng)其他相關(guān)領(lǐng)域。

總的來說,MeViS數(shù)據(jù)集和相關(guān)研究成果代表了AI視頻理解領(lǐng)域的一個重要里程碑。它不僅為研究社區(qū)提供了一個高質(zhì)量的標準測試平臺,更重要的是,它揭示了傳統(tǒng)方法的局限性,指出了未來發(fā)展的方向。隨著更多研究者加入到這個領(lǐng)域,我們有理由相信,AI理解和描述動態(tài)世界的能力將得到顯著提升,最終為人類社會帶來更加智能和便利的技術(shù)應(yīng)用。

這項研究的意義遠不止于技術(shù)層面的突破。它體現(xiàn)了人工智能研究正在從追求單一任務(wù)的極致性能,轉(zhuǎn)向構(gòu)建更加全面和靈活的智能系統(tǒng)。就像人類的智能不僅體現(xiàn)在解決特定問題的能力上,更體現(xiàn)在理解復(fù)雜環(huán)境、適應(yīng)新情況和進行創(chuàng)造性思考的能力上一樣,新一代的AI系統(tǒng)也在朝著更加接近人類認知方式的方向發(fā)展。MeViS數(shù)據(jù)集為這種發(fā)展提供了重要的數(shù)據(jù)基礎(chǔ)和評估標準,而LMPM++方法則展示了實現(xiàn)這一目標的可能路徑。

Q&A

Q1:MeViS數(shù)據(jù)集與傳統(tǒng)視頻理解數(shù)據(jù)集有什么區(qū)別?

A:MeViS專門關(guān)注動作表達,包含2006個視頻和33000多個描述動作的表達式。與傳統(tǒng)數(shù)據(jù)集不同,它故意選擇包含多個相似物體的復(fù)雜場景,強調(diào)通過動作而非顏色、形狀等靜態(tài)特征來區(qū)分目標。還首次加入了"陷阱表達式"和多目標表達式,更接近真實應(yīng)用場景。

Q2:LMPM++方法相比傳統(tǒng)視頻分割方法有什么優(yōu)勢?

A:LMPM++引入了大型語言模型的推理能力,能夠理解復(fù)雜的時序動作模式。它使用物體嵌入替代傳統(tǒng)的幀級特征,可以處理更長的視頻序列。通過時序?qū)Ρ葘W(xué)習(xí),模型能夠區(qū)分動作的時間順序,在MeViS數(shù)據(jù)集上取得了顯著的性能提升。

Q3:這項研究成果有什么實際應(yīng)用價值?

A:這項技術(shù)可以應(yīng)用于多個領(lǐng)域:安防監(jiān)控中的行為識別、體育分析中的動作標記、醫(yī)療康復(fù)的運動評估、視頻內(nèi)容的智能編輯等。對普通用戶而言,未來可以通過動作描述來搜索視頻內(nèi)容,或讓AI助手自動識別生活中的精彩瞬間。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國家在號召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

國家在號召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

百態(tài)人間
2025-12-24 16:40:00
一旦臺海戰(zhàn)爭爆發(fā),可能造成上億傷亡,解放軍或需解決4大戰(zhàn)場

一旦臺海戰(zhàn)爭爆發(fā),可能造成上億傷亡,解放軍或需解決4大戰(zhàn)場

滄海旅行家
2025-12-11 15:28:35
美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

羅說NBA
2025-12-28 06:53:32
下車救人還是肇事逃逸?警方回應(yīng):真的是下車救人,網(wǎng)友們別再誤會了

下車救人還是肇事逃逸?警方回應(yīng):真的是下車救人,網(wǎng)友們別再誤會了

封面新聞
2025-12-28 13:05:04
陳剛和“陳剛”合影

陳剛和“陳剛”合影

觀察者網(wǎng)
2025-12-27 09:46:55
萬萬沒想到,畢福劍敗光的體面,如今被29歲“丑女兒”掙回來了!

萬萬沒想到,畢福劍敗光的體面,如今被29歲“丑女兒”掙回來了!

知鑒明史
2025-09-03 18:55:30
南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

公子麥少
2025-12-21 14:54:43
中方反制不到24小時,美悍然宣布:中國違法,我們九屆政府都護臺

中方反制不到24小時,美悍然宣布:中國違法,我們九屆政府都護臺

博覽歷史
2025-12-27 16:31:18
普京強硬表態(tài):若烏方不愿和平解決 俄方就打到問題解決

普京強硬表態(tài):若烏方不愿和平解決 俄方就打到問題解決

新華社
2025-12-28 11:18:09
利好:維拉兩大主力停賽無緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

利好:維拉兩大主力停賽無緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

足球偵探
2025-12-28 16:23:29
“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

詩意世界
2025-11-30 11:04:47
18家大國企全軍覆沒!昔日世界第一的中國機床,現(xiàn)還有翻身機會嗎

18家大國企全軍覆沒!昔日世界第一的中國機床,現(xiàn)還有翻身機會嗎

牛牛叨史
2025-12-20 21:06:35
5名“大法官”未達6人門檻仍下判決,翁曉玲:臺灣距離邪惡時代不遠了

5名“大法官”未達6人門檻仍下判決,翁曉玲:臺灣距離邪惡時代不遠了

海峽導(dǎo)報社
2025-12-21 08:44:14
原軍事交通學(xué)院政委王少君將軍逝世,曾參加邊境自衛(wèi)反擊戰(zhàn)

原軍事交通學(xué)院政委王少君將軍逝世,曾參加邊境自衛(wèi)反擊戰(zhàn)

澎湃新聞
2025-12-28 10:40:26
陳曉帶著,秦昊護著,郭京飛寵著,演了19部戲,終于紅了

陳曉帶著,秦昊護著,郭京飛寵著,演了19部戲,終于紅了

小椰的奶奶
2025-12-28 08:54:10
金融圈刷屏,“私募魔女”李蓓開投資課:收費12888元,但“不指望靠這個賺錢,我不缺幾千萬”!旗下有兩只產(chǎn)品近三年跑輸滬深300

金融圈刷屏,“私募魔女”李蓓開投資課:收費12888元,但“不指望靠這個賺錢,我不缺幾千萬”!旗下有兩只產(chǎn)品近三年跑輸滬深300

每日經(jīng)濟新聞
2025-12-27 19:22:17
李兆會的18年復(fù)仇路

李兆會的18年復(fù)仇路

詩意世界
2025-10-10 14:09:20
周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

文史茶館2020
2025-12-28 11:15:51
俄警告歐洲國家勿向烏派兵

俄警告歐洲國家勿向烏派兵

界面新聞
2025-12-28 14:26:52
姜昆翻車,美國境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

姜昆翻車,美國境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

你食不食油餅
2025-12-26 06:13:35
2025-12-28 19:08:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

藝術(shù)
健康
本地
手機
旅游

藝術(shù)要聞

郭沫若為何輸給康生?只因后者練過一部“百億法帖”,內(nèi)藏古人秘法

這些新療法,讓化療不再那么痛苦

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

手機要聞

蘋果越戰(zhàn)越勇,小米、vivo、OPPO呢?

旅游要聞

【直播】元旦游上海,黃浦普陀專場:黃浦新年三重奏?普陀“半馬蘇河”,靈!

無障礙瀏覽 進入關(guān)懷版