国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

TPAMI 2025 | 中國科大提出UniSOT:統(tǒng)一多模態(tài)單目標(biāo)跟蹤新范式,性能顯著提升

0
分享至

文章來源:我愛計(jì)算機(jī)視覺(ID:aicvml)

今天,CV君想和大家分享一篇來自中國科學(xué)技術(shù)大學(xué)和Sangfor Research Institute的最新研究,這篇論文已被 TPAMI 接收,提出了一種名為 UniSOT 的統(tǒng)一框架,旨在解決多模態(tài)單目標(biāo)跟蹤(Single Object Tracking, SOT)領(lǐng)域的長期挑戰(zhàn)。 UniSOT 這個(gè)名字,顧名思義,就是“Unified Single Object Tracking”的縮寫,它代表著一種全新的、能夠同時(shí)處理多種參考模態(tài)和視頻模態(tài)的統(tǒng)一跟蹤器。



  • 論文標(biāo)題 : UniSOT: A Unified Framework for Multi-Modality Single Object Tracking

  • 論文作者 : Yinchao Ma, Yuyang Tang, Wenfei Yang, Tianzhu Zhang*, Xu Zhou, and Feng Wu (*通訊作者)

  • 作者機(jī)構(gòu) : 中國科學(xué)技術(shù)大學(xué);Sangfor Research Institute

  • 論文地址 : https://arxiv.org/abs/2511.01427

  • 錄用信息 : 該論文已被 TPAMI 接收

研究背景與動機(jī)

在單目標(biāo)跟蹤任務(wù)中,我們通常需要根據(jù)給定的參考信息來追蹤視頻序列中的特定目標(biāo)。隨著應(yīng)用場景的日益復(fù)雜,對跟蹤器的要求也越來越高。一方面,用戶可能通過不同的方式來指定目標(biāo),例如直接給出目標(biāo)的邊界框(BBOX),或者用自然語言(NL)描述目標(biāo),甚至兩者結(jié)合(NL+BBOX)。另一方面,視頻數(shù)據(jù)本身也變得多樣化,除了常見的RGB圖像,還可能包含深度信息(RGB+Depth)、熱成像信息(RGB+Thermal)或者事件流信息(RGB+Event),這些輔助模態(tài)在光照不足、遮擋等復(fù)雜環(huán)境下能顯著提升跟蹤的魯棒性。

然而,目前大多數(shù)現(xiàn)有的跟蹤器都是為特定的參考模態(tài)或視頻模態(tài)設(shè)計(jì)的。這意味著,如果我們要處理不同類型的輸入或不同模態(tài)的視頻,就需要開發(fā)或部署多個(gè)獨(dú)立的模型,這無疑增加了開發(fā)和部署的復(fù)雜性。


圖1. 現(xiàn)有解決方案與UniSOT的對比。傳統(tǒng)跟蹤器通常針對特定模態(tài)定制,而UniSOT旨在提供一個(gè)統(tǒng)一的框架。

作者認(rèn)為,設(shè)計(jì)這樣一個(gè)統(tǒng)一的跟蹤器主要面臨兩大挑戰(zhàn):

  1. 如何為多樣的參考模態(tài)設(shè)計(jì)一個(gè)統(tǒng)一的跟蹤模型? 不同參考模態(tài)(視覺框和自然語言)之間存在巨大的語義鴻溝,這給特征提取器的一致性學(xué)習(xí)和預(yù)測頭(Box Head)的穩(wěn)定目標(biāo)定位帶來了困難。

  2. 如何為多樣的視頻模態(tài)設(shè)計(jì)一個(gè)統(tǒng)一的訓(xùn)練策略? 不同的輔助視頻模態(tài)(深度、熱成像、事件流)包含的信息量和特性各不相同,如何設(shè)計(jì)一個(gè)統(tǒng)一的微調(diào)機(jī)制,既能學(xué)習(xí)到跨視頻模態(tài)的對齊特征,又能保留各自模態(tài)的特有線索,是一個(gè)難題。

為了解決上述問題,研究人員提出了 UniSOT 框架。

UniSOT 的核心技術(shù)原理

UniSOT 的核心思想是構(gòu)建一個(gè)統(tǒng)一的跟蹤器,能夠以統(tǒng)一的參數(shù)同時(shí)處理三種參考模態(tài)和四種視頻模態(tài)。它主要由兩個(gè)核心設(shè)計(jì)構(gòu)成:一個(gè)是針對參考模態(tài)統(tǒng)一的設(shè)計(jì),另一個(gè)是針對視頻模態(tài)統(tǒng)一的設(shè)計(jì)。


UniSOT 整體框架圖

針對參考模態(tài)的統(tǒng)一設(shè)計(jì)

為了統(tǒng)一處理不同的參考模態(tài),UniSOT 設(shè)計(jì)了一個(gè) 參考通用的特征提取器(Reference-Generalized Feature Extractor) 和一個(gè) 參考自適應(yīng)的預(yù)測頭(Reference-Adaptive Box Head, RABH)。

1. 參考通用的特征提取器

這個(gè)特征提取器基于Transformer構(gòu)建,巧妙地解決了多模態(tài)特征學(xué)習(xí)、融合與對齊的問題。


統(tǒng)一跟蹤框架示意圖

  • 分層特征提取與融合 :它包含N個(gè)淺層Encoder和M個(gè)深層Encoder。在淺層,視覺(圖像)和語言特征被分開獨(dú)立提取,避免了在低層次特征建模時(shí)產(chǎn)生混淆;在深層,兩者才進(jìn)行融合,以實(shí)現(xiàn)高層語義的交互。

  • 任務(wù)導(dǎo)向的多頭注意力(TMHA) :為了在聯(lián)合訓(xùn)練時(shí)兼容不同的參考輸入(比如有時(shí)只有BBOX,沒有NL), UniSOT 引入了注意力掩碼機(jī)制,屏蔽掉那些與當(dāng)前任務(wù)無關(guān)的特征交互。

  • 多模態(tài)對比損失(MMCLoss) :為了解決視覺和語言之間的語義鴻溝,作者設(shè)計(jì)了一個(gè)目標(biāo)級別的對比損失。它通過拉近不同參考模態(tài)(視覺/語言)的語義Token與搜索區(qū)域中目標(biāo)特征的相似度,同時(shí)推遠(yuǎn)與背景(特別是硬背景,即干擾物)特征的相似度,從而將視覺和語言特征對齊到統(tǒng)一的語義空間,并增強(qiáng)了參考特征的判別力。

多模態(tài)對比損失(MMCLoss)示意圖

2. 參考自適應(yīng)的預(yù)測頭(RABH)

傳統(tǒng)的預(yù)測頭對于不同的參考模態(tài)輸入,處理方式是固定的,這可能導(dǎo)致定位結(jié)果不穩(wěn)定。為此,RABH 被設(shè)計(jì)成一個(gè)動態(tài)的頭部,它能根據(jù)不同的參考信息,自適應(yīng)地從視頻上下文中挖掘場景特征來輔助定位。


參考自適應(yīng)預(yù)測頭(RABH)示意圖

其核心是一個(gè)新穎的 基于分布的交叉注意力機(jī)制。該機(jī)制能夠從歷史幀(上下文)中自適應(yīng)地挖掘出 目標(biāo)(Target)、干擾物(Distractor)背景(Background) 三種特征。具體來說,它首先計(jì)算參考模態(tài)的語義Token與歷史幀中所有Patch的相似度,然后根據(jù)一個(gè)預(yù)設(shè)的閾值 β,將與目標(biāo)外觀相似但非目標(biāo)的Patch識別為“干擾物”,其余的則為“背景”。這樣,通過對比學(xué)習(xí)的方式,利用動態(tài)更新的目標(biāo)、干擾物和背景原型來進(jìn)行目標(biāo)定位,大大提升了在復(fù)雜場景下的穩(wěn)定性和魯棒性。

針對視頻模態(tài)的統(tǒng)一設(shè)計(jì)

在完成了對RGB序列上不同參考模態(tài)的統(tǒng)一后,UniSOT 進(jìn)入第二訓(xùn)練階段,以統(tǒng)一處理多種視頻模態(tài)(RGB+Depth, RGB+Thermal, RGB+Event)。其核心是 秩自適應(yīng)模態(tài)適配(Rank-Adaptive Modality Adaptation, RAMA) 機(jī)制。


輔助模態(tài)調(diào)整塊(AMTB)示意圖

RAMA 的設(shè)計(jì)靈感來源于AdaLoRA,它通過在預(yù)訓(xùn)練好的模型中注入增量權(quán)重(? = PΛQ)的方式來適配新的視頻模態(tài),而不是微調(diào)整個(gè)模型。

  • 參數(shù)共享與模態(tài)對齊 :所有輔助模態(tài)共享正交矩陣P和Q,這有助于學(xué)習(xí)跨視頻模態(tài)的對齊特征。

  • 秩自適應(yīng)與模態(tài)特定 :每個(gè)輔助模態(tài)擁有自己獨(dú)立的奇異值矩陣Λ(即ΛD, ΛT, ΛE),并通過一個(gè)重要性評估函數(shù)來動態(tài)地為不同層、不同模塊、不同模態(tài)的增量參數(shù)分配不同的秩(rank)。這意味著模型可以自動判斷每個(gè)模態(tài)需要多少“特定信息”,為信息量大的模態(tài)分配更高的秩,為信息量少的模態(tài)分配較低的秩,從而在學(xué)習(xí)模態(tài)共性特征的同時(shí),保留了模態(tài)的個(gè)性特征,并有效防止了過擬合。

實(shí)驗(yàn)結(jié)果與分析

研究團(tuán)隊(duì)在 18 個(gè)基準(zhǔn)上對 UniSOT 進(jìn)行了廣泛的實(shí)驗(yàn)評估,結(jié)果表明其性能顯著優(yōu)于那些為特定模態(tài)設(shè)計(jì)的現(xiàn)有方法。

參考模態(tài)統(tǒng)一的有效性

  • TNL2K 數(shù)據(jù)集上, UniSOT 在BBOX、NL、NL+BBOX三種參考模態(tài)下的AUC性能均超過了現(xiàn)有方法 3.0% 以上。

  • 消融實(shí)驗(yàn)(表10)證明,MMCLoss和RABH兩個(gè)模塊都帶來了顯著的性能提升。例如,在NL參考下,MMCLoss帶來了2.3%的AUC提升,RABH帶來了2.0%的AUC提升。

UniSOT中不同組件的消融實(shí)驗(yàn)

視頻模態(tài)統(tǒng)一的有效性

  • RGB+Depth (VOT-RGBD22, DepthTrack), RGB+Thermal (LasHeR, RGBT234), 和 RGB+Event (VisEvent) 三類任務(wù)上, UniSOT 的主要指標(biāo)比之前的統(tǒng)一模型 Un-Track 提升了 2.0% 以上。

  • 例如,在RGBT234數(shù)據(jù)集上, UniSOT-B 的MSR比Un-Track高出1.6% (64.1% vs 62.5%)。在VisEvent上,AUC高出1.8% (60.7% vs 58.9%)。

與SOTA RGBD跟蹤器的比較


與SOTA RGBT跟蹤器的比較


與SOTA RGBE跟蹤器的比較

可視化分析

可視化結(jié)果也直觀地證明了 UniSOT 的有效性。例如,RABH能夠更穩(wěn)定地定位目標(biāo),有效抑制干擾物;MMCLoss使得視覺和語言語義Token的響應(yīng)圖更加一致且具有判別力。


目標(biāo)定位結(jié)果可視化顯示


不同參考模態(tài)下的跟蹤結(jié)果可視化


不同輔助模態(tài)下的跟蹤結(jié)果可視化

總結(jié)與展望

UniSOT 的提出,無疑為多模態(tài)單目標(biāo)跟蹤領(lǐng)域帶來了新的思路。它通過一系列精巧的設(shè)計(jì),首次實(shí)現(xiàn)了一個(gè)能夠以統(tǒng)一參數(shù)處理多種參考模態(tài)和視頻模態(tài)的跟蹤器,極大地提升了跟蹤器的實(shí)用性和泛化能力。CV君覺得,這種統(tǒng)一化的設(shè)計(jì)理念,不僅簡化了模型部署,也為未來更復(fù)雜的跨模態(tài)感知任務(wù)提供了寶貴的經(jīng)驗(yàn)。

你覺得這個(gè)技術(shù)未來會用在哪些場景?一起來聊聊吧!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1.2億次圍觀!伊萬卡攜娃截胡姆巴佩,卡塔爾包廂引爆流量核爆

1.2億次圍觀!伊萬卡攜娃截胡姆巴佩,卡塔爾包廂引爆流量核爆

羅氏八卦
2025-12-21 08:06:32
《阿凡達(dá)3》北美票房慘敗,僅收獲2.57億,預(yù)計(jì)將虧損近20億

《阿凡達(dá)3》北美票房慘敗,僅收獲2.57億,預(yù)計(jì)將虧損近20億

影視高原說
2025-12-21 09:53:41
我外交部突然發(fā)出警告,如果外媒消息屬實(shí),中日事態(tài)將會相當(dāng)嚴(yán)重

我外交部突然發(fā)出警告,如果外媒消息屬實(shí),中日事態(tài)將會相當(dāng)嚴(yán)重

混沌錄
2025-12-21 23:33:07
南博前院長"賣慘"不到12小時(shí),雙重身份被扒,網(wǎng)友:左手倒右手?

南博前院長"賣慘"不到12小時(shí),雙重身份被扒,網(wǎng)友:左手倒右手?

烈史
2025-12-21 18:47:04
官方通報(bào):聯(lián)合調(diào)查組,已進(jìn)駐!

官方通報(bào):聯(lián)合調(diào)查組,已進(jìn)駐!

南國今報(bào)
2025-12-20 21:35:36
當(dāng)美國海軍突襲中國貨船時(shí),外界普遍認(rèn)為北京只能默默承受損失。

當(dāng)美國海軍突襲中國貨船時(shí),外界普遍認(rèn)為北京只能默默承受損失。

安安說
2025-12-21 14:41:07
山西逆轉(zhuǎn)送天津4連?。毫滞ブt16+7+8助攻超胡明軒 詹姆斯25+13+8

山西逆轉(zhuǎn)送天津4連敗:林庭謙16+7+8助攻超胡明軒 詹姆斯25+13+8

醉臥浮生
2025-12-21 21:44:41
鄭麗文訪問大陸,國民黨副主席曝重大消息,蔣孝嚴(yán)已來到大陸

鄭麗文訪問大陸,國民黨副主席曝重大消息,蔣孝嚴(yán)已來到大陸

娛樂的宅急便
2025-12-21 13:42:45
“妻兒三人被發(fā)小殺害案”后天開庭,家屬:兇手曾稱要結(jié)娃娃親,作案后假裝毫不知情,開庭當(dāng)天是亡妻30歲生日

“妻兒三人被發(fā)小殺害案”后天開庭,家屬:兇手曾稱要結(jié)娃娃親,作案后假裝毫不知情,開庭當(dāng)天是亡妻30歲生日

極目新聞
2025-12-21 20:18:19
當(dāng)年斥巨資拍攝的10大爛片,每一部都是電影界的奇恥大辱

當(dāng)年斥巨資拍攝的10大爛片,每一部都是電影界的奇恥大辱

小微看電影
2025-12-19 09:35:41
俄羅斯人想不明白:為什么強(qiáng)大的中國,幾千年都不要西伯利亞?

俄羅斯人想不明白:為什么強(qiáng)大的中國,幾千年都不要西伯利亞?

蜉蝣說
2025-12-21 23:26:46
原子彈炸后百年內(nèi)寸草不生,今廣島卻住滿了人,說好的百年絕地呢?

原子彈炸后百年內(nèi)寸草不生,今廣島卻住滿了人,說好的百年絕地呢?

歷史回憶室
2025-12-20 11:14:14
難得打出一場攻守兼?zhèn)涞谋憩F(xiàn),快船鋒線新援的狀態(tài)正在不斷復(fù)蘇?

難得打出一場攻守兼?zhèn)涞谋憩F(xiàn),快船鋒線新援的狀態(tài)正在不斷復(fù)蘇?

稻谷與小麥
2025-12-22 00:23:32
7輪0球!1億鋒霸又啞火,西甲陷入進(jìn)球荒,射手榜被姆巴佩甩開

7輪0球!1億鋒霸又啞火,西甲陷入進(jìn)球荒,射手榜被姆巴佩甩開

足球狗說
2025-12-21 23:00:21
工信部發(fā)話:老百姓要什么,就造什么樣的電動車

工信部發(fā)話:老百姓要什么,就造什么樣的電動車

老特有話說
2025-12-20 22:13:36
周琦一家近照,大6歲妻子身材好,兒子也愛籃球,29歲身家過億

周琦一家近照,大6歲妻子身材好,兒子也愛籃球,29歲身家過億

籃球看比賽
2025-12-21 13:07:53
一私人影院存在異性陪侍服務(wù) 西安警方通報(bào)

一私人影院存在異性陪侍服務(wù) 西安警方通報(bào)

新京報(bào)
2025-12-21 18:45:37
南方黑芝麻糊成分含量最多的竟然不是黑芝麻?配料表引爭議,最新回應(yīng)

南方黑芝麻糊成分含量最多的竟然不是黑芝麻?配料表引爭議,最新回應(yīng)

極目新聞
2025-12-20 14:28:37
老舅:崔國明賠光70萬,李小珍遺憾離世,才懂收養(yǎng)郭小雪是錯(cuò)誤的

老舅:崔國明賠光70萬,李小珍遺憾離世,才懂收養(yǎng)郭小雪是錯(cuò)誤的

白公子探劇
2025-12-21 23:59:44
雖然哈薩克斯坦要向日本出口能源和稀土,但是卻不能使用中歐班列

雖然哈薩克斯坦要向日本出口能源和稀土,但是卻不能使用中歐班列

梁獼愛玩車
2025-12-20 20:56:46
2025-12-22 00:43:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識,交流思想
5273文章數(shù) 64595關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個(gè)應(yīng)用

頭條要聞

必勝客牛排口感奇怪遭質(zhì)疑"到底用的什么肉" 官方介入

頭條要聞

必勝客牛排口感奇怪遭質(zhì)疑"到底用的什么肉" 官方介入

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場地還小

財(cái)經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

房產(chǎn)
親子
教育
時(shí)尚
游戲

房產(chǎn)要聞

中交·藍(lán)色港灣一周年暨藍(lán)調(diào)生活沙龍圓滿舉行

親子要聞

睡前說三句廢話對孩子情商發(fā)育有好處

教育要聞

英國畢業(yè)生收入最高的大學(xué)top3!

紅色不流行了?今年最火的穿搭居然是它

誰說游戲里只能打怪?這游戲讓你做鬼差推因果,善惡全由你定

無障礙瀏覽 進(jìn)入關(guān)懷版