国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

TrackVLA++:具身視覺跟蹤的推理與記憶雙升級

0
分享至

文章來源:鼓搗AI。

在擁擠商場里,陪伴機器人如何精準跟隨主人,即便被人群短暫遮擋、遇到穿同款衣服的干擾者也不跟丟?在復雜室內環(huán)境中,引導機器人怎樣持續(xù)鎖定目標,完成長時程跟蹤任務?這些場景的核心技術——具身視覺跟蹤(EVT),長期面臨遮擋、干擾物、長時記憶漂移三大痛點。

近日,來自北大等機構的團隊提出了TrackVLA++,一款融合顯式空間推理長時目標記憶的新型VLA(視覺-語言-動作)模型,在仿真與真實場景中均實現(xiàn)SOTA性能,為具身機器人的精準跟蹤提供了新的解決方案。

論文鏈接:

https://arxiv.org/pdf/2510.07134

項目主頁:

https://pku-epic.github.io/TrackVLA-plus-plus-Web/


具身視覺跟蹤的核心痛點

具身視覺跟蹤(EVT)是機器人在動態(tài)物理環(huán)境中,基于視覺觀測和語言指令,持續(xù)追蹤指定移動目標的關鍵能力,廣泛支撐陪伴機器人、引導機器人、服務助手等實際應用。

盡管近年來VLA模型(如TrackVLA、LOVON)推動了語言引導跟蹤的發(fā)展,但現(xiàn)有方法仍存在兩大致命缺陷:

  1. 缺乏顯式空間推理 :依賴視覺特征直接匹配,無法精準推斷目標相對位置,遇到相似干擾物易誤判;

  2. 長時記憶機制薄弱 :目標被長時間遮擋或脫離視野后,記憶易漂移或被干擾物污染,難以重新識別目標。

這些問題導致現(xiàn)有模型在復雜場景中性能大幅下降,成為EVT技術落地的主要瓶頸。

核心創(chuàng)新:推理與記憶的雙重突破

TrackVLA++基于導航基礎模型NavFoM構建,核心升級在于兩個專屬模塊:Polar-CoT(極坐標思維鏈)TIM(目標識別記憶)。



模型Pipeline流程圖,展示TrackVLA++的完整流程:從視頻流和語言指令輸入、Polar-CoT推理、TIM記憶更新、動作軌跡輸出。

Polar-CoT:輕量高效的空間推理機制

傳統(tǒng)思維鏈(CoT)推理會生成冗長文本或復雜邊界框,計算開銷大且不適用于多相機場景。TrackVLA++提出的Polar-CoT做出兩大優(yōu)化:

  • 極坐標離散化 :將機器人0.6-5.0m環(huán)形視場,離散為60個角度(θ)×30個距離(d)的扇區(qū),每個扇區(qū)編碼為唯一token,形成緊湊的空間表征;

  • 高效推理輸出 :僅預測一個推理token,要么是 <θ,d> (目標在視場內的相對位置),要么是 (目標遮擋或超出視野),既保證效率又消除多相機歧義。

這種設計讓模型具備“空間思考能力”,不再依賴純視覺匹配,而是像人一樣通過“角度+距離”定位目標,推理效率較傳統(tǒng)CoT提升顯著。

TIM:置信門控的長時目標記憶

為解決長時跟蹤中的記憶漂移問題,TIM模塊采用置信度感知門控策略,實現(xiàn)穩(wěn)健記憶更新:

  • 記憶更新規(guī)則:僅當Polar-CoT以高置信度(通過歸一化熵計算)檢測到目標時,才用新視覺特征更新記憶;

  • 遮擋保護機制:目標被遮擋時, token強制置信度歸零,凍結記憶更新,保留最后一次可靠的目標表征;

  • 輕量化設計:僅用4個token編碼記憶狀態(tài),無需額外算力,且增加token數(shù)量無法帶來性能提升,兼顧高效與穩(wěn)健。

通過“推理引導記憶”的模式,TIM有效抵御干擾物污染,在長時間遮擋后仍能快速重新識別目標。

實驗驗證

團隊在EVT-Bench、Gym-UnrealCV兩大基準,以及三大真實場景中對TrackVLA++進行了全面驗證,結果亮點十足。

配圖3:論文Fig.4 仿真實驗可視化圖) 插入位置:3.1仿真基準部分開頭 配圖說明:展示TrackVLA++在EVT-Bench不同子任務(STT/DT/AT)和UnrealCV場景中的跟蹤效果,紅色區(qū)域標記Polar-CoT預測的目標位置,直觀體現(xiàn)模型在遮擋、干擾下的精準定位能力。

仿真基準

在EVT-Bench(復雜室內場景,含大量干擾物)中,TrackVLA++表現(xiàn)突出:

  • 干擾跟蹤(DT)任務:多視圖成功率(SR)達74.0%,較前作NavFoM提升12%,單視圖提升5.1%;

  • 單目標跟蹤(STT):多視圖SR達90.9%,碰撞率(CR)僅1.50%,平衡跟蹤精度與安全性;

  • 零樣本泛化:在Gym-UnrealCV的未知環(huán)境中,干擾物任務 episode長度(EL)達484,成功率(SR)0.92,超越TrackVLA等現(xiàn)有模型。

在視覺識別能力上,TrackVLA++在SYNTH-PEDES零樣本人物識別任務中準確率達87.5%,較SoM+GPT-4o提升5.1%,且推理速度達4.8 FPS,是GPT-based方法的48倍,兼顧精度與實時性。



仿真實驗可視化結果。TrackVLA++ 在遮擋和干擾條件下表現(xiàn)優(yōu)異。左上角小圖展示了 Polar-CoT 的預測結果,紅色區(qū)域表示預測的目標位置;為簡潔起見,EVT-Bench 上的可視化結果僅截取了前方扇區(qū)。放大查看可獲得更佳視覺效果。

真實世界


團隊在Unitree GO2四足機器人上部署TrackVLA++(配備4個多視圖相機),在三大核心場景中驗證:

  1. 障礙遮擋:目標被大型障礙物臨時遮擋,成功率較TrackVLA提升14%;

  2. 蜿蜒路徑:目標沿復雜軌跡移動,跟蹤保真度提升7%;

  3. 相似干擾物:存在視覺相似的人類干擾者,識別穩(wěn)健性提升17%。



真實世界實驗結果圖:左側展示三大真實場景(障礙遮擋、蜿蜒路徑、相似干擾物)的跟蹤過程,右側柱狀圖對比TrackVLA++與TrackVLA的成功率。

消融實驗

通過 ablation 實驗(EVT-Bench DT多視圖場景),明確兩大模塊的貢獻:

  • 僅移除Polar-CoT:成功率下降6.0%,證明空間推理對定位精度的關鍵作用;

  • 僅移除TIM:成功率下降2.8%,驗證長時記憶對遮擋場景的支撐價值;

  • TIM token數(shù)量從4增至16:性能無明顯提升,印證輕量化設計的合理性。

技術亮點與應用前景

TrackVLA++的核心優(yōu)勢的在于精準+高效+泛化 三者兼?zhèn)洌?/p>

  • 精準性:Polar-CoT的空間推理+TIM的置信門控記憶,解決遮擋、干擾、記憶漂移三大痛點;

  • 高效性:推理token緊湊設計+輕量化記憶,推理速度達4.8 FPS,滿足實時跟蹤需求;

  • 泛化性:零樣本性能優(yōu)異,無需針對新場景重新訓練,適配真實世界的動態(tài)變化。

這些特性使其在多個領域具備落地潛力:

  • 服務機器人:商場、機場的引導與陪伴,精準跟隨目標并規(guī)避干擾;

  • 工業(yè)場景:車間內跟蹤特定設備或工作人員,完成巡檢、輔助任務;

  • 安防監(jiān)控:動態(tài)鎖定可疑目標,即便短暫遮擋也能持續(xù)追蹤。

總結與展望

TrackVLA++通過Polar-CoT極坐標推理TIM置信門控記憶兩大創(chuàng)新,首次將顯式空間推理與長時目標記憶融入VLA模型,徹底解決了具身視覺跟蹤的核心痛點。實驗證明,該模型在仿真基準中刷新SOTA,在真實場景中展現(xiàn)出強穩(wěn)健性,為具身機器人的精準跟蹤提供了全新技術路徑。

未來,團隊可進一步探索多目標跟蹤、動態(tài)環(huán)境自適應等方向,推動EVT技術在更復雜場景中落地。對于機器人研發(fā)者而言,TrackVLA++的模塊化設計也具備極高的參考價值,為后續(xù)模型優(yōu)化提供了清晰思路。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
廣東勝青島!奎因爆發(fā),張文逸奇兵,薩姆納被高估,徐杰不可或缺

廣東勝青島!奎因爆發(fā),張文逸奇兵,薩姆納被高估,徐杰不可或缺

鄒維體育
2025-12-21 21:17:23
《江南春》的買家終于被扒出來了

《江南春》的買家終于被扒出來了

大張的自留地
2025-12-21 13:52:31
這是有史以來最大的市場泡沫嗎?

這是有史以來最大的市場泡沫嗎?

常滌非觀點
2025-12-21 07:16:04
人財兩空!26歲河南小伙李文杰去世,6年花數(shù)百萬,曾是健身教練

人財兩空!26歲河南小伙李文杰去世,6年花數(shù)百萬,曾是健身教練

鋭娛之樂
2025-12-20 09:51:44
泰國軍方炸毀柬埔寨詐騙園區(qū)、賭場和人體器官移植中心!

泰國軍方炸毀柬埔寨詐騙園區(qū)、賭場和人體器官移植中心!

犀利辣椒
2025-12-19 06:23:43
太難了!今年南方天氣太暖,衣服賣不出去,金華一制衣廠提前放假

太難了!今年南方天氣太暖,衣服賣不出去,金華一制衣廠提前放假

火山詩話
2025-12-20 15:15:29
老話說:白天冬至,冰三尺;夜間冬至,穿單衣,今年冬至在幾點?

老話說:白天冬至,冰三尺;夜間冬至,穿單衣,今年冬至在幾點?

阿龍美食記
2025-12-21 02:25:11
高市迎來最強外援,強登釣魚島有保障?中方已警覺,連發(fā)兩個警告

高市迎來最強外援,強登釣魚島有保障?中方已警覺,連發(fā)兩個警告

博覽歷史
2025-12-21 13:57:01
女子出軌被外甥意外發(fā)現(xiàn),外甥:保密可以,但你要答應我一個條件

女子出軌被外甥意外發(fā)現(xiàn),外甥:保密可以,但你要答應我一個條件

林林故事揭秘
2024-12-12 10:55:59
南博事件再升級!《江南春》調撥人是凌波,神秘顧客也浮出水面

南博事件再升級!《江南春》調撥人是凌波,神秘顧客也浮出水面

奇思妙想草葉君
2025-12-21 13:59:16
寬帶維權引罵戰(zhàn),羅永浩大戰(zhàn)項立剛!羅:懷疑這人是智障 項:他除了直播啥也做不成!

寬帶維權引罵戰(zhàn),羅永浩大戰(zhàn)項立剛!羅:懷疑這人是智障 項:他除了直播啥也做不成!

EETOP半導體社區(qū)
2025-12-21 11:09:00
“屎”無前例!網(wǎng)傳義烏一面館女子突然朝垃圾桶大便,兩男子蒙圈

“屎”無前例!網(wǎng)傳義烏一面館女子突然朝垃圾桶大便,兩男子蒙圈

火山詩話
2025-12-21 05:50:40
順豐退出抖音電商退貨業(yè)務!原因很簡單:退貨率賊高,錢少事兒多

順豐退出抖音電商退貨業(yè)務!原因很簡單:退貨率賊高,錢少事兒多

風向觀察
2025-12-21 13:11:03
恭喜!王治郅入選2026屆國際籃聯(lián)名人堂 比肩姚明成中國第5人

恭喜!王治郅入選2026屆國際籃聯(lián)名人堂 比肩姚明成中國第5人

醉臥浮生
2025-12-21 20:42:01
海南封關,李嘉誠轉身,霍氏家族夢碎南沙。

海南封關,李嘉誠轉身,霍氏家族夢碎南沙。

億通電子游戲
2025-12-21 15:48:59
南京博物院的事,炸出了一個去年的視頻

南京博物院的事,炸出了一個去年的視頻

麥杰遜
2025-12-21 12:17:15
演員林峯談自己“撞臉”兵馬俑:我都有點嚇到;此前有游客拍到一尊彩面陶俑神似林峯

演員林峯談自己“撞臉”兵馬俑:我都有點嚇到;此前有游客拍到一尊彩面陶俑神似林峯

草莓解說體育
2025-12-21 00:54:07
炸毀柬埔寨6大詐騙基地后,泰方找到中國大使,告知要同中國合作

炸毀柬埔寨6大詐騙基地后,泰方找到中國大使,告知要同中國合作

博覽歷史
2025-12-21 13:57:48
王金平首度提倡兩岸統(tǒng)一,前國民黨立委提“統(tǒng)一新模式”,不簡單

王金平首度提倡兩岸統(tǒng)一,前國民黨立委提“統(tǒng)一新模式”,不簡單

時時有聊
2025-12-21 17:18:25
一雙兒女都中招!朱丹沖上熱搜:孩子3歲后這個檢查得安排

一雙兒女都中招!朱丹沖上熱搜:孩子3歲后這個檢查得安排

大象新聞
2025-12-21 09:25:03
2025-12-21 22:27:00
算法與數(shù)學之美 incentive-icons
算法與數(shù)學之美
分享知識,交流思想
5273文章數(shù) 64595關注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關:十萬個應用

頭條要聞

46歲獨居女子離世遺產歸公買墓地遇難題 最新進展公布

頭條要聞

46歲獨居女子離世遺產歸公買墓地遇難題 最新進展公布

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場地還小

財經(jīng)要聞

老房子“強制體檢”,政府出手了

汽車要聞

-30℃,標致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

本地
數(shù)碼
教育
時尚
公開課

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風骨

數(shù)碼要聞

都是RTX 5070,游戲性能差距竟然這么大?

教育要聞

驚!班主任被指長期占課拖堂,校方回應:屬實,責令整改

紅色不流行了?今年最火的穿搭居然是它

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版