国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

VLA引入本體狀態(tài),機器人隨時掉鏈子?人大北航攻克難題ICLR26

0
分享至


新智元報道

編輯:LRST

【新智元導讀】人大與北航團隊發(fā)現(xiàn):機器人在動作切換時,視覺常被本體感覺「壓制」而失效。他們提出GAP算法,動態(tài)削弱本體信號的訓練權(quán)重,讓視覺重獲學習機會,顯著提升機器人精準操作能力。

本體感覺信息能夠提供機器人狀態(tài)的實時反饋,其與視覺信息的協(xié)同被普遍認為有助于提升機器人在復雜操縱任務中的性能。

然而,近期研究在視覺–本體感覺策略的泛化能力方面報告了不一致的觀察結(jié)果:有的策略受益于視覺本體覺的聯(lián)合,而有的卻比純視覺策略表現(xiàn)更差——視覺-本體操縱策略究竟何時會「掉鏈子」?

近日,人大高瓴GeWu-Lab與北京航空航天大學聯(lián)合團隊對該問題進行了系統(tǒng)性研究,發(fā)現(xiàn)在操縱任務的運動轉(zhuǎn)變階段,視覺-本體策略中的視覺模態(tài)「失效」了!

為此,研究團隊提出了基于階段引導的梯度調(diào)整算法(Gradient Adjustment with Phase-guidance,GAP),該研究論文為機器人操縱中視覺-本體感覺策略的設計與發(fā)展提供了有價值的見解,并已被ICLR 2026接收。


項目主頁:https://gewu-lab.github.io/GAP/

代碼倉庫:https://github.com/GeWu-Lab/GAP

論文鏈接:https://arxiv.org/abs/2602.12032

研究背景

隨著深度學習的發(fā)展,研究者們開始將本體感覺信息(如關節(jié)位置、速度等)引入基于視覺的機器人操縱策略。視覺負責「看」,本體覺負責「感」,兩者的協(xié)同被認為有助于提升策略在復雜環(huán)境中的泛化能力,讓機器人不僅能在熟悉場景中穩(wěn)定操作,也能在任務條件變化時靈活應對。

然而,現(xiàn)實卻開了個玩笑。多篇研究表明,有時加入了本體信息的策略反而比純視覺策略表現(xiàn)更差。

這一現(xiàn)象并非個例,而是在不同環(huán)境、不同任務中均有出現(xiàn)(圖1左)。

這些發(fā)現(xiàn)讓人困惑:視覺-本體策略究竟何時會失敗?是模態(tài)融合方式的問題,還是訓練過程的失衡?是在所有任務階段都會失敗,還是只在某些關鍵時刻掉鏈子?理解這一點,不僅能夠解釋已有矛盾,更有助于設計真正魯棒的機器人操縱策略。

問題探究


圖1:視覺-本體策略的泛化性

為了探究這些問題,來自人大高瓴GeWu-Lab與北京航空航天大學聯(lián)合團隊的研究者們設計了一個精巧的控制實驗。他們讓一個純視覺策略執(zhí)行裝配任務,但在某些特定時段(僅10個時間步長),將當前動作替換為由視覺–本體策略在相同觀測下預測的動作。

如圖1右側(cè)所示,結(jié)果令人驚訝:

  • 在「向前移動」這類穩(wěn)定運動階段,這種替換幾乎沒有影響;

  • 但在「定位底座」、「裝配零件」這類運動轉(zhuǎn)變階段,替換策略后任務成功率明顯下降。

這說明在需要視覺發(fā)揮作用的運動轉(zhuǎn)變階段,視覺–本體策略中的視覺模態(tài)「失效」了。為什么視覺會被邊緣化?研究者進一步從訓練優(yōu)化的角度尋找答案。

他們發(fā)現(xiàn),在運動轉(zhuǎn)變階段,視覺線索往往非常細小,有時甚至只是像素級的差異,而本體信號則簡潔、直接。

在訓練過程中,策略會本能地依賴那些能讓損失更快下降的本體信號,使得本體模態(tài)在優(yōu)化中占據(jù)主導地位。這種主導地位反過來抑制了視覺模態(tài)的學習,導致視覺信息在運動轉(zhuǎn)變階段被嚴重忽視。

核心技術(shù)

針對視覺模態(tài)在運動轉(zhuǎn)變階段被抑制的問題,研究團隊提出了如圖2所示的基于階段引導的梯度調(diào)整算法(Gradient Adjustment with Phase-guidance, GAP)。核心思路是:先識別出任務中的運動轉(zhuǎn)變階段,然后在這些關鍵時刻動態(tài)調(diào)整本體覺信號的優(yōu)化強度,為視覺模態(tài)「讓出學習空間」。


圖2:GAP方法架構(gòu)

為了識別運動轉(zhuǎn)變階段,研究團隊首先利用機械臂末端執(zhí)行器的位置、朝向和開合程度來定義機器人的運動。

隨后采用變化點檢測算法,通過計算不同時段運動方向的一致性,將軌跡分割為一系列「運動一致階段」,如「持續(xù)向前移動」、「穩(wěn)定抓取」等。在這些階段之間,就是機器人的「運動轉(zhuǎn)變階段」。

然而,運動的轉(zhuǎn)變是連續(xù)且漸變的,簡單的離散切分難以刻畫該過程的平滑特性。

為此,研究進一步引入時序網(wǎng)絡,利用本體覺信號的時序差異,預測每個時刻屬于運動轉(zhuǎn)變階段的概率。

在反向傳播時,GAP會根據(jù)當前時刻的轉(zhuǎn)變概率,動態(tài)降低本體覺特征提取模塊的梯度更新幅度。轉(zhuǎn)變概率越高,本體覺的梯度被抑制得越明顯,讓視覺模態(tài)有機會被充分學習。

性能亮點

GAP算法的有效性在大量實驗中得到了充分驗證。無論是在仿真環(huán)境還是真實機器人上,無論是單臂還是雙臂任務,GAP加持下的視覺–本體策略都交出了亮眼的成績單。




可以看到,在操縱任務「移交」中,純視覺策略難以完成精細的放置操作,而視覺-本體策略在抓取失敗后忽視視覺反饋,仍按照本體的經(jīng)驗繼續(xù)執(zhí)行動作。應用GAP的視覺-本體策略則得益于兩者的協(xié)同,順利地完成了任務。




如表1所示,在多樣的任務設置中,GAP不僅幫助了視覺-本體策略超越純視覺策略,真正利用模態(tài)協(xié)同的優(yōu)勢,同時還超越了多種現(xiàn)有的基線方法。


表1:對比實驗結(jié)果

研究團隊同時也驗證了GAP是否適用于視覺-語言-動作模型(VLA)。如表2所示,在多個任務上,加入本體覺的Octo-VP反而比純視覺的Octo-V表現(xiàn)更差,而GAP的介入則徹底扭轉(zhuǎn)了這一局面。


表2:VLA實驗結(jié)果

研究團隊同時也驗證了GAP對多種常見的模態(tài)融合方式的兼容性(表3),并觀察了GAP預測的運動轉(zhuǎn)變概率與任務RGB圖像和視覺不確定性的關系(圖3),以提升方法的可解釋性。


表3:模態(tài)融合方式實驗


圖3:運動轉(zhuǎn)變概率可視化

結(jié)語

從多篇研究的反直覺現(xiàn)象一步步深入,該研究揭示了運動轉(zhuǎn)變階段中被抑制的視覺模態(tài)學習。

研究團隊據(jù)此提出了GAP算法,使得兩種模態(tài)在機器人操縱任務中更好地協(xié)同。真正的多模態(tài)具身智能,必須建立在對模態(tài)之間動態(tài)關系的深刻理解之上。

而GAP通過運動轉(zhuǎn)變階段提供了一種分析框架,為具身智能中的高質(zhì)量多模態(tài)融合與交互提供了全新的視角。

參考資料:

https://arxiv.org/pdf/2602.12032

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
9分鐘一臺車:硬核閃充技術(shù)樹立行業(yè)新標桿,比亞迪這回玩真的

9分鐘一臺車:硬核閃充技術(shù)樹立行業(yè)新標桿,比亞迪這回玩真的

大劉說說
2026-03-07 15:49:10
真相大白!0-2,鄭欽文首戰(zhàn)出局原因曝光,沒想到對手僅排第57名

真相大白!0-2,鄭欽文首戰(zhàn)出局原因曝光,沒想到對手僅排第57名

曹說體育
2026-03-08 11:58:04
金山WPS for Pad正式版上架蘋果App Store港區(qū) 完美復刻桌面體驗

金山WPS for Pad正式版上架蘋果App Store港區(qū) 完美復刻桌面體驗

快科技
2026-03-08 17:22:23
洗碗機砸家反轉(zhuǎn)!丈夫降薪扛,妻子賣金買蘋果17月吃4次海底撈

洗碗機砸家反轉(zhuǎn)!丈夫降薪扛,妻子賣金買蘋果17月吃4次海底撈

深析古今
2026-01-10 13:58:59
一人薪養(yǎng)全家,本應是現(xiàn)代文明的底線

一人薪養(yǎng)全家,本應是現(xiàn)代文明的底線

律法刑道
2026-03-07 09:51:11
真只死了6個?曝美軍承包商緊急招聘數(shù)名臨時工,專門處理陣亡士兵物品

真只死了6個?曝美軍承包商緊急招聘數(shù)名臨時工,專門處理陣亡士兵物品

不掉線電波
2026-03-06 10:00:34
激戰(zhàn)7天伊朗殺紅了眼,神秘軍隊攜帶中國武器入場,特朗普失算了

激戰(zhàn)7天伊朗殺紅了眼,神秘軍隊攜帶中國武器入場,特朗普失算了

起喜電影
2026-03-06 17:21:47
伊朗軍方在沖突中首次使用“哈迪德110”高速無人機

伊朗軍方在沖突中首次使用“哈迪德110”高速無人機

環(huán)球網(wǎng)資訊
2026-03-05 06:23:08
曼聯(lián)盯上伯恩茅斯4000萬飛翼!卡里克急補邊鋒,全怪前任大清倉

曼聯(lián)盯上伯恩茅斯4000萬飛翼!卡里克急補邊鋒,全怪前任大清倉

仰臥撐FTUer
2026-03-08 13:28:10
張?zhí)m主動招呼汪小菲過去合影!就這一個動作,什么都說明白了!

張?zhí)m主動招呼汪小菲過去合影!就這一個動作,什么都說明白了!

樂悠悠娛樂
2026-03-08 13:47:33
一不留神,被漂亮女同事設計騙回家見父母,沒想到,她卻賴上我了

一不留神,被漂亮女同事設計騙回家見父母,沒想到,她卻賴上我了

秀秀情感課堂
2025-11-23 16:20:03
地面戰(zhàn)爭開始,伊朗擊落F-15E

地面戰(zhàn)爭開始,伊朗擊落F-15E

西樓飲月
2026-03-05 20:46:17
18歲亞馬爾復制梅西經(jīng)典:彩虹球進死角 對手倒下!生涯50球

18歲亞馬爾復制梅西經(jīng)典:彩虹球進死角 對手倒下!生涯50球

葉青足球世界
2026-03-08 08:32:15
中計了!幾千萬戰(zhàn)機變廢鐵,美在伊幾十年底牌也將燒光,這波血虧

中計了!幾千萬戰(zhàn)機變廢鐵,美在伊幾十年底牌也將燒光,這波血虧

紀中百大事
2026-03-08 09:45:03
彭德懷打仗那么厲害,為何帶出來的名將不多?陳毅的評價一語中的

彭德懷打仗那么厲害,為何帶出來的名將不多?陳毅的評價一語中的

勇哥讀史
2026-03-08 11:30:12
最新后續(xù)來了!潑螺螄粉湯的黑衣女子正臉曝光,處理結(jié)果大快人心

最新后續(xù)來了!潑螺螄粉湯的黑衣女子正臉曝光,處理結(jié)果大快人心

愛寫的櫻桃
2026-03-08 17:01:57
笑發(fā)財,那些年港媒取的標題真的狠毒!網(wǎng)友:鴨脖也是鴨,沒毛病

笑發(fā)財,那些年港媒取的標題真的狠毒!網(wǎng)友:鴨脖也是鴨,沒毛病

夜深愛雜談
2026-03-01 20:12:43
伊朗用血淚換來的教訓:一旦中美開戰(zhàn),中國必須首先鎖定這一點

伊朗用血淚換來的教訓:一旦中美開戰(zhàn),中國必須首先鎖定這一點

冷峻視角下的世界
2026-02-20 07:45:35
說得好!2026兩會最火的提案不是醫(yī)療和就業(yè),而是董明珠的這句話

說得好!2026兩會最火的提案不是醫(yī)療和就業(yè),而是董明珠的這句話

跳跳歷史
2026-03-08 13:29:47
倫納德28分加蘭首發(fā)21+6 快船險勝灰熊

倫納德28分加蘭首發(fā)21+6 快船險勝灰熊

北青網(wǎng)-北京青年報
2026-03-08 18:18:06
2026-03-08 19:12:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領航智能+時代
14670文章數(shù) 66667關注度
往期回顧 全部

科技要聞

OpenClaw最大的推手是閑魚和小紅書

頭條要聞

美軍精銳空降師4000余人進入待命 被指或要推地面戰(zhàn)

頭條要聞

美軍精銳空降師4000余人進入待命 被指或要推地面戰(zhàn)

體育要聞

大傷后被交易,他說:22歲的我已經(jīng)死了

娛樂要聞

周迅新戀情曝光,李亞鵬等人已成過去

財經(jīng)要聞

油價要失控?

汽車要聞

9分鐘充飽 全新騰勢Z9GT首搭閃充技術(shù)26.98萬起

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
本地
公開課
軍事航空

數(shù)碼要聞

2025年印度PC市場出貨量創(chuàng)歷史新高,首次突破1500萬臺

藝術(shù)要聞

“巨胎之王”斥資8.8億!海安集團總部動工,莆田又一新地標!

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

王毅:解決臺灣問題 實現(xiàn)祖國完全統(tǒng)一不可阻擋

無障礙瀏覽 進入關懷版