国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

SpatialActor通過(guò)解耦語(yǔ)義與幾何,為具身智能注入強(qiáng)魯棒空間基因

0
分享至



機(jī)器人操作模型雖然在語(yǔ)義理解上取得巨大成功,但往往被困在 2D 圖像的「錯(cuò)覺(jué)」中?,F(xiàn)有的機(jī)器人操作模型主要依賴 2D 圖像作為輸入,這意味著它們?nèi)菀讈G失關(guān)鍵的深度信息和 3D 幾何結(jié)構(gòu)。

具體而言,基于點(diǎn)云的方法受限于稀疏采樣,導(dǎo)致細(xì)粒度語(yǔ)義信息的丟失;基于圖像的方法通常將 RGB 和深度信息輸入到在 3D 輔助任務(wù)上訓(xùn)練的 2D 骨干網(wǎng)絡(luò)中,但它們糾纏在一起的語(yǔ)義和幾何特征對(duì)現(xiàn)實(shí)世界中固有的深度噪聲非常敏感,從而干擾了語(yǔ)義理解。



圖 1:不同方法的對(duì)比

針對(duì)這一痛點(diǎn),Dexmal 原力靈機(jī)作者團(tuán)隊(duì)提出 SpatialActor,該工作核心在于 「解耦」(Disentanglement):它不再將視覺(jué)信息混為一談,而是明確地將語(yǔ)義信息(這是什么?)與空間幾何信息(它在哪里?形狀如何?)分離開來(lái),從而實(shí)現(xiàn)語(yǔ)義流與空間流的雙流解耦與后期融合。

作者通過(guò)引入顯式的 3D 空間編碼器,并將其與強(qiáng)大的視覺(jué)語(yǔ)言模型結(jié)合,使機(jī)器人不僅能「讀懂」指令,更能「感知」三維空間。作者在包含 50 多個(gè)任務(wù)的多個(gè)仿真和真實(shí)世界場(chǎng)景中評(píng)估了 SpatialActor。它在 RLBench 上取得了 87.4% 的成績(jī),達(dá)到 SOTA 水平;在不同噪聲條件下,性能提升了 13.9% 至 19.4%,展現(xiàn)出強(qiáng)大的魯棒性。目前該論文已被收錄為 AAAI 2026 Oral,并將于近期開源。



  • 論文名稱:SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation
  • 論文鏈接:https://arxiv.org/abs/2511.09555
  • 項(xiàng)目主頁(yè):https://shihao1895.github.io/SpatialActor/

方法與架構(gòu)

作者認(rèn)為,機(jī)器人操作本質(zhì)上需要兩種能力的協(xié)同:一是對(duì)任務(wù)目標(biāo)的語(yǔ)義理解(由 VLM 提供),二是對(duì)環(huán)境幾何的精確把控(由 3D 表征提供)。SpatialActor 并沒(méi)有試圖訓(xùn)練一個(gè)全能的端到端網(wǎng)絡(luò),而是采用了一種「雙流解耦 - 融合」的架構(gòu)設(shè)計(jì)。

整體架構(gòu)



圖 2:SpatialActor 架構(gòu)概覽

該架構(gòu)采用了獨(dú)立的視覺(jué)與深度編碼器。語(yǔ)義引導(dǎo)幾何模塊(SGM)通過(guò)門控融合機(jī)制,將來(lái)自預(yù)訓(xùn)練深度專家的魯棒但缺乏細(xì)粒度信息的幾何先驗(yàn)與含噪但有逐像素細(xì)節(jié)的深度特征自適應(yīng)地結(jié)合,從而生成高層幾何表征。

在空間 Transformer(SPT)中,低層空間線索被編碼為位置嵌入,用以驅(qū)動(dòng)空間交互。最后,視圖級(jí)交互優(yōu)化了視圖內(nèi)的特征,而場(chǎng)景級(jí)交互則整合了跨視圖的跨模態(tài)信息,為后續(xù)的動(dòng)作頭提供支持。

語(yǔ)義引導(dǎo)幾何模塊(SGM)

由于傳感器的局限性和環(huán)境干擾,現(xiàn)實(shí)世界的深度測(cè)量往往含有噪聲,而 RGB 圖像則能提供高信噪比的語(yǔ)義線索。大規(guī)模預(yù)訓(xùn)練深度估計(jì)模型學(xué)習(xí)到了平滑的 “語(yǔ)義到幾何” 映射,能夠提供魯棒且通用的幾何先驗(yàn)。相比之下,原始深度特征雖然保留了細(xì)粒度的像素級(jí)細(xì)節(jié),但對(duì)噪聲高度敏感。

為此,SGM 模塊通過(guò)一個(gè)凍結(jié)的大規(guī)模預(yù)訓(xùn)練深度估計(jì)專家模型從 RGB 輸入中提取魯棒但粗粒度的幾何先驗(yàn),同時(shí)利用深度編碼器從原始深度中提取細(xì)粒度但含噪的幾何特征。如圖 3 (a) 所示,SGM 模塊通過(guò)一個(gè)多尺度門控機(jī)制自適應(yīng)地融合這些特征,從而生成優(yōu)化后的幾何表征;該表征在保留細(xì)微細(xì)節(jié)的同時(shí)降低了噪聲,并與語(yǔ)義線索保持對(duì)齊。



圖 3:語(yǔ)義引導(dǎo)幾何模塊和空間 Transformer

空間 Transformer(SPT)

如圖 3 (b) 所示,SPT 模塊旨在建立精確的 2D 至 3D 映射并融合多模態(tài)特征,是生成精準(zhǔn)動(dòng)作的關(guān)鍵。首先,模塊將視覺(jué)得到的空間特征與機(jī)器人本體感知信息(如關(guān)節(jié)狀態(tài))融合。利用相機(jī)內(nèi)外參矩陣和深度信息,模型將圖像像素坐標(biāo)轉(zhuǎn)換為機(jī)器人基座坐標(biāo)系下的三維坐標(biāo),并采用旋轉(zhuǎn)位置編碼技術(shù)將這些三維幾何信息嵌入特征中,賦予其低層的空間感知。

在特征交互層面,SPT 依次執(zhí)行視圖級(jí)和場(chǎng)景級(jí)注意力機(jī)制:前者優(yōu)化單視圖內(nèi)部表征,后者聚合所有視圖與語(yǔ)言指令特征,實(shí)現(xiàn)跨模態(tài)的全局上下文融合。最終,解碼器通過(guò)預(yù)測(cè)熱力圖確定動(dòng)作的三維平移位置,并基于該位置的局部特征回歸計(jì)算旋轉(zhuǎn)角度和夾爪開閉狀態(tài),完成端到端的動(dòng)作生成。

實(shí)驗(yàn)結(jié)果

為了全面評(píng)估 SpatialActor 的有效性,作者在仿真和真實(shí)世界環(huán)境中均開展了實(shí)驗(yàn),既比較其與當(dāng)前最先進(jìn)方法的表現(xiàn),也考察其在噪聲干擾下的魯棒性,并進(jìn)一步驗(yàn)證其在真實(shí)機(jī)器人上的實(shí)際表現(xiàn)。

仿真基準(zhǔn)測(cè)試結(jié)果



表 1:RLBench 仿真測(cè)試結(jié)果

作者給出了 SpatialActor 在 18 個(gè) RLBench 任務(wù)及其 249 種變體上的成功率。SpatialActor 取得了最佳的整體性能,超越了此前的 SOTA 模型 RVT-2 6.0%。值得注意的是,在諸如 Insert Peg(插銷釘)和 Sort Shape(形狀分類)等需要高空間精度的任務(wù)中,SpatialActor 的表現(xiàn)分別優(yōu)于 RVT-2 53.3% 和 38.3%。

不同程度噪聲下的表現(xiàn)



表 2:不同程度噪聲下的表現(xiàn)

在噪聲實(shí)驗(yàn)中,作者通過(guò)加入不同強(qiáng)度的高斯擾動(dòng)模擬噪聲。結(jié)果表明,無(wú)論是輕度、中度還是重度噪聲,SpatialActor 的表現(xiàn)都始終明顯優(yōu)于 RVT-2,平均成功率分別提升 13.9%、16.9% 和 19.4%。在諸如 Insert Peg(插銷釘)這類需要高精度對(duì)位的任務(wù)中,這一差距更為突出,在三檔噪聲下分別高出 88.0%、78.6% 和 61.3%,展現(xiàn)出對(duì)噪聲干擾的強(qiáng)魯棒性。

真機(jī)實(shí)驗(yàn)結(jié)果



圖 4:真機(jī)任務(wù)

在真機(jī)實(shí)驗(yàn)中,作者使用一臺(tái)配備 Intel RealSense D435i RGB-D 相機(jī)的 WidowX 單臂機(jī)器人;并采用 8 個(gè)不同的任務(wù),共計(jì) 15 種變體。



表 6:真機(jī)結(jié)果

真機(jī)實(shí)驗(yàn)結(jié)果如表 6 所示,SpatialActor 的表現(xiàn)持續(xù)優(yōu)于 RVT-2,各任務(wù)平均提升約 20%,證明其在真實(shí)場(chǎng)景中的有效性。為了評(píng)估針對(duì)分布變化的魯棒性,作者在被操作物體、接收物體、光照和背景發(fā)生變化的情況下對(duì) SpatialActor 進(jìn)行了測(cè)試。在這些多樣且極具挑戰(zhàn)性的條件下,SpatialActor 始終保持了高水平表現(xiàn),有力證明了其在復(fù)雜真實(shí)世界場(chǎng)景中的強(qiáng)大魯棒性與泛化能力。

結(jié)論

在本文中,作者提出了 SpatialActor,這是一個(gè)用于機(jī)器人操作的魯棒空間表征框架,旨在解決精確空間理解、傳感器噪聲以及有效交互帶來(lái)的挑戰(zhàn)。SpatialActor 將語(yǔ)義信息與幾何信息進(jìn)行了解耦,并將幾何分支劃分為高層和低層兩個(gè)組件:SGM 將語(yǔ)義引導(dǎo)的幾何先驗(yàn)與原始深度特征自適應(yīng)融合,以構(gòu)建魯棒的高層幾何;而 SPT 則通過(guò)位置感知交互捕捉低層空間線索。

在 50 多個(gè)仿真和真實(shí)世界任務(wù)上進(jìn)行的廣泛實(shí)驗(yàn)表明,SpatialActor 在多樣化的條件下均取得了更高的成功率和強(qiáng)大的魯棒性。這些結(jié)果凸顯了解耦的空間表征對(duì)于開發(fā)更加魯棒且具備泛化能力的機(jī)器人系統(tǒng)的重要性。

附論

機(jī)器人操作可以分解為兩個(gè)維度:空間感知與時(shí)序理解。前者關(guān)注如何將視覺(jué)與語(yǔ)言映射為精確的 6-DoF 位姿,實(shí)現(xiàn)對(duì)當(dāng)前場(chǎng)景的物理 Grounding;后者則需要基于當(dāng)前與過(guò)往的歷史狀態(tài),連續(xù)做出多個(gè)決策以完成長(zhǎng)期目標(biāo)。



但是,真實(shí)世界的操作并非靜態(tài)的空間問(wèn)題,而是貫穿時(shí)間的連續(xù)過(guò)程。機(jī)器人不僅要抓得準(zhǔn),還必須記得住之前的關(guān)鍵狀態(tài),才能在長(zhǎng)程任務(wù)中真正抓得對(duì)。這使得記憶機(jī)制成為連接空間操作與長(zhǎng)程決策的關(guān)鍵能力。

受人類大腦「工作記憶」與「海馬體」記憶機(jī)制的啟發(fā),作者團(tuán)隊(duì)還提出了 MemoryVLA,創(chuàng)新性地引入「感知 - 認(rèn)知記憶」到 VLA,在決策時(shí)智能地從記憶庫(kù)中「回憶」相關(guān)歷史信息,實(shí)現(xiàn)時(shí)序感知的決策。更多信息可以參考:

  • 論文:https://arxiv.org/abs/2508.19236
  • 項(xiàng)目主頁(yè):https://shihao1895.github.io/MemoryVLA
  • GitHub:https://github.com/shihao1895/MemoryVLA

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鄭麗文到北京碧云寺!穿咖色風(fēng)衣與藍(lán)牛仔褲很減齡,還松弛感滿滿

鄭麗文到北京碧云寺!穿咖色風(fēng)衣與藍(lán)牛仔褲很減齡,還松弛感滿滿

八八尚語(yǔ)
2026-04-11 12:39:16
新加坡網(wǎng)友發(fā)帖:“我接受不了自己以游客身份進(jìn)入中國(guó)”。

新加坡網(wǎng)友發(fā)帖:“我接受不了自己以游客身份進(jìn)入中國(guó)”。

荊楚寰宇文樞
2026-04-11 17:21:54
山西陽(yáng)泉一佳人太漂亮了,五官精致, 身高170,美得讓人移不開眼

山西陽(yáng)泉一佳人太漂亮了,五官精致, 身高170,美得讓人移不開眼

手工制作阿殲
2026-04-09 12:22:25
洗臉熊一夜成名!公司聊天記錄流出,網(wǎng)友:500萬(wàn)花出5億的效果

洗臉熊一夜成名!公司聊天記錄流出,網(wǎng)友:500萬(wàn)花出5億的效果

火山詩(shī)話
2026-04-11 07:38:12
廣東1歲娃半夜翻身,掉進(jìn)床縫站著睡著了,父母一小時(shí)后才發(fā)現(xiàn):連續(xù)幾天沒(méi)休息好,一下睡太沉,特別自責(zé)

廣東1歲娃半夜翻身,掉進(jìn)床縫站著睡著了,父母一小時(shí)后才發(fā)現(xiàn):連續(xù)幾天沒(méi)休息好,一下睡太沉,特別自責(zé)

環(huán)球網(wǎng)資訊
2026-04-11 10:41:26
爆大冷!1-2!英超領(lǐng)頭羊轟然倒下,主場(chǎng)淪陷,阿爾特塔不敢相信

爆大冷!1-2!英超領(lǐng)頭羊轟然倒下,主場(chǎng)淪陷,阿爾特塔不敢相信

足球狗說(shuō)
2026-04-11 21:24:33
阿爾卡拉斯苦戰(zhàn)2小時(shí)逆轉(zhuǎn),決賽再碰辛納火藥味拉滿

阿爾卡拉斯苦戰(zhàn)2小時(shí)逆轉(zhuǎn),決賽再碰辛納火藥味拉滿

賽場(chǎng)速報(bào)局
2026-04-12 02:42:41
“這種人誰(shuí)敢錄?”39歲華東師范考生舉報(bào)第一名,學(xué)?;貞?yīng)來(lái)了

“這種人誰(shuí)敢錄?”39歲華東師范考生舉報(bào)第一名,學(xué)?;貞?yīng)來(lái)了

妍妍教育日記
2026-04-09 10:55:07
周一見(jiàn)12年后,文章開店客流爆滿,馬伊琍蛻變,唯有姚笛復(fù)出艱難

周一見(jiàn)12年后,文章開店客流爆滿,馬伊琍蛻變,唯有姚笛復(fù)出艱難

萌神木木
2026-04-11 20:56:36
鄭麗文在北京新造型!穿藍(lán)紫色西服彰顯貴氣,還雙手背后很有氣勢(shì)

鄭麗文在北京新造型!穿藍(lán)紫色西服彰顯貴氣,還雙手背后很有氣勢(shì)

八八尚語(yǔ)
2026-04-10 12:58:23
過(guò)午不食?55歲男子堅(jiān)持2年不吃晚飯,去體檢后,他的胃怎樣了?

過(guò)午不食?55歲男子堅(jiān)持2年不吃晚飯,去體檢后,他的胃怎樣了?

白話電影院
2026-04-09 14:36:58
傳其父親多次嘲諷全紅嬋!25歲跳水冠軍社媒遭圍攻:虧她把你當(dāng)哥

傳其父親多次嘲諷全紅嬋!25歲跳水冠軍社媒遭圍攻:虧她把你當(dāng)哥

風(fēng)過(guò)鄉(xiāng)
2026-04-11 13:04:15
伊朗發(fā)布攔截美艦進(jìn)入霍爾木茲海峽細(xì)節(jié)

伊朗發(fā)布攔截美艦進(jìn)入霍爾木茲海峽細(xì)節(jié)

新華社
2026-04-12 04:18:01
兩蔣棺槨終有歸處?奉化溪口安葬方案已定,牽動(dòng)人心

兩蔣棺槨終有歸處?奉化溪口安葬方案已定,牽動(dòng)人心

新車知多少
2026-04-12 00:12:44
天才少女神話終結(jié),國(guó)羽女單時(shí)隔7年再奪冠,三國(guó)鼎立時(shí)代來(lái)臨

天才少女神話終結(jié),國(guó)羽女單時(shí)隔7年再奪冠,三國(guó)鼎立時(shí)代來(lái)臨

春日筆記
2026-03-09 18:04:47
只要和平不要統(tǒng)一?鄭麗文明確表態(tài),國(guó)民黨三人罕見(jiàn)支持,不簡(jiǎn)單

只要和平不要統(tǒng)一?鄭麗文明確表態(tài),國(guó)民黨三人罕見(jiàn)支持,不簡(jiǎn)單

起喜電影
2026-04-12 00:07:31
48架F-35壓境,美日撕破臉!王毅專機(jī)直插平壤,中朝抄了美軍后路

48架F-35壓境,美日撕破臉!王毅專機(jī)直插平壤,中朝抄了美軍后路

基斯默默
2026-04-11 11:19:29
張雪夸同行豪爵踏板,豪爵老板回應(yīng):當(dāng)時(shí)我就震驚了!

張雪夸同行豪爵踏板,豪爵老板回應(yīng):當(dāng)時(shí)我就震驚了!

童叔不飆車
2026-04-09 20:43:06
東風(fēng)日產(chǎn)高管回應(yīng)李想朋友圈喊話:尊重每一家同行,包括理想汽車

東風(fēng)日產(chǎn)高管回應(yīng)李想朋友圈喊話:尊重每一家同行,包括理想汽車

金融界
2026-04-11 20:56:16
CBA歷史最差!榜尾大戰(zhàn)四川慘負(fù)天津吞37連敗 跨賽季42連敗

CBA歷史最差!榜尾大戰(zhàn)四川慘負(fù)天津吞37連敗 跨賽季42連敗

醉臥浮生
2026-04-11 21:15:44
2026-04-12 08:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12729文章數(shù) 142623關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

伊朗總統(tǒng)與法國(guó)總統(tǒng)通電話 稱美伊談判成敗取決于美方

頭條要聞

伊朗總統(tǒng)與法國(guó)總統(tǒng)通電話 稱美伊談判成敗取決于美方

體育要聞

換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

娛樂(lè)要聞

鄭鈞回應(yīng)兒子走路:會(huì)監(jiān)督他挺直腰板

財(cái)經(jīng)要聞

從日本翻身看:這次誰(shuí)能扛住高油價(jià)?

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

本地
時(shí)尚
游戲
手機(jī)
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

普通人穿衣其實(shí)很簡(jiǎn)單!構(gòu)造腰線、一衣多穿,大方舒適又自然

排面拉滿!《影之刃零》入選國(guó)家級(jí)藝術(shù)雜志

手機(jī)要聞

谷歌Pixel系列更新后出問(wèn)題,官方已承認(rèn)正在調(diào)查

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版