国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

SpatialActor通過解耦語義與幾何,為具身智能注入強魯棒空間基因

0
分享至



機器人操作模型雖然在語義理解上取得巨大成功,但往往被困在 2D 圖像的「錯覺」中。現(xiàn)有的機器人操作模型主要依賴 2D 圖像作為輸入,這意味著它們?nèi)菀讈G失關(guān)鍵的深度信息和 3D 幾何結(jié)構(gòu)。

具體而言,基于點云的方法受限于稀疏采樣,導(dǎo)致細(xì)粒度語義信息的丟失;基于圖像的方法通常將 RGB 和深度信息輸入到在 3D 輔助任務(wù)上訓(xùn)練的 2D 骨干網(wǎng)絡(luò)中,但它們糾纏在一起的語義和幾何特征對現(xiàn)實世界中固有的深度噪聲非常敏感,從而干擾了語義理解。



圖 1:不同方法的對比

針對這一痛點,Dexmal 原力靈機作者團隊提出 SpatialActor,該工作核心在于 「解耦」(Disentanglement):它不再將視覺信息混為一談,而是明確地將語義信息(這是什么?)與空間幾何信息(它在哪里?形狀如何?)分離開來,從而實現(xiàn)語義流與空間流的雙流解耦與后期融合。

作者通過引入顯式的 3D 空間編碼器,并將其與強大的視覺語言模型結(jié)合,使機器人不僅能「讀懂」指令,更能「感知」三維空間。作者在包含 50 多個任務(wù)的多個仿真和真實世界場景中評估了 SpatialActor。它在 RLBench 上取得了 87.4% 的成績,達到 SOTA 水平;在不同噪聲條件下,性能提升了 13.9% 至 19.4%,展現(xiàn)出強大的魯棒性。目前該論文已被收錄為 AAAI 2026 Oral,并將于近期開源。



  • 論文名稱:SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation
  • 論文鏈接:https://arxiv.org/abs/2511.09555
  • 項目主頁:https://shihao1895.github.io/SpatialActor/

方法與架構(gòu)

作者認(rèn)為,機器人操作本質(zhì)上需要兩種能力的協(xié)同:一是對任務(wù)目標(biāo)的語義理解(由 VLM 提供),二是對環(huán)境幾何的精確把控(由 3D 表征提供)。SpatialActor 并沒有試圖訓(xùn)練一個全能的端到端網(wǎng)絡(luò),而是采用了一種「雙流解耦 - 融合」的架構(gòu)設(shè)計。

整體架構(gòu)



圖 2:SpatialActor 架構(gòu)概覽

該架構(gòu)采用了獨立的視覺與深度編碼器。語義引導(dǎo)幾何模塊(SGM)通過門控融合機制,將來自預(yù)訓(xùn)練深度專家的魯棒但缺乏細(xì)粒度信息的幾何先驗與含噪但有逐像素細(xì)節(jié)的深度特征自適應(yīng)地結(jié)合,從而生成高層幾何表征。

在空間 Transformer(SPT)中,低層空間線索被編碼為位置嵌入,用以驅(qū)動空間交互。最后,視圖級交互優(yōu)化了視圖內(nèi)的特征,而場景級交互則整合了跨視圖的跨模態(tài)信息,為后續(xù)的動作頭提供支持。

語義引導(dǎo)幾何模塊(SGM)

由于傳感器的局限性和環(huán)境干擾,現(xiàn)實世界的深度測量往往含有噪聲,而 RGB 圖像則能提供高信噪比的語義線索。大規(guī)模預(yù)訓(xùn)練深度估計模型學(xué)習(xí)到了平滑的 “語義到幾何” 映射,能夠提供魯棒且通用的幾何先驗。相比之下,原始深度特征雖然保留了細(xì)粒度的像素級細(xì)節(jié),但對噪聲高度敏感。

為此,SGM 模塊通過一個凍結(jié)的大規(guī)模預(yù)訓(xùn)練深度估計專家模型從 RGB 輸入中提取魯棒但粗粒度的幾何先驗,同時利用深度編碼器從原始深度中提取細(xì)粒度但含噪的幾何特征。如圖 3 (a) 所示,SGM 模塊通過一個多尺度門控機制自適應(yīng)地融合這些特征,從而生成優(yōu)化后的幾何表征;該表征在保留細(xì)微細(xì)節(jié)的同時降低了噪聲,并與語義線索保持對齊。



圖 3:語義引導(dǎo)幾何模塊和空間 Transformer

空間 Transformer(SPT)

如圖 3 (b) 所示,SPT 模塊旨在建立精確的 2D 至 3D 映射并融合多模態(tài)特征,是生成精準(zhǔn)動作的關(guān)鍵。首先,模塊將視覺得到的空間特征與機器人本體感知信息(如關(guān)節(jié)狀態(tài))融合。利用相機內(nèi)外參矩陣和深度信息,模型將圖像像素坐標(biāo)轉(zhuǎn)換為機器人基座坐標(biāo)系下的三維坐標(biāo),并采用旋轉(zhuǎn)位置編碼技術(shù)將這些三維幾何信息嵌入特征中,賦予其低層的空間感知。

在特征交互層面,SPT 依次執(zhí)行視圖級和場景級注意力機制:前者優(yōu)化單視圖內(nèi)部表征,后者聚合所有視圖與語言指令特征,實現(xiàn)跨模態(tài)的全局上下文融合。最終,解碼器通過預(yù)測熱力圖確定動作的三維平移位置,并基于該位置的局部特征回歸計算旋轉(zhuǎn)角度和夾爪開閉狀態(tài),完成端到端的動作生成。

實驗結(jié)果

為了全面評估 SpatialActor 的有效性,作者在仿真和真實世界環(huán)境中均開展了實驗,既比較其與當(dāng)前最先進方法的表現(xiàn),也考察其在噪聲干擾下的魯棒性,并進一步驗證其在真實機器人上的實際表現(xiàn)。

仿真基準(zhǔn)測試結(jié)果



表 1:RLBench 仿真測試結(jié)果

作者給出了 SpatialActor 在 18 個 RLBench 任務(wù)及其 249 種變體上的成功率。SpatialActor 取得了最佳的整體性能,超越了此前的 SOTA 模型 RVT-2 6.0%。值得注意的是,在諸如 Insert Peg(插銷釘)和 Sort Shape(形狀分類)等需要高空間精度的任務(wù)中,SpatialActor 的表現(xiàn)分別優(yōu)于 RVT-2 53.3% 和 38.3%。

不同程度噪聲下的表現(xiàn)



表 2:不同程度噪聲下的表現(xiàn)

在噪聲實驗中,作者通過加入不同強度的高斯擾動模擬噪聲。結(jié)果表明,無論是輕度、中度還是重度噪聲,SpatialActor 的表現(xiàn)都始終明顯優(yōu)于 RVT-2,平均成功率分別提升 13.9%、16.9% 和 19.4%。在諸如 Insert Peg(插銷釘)這類需要高精度對位的任務(wù)中,這一差距更為突出,在三檔噪聲下分別高出 88.0%、78.6% 和 61.3%,展現(xiàn)出對噪聲干擾的強魯棒性。

真機實驗結(jié)果



圖 4:真機任務(wù)

在真機實驗中,作者使用一臺配備 Intel RealSense D435i RGB-D 相機的 WidowX 單臂機器人;并采用 8 個不同的任務(wù),共計 15 種變體。



表 6:真機結(jié)果

真機實驗結(jié)果如表 6 所示,SpatialActor 的表現(xiàn)持續(xù)優(yōu)于 RVT-2,各任務(wù)平均提升約 20%,證明其在真實場景中的有效性。為了評估針對分布變化的魯棒性,作者在被操作物體、接收物體、光照和背景發(fā)生變化的情況下對 SpatialActor 進行了測試。在這些多樣且極具挑戰(zhàn)性的條件下,SpatialActor 始終保持了高水平表現(xiàn),有力證明了其在復(fù)雜真實世界場景中的強大魯棒性與泛化能力。

結(jié)論

在本文中,作者提出了 SpatialActor,這是一個用于機器人操作的魯棒空間表征框架,旨在解決精確空間理解、傳感器噪聲以及有效交互帶來的挑戰(zhàn)。SpatialActor 將語義信息與幾何信息進行了解耦,并將幾何分支劃分為高層和低層兩個組件:SGM 將語義引導(dǎo)的幾何先驗與原始深度特征自適應(yīng)融合,以構(gòu)建魯棒的高層幾何;而 SPT 則通過位置感知交互捕捉低層空間線索。

在 50 多個仿真和真實世界任務(wù)上進行的廣泛實驗表明,SpatialActor 在多樣化的條件下均取得了更高的成功率和強大的魯棒性。這些結(jié)果凸顯了解耦的空間表征對于開發(fā)更加魯棒且具備泛化能力的機器人系統(tǒng)的重要性。

附論

機器人操作可以分解為兩個維度:空間感知與時序理解。前者關(guān)注如何將視覺與語言映射為精確的 6-DoF 位姿,實現(xiàn)對當(dāng)前場景的物理 Grounding;后者則需要基于當(dāng)前與過往的歷史狀態(tài),連續(xù)做出多個決策以完成長期目標(biāo)。



但是,真實世界的操作并非靜態(tài)的空間問題,而是貫穿時間的連續(xù)過程。機器人不僅要抓得準(zhǔn),還必須記得住之前的關(guān)鍵狀態(tài),才能在長程任務(wù)中真正抓得對。這使得記憶機制成為連接空間操作與長程決策的關(guān)鍵能力。

受人類大腦「工作記憶」與「海馬體」記憶機制的啟發(fā),作者團隊還提出了 MemoryVLA,創(chuàng)新性地引入「感知 - 認(rèn)知記憶」到 VLA,在決策時智能地從記憶庫中「回憶」相關(guān)歷史信息,實現(xiàn)時序感知的決策。更多信息可以參考:

  • 論文:https://arxiv.org/abs/2508.19236
  • 項目主頁:https://shihao1895.github.io/MemoryVLA
  • GitHub:https://github.com/shihao1895/MemoryVLA

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
阿韋洛亞:我覺得最大的丑聞就是三年了,內(nèi)格雷拉案還沒解決

阿韋洛亞:我覺得最大的丑聞就是三年了,內(nèi)格雷拉案還沒解決

懂球帝
2026-02-24 23:09:06
1943年,美國總統(tǒng)羅斯福提議,讓越南回歸中國,蔣介石:我不要

1943年,美國總統(tǒng)羅斯福提議,讓越南回歸中國,蔣介石:我不要

浩渺青史
2026-01-08 07:56:32
馬筱梅大方曬兒子正臉照!母子倆合影太可愛了,汪大爺抱孫子開心

馬筱梅大方曬兒子正臉照!母子倆合影太可愛了,汪大爺抱孫子開心

草莓解說體育
2026-02-24 20:16:03
她和奧運冠軍馬琳離婚分走千萬,再婚嫁給金融學(xué)霸,如今現(xiàn)狀如何

她和奧運冠軍馬琳離婚分走千萬,再婚嫁給金融學(xué)霸,如今現(xiàn)狀如何

談史論天地
2026-02-24 11:08:06
母親獨自農(nóng)村過年,女兒打開監(jiān)控淚目了,客廳堆滿柴卻沒一點聲音

母親獨自農(nóng)村過年,女兒打開監(jiān)控淚目了,客廳堆滿柴卻沒一點聲音

子芫伴你成長
2026-02-24 08:10:06
當(dāng)?shù)厝艘脖辉?,蓬萊酒樓屢教不改連夜被摘牌,老板透露身份還掙扎

當(dāng)?shù)厝艘脖辉?,蓬萊酒樓屢教不改連夜被摘牌,老板透露身份還掙扎

社會日日鮮
2026-02-24 09:27:23
消息一出,日本軍工圈徹底傻眼!中國這次精準(zhǔn)掐住了它的軍工命脈

消息一出,日本軍工圈徹底傻眼!中國這次精準(zhǔn)掐住了它的軍工命脈

霽寒飄雪
2026-02-24 19:30:32
長和:反對巴拿馬政府強行接管巴拿馬港口公司之資產(chǎn)、員工與營運

長和:反對巴拿馬政府強行接管巴拿馬港口公司之資產(chǎn)、員工與營運

財聯(lián)社
2026-02-24 11:55:06
熊黛林這兩張照片一副生無可戀的炫耀 不知道郭富誠看后會不會哇噻

熊黛林這兩張照片一副生無可戀的炫耀 不知道郭富誠看后會不會哇噻

情感大頭說說
2026-02-24 22:52:44
封神!卡里克9場不敗創(chuàng)曼聯(lián)隊史神跡,6周超越阿莫林半年的努力

封神!卡里克9場不敗創(chuàng)曼聯(lián)隊史神跡,6周超越阿莫林半年的努力

小七七體育解說
2026-02-24 09:13:19
中國隊奪冠獎金曝光!12人獲重獎!李琰霸氣表態(tài):帶隊就要奪冠軍

中國隊奪冠獎金曝光!12人獲重獎!李琰霸氣表態(tài):帶隊就要奪冠軍

何老師呀
2026-02-24 07:04:26
汪小菲官宣三胎生子!曬馬筱梅和小寶貝合影,爺爺抱著他愛不釋手

汪小菲官宣三胎生子!曬馬筱梅和小寶貝合影,爺爺抱著他愛不釋手

TVB的四小花
2026-02-24 16:45:39
定了?北京一高校有望更名為“大學(xué)”,四個校名呼聲高,哪個更靠譜一些?

定了?北京一高校有望更名為“大學(xué)”,四個校名呼聲高,哪個更靠譜一些?

娛樂的宅急便
2026-02-24 21:58:02
香港身份爛尾潮已來!12萬內(nèi)地中產(chǎn),正在被精準(zhǔn)收割

香港身份爛尾潮已來!12萬內(nèi)地中產(chǎn),正在被精準(zhǔn)收割

社會日日鮮
2026-02-22 04:38:12
被打女孩至今半昏迷!打人夫妻徹底栽了,網(wǎng)友:比唐山打人案更狠

被打女孩至今半昏迷!打人夫妻徹底栽了,網(wǎng)友:比唐山打人案更狠

愛寫的櫻桃
2026-02-23 22:06:50
《鏢人》持續(xù)逆襲,續(xù)集即將啟動,吳京后續(xù)還有三部王炸

《鏢人》持續(xù)逆襲,續(xù)集即將啟動,吳京后續(xù)還有三部王炸

光影新天地
2026-02-23 12:01:56
福建釣友運氣爆棚!釣到一條“大黃魚”值50克黃金,被人6萬高價買走

福建釣友運氣爆棚!釣到一條“大黃魚”值50克黃金,被人6萬高價買走

健身狂人
2026-02-24 19:49:36
否極泰來,“破凈股”中國中鐵逆襲漲停

否極泰來,“破凈股”中國中鐵逆襲漲停

21世紀(jì)經(jīng)濟報道
2026-02-24 17:45:10
為啥現(xiàn)在臺灣省演員在大陸不火了 網(wǎng)友說知道吳克群焦恩俊立場嗎

為啥現(xiàn)在臺灣省演員在大陸不火了 網(wǎng)友說知道吳克群焦恩俊立場嗎

侃神評故事
2026-02-24 17:45:03
閆學(xué)晶被曝新動態(tài),求趙本山拉一把被拒,老趙當(dāng)年就看出來了

閆學(xué)晶被曝新動態(tài),求趙本山拉一把被拒,老趙當(dāng)年就看出來了

非常先生看娛樂
2026-02-06 17:35:21
2026-02-25 00:20:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12344文章數(shù) 142569關(guān)注度
往期回顧 全部

科技要聞

宇樹科技發(fā)布四足機器人Unitree As2

頭條要聞

男子摟住繼女強吻動作親密 當(dāng)?shù)貗D聯(lián)介入

頭條要聞

男子摟住繼女強吻動作親密 當(dāng)?shù)貗D聯(lián)介入

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經(jīng)要聞

縣城消費「限時繁榮」了十天

汽車要聞

入門即滿配 威蘭達AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

親子
游戲
本地
數(shù)碼
藝術(shù)

親子要聞

我嫁中國生了3個孩子,每天帶娃堪比春晚!

LOL傳奇選手公布戀情!發(fā)博曬照被夸夫妻相,女方身份曝光

本地新聞

春花齊放2026:《駿馬奔騰迎新歲》

數(shù)碼要聞

299元雙模電競鼠標(biāo),專為中小手設(shè)計?

藝術(shù)要聞

2025年第八屆全國青年美展 | 油畫作品選刊

無障礙瀏覽 進入關(guān)懷版