国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ReconVLA:具身智能研究首次獲得AI頂級會議最佳論文獎

0
分享至



在長期以來的 AI 研究版圖中,具身智能雖然在機器人操作、自動化系統(tǒng)與現(xiàn)實應用中至關重要,卻常被視為「系統(tǒng)工程驅(qū)動」的研究方向,鮮少被認為能夠在 AI 核心建模范式上產(chǎn)生決定性影響。

而 ReconVLA 獲得 AAAIOutstandingPaper Awards,釋放了一個清晰而重要的信號:讓智能體在真實世界中「看、想、做」的能力,已經(jīng)成為人工智能研究的核心問題之一。

這是具身智能(Embodied Intelligence / Vision-Language-Action)方向歷史上,首次獲得 AI 頂級會議 Best Paper 的研究工作。這是一次真正意義上的 community-level 認可:不僅是對某一個模型、某一項指標的認可,更是對具身智能作為通用智能核心范式之一的肯定。



  • 論文標題:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
  • 論文地址:https://arxiv.org/abs/2508.10333
  • 論文代碼:https://github.com/Chowzy069/Reconvla

VLA 模型關鍵瓶頸:機器人真「看準」了嗎?



近年來,Vision-Language-Action(VLA)模型在多任務學習與長時序操作中取得了顯著進展。然而,我們在大量實驗中發(fā)現(xiàn),一個基礎但被長期忽視的問題嚴重制約了其性能上限:視覺注意力難以穩(wěn)定、精準地聚焦于任務相關目標。

以指令「將藍色積木放到粉色積木上」為例,模型需要在復雜背景中持續(xù)鎖定「藍色積木」和「粉色積木」。但現(xiàn)實中,許多 VLA 模型的視覺注意力呈現(xiàn)為近似均勻分布,不同于人類行為專注于目標物體,VLA 模型容易被無關物體或背景干擾,從而導致抓取或放置失敗。

已有工作主要通過以下方式嘗試緩解這一問題:

  • 顯式裁剪或檢測目標區(qū)域(Explicit Grounding)
  • 預測目標邊界框作為中間輸出(COT Grounding)

然而,這些方法并未從根本上改變模型自身的視覺表征與注意力分配機制,提升效果有限。

ReconVLA:重建式隱式視覺定位的新范式


為解決上述瓶頸,我們提出ReconVLA,一種重建式(Reconstructive)Vision-Language-Action 模型。其核心思想是:

不要求模型顯式輸出「看哪里」,而是通過「能否重建目標區(qū)域」,來約束模型必須學會精準關注關鍵物體。

在 ReconVLA 中,動作預測不再是唯一目標。在生成動作表征的同時,模型還需要完成一項輔助任務:

重建當前時刻所「凝視」的目標區(qū)域 ----- 我們稱之為 Gaze Region。

這一重建過程由輕量級擴散變換器(Diffusion Transformer)完成,并在潛在空間中進行高保真復原。由于要最小化重建誤差,模型被迫在其內(nèi)部視覺表示中編碼關于目標物體的精細語義與結構信息,從而在注意力層面實現(xiàn)隱式而穩(wěn)定的對齊。

這一機制更接近人類的視覺凝視行為,而非依賴外部檢測器或符號化坐標監(jiān)督。



方法概覽


ReconVLA 的整體框架由兩個協(xié)同分支組成:

1. 動作預測分支: 模型以多視角圖像、自然語言指令與機器人本體狀態(tài)為輸入,生成動作 token,直接驅(qū)動機器人執(zhí)行操作。

2. 視覺重建分支: 利用凍結的視覺 tokenizer,將指令關注的目標區(qū)域(Gaze region)編碼為高保真潛在 token。主干網(wǎng)絡額外輸出同維度的重建 token,并以此作為條件,引導擴散去噪過程逐步復原目標區(qū)域的視覺表示。

重建損失在像素與潛在空間層面為模型提供了隱式監(jiān)督,使視覺表征與動作決策在訓練過程中緊密耦合。



大規(guī)模重建預訓練


為賦予 ReconVLA 穩(wěn)定的視覺重建與泛化能力,我們構建了一個大規(guī)模機器人預訓練數(shù)據(jù)集:

  • 數(shù)據(jù)規(guī)模:超過 10 萬條交互軌跡,約 200 萬張圖像。
  • 數(shù)據(jù)來源:BridgeData V2、LIBERO、CALVIN 等開源機器人數(shù)據(jù)集。
  • 自動化標注:利用微調(diào)后的 Grounding DINO 或 Yolo 等方式,從原始圖像中自動生成指令對應的目標物體區(qū)域(Gaze region),用于重建監(jiān)督。

該預訓練過程不依賴動作標簽,卻顯著提升了模型在視覺重建、隱式 Grounding 以及跨場景泛化方面的能力,并為未來擴展至互聯(lián)網(wǎng)級視頻數(shù)據(jù)奠定了一定基礎。

實驗結果



在 CALVIN 仿真基準上,ReconVLA 在長時序任務中顯著優(yōu)于現(xiàn)有方法:

  • ABC→D 泛化任務:平均完成長度達到3.95,全面領先同期所有對比方法。
  • ABCD→D 長程任務:平均完成長度為4.23,完整任務成功率達70.5%。

值得一提的是,在 CALVIN 極具挑戰(zhàn)的長程任務「stack block」上我們的方法成功率達到 79.5%,遠高于 Baseline 的 59.3%,這說明我們的局部重建作為隱式監(jiān)督的方法可以在復雜長程任務中實現(xiàn)更靈活的運動規(guī)劃。



在真實機器人實驗中,我們基于 AgileX PiPer 六自由度機械臂,測試了疊碗、放水果、翻杯與清理餐桌等任務。ReconVLA 在所有任務上均顯著優(yōu)于 OpenVLA 與 PD-VLA,并在未見物體條件下仍保持 40% 以上的成功率,展現(xiàn)出強大的視覺泛化能力。



對比于 Explicit Grounding 和 COT Grounding,ReconVLA 在 CALVIN 上獲得了遠高于前兩者的成功率,由此可分析出:

僅用精細化的目標區(qū)域作為模型隱式監(jiān)督可以實現(xiàn)更加精確的注意力,更高的任務成功率以及更簡單的模型夾構。



而消融實驗表明:

1. 全圖重建仍然由于僅有動作監(jiān)督的基線,因為全圖重建提升了模型的全局感知和理解能力。但由于視覺冗余使得在未知環(huán)境下難以展現(xiàn)更好的效果。

2. 重建目標區(qū)域(Gaze region)具有顯著效果,這個機制使得模型專注于目標物體,避免被無關背景干擾。

3. 大規(guī)模預訓練顯著提升了模型在視覺重建,隱式 Grounding 及跨場景泛化的能力。

總結


ReconVLA 的核心貢獻并非引入更復雜的結構,而是重新審視了一個基礎問題:機器人是否真正理解了它正在注視的世界。

通過重建式隱式監(jiān)督,我們?yōu)?VLA 模型提供了一種更自然、更高效的視覺對齊機制,使機器人在復雜環(huán)境中做到「看得準、動得穩(wěn)」。

我們期待這一工作能夠推動具身智能從經(jīng)驗驅(qū)動的系統(tǒng)設計,邁向更加扎實、可擴展的通用智能研究范式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國已收到伊朗談判新方案

美國已收到伊朗談判新方案

界面新聞
2026-04-27 11:28:26
芬蘭外長突然發(fā)難:不和中國簽自貿(mào)協(xié)定!中方一句話淡定回應

芬蘭外長突然發(fā)難:不和中國簽自貿(mào)協(xié)定!中方一句話淡定回應

聞識
2026-04-27 12:07:18
觸目驚心!央視曝光上海一中醫(yī)館:從醫(yī)生到病人全是演員!

觸目驚心!央視曝光上海一中醫(yī)館:從醫(yī)生到病人全是演員!

人間頌
2026-04-20 10:16:00
一季度外貿(mào)高增長背后:一批中國工廠,正在“系統(tǒng)升級”

一季度外貿(mào)高增長背后:一批中國工廠,正在“系統(tǒng)升級”

正解局
2026-04-24 14:31:48
代縣推土埋人后續(xù):火到央媒,任某平多重身份曝光,村民病情加重

代縣推土埋人后續(xù):火到央媒,任某平多重身份曝光,村民病情加重

天天熱點見聞
2026-04-27 06:10:34
女大學生泰國旅游被轉(zhuǎn)賣緬甸園區(qū),照片流出長這么好看被折磨太慘

女大學生泰國旅游被轉(zhuǎn)賣緬甸園區(qū),照片流出長這么好看被折磨太慘

老貓觀點
2026-04-27 07:20:19
就在今天!NBA過去80年季后賽歷史記錄,被22歲的文班輕松達成了

就在今天!NBA過去80年季后賽歷史記錄,被22歲的文班輕松達成了

秋姐居
2026-04-27 14:36:49
最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
二手交易平臺能買“機場貴賓室使用權益”?買賣雙方均涉嫌違規(guī)

二手交易平臺能買“機場貴賓室使用權益”?買賣雙方均涉嫌違規(guī)

上觀新聞
2026-04-27 08:29:07
世錦賽最新戰(zhàn)報:吳宜澤10-6壓制塞爾比,世界排名前二領先

世錦賽最新戰(zhàn)報:吳宜澤10-6壓制塞爾比,世界排名前二領先

港灣無船
2026-04-27 12:53:49
四年虧光74億!華誼走到今天,全是當年坑周星馳作的!

四年虧光74億!華誼走到今天,全是當年坑周星馳作的!

喜歡歷史的阿繁
2026-04-26 14:01:13
草蜢40周年演唱會,蔡一杰首度公開病情:腦癌已擴散,但永不言棄

草蜢40周年演唱會,蔡一杰首度公開病情:腦癌已擴散,但永不言棄

一盅情懷
2026-04-27 09:48:43
30多家法院集體引用一部“空氣法”:這不是荒唐劇,是恐怖片

30多家法院集體引用一部“空氣法”:這不是荒唐劇,是恐怖片

迷世書童H9527
2026-04-25 14:15:25
斯諾克賽程:決出4席8強,吳宜澤生死戰(zhàn),火箭沖8冠,5虎變3虎?

斯諾克賽程:決出4席8強,吳宜澤生死戰(zhàn),火箭沖8冠,5虎變3虎?

劉姚堯的文字城堡
2026-04-27 07:56:16
南方黑芝麻創(chuàng)始人,被立案調(diào)查

南方黑芝麻創(chuàng)始人,被立案調(diào)查

第一財經(jīng)資訊
2026-04-27 09:28:28
人性何在?伊朗宣布服兵役的年齡低至12歲了,少年征兵引發(fā)爭議

人性何在?伊朗宣布服兵役的年齡低至12歲了,少年征兵引發(fā)爭議

吃瓜局
2026-04-26 14:50:58
從武大碩士到商場導購:誣告學弟性騷擾的楊景媛,終于付出了代價

從武大碩士到商場導購:誣告學弟性騷擾的楊景媛,終于付出了代價

地理三體說
2026-04-25 22:06:06
中國拋得太及時,8500億美債沒人接盤。

中國拋得太及時,8500億美債沒人接盤。

流蘇晚晴
2026-04-26 18:32:23
美軍試探中方紅線,在東南亞攔截伊朗油輪,給中方敲響了警鐘

美軍試探中方紅線,在東南亞攔截伊朗油輪,給中方敲響了警鐘

第一軍情
2026-04-27 11:40:03
難以置信!洛陽某三甲醫(yī)院給孩子脫臼復位花1分鐘,收費100元舉報

難以置信!洛陽某三甲醫(yī)院給孩子脫臼復位花1分鐘,收費100元舉報

火山詩話
2026-04-26 07:23:48
2026-04-27 14:48:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12868文章數(shù) 142636關注度
往期回顧 全部

科技要聞

打1折!DeepSeek輸入緩存降價

頭條要聞

美海軍考慮從外國購買軍艦和零部件:日韓成潛在選擇

頭條要聞

美海軍考慮從外國購買軍艦和零部件:日韓成潛在選擇

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

《奔跑吧14》剛播就把一手好牌打稀爛

財經(jīng)要聞

DeepSeek融資、字節(jié)加碼 AI開始真燒錢了

汽車要聞

在不確定中尋找確定性:大眾汽車的中國解法

態(tài)度原創(chuàng)

時尚
教育
藝術
家居
親子

比起買大件,這些“小裝備”更派得上用場!

教育要聞

AI賦能中學英語學科建設與拔尖創(chuàng)新人才貫通培養(yǎng)研討會在京舉辦

藝術要聞

你絕對想不到,攝影能讓她成為女神!

家居要聞

江景風格 流動的秩序

親子要聞

韓國女星40歲官宣懷孕,12次試管失敗終靠中醫(yī)圓夢

無障礙瀏覽 進入關懷版