国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AAAI 2026 最新錄用|港科大等提出ReconVLA:利用視覺重構(gòu)引導,刷新機器人操作精度!

0
分享至

一、導讀

近年來,視覺-語言-動作模型(Vision-Language-Action,VLA)在機器人控制中展現(xiàn)出融合多模態(tài)理解與動作執(zhí)行的能力。

然而,現(xiàn)有模型在感知圖像時視覺注意力(visual attention)往往分散,難以聚焦于需要操作的目標物體,導致執(zhí)行動作不準確。

為此,本文提出了一種重構(gòu)式視覺-語言-動作模型 ReconVLA,通過引入一個隱式 grounding 機制,讓模型在訓練過程中學習重建圖像中與任務(wù)相關(guān)的“凝視區(qū)域(gaze region)”,從而引導其更準確地關(guān)注目標物體。

該方法在模擬和真實機器人任務(wù)中均表現(xiàn)出更精準的操作能力和良好的泛化性能。

二、論文基本信息


  • 論文標題:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

  • 作者與單位:Wenxuan Song 等,來自香港科技大學(廣州)、西湖大學、浙江大學、莫納什大學等機構(gòu)

  • 來源:AAAI 2026

  • 代碼鏈接: https://github.com/OpenHelix-Team/ReconVLA

三、主要貢獻與創(chuàng)新
  1. 提出 ReconVLA ,一種基于 隱式視覺 grounding 的 VLA 模型,通過重建凝視區(qū)域提升視覺注意力精度。

  2. 構(gòu)建大規(guī)模機器人預(yù)訓練數(shù)據(jù)集,包含 100k 軌跡、200 萬樣本 ,增強模型泛化能力。

  3. 設(shè)計 視覺重構(gòu)模塊 ,使用擴散變換器(diffusion transformer)從噪聲中重建目標區(qū)域。

  4. 在模擬與真實任務(wù)中驗證了模型在 長時序任務(wù)未見目標 上的優(yōu)越性能。

四、研究方法與原理

ReconVLA 的核心思路是:通過讓模型重建任務(wù)相關(guān)的圖像區(qū)域,引導其自動聚焦于關(guān)鍵目標,從而提升動作執(zhí)行的精確性。


模型包含動作生成視覺重構(gòu)兩個部分。輸入為多視角圖像和語言指令。視覺編碼器提取圖像特征,與大語言模型(LLM)交互后,一方面輸出動作指令,另一方面輸出重構(gòu) token(reconstructive tokens),用于引導一個擴散去噪過程(denoising process),重建目標區(qū)域的圖像 token。

具體地,重構(gòu)目標為**凝視區(qū)域 **,其 token 表示為 ,其中 是視覺 tokenizer(采用 VAE)。擴散過程從帶噪聲的 token 出發(fā),在重構(gòu) token 的條件下,通過去噪器 預(yù)測噪聲并恢復(fù) 。重構(gòu)損失函數(shù)為:

整體訓練目標為動作預(yù)測損失與視覺重構(gòu)損失的加權(quán)和:

其中 是由大語言模型基于視覺 tokens 生成的重構(gòu) tokens, 是擴散時間步, 是加入的噪聲。這一設(shè)計迫使模型在生成動作的同時,必須學習對目標區(qū)域的精細視覺表征,從而實現(xiàn)隱式的視覺注意力聚焦。

五、實驗設(shè)計與結(jié)果分析 模擬環(huán)境與數(shù)據(jù)集

實驗使用 CALVIN 基準,包含 34 個任務(wù)和 4 種環(huán)境,評估模型在長時序任務(wù)中的表現(xiàn)。指標為子任務(wù)成功率平均完成長度。

范式對比實驗
比較三種視覺 grounding 范式:

  • 顯式 grounding(EG) :使用 YOLOv11 檢測并裁剪目標區(qū)域作為額外輸入。

  • 鏈式思維 grounding(CG) :模型依次輸出邊界框坐標與動作。

  • 隱式 grounding(IG,即 ReconVLA) :不顯式輸出坐標,而是通過重建目標區(qū)域隱式學習注意力。


結(jié)果顯示,IG 在各項任務(wù)中均取得最高成功率,尤其在 5/5 任務(wù)中達到 **64.1%**,顯著優(yōu)于 EG(50.2%)和 CG(0%)。

注意力可視化分析
可視化顯示,基線模型的注意力分散,而 ReconVLA 能 精準聚焦于目標物體,如“將西瓜放入黃碗”任務(wù)中,注意力集中在西瓜上。


消融實驗
消融實驗驗證了以下設(shè)計:

  • 預(yù)訓練 :顯著提升模型在未見環(huán)境中的泛化能力。

  • 重建凝視區(qū)域 :比重建整圖更有效,引導模型關(guān)注目標。

  • 重構(gòu)模塊本身 :即使重建整圖也能提升性能,但不如凝視區(qū)域精準。


與先進方法對比
在 ABC→D 和 ABCD→D 任務(wù)中,ReconVLA 在多項指標上超越生成式方法(如 GR-1、3D-VLA)和大規(guī)模 VLA 模型(如 OpenVLA、UniVLA),尤其在 長時序任務(wù)中表現(xiàn)突出。


真實世界實驗


在四個真實任務(wù)(如疊碗、翻杯等)中,ReconVLA 在未見目標上仍保持高成功率,顯著優(yōu)于 OpenVLA 和 PD-VLA。


六、論文結(jié)論與評價 總結(jié)

ReconVLA 通過隱式視覺 grounding 機制,成功引導模型聚焦于任務(wù)關(guān)鍵區(qū)域,提升了機器人操作的精確性與泛化能力。在模擬與真實任務(wù)中均表現(xiàn)出色,尤其在長時序和未見目標任務(wù)中優(yōu)勢明顯。

評價

該方法無需依賴外部檢測模型,簡化了系統(tǒng)結(jié)構(gòu),且通過視覺重構(gòu)任務(wù)增強了模型對細節(jié)的感知能力。然而,該方法依賴于高質(zhì)量凝視區(qū)域標注,且擴散去噪過程計算開銷較大,可能限制其在實時系統(tǒng)中的部署。未來可探索更輕量的重構(gòu)機制,或結(jié)合自監(jiān)督方式減少對標注數(shù)據(jù)的依賴。

文章來源:CV煉丹術(shù)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
順差一萬億美元你知道是啥概念不?放200年前八國聯(lián)軍早到家門口

順差一萬億美元你知道是啥概念不?放200年前八國聯(lián)軍早到家門口

沈言論
2025-12-21 11:50:03
新華社權(quán)威快報|支持個人信用重塑!央行發(fā)布一次性信用修復(fù)政策

新華社權(quán)威快報|支持個人信用重塑!央行發(fā)布一次性信用修復(fù)政策

新華社
2025-12-22 08:33:06
一名中國女子在歐洲郵輪上失聯(lián)超一周,在船期間僅消費過一杯橙汁,朋友稱其手機關(guān)機,未有下船記錄;大使館:正跟進處理

一名中國女子在歐洲郵輪上失聯(lián)超一周,在船期間僅消費過一杯橙汁,朋友稱其手機關(guān)機,未有下船記錄;大使館:正跟進處理

揚子晚報
2025-12-22 07:33:45
南博事件升級!參與定"偽"的專家徐沄秋被扒,果然有情況

南博事件升級!參與定"偽"的專家徐沄秋被扒,果然有情況

鋭娛之樂
2025-12-21 08:30:41
黃奇帆:今后十年人民幣將逐步升值至6.0左右

黃奇帆:今后十年人民幣將逐步升值至6.0左右

北京商報
2025-12-21 22:51:05
可怕!僅20分鐘眼球被溶化!8歲男孩終生失明!家家都有這東西!快扔掉!

可怕!僅20分鐘眼球被溶化!8歲男孩終生失明!家家都有這東西!快扔掉!

超級數(shù)學建模
2025-12-21 22:38:35
罵了十年騷擾電話,罵了個寂寞,美國一句話就治住了他們

罵了十年騷擾電話,罵了個寂寞,美國一句話就治住了他們

扶蘇聊歷史
2025-12-21 11:05:03
日方申請,美軍:不行!

日方申請,美軍:不行!

陸棄
2025-12-21 08:30:02
中國首塊L3級自動駕駛專用正式號牌落地 深藍汽車開啟L3新時代

中國首塊L3級自動駕駛專用正式號牌落地 深藍汽車開啟L3新時代

道哥說車
2025-12-21 16:23:29
《江南春》的買家終于被扒出來了

《江南春》的買家終于被扒出來了

大張的自留地
2025-12-21 13:52:31
胡錫進:泰國看來也是有高人的,柬埔寨是中國最友好國家之一

胡錫進:泰國看來也是有高人的,柬埔寨是中國最友好國家之一

映射生活的身影
2025-12-21 20:38:57
湖南7歲豆豆去世,前后僅一天,原因公開,已故外公摸頭照引爭議

湖南7歲豆豆去世,前后僅一天,原因公開,已故外公摸頭照引爭議

天天熱點見聞
2025-12-21 14:13:14
直播間“大牌尾貨”竟是回收箱舊衣服!總臺《財經(jīng)調(diào)查》曝光舊衣回收產(chǎn)業(yè)鏈內(nèi)幕→

直播間“大牌尾貨”竟是回收箱舊衣服!總臺《財經(jīng)調(diào)查》曝光舊衣回收產(chǎn)業(yè)鏈內(nèi)幕→

央視財經(jīng)
2025-12-21 21:00:22
急轉(zhuǎn)彎猛夸中國?介文汲說魯比奧深諳官場之道法

急轉(zhuǎn)彎猛夸中國?介文汲說魯比奧深諳官場之道法

看看新聞Knews
2025-12-21 19:13:19
高市早苗再交1億保護費,特朗普做了最壞的決定,給日本“遞刀”

高市早苗再交1億保護費,特朗普做了最壞的決定,給日本“遞刀”

空天力量
2025-12-21 13:07:40
求中國?哈薩克斯坦和日本簽了稀土協(xié)議后,發(fā)現(xiàn)運輸是個大難題

求中國?哈薩克斯坦和日本簽了稀土協(xié)議后,發(fā)現(xiàn)運輸是個大難題

壹知眠羊
2025-12-21 19:29:39
借道朝鮮,直達北京!韓國統(tǒng)一部很大膽,要把中朝韓串成一條線

借道朝鮮,直達北京!韓國統(tǒng)一部很大膽,要把中朝韓串成一條線

博覽歷史
2025-12-21 15:04:03
快船遭重創(chuàng)!祖巴茨確診左腳踝二級扭傷 將缺席數(shù)周比賽

快船遭重創(chuàng)!祖巴茨確診左腳踝二級扭傷 將缺席數(shù)周比賽

羅說NBA
2025-12-22 07:02:09
厲害了!南博前院長徐湖平高中學歷,卻被復(fù)旦和南大聘為兼職教授

厲害了!南博前院長徐湖平高中學歷,卻被復(fù)旦和南大聘為兼職教授

火山詩話
2025-12-22 05:35:50
楊瀚森觀戰(zhàn)!林葳9+2創(chuàng)留洋生涯單場新高 一度前3中3最高效戰(zhàn)

楊瀚森觀戰(zhàn)!林葳9+2創(chuàng)留洋生涯單場新高 一度前3中3最高效戰(zhàn)

醉臥浮生
2025-12-22 09:06:33
2025-12-22 10:20:49
算法與數(shù)學之美 incentive-icons
算法與數(shù)學之美
分享知識,交流思想
5273文章數(shù) 64595關(guān)注度
往期回顧 全部

科技要聞

7490億美元!馬斯克又把財富天花板捅破了

頭條要聞

媒體:日本軍機連續(xù)2天被照射 污蔑中國先進武器干的

頭條要聞

媒體:日本軍機連續(xù)2天被照射 污蔑中國先進武器干的

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場地還小

財經(jīng)要聞

人民幣快漲到7了!

汽車要聞

-30℃,標致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

健康
藝術(shù)
旅游
家居
公開課

這些新療法,讓化療不再那么痛苦

藝術(shù)要聞

萬年松樹開花,震驚你的雙眼!

旅游要聞

天津高空觀景走熱 拓“垂直文旅”新體驗

家居要聞

現(xiàn)代手法 詮釋東方文化

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版