国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ReconVLA:具身智能研究首次獲得AI頂級(jí)會(huì)議最佳論文獎(jiǎng)

0
分享至



在長(zhǎng)期以來的 AI 研究版圖中,具身智能雖然在機(jī)器人操作、自動(dòng)化系統(tǒng)與現(xiàn)實(shí)應(yīng)用中至關(guān)重要,卻常被視為「系統(tǒng)工程驅(qū)動(dòng)」的研究方向,鮮少被認(rèn)為能夠在 AI 核心建模范式上產(chǎn)生決定性影響。

而 ReconVLA 獲得 AAAIOutstandingPaper Awards,釋放了一個(gè)清晰而重要的信號(hào):讓智能體在真實(shí)世界中「看、想、做」的能力,已經(jīng)成為人工智能研究的核心問題之一。

這是具身智能(Embodied Intelligence / Vision-Language-Action)方向歷史上,首次獲得 AI 頂級(jí)會(huì)議 Best Paper 的研究工作。這是一次真正意義上的 community-level 認(rèn)可:不僅是對(duì)某一個(gè)模型、某一項(xiàng)指標(biāo)的認(rèn)可,更是對(duì)具身智能作為通用智能核心范式之一的肯定。



  • 論文標(biāo)題:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
  • 論文地址:https://arxiv.org/abs/2508.10333
  • 論文代碼:https://github.com/Chowzy069/Reconvla

VLA 模型關(guān)鍵瓶頸:機(jī)器人真「看準(zhǔn)」了嗎?



近年來,Vision-Language-Action(VLA)模型在多任務(wù)學(xué)習(xí)與長(zhǎng)時(shí)序操作中取得了顯著進(jìn)展。然而,我們?cè)诖罅繉?shí)驗(yàn)中發(fā)現(xiàn),一個(gè)基礎(chǔ)但被長(zhǎng)期忽視的問題嚴(yán)重制約了其性能上限:視覺注意力難以穩(wěn)定、精準(zhǔn)地聚焦于任務(wù)相關(guān)目標(biāo)。

以指令「將藍(lán)色積木放到粉色積木上」為例,模型需要在復(fù)雜背景中持續(xù)鎖定「藍(lán)色積木」和「粉色積木」。但現(xiàn)實(shí)中,許多 VLA 模型的視覺注意力呈現(xiàn)為近似均勻分布,不同于人類行為專注于目標(biāo)物體,VLA 模型容易被無關(guān)物體或背景干擾,從而導(dǎo)致抓取或放置失敗。

已有工作主要通過以下方式嘗試緩解這一問題:

  • 顯式裁剪或檢測(cè)目標(biāo)區(qū)域(Explicit Grounding)
  • 預(yù)測(cè)目標(biāo)邊界框作為中間輸出(COT Grounding)

然而,這些方法并未從根本上改變模型自身的視覺表征與注意力分配機(jī)制,提升效果有限。

ReconVLA:重建式隱式視覺定位的新范式


為解決上述瓶頸,我們提出ReconVLA,一種重建式(Reconstructive)Vision-Language-Action 模型。其核心思想是:

不要求模型顯式輸出「看哪里」,而是通過「能否重建目標(biāo)區(qū)域」,來約束模型必須學(xué)會(huì)精準(zhǔn)關(guān)注關(guān)鍵物體。

在 ReconVLA 中,動(dòng)作預(yù)測(cè)不再是唯一目標(biāo)。在生成動(dòng)作表征的同時(shí),模型還需要完成一項(xiàng)輔助任務(wù):

重建當(dāng)前時(shí)刻所「凝視」的目標(biāo)區(qū)域 ----- 我們稱之為 Gaze Region。

這一重建過程由輕量級(jí)擴(kuò)散變換器(Diffusion Transformer)完成,并在潛在空間中進(jìn)行高保真復(fù)原。由于要最小化重建誤差,模型被迫在其內(nèi)部視覺表示中編碼關(guān)于目標(biāo)物體的精細(xì)語義與結(jié)構(gòu)信息,從而在注意力層面實(shí)現(xiàn)隱式而穩(wěn)定的對(duì)齊。

這一機(jī)制更接近人類的視覺凝視行為,而非依賴外部檢測(cè)器或符號(hào)化坐標(biāo)監(jiān)督。



方法概覽


ReconVLA 的整體框架由兩個(gè)協(xié)同分支組成:

1. 動(dòng)作預(yù)測(cè)分支: 模型以多視角圖像、自然語言指令與機(jī)器人本體狀態(tài)為輸入,生成動(dòng)作 token,直接驅(qū)動(dòng)機(jī)器人執(zhí)行操作。

2. 視覺重建分支: 利用凍結(jié)的視覺 tokenizer,將指令關(guān)注的目標(biāo)區(qū)域(Gaze region)編碼為高保真潛在 token。主干網(wǎng)絡(luò)額外輸出同維度的重建 token,并以此作為條件,引導(dǎo)擴(kuò)散去噪過程逐步復(fù)原目標(biāo)區(qū)域的視覺表示。

重建損失在像素與潛在空間層面為模型提供了隱式監(jiān)督,使視覺表征與動(dòng)作決策在訓(xùn)練過程中緊密耦合。



大規(guī)模重建預(yù)訓(xùn)練


為賦予 ReconVLA 穩(wěn)定的視覺重建與泛化能力,我們構(gòu)建了一個(gè)大規(guī)模機(jī)器人預(yù)訓(xùn)練數(shù)據(jù)集:

  • 數(shù)據(jù)規(guī)模:超過 10 萬條交互軌跡,約 200 萬張圖像。
  • 數(shù)據(jù)來源:BridgeData V2、LIBERO、CALVIN 等開源機(jī)器人數(shù)據(jù)集。
  • 自動(dòng)化標(biāo)注:利用微調(diào)后的 Grounding DINO 或 Yolo 等方式,從原始圖像中自動(dòng)生成指令對(duì)應(yīng)的目標(biāo)物體區(qū)域(Gaze region),用于重建監(jiān)督。

該預(yù)訓(xùn)練過程不依賴動(dòng)作標(biāo)簽,卻顯著提升了模型在視覺重建、隱式 Grounding 以及跨場(chǎng)景泛化方面的能力,并為未來擴(kuò)展至互聯(lián)網(wǎng)級(jí)視頻數(shù)據(jù)奠定了一定基礎(chǔ)。

實(shí)驗(yàn)結(jié)果



在 CALVIN 仿真基準(zhǔn)上,ReconVLA 在長(zhǎng)時(shí)序任務(wù)中顯著優(yōu)于現(xiàn)有方法:

  • ABC→D 泛化任務(wù):平均完成長(zhǎng)度達(dá)到3.95,全面領(lǐng)先同期所有對(duì)比方法。
  • ABCD→D 長(zhǎng)程任務(wù):平均完成長(zhǎng)度為4.23,完整任務(wù)成功率達(dá)70.5%。

值得一提的是,在 CALVIN 極具挑戰(zhàn)的長(zhǎng)程任務(wù)「stack block」上我們的方法成功率達(dá)到 79.5%,遠(yuǎn)高于 Baseline 的 59.3%,這說明我們的局部重建作為隱式監(jiān)督的方法可以在復(fù)雜長(zhǎng)程任務(wù)中實(shí)現(xiàn)更靈活的運(yùn)動(dòng)規(guī)劃。



在真實(shí)機(jī)器人實(shí)驗(yàn)中,我們基于 AgileX PiPer 六自由度機(jī)械臂,測(cè)試了疊碗、放水果、翻杯與清理餐桌等任務(wù)。ReconVLA 在所有任務(wù)上均顯著優(yōu)于 OpenVLA 與 PD-VLA,并在未見物體條件下仍保持 40% 以上的成功率,展現(xiàn)出強(qiáng)大的視覺泛化能力。



對(duì)比于 Explicit Grounding 和 COT Grounding,ReconVLA 在 CALVIN 上獲得了遠(yuǎn)高于前兩者的成功率,由此可分析出:

僅用精細(xì)化的目標(biāo)區(qū)域作為模型隱式監(jiān)督可以實(shí)現(xiàn)更加精確的注意力,更高的任務(wù)成功率以及更簡(jiǎn)單的模型夾構(gòu)。



而消融實(shí)驗(yàn)表明:

1. 全圖重建仍然由于僅有動(dòng)作監(jiān)督的基線,因?yàn)槿珗D重建提升了模型的全局感知和理解能力。但由于視覺冗余使得在未知環(huán)境下難以展現(xiàn)更好的效果。

2. 重建目標(biāo)區(qū)域(Gaze region)具有顯著效果,這個(gè)機(jī)制使得模型專注于目標(biāo)物體,避免被無關(guān)背景干擾。

3. 大規(guī)模預(yù)訓(xùn)練顯著提升了模型在視覺重建,隱式 Grounding 及跨場(chǎng)景泛化的能力。

總結(jié)


ReconVLA 的核心貢獻(xiàn)并非引入更復(fù)雜的結(jié)構(gòu),而是重新審視了一個(gè)基礎(chǔ)問題:機(jī)器人是否真正理解了它正在注視的世界。

通過重建式隱式監(jiān)督,我們?yōu)?VLA 模型提供了一種更自然、更高效的視覺對(duì)齊機(jī)制,使機(jī)器人在復(fù)雜環(huán)境中做到「看得準(zhǔn)、動(dòng)得穩(wěn)」。

我們期待這一工作能夠推動(dòng)具身智能從經(jīng)驗(yàn)驅(qū)動(dòng)的系統(tǒng)設(shè)計(jì),邁向更加扎實(shí)、可擴(kuò)展的通用智能研究范式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
B-52重返戰(zhàn)場(chǎng):當(dāng)美軍開始用二戰(zhàn)式轟炸,戰(zhàn)爭(zhēng)其實(shí)已經(jīng)結(jié)束了一半

B-52重返戰(zhàn)場(chǎng):當(dāng)美軍開始用二戰(zhàn)式轟炸,戰(zhàn)爭(zhēng)其實(shí)已經(jīng)結(jié)束了一半

斌聞天下
2026-03-07 07:30:03
全球頂級(jí)騙局!1967年美國(guó)資本收買哈佛專家,讓全世界人變肥變病

全球頂級(jí)騙局!1967年美國(guó)資本收買哈佛專家,讓全世界人變肥變病

朝子亥
2026-03-11 10:15:03
中方再次發(fā)出警告,呼吁在日本的中國(guó)人盡快回國(guó)。

中方再次發(fā)出警告,呼吁在日本的中國(guó)人盡快回國(guó)。

安安說
2026-03-12 11:08:49
第40波打擊!伊朗大殺器齊射,美基地陷火海,特朗普向32國(guó)求助

第40波打擊!伊朗大殺器齊射,美基地陷火海,特朗普向32國(guó)求助

阿芒娛樂說
2026-03-12 13:00:51
罕見!女子睡夢(mèng)中肩膀粉碎性骨折,骨頭碎成七八塊,竟是這個(gè)原因......

罕見!女子睡夢(mèng)中肩膀粉碎性骨折,骨頭碎成七八塊,竟是這個(gè)原因......

上觀新聞
2026-03-11 11:06:15
車主開蔚來ES6五年行駛里程一百萬公里!李斌回應(yīng):平均每天500公里 太牛了

車主開蔚來ES6五年行駛里程一百萬公里!李斌回應(yīng):平均每天500公里 太牛了

快科技
2026-03-12 09:27:24
伊朗提開放海峽條件,特朗普惱羞成怒,說了句不該說的話

伊朗提開放海峽條件,特朗普惱羞成怒,說了句不該說的話

愛吃醋的貓咪
2026-03-12 23:13:29
快40歲的堂哥負(fù)債80萬,自殺了!

快40歲的堂哥負(fù)債80萬,自殺了!

黯泉
2026-03-12 21:44:36
女籃世預(yù)賽悲喜夜:中國(guó)隊(duì)?wèi)K敗 日本遭澳大利亞逆轉(zhuǎn) 最新排名出爐

女籃世預(yù)賽悲喜夜:中國(guó)隊(duì)?wèi)K敗 日本遭澳大利亞逆轉(zhuǎn) 最新排名出爐

侃球熊弟
2026-03-12 21:54:51
入睡時(shí)間縮短10倍!北大研究揭示:3億人失眠或是腸道里缺了它

入睡時(shí)間縮短10倍!北大研究揭示:3億人失眠或是腸道里缺了它

科學(xué)認(rèn)識(shí)論
2026-03-09 15:12:50
越南油價(jià)突然“大跳水”!汽油柴油集體暴跌幾千盾,開車族們可以松口氣了~

越南油價(jià)突然“大跳水”!汽油柴油集體暴跌幾千盾,開車族們可以松口氣了~

越南語學(xué)習(xí)平臺(tái)
2026-03-12 09:54:55
全明星后衛(wèi)加盟!牙買加組建夢(mèng)之隊(duì),挖美國(guó)墻角

全明星后衛(wèi)加盟!牙買加組建夢(mèng)之隊(duì),挖美國(guó)墻角

德譯洋洋
2026-03-12 12:28:15
相親對(duì)象能有多丑?真的太好笑了,抑郁的人看見評(píng)論區(qū)都能好

相親對(duì)象能有多丑?真的太好笑了,抑郁的人看見評(píng)論區(qū)都能好

黃麗搞笑小能手
2026-03-11 20:48:01
中國(guó)女籃慘敗暴露致命短板!后衛(wèi)太差+拒投3分,宮魯鳴該認(rèn)清現(xiàn)實(shí)

中國(guó)女籃慘敗暴露致命短板!后衛(wèi)太差+拒投3分,宮魯鳴該認(rèn)清現(xiàn)實(shí)

老葉評(píng)球
2026-03-12 22:06:44
奚夢(mèng)瑤和好友吃飯被偶遇,她素顏睫毛好長(zhǎng),頭發(fā)看起來就像有錢人

奚夢(mèng)瑤和好友吃飯被偶遇,她素顏睫毛好長(zhǎng),頭發(fā)看起來就像有錢人

手工制作阿殲
2026-03-12 01:25:06
趙一荻獨(dú)子回國(guó)掃墓,跪在張作霖墓前說:我代表您兒子來看您了

趙一荻獨(dú)子回國(guó)掃墓,跪在張作霖墓前說:我代表您兒子來看您了

北海史記
2026-03-12 19:34:04
19歲小將溫瑞博擊敗世界第二,晉級(jí)男單八強(qiáng),誰說男乒后繼無人

19歲小將溫瑞博擊敗世界第二,晉級(jí)男單八強(qiáng),誰說男乒后繼無人

楊哥乒乓
2026-03-12 19:28:55
他是辛亥革命的元?jiǎng)?,解放前拒絕去臺(tái)灣,1950年“鎮(zhèn)反”中被處決

他是辛亥革命的元?jiǎng)?,解放前拒絕去臺(tái)灣,1950年“鎮(zhèn)反”中被處決

興趣知識(shí)
2026-03-12 17:20:18
槍不是他開的,人不是他殺的,他在死牢里等了33年,死刑前48小時(shí),傳來了好消息...

槍不是他開的,人不是他殺的,他在死牢里等了33年,死刑前48小時(shí),傳來了好消息...

英國(guó)那些事兒
2026-03-11 23:21:02
打了十來天,“最高強(qiáng)度”打擊來了

打了十來天,“最高強(qiáng)度”打擊來了

中國(guó)新聞周刊
2026-03-11 15:02:08
2026-03-13 00:23:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12488文章數(shù) 142584關(guān)注度
往期回顧 全部

科技要聞

當(dāng)養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭(zhēng)才真正開始

頭條要聞

男子做核磁被遺忘在機(jī)器上6小時(shí) 涉事醫(yī)生:交接失誤

頭條要聞

男子做核磁被遺忘在機(jī)器上6小時(shí) 涉事醫(yī)生:交接失誤

體育要聞

建議將“出球型門將”納入反詐app

娛樂要聞

貝克漢姆全家給27歲大布送生日祝福

財(cái)經(jīng)要聞

盧鋒:從特朗普?qǐng)F(tuán)隊(duì)群演看時(shí)代變局

汽車要聞

大眾2025財(cái)報(bào):轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

房產(chǎn)
親子
健康
數(shù)碼
公開課

房產(chǎn)要聞

唏噓!三亞又一房企巨頭破產(chǎn),狂欠43億甩賣資產(chǎn)!

親子要聞

有愛但不多??!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

本地生活變天!雷鳥AWE聯(lián)手高德,AR眼鏡成下一代「飯票」

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版