国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

首獲AAAI杰出論文獎,這個具身團隊讓機器人學會像人一樣凝視目標

0
分享至

想象這樣一個場景:一個機器人面前的桌上擺著一堆物體,其中包含紅色積木和藍色積木,此時,如果給出讓它“把紅色積木疊到藍色積木上”的指令,它是否能順利執(zhí)行?


(來源:Nano Banana Pro)

對人類來說,這個任務聽起來十分簡單。因為你需要做的只是眼睛盯著紅色積木,伸手拿起,然后鎖定藍色積木,放到上面就大功告成。但對當前大多數(shù)機器人而言,事情并非如此。在很多時候,機器人的任務成功率并不穩(wěn)定,它有可能徑直去操縱其他物體,而非目標物體。

為什么如此簡單的任務,對于機器人來說卻無法穩(wěn)定完成呢?

這是由于當前主流的 VLA 模型(Vision-Language-Action Model,視覺-語言-動作模型)在執(zhí)行抓取任務時,視覺注意力往往呈彌散分布。也就是說,模型雖能輸出動作序列,但其內(nèi)部注意力并未真正聚焦于指令所指的目標物體(如紅色積木),而是分散在圖像多個區(qū)域。

這種注意力錯位直接導致機器人的操作失誤,例如容易抓取錯誤物體,或在多物體環(huán)境中定位不準。

為了解決這一問題,來自香港科技大學(廣州)與西湖大學等高校的一支聯(lián)合研究團隊,在對主流 VLA 模型進行系統(tǒng)分析后,提出了 ReconVLA(重建式視覺-語言-動作模型)。

在這個模型中,他們創(chuàng)新性地引入了一種名為"隱式定位"(Implicit Grounding)的訓練范式。不在推理階段額外加模塊,不輸出邊界框,而是在訓練過程中,通過讓模型重建目標操作區(qū)域的圖像,迫使它在視覺編碼階段就把注意力集中到正確的地方。


圖 | 團隊論文(來源:arXiv)

據(jù)悉,該工作于上月榮獲 AAAI 國際先進人工智能協(xié)會 2026 的杰出論文獎(Outstanding Paper Award)。

論文第一作者宋文軒告訴 DeepTech,當前 VLA 模型的主流架構,通常以一個預訓練好的 VLM 為主干,再接上一個動作生成頭(action head),用來輸出機器人的控制信號。這個架構里,VLM 負責“看”和“理解”,動作頭負責“做”。


圖 | 宋文軒 (來源:被訪者)

問題在于,VLM 最初是為圖像理解和對話任務設計的,它學到的視覺表征(visual representation)側重語義層面。比如識別一張圖里有什么東西、它們之間的關系。但對機器人操控來說,真正重要的不只是“圖里有什么”,而是“我該去操作哪里”,這涉及到操作可供性(affordance)的感知,是一種 VLM 原生訓練目標中并不包含的能力。

另一位團隊核心成員之一丁鵬翔補充,通用視覺模型和具身控制任務之間存在顯著的領域差異(domain gap)。即便 VLM 在圖像理解上極為強大,它也未必能自然遷移到機器人場景。這種能力缺失直接表現(xiàn)為視覺注意力的高度彌散。


圖 | 丁鵬翔 (來源:受訪者)

在簡單場景下,注意力分散或許影響不大。如果桌上只有一個物體,就算注意力散一點,模型也大概率能抓對。但一旦場景變得雜亂,比如桌面上擺了五六樣東西,麻煩就來了。

團隊實驗表明,此時,“模型往往看到物體就抓”。只要腕部相機視野中出現(xiàn)可抓取目標,模型就傾向于執(zhí)行抓取動作,至于抓的是不是人類期望的那個,它并不總是關心。抓取動作的成功率可能很高,但抓取的正確率則是另一回事。這說明模型完成了動作層面的任務,卻沒有與人類意圖對齊(intent alignment)。

另一個更隱蔽問題出現(xiàn)在長程任務(long-horizon task)中。所謂長程任務,就是需要多個步驟依次完成的操作鏈。因為即使每一步哪怕只有微小偏差,誤差會逐步累積,到后面幾步時,系統(tǒng)狀態(tài)可能已經(jīng)偏離了訓練數(shù)據(jù)的分布。丁鵬翔舉了一個直觀的數(shù)字:即便單步成功率高達 99%,連續(xù)執(zhí)行 100 步后的整體成功率也只剩約 36.6%。

那么,“隱式定位”到底是什么意思?具體又該如何實現(xiàn)?丁鵬翔給了 DeepTech 類比:人類在執(zhí)行精細操作時,雖然看到的是整個場景,但真正聚焦的只有一小片區(qū)域。如果指令是“拿杯子”,哪怕桌上放了十樣東西,人類的視覺焦點會自動鎖定在杯子上,周圍的一切都變得模糊。這種行為在視覺科學中叫做“凝視”(gaze)。

ReconVLA 借鑒了這一機制。在訓練階段,除了常規(guī)的動作預測損失之外,模型還需要完成一個輔助任務:重建當前圖像中與操作目標對應的區(qū)域,即所謂的“凝視區(qū)域”(gaze region)。


(來源:論文)

具體來說,模型的視覺輸出 token(稱為"重建 token",reconstructive token)會被輸入到一個輕量級的擴散變壓器(diffusion transformer)中,該擴散模塊的目標是從噪聲中恢復出凝視區(qū)域的視覺特征。如果模型在編碼階段沒有把注意力放在目標區(qū)域上,它輸出的重建 token 就不會包含足夠的細粒度信息,擴散模塊就無法完成重建,損失函數(shù)就會懲罰它。

這形成了一個流暢的反饋回路:想要完成重建 → 必須關注目標 → 關注目標后視覺表征更精確 → 動作預測更準。整個過程中,沒有任何顯式的邊界框輸出,也沒有外部檢測模型參與推理。重建模塊只在訓練時存在,推理時被完全移除。這意味著 ReconVLA 在部署階段的推理速度與常規(guī) VLA 模型完全一致,不引入任何額外延遲。

這和此前的視覺定位方法有什么不同?

此前,視覺定位主要依賴于兩種范式。一種是"顯式定位"(Explicit Grounding),比如 RoboGround 和 VIP 等工作,它們使用外部檢測模型(如 YOLO 或 LISA)先把目標物體裁剪出來,再把裁剪圖像和原圖一起輸入 VLA。這種方法確實提供了更聚焦的視覺信息,但它依賴外部模型的精度,且兩張圖像的簡單拼接引入了信息冗余。

另一種是"思維鏈定位"(CoT Grounding),如 ECoT 和 GraspVLA,讓模型先輸出目標的邊界框坐標,再輸出動作。這種方式在理論上很漂亮,但實驗結果顯示它甚至不如基線。在 CALVIN 基準測試中,CoT 方式的 5 步連續(xù)任務成功率幾乎為零。原因可能在于,坐標形式的定位信息對 VLA 模型來說并不是一種高效的引導信號,同時要輸出精確坐標和精確動作值,給訓練帶來了額外負擔。


圖 | 不同范式之間的概念比較(來源:論文)

相比之下,ReconVLA 的隱式定位在同一基準上取得了最高成績。

在 CALVIN ABC→D 測試(要求模型在未見過的環(huán)境 D 中執(zhí)行 5 步連續(xù)任務)中,ReconVLA 在第 5 個子任務上達到了 64.1% 的成功率,而基線模型為 49.0%,顯式定位方法為 50.2%,提升約 15 個百分點。在更具挑戰(zhàn)性的精細操作任務"積木堆疊"(stack block)中,基線成功率僅 59.3%,ReconVLA 達到 79.5%,提升超過 20 個百分點。


圖 | 不同范式之間的測試分數(shù)對比(來源:論文)

為了讓重建能力具備泛化性,團隊還構建了一個大規(guī)模預訓練數(shù)據(jù)集,包含超過 10 萬條機器人操作軌跡和 200 萬個數(shù)據(jù)樣本。數(shù)據(jù)來源包括開源的 BridgeData V2 以及 LIBERO、CALVIN 兩個仿真環(huán)境數(shù)據(jù)集。

凝視區(qū)域的標注借助了 Grounding DINO 這一開放詞匯檢測模型(open-vocabulary detector),大部分數(shù)據(jù)可以通過零樣本(zero-shot)方式直接標注,對于機器人場景中一些較為罕見或復雜的物體,團隊則進行了定制化微調(diào)。消融實驗證實,預訓練階段對泛化能力的提升是顯著的。移除預訓練后,5 步連續(xù)任務的最終成功率從 64.1% 下降至 58.2%。

真實世界的實驗進一步驗證了這一方法的可行性。

團隊使用一臺 6 自由度的 AgileX PiPer 機械臂,配合兩個深度相機(分別作為基座視角和手部視角),在四個代表性任務上進行了測試:將水果放入碗中、疊碗、翻杯子、整理桌面。在每個任務中,ReconVLA 都取得了最高成功率。

特別值得注意的是在“未見物體”(unseen objects)的測試中,當目標物體不在訓練數(shù)據(jù)中時,對比方法 OpenVLA 和 PD-VLA 的成功率接近零,而 ReconVLA 仍能成功定位目標并完成操作,展現(xiàn)出其視覺泛化能力。


圖 | 四個代表性任務的真實世界設置(來源:論文)

當然,任何方法都不是完美的。宋文軒向 DeepTech 坦言,ReconVLA 的主要額外成本在訓練階段——引入重建目標意味著更多的計算開銷,盡管團隊已經(jīng)對擴散模塊做了輕量化設計來控制這部分消耗。丁鵬翔指出了另一層局限:當前建模仍然主要基于二維視覺空間,在需要深度信息和三維幾何約束的高精度任務中,即便二維定位更加精確,空間操作精度仍然可能受限。

團隊透露,他們已在后續(xù)工作中開始探索三維感知建模(3D-aware modeling),相關成果已提交至近期的學術會議。此外,力覺感知和力控信號等多模態(tài)信息目前也尚未納入框架,但從方法結構上看,這些模態(tài)完全可以通過同樣的隱式建模機制整合進來。

談到具身智能的落地前景,丁鵬翔的看法頗為務實。他認為 VLA 不必急于落地到某一個具體的垂直場景才算有價值。類比早期的 ChatGPT,GPT-3 發(fā)布時并沒有立即嵌入某個特定行業(yè)流程,但它顯著改變了寫作和內(nèi)容創(chuàng)作的效率。

VLA 的價值可能也會經(jīng)歷類似的“兩步走”。第一步是降低部署成本。過去每個工廠任務都需要獨立建模,如果有一個足夠強的基礎模型,企業(yè)只需少量微調(diào)就能完成適配;第二步才是結合 Agent 系統(tǒng)構建具體場景的閉環(huán)工作流。

他還補充說,他們曾將經(jīng)過通用訓練的模型部署到實際工業(yè)環(huán)境中測試擰螺絲、插接零部件等任務,結果顯示只要基座模型足夠穩(wěn)定,下游任務性能就會顯著提升。他認為短中期更具潛力的場景包括半結構化工業(yè)裝配、輕工業(yè)精細操作以及商業(yè)服務機器人(如飲品制作)。這些場景的共同特點是操作鏈條明確、精度要求高、對重復性穩(wěn)定性有剛需。

除研究外,這支團隊還共同創(chuàng)建了一個名為 OpenHelix 的開源社區(qū),目前已持續(xù)開源十余個項目,累計獲得約 3,600 個 GitHub 星標。在資源有限的條件下,他們選擇了一條"高效與聚焦"的路線。不追求數(shù)百張 GPU 的大規(guī)模訓練和高度工程化的演示,而是專注于具有方法論洞見的研究方向。

他們相信,只有通過開放共享,研究成果才能真正落地到更多從業(yè)者手中。除了 ReconVLA 的后續(xù)迭代,團隊還在推進觸覺與力反饋、雙臂協(xié)作等方向的研究,目標是拓寬 VLA 的能力邊界,而不僅僅停留在單一展示型應用上。

https://arxiv.org/html/2508.10333v1

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中日世預大名單!郭士強一口氣換7人,比之前更強,還有1利好傳來

中日世預大名單!郭士強一口氣換7人,比之前更強,還有1利好傳來

后仰大風車
2026-02-25 20:50:25
江蘇一家去貝加爾湖旅游:一萬六都花了,卻為省200全家遇難

江蘇一家去貝加爾湖旅游:一萬六都花了,卻為省200全家遇難

觀察鑒娛
2026-02-24 09:48:21
突發(fā)!南京一民辦宣布注銷!

突發(fā)!南京一民辦宣布注銷!

南京擇校
2026-02-25 22:48:09
場均30分7板2斷,5000萬年薪或歸零!難怪你這么拼,確實快離隊了

場均30分7板2斷,5000萬年薪或歸零!難怪你這么拼,確實快離隊了

老梁體育漫談
2026-02-24 23:16:48
李連杰曬影迷耗時100小時自制海報:謝謝這位有才的朋友;此前,該作者用成龍70部電影中的人物形象制作了海報,獲大哥當面感謝

李連杰曬影迷耗時100小時自制海報:謝謝這位有才的朋友;此前,該作者用成龍70部電影中的人物形象制作了海報,獲大哥當面感謝

極目新聞
2026-02-24 18:36:26
世界第一女巨人來自中國安徽,穿78碼的鞋子,一頓飯吃六碗炒面

世界第一女巨人來自中國安徽,穿78碼的鞋子,一頓飯吃六碗炒面

不寫散文詩
2026-02-25 21:02:18
高峰也沒想到,他當年狠心拋棄的兒子,如今開始給母親那英爭光了

高峰也沒想到,他當年狠心拋棄的兒子,如今開始給母親那英爭光了

小熊侃史
2026-02-25 17:44:09
山東棗莊到底做了什么,讓日本慌了韓國急了?

山東棗莊到底做了什么,讓日本慌了韓國急了?

財叔
2026-02-24 23:19:26
被稱為“中國最大忽悠”的賈躍亭,似乎要翻身了。

被稱為“中國最大忽悠”的賈躍亭,似乎要翻身了。

流蘇晚晴
2026-02-19 16:19:47
特朗普剛定下訪華時間,中方反手給美方,提出取消關稅的要求

特朗普剛定下訪華時間,中方反手給美方,提出取消關稅的要求

井普椿的獨白
2026-02-25 20:51:18
胡明軒落選12人名單!兩戰(zhàn)韓國13中0僅4分 大V嘲諷:日本措手不及

胡明軒落選12人名單!兩戰(zhàn)韓國13中0僅4分 大V嘲諷:日本措手不及

顏小白的籃球夢
2026-02-25 19:41:25
廣西高速堵車一大哥在路邊架鍋賣炒粉,路過車主:才10元一份,味道好分量足

廣西高速堵車一大哥在路邊架鍋賣炒粉,路過車主:才10元一份,味道好分量足

揚子晚報
2026-02-25 07:56:36
中國古代男主人到底能不能和丫鬟發(fā)生關系?

中國古代男主人到底能不能和丫鬟發(fā)生關系?

文一史二
2026-02-18 09:02:53
現(xiàn)在智駕行業(yè)只剩兩種模式:華為模式和Momenta模式

現(xiàn)在智駕行業(yè)只剩兩種模式:華為模式和Momenta模式

小李子體育
2026-02-25 02:14:00
“開光改命”的瓜?

“開光改命”的瓜?

文刀萬
2026-02-25 18:50:04
拉杜卡努終止年薪13萬美元耐克合同,轉(zhuǎn)投費德勒同門品牌

拉杜卡努終止年薪13萬美元耐克合同,轉(zhuǎn)投費德勒同門品牌

網(wǎng)球之家
2026-02-24 22:29:08
韓寒的這場“豪賭”,贏得很徹底,他能分賬多少錢?

韓寒的這場“豪賭”,贏得很徹底,他能分賬多少錢?

八卦南風
2026-02-25 13:37:35
芯片產(chǎn)出速度提升50%!ASML取得關鍵突破,EUV光刻實現(xiàn)千瓦級躍遷

芯片產(chǎn)出速度提升50%!ASML取得關鍵突破,EUV光刻實現(xiàn)千瓦級躍遷

DeepTech深科技
2026-02-24 19:24:14
45歲宋佳被曝已領證,丈夫身份毫無征兆曝光 張藝謀這次“贏”麻了

45歲宋佳被曝已領證,丈夫身份毫無征兆曝光 張藝謀這次“贏”麻了

草莓解說體育
2026-02-25 19:30:30
訂單排到年底!亨通、永鼎、華工、烽火,誰是光通信里最能漲的?

訂單排到年底!亨通、永鼎、華工、烽火,誰是光通信里最能漲的?

Thurman在昆明
2026-02-25 04:45:03
2026-02-25 23:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16320文章數(shù) 514654關注度
往期回顧 全部

科技要聞

“機器人只跳舞,沒什么用”

頭條要聞

女子爬山失聯(lián)10天后遺體被找到 丈夫:她登頂神情恐懼

頭條要聞

女子爬山失聯(lián)10天后遺體被找到 丈夫:她登頂神情恐懼

體育要聞

勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財經(jīng)要聞

上海樓市放大招,地產(chǎn)預期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

家居
健康
教育
藝術
軍事航空

家居要聞

藝居辦公 溫度與效率

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

教育部:將嚴查擠占體育課、課間不準學生出教室等行為

藝術要聞

這位藝術家的馬賽克畫讓人驚嘆不已!

軍事要聞

俄烏沖突四周年:和平談判希望渺茫

無障礙瀏覽 進入關懷版