首獲AAAI杰出論文獎，這個具身團隊讓機器人學會像人一樣凝視目標

2026-02-15 16:59:18　來源: DeepTech深科技

河南舉報

分享至

想象這樣一個場景：一個機器人面前的桌上擺著一堆物體，其中包含紅色積木和藍色積木，此時，如果給出讓它“把紅色積木疊到藍色積木上”的指令，它是否能順利執(zhí)行？

（來源：Nano Banana Pro）

對人類來說，這個任務聽起來十分簡單。因為你需要做的只是眼睛盯著紅色積木，伸手拿起，然后鎖定藍色積木，放到上面就大功告成。但對當前大多數(shù)機器人而言，事情并非如此。在很多時候，機器人的任務成功率并不穩(wěn)定，它有可能徑直去操縱其他物體，而非目標物體。

為什么如此簡單的任務，對于機器人來說卻無法穩(wěn)定完成呢？

這是由于當前主流的 VLA 模型（Vision-Language-Action Model，視覺-語言-動作模型）在執(zhí)行抓取任務時，視覺注意力往往呈彌散分布。也就是說，模型雖能輸出動作序列，但其內(nèi)部注意力并未真正聚焦于指令所指的目標物體（如紅色積木），而是分散在圖像多個區(qū)域。

這種注意力錯位直接導致機器人的操作失誤，例如容易抓取錯誤物體，或在多物體環(huán)境中定位不準。

為了解決這一問題，來自香港科技大學（廣州）與西湖大學等高校的一支聯(lián)合研究團隊，在對主流 VLA 模型進行系統(tǒng)分析后，提出了 ReconVLA（重建式視覺-語言-動作模型）。

在這個模型中，他們創(chuàng)新性地引入了一種名為"隱式定位"（Implicit Grounding）的訓練范式。不在推理階段額外加模塊，不輸出邊界框，而是在訓練過程中，通過讓模型重建目標操作區(qū)域的圖像，迫使它在視覺編碼階段就把注意力集中到正確的地方。

圖 | 團隊論文（來源：arXiv）

據(jù)悉，該工作于上月榮獲 AAAI 國際先進人工智能協(xié)會 2026 的杰出論文獎（Outstanding Paper Award）。

論文第一作者宋文軒告訴 DeepTech，當前 VLA 模型的主流架構，通常以一個預訓練好的 VLM 為主干，再接上一個動作生成頭（action head），用來輸出機器人的控制信號。這個架構里，VLM 負責“看”和“理解”，動作頭負責“做”。

圖 | 宋文軒（來源：被訪者）

問題在于，VLM 最初是為圖像理解和對話任務設計的，它學到的視覺表征（visual representation）側重語義層面。比如識別一張圖里有什么東西、它們之間的關系。但對機器人操控來說，真正重要的不只是“圖里有什么”，而是“我該去操作哪里”，這涉及到操作可供性（affordance）的感知，是一種 VLM 原生訓練目標中并不包含的能力。

另一位團隊核心成員之一丁鵬翔補充，通用視覺模型和具身控制任務之間存在顯著的領域差異（domain gap）。即便 VLM 在圖像理解上極為強大，它也未必能自然遷移到機器人場景。這種能力缺失直接表現(xiàn)為視覺注意力的高度彌散。

圖 | 丁鵬翔（來源：受訪者）

在簡單場景下，注意力分散或許影響不大。如果桌上只有一個物體，就算注意力散一點，模型也大概率能抓對。但一旦場景變得雜亂，比如桌面上擺了五六樣東西，麻煩就來了。

團隊實驗表明，此時，“模型往往看到物體就抓”。只要腕部相機視野中出現(xiàn)可抓取目標，模型就傾向于執(zhí)行抓取動作，至于抓的是不是人類期望的那個，它并不總是關心。抓取動作的成功率可能很高，但抓取的正確率則是另一回事。這說明模型完成了動作層面的任務，卻沒有與人類意圖對齊（intent alignment）。

另一個更隱蔽問題出現(xiàn)在長程任務（long-horizon task）中。所謂長程任務，就是需要多個步驟依次完成的操作鏈。因為即使每一步哪怕只有微小偏差，誤差會逐步累積，到后面幾步時，系統(tǒng)狀態(tài)可能已經(jīng)偏離了訓練數(shù)據(jù)的分布。丁鵬翔舉了一個直觀的數(shù)字：即便單步成功率高達 99%，連續(xù)執(zhí)行 100 步后的整體成功率也只剩約 36.6%。

那么，“隱式定位”到底是什么意思？具體又該如何實現(xiàn)？丁鵬翔給了 DeepTech 類比：人類在執(zhí)行精細操作時，雖然看到的是整個場景，但真正聚焦的只有一小片區(qū)域。如果指令是“拿杯子”，哪怕桌上放了十樣東西，人類的視覺焦點會自動鎖定在杯子上，周圍的一切都變得模糊。這種行為在視覺科學中叫做“凝視”（gaze）。

ReconVLA 借鑒了這一機制。在訓練階段，除了常規(guī)的動作預測損失之外，模型還需要完成一個輔助任務：重建當前圖像中與操作目標對應的區(qū)域，即所謂的“凝視區(qū)域”（gaze region）。

（來源：論文）

具體來說，模型的視覺輸出 token（稱為"重建 token"，reconstructive token）會被輸入到一個輕量級的擴散變壓器（diffusion transformer）中，該擴散模塊的目標是從噪聲中恢復出凝視區(qū)域的視覺特征。如果模型在編碼階段沒有把注意力放在目標區(qū)域上，它輸出的重建 token 就不會包含足夠的細粒度信息，擴散模塊就無法完成重建，損失函數(shù)就會懲罰它。

這形成了一個流暢的反饋回路：想要完成重建 → 必須關注目標 → 關注目標后視覺表征更精確 → 動作預測更準。整個過程中，沒有任何顯式的邊界框輸出，也沒有外部檢測模型參與推理。重建模塊只在訓練時存在，推理時被完全移除。這意味著 ReconVLA 在部署階段的推理速度與常規(guī) VLA 模型完全一致，不引入任何額外延遲。

這和此前的視覺定位方法有什么不同？

此前，視覺定位主要依賴于兩種范式。一種是"顯式定位"（Explicit Grounding），比如 RoboGround 和 VIP 等工作，它們使用外部檢測模型（如 YOLO 或 LISA）先把目標物體裁剪出來，再把裁剪圖像和原圖一起輸入 VLA。這種方法確實提供了更聚焦的視覺信息，但它依賴外部模型的精度，且兩張圖像的簡單拼接引入了信息冗余。

另一種是"思維鏈定位"（CoT Grounding），如 ECoT 和 GraspVLA，讓模型先輸出目標的邊界框坐標，再輸出動作。這種方式在理論上很漂亮，但實驗結果顯示它甚至不如基線。在 CALVIN 基準測試中，CoT 方式的 5 步連續(xù)任務成功率幾乎為零。原因可能在于，坐標形式的定位信息對 VLA 模型來說并不是一種高效的引導信號，同時要輸出精確坐標和精確動作值，給訓練帶來了額外負擔。

圖 | 不同范式之間的概念比較（來源：論文）

相比之下，ReconVLA 的隱式定位在同一基準上取得了最高成績。

在 CALVIN ABC→D 測試（要求模型在未見過的環(huán)境 D 中執(zhí)行 5 步連續(xù)任務）中，ReconVLA 在第 5 個子任務上達到了 64.1% 的成功率，而基線模型為 49.0%，顯式定位方法為 50.2%，提升約 15 個百分點。在更具挑戰(zhàn)性的精細操作任務"積木堆疊"（stack block）中，基線成功率僅 59.3%，ReconVLA 達到 79.5%，提升超過 20 個百分點。

圖 | 不同范式之間的測試分數(shù)對比（來源：論文）

為了讓重建能力具備泛化性，團隊還構建了一個大規(guī)模預訓練數(shù)據(jù)集，包含超過 10 萬條機器人操作軌跡和 200 萬個數(shù)據(jù)樣本。數(shù)據(jù)來源包括開源的 BridgeData V2 以及 LIBERO、CALVIN 兩個仿真環(huán)境數(shù)據(jù)集。

凝視區(qū)域的標注借助了 Grounding DINO 這一開放詞匯檢測模型（open-vocabulary detector），大部分數(shù)據(jù)可以通過零樣本（zero-shot）方式直接標注，對于機器人場景中一些較為罕見或復雜的物體，團隊則進行了定制化微調(diào)。消融實驗證實，預訓練階段對泛化能力的提升是顯著的。移除預訓練后，5 步連續(xù)任務的最終成功率從 64.1% 下降至 58.2%。

真實世界的實驗進一步驗證了這一方法的可行性。

團隊使用一臺 6 自由度的 AgileX PiPer 機械臂，配合兩個深度相機（分別作為基座視角和手部視角），在四個代表性任務上進行了測試：將水果放入碗中、疊碗、翻杯子、整理桌面。在每個任務中，ReconVLA 都取得了最高成功率。

特別值得注意的是在“未見物體”（unseen objects）的測試中，當目標物體不在訓練數(shù)據(jù)中時，對比方法 OpenVLA 和 PD-VLA 的成功率接近零，而 ReconVLA 仍能成功定位目標并完成操作，展現(xiàn)出其視覺泛化能力。

圖 | 四個代表性任務的真實世界設置（來源：論文）

當然，任何方法都不是完美的。宋文軒向 DeepTech 坦言，ReconVLA 的主要額外成本在訓練階段——引入重建目標意味著更多的計算開銷，盡管團隊已經(jīng)對擴散模塊做了輕量化設計來控制這部分消耗。丁鵬翔指出了另一層局限：當前建模仍然主要基于二維視覺空間，在需要深度信息和三維幾何約束的高精度任務中，即便二維定位更加精確，空間操作精度仍然可能受限。

團隊透露，他們已在后續(xù)工作中開始探索三維感知建模（3D-aware modeling），相關成果已提交至近期的學術會議。此外，力覺感知和力控信號等多模態(tài)信息目前也尚未納入框架，但從方法結構上看，這些模態(tài)完全可以通過同樣的隱式建模機制整合進來。

談到具身智能的落地前景，丁鵬翔的看法頗為務實。他認為 VLA 不必急于落地到某一個具體的垂直場景才算有價值。類比早期的 ChatGPT，GPT-3 發(fā)布時并沒有立即嵌入某個特定行業(yè)流程，但它顯著改變了寫作和內(nèi)容創(chuàng)作的效率。

VLA 的價值可能也會經(jīng)歷類似的“兩步走”。第一步是降低部署成本。過去每個工廠任務都需要獨立建模，如果有一個足夠強的基礎模型，企業(yè)只需少量微調(diào)就能完成適配；第二步才是結合 Agent 系統(tǒng)構建具體場景的閉環(huán)工作流。

他還補充說，他們曾將經(jīng)過通用訓練的模型部署到實際工業(yè)環(huán)境中測試擰螺絲、插接零部件等任務，結果顯示只要基座模型足夠穩(wěn)定，下游任務性能就會顯著提升。他認為短中期更具潛力的場景包括半結構化工業(yè)裝配、輕工業(yè)精細操作以及商業(yè)服務機器人（如飲品制作）。這些場景的共同特點是操作鏈條明確、精度要求高、對重復性穩(wěn)定性有剛需。

除研究外，這支團隊還共同創(chuàng)建了一個名為 OpenHelix 的開源社區(qū)，目前已持續(xù)開源十余個項目，累計獲得約 3,600 個 GitHub 星標。在資源有限的條件下，他們選擇了一條"高效與聚焦"的路線。不追求數(shù)百張 GPU 的大規(guī)模訓練和高度工程化的演示，而是專注于具有方法論洞見的研究方向。

他們相信，只有通過開放共享，研究成果才能真正落地到更多從業(yè)者手中。除了 ReconVLA 的后續(xù)迭代，團隊還在推進觸覺與力反饋、雙臂協(xié)作等方向的研究，目標是拓寬 VLA 的能力邊界，而不僅僅停留在單一展示型應用上。

https://arxiv.org/html/2508.10333v1

運營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.