效率提升25%，靈巧操作數(shù)采困境被「臂-手共享自主框架」解決

2025-12-11 18:36:57　來源: 機器之心Pro

河北舉報

分享至

實現(xiàn)通用機器人的類人靈巧操作能力，是機器人學領(lǐng)域長期以來的核心挑戰(zhàn)之一。近年來，視覺 - 語言 - 動作 (Vision-Language-Action，VLA) 模型在機器人技能學習方面展現(xiàn)出顯著潛力，但其發(fā)展受制于一個根本性瓶頸：高質(zhì)量操作數(shù)據(jù)的獲取。

ByteDance Seed 團隊最新的研究論文《End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy》[1]，針對這一關(guān)鍵問題提出了解決方案。

該研究的核心貢獻在于提出了共享自主 (Shared Autonomy) 框架，通過合理劃分人類操作員與自主 AI 系統(tǒng)的控制職責——人通過 VR 遙操作控制機械臂 (負責高層定位和避障)，DexGrasp-VLA 自主控制靈巧手 (負責精細抓握)，消除了同時遙操作臂和靈巧手的需求，大幅降低操作員認知負荷，有效解決了機器人部署中最關(guān)鍵的數(shù)據(jù)采集成本問題。通過將數(shù)據(jù)采集效率提升至可規(guī)模化的水平，它為靈巧操作技術(shù)從實驗室走向工業(yè)應(yīng)用奠定了基礎(chǔ)。

Data collection and training pipeline for DexGrasp-VLA policy and arm-hand VLA policies.[1]

觸覺增強的 DexGrasp-VLA 策略通過共享自主框架高效采集數(shù)據(jù)，結(jié)合臂手特征增強模塊訓練端到端策略，并通過糾正性人機閉環(huán)實現(xiàn)持續(xù)優(yōu)化。

基于共享自主框架的端到端機械臂 - 靈巧手 VLA 策略學習：通過 DexGrasp AI 進行高效遙操作：

https://mp.weixin.qq.com/s/g2mk5elCiAhnjZ5A8dLbeQ

一、四大核心：實現(xiàn)了從數(shù)據(jù)采集到策略優(yōu)化的閉環(huán)

論文的核心問題在于如何為高自由度靈巧手 + 機械臂系統(tǒng)高效地采集高質(zhì)量的演示數(shù)據(jù)，以訓練出具備通用操作能力的 VLA 策略。高自由度五指靈巧手的控制復雜度遠超傳統(tǒng)的兩指夾爪，對數(shù)據(jù)質(zhì)量和控制精度提出了更高的要求。

該研究構(gòu)建了一個由四大核心模塊組成的完整技術(shù)體系，實現(xiàn)了從數(shù)據(jù)采集到策略優(yōu)化的閉環(huán)。

1. 核心策略: DexGrasp-VLA，打造共享自主框架的基石

DexGrasp-VLA 是一個專為靈巧手設(shè)計的自主抓取策略，是本文共享自主框架的基石。它是一個多模態(tài) VLA 模型，其輸入不僅包括語言指令、視覺和本體感知，更關(guān)鍵的是集成了觸覺反饋。

該策略的實現(xiàn)得益于其所搭載的靈巧手 - 星動紀元星動 XHAND1 的硬件能力。星動 XHAND1 是一款全直驅(qū) 12 自由度的五指靈巧手，其指尖集成了高分辨率的觸覺傳感器。這些傳感器能夠提供合力向量和空間接觸分布（環(huán)繞指端 270 度，120 點空間觸覺陣列）兩種關(guān)鍵觸覺特征。DexGrasp-VLA 正是利用這些高保真度的觸覺數(shù)據(jù)，實現(xiàn)了力適應(yīng)性抓取 (Force-Adaptive Grasping)，能夠根據(jù)物體的形態(tài)而動態(tài)調(diào)整握力，從而在不捏碎易碎品的同時穩(wěn)固抓取重物。

Tactile-based DexGrasp-VLA for hand control [1]

在雜亂桌面場景中使用 DexGrasp-VLA 進行清桌操作。

https://mp.weixin.qq.com/s/g2mk5elCiAhnjZ5A8dLbeQ

2. 人機臂手協(xié)同共享框架，高效采集高質(zhì)量操作數(shù)據(jù)

共享自主框架將控制任務(wù)按照運動域進行拆分：

人類操作者通過 VR 端主要負責機械臂的大范圍移動與整體姿態(tài)控制；
DexGrasp-VLA則專注于自主控制星動 XHAND 1 靈巧手的 12 個獨立自由度，實現(xiàn)精細操作。

Fully manual teleoperation versus the proposed Shared Autonomy [1]

這樣的設(shè)計源于臂與手在運動學本質(zhì)上的巨大差異 —— 機械臂強調(diào)穩(wěn)定、連續(xù)、較長時間尺度的軌跡控制，而靈巧手則必須處理柔順接觸、快速響應(yīng)與高頻細節(jié)動作。正因如此，將復雜度最高的手部控制交由 AI 自動處理，可以顯著減輕人類操作者的認知及操作負擔。操作者無需再時刻處理每一根手指的微小動作，只需專注于大方向和策略性決策。

最終，這套分工機制讓系統(tǒng)能夠更高效地采集高質(zhì)量的臂手協(xié)同演示數(shù)據(jù)，為后續(xù)訓練具備通用操作能力的 VLA 策略打下穩(wěn)定基礎(chǔ)。

3. 臂手特征增強模塊，實現(xiàn)更自然、更魯棒的宏觀 - 微觀動作協(xié)調(diào)

為了解決臂手協(xié)調(diào)這一復雜問題，論文提出了臂手特征增強 (Arm-Hand Feature Enhancement) 模塊。

Arm-hand feature enhancement for the VLA policy [1]

該模塊旨在建模和融合臂和手在運動學上的差異特征。它采用三流架構(gòu)：共享任務(wù)表示、手臂專用編碼器和手部專用編碼器。這種解耦設(shè)計避免了傳統(tǒng)單體架構(gòu)模型對臂手差異的忽視，使得最終的策略能夠?qū)崿F(xiàn)更自然、更魯棒的宏觀 - 微觀動作協(xié)調(diào)。

4. 持續(xù)優(yōu)化機制：糾正性人機閉環(huán)，讓機器人能夠從失敗中學習

該研究引入了糾正性人機閉環(huán) (Corrective Human-in-the-Loop) 機制，讓機器人能夠從失敗中學習。當機器人抓取失敗時，人類操作員可以立即接管并演示正確的操作方法。系統(tǒng)會自動記錄這次失敗的過程和人類糾正后的成功過程，并將這兩段數(shù)據(jù)作為「難題案例」加入訓練集。

通過這種方式，策略能夠不斷迭代優(yōu)化，逐步學會應(yīng)對各種邊緣案例 (corner cases), 變得越來越聰明和可靠。

Corrective human-in-the-loop teleoperation system [1]

端到端的機械臂 - 靈巧手 VLA 策略

https://mp.weixin.qq.com/s/g2mk5elCiAhnjZ5A8dLbeQ

二、星動 XHAND1 全直驅(qū) + 觸覺顯著提升策略的協(xié)調(diào)性和魯棒性

Hardware setup of the integrated robotic system.[1]

硬件平臺：主要使用星動 XHAND1 靈巧手和 UR3e 機械臂。為驗證泛化性，還使用了 RY-H2 靈巧手。
視覺系統(tǒng): 3 臺 RGB-D 相機 (2 臺外部，1 臺腕部)，提供多視角視覺輸入。
測試對象：超過 50 種日常物品，包括未在訓練中見過的物體，以測試泛化能力。
觸覺感知的有效性
星動 XHAND1 提供的高保真觸覺反饋是實現(xiàn)魯棒抓取的必要條件。當視覺被剝奪時，正是星動 XHAND1 的觸覺傳感器陣列提供了維持穩(wěn)定抓握所需的信息。實驗數(shù)據(jù)顯示:

無觸覺：成功率僅為 21%。
僅有觸覺合力反饋：成功率提升至 70%。
合力反饋 + 空間觸覺分布：成功率高達 90%。

這種高成功率直接來源于星動 XHAND1 的兩個特性:
高靈敏度觸覺：能夠精確感知與易碎品接觸時的微小力變化
高精度位控：能夠根據(jù)觸覺反饋，精確輸出目標位置，避免捏碎物體

Representative cases of grasping cylindrical and spherical objects， visualizing the distribution of surface contacts measured by tactile sensors at fingertips.[1]

臂手特征增強模塊的有效性
對比了使用和不使用「臂手特征增強模塊」的策略在三個場景下的表現(xiàn): (1) 星動 XHAND1 (12-DoF 全主動，270° 環(huán)繞觸覺陣列 (120 點)); (2) RY-H2 (11-DoF:6 主動 + 5 欠驅(qū)動，無觸覺); (3) 遮擋右側(cè)相機。
此外對比欠驅(qū)的 RY-H2，算法能夠更充分地利用全直驅(qū) 星動 XHAND1 的多關(guān)節(jié)靈活性，實現(xiàn)更自然的協(xié)調(diào)動作

此結(jié)果證明該模塊顯著提升了策略的協(xié)調(diào)性和魯棒性。
糾正性人機閉環(huán)的有效性
通過不斷注入人類糾正的失敗案例 (如物體方向錯誤、位置在角落等)，迭代訓練策略。該機制能有效實現(xiàn)策略的持續(xù)改進和對邊緣案例的泛化。

三、靈巧操作高質(zhì)量數(shù)據(jù)采集效率提升 25%

該研究通過提出共享自主框架，推動了靈巧操作領(lǐng)域高質(zhì)量數(shù)據(jù)采集效率提升 25%，使單人每小時可采集更多條數(shù)據(jù)，并將完整開發(fā) - 部署周期壓縮至一天以內(nèi)，從根本上解決了 VLA 模型訓練的數(shù)據(jù)瓶頸問題。

該研究通過在超過 50 種物體上實現(xiàn)約 90% 的抓取成功率這一接近工業(yè)標準的性能水平，推動了靈巧操作技術(shù)從概念驗證向?qū)嶋H部署的關(guān)鍵跨越，為機器人在柔性制造、智能物流和服務(wù)機器人等領(lǐng)域的大規(guī)模應(yīng)用鋪路。

Grasping diverse objects with variations in size， color， and material properties.[1]

未來工作

論文展望了三個主要的未來研究方向。當前框架主要在抓取任務(wù)上得到了驗證，未來可以通過引入更多專用的 AI 輔助控制器 (VLA Copilot 模塊)，將其拓展至物體重定向、精密插放和長時程操作等更復雜的場景。

雖然觸覺反饋對抓取穩(wěn)定性至關(guān)重要，但在端到端臂手控制中仍面臨噪聲干擾和時序錯位等挑戰(zhàn)，因此需要探索更智能的融合機制，例如根據(jù)任務(wù)階段動態(tài)調(diào)整觸覺、視覺和本體感受的權(quán)重。

此外，當前的糾正機制仍需人工介入，這在一定程度上限制了系統(tǒng)的可擴展性。未來可以借助強化學習實現(xiàn)系統(tǒng)的自主錯誤識別和恢復，并利用視覺 - 語言模型感知任務(wù)復雜度和環(huán)境風險，智能地決定何時獨立運行、何時請求人類協(xié)助，最終實現(xiàn)從人機協(xié)作向完全自主的平滑過渡。

參考文獻

[1] End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection. ByteDance Seed. 2025.（https://arxiv.org/pdf/2511.00139）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.