国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

機器人看人類第一人稱視頻自學,5種工具8種異構(gòu)靈巧手上手就會

0
分享至

未來,機器人有望通過刷視頻就能學會干活了?并非下載程序,也不是工程師編代碼,而是通過觀察人類操作物體的過程就能自己上手。

最近,清華大學許華哲助理教授、趙昊助理教授與上海期智研究院等團隊合作,實現(xiàn)了讓機器人“看人干活”來學習技能。他們避開了成本高昂且難以擴展的遙操作數(shù)據(jù)采集進行預訓練,構(gòu)建了一套機器人數(shù)據(jù)-模型-采集裝置基礎(chǔ)平臺 UniDex。

該平臺提供了將海量人類第一人稱視頻轉(zhuǎn)化成機器人訓練數(shù)據(jù)的全流程(注:第一人稱視頻是指,人類自身佩戴相機拍自己如何完成動作的視頻,例如沖咖啡、掃地、按噴壺等)。并且,不同型號的靈巧機械手學會了使用日常工具,例如剪刀、噴壺、鼠標等,在真實環(huán)境下平均任務完成進度超過 80%。

以機器人學習切菜為例,可以這樣來理解這項研究:傳統(tǒng)的遙操作數(shù)據(jù)采集訓練方法就像請私教一對一教切菜,不僅成本高而且換個機器人可能就不適用了。

而 UniDex 方法就像讓機器人先觀察上千個美食博主第一視角錄制的視頻自學切菜,然后人類再用幾分鐘糾正一下握刀姿勢,結(jié)果不僅成本更低,機器人切得比私教效果更好,即便換不同的刀具(不同類型的機械手),也無需重新訓練照樣可以穩(wěn)定操作。

這意味著,工廠中的機械臂換成靈巧手可能不需要重新編程;家庭服務機器人看到主人如何開抽屜,自己就能基于觀察學習并掌握新技能;甚至未來機器人看過 TikTok 上的維修教程的視頻后,有望直接上手修東西。


(來源:arXiv)

相關(guān)論文題目為《UniDex:基于第一人稱人類視頻的通用靈巧手控制機器人基礎(chǔ)套件》(UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos)[1],目前已被 CVPR 接收,相關(guān)代碼、模型均已開源。


圖丨相關(guān)論文(來源:arXiv)

重塑動作空間:如何讓靈巧手像人手一樣“本能”協(xié)作?

當前大部分范式本質(zhì)上都是教機器人干活。例如 VLA 和世界模型等都可歸為模仿學習,核心在于高質(zhì)量數(shù)據(jù)。

盡管遙操作數(shù)據(jù)包含執(zhí)行-觀察-反饋的閉環(huán),但存在一種本體分離,即執(zhí)行主體是機器人,感官決策則依賴于人類。而在人類數(shù)據(jù)中,執(zhí)行、觀察、反饋均來自同一本體,動作更自然、更快,也能完成更復雜操作。

以 System 類比來說,遙操作像 System 2,而人類自身數(shù)據(jù)則像 System 1,有更本能的快速反應。因此,用人類數(shù)據(jù)學習能獲得更自然的動作。

研究團隊開啟這項研究,來自一個想法:既然靈巧手的設(shè)計源自人手,那人類直接“教”機器人做事是否可行呢?

他們的做法是:先將人類視頻和動作轉(zhuǎn)換為機器人數(shù)據(jù)從中學習預訓練動作空間,再針對不同任務通過簡單后訓練對齊,讓策略變得可用。

研究團隊從四個公開的 RGB-D 人類操作數(shù)據(jù)集中篩選出涵蓋多樣場景的第一人稱視角的日常任務視頻,包括使用手機、開牛奶盒、用鏟子翻炒、解魔方等。

但一個不容忽視的現(xiàn)實問題是,無論從運動學,還是從形態(tài)方面,人手和靈巧手之間均存在顯著差距:人手五指可能比靈巧手長、關(guān)節(jié)分布也不相同,并且人手的靈活性更高,能夠完成復雜的動作,例如使用剪刀、噴壺、點鼠標等。


圖丨完整的人機轉(zhuǎn)換流程(來源:arXiv)

為此,研究人員提出了人機協(xié)同重定向程序(human-in-the-loop retargeting procedure),優(yōu)先讓人手與機械手的指尖軌跡對齊,手掌等部位則通過引入優(yōu)化讓其在空間中自主調(diào)整,形成更符合真實操作習慣的運動軌跡。

目前多數(shù)方法使用靈巧手重定向庫中的向量重定向,這類基于優(yōu)化的方式更適合遙操作。但在離線數(shù)據(jù)編輯場景下,對齊指尖的方法比向量方法在操作軌跡的真實性方面提供更強的保障。


(來源:arXiv)

該方法一次整體校準每類數(shù)據(jù)集和每種機械手,然后對剩余數(shù)據(jù)進行微調(diào)處理。在此基礎(chǔ)上,研究團隊構(gòu)建了 UniDex-Dataset,該數(shù)據(jù)集涵蓋了 5 萬條以上完整操作軌跡、900 萬幀圖像-點云-動作配對數(shù)據(jù),并覆蓋 8 種不同型號的靈巧手(主動自由度從 6 維到 24 維不等)。

該論文第一作者、清華大學博士生張谷對 DeepTech 解釋道:“我們之所以選用帶有三維信息的視頻數(shù)據(jù)集,是因為現(xiàn)在大部分操作,比如 VLA、二指夾爪都依賴于兩個腕部以及頭部攝像頭,只用二維輸入在涉及空間距離感知的情況下,容易識別不準。”

因此,帶有三維深度信息的視頻數(shù)據(jù)僅通過第一人稱視角即可完成大量操作。同時,三維信息在 human-in-the-loop retargeting 時可輔助更精準的空間位置判斷,從而提高轉(zhuǎn)換數(shù)據(jù)的質(zhì)量。


圖丨張谷(來源:張谷)

經(jīng)過基本標定后,整個機械手的數(shù)據(jù)相對合理。但考慮到數(shù)據(jù)質(zhì)量,研究人員對涉及到物體和手交互較多的片段進行二次檢查和人工調(diào)整,從而讓整體數(shù)據(jù)更加合理。

一套策略搞定 8 種機械手,任務進度達 81%

數(shù)據(jù)構(gòu)建完成,接下來研究人員解決的問題是訓練模型。他們提出了一套統(tǒng)一動作空間 FAAS(Function-Actuator-Aligned Space)策略,核心思路是:將功能相同的關(guān)節(jié)映射到動作空間的同一維度,從而能夠讓不同靈巧手的控制具有一定的功能語義性,以在不同的靈巧手之間更好地進行策略遷移和統(tǒng)一。

例如,將不同手型中功能一致的指根彎曲自由度,映射到動作空間的同一維度上。這樣,低自由度靈巧手學會抓握動作后,可以直接將訓練策略遷移到高自由度靈巧手,避免了為不同類型靈巧手重復訓練的工作。


(來源:arXiv)

借助 FAAS 作為動作參數(shù)化方式,研究人員在 UniDex 數(shù)據(jù)集上預訓練了一種三維 VLA 策略 UniDex-VLA,并通過任務演示進行微調(diào)。在預訓練階段,研究人員已在整個數(shù)據(jù)集摻雜了各種不同類型的機械手數(shù)據(jù)。

在 FAAS 策略加持下,可實現(xiàn)零樣本跨數(shù)據(jù)遷移,有利于機械手迭代后快速保留原有訓練,并將不同類型機械手訓練的策略遷移到目標機械手。

在真實機器人實驗中,研究團隊還搭建了一套硬件平臺,涵蓋了 Franka 機械臂、Inspire 手、Wuji 手和 Oymotion 手,并設(shè)計了 5 項具有挑戰(zhàn)性的日常工具任務,包括沖咖啡、掃地、澆花、剪袋子、用鼠標,每項任務的微調(diào)數(shù)據(jù)僅采集 50 條真實操作軌跡。


(來源:arXiv)

結(jié)果顯示,相較于擴散策略、3D 擴散策略等基線方法,UniDex-VLA 在所有任務中均取得了優(yōu)異的平均任務完成進度,最高實現(xiàn) 81%。即便與當前業(yè)界具有代表性的 VLA 模型 π0 的 38% 相比,也具有明顯的優(yōu)勢。在最難的任務“用剪刀剪袋子”方面,該方法比此前最好的方法提升了 84.6%。

模型泛化能力的表現(xiàn)同樣值得關(guān)注。研究團隊將原本在 Inspire 手上訓練好的“沖咖啡”策略,直接部署到 Wuji 手和 Oymotion 手上,在未經(jīng)微調(diào)的條件下,成功率實現(xiàn)了 40% 到 60%;同樣實驗條件下,基線方法幾乎全部失效。

“我們的實驗結(jié)果證明,通過結(jié)合 FAAS 動作空間和大規(guī)模預訓練,能夠讓模型學會更通用的手部控制邏輯。”張谷表示。


(來源:arXiv)

除了數(shù)據(jù)集和模型,研究團隊還設(shè)計了一套便攜式數(shù)據(jù)采集系統(tǒng) UniDex-Cap。這個系統(tǒng)將 Apple Vision Pro 和 Intel RealSense L515 深度相機固定在同一支架上,提供了采集裝置和轉(zhuǎn)換的腳本。

相比傳統(tǒng)遙操作方式,UniDex-Cap 采集人類演示的速度提升約 5 倍。在實驗中,該團隊通過人機數(shù)據(jù)訓練中等難度任務,發(fā)現(xiàn)人類演示數(shù)據(jù)與真實機器人數(shù)據(jù)比例大概在 2:1 左右,即兩條人類演示數(shù)據(jù)可替代一條真實機器人數(shù)據(jù),顯著降低了后訓練階段的數(shù)據(jù)采集和微調(diào)的成本。

機器人學習的“數(shù)據(jù)金字塔”已經(jīng)堆好了

從人類數(shù)據(jù)學習的策略,已成為當下越來越多人的共識方向之一。研究團隊認為,未來人類數(shù)據(jù)可能會呈現(xiàn)一種金字塔的形式:最底層是無標簽的人類視頻,中間層是帶有動作標注的人類視頻,最上層是精細的動作標簽,包括帶反饋的人類數(shù)據(jù)。

隨著金字塔層數(shù)上升,成本和精度越高,同時獲得的外界信息也越多。如文章開頭中提到的刷視頻學習技能,便位于人類數(shù)據(jù)金字塔最底層,即沒有任何動作標注的純視頻信息。

張谷指出,隨著 3D 視覺和算法方面的進步,通過視頻信息能夠了解整個空間以及機械手在空間中的動作軌跡,再結(jié)合本次研究中的數(shù)據(jù)轉(zhuǎn)換 pipeline,有望通過純視頻形式讓機器人直接學會高層次的語義理解和低層次的動作執(zhí)行。

未來,在 UniDex 方法中引入觸覺等模態(tài)對齊,有望讓從人類學習的方法呈現(xiàn)一套覆蓋更多的場景、更多任務類型以及泛化性更好的策略,從而促進向更大規(guī)模和更通用的方向發(fā)展。此外,該方法也適用于靈巧手專屬的工具使用場景。

接下來,研究團隊將進一步提高人類數(shù)據(jù)到機械手數(shù)據(jù)的轉(zhuǎn)換效率。另一方面,盡管模型在手型遷移方面已獲得初步驗證,但研究人員還將深入探索,面對更多未曾見過的機械結(jié)構(gòu),是否可以繼續(xù)保持穩(wěn)定。

這項研究相當于給靈巧手領(lǐng)域構(gòu)建了一套完整的基礎(chǔ)設(shè)施,未來研究者不用再從零開始攢數(shù)據(jù)、調(diào)模型,而是基于 UniDex 直接進行二次開發(fā)。長遠來看,有望加速靈巧手更快走向日常生活的應用場景。如果這一方向成立,那么未來最強的機器人訓練集,可能來自大量的人類視頻數(shù)據(jù)。

參考資料:

1.相關(guān)論文:https://arxiv.org/abs/2603.22264

2.項目地址:https://github.com/unidex-ai/UniDex

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
茶山鎮(zhèn)黨委原書記黃錦發(fā)嚴重違紀違法被開除黨籍和公職

茶山鎮(zhèn)黨委原書記黃錦發(fā)嚴重違紀違法被開除黨籍和公職

南方都市報
2026-04-11 09:52:16
不是羅德里!曼城核心鐵心離隊,瓜迪奧拉暗諷:他連我都瞞著

不是羅德里!曼城核心鐵心離隊,瓜迪奧拉暗諷:他連我都瞞著

奶蓋熊本熊
2026-04-11 05:26:16
公交車一個急剎,廣州阿婆摔成九級傷殘,起訴索賠34萬元,法院直接駁回:本人存在重大過失

公交車一個急剎,廣州阿婆摔成九級傷殘,起訴索賠34萬元,法院直接駁回:本人存在重大過失

環(huán)球網(wǎng)資訊
2026-04-11 18:16:13
進攻計劃泄密!俄軍7路摩托敢死隊沖鋒慘?。簻貕簭梽傞_火遭反殺

進攻計劃泄密!俄軍7路摩托敢死隊沖鋒慘?。簻貕簭梽傞_火遭反殺

小童歷史
2026-03-23 16:35:28
上海交大解剖405名心梗死者,驚訝發(fā)現(xiàn)患心梗的人,有4個共性

上海交大解剖405名心梗死者,驚訝發(fā)現(xiàn)患心梗的人,有4個共性

王醫(yī)生健康講壇
2026-04-11 20:20:09
趙勇淚別母親陳麗華!他曾支持母親再婚,不嫌棄生父平凡

趙勇淚別母親陳麗華!他曾支持母親再婚,不嫌棄生父平凡

細品名人
2026-04-11 07:29:02
中年男人最大的悲哀是什么?網(wǎng)友:我,中年女人,也對啥都沒興趣

中年男人最大的悲哀是什么?網(wǎng)友:我,中年女人,也對啥都沒興趣

帶你感受人間冷暖
2026-04-10 01:21:44
千萬粉絲網(wǎng)紅曬剃光頭視頻感動全網(wǎng)

千萬粉絲網(wǎng)紅曬剃光頭視頻感動全網(wǎng)

新民周刊
2026-04-11 18:14:45
突然變臉?中美激烈交鋒剛落幕,巴拿馬發(fā)聲,公開對中國提要求

突然變臉?中美激烈交鋒剛落幕,巴拿馬發(fā)聲,公開對中國提要求

月下守候
2026-04-11 03:25:51
1948 新立屯戰(zhàn)役,東野繳獲 443 萬發(fā)子彈,整師官兵卻已壯烈犧牲

1948 新立屯戰(zhàn)役,東野繳獲 443 萬發(fā)子彈,整師官兵卻已壯烈犧牲

嘮叨說歷史
2026-04-09 12:43:00
脫口秀演員思文自曝再婚,孩子是意外到來,前夫程璐曾表態(tài)想復婚

脫口秀演員思文自曝再婚,孩子是意外到來,前夫程璐曾表態(tài)想復婚

草莓解說體育
2026-04-11 01:51:06
不到24小時,以色列迎來6個噩耗,內(nèi)塔尼亞胡或被關(guān)進大牢

不到24小時,以色列迎來6個噩耗,內(nèi)塔尼亞胡或被關(guān)進大牢

落梅如雪亂飛
2026-04-11 22:04:45
張柏芝謝霆鋒沖上熱搜!被扒出很多同款,同一酒店拍照,站位一樣

張柏芝謝霆鋒沖上熱搜!被扒出很多同款,同一酒店拍照,站位一樣

潮鹿逐夢
2026-04-11 17:52:41
高速路上妻子不停數(shù)落丈夫  貓咪2次硬核“捂嘴”封殺!

高速路上妻子不停數(shù)落丈夫 貓咪2次硬核“捂嘴”封殺!

塵埃里的看客
2026-04-11 16:42:03
Tucker被特朗普罵"低智商"后,反手甩出90年代白宮電話錄音

Tucker被特朗普罵"低智商"后,反手甩出90年代白宮電話錄音

熱搜摘要官
2026-04-11 08:02:41
求復合?馬伊琍官宣兩大喜訊,前夫文章也傳來好消息,這是鬧哪出

求復合?馬伊琍官宣兩大喜訊,前夫文章也傳來好消息,這是鬧哪出

林雁飛
2026-04-11 19:04:39
美國最強釘子戶!大師賽球場狂砸3億美元,這戶人家就是不賣

美國最強釘子戶!大師賽球場狂砸3億美元,這戶人家就是不賣

華人生活網(wǎng)
2026-04-11 04:54:50
工齡43.5年,陜西大爺養(yǎng)老金真不錯!

工齡43.5年,陜西大爺養(yǎng)老金真不錯!

樂天果果
2026-04-11 14:58:34
密密麻麻!寧波女子確診“不死的癌癥”,講述病情時她在診室哭了:“簡直生不如死”

密密麻麻!寧波女子確診“不死的癌癥”,講述病情時她在診室哭了:“簡直生不如死”

環(huán)球網(wǎng)資訊
2026-04-10 21:00:07
你永遠想不到,日本對我國的土地渴望到了什么程度

你永遠想不到,日本對我國的土地渴望到了什么程度

賤議你讀史
2026-04-10 12:07:08
2026-04-12 04:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16567文章數(shù) 514863關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

鄭鈞回應兒子走路:會監(jiān)督他挺直腰板

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
健康
家居
公開課

房產(chǎn)要聞

土地供應突然暴跌!2026??跇鞘校窬执笞?!

數(shù)碼要聞

榮耀MagicPad3 Pro 12.3官宣 機身厚度僅4.8mm

干細胞抗衰4大誤區(qū),90%的人都中招

家居要聞

復古風格 自然簡約

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版