国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

模仿學(xué)習(xí)如何賦能靈巧操作?這有一份「2021-2025」全景技術(shù)圖譜

0
分享至



作者團隊涵蓋天津大學(xué)、山東大學(xué)、KTH、ETH、MIT、南方科技大學(xué)、北京通用人工智能研究院和中科院自動化所等機構(gòu),在機器人學(xué)習(xí)、靈巧操作、多模態(tài)感知等方向具有持續(xù)研究積累。

靈巧操作(Dexterous Manipulation)要求機器人通過多指末端執(zhí)行器完成抓取、旋擰、插拔等精細(xì)任務(wù),其核心挑戰(zhàn)在于高維動作空間、復(fù)雜接觸動力學(xué)與實時力控的耦合。傳統(tǒng)模型依賴方法難以泛化至未見過物體與場景,而純強化學(xué)習(xí)又面臨樣本效率低、獎勵設(shè)計難等瓶頸。

與強化學(xué)習(xí)通過試錯優(yōu)化獎勵信號不同,模仿學(xué)習(xí)(Imitation Learning, IL)通過直接從人類示范中捕獲細(xì)粒度協(xié)調(diào)行為,避免顯式建模復(fù)雜接觸動力學(xué)與設(shè)計稀疏獎勵函數(shù),為靈巧操作提供了一條數(shù)據(jù)驅(qū)動的新路徑。

然而,該領(lǐng)域研究長期分散于不同數(shù)據(jù)范式、算法框架與硬件平臺,缺乏系統(tǒng)性整合。近期,來自天津大學(xué)、山東大學(xué)、KTH、ETH、MIT、上海交通大學(xué)、南方科技大學(xué)、北京通用人工智能研究院和中科院自動化所的綜述論文《Dexterous Manipulation through Imitation Learning: A Survey》首次對這一方向進行了全景式梳理,涵蓋 2021–2025 年關(guān)鍵進展,旨在為研究人員提供模仿學(xué)習(xí)靈巧操作領(lǐng)域的全面視角。



  • 論文標(biāo)題:Dexterous Manipulation Through Imitation Learning: A Survey
  • 論文鏈接:https://ieeexplore.ieee.org/document/11305224/

該綜述指出,模仿學(xué)習(xí)的核心價值在于避免顯式建模與大規(guī)模試錯,直接利用人類示范數(shù)據(jù)學(xué)習(xí)策略。但其有效應(yīng)用依賴高質(zhì)量數(shù)據(jù)、適配算法、可靠硬件與標(biāo)準(zhǔn)化評估的協(xié)同。

理論支撐

從認(rèn)知科學(xué)到優(yōu)化理論的跨學(xué)科根基

模仿學(xué)習(xí)在靈巧操作中的有效性并非經(jīng)驗巧合,而是植根于多層級理論體系。在認(rèn)知層面,Bandura 的社會學(xué)習(xí)理論為「觀察 - 模仿」范式提供了行為學(xué)依據(jù),而靈長類鏡像神經(jīng)元的發(fā)現(xiàn)則從神經(jīng)機制上解釋了動作觀察與執(zhí)行的表征共享現(xiàn)象。

在控制層面,內(nèi)部模型理論(internal model theory)與最優(yōu)反饋控制框架為策略的預(yù)測 - 校正閉環(huán)設(shè)計提供了數(shù)學(xué)工具,例如 DMP(Dynamic Movement Primitives)通過微分方程參數(shù)化運動基元,實現(xiàn)了對人類示范軌跡的緊湊表征與泛化生成。

在優(yōu)化層面,行為克隆的負(fù)對數(shù)似然目標(biāo)、逆強化學(xué)習(xí)的特征計數(shù)匹配約束、以及對抗模仿的 Jensen-Shannon 散度最小化,均對應(yīng)明確的統(tǒng)計學(xué)習(xí)理論保證,這為算法收斂性與樣本復(fù)雜度分析奠定了基礎(chǔ)。

數(shù)據(jù)資源

從遙操作到互聯(lián)網(wǎng)規(guī)模弱監(jiān)督

高質(zhì)量示范數(shù)據(jù)是模仿學(xué)習(xí)的基礎(chǔ)。早期工作依賴遙操作或動作捕捉系統(tǒng),代表性數(shù)據(jù)集如 BridgeData V2、RH20T 提供 RGB-D 視覺、關(guān)節(jié)狀態(tài)、力 / 扭矩等多模態(tài)同步記錄。近年研究轉(zhuǎn)向更具可擴展性的范式:

  • 高保真幾何建模:ARCTIC 數(shù)據(jù)集通過手 - 物網(wǎng)格重建,實現(xiàn)復(fù)雜交互幾何的精確建模;
  • 雙手協(xié)同標(biāo)注:OAKINK2 聚焦雙人操作,提供多視角 3D 姿態(tài)標(biāo)注,支持對稱 / 非對稱任務(wù)學(xué)習(xí);
  • 合成與增強技術(shù):MimicGen 利用幾何 - 語義一致性約束從少量演示生成物理合理軌跡;RoboAgent 通過視頻語義擴展動作多樣性;
  • 弱監(jiān)督視頻學(xué)習(xí):VideoDex、NIL 等方法嘗試從互聯(lián)網(wǎng)未標(biāo)注操作視頻中提取策略,推動靈巧操作向無監(jiān)督學(xué)習(xí)演進。



主流靈巧操作數(shù)據(jù)集對比



模仿學(xué)習(xí)數(shù)據(jù)集質(zhì)量評估規(guī)則

學(xué)習(xí)方法

行為克隆的演進與多模態(tài)融合

模仿學(xué)習(xí)范式持續(xù)多樣化,核心進展包括:

  • 行為克隆改進:Implicit Behavioral Cloning 通過能量模型捕獲多模態(tài)動作分布;Diffusion Policy 利用擴散模型生成高維連續(xù)動作,其迭代去噪機制可有效建模動作分布的多峰特性與時序依賴,在插拔、旋擰任務(wù)中展現(xiàn)優(yōu)越性能;
  • 對抗模仿魯棒性:GA-GAIL 引入任務(wù)目標(biāo)引導(dǎo)判別器訓(xùn)練,提升對噪聲 / 次優(yōu)示范的魯棒性;
  • 視頻驅(qū)動學(xué)習(xí):按技術(shù)路線分為運動中心建模(DexMV)、合成視頻生成(Gen2Act)、表征學(xué)習(xí)(Ag2Manip)與任務(wù)定制架構(gòu)(Bi-KVIL)四類,后者通過顯式建模雙手協(xié)調(diào)關(guān)系提升復(fù)雜環(huán)境復(fù)現(xiàn)能力;
  • 觸覺 - 視覺融合:新一代觸覺傳感器(GelSight、TacTip)提供高分辨率接觸信息,與視覺形成互補。觸覺信號可檢測視覺遮擋下的微滑移與接觸力變化,為策略提供冗余感知通道;ViTacFormer、KineDex 等工作實現(xiàn)跨模態(tài)特征融合,使策略在低光照或遮擋條件下仍能穩(wěn)定執(zhí)行。



模仿學(xué)習(xí)方法分類體系



不同模仿學(xué)習(xí)方法的比較



基于視頻的靈巧操作模仿學(xué)習(xí)方法分類

硬件平臺

從靈巧手到人形本體

目前,靈巧手的設(shè)計正從高成本、封閉式工業(yè)系統(tǒng)向低成本、開源化、模塊化方向演進。

Shadow Dexterous Hand 以 24 自由度和高精度力控,長期作為高保真遙操作的黃金標(biāo)準(zhǔn);LEAP Hand 憑借簡易制造工藝與良好運動性能,已成為大規(guī)模模仿學(xué)習(xí)實驗的常用平臺;Linker Hand L20 采用連桿驅(qū)動設(shè)計,每個手指配備 4 個電機,工作空間與指尖力接近人類手,在高靈巧性工業(yè)應(yīng)用與學(xué)術(shù)研究中廣泛使用;Allegro Hand 采用直接驅(qū)動,結(jié)構(gòu)緊湊且響應(yīng)迅速;BarrettHand 通過欠驅(qū)動實現(xiàn)自適應(yīng)抓取,在工業(yè)場景中廣泛應(yīng)用;而 DLR/HIT Hand II 等早期平臺則為多指力控與傳感集成提供了重要參考。這些硬件進步降低了研究門檻,也為算法與物理世界的緊密耦合創(chuàng)造條件。



三種末端執(zhí)行器在靈巧操作中的性能比較



代表性機器人手的關(guān)鍵特征

靈巧策略的部署效能高度依賴本體構(gòu)型,除靈巧手外,整體硬件平臺同樣不可忽視。論文指出,高自由度人形平臺(如配備 Shadow Hand 的雙臂系統(tǒng))雖能復(fù)現(xiàn)精細(xì)手指運動,但其動作空間維度激增會加劇模仿學(xué)習(xí)的分布偏移風(fēng)險;而輕量化本體(如 LEAP Hand+ 移動基座)通過結(jié)構(gòu)簡化降低策略學(xué)習(xí)難度,卻可能犧牲復(fù)雜任務(wù)的執(zhí)行能力。

更關(guān)鍵的是,本體動力學(xué)特性(如關(guān)節(jié)摩擦、傳動遲滯、質(zhì)量分布)會引入示范數(shù)據(jù)與實機執(zhí)行間的系統(tǒng)誤差,這要求策略設(shè)計必須考慮「感知 - 決策 - 執(zhí)行」鏈路的端到端魯棒性。近期工作如 Mobile ALOHA 通過 whole-body teleoperation 采集全身協(xié)同數(shù)據(jù),正是為了彌合「手部策略」與「全身運動」間的表征鴻溝。

靈巧操作操作系統(tǒng)

算法落地的工程接口

「操作系統(tǒng)」指支撐策略執(zhí)行的基礎(chǔ)軟件棧與任務(wù)調(diào)度框架。論文指出,分層模仿學(xué)習(xí)框架需通過高層任務(wù)分解與底層動作執(zhí)行的解耦,實現(xiàn)長時程任務(wù)的穩(wěn)定復(fù)現(xiàn);而遙操作數(shù)據(jù)采集系統(tǒng)則依賴 ROS-native 接口、多傳感器時間同步協(xié)議及低延遲通信中間件,確保示范軌跡的時空一致性。

此外,為解決跨平臺復(fù)現(xiàn)難題,綜述呼吁社區(qū)共建標(biāo)準(zhǔn)化部署環(huán)境,包括統(tǒng)一的仿真參數(shù)配置、硬件抽象層接口及評估指標(biāo)注冊表,以降低「代碼可跑」與「結(jié)果可復(fù)現(xiàn)」之間的鴻溝。

評估協(xié)議

標(biāo)準(zhǔn)化 benchmark 的迫切需求

當(dāng)前靈巧操作評估存在顯著瓶頸:多數(shù)研究在私有任務(wù)或特定平臺驗證,任務(wù)定義(如成功判定閾值)、評價指標(biāo)(如軌跡誤差 / 任務(wù)完成率 / 能耗)、硬件依賴(如是否要求特定靈巧手型號)缺乏統(tǒng)一標(biāo)準(zhǔn),難以實現(xiàn)跨方法、跨平臺的公平比較。

綜述呼吁社區(qū)共建標(biāo)準(zhǔn)化 benchmark,涵蓋插拔、旋擰、穿線、布料操作等典型任務(wù),并引入物理可行性、能耗、失敗恢復(fù)率等綜合指標(biāo)。



靈巧操作關(guān)鍵挑戰(zhàn)的重要性與解決難度矩陣

總結(jié)與展望

本綜述不僅提供技術(shù)地圖,更指出未來方向:算法需降低對特定硬件 / 環(huán)境的依賴,提升跨平臺遷移能力;評估體系亟需標(biāo)準(zhǔn)化以支持公平比較;研究重心正從單次短時任務(wù)轉(zhuǎn)向長期交互與多技能組合,要求系統(tǒng)具備分層規(guī)劃、在線適應(yīng)與任務(wù)組合能力。

靈巧操作的價值在于賦能具身智能體完成復(fù)雜物理交互。從家庭服務(wù)到工業(yè)裝配,具備類人手部靈活性的機器人將拓展人工智能應(yīng)用邊界。本綜述為此領(lǐng)域研究者提供了一幅清晰、系統(tǒng)且面向未來的全景圖譜。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
森林狼遭遇雷霆式悲?。槭″X拋棄自己的哈登,場均20+3才1500萬

森林狼遭遇雷霆式悲??!為省錢拋棄自己的哈登,場均20+3才1500萬

你的籃球頻道
2026-04-07 14:20:04
譚詠麟32歲兒子近況:智性戀天菜,才貌雙全,今在加拿大做工程師

譚詠麟32歲兒子近況:智性戀天菜,才貌雙全,今在加拿大做工程師

白面書誏
2026-03-24 14:41:16
要動手了?中國在家門口劃下40天禁航區(qū),釋放什么信號?

要動手了?中國在家門口劃下40天禁航區(qū),釋放什么信號?

像詩一樣的姑娘
2026-04-07 12:20:24
“最后期限”就在明天,美以伊戰(zhàn)事升級還是?;穑?>
    </a>
        <h3>
      <a href=新華社
2026-04-07 16:06:35
不再隱瞞!畸形兒傳聞后,闞清子哭得一塌糊涂,章小蕙的話暴隱情

不再隱瞞!畸形兒傳聞后,闞清子哭得一塌糊涂,章小蕙的話暴隱情

一盅情懷
2026-04-05 16:29:22
伊朗議長向美國喊話:“停止這場危險的游戲”

伊朗議長向美國喊話:“停止這場危險的游戲”

參考消息
2026-04-06 12:16:08
當(dāng)眾發(fā)難張雪的王鑄父子,為何最后落得口碑盡毀?

當(dāng)眾發(fā)難張雪的王鑄父子,為何最后落得口碑盡毀?

沙雕小琳琳
2026-04-07 12:16:35
美國第一夫人梅拉尼婭竟聲稱“開戰(zhàn)是為了伊朗兒童的未來”,網(wǎng)友怒嗆:所以把他們炸死?

美國第一夫人梅拉尼婭竟聲稱“開戰(zhàn)是為了伊朗兒童的未來”,網(wǎng)友怒嗆:所以把他們炸死?

極目新聞
2026-04-07 13:50:54
三球命中255個三分僅落后克努佩爾10個 三分球之爭竟成黃蜂內(nèi)戰(zhàn)?

三球命中255個三分僅落后克努佩爾10個 三分球之爭竟成黃蜂內(nèi)戰(zhàn)?

仰臥撐FTUer
2026-04-07 10:27:19
75歲姜昆近況:與46歲單身愛女相依為命,日子過得讓人羨慕

75歲姜昆近況:與46歲單身愛女相依為命,日子過得讓人羨慕

娛說瑜悅
2026-04-04 15:38:01
美俄曾聯(lián)手阻撓,如今圖160重啟生產(chǎn)線,俄對華求購態(tài)度仍然未變

美俄曾聯(lián)手阻撓,如今圖160重啟生產(chǎn)線,俄對華求購態(tài)度仍然未變

小莜讀史
2026-04-04 11:03:12
一碗泡面引爆全網(wǎng),泰國人開始“抗日”了!

一碗泡面引爆全網(wǎng),泰國人開始“抗日”了!

大道微言
2026-04-06 12:38:56
歷史上三個假太監(jiān):一個睡了皇后,一個讓太后生子,一個殺了皇帝

歷史上三個假太監(jiān):一個睡了皇后,一個讓太后生子,一個殺了皇帝

文史達觀
2026-04-06 16:03:34
其實你的代謝、已經(jīng)很低了

其實你的代謝、已經(jīng)很低了

情感大頭說說
2026-04-01 01:37:01
“最后通牒”沒最后,特朗普的“狼來了戰(zhàn)略”?“I LOVE油,但停戰(zhàn)能讓美國人開心”

“最后通牒”沒最后,特朗普的“狼來了戰(zhàn)略”?“I LOVE油,但停戰(zhàn)能讓美國人開心”

紅星新聞
2026-04-07 16:25:07
局勢惡化,中方接到高市消息,日本專機將飛越南,對華包圍圈成型

局勢惡化,中方接到高市消息,日本專機將飛越南,對華包圍圈成型

墜入二次元的海洋
2026-04-07 17:49:24
中東局勢一夜突變:五萬美軍緊急剎車,內(nèi)塔尼亞胡陷入絕境

中東局勢一夜突變:五萬美軍緊急剎車,內(nèi)塔尼亞胡陷入絕境

民間胡扯老哥
2026-04-04 21:20:45
明天傍晚北京將迎雨水,后天氣溫大降

明天傍晚北京將迎雨水,后天氣溫大降

北青網(wǎng)-北京青年報
2026-04-07 12:41:12
上海灘餐廳偶遇陳妍希,好小只很瘦,40多歲的人打扮像少女

上海灘餐廳偶遇陳妍希,好小只很瘦,40多歲的人打扮像少女

阿廢冷眼觀察所
2026-04-07 07:07:47
王楚欽奪冠樊振東也跟著火了!23歲世界杯3連冠+4冠 被贊舉世無雙

王楚欽奪冠樊振東也跟著火了!23歲世界杯3連冠+4冠 被贊舉世無雙

顏小白的籃球夢
2026-04-07 08:29:23
2026-04-07 22:52:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12701文章數(shù) 142616關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

頭條要聞

特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

體育要聞

官宣簽約“AI球員”,這支球隊被罵慘了...

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

財經(jīng)要聞

10萬億財政轉(zhuǎn)移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態(tài)體驗

態(tài)度原創(chuàng)

家居
親子
本地
健康
軍事航空

家居要聞

雅致愜意 感知生活之美

親子要聞

科普|科學(xué)備孕,需要做好哪些孕前檢查?

本地新聞

跟著歌聲游安徽,聽古村回響

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

軍事要聞

美軍營救飛行員出動155架飛機

無障礙瀏覽 進入關(guān)懷版