上海AI Lab王靖博：人形機器人，從“盲動”走向“感知驅(qū)動” | GAIR 2025

2025-12-31 18:44:13　來源: 雷峰網(wǎng)

北京舉報

分享至

雷峰網(wǎng)訊 12月12日，第八屆 GAIR 全球人工智能與機器人大會于深圳正式拉開帷幕。

本次大會為期兩天，由GAIR研究院與雷峰網(wǎng)聯(lián)合主辦，高文院士任指導(dǎo)委員會主席，楊強院士與朱曉蕊教授任大會主席。大會共開設(shè)三個主題論壇，聚焦大模型、具身智能、算力變革、強化學(xué)習(xí)與世界模型等多個議題，描繪AI最前沿的探索群像，折射學(xué)界與產(chǎn)業(yè)界共建的智能未來。

作為 AI 產(chǎn)學(xué)研投界標(biāo)桿盛會，GAIR自2016年創(chuàng)辦以來，始終堅守 “傳承+創(chuàng)新” 內(nèi)核，是 AI 學(xué)界思想接力的陣地、技術(shù)交流的平臺，更是中國 AI 四十年發(fā)展的精神家園。過去四年大模型驅(qū)動 AI 產(chǎn)業(yè)加速變革，歲末年初 GAIR 如約而至，以高質(zhì)量觀點碰撞，為行業(yè)與大眾呈現(xiàn)AI時代的前沿洞見。

在12月13日的“數(shù)據(jù)&一腦多形”專場，上海人工智能實驗室青年科學(xué)家王靖博進(jìn)行了以《從虛擬走向現(xiàn)實，構(gòu)建通用人形機器人控制與交互策略》為主題的演講。

長期以來，人形機器人的研究是否必要一直存在著爭議。演講伊始，王靖博博士就對此做出了回應(yīng)。他指出，由人類搭建的真實生活環(huán)境，也面向人類的各種需求，這決定了人形必然是一種相對通用的方案。在數(shù)據(jù)維度，互聯(lián)網(wǎng)上有大量來源于人類日常生活的第一人稱及第三人稱數(shù)據(jù)，其中包含的運動邏輯和操作邏輯，對于模型訓(xùn)練來說都是可用資源。在應(yīng)用層，人形機器人的交互邏輯、安全性等研究，最終也會回饋到人自身。

而人形機器人現(xiàn)階段研究的核心問題之一，就是如何在仿真中訓(xùn)練機器人，并使其在真實世界中實現(xiàn)穩(wěn)定、可泛化的運動與控制。由于仿真環(huán)境與真實物理世界之間存在的差異，人形機器人的技能訓(xùn)練與部署長期面臨著Sim2Real的鴻溝。對此，王靖博博士介紹了其團隊的最新成果，通過對日常生活環(huán)境的集成性構(gòu)造，以及創(chuàng)新的感知和表示方案，顯著提升了復(fù)雜地形下運動策略的遷移成功率。其核心在于用體素化的點云表示壓縮環(huán)境信息，并在仿真中引入機器人本體的激光雷達(dá)自掃描，以更好地對齊仿真與真實的傳感器數(shù)據(jù)分布，從而使機器人能提前感知地形變化，如臺階、吊頂，并預(yù)先規(guī)劃動作，而非依賴碰撞后的力反饋。

此外，王靖博博士在演講中提到了構(gòu)建統(tǒng)一的動作技能表征，作為基礎(chǔ)的人形機器人運動控制模型，可以進(jìn)一步拓展在有效的可遷移的人形機器人感知方案下的動作與技能選擇，使得人形機器人可以在基礎(chǔ)的運動之外完成和場景的交互已經(jīng)多種球類運動。

在演講中，王靖博博士進(jìn)一步指出，人形機器人的控制策略正從“盲走盲動”轉(zhuǎn)向“感知驅(qū)動”，融合視覺、激光雷達(dá)等環(huán)境感知，以實現(xiàn)機器人在復(fù)雜、非結(jié)構(gòu)化環(huán)境中的自主導(dǎo)航與交互是必然趨勢。關(guān)于人形機器人的未來，王靖博博士認(rèn)為，當(dāng)前的模型參數(shù)量和學(xué)習(xí)方式限制了技能容量和更多元控制形式的探索。長遠(yuǎn)來看，構(gòu)建容量更大，更高效利用數(shù)據(jù)的方案，例如離線的監(jiān)督學(xué)習(xí)，是提升機器人技能通用性和長程控制能力的可行路徑。

以下為王靖博的現(xiàn)場演講內(nèi)容，雷峰網(wǎng)進(jìn)行了不改變原意的編輯整理：

大家好，我是王靖博，來自上海人工智能實驗室具身智能中心。我們主要研究方向是人形機器人的技能學(xué)習(xí)以及Sim2Real相關(guān)課題。

我今天的報告是想分享最近人形機器人全身控制方面的進(jìn)展，正好今天也站在2025年的年底，對明年我覺得比較重要的問題做一些展望。首先很多人會對人形機器人或者人形角色有這樣的疑問，就是我們?yōu)槭裁磿パ芯窟@樣一個課題。在真實世界中做機器人，為什么一定要做成這么一個人形的形態(tài)？在虛擬世界里建模的時候，為什么也特別關(guān)心人類這樣一種特定的對象？

選擇人形角色作為研究對象，主要基于以下三方面原因。首先，現(xiàn)實物理世界的生活場景大多圍繞人類需求搭建，因此針對人形角色開展的研究方案具備天然的通用性。其次，從數(shù)據(jù)維度分析，除自然風(fēng)光與動物相關(guān)數(shù)據(jù)外，互聯(lián)網(wǎng)中蘊藏著海量源于人類日常生活的數(shù)據(jù)集，無論是第一人稱還是第三人稱視角，均包含豐富的人類運動與操作邏輯，可為研究提供充足的數(shù)據(jù)支撐。最后，人形角色研究具備顯著的應(yīng)用價值，以自動駕駛領(lǐng)域為例，其核心目標(biāo)之一便是保障人機交互過程中的安全性，避免車輛對行人造成傷害。綜上，從研究對象的適配性、數(shù)據(jù)資源的豐富度到應(yīng)用場景的實用性來看，人形角色都是理想的研究載體。

本研究的核心主題聚焦于人形角色中央控制系統(tǒng)的構(gòu)建方法。研究中，所有人形角色的訓(xùn)練均在仿真環(huán)境中完成，最終目標(biāo)是實現(xiàn)模型從仿真到真實物理世界的遷移，達(dá)成人形角色的自主化運行。具體而言，研究重點關(guān)注以下兩個關(guān)鍵問題：其一，技能的真實世界落地及仿真到現(xiàn)實遷移（Sim2Real）的核心要點，包括行走、奔跑、跳躍、下蹲等基礎(chǔ)技能的習(xí)得方式，以及如何在不同人形硬件平臺、高噪聲環(huán)境下完成穩(wěn)定部署，確保機器人可靠執(zhí)行各類技能；其二，技能的精準(zhǔn)調(diào)用與靈活組合策略，例如上樓梯動作需實現(xiàn)雙腿交替抬升的協(xié)同控制，側(cè)踢動作則要求單腿支撐身體平衡的同時完成另一腿的精準(zhǔn)抬起。此外，系統(tǒng)還需具備語言指令的精準(zhǔn)理解與執(zhí)行能力，能夠在真實非結(jié)構(gòu)化地形中實現(xiàn)無碰撞運動，確保人形角色在復(fù)雜場景下的穩(wěn)定運行

關(guān)于具體的控制方案怎么做，今天我就不展開細(xì)講了。我想和大家重點探討的，是另一個核心話題——就是如何把高頻感知，也就是perception，和控制策略（control policy）深度結(jié)合起來。

大家可以先想一想：我們?yōu)槭裁幢仨氁龈兄c控制的融合？首先，對于人形機器人來說，我們肯定不希望它只能在平地上活動吧？那最基礎(chǔ)的一點，它就必須具備理解環(huán)境幾何結(jié)構(gòu)的能力。其次，如果我們想讓它從A點走到B點，再完成拿取物品的任務(wù)，它就必須精準(zhǔn)掌握自己的位置，以及目標(biāo)物體的位置。第三點也很關(guān)鍵，機器人所處的環(huán)境里不只有它自己——實際應(yīng)用中，我們往往需要它和其他角色產(chǎn)生交互，所以這種互動能力（interaction）對它來說至關(guān)重要。

基于這幾點，我們可以把問題簡化一下。我們先從最基礎(chǔ)的問題入手，就是人形角色的局部運動（local motion）。我們絕不希望人形機器人只能局限在平地上活動，就像大家在機器人馬拉松這類視頻里看到的那樣，在平坦地面上，靠人操控?fù)u桿才能移動。

給大家舉個具體的場景：假設(shè)我有一臺人形機器人，讓它從這個門進(jìn)來，要在一間結(jié)構(gòu)非常復(fù)雜的屋子里活動——這里到處都是障礙物，還有樓梯、吊頂之類的遮擋物，最終目標(biāo)是讓它順利從門口走到二樓的門口。在這個任務(wù)場景下，機器人的感知需求就會收斂成幾個核心研究方向：比如腳下的地形是什么形態(tài)、周圍的物體是什么、頭頂上方的環(huán)境又是什么樣。我們希望能打造這樣一套控制策略，能夠使得這個人形機器人在擬人運動的同時，把這些所有障礙都避開。

那為了實現(xiàn)這樣一件事，第一個比較基礎(chǔ)的思路，是用RGB相機。但用RGB相機做Sim2Real（仿真到現(xiàn)實遷移），會面臨不少問題。如果大家用過Isaac Lab這類仿真器就知道，仿真環(huán)境里的光照、紋理和真實世界差距很大，渲染出來的圖像和真實場景完全不同。要是基于這種仿真圖像去做Sim2Real遷移，你會發(fā)現(xiàn)訓(xùn)練出的策略根本無法理解真實世界——在這種情況下，模型完全沒法適配真實環(huán)境的樣子。第二個問題是RGB相機缺乏幾何信息。我們做最基礎(chǔ)的局部運動（local motion），核心是要理解地形，但RGB圖像沒法直接呈現(xiàn)任何幾何信息，這也是個很棘手的問題。

第二種方案是深度相機，這也是很多人在研究的方向。早年有些工作，確實有用深度相機做環(huán)境重建或者避障的嘗試。但我想做的，是一套不需要預(yù)建地圖的控制策略。而且我們大概率需要讓這個感知方案和最基礎(chǔ)的強化學(xué)習(xí)（RL）策略一起訓(xùn)練，所以深度相機同樣會存在Sim2Real的鴻溝。在仿真環(huán)境里，深度數(shù)據(jù)都是非常干凈、邊緣銳利的幾何形態(tài)，但在真實世界中，用深度相機采集到的數(shù)據(jù)完全不是這樣。另外，深度相機的感受野也比較小，覆蓋范圍有限。

第三種方案是用激光雷達(dá)這類傳感器。雷達(dá)確實有優(yōu)勢，它獲取的幾何信息相對準(zhǔn)確，探測范圍也足夠大。但這類幾何傳感器依然存在問題，比如一些異常點（outlayer）很難在仿真中模擬；而且從實際應(yīng)用角度來說，雷達(dá)掃描會有100到200毫秒的延遲，不像RGB相機或深度相機那樣能達(dá)到很高的感知頻率。

其實總結(jié)一下，我們想做一個優(yōu)秀的、帶感知的局部運動（local motion）系統(tǒng)，核心要解決這幾個問題：首先得明確面對的是何種環(huán)境，其次要確定采用什么樣的感知方案，第三是明確對環(huán)境的表征形式，最后還要解決如何與局部運動策略進(jìn)行聯(lián)合訓(xùn)練（joint training）的問題。把這幾點綜合起來，就是我們最近開展的一項核心工作。

首先來看環(huán)境構(gòu)建的問題。我們整合了日常生活中可能遇到的多種環(huán)境類型，做了一個集成化的環(huán)境構(gòu)建。比如包含走臺階、高臺，旁邊有小柜子需要繞行、有門需要避讓的常規(guī)場景；也涵蓋了梅花樁這種更極端的地形，還有頭頂存在不同形式吊頂?shù)膱鼍啊@種情況下，就需要機器人識別出頭頂?shù)恼系K物，然后自主采取下蹲姿勢通過。我們做這樣的環(huán)境集成，核心目標(biāo)就是讓機器人能習(xí)得一套“多場景通用”的控制策略，適配不同環(huán)境的需求。

第二個重點工作，是我們在感知方案和環(huán)境表征上做了創(chuàng)新。我們沒有選擇深度相機或點云這種常規(guī)形式，主要有兩個原因：一方面，就像剛才提到的，直接用深度相機的話，很難模擬真實世界中的噪聲，Sim2Real過程中的噪聲問題沒法妥善解決；另一方面，如果直接用點云，不僅存在大量異常點（outlayer）噪聲，還包含很多冗余信息，需要對每個點逐一進(jìn)行表征，效率很低。但實際上，我們的核心需求只是知道“附近有沒有障礙物”，只需要一種非常緊湊（compact）的表征形式就足夠了。所以最終，我們選擇把點云轉(zhuǎn)化為體素（voxel）形式來做環(huán)境表征。

第三件事，這是從實際應(yīng)用（in practice）的角度出發(fā)的。我們用Isaac Lab做仿真的時候，發(fā)現(xiàn)它本身并不支持對機器人本體的雷達(dá)掃描。所以我們額外做了工作，把機器人本體的掃描功能加上來，目的就是進(jìn)一步縮小Sim2Real的鴻溝。另外，有了這樣的環(huán)境表征后，我們還需要讓它能在算力非常有限的平臺上實時運行。這里我們也做了優(yōu)化，沒有選擇大家常用的3D CNN，而是對不同高度的體素做了切片處理，這樣就能快速完成對地形的表征。

我們也把我們的方法和很多現(xiàn)有方法做了對比。其實，局部透視運動（perspective local motion）是一個非常經(jīng)典的問題，之前很多研究是用深度相機、點云來做的。相比于這些方法，我們的優(yōu)勢主要有兩點：第一，我們對機器人做了改裝，它的視場角（FOV）足夠大，能全面感知周圍環(huán)境，所以實現(xiàn)全向運動完全沒問題；第二，我們支持多種地形的訓(xùn)練，再加上剛才說的本體掃描改裝方案，讓機器人能實現(xiàn)全地形運動。

關(guān)于剛才提到的本體掃描問題，我們也專門做了對比實驗——就是看“是否加入本體掃描”，對仿真中輸入信息的影響。結(jié)果發(fā)現(xiàn)，這也是一個很關(guān)鍵的Sim2Real鴻溝：除了之前說的傳感器本身的噪聲問題，加不加本體自掃描，會讓系統(tǒng)性能產(chǎn)生非常大的差異。我們的實驗證明，加上本體自掃描后，仿真中傳感器的表現(xiàn)能和真實世界更好地對齊，系統(tǒng)性能也會顯著提升。

這是我們論文里的一些測試演示視頻（demo），大家可以看到，機器人能穩(wěn)定通過很多復(fù)雜場景，比如上高臺?？赡苡信笥褧f，之前也看過一些機器人盲走的演示，覺得上高臺、走臺階不算特別新奇的事。但大家可以注意一個細(xì)節(jié)：之前很多盲走方案，機器人必須等腳碰到臺階，獲得了力反饋之后，才知道前方有障礙，進(jìn)而抬起腳步。而且，抬起多高的高度，其實它是沒法提前知曉的。

之前那種靠力反饋觸發(fā)動作的方式，其實是一種非常不安全的形式。而我們的方案加入了合理的感知模塊，就能解決這個問題。比如demo里左上角上高臺的場景，機器人在還沒碰到高臺的時候，就提前做好了抬腳動作的規(guī)劃——它能感知到前方環(huán)境的變化，進(jìn)而主動調(diào)整自身行為。

包括應(yīng)對吊頂?shù)膱鼍耙彩且粯樱何覀兊臋C器人不會等到碰到吊頂才反應(yīng)，而是提前感知到頭頂?shù)恼系K物，就主動做出規(guī)避動作。甚至面對連續(xù)的吊頂區(qū)域，在沒有空隙的地方能自主下蹲通過。這其實就是帶感知的局部運動（perception local motion）一個非常核心的優(yōu)勢——預(yù)判性，也是它區(qū)別于傳統(tǒng)盲走方案的關(guān)鍵性質(zhì)。

最后還有一點感悟想和大家分享?，F(xiàn)在行業(yè)里大家一直在討論Sim2Real的鴻溝問題，我們做完這項工作后，也有了一些自己的見解。其實很多方案在仿真環(huán)境里表現(xiàn)得非常好，比如做帶感知的局部運動時，在仿真中給一個非常干凈的熱力圖（heatmap），或者其他類型的3D觀測數(shù)據(jù)，仿真中的成功率能做到很高，甚至接近100%。但大家如果實際去做部署就會發(fā)現(xiàn)，這些方案在真實世界中的表現(xiàn)往往非常不穩(wěn)定，和仿真結(jié)果的差距很大。

我們認(rèn)為這并不是一個很好的Sim2Real的解決方案，我們也測了一下自己的策略，發(fā)現(xiàn)我們這個方案的Sim2Real表現(xiàn)是非常一致的。其實我覺得這是一份非常好的性質(zhì)，就是你可以在simulation里很好地研究你的策略，讓Sim和Real的表現(xiàn)盡可能一致，所以你也就可以得到一個很可信的to Real的控制策略。

講完感知，這里我想延伸一下：我們肯定不希望機器人只懂運動這一件事。大家今年也看到了很多機器人翻跟頭的演示，各種各樣的控制策略層出不窮。但我們最終的目標(biāo)是，讓機器人擁有一個相對通用的行為基礎(chǔ)模型控制策略——它不僅能走路、翻跟頭，還能完成各類交互任務(wù)，并且把我們剛才說的感知能力融合進(jìn)去。

要實現(xiàn)這個目標(biāo)，有個核心問題需要解決：當(dāng)我們想建模這類通用行為時，機器人會掌握很多技能，還要面對復(fù)雜環(huán)境，這就需要我們建模一個“行為隱變量”（behavior latent）。如果沒有這個隱變量，相當(dāng)于機器人只有一個狀態(tài)（state），由狀態(tài)直接決定動作，環(huán)境因素?zé)o法影響它的行為選擇。這樣的機器人就像個提線木偶，只能完成單一、程序化的執(zhí)行過程，根本談不上通用性。

但如果有了這個行為隱變量，情況就不一樣了：機器人可以根據(jù)環(huán)境選擇不同的隱變量，也可以根據(jù)任務(wù)選擇不同的隱變量，從而完成各種各樣的任務(wù)。包括我們剛才說的感知信息輸入、交互信息輸入，這些都能通過隱變量實現(xiàn)技能的靈活組合。可能有朋友會問，這和Sim2Real有什么關(guān)系？其實這是圖形學(xué)領(lǐng)域長期關(guān)注的經(jīng)典問題——如何構(gòu)建高質(zhì)量的行為隱變量，而它恰恰是解決Sim2Real通用性問題的關(guān)鍵之一。

我們把建模這種運動隱變量（motion latent）的任務(wù)，分成了兩類形式：

第一類是任務(wù)無關(guān)的：我不關(guān)心機器人要執(zhí)行什么具體任務(wù)，只關(guān)注當(dāng)前狀態(tài)到未來狀態(tài)變化的隱變量。比如它向左走、向右走都可以，核心是捕捉運動本身的規(guī)律，和具體任務(wù)脫鉤。

第二類是任務(wù)相關(guān)的：這種隱變量會直接參與任務(wù)決策。比如機器人處于站立狀態(tài)時，輸入不同的運動形式或控制模式，就能在這個狀態(tài)下匹配到不同的任務(wù)相關(guān)隱變量。這樣一來，面對不同任務(wù)時，我們可以直接實現(xiàn)隱變量的快速遷移（shot transfer），不用再額外訓(xùn)練一個高層控制器（high-level Controller）去尋找合適的隱變量。

所以我們團隊選擇了第二條路——打造一個“任務(wù)感知型”（task-aware）機器人。為了實現(xiàn)這個目標(biāo)，我們分了四個步驟推進(jìn)：

第一步是數(shù)據(jù)重構(gòu)（retargeting）。因為我們的模型需要基于人類數(shù)據(jù)學(xué)習(xí)，所以先做了一輪數(shù)據(jù)重構(gòu)工作，把人類的運動數(shù)據(jù)適配到機器人模型上。

第二步是訓(xùn)練代理智能體（proxy agent）。我們在仿真環(huán)境中，利用所有可獲取的特權(quán)變量（privileged variables）訓(xùn)練了一個模型。簡單說，就是在理想環(huán)境下，先讓模型學(xué)習(xí)到基于重構(gòu)數(shù)據(jù)的最優(yōu)行為表現(xiàn)，打下基礎(chǔ)。

第三步是設(shè)計控制模式與掩碼（mask）。既然是任務(wù)感知型，就需要明確常用的控制模式。我們設(shè)計了一些基礎(chǔ)控制模式，并通過掩碼的形式實現(xiàn)控制模式的選擇，讓機器人能精準(zhǔn)匹配對應(yīng)任務(wù)的行為需求。

第四步是師生學(xué)習(xí)（teacher-student）。因為最終要落地到真實世界，我們通過師生學(xué)習(xí)框架，把教師模型（理想環(huán)境下的proxy agent）和學(xué)生模型（適配真實環(huán)境的模型）的隱變量分布盡可能對齊，從而實現(xiàn)Sim2Real的遷移。

這里補充一句，我們這個工作做得比較早，大概今年7月份就完成了。雖然今年大家已經(jīng)看到很多類似的演示，但在當(dāng)時，這算是一個比較通用的控制策略，還是有一定前瞻性的。

除了基礎(chǔ)的運動跟蹤（motion tracking），這個模型還有不少實用能力。比如輸入“下蹲”的姿態(tài)指令，模型會生成對應(yīng)的參考姿態(tài)并執(zhí)行；輸入向前、向后、向左、向右的運動指令，模型能在隱變量空間中找到不同隱變量的線性組合，精準(zhǔn)控制機器人完成相應(yīng)運動。

我們還做了一些趣味測試，比如模仿人形機器人運動會上“忍者式跑步”的動作。測試發(fā)現(xiàn)，這個模型支持全身遙操作（whole-body teleoperation），不管是原地行走，還是一些復(fù)雜的全身運動，都能很好地完成。基于這個策略，機器人還能實現(xiàn)原地起立這類幅度較大的動作。

另外，我們也對隱變量做了深入分析：既然是隱變量模型，它的隱變量是否具備結(jié)構(gòu)化特征？我們在仿真到仿真（Sim2Sim）的場景下做了測試，通過T-SNE可視化發(fā)現(xiàn)，向前、向后、向左、向右這些運動對應(yīng)的隱變量特征分得非常開，而且能清晰看到不同運動狀態(tài)之間的過渡可能性，這說明我們的隱變量確實捕捉到了運動的結(jié)構(gòu)化信息。

我們還做了一個很有意思的實驗：以回旋踢動作為例，我們發(fā)現(xiàn)如果只給機器人根部運動模式（root mode）的隱變量，它只會轉(zhuǎn)圈，不會踢腿；如果只給關(guān)鍵點（key point）相關(guān)的隱變量，因為沒有轉(zhuǎn)圈的運動基礎(chǔ)，也無法完成踢腿動作。但把這兩個隱變量做線性組合后，機器人就能順利完成一整套完整的回旋踢動作。

更重要的是，當(dāng)某個動作表現(xiàn)不好時，我們可以用真實標(biāo)簽（GT）的隱變量去引導(dǎo)模型，幫助它找到合理的隱變量來完成動作。同時我們發(fā)現(xiàn)，當(dāng)部分策略效果不佳時，通過在線再訓(xùn)練（online retraining），能快速搜索到更優(yōu)的隱變量，而且我們的方法收斂效率很高。

在對比實驗中，我們把這個模型和“萬能模型”（one-for-all model）、“任務(wù)專用模型”（task specialist）做了比較。結(jié)果顯示，我們的方法比任務(wù)專用模型在訓(xùn)練集上的表現(xiàn)更好，能有效對抗過擬合；同時，比不帶隱變量的方法擁有更高的跟蹤精度。

剛才講的都是無交互的任務(wù)，接下來我們思考：帶交互的動作，能不能用這套任務(wù)感知型行為基礎(chǔ)模型（task-aware BSM）來完成？我們做了一些嘗試，發(fā)現(xiàn)交互類任務(wù)的數(shù)據(jù)有兩個明顯特點：一是建模精度要求高，比如數(shù)據(jù)采集時動捕設(shè)備精度不夠，就容易出現(xiàn)穿模問題；二是數(shù)據(jù)稀缺，市面上缺乏足夠多的交互類數(shù)據(jù)，很難構(gòu)建通用的跟蹤器。尤其是想讓交互場景多樣化，難度就更大了。

針對這個問題，我們借鑒了“對抗性運動先驗”（adversarial motion prior）的思路，采用生成式模仿學(xué)習(xí)（generative imitation learning）的框架。核心思路是：不做強制的運動跟蹤，而是用運動先驗來約束機器人的運動合理性，同時把任務(wù)獎勵（task reward）融入訓(xùn)練中。因為我們要做的是基礎(chǔ)模型，肯定不希望它只會做訓(xùn)練過的技能，更希望它像真正的基礎(chǔ)模型一樣，能零樣本（zero-shot）或少樣本（few-shot）地組合已有技能、適配新場景，不用從頭學(xué)習(xí)，或者能高效掌握新技能。

為了實現(xiàn)這個目標(biāo)，我們做了三個針對性設(shè)計：第一，因為是多任務(wù)控制器，我們希望本體狀態(tài)編碼器能接觸到各類任務(wù)，所以采用了分離式設(shè)計，讓不同任務(wù)的任務(wù)頭相互獨立、互不干擾；第二，構(gòu)建了大規(guī)模多樣化仿真環(huán)境，設(shè)計了大量不同類型的交互任務(wù)——比如對同一類物體，設(shè)計了搬運、乘坐、跟隨等多種交互形式，還對物體做了大量數(shù)據(jù)增強；第三，為不同任務(wù)設(shè)計了專屬掩碼。對比實驗顯示，這種通用的感知編碼器比非通用的編碼器效果更好，且性能方差更低。

有了剛才這些基礎(chǔ)技能之后，接下來要解決的核心問題就是技能組合——我們也針對性地提出了一套相對高效的方法論。大家可以想一個典型場景：比如有搬箱子的任務(wù)，同時又需要在復(fù)雜地形上完成，最終目標(biāo)是讓機器人在復(fù)雜地形里搬著箱子上樓梯、下樓梯，再把箱子放到指定位置。這其實是人形機器人應(yīng)用中很常見的復(fù)合任務(wù)，也是我們要解決的核心問題。

基于我們的方法，具體怎么實現(xiàn)呢？分四步走：第一步，直接復(fù)用已有技能的表征——我們已經(jīng)有“搬箱子”對應(yīng)的任務(wù)表征（token），可以直接拿來用；第二步，引入地形專用的表征器（tokenizer）——因為任務(wù)要在復(fù)雜地形上完成，需要精準(zhǔn)的地形感知，所以專門加一個負(fù)責(zé)地形感知的表征器；第三步，調(diào)用通用本體感知器——我們的本體感知器已經(jīng)訓(xùn)練過大量任務(wù)場景，見過各種自身狀態(tài)的可能性，能很好地適配復(fù)合任務(wù)的本體狀態(tài)需求；第四步，動作適配加速收斂——為了讓復(fù)合任務(wù)的訓(xùn)練更快收斂，我們會在動作層面做一些適配，過程中凍結(jié)各模塊之間的關(guān)聯(lián)參數(shù)，只開放少量與任務(wù)相關(guān)的參數(shù)進(jìn)行再訓(xùn)練（retraining）。從實驗結(jié)果來看，我們方法的成功率曲線（黃色曲線）表現(xiàn)最優(yōu)，遠(yuǎn)超當(dāng)時其他三種主流的最先進(jìn)（state-of-the-art）方法。

我們的方法還具備很強的遷移適配能力（shift adaptation），不管是更復(fù)雜的地形，還是超長程的任務(wù)，都能穩(wěn)定應(yīng)對。當(dāng)然，我們最終的目標(biāo)是實現(xiàn)這套方法的端到端Sim2Real遷移，具體要分三步推進(jìn)：

第一步，數(shù)據(jù)重構(gòu)與對齊。和之前的工作一樣，先做人類運動數(shù)據(jù)的重構(gòu)（retargeting）；在此基礎(chǔ)上，還要把重構(gòu)后的數(shù)據(jù)與行為對應(yīng)的物體（object）、物體間的位置關(guān)系做精準(zhǔn)對齊，同時標(biāo)注出機器人與物體的交互狀態(tài)。

第二步，技能學(xué)習(xí)。沿用我們剛才提到的任務(wù)感知型模型框架，完成復(fù)合技能的學(xué)習(xí)。

第三步，感知模塊適配。這一步需要解決機器人與物體的相對感知問題，比如精準(zhǔn)判斷機器人與物體的距離、獲取交互對象的位姿。我們在這個工作里初期用了比較簡單的方案——直接貼AprilTag來做位姿定位；不過后續(xù)發(fā)現(xiàn)，現(xiàn)在有很多優(yōu)秀的6D位姿估計模型，比如FoundationPose，完全可以實現(xiàn)更精準(zhǔn)的位姿處理，后續(xù)可以整合進(jìn)去。

這里有個關(guān)鍵注意點：在做這類交互性策略的Sim2Real遷移時，我們的域隨機化（domain randomization）做得更全面。大家之前做基礎(chǔ)的 Whole-Body Control（WBC）或移動（locomotion）任務(wù)時，可能只對機器人本體做域隨機化；而我們除了本體，還對物體及物體位置的觀測做了域隨機化——比如物體的質(zhì)量、摩擦系數(shù)，都做了隨機化處理。另外，真實世界中對物體的觀測必然存在誤差，所以我們在訓(xùn)練時，還會對輸入策略的物體觀測數(shù)據(jù)加入擾動，讓模型提前適應(yīng)真實環(huán)境的不完美性。

第二個關(guān)鍵設(shè)計是深度相機的感知優(yōu)化，讓它能覆蓋更大的前方視野，確保復(fù)雜地形和交互物體都能被精準(zhǔn)感知。我們還發(fā)現(xiàn)，通過人為定義簡單的交互邏輯（比如“走到物體旁→搬起物體→完成任務(wù)”），就能引導(dǎo)機器人完成與環(huán)境中不同物體的交互。大家現(xiàn)在看到的，就是我們在仿真環(huán)境中跑出來的結(jié)果——本體狀態(tài)數(shù)據(jù)、環(huán)境感知數(shù)據(jù)等多維度數(shù)據(jù)協(xié)同工作，支撐整個交互任務(wù)的完成。

我們也把我們的方法和兩種主流方法做了對比：一種是基于跟蹤的方法（tracking-based），另一種是不引入任何人類運動先驗的方法。對比結(jié)果很明確：首先在成功率上，因為交互類數(shù)據(jù)本身比較稀缺，基于跟蹤的方法靠硬約束去擬合，成功率很低，尤其是在多樣化（diverse）環(huán)境下；其次，人類運動先驗?zāi)茱@著提升任務(wù)表現(xiàn)——比如雙臂協(xié)同向下夾取物體，這種符合人類運動邏輯的先驗，能大幅加速模型收斂，同時提高任務(wù)成功率。

我們還測試了方法的多樣化適配能力，在仿真環(huán)境中表現(xiàn)很理想。大家可以看到，紅色曲線是參考運動（reference motion），我們的方法在只給少量參考運動的情況下，就能實現(xiàn)更豐富多樣的交互行為，相關(guān)演示（demo）也能證明這一點。而且我們的測試不局限于搬運任務(wù)，還包括坐下（sit down）、躺下（lying）、物體轉(zhuǎn)運（把物體從一個位置放到另一個位置）等多種交互任務(wù)。我們可以通過人工選定任務(wù)目標(biāo)，讓機器人精準(zhǔn)執(zhí)行。至少在控制策略層面，我們已經(jīng)成功把仿真環(huán)境中解決復(fù)雜交互任務(wù)的能力，遷移到了真實世界中，解決了之前Sim2Real遷移在交互任務(wù)上的核心痛點。

與此同時我們還做了更多嘗試，比如在快速運動的物體下，比如說足球。我們改進(jìn)了它的感知模式，比如可以用動捕，或者用一個更快速的感知方式，使得它直接用形態(tài)學(xué)處理去處理高速運動的物體，然后讓它完成比如連續(xù)撲救，或者把任務(wù)設(shè)成躲球，做連續(xù)躲避。

最后，我想和大家分享一些關(guān)于未來的思考。其實今天我想強調(diào)的是，從整個人形機器人運動控制領(lǐng)域來看，今年我個人感覺是一個關(guān)鍵的時間節(jié)點——我們正從“盲走盲跳”，比如機器人跳舞這類純運動演示，走向“感知驅(qū)動”（perceptive）的新階段。這個趨勢不只是我們團隊觀察到，今年年底英偉達(dá)等企業(yè)也做了相關(guān)探索，他們的方案可能更激進(jìn)一些。比如我們團隊的方案還用到了激光雷達(dá)（LiDAR），沒有采用RGB相機的形式；但今年能看到，有些公司選擇用RGB相機，通過光照和材質(zhì)的合成、對齊，盡可能讓仿真和真實世界中傳感器的感知一致。

具體來說，他們會優(yōu)化相機畸變（distortion）、相機視角（camera view）的對齊，然后在仿真環(huán)境中做盡可能多的域隨機化（randomization），讓訓(xùn)練出的策略在真實世界中具備基礎(chǔ)的導(dǎo)航和控制能力。比如VIRAL團隊實現(xiàn)了大概50多次的連續(xù)抓取，能在兩張桌子之間完成任務(wù)；還有DoorGym的工作，實現(xiàn)了純Sim2Real的開門任務(wù)。

第二步，技能學(xué)習(xí)。沿用我們剛才提到的任務(wù)感知型模型框架，完成復(fù)合技能的學(xué)習(xí)。

所以我個人認(rèn)為，未來一些偏離線（offline）的方法可能會成為突破口：當(dāng)我們收集到足夠多的數(shù)據(jù)后，通過離線方法結(jié)合監(jiān)督學(xué)習(xí)（supervised learning）的形式，有可能把模型參數(shù)量做大，至少達(dá)到2019、2020年BERT的參數(shù)量級別，甚至向GPT的參數(shù)量級別靠攏。而更大的模型，或許能賦予機器人更長程的控制能力。

另一個未來的重要方向是“規(guī)?；瘮U展”（scaling up）。從整個控制領(lǐng)域的發(fā)展來看，我們肯定希望控制器能掌握越來越多的技能。但從實際實踐經(jīng)驗來看，無論是板載算力的限制，還是在線強化學(xué)習(xí)（online RL）的訓(xùn)練方式，目前都不太支持用超大模型來實現(xiàn)——模型參數(shù)量的限制，直接制約了技能容量和更多控制形式的探索。

以上就是我的分享，謝謝大家。

雷峰網(wǎng)文章

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.