国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

圖靈獎得主Yann LeCun離開Meta后首篇論文?使用了宇樹機器人做研究

0
分享至


來源:機器之心

還記得《黑客帝國》里 Neo 通過腦機接口瞬間學會功夫的場景嗎?


現(xiàn)在,機器人離這一天也不遠了。想象一下,你只需在電腦上輸入一句提示詞:「一個人在打太極」,AI 視頻模型(比如 Wan2.1 或 Sora)立刻生成一段視頻,而旁邊的機器人看完這段視頻,竟然就能零樣本(Zero-shot)地把這套動作在物理世界中完美復現(xiàn)出來!

沒錯,這就是來自伯克利、紐約大學和約翰?開普勒林茨大學的一項最新論文想要實現(xiàn)的未來。

研究人員提出了一種名為GenMimic的新方法,讓機器人擁有了「模仿大師」的技能,甚至即便 AI 生成的視頻里人物動作有些變形、甚至出現(xiàn)「鬼畜」般的噪聲,機器人也能去偽存真,提取出核心動作邏輯,穩(wěn)穩(wěn)當當?shù)卦诂F(xiàn)實中動起來。


  • 論文標題:From Generated Human Videos to Physically Plausible Robot Trajectories

  • 論文地址:https://arxiv.org/abs/2512.05094v1

  • 項目地址:https://genmimic.github.io/

已經(jīng)離開 Meta、的圖靈獎得主 Yann LeCun 也是該研究的四位共同導師之一。有趣的是,在這篇論文中,Yann LeCun 的所屬機構已經(jīng)沒有了 Meta。這應該是他離開 Meta 后發(fā)布的第一篇論文?不過,其所屬機構也尚未標注其新創(chuàng)業(yè)公司,僅有紐約大學。

該論文有四位共一作者:James Ni、Zekai Wang、Wei Lin、Amir Bar。其研究的核心問題是機器人領域一個關鍵問題:人形機器人如何能夠零樣本(zero-shot)地執(zhí)行生成視頻中的人類動作?

這項研究有四大貢獻:

  • 提出了首個使人形機器人能夠執(zhí)行由視頻生成模型生成的動作的通用框架。

  • 提出了 GenMimic,這是一種新的強化學習策略,使用對稱正則化和選擇性加權的 3D 關鍵點獎勵進行訓練,盡管僅在現(xiàn)有的動作捕捉數(shù)據(jù)上訓練,卻能泛化到充滿噪聲的合成視頻。

  • 利用 Wan2.1 和 Cosmos-Predict2 整理了合成人類動作數(shù)據(jù)集 GenMimicBench,建立了評估零樣本泛化和策略魯棒性的可擴展基準。

  • 在仿真和真實世界實驗中廣泛驗證了新提出的方法。在仿真中,該團隊提供了詳細的消融實驗,并展示了相比強基線模型的顯著改進。他們還進一步在宇樹 G1 機器人上確認了新方法的可行性,展示了連貫且物理穩(wěn)定的動作。


下面我們更詳細地了解一下這項研究成果。

GenMimicBench 數(shù)據(jù)集

為了評估人形機器人控制策略在不同視覺和動作分布下的零樣本泛化能力,該團隊引入了GenMimicBench,這是一個包含 428 個生成視頻的合成人類動作數(shù)據(jù)集。

該數(shù)據(jù)集是使用兩個最先進的視頻生成模型 Wan2.1-VACE-14B 和 Cosmos-Predict2-14BSample-GR00T-Dreams-GR1 創(chuàng)建的。

如圖 2 所示,每個序列都是從初始幀和指定預期動作的文本提示生成的,從而實現(xiàn)了主體身份、視角和動作的系統(tǒng)性變化。


總體而言,GenMimicBench 涵蓋了廣泛的主體、環(huán)境和動作類型,從簡單的手勢到多步驟組合動作及物體交互行為。

  • Wan2.1 視頻受控室內場景。 GenMimicBench 的很大一部分是使用 Wan2.1 從 NTU RGB+D 幀生成的。這些片段提供了清晰、結構化的室內環(huán)境,并具有同步的前視、左視和右視攝像機視角。該團隊包括了五名具有不同人口統(tǒng)計學特征、身體比例和著裝風格的主體,確保外觀的多樣性,同時保持場景幾何的一致性。動作涵蓋四個結構化類別。這產(chǎn)生了 217 個多視角室內視頻,捕捉了形態(tài)、視角和動作組合的細微變化。

  • Cosmos-Predict2 視頻:網(wǎng)絡風格場景。 為了以更大的多樣性補充這些受控場景,該團隊還使用 Cosmos-Predict2 生成了以 PennAction 幀為條件的視頻。這些片段反映了自然場景下 YouTube 視頻的特征:雜亂的場景、多變的攝像機運動、不均勻的光照和現(xiàn)實世界的物體布局。該子集包括 211 個視頻,主要由八個不同的主體執(zhí)行簡單的手勢(例如,摸頭、豎大拇指)以及一系列物體交互行為,如開門、舉書或啞鈴,以及操作日常家居用品。這一部分使策略暴露于受控數(shù)據(jù)集中所缺乏的現(xiàn)實復雜性,為評估在自然環(huán)境中的魯棒性提供了一個具有挑戰(zhàn)性的測試平臺。

總計,GenMimicBench 提供了一個包含 428 個高方差合成動作序列的統(tǒng)一集合,涵蓋了結構化的室內場景和多樣化的現(xiàn)實世界視頻語境。

通過將受控動作與多樣化的自然人類動作相結合,GenMimicBench 建立了一個全面的基準,可用于評估在視覺、形態(tài)和動作分布偏移下的人形機器人策略性能。該數(shù)據(jù)集專門設計用于壓力測試魯棒性,使其非常適合評估依賴于從生成視頻中獲取的噪聲或不完美動作重建的策略。

從生成的視頻到人形機器人動作

為了解決從生成視頻中執(zhí)行人形機器人動作的挑戰(zhàn),該團隊提出了一個基于 4D 重建的兩階段流程,并提出了一個新的 GenMimic 跟蹤策略。圖 3 展示了方法概況。


兩階段流程

第一階段:從像素到 4D 人形機器人重建。

給定一個生成的輸入 RGB 視頻,該團隊使用最先進的人類重建模型來檢測和提取逐幀的全局姿態(tài)和 SMPL 參數(shù)。由于形態(tài)不匹配,生成的 SMPL 軌跡無法直接用于人形機器人。因此,該團隊選擇將 SMPL 軌跡重定向到機器人的關節(jié)空間,該空間結合逐幀的全局姿態(tài)可恢復機器人空間中的全局 3D 關鍵點。

第二階段:從 4D 人形機器人到動作。

為了正確地泛化到未見過的人類動作,該團隊的策略必須對輸入中的變化和噪聲具有魯棒性。

為了實現(xiàn)這一點,該團隊特意選擇 3D 關鍵點而非關節(jié)角度,因為關鍵點對變化更具魯棒性,且噪聲在這種表征中更容易被觀察到。

給定這些關鍵點和本體感知信息,該團隊的跟蹤策略輸出物理上可實現(xiàn)的期望關節(jié)角度。這些期望關節(jié)角度被比例-微分 (PD) 控制器使用,輸出可執(zhí)行的力矩給機器人。

GenMimic 策略

如圖 3 所示,從視頻生成的人類動作包含噪聲和形態(tài)不匹配,這使得它們偏離了訓練數(shù)據(jù)的分布。

該團隊表明,添加加權關鍵點跟蹤獎勵和對稱增強提供了足夠的魯棒性來解決這些挑戰(zhàn)。

加權跟蹤 (Weighted Tracking)

某些關鍵點(例如對應于末端執(zhí)行器的關鍵點)在任務執(zhí)行和物理穩(wěn)定性方面本質上比軀干或非接觸關鍵點更為關鍵。因此,該團隊將跟蹤獎勵設計為使用逐關鍵點誤差的加權組合:


這個公式使得策略能夠選擇性地關注目標中最可靠和與任務最相關的方面。對于生成視頻,偏向末端執(zhí)行器并遠離不準確的下半身會產(chǎn)生穩(wěn)定的模仿效果。

對稱損失 (Symmetry Loss)

人體表現(xiàn)出固有的雙側對稱性,其中左側和右側近似為鏡像。

該團隊假設,由于這種對稱性作為一種強大的物理歸納偏置,一個顯式學習并利用左右關鍵點之間對稱相關性的策略,可以對生成視頻中的逐關鍵點噪聲實現(xiàn)更強的魯棒性。

為了實現(xiàn)這一點,該團隊在標準 PPO 訓練目標中加入了一個輔助對稱損失 L_SYM,并帶有權重系數(shù) λ_SYM:

策略學習的細節(jié)(包括訓練數(shù)據(jù)、獎勵和域隨機化)請參閱原論文。



實驗表現(xiàn)

該團隊在 GenMimicBench 和真實的 23-DoF 宇樹 G1 人形機器人上進行了實驗。實現(xiàn)細節(jié)方面,訓練在 IsaacGym 中進行,樣本量超過 15 億,使用了四個 NVIDIA RTX 4090 GPU。部署使用單個 NVIDIA 4060 移動版 GPU。更多細節(jié)請訪問原論文。

仿真實驗

該團隊在 GenMimicBench 數(shù)據(jù)集上對比了該團隊的方法與強基線模型。結果見表 1。


如表 1 所示,GenMimic 優(yōu)于現(xiàn)有基線。GenMimic 學生模型獲得了比 GMT 和 TWIST 更高的 SR 和 MPKPE-NT,而 GenMimic 教師模型獲得了比 BeyondMimic 和 TWIST 更高的 SR、MPKPE 和 MPKPE-NT。所有 unprivileged 策略都表現(xiàn)出較高的全局誤差,突顯了從生成視頻中進行零樣本模仿的挑戰(zhàn)。

真實世界實驗

該團隊成功地將策略部署在 23-DoF 的 G1 人形機器人上,展示了對生成視頻中人類動作的物理復現(xiàn)。

該團隊總共推演了 43 個動作,并在表 2 中報告了視覺成功率 (VSR)。與僅衡量偏離基準真值的定量仿真指標不同,VSR 評估執(zhí)行的動作在視覺上是否與生成視頻相似。該團隊將任何過度的跌跌撞撞或無法在視覺上跟隨關鍵關鍵點(如手或腳)的情況視為失敗。


該團隊的策略成功復現(xiàn)了廣泛的上半身動作,包括揮手、指向、伸展及其序列組合。將這些動作與下半身運動組合會顯著增加難度。對于步進組合,策略能可靠地跟隨上半身動作,但無法一致地完成邁步或抬腿。對于轉身組合,策略能可靠地達到期望的方向,但經(jīng)常會跌跌撞撞。

該團隊猜想,這些挑戰(zhàn)源于不準確或物理上不可行的動作線索,這個問題或可通過向 3D 目標關鍵點引入加權噪聲來解決。

下面展示了一些模仿示例。


該團隊也執(zhí)行了消融實驗,詳見原論文。

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
王欣瑜遭逆轉因傾城笑容意外獲贊,網(wǎng)友喊話盡快解決老毛病

王欣瑜遭逆轉因傾城笑容意外獲贊,網(wǎng)友喊話盡快解決老毛病

網(wǎng)球之家
2025-12-27 12:50:41
離譜!17歲女生被18歲男生弄懷孕,接生醫(yī)生發(fā)視頻點贊,配文炸裂

離譜!17歲女生被18歲男生弄懷孕,接生醫(yī)生發(fā)視頻點贊,配文炸裂

溫辭韞
2025-12-25 15:46:31
加油站小伙中2800萬美元21歲退休,嘆親友紛以一理由借錢。

加油站小伙中2800萬美元21歲退休,嘆親友紛以一理由借錢。

環(huán)球趣聞分享
2025-12-27 16:36:30
南京博物院院長從靈谷塔七層一躍而下!

南京博物院院長從靈谷塔七層一躍而下!

興化論談
2025-12-19 20:21:07
泰國看守總理:如達成一致,泰柬將簽署?;鹇暶?>
    </a>
        <h3>
      <a href=環(huán)球網(wǎng)資訊
2025-12-27 07:06:35
80年媽媽心軟放走盜賊,10年后收到一個包裹,打開一看全家蒙圈

80年媽媽心軟放走盜賊,10年后收到一個包裹,打開一看全家蒙圈

衍月
2025-12-26 15:33:09
73歲大媽的明智養(yǎng)老:不請保姆不住養(yǎng)老院,而是找個年輕老伴照顧

73歲大媽的明智養(yǎng)老:不請保姆不住養(yǎng)老院,而是找個年輕老伴照顧

烙任情感
2025-12-26 16:46:58
越南少將阮德輝吐實情:中國軍隊回撤途中黎筍下了道死命令

越南少將阮德輝吐實情:中國軍隊回撤途中黎筍下了道死命令

磊子講史
2025-12-23 20:13:04
14年前,用全部積蓄買下10萬個比特幣的新東方老師,如今現(xiàn)狀怎樣

14年前,用全部積蓄買下10萬個比特幣的新東方老師,如今現(xiàn)狀怎樣

一盅情懷
2025-12-11 14:06:19
南京博物院前院長被帶走不到12小時,惡心事就出現(xiàn)了,還不止一件

南京博物院前院長被帶走不到12小時,惡心事就出現(xiàn)了,還不止一件

有范又有料
2025-12-27 09:53:55
向太曝馬伊琍已再婚:當年文章過不了心理那關

向太曝馬伊琍已再婚:當年文章過不了心理那關

娛樂看阿敞
2025-12-12 15:50:00
珠海天氣即將大反轉!

珠海天氣即將大反轉!

金灣通
2025-12-27 13:35:32
真有錢!中超土豪強挖南美全能中場,轉會費1200萬!73場造14球

真有錢!中超土豪強挖南美全能中場,轉會費1200萬!73場造14球

國足風云
2025-12-27 10:23:09
69歲趙本山:每天2包煙,頓頓8兩酒,跟生前的楊少華如出一轍

69歲趙本山:每天2包煙,頓頓8兩酒,跟生前的楊少華如出一轍

豐譚筆錄
2025-12-16 10:55:06
尹錫悅量刑曝光,出乎所有人意料,最后關頭,李在明還是手軟了?

尹錫悅量刑曝光,出乎所有人意料,最后關頭,李在明還是手軟了?

博覽歷史
2025-12-26 19:27:26
關羽是賣棗的,張飛是殺豬的,為何一出場就自帶絕世武功?

關羽是賣棗的,張飛是殺豬的,為何一出場就自帶絕世武功?

犀利辣椒
2025-12-27 06:42:08
高市政府叫囂擁核,中美第一時間表態(tài),魯比奧的回應堪稱絕殺

高市政府叫囂擁核,中美第一時間表態(tài),魯比奧的回應堪稱絕殺

歷史有些冷
2025-12-26 17:25:06
戴口罩的美女真好看,一身白色包臀裙穿出高級感,身材讓人羨慕

戴口罩的美女真好看,一身白色包臀裙穿出高級感,身材讓人羨慕

朝史暮夕
2025-12-27 08:25:15
表決落敗后,陳亭妃對賴出手,鄭麗文樂開了花!黃智賢這回尷尬了

表決落敗后,陳亭妃對賴出手,鄭麗文樂開了花!黃智賢這回尷尬了

現(xiàn)代小青青慕慕
2025-12-27 10:27:01
包括市長、常務副市長、副廳長、縣委書記、縣長等,云南嚴肅問責142人,其中廳級16人、處級47人

包括市長、常務副市長、副廳長、縣委書記、縣長等,云南嚴肅問責142人,其中廳級16人、處級47人

新京報政事兒
2025-12-27 13:09:49
2025-12-27 18:20:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4423文章數(shù) 37357關注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

男子戒毒后隨領導出差被警察帶走驗尿 回家后工作沒了

頭條要聞

男子戒毒后隨領導出差被警察帶走驗尿 回家后工作沒了

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

健康
時尚
親子
教育
手機

這些新療法,讓化療不再那么痛苦

從0度穿到20度,這件衣服才是今年冬天的“頂流”!

親子要聞

她稱自己是易孕體質!碰一下就會懷孕?

教育要聞

一直被催的孩子,永遠學不會自覺!喚醒內驅力,做好這3件事就夠了

手機要聞

華為Mate 80 RS非凡大師國行版實測境外可添加超2張eSIM卡

無障礙瀏覽 進入關懷版