国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

王興興署名,宇樹機器人春晚之后又進(jìn)化了:單個策略就能學(xué)習(xí)各種極限動作

0
分享至

春晚上,《武 BOT》給人留下了深刻印象。表演中,人形機器人 G1 和 H2 在快速奔跑中完成了穿插變陣和武術(shù)動作,展現(xiàn)出了高動態(tài)、高協(xié)同的全自主集群控制技術(shù)。


而現(xiàn)在,北京通用人工智能研究院(BIGAI)、宇樹、上海交通大學(xué)和中國科技大學(xué)等機構(gòu)的一項新研究在這個方向上更推進(jìn)了一步,提出了OmniXtreme第一個可以執(zhí)行各種極限動作的通用策略,包括連續(xù)翻轉(zhuǎn)、極限平衡,甚至可以通過快速接觸切換進(jìn)行霹靂舞。

這種能力的實現(xiàn)過程首先是預(yù)訓(xùn)練一個基于流的生成控制策略(flow-based generative control policy),然后針對復(fù)雜物理動力學(xué)進(jìn)行「驅(qū)動感知殘差強化學(xué)習(xí)」(actuation-aware residual RL)的后訓(xùn)練。其中后訓(xùn)練這一步對于成功實現(xiàn)真實世界的遷移至關(guān)重要。

該項目的通訊作者之一、BIGAI 研究科學(xué)家 Siyuan Huang 在 X 上表示:「我們花了一整年時間深入研究通用跟蹤和極端物理行為之間的障礙。在測試了數(shù)十臺 G1 機器人之后,我們最終找到了學(xué)習(xí)和物理執(zhí)行能力方面的瓶頸?!?/p>


值得注意的是,宇樹科技聯(lián)創(chuàng)和 CEO 王興興也在這篇論文的作者名單中。論文一作為 Yunshen Wang 和 Shaohang Zhu。


論文地址:https://arxiv.org/abs/2602.23843

項目地址:https://extreme-humanoid.github.io

代碼地址:https://github.com/Perkins729/OmniXtreme

方法:打破高動態(tài)控制的泛化壁壘

在人形機器人的運動控制領(lǐng)域,研究人員長期面臨一個被稱為「泛化壁壘(generality barrier)」的困境。

當(dāng)動作庫的規(guī)模和多樣性增加時,傳統(tǒng)的統(tǒng)一強化學(xué)習(xí)策略往往會遭遇性能崩潰,這在高動態(tài)動作的物理部署中尤為明顯。這種崩潰源于兩個相互疊加的瓶頸:仿真環(huán)境中的學(xué)習(xí)瓶頸(多動作優(yōu)化的梯度干擾)以及物理執(zhí)行瓶頸(真實世界復(fù)雜的驅(qū)動約束)。

為了從根本上解決這一問題,該研究團隊提出了OmniXtreme框架。該框架將動作技能的學(xué)習(xí)與物理驅(qū)動的微調(diào)進(jìn)行了巧妙的解耦,分為「基于流的可擴展預(yù)訓(xùn)練」與「驅(qū)動感知的殘差后訓(xùn)練」兩個核心階段。



階段一:基于流的可擴展預(yù)訓(xùn)練

在第一階段,研究團隊的目標(biāo)是賦予模型極高的表示容量,使其能夠掌握大量異構(gòu)的極限動作,同時避免傳統(tǒng)多動作強化學(xué)習(xí)中常見的保守化平均傾向。

研究人員首先整合了 LAFAN1、AMASS、MimicKit 等多個高質(zhì)量動作數(shù)據(jù)集,并將其重定向至宇樹 G1 人形機器人上。

針對這些參考動作,團隊利用 PPO 算法訓(xùn)練了一系列專家策略。隨后,OmniXtreme 采用了基于數(shù)據(jù)集聚合 (DAgger) 的知識蒸餾技術(shù),將這些專家策略的行為統(tǒng)一融合到一個基于流匹配的生成式策略中。


在數(shù)學(xué)表達(dá)上,基于流的模型通過優(yōu)化以下目標(biāo)函數(shù)來學(xué)習(xí)從純噪聲中恢復(fù)專家動作的過程 :

在上述公式中,a_t 表示在流時間步 t 下,專家動作 a_{expert} 與隨機噪聲 ε 之間的插值動作。該目標(biāo)函數(shù)使得模型能夠?qū)W習(xí)到一個速度場 v_θ,從而在推理時通過正向歐拉積分生成高精度的連續(xù)控制動作。為了保證物理穩(wěn)定性,團隊在這一階段僅引入了適度的噪聲和域隨機化,確保策略能夠準(zhǔn)確捕捉底層的物理動力學(xué)特征。

階段二:驅(qū)動感知的后訓(xùn)練

預(yù)訓(xùn)練得到的流匹配策略雖然在仿真中表現(xiàn)出了驚人的跟蹤精度,但現(xiàn)實世界中的電機非線性特性往往會導(dǎo)致這種高動態(tài)表現(xiàn)大打折扣。

為了實現(xiàn)平滑的「仿真到現(xiàn)實」遷移,團隊凍結(jié)了預(yù)訓(xùn)練的基礎(chǔ)策略,并在其之上訓(xùn)練了一個輕量級的 MLP 殘差策略。該殘差策略無需重新學(xué)習(xí)動作跟蹤,主要負(fù)責(zé)輸出修正動作以對抗真實的硬件約束。

為了讓殘差策略真正理解物理世界的殘酷,團隊在訓(xùn)練環(huán)境中引入了三個層面的深度建模:

1. 激進(jìn)的域隨機化

研究人員將初始姿態(tài)噪聲、外力干擾幅度、角速度等常見域隨機化參數(shù)的范圍大幅提升了最高 50%。更為關(guān)鍵的是,他們將終止閾值放寬了 1.5 倍(例如將軀干方向誤差容忍度從 0.8 弧度放寬至 1.2 弧度)。這種設(shè)計給予了殘差策略充足的探索空間,使其能夠?qū)W會在大偏差狀態(tài)下進(jìn)行極限挽救,極大地增強了系統(tǒng)的魯棒性。

2. 功率安全驅(qū)動正則化

執(zhí)行后空翻等高動態(tài)動作時,機器人會產(chǎn)生巨大的瞬態(tài)制動負(fù)載。常規(guī)的強化學(xué)習(xí)管線通常缺乏對此類負(fù)載的約束,從而極易在真實硬件上觸發(fā)過流保護或熱應(yīng)力宕機。OmniXtreme 創(chuàng)新性地引入了針對機械功率的懲罰機制,其核心在于計算關(guān)節(jié)扭矩與角速度的乘積,即瞬時機械功率 P=τ?ω。

對于超出安全死區(qū)的高額負(fù)功率(再生制動),團隊?wèi)?yīng)用了嚴(yán)格的二次懲罰函數(shù) :


在實際應(yīng)用中,該懲罰項被重點施加于膝關(guān)節(jié),因為膝關(guān)節(jié)在沖擊與恢復(fù)階段最容易承受破壞性的制動負(fù)載。

3. 驅(qū)動感知的扭矩與速度約束

單純的扭矩截斷往往會忽略由反電動勢引起的與速度相關(guān)的物理限制。團隊將真實的電機運行包絡(luò)線直接集成到了仿真器中,定義了隨關(guān)節(jié)速度幅值單調(diào)遞減的容許扭矩函數(shù)。此外,系統(tǒng)還通過非線性摩擦項對執(zhí)行器級別的內(nèi)部損耗進(jìn)行了建模 :


該公式精確捕捉了從靜摩擦到動摩擦的平滑過渡,并計算了與速度相關(guān)的耗散阻尼。

純機載的實時部署

在硬件部署方面,OmniXtreme 展現(xiàn)出了極高的工程完成度。

整個推理管線(包括基于正向運動學(xué)的狀態(tài)估計、流匹配基礎(chǔ)策略以及殘差策略)均使用 TensorRT 進(jìn)行了深度優(yōu)化。在宇樹 G1 人形機器人的機載 NVIDIA Jetson Orin NX 平臺上,系統(tǒng)實現(xiàn)了約 10 ms 的端到端推理延遲,完美支持 50 Hz 的高頻閉環(huán)控制。

實驗表現(xiàn):全方位挑戰(zhàn)極限測試

為了全面評估 OmniXtreme 的可擴展性與魯棒性,研究團隊不僅使用了標(biāo)準(zhǔn)的 LAFAN1 動作庫,還精心挑選了約 60 個極具挑戰(zhàn)性的動作,構(gòu)建了 XtremeMotion 評估集。這些動作包含了極高的角速度、頻繁的接觸切換以及嚴(yán)苛的時序約束。

可擴展的高保真跟蹤能力

在仿真環(huán)境中,OmniXtreme 與傳統(tǒng)的「從頭訓(xùn)練多動作強化學(xué)習(xí)」基線模型以及「專家到統(tǒng)一 MLP 蒸餾」基線模型進(jìn)行了直接對比。數(shù)據(jù)表明,OmniXtreme 在所有指標(biāo)上均實現(xiàn)了碾壓。面對難度激增的 XtremeMotion 數(shù)據(jù)集,傳統(tǒng)方法的跟蹤誤差顯著增加,而 OmniXtreme 依舊維持了極低的運動學(xué)誤差和極高的成功率。


在現(xiàn)實世界的宇樹 G1 機器人上,團隊選取了 XtremeMotion 中的 24 個不同高動態(tài)動作進(jìn)行了 157 次物理測試。測試涵蓋了后空翻、雜技、霹靂舞、武術(shù)等多個動作類別。


最終,OmniXtreme 斬獲了 91.08% 的整體平均成功率。其中,后空翻類動作的成功率高達(dá) 96.36%,武術(shù)類動作達(dá)到 93.33%,霹靂舞類動作也保持在 86.36% 的高水平。這證明了仿真中的高保真度成功跨越了現(xiàn)實鴻溝。

下面展示了一些示例:


托馬斯全旋、上旋、向前爬行和后空翻。

霹靂舞

武術(shù)

打破保真度與可擴展性的權(quán)衡

為了驗證系統(tǒng)是否打破了泛化壁壘,團隊設(shè)計了漸進(jìn)式的壓力測試。他們將訓(xùn)練動作集從 10 個逐步擴展到 20 個,最終擴展到 50 個,并使用固定的前 10 個動作進(jìn)行統(tǒng)一評估。

實驗結(jié)果揭示了顯著的差異。隨著動作多樣性的增加,傳統(tǒng)從頭訓(xùn)練的強化學(xué)習(xí)基線模型出現(xiàn)了嚴(yán)重的性能衰退,其成功率從 100% 暴跌至 83.3%,最終滑落至 73.9%。


相比之下,OmniXtreme 展現(xiàn)出了驚人的韌性,在 50 個動作的龐大訓(xùn)練集下,其對核心動作的跟蹤成功率依然堅挺在 93.3%。這徹底推翻了高保真度必定隨著多樣性增加而崩潰的固有認(rèn)知。

模型規(guī)模的 Scaling Law

在人工智能的發(fā)展歷程中,增加模型參數(shù)量往往能帶來性能的飛躍,但這一規(guī)律在傳統(tǒng)的運動控制領(lǐng)域似乎失效了。團隊對比了不同參數(shù)規(guī)模(20M、50M、70M)的模型表現(xiàn)。


圖表數(shù)據(jù)清晰地顯示,傳統(tǒng)的 MLP 策略在擴大參數(shù)量后很快就陷入了性能飽和,跟蹤精度提升極其有限。

與之形成鮮明對比的是,基于流匹配的生成式策略完美契合了 Scaling Law。隨著參數(shù)量向 70M 邁進(jìn),OmniXtreme 的跟蹤精度與魯棒性呈現(xiàn)出顯著且穩(wěn)定的線性增長。這說明生成式預(yù)訓(xùn)練為人形機器人控制系統(tǒng)提供了一條切實可行的能力進(jìn)化路徑。

現(xiàn)實世界執(zhí)行力的深度消融

究竟是哪些機制賦予了機器人如此強大的物理穩(wěn)健性?團隊通過消融實驗給出了答案。


對于具有強爆發(fā)力的翻騰動作(如后空翻),僅僅引入電機約束就足以保障穩(wěn)定執(zhí)行,因為這避免了底層硬件極限的瞬間崩潰。然而,對于包含高頻接觸轉(zhuǎn)換的霹靂舞動作,系統(tǒng)必須同時依賴電機約束與激進(jìn)的域隨機化,才能在接觸擾動中維持時序敏感的平衡。

最嚴(yán)苛的挑戰(zhàn)來自于包含高速沖擊緩沖的雜技落地動作。團隊發(fā)現(xiàn),如果沒有功率安全正則化機制,即使模型在姿態(tài)上維持了平衡,也會因為電機瞬態(tài)制動導(dǎo)致過流或電池欠壓而宣告失敗。


這充分說明,真實世界的極度敏捷必須建立在聲、光、電、熱等多維物理約束的精確建模之上。


https://x.com/siyuanhuang95/status/2028506522633073132

文章來源:機器之心。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
馬筱梅哭訴婆婆家沒房間,68歲張?zhí)m一張健身照回?fù)簦荷儋u慘多讀書

馬筱梅哭訴婆婆家沒房間,68歲張?zhí)m一張健身照回?fù)簦荷儋u慘多讀書

未曾青梅
2026-04-19 22:11:35
黃圣依“消失”2個月后現(xiàn)身,曬瑞士游學(xué)照,網(wǎng)友:實驗室出鏡像女大

黃圣依“消失”2個月后現(xiàn)身,曬瑞士游學(xué)照,網(wǎng)友:實驗室出鏡像女大

動物奇奇怪怪
2026-04-20 00:47:39
蘇林夫婦廣西考察,嚴(yán)月霞身高曝光引關(guān)注,實力不容小覷

蘇林夫婦廣西考察,嚴(yán)月霞身高曝光引關(guān)注,實力不容小覷

朗威談星座
2026-04-19 02:27:46
特朗普:由于安全原因,萬斯將不參加美伊復(fù)談

特朗普:由于安全原因,萬斯將不參加美伊復(fù)談

澎湃新聞
2026-04-19 22:03:10
蔚來回應(yīng)ES9仍用隱藏式門把手:目前蔚來全系在售車型,均可以正常使用隱藏式門把手,也完全合規(guī)

蔚來回應(yīng)ES9仍用隱藏式門把手:目前蔚來全系在售車型,均可以正常使用隱藏式門把手,也完全合規(guī)

魯中晨報
2026-04-18 17:16:31
演員何潤東回應(yīng)穿項羽鎧甲亮相蘇超:14年后受邀過來,內(nèi)心滿是感動,等下去逛項王故里

演員何潤東回應(yīng)穿項羽鎧甲亮相蘇超:14年后受邀過來,內(nèi)心滿是感動,等下去逛項王故里

極目新聞
2026-04-19 10:17:37
張本兄妹改名風(fēng)波再升級,韓媒強烈批評,這就是狠毒的創(chuàng)姓改稱

張本兄妹改名風(fēng)波再升級,韓媒強烈批評,這就是狠毒的創(chuàng)姓改稱

有范又有料
2026-04-19 00:03:10
半場:阿森納1-1戰(zhàn)平曼城,謝爾基一條龍,多納魯馬巨大失誤送禮

半場:阿森納1-1戰(zhàn)平曼城,謝爾基一條龍,多納魯馬巨大失誤送禮

側(cè)身凌空斬
2026-04-20 00:17:01
極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

懂球帝
2026-04-20 00:22:46
突然“值錢了”!不少人家里都有,專家提醒:別賣!

突然“值錢了”!不少人家里都有,專家提醒:別賣!

娛樂圈見解說
2026-04-19 10:33:31
比失業(yè)更可怕的是工資倒退,深圳的工資已經(jīng)降到了10年前

比失業(yè)更可怕的是工資倒退,深圳的工資已經(jīng)降到了10年前

細(xì)說職場
2026-04-07 11:32:47
不陪快船內(nèi)耗了!倫納德下家曝光,首選騎士,哈登圓夢總冠軍有戲

不陪快船內(nèi)耗了!倫納德下家曝光,首選騎士,哈登圓夢總冠軍有戲

體育大朋說
2026-04-19 14:00:03
貝森特通告全球,將對中國二級制裁,話音剛落,中國被曝美債余額

貝森特通告全球,將對中國二級制裁,話音剛落,中國被曝美債余額

浮光驚掠影
2026-04-19 10:01:06
郭富城與方媛曬結(jié)婚紀(jì)念日合照,雙雙曬照定制水晶擺件撒糖

郭富城與方媛曬結(jié)婚紀(jì)念日合照,雙雙曬照定制水晶擺件撒糖

眼底星碎
2026-04-19 18:40:18
“雷軍被堵車?yán)锞S權(quán)”真相來了!小米高管放話:絕不放任

“雷軍被堵車?yán)锞S權(quán)”真相來了!小米高管放話:絕不放任

雷科技
2026-04-19 22:59:40
楊瀚森踏上第一次季后賽之旅!笑容滿面登機 G1有機會上場嗎?

楊瀚森踏上第一次季后賽之旅!笑容滿面登機 G1有機會上場嗎?

羅說NBA
2026-04-19 08:42:47
悲哀!10人小群里剩自己“干凈”,30歲女生稱身體忠于丈夫被孤立

悲哀!10人小群里剩自己“干凈”,30歲女生稱身體忠于丈夫被孤立

火山詩話
2026-04-19 07:13:36
【深圳故事】龍崗業(yè)主:千萬身家,被小區(qū)熟人4個月騙走3200萬。

【深圳故事】龍崗業(yè)主:千萬身家,被小區(qū)熟人4個月騙走3200萬。

美中融合
2026-04-19 17:49:50
突發(fā)!兩家A股公司遭立案,超6萬股東踩雷

突發(fā)!兩家A股公司遭立案,超6萬股東踩雷

財經(jīng)智多星
2026-04-19 08:05:32
泰坦尼克號幸存者救生衣首次被拍賣,以617萬元人民幣成交,救生衣主人與其他幸存者在上面簽了名,救生衣配有12個口袋,裝有肩墊和側(cè)綁帶

泰坦尼克號幸存者救生衣首次被拍賣,以617萬元人民幣成交,救生衣主人與其他幸存者在上面簽了名,救生衣配有12個口袋,裝有肩墊和側(cè)綁帶

大風(fēng)新聞
2026-04-19 13:33:02
2026-04-20 01:20:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識,交流思想
5482文章數(shù) 64624關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

親子
時尚
本地
房產(chǎn)
軍事航空

親子要聞

孩子總打噴嚏、起疹子,時過敏嗎?

裝修“精神角落”,就是這么上癮

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

房產(chǎn)要聞

官宣簽約最強城更!??跇鞘校蝗粴⑷肷衩胤科?!

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無障礙瀏覽 進(jìn)入關(guān)懷版