国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

在「想象」中練就真機能力:RISE,讓VLA強化學(xué)習(xí)告別真機試錯

0
分享至



在具身智能的發(fā)展路徑中,視覺 - 語言 - 動作(VLA)模型正逐步成為通用操作任務(wù)的核心框架。但當(dāng)任務(wù)進(jìn)入長程規(guī)劃、柔性物體操作、精細(xì)雙臂協(xié)同、動態(tài)交互等復(fù)雜場景時,VLA 仍然面臨兩個根本性挑戰(zhàn):

1. 模仿學(xué)習(xí)在推理中的長序列誤差累積;

2. 真機強化學(xué)習(xí)成本過高,難以規(guī)?;?。

香港大學(xué)李弘揚老師帶領(lǐng)的 OpenDriveLab 團(tuán)隊近期提出的(RISE(χ0-RL))(Reinforcement learning via Imagination for SElf-improving robots),給出的核心答案是:

通過構(gòu)建組合式、多視角世界模型,讓機器人在想象的虛擬空間中完成強化學(xué)習(xí),無需大規(guī)模真機交互,卻能讓長程任務(wù)性能實現(xiàn)跨越式提升,部分任務(wù)成功率較 SOTA 基線漲幅超 45%。







目前,該研究的論文已正式發(fā)布,項目主頁、論文與 arXiv 鏈接均已開放,代碼也預(yù)計于三月內(nèi)完成開源。



  • 項目主頁:https://opendrivelab.com/kai0-rl/
  • 論文鏈接:https://arxiv.org/pdf/2602.11075
  • arXiv 鏈接: https://arxiv.org/abs/2602.11075
  • 團(tuán)隊官網(wǎng):https://opendrivelab.com/

傳統(tǒng) VLA 落地的三重枷鎖:

偏差難糾,試錯昂貴

VLA 模型的落地難題,本質(zhì)上源于模仿學(xué)習(xí)的先天缺陷與真機強化學(xué)習(xí)的現(xiàn)實壁壘,而現(xiàn)有世界模型的技術(shù)短板,更是讓虛實結(jié)合的嘗試難以落地,三重枷鎖層層制約,讓 VLA 在長程復(fù)雜任務(wù)中難以施展。

第一,模仿學(xué)習(xí)的暴露偏差

當(dāng)前主流 VLA 依賴專家演示數(shù)據(jù)訓(xùn)練,只學(xué)習(xí)「成功路徑」。

問題在于:

  • 從未見過失敗狀態(tài)
  • 不會恢復(fù)
  • 長程任務(wù)中誤差逐步放大

這使得模型在真實執(zhí)行中一旦偏離專家軌跡,幾乎無法自我修正。

第二,真機 RL 的三重現(xiàn)實難題

理論上,強化學(xué)習(xí)可以解決暴露偏差問題,但在真實世界中存在三大約束:

  • 樣本效率低:需要海量的交互數(shù)據(jù)支撐,動輒數(shù)百萬次的嘗試讓訓(xùn)練周期無限拉長;
  • 安全風(fēng)險高:探索性的操作極易造成機器人硬件磨損、損壞,帶來直接的經(jīng)濟(jì)損失;
  • 重置成本高:現(xiàn)實世界缺乏模擬器的自動重置機制,一次失敗后的環(huán)境恢復(fù)需要大量人工介入,效率極低。

第三,現(xiàn)有世界模型的能力短板

為彌合虛實差距,學(xué)界曾嘗試用生成式世界模型模擬物理環(huán)境,但這類模型往往難以同時兼顧動作可控性和長程一致性

  • 無法精準(zhǔn)跟隨動作指令
  • 在長序列視頻預(yù)測中出現(xiàn)畫面失真
  • 違背物理規(guī)律

因此,僅靠世界模型根本無法作為強化學(xué)習(xí)的有效訓(xùn)練環(huán)境。



RISE 框架概覽:(a) 傳統(tǒng)物理世界強化學(xué)習(xí)受限于硬件和重置成本;(b) 在組合式世界模型中進(jìn)行在線學(xué)習(xí);(c) 在真機任務(wù)上的顯著提升。

RISE 破局:

組合式世界模型 + 想象空間自進(jìn)化循環(huán)

RISE 的核心創(chuàng)新,在于將物理環(huán)境的交互完全遷移到組合式世界模型構(gòu)建的想象空間中,通過虛實解耦的設(shè)計,既解決了世界模型的高保真模擬問題,又構(gòu)建了高效的策略自進(jìn)化閉環(huán),讓機器人在虛擬空間中完成試錯 - 學(xué)習(xí) - 優(yōu)化的全流程。

組合式世界模型:

解耦設(shè)計,兼顧模擬精度與評估能力

與傳統(tǒng)單一世界模型不同,RISE 將世界模型解耦為可控動力學(xué)模型進(jìn)度價值模型兩個獨立優(yōu)化的模塊,各司其職,實現(xiàn)了高保真的物理模擬與精準(zhǔn)的軌跡價值評估。兩個模塊均采用了成功和失?。ɡ纾A(chǔ) VLA 模型在推理過程中的失敗數(shù)據(jù))的任務(wù)數(shù)據(jù)進(jìn)行訓(xùn)練,防止了模型的過擬合以及高度自信。

1. 可控動力學(xué)模型(模擬器):通過Task-Centric Batching(任務(wù)中心化批處理)策略,微調(diào)時每個 batch 集中采樣少數(shù)特定任務(wù)的多種動作變體,有效過濾無關(guān)背景噪聲,專注于動作指令的跟隨。這讓虛擬模擬的動作與真實操作高度對齊,解決了「手不跟腦」的問題;

2. 進(jìn)度價值模型(裁判員):融合進(jìn)度估計時序差分學(xué)習(xí)(TD Learning),前者為長程任務(wù)提供密集的獎勵信號,讓模型清晰感知每一步操作的任務(wù)推進(jìn)度;后者則增強了模型對細(xì)微失?。ㄈ缱ト』洹⑽恢闷疲┑拿舾行?,確保在長序列操作中能精準(zhǔn)評估「這步走得對不對」。



想象空間自進(jìn)化循環(huán):

三步實現(xiàn)無真機的策略迭代

在組合式世界模型構(gòu)建的高保真思維沙盒中,RISE 設(shè)計了完全在想象空間運行的在線強化學(xué)習(xí)閉環(huán),無需任何真機交互,就能實現(xiàn)策略的高效迭代,整個過程分為三步:

1. 第一步 Rollout 階段

VLA 策略與動力學(xué)模型交互,根據(jù)當(dāng)前狀態(tài)生成未來的視頻預(yù)測序列,模擬不同動作帶來的環(huán)境反饋;

2. 第二步 評估階段

進(jìn)度價值模型對所有想象出的軌跡進(jìn)行評分,計算優(yōu)勢函數(shù)(Advantage),區(qū)分高價值(成功)和低價值(失?。┑膭幼髀窂?;

3. 第三步 訓(xùn)練階段

利用高低價值的想象數(shù)據(jù),通過流匹配目標(biāo)更新 VLA 策略,讓模型持續(xù)強化成功路徑、規(guī)避失敗路徑,實現(xiàn)自我進(jìn)化。



RISE 架構(gòu)解析:

虛實解耦,讓想象貼合真實物理規(guī)律

RISE 的架構(gòu)設(shè)計,本質(zhì)上是通過解耦和對齊,讓虛擬的想象空間無限貼近真實物理世界,為策略優(yōu)化提供穩(wěn)定、可靠的訓(xùn)練環(huán)境,其核心邏輯可總結(jié)為模型解耦建沙盒,軌跡迭代優(yōu)策略。

組合式世界模型的解耦設(shè)計,從根源上解決了傳統(tǒng)世界模型模擬與評估不可兼得的問題:可控動力學(xué)模型負(fù)責(zé)打造高保真的物理模擬沙盒,確保動作與視覺反饋的一致性、長程性;進(jìn)度價值模型則充當(dāng)精準(zhǔn)的裁判,讓模型能在復(fù)雜的長程任務(wù)中清晰判斷每一步操作的價值。

而想象空間的自進(jìn)化閉環(huán),則讓強化學(xué)習(xí)的試錯完全脫離真機:同一初始狀態(tài)下,模型會生成多種不同的動作軌跡,通過自我博弈完成策略優(yōu)化,這種方式既避免了真機試錯的成本與風(fēng)險,又讓模型學(xué)會了從失敗中恢復(fù)的能力 —— 這正是傳統(tǒng)模仿學(xué)習(xí)所不具備的核心能力。

此外,RISE 的設(shè)計還充分考慮了離線數(shù)據(jù)的分布限制,通過同時利用在線動作和在線狀態(tài),讓模型能接觸到更多未知狀態(tài)的高價值動作,為后續(xù)的真實環(huán)境泛化打下基礎(chǔ)。

實測見真章:性能飆升、

泛化抗擾,想象訓(xùn)練練就真機硬實力

研究團(tuán)隊在三大極具挑戰(zhàn)性的真機長程任務(wù)中對 RISE 進(jìn)行了系統(tǒng)評估:動態(tài)積木分揀(動態(tài)物體操作)、背包裝袋(柔性物體操作)、紙盒閉合(精細(xì)雙臂協(xié)同),從性能、組件必要性、泛化抗擾能力、生成質(zhì)量四個維度,驗證了方法的有效性,各項結(jié)果均展現(xiàn)出顯著優(yōu)勢。

性能飆升:長程任務(wù)成功率大幅超越 SOTA



相較于 π?.?、RECAP、DSRL 等 SOTA 基線,RISE 在所有任務(wù)中均實現(xiàn)了成功率的跨越式提升,尤其在柔性物體和精細(xì)操作任務(wù)中表現(xiàn)亮眼:

  • 動態(tài)積木分揀:成功率從 RECAP 的 50% 提升至 85%,漲幅 35%;
  • 背包裝袋:成功率從 30% 提升至 85%,漲幅 45%,攻克了柔性物體操作的難點;
  • 紙盒閉合:成功率高達(dá) 95%,完美解決精細(xì)雙臂協(xié)同的精度問題。

組件驗證:每一環(huán)設(shè)計都是性能關(guān)鍵





消融實驗充分證明了 RISE 各模塊設(shè)計的必要性,任何一個組件的缺失,都會導(dǎo)致性能的顯著下降:

  • 去除Task-Centric Batching,動力學(xué)模型的動作控制能力大幅下降,任務(wù)完成率直接下跌;
  • 去除TD Learning,價值模型無法敏銳捕捉細(xì)微失敗狀態(tài),策略優(yōu)化失去方向;
  • 脫離在線動作 + 在線狀態(tài),模型難以突破離線數(shù)據(jù)的分布限制,泛化能力大幅降低。

泛化抗擾:不再「死記硬背」

RISE 訓(xùn)練出的策略不再是機械模仿專家,而是具備了「從失敗中恢復(fù)」的真實智能:

  • 抗干擾:面對人為干擾帶來的意外狀態(tài)(如物體被推離原位、抓取滑落),模型能主動調(diào)整動作,從失敗中恢復(fù)并完成任務(wù);

  • 位置泛化:即使被操縱物體的擺放位置發(fā)生變化(如折疊衣服、書包的位置偏移),模型仍能精準(zhǔn)完成操作,無需重新訓(xùn)練。

生成質(zhì)量:物理規(guī)律的高保真復(fù)刻

在模型生成質(zhì)量的定量與定性評估中,RISE 的動力學(xué)模型表現(xiàn)遠(yuǎn)超 Genie Envisioner、Cosmos 等基線模型:

  • 定量指標(biāo):在FVD(Fréchet 視頻距離)EPE(動作誤差)上均實現(xiàn)最優(yōu),視頻生成精度和動作跟隨能力更優(yōu);



  • 定性結(jié)果:能生成清晰、符合物理規(guī)律的多視角未來幀,無模糊、物體瞬移、動作不一致等問題,且在 Bridge、Galaxea、Agibot World 等大規(guī)模數(shù)據(jù)集上均保持優(yōu)異表現(xiàn)。



所提出的 dynamics model 能夠合成連貫的多視角視頻滾動,并具有高視覺保真度,為強化學(xué)習(xí)奠定了堅實的基礎(chǔ)。每個視頻片段均按從上到下的順序排列



模型能夠生成清晰且符合物理規(guī)律的未來幀,而基線模型常出現(xiàn)模糊或物體瞬移等物理不一致現(xiàn)象

啟示與展望:

從物理試錯到思維進(jìn)化,具身智能的范式躍遷

RISE 的價值,不止于一項技術(shù)的突破 —— 它正在重新定義智能體理解世界的方式,正在從物理世界的被動適應(yīng) 轉(zhuǎn)向想象空間的主動進(jìn)化。

這套框架的核心洞見,是對學(xué)習(xí)本質(zhì)的一次深刻重估:面對高動態(tài)、富接觸、高精度的長程復(fù)雜任務(wù),通過構(gòu)建高保真的組合式世界模型,將昂貴、高風(fēng)險的物理交互成本,轉(zhuǎn)化為可擴展的計算成本,讓機器人在思維沙盒中完成數(shù)萬次的自我博弈與迭代,遠(yuǎn)比低效的真機訓(xùn)練更高效。而這種在想象中學(xué)會從失敗中恢復(fù)的能力,正是 VLA 模型從實驗室演示走向真實世界落地的關(guān)鍵。

從隱向量世界模型到 RISE 的組合式多視角、像素級世界模型,RISE 完成了一次底層范式的躍遷:想象訓(xùn)練正在成為具身智能發(fā)展的核心方向。

未來的圖景正在變得清晰:當(dāng)世界模型的精度逼近物理現(xiàn)實的邊界,當(dāng)千萬種任務(wù)的執(zhí)行策略可以在想象中被反復(fù)預(yù)演、打磨至完美,機器人將真正迎來滿級出廠的時代 —— 它們不再需要在真實世界中跌跌撞撞地長大,而是先在高度逼真的思維里完成百萬次進(jìn)化,帶著已經(jīng)爐火純青的技能無縫落地現(xiàn)實。

這意味著什么?

意味著,物理世界對智能體成長的代價將被大幅降低。

而 RISE,正是通往這個未來的第一塊基石

更多方法細(xì)節(jié)與實驗分析,請見原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
二代刀片電池上車 9分鐘充飽!第二代騰勢D9預(yù)售:38.98萬起

二代刀片電池上車 9分鐘充飽!第二代騰勢D9預(yù)售:38.98萬起

快科技
2026-03-29 13:18:37
中國游客到朝鮮游玩,朝鮮人充滿疑問:為什么中國人是這樣的?

中國游客到朝鮮游玩,朝鮮人充滿疑問:為什么中國人是這樣的?

蜉蝣說
2026-03-28 18:26:48
出其不意的伊朗:多層次非對稱下的正面博弈

出其不意的伊朗:多層次非對稱下的正面博弈

紅星新聞
2026-03-28 11:24:13
善惡有報!逼人民日報怒批、暗諷張雪峰,1300萬網(wǎng)紅終為荒唐買單

善惡有報!逼人民日報怒批、暗諷張雪峰,1300萬網(wǎng)紅終為荒唐買單

蔡蔡說史
2026-03-28 16:50:54
想拿中國尿素救春耕?先還錢!中國享受俄油優(yōu)惠,印度徹底出局

想拿中國尿素救春耕?先還錢!中國享受俄油優(yōu)惠,印度徹底出局

塵緣而亦
2026-03-29 01:03:28
大連一企業(yè)董事長行賄法官120萬內(nèi)幕:“被告打點法官竟要原告買單”

大連一企業(yè)董事長行賄法官120萬內(nèi)幕:“被告打點法官竟要原告買單”

白鹿新聞
2026-03-28 17:30:32
廣東一店主下單寄遞10箱茅臺酒總價超12萬元,司機用一張模糊“卸貨照”虛假“送達(dá)”后失聯(lián),平臺:已與警方確認(rèn)找到司機,貨物已追回

廣東一店主下單寄遞10箱茅臺酒總價超12萬元,司機用一張模糊“卸貨照”虛假“送達(dá)”后失聯(lián),平臺:已與警方確認(rèn)找到司機,貨物已追回

大象新聞
2026-03-27 21:45:04
女排名將周曉蘭:曾和郎平齊名,退役后辭官赴美,如今過得咋樣

女排名將周曉蘭:曾和郎平齊名,退役后辭官赴美,如今過得咋樣

小徐講八卦
2026-02-15 16:20:07
公婆讓我給小侄子紅包888,她沒給我兒,婆婆:你以后需要他幫助

公婆讓我給小侄子紅包888,她沒給我兒,婆婆:你以后需要他幫助

清水家庭故事
2026-03-28 11:45:44
這是田曦薇的素顏照,你還能第一眼認(rèn)出來她嗎

這是田曦薇的素顏照,你還能第一眼認(rèn)出來她嗎

TVB的四小花
2026-03-29 00:11:41
父母把拆遷款全給弟弟,我10年沒回家,昨天到電話:姐,爸不行了

父母把拆遷款全給弟弟,我10年沒回家,昨天到電話:姐,爸不行了

真實人物采訪
2026-03-28 12:40:10
張雪峰老師生前公開推薦過的3所大學(xué),分?jǐn)?shù)低就業(yè)好!

張雪峰老師生前公開推薦過的3所大學(xué),分?jǐn)?shù)低就業(yè)好!

高三倒計時
2026-03-26 17:52:46
隨著馬刺8連勝,森林狼慘敗22分,西部最新排名出爐!灰熊第11

隨著馬刺8連勝,森林狼慘敗22分,西部最新排名出爐!灰熊第11

薇說體育
2026-03-29 12:03:38
張雪峰的人生意義,在這一刻具象化了!

張雪峰的人生意義,在這一刻具象化了!

太陽來
2026-03-29 09:37:23
廣東內(nèi)線乾坤大挪移,爭冠版圖震撼重構(gòu)

廣東內(nèi)線乾坤大挪移,爭冠版圖震撼重構(gòu)

老癘體育解說
2026-03-29 09:56:50
張雪峰靈堂遺體讓人淚目,追悼會流程曝光,細(xì)數(shù)其生前5大遺憾!

張雪峰靈堂遺體讓人淚目,追悼會流程曝光,細(xì)數(shù)其生前5大遺憾!

古希臘掌管月桂的神
2026-03-27 22:13:19
小區(qū)樓上天天晚上都有女的大聲叫。。。

小區(qū)樓上天天晚上都有女的大聲叫。。。

微微熱評
2025-12-24 00:26:04
4月“惹不起”的3生肖,遇貴人光芒照人,事業(yè)取得重大突破!

4月“惹不起”的3生肖,遇貴人光芒照人,事業(yè)取得重大突破!

毅談生肖
2026-03-29 10:54:00
黃埔一期唯一被開除的學(xué)生,我黨高級將領(lǐng),蔣介石一生的死敵

黃埔一期唯一被開除的學(xué)生,我黨高級將領(lǐng),蔣介石一生的死敵

興趣知識
2026-03-28 18:34:10
遇到麻煩了!菲律賓能源告急,馬科斯開金口求中方:中國幫過我們

遇到麻煩了!菲律賓能源告急,馬科斯開金口求中方:中國幫過我們

朝子亥
2026-03-29 13:10:03
2026-03-29 13:48:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142599關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

網(wǎng)約車司機被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

頭條要聞

網(wǎng)約車司機被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂要聞

張凌赫事件持續(xù)升級!官方點名怒批

財經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

手機
旅游
數(shù)碼
家居
公開課

手機要聞

華為何剛預(yù)告小藝Claw新特性,可推每日健康報告、制定運動計劃

旅游要聞

艷染浦東!櫻花、杜鵑齊綻放,繁花激活文旅“春日經(jīng)濟(jì)”

數(shù)碼要聞

曝華為多品類紫色新品將陸續(xù)推出 “幻影紫”平板已開售

家居要聞

曲線華爾茲 現(xiàn)代簡約

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版