在「想象」中練就真機能力：RISE，讓VLA強化學習告別真機試錯

2026-03-18 11:55:08　來源: 機器之心Pro

河北舉報

分享至

在具身智能的發(fā)展路徑中，視覺 - 語言 - 動作（VLA）模型正逐步成為通用操作任務的核心框架。但當任務進入長程規(guī)劃、柔性物體操作、精細雙臂協(xié)同、動態(tài)交互等復雜場景時，VLA 仍然面臨兩個根本性挑戰(zhàn)：

1. 模仿學習在推理中的長序列誤差累積；

2. 真機強化學習成本過高，難以規(guī)?；?/p>

香港大學李弘揚老師帶領的 OpenDriveLab 團隊近期提出的（RISE（χ0-RL））（Reinforcement learning via Imagination for SElf-improving robots），給出的核心答案是：

通過構建組合式、多視角世界模型，讓機器人在想象的虛擬空間中完成強化學習，無需大規(guī)模真機交互，卻能讓長程任務性能實現(xiàn)跨越式提升，部分任務成功率較 SOTA 基線漲幅超 45%。

目前，該研究的論文已正式發(fā)布，項目主頁、論文與 arXiv 鏈接均已開放，代碼也預計于三月內(nèi)完成開源。

項目主頁：https://opendrivelab.com/kai0-rl/
論文鏈接：https://arxiv.org/pdf/2602.11075
arXiv 鏈接: https://arxiv.org/abs/2602.11075
團隊官網(wǎng)：https://opendrivelab.com/

傳統(tǒng) VLA 落地的三重枷鎖：

偏差難糾，試錯昂貴

VLA 模型的落地難題，本質上源于模仿學習的先天缺陷與真機強化學習的現(xiàn)實壁壘，而現(xiàn)有世界模型的技術短板，更是讓虛實結合的嘗試難以落地，三重枷鎖層層制約，讓 VLA 在長程復雜任務中難以施展。

第一，模仿學習的暴露偏差

當前主流 VLA 依賴專家演示數(shù)據(jù)訓練，只學習「成功路徑」。

問題在于：

從未見過失敗狀態(tài)
不會恢復
長程任務中誤差逐步放大

這使得模型在真實執(zhí)行中一旦偏離專家軌跡，幾乎無法自我修正。

第二，真機 RL 的三重現(xiàn)實難題

理論上，強化學習可以解決暴露偏差問題，但在真實世界中存在三大約束：

樣本效率低：需要海量的交互數(shù)據(jù)支撐，動輒數(shù)百萬次的嘗試讓訓練周期無限拉長；
安全風險高：探索性的操作極易造成機器人硬件磨損、損壞，帶來直接的經(jīng)濟損失；
重置成本高：現(xiàn)實世界缺乏模擬器的自動重置機制，一次失敗后的環(huán)境恢復需要大量人工介入，效率極低。

第三，現(xiàn)有世界模型的能力短板

為彌合虛實差距，學界曾嘗試用生成式世界模型模擬物理環(huán)境，但這類模型往往難以同時兼顧動作可控性和長程一致性

無法精準跟隨動作指令
在長序列視頻預測中出現(xiàn)畫面失真
違背物理規(guī)律

因此，僅靠世界模型根本無法作為強化學習的有效訓練環(huán)境。

RISE 框架概覽：(a) 傳統(tǒng)物理世界強化學習受限于硬件和重置成本；(b) 在組合式世界模型中進行在線學習；(c) 在真機任務上的顯著提升。

RISE 破局：

組合式世界模型 + 想象空間自進化循環(huán)

RISE 的核心創(chuàng)新，在于將物理環(huán)境的交互完全遷移到組合式世界模型構建的想象空間中，通過虛實解耦的設計，既解決了世界模型的高保真模擬問題，又構建了高效的策略自進化閉環(huán)，讓機器人在虛擬空間中完成試錯 - 學習 - 優(yōu)化的全流程。

組合式世界模型：

解耦設計，兼顧模擬精度與評估能力

與傳統(tǒng)單一世界模型不同，RISE 將世界模型解耦為可控動力學模型進度價值模型兩個獨立優(yōu)化的模塊，各司其職，實現(xiàn)了高保真的物理模擬與精準的軌跡價值評估。兩個模塊均采用了成功和失?。ɡ?，基礎 VLA 模型在推理過程中的失敗數(shù)據(jù)）的任務數(shù)據(jù)進行訓練，防止了模型的過擬合以及高度自信。

1. 可控動力學模型（模擬器）：通過Task-Centric Batching（任務中心化批處理）策略，微調時每個 batch 集中采樣少數(shù)特定任務的多種動作變體，有效過濾無關背景噪聲，專注于動作指令的跟隨。這讓虛擬模擬的動作與真實操作高度對齊，解決了「手不跟腦」的問題；

2. 進度價值模型（裁判員）：融合進度估計時序差分學習（TD Learning），前者為長程任務提供密集的獎勵信號，讓模型清晰感知每一步操作的任務推進度；后者則增強了模型對細微失敗（如抓取滑落、位置偏移）的敏感性，確保在長序列操作中能精準評估「這步走得對不對」。

想象空間自進化循環(huán)：

三步實現(xiàn)無真機的策略迭代

在組合式世界模型構建的高保真思維沙盒中，RISE 設計了完全在想象空間運行的在線強化學習閉環(huán)，無需任何真機交互，就能實現(xiàn)策略的高效迭代，整個過程分為三步：

1. 第一步 Rollout 階段

VLA 策略與動力學模型交互，根據(jù)當前狀態(tài)生成未來的視頻預測序列，模擬不同動作帶來的環(huán)境反饋；

2. 第二步評估階段

進度價值模型對所有想象出的軌跡進行評分，計算優(yōu)勢函數(shù)（Advantage），區(qū)分高價值（成功）和低價值（失?。┑膭幼髀窂?；

3. 第三步訓練階段

利用高低價值的想象數(shù)據(jù)，通過流匹配目標更新 VLA 策略，讓模型持續(xù)強化成功路徑、規(guī)避失敗路徑，實現(xiàn)自我進化。

RISE 架構解析：

虛實解耦，讓想象貼合真實物理規(guī)律

RISE 的架構設計，本質上是通過解耦和對齊，讓虛擬的想象空間無限貼近真實物理世界，為策略優(yōu)化提供穩(wěn)定、可靠的訓練環(huán)境，其核心邏輯可總結為模型解耦建沙盒，軌跡迭代優(yōu)策略。

組合式世界模型的解耦設計，從根源上解決了傳統(tǒng)世界模型模擬與評估不可兼得的問題：可控動力學模型負責打造高保真的物理模擬沙盒，確保動作與視覺反饋的一致性、長程性；進度價值模型則充當精準的裁判，讓模型能在復雜的長程任務中清晰判斷每一步操作的價值。

而想象空間的自進化閉環(huán)，則讓強化學習的試錯完全脫離真機：同一初始狀態(tài)下，模型會生成多種不同的動作軌跡，通過自我博弈完成策略優(yōu)化，這種方式既避免了真機試錯的成本與風險，又讓模型學會了從失敗中恢復的能力 —— 這正是傳統(tǒng)模仿學習所不具備的核心能力。

此外，RISE 的設計還充分考慮了離線數(shù)據(jù)的分布限制，通過同時利用在線動作和在線狀態(tài)，讓模型能接觸到更多未知狀態(tài)的高價值動作，為后續(xù)的真實環(huán)境泛化打下基礎。

實測見真章：性能飆升、

泛化抗擾，想象訓練練就真機硬實力

研究團隊在三大極具挑戰(zhàn)性的真機長程任務中對 RISE 進行了系統(tǒng)評估：動態(tài)積木分揀（動態(tài)物體操作）、背包裝袋（柔性物體操作）、紙盒閉合（精細雙臂協(xié)同），從性能、組件必要性、泛化抗擾能力、生成質量四個維度，驗證了方法的有效性，各項結果均展現(xiàn)出顯著優(yōu)勢。

性能飆升：長程任務成功率大幅超越 SOTA

相較于 π?.?、RECAP、DSRL 等 SOTA 基線，RISE 在所有任務中均實現(xiàn)了成功率的跨越式提升，尤其在柔性物體和精細操作任務中表現(xiàn)亮眼：

動態(tài)積木分揀：成功率從 RECAP 的 50% 提升至 85%，漲幅 35%；
背包裝袋：成功率從 30% 提升至 85%，漲幅 45%，攻克了柔性物體操作的難點；
紙盒閉合：成功率高達 95%，完美解決精細雙臂協(xié)同的精度問題。

組件驗證：每一環(huán)設計都是性能關鍵

消融實驗充分證明了 RISE 各模塊設計的必要性，任何一個組件的缺失，都會導致性能的顯著下降：

去除Task-Centric Batching，動力學模型的動作控制能力大幅下降，任務完成率直接下跌；
去除TD Learning，價值模型無法敏銳捕捉細微失敗狀態(tài)，策略優(yōu)化失去方向；
脫離在線動作 + 在線狀態(tài)，模型難以突破離線數(shù)據(jù)的分布限制，泛化能力大幅降低。

泛化抗擾：不再「死記硬背」

RISE 訓練出的策略不再是機械模仿專家，而是具備了「從失敗中恢復」的真實智能：

抗干擾：面對人為干擾帶來的意外狀態(tài)（如物體被推離原位、抓取滑落），模型能主動調整動作，從失敗中恢復并完成任務；

位置泛化：即使被操縱物體的擺放位置發(fā)生變化（如折疊衣服、書包的位置偏移），模型仍能精準完成操作，無需重新訓練。

生成質量：物理規(guī)律的高保真復刻

在模型生成質量的定量與定性評估中，RISE 的動力學模型表現(xiàn)遠超 Genie Envisioner、Cosmos 等基線模型：

定量指標：在FVD（Fréchet 視頻距離）EPE（動作誤差）上均實現(xiàn)最優(yōu)，視頻生成精度和動作跟隨能力更優(yōu)；

定性結果：能生成清晰、符合物理規(guī)律的多視角未來幀，無模糊、物體瞬移、動作不一致等問題，且在 Bridge、Galaxea、Agibot World 等大規(guī)模數(shù)據(jù)集上均保持優(yōu)異表現(xiàn)。

所提出的 dynamics model 能夠合成連貫的多視角視頻滾動，并具有高視覺保真度，為強化學習奠定了堅實的基礎。每個視頻片段均按從上到下的順序排列

模型能夠生成清晰且符合物理規(guī)律的未來幀，而基線模型常出現(xiàn)模糊或物體瞬移等物理不一致現(xiàn)象

啟示與展望：

從物理試錯到思維進化，具身智能的范式躍遷

RISE 的價值，不止于一項技術的突破 —— 它正在重新定義智能體理解世界的方式，正在從物理世界的被動適應轉向想象空間的主動進化。

這套框架的核心洞見，是對學習本質的一次深刻重估：面對高動態(tài)、富接觸、高精度的長程復雜任務，通過構建高保真的組合式世界模型，將昂貴、高風險的物理交互成本，轉化為可擴展的計算成本，讓機器人在思維沙盒中完成數(shù)萬次的自我博弈與迭代，遠比低效的真機訓練更高效。而這種在想象中學會從失敗中恢復的能力，正是 VLA 模型從實驗室演示走向真實世界落地的關鍵。

從隱向量世界模型到 RISE 的組合式多視角、像素級世界模型，RISE 完成了一次底層范式的躍遷：想象訓練正在成為具身智能發(fā)展的核心方向。

未來的圖景正在變得清晰：當世界模型的精度逼近物理現(xiàn)實的邊界，當千萬種任務的執(zhí)行策略可以在想象中被反復預演、打磨至完美，機器人將真正迎來滿級出廠的時代 —— 它們不再需要在真實世界中跌跌撞撞地長大，而是先在高度逼真的思維里完成百萬次進化，帶著已經(jīng)爐火純青的技能無縫落地現(xiàn)實。

這意味著什么？

意味著，物理世界對智能體成長的代價將被大幅降低。

而 RISE，正是通往這個未來的第一塊基石

更多方法細節(jié)與實驗分析，請見原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.