港科大×字節(jié)跳動Seed提出WMPO，在世界模型中進(jìn)行VLA強化學(xué)習(xí)

2026-03-02 14:34:29　來源: 機器之心Pro

河北舉報

分享至

香港科技大學(xué) PEI-Lab 與字節(jié)跳動 Seed 團(tuán)隊近期提出的 WMPO（World Model-based Policy Optimization），正是這樣一種讓具身智能在 “想象中訓(xùn)練” 的新范式。該方法無需在真實機器人上進(jìn)行大規(guī)模強化學(xué)習(xí)交互，卻能顯著提升策略性能，甚至涌現(xiàn)出自我糾錯（Self-correction）行為。該文章目前已被 ICLR 2026 接收，目前，論文、代碼與模型均已開源。

論文第一作者朱方琪是香港科技大學(xué)博士生，研究方向包括世界模型，具身智能，多模態(tài)大模型等。第二作者為香港科技大學(xué)研究型碩士生嚴(yán)正陽。通訊作者為香港科技大學(xué)計算機科學(xué)及工程系講座教授郭嵩教授以及字節(jié)跳動 Seed 團(tuán)隊馬驍。

論文標(biāo)題：WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
項目網(wǎng)站：https://wm-po.github.io
論文鏈接：https://arxiv.org/abs/2511.09515
論文代碼：https://github.com/WM-PO/WMPO

傳統(tǒng) VLA 訓(xùn)練的 “緊箍咒”：

模仿易碎，交互昂貴

近年來，視覺 - 語言 - 動作（VLA）模型在通用操作任務(wù)中展現(xiàn)了令人印象深刻的潛力，但其訓(xùn)練方式長期受制于兩大瓶頸。

第一，模仿學(xué)習(xí)的先天局限。

大多數(shù) VLA 模型依賴專家演示數(shù)據(jù)進(jìn)行訓(xùn)練，只學(xué)習(xí)了 “什么是正確操作”，卻幾乎沒有見過 “犯錯之后該怎么辦”。在推理時，一旦狀態(tài)稍微偏離訓(xùn)練分布，錯誤便會不斷累積，最終導(dǎo)致任務(wù)徹底失敗。這種 “脆弱性” 在長序列操作中尤為明顯。

第二，現(xiàn)實強化學(xué)習(xí)的高昂代價。

強化學(xué)習(xí)理論上可以解決上述問題，但在真實機器人上進(jìn)行 RL 交互往往需要數(shù)百萬次嘗試，不僅采樣效率極低，還伴隨著硬件磨損、安全風(fēng)險和高昂的實驗成本。

已有研究 [1] 嘗試借助潛空間世界模型（Latent Space World Model）來緩解現(xiàn)實交互壓力，但這類模型通常與預(yù)訓(xùn)練 VLA 所使用的真實圖像表征存在差異，難以直接用于現(xiàn)有 VLA 框架中的策略優(yōu)化。

WMPO 的核心突破：

像素級 “想象” 與 Online GRPO

WMPO 提出了一種新的訓(xùn)練范式：將策略優(yōu)化過程完整地遷移到視覺世界模型中完成，讓具身代理在 “想象” 的軌跡中學(xué)習(xí)如何從錯誤中恢復(fù)。其核心設(shè)計包含三個關(guān)鍵要點：

像素級視覺世界模型，讓錯誤也能被真實模擬

與以往在潛空間中進(jìn)行預(yù)測不同，WMPO 構(gòu)建的是像素級視覺世界模型。模型直接在圖像空間中，根據(jù)當(dāng)前觀察和動作預(yù)測下一幀視覺反饋，從而生成完整的 “想象軌跡”。為了保證世界模型不僅能復(fù)現(xiàn)專家行為，還能覆蓋策略執(zhí)行過程中可能出現(xiàn)的各種偏差，研究團(tuán)隊引入了策略行為對齊（Policy Behavior Alignment）機制：在專家數(shù)據(jù)預(yù)訓(xùn)練的基礎(chǔ)上，進(jìn)一步對策略生成的非專家軌跡進(jìn)行對齊訓(xùn)練，使世界模型能夠準(zhǔn)確模擬 OOD 動作及其失敗后果。

在想象空間中進(jìn)行 Online GRPO

在高保真的視覺世界模型中，WMPO 進(jìn)一步將強化學(xué)習(xí)過程引入 “想象空間”。具體而言，對于同一初始狀態(tài)，VLA 模型會在世界模型中生成一組不同的候選軌跡；通過訓(xùn)練得到的獎勵函數(shù)判斷每條軌跡是否成功，并在組內(nèi)進(jìn)行相對比較，從而估計優(yōu)勢。這種 Online GRPO（Group Relative Policy Optimization）的方式不依賴額外的價值網(wǎng)絡(luò)，顯著降低了內(nèi)存與訓(xùn)練復(fù)雜度，同時在長序列生成中表現(xiàn)出更好的穩(wěn)定性。更重要的是，“組內(nèi)競爭” 機制使模型能夠自動偏好那些即使犯錯、也能恢復(fù)并完成任務(wù)的動作路徑。

攻克長時生成難題：讓 “想象” 不崩壞

長時間視頻預(yù)測一直是視覺世界模型面臨的核心挑戰(zhàn)。為防止想象畫面隨時間退化，WMPO 引入了：

噪聲幀增強（Noisy-frame conditioning）
幀級動作控制機制

這些設(shè)計確保模型在生成數(shù)百幀 “想象軌跡” 時，仍能保持畫面清晰、動作對齊，為策略優(yōu)化提供穩(wěn)定可靠的訓(xùn)練環(huán)境。

WMPO 架構(gòu)解析：

像素級演化，三步跨越現(xiàn)實

構(gòu)建高保真 “沙盒”：視覺世界模型建模

策略行為對齊：為了讓世界模型能模擬策略生成的 OOD 動作及其后果，研究團(tuán)隊不僅在專家數(shù)據(jù)上訓(xùn)練，還針對策略生成的非專家軌跡進(jìn)行對齊，確保模型能夠準(zhǔn)確預(yù)測 “失敗案例”。

策略評價與改進(jìn)：想象空間內(nèi)的 Online GRPO

這種 “組內(nèi)競爭” 機制讓模型能夠自動識別并強化那些能從錯誤中恢復(fù)的動作路徑。

學(xué)習(xí)目標(biāo)：自監(jiān)督式參數(shù)優(yōu)化

在 “想象” 出的軌跡上，WMPO 最小化以下目標(biāo)函數(shù)，將 VLA 模型從單純的模仿者轉(zhuǎn)化為自我進(jìn)化的決策者：

偽代碼算法如下：

實驗結(jié)果：樣本效率，

涌現(xiàn)能力，執(zhí)行效率的驚喜

研究團(tuán)隊在 MimicGen 模擬環(huán)境和真實 ALOHA 機器人上對 WMPO 進(jìn)行了系統(tǒng)評估。

采樣效率顯著提升。

在僅使用 128 條真實軌跡作為數(shù)據(jù)預(yù)算時，WMPO 的成功率已超過最優(yōu) Offline RL 基線 9.8%；當(dāng)預(yù)算提升至 1280 條時，領(lǐng)先優(yōu)勢進(jìn)一步擴大至 15.2%。

自我糾錯行為的涌現(xiàn)。

在 “方塊套圈” 等任務(wù)中，當(dāng)基座模型因碰撞或姿態(tài)偏移而卡死時，WMPO 訓(xùn)練得到的策略會主動調(diào)整動作：例如抬起方塊、重新對準(zhǔn)目標(biāo)并再次嘗試。這類糾錯行為并未出現(xiàn)在專家演示數(shù)據(jù)中，而是通過 “想象中的失敗與比較” 自然涌現(xiàn)。

執(zhí)行效率更高。

WMPO 訓(xùn)練的策略動作更加連貫、果斷，成功軌跡長度明顯縮短，減少了猶豫和重復(fù)嘗試。

需要注意的是，這種自我糾錯能力目前主要在結(jié)構(gòu)化操作任務(wù)中被系統(tǒng)觀察到，其泛化邊界仍有待進(jìn)一步探索。

啟示與展望

WMPO 的成功證明了：高質(zhì)量的 “想象” 足以替代昂貴的 “實踐”。通過將 VLA 的強化學(xué)習(xí)過程解耦到生成式世界模型中，我們不僅解決了采樣效率的難題，更讓機器人學(xué)會了在挫折中自我完善。

正如達(dá)芬奇所言，“簡單是終極的復(fù)雜”，WMPO 用純粹的視覺模擬，為具身智能走向通用化指明了一條充滿想象力的道路。

更多方法細(xì)節(jié)與實驗分析請見原論文。

[1] Hafner, D., Pasukonis, J., Ba, J. et al. Mastering diverse control tasks through world models. Nature 640, 647–653 (2025). https://doi.org/10.1038/s41586-025-08744-2

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.