国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

港科大×字節(jié)跳動Seed提出WMPO,在世界模型中進(jìn)行VLA強化學(xué)習(xí)

0
分享至



香港科技大學(xué) PEI-Lab 與字節(jié)跳動 Seed 團(tuán)隊近期提出的 WMPO(World Model-based Policy Optimization),正是這樣一種讓具身智能在 “想象中訓(xùn)練” 的新范式。該方法無需在真實機器人上進(jìn)行大規(guī)模強化學(xué)習(xí)交互,卻能顯著提升策略性能,甚至涌現(xiàn)出 自我糾錯(Self-correction) 行為。該文章目前已被 ICLR 2026 接收,目前,論文、代碼與模型均已開源。

論文第一作者朱方琪是香港科技大學(xué)博士生,研究方向包括世界模型,具身智能,多模態(tài)大模型等。第二作者為香港科技大學(xué)研究型碩士生嚴(yán)正陽。通訊作者為香港科技大學(xué)計算機科學(xué)及工程系講座教授郭嵩教授以及字節(jié)跳動 Seed 團(tuán)隊馬驍。



  • 論文標(biāo)題:WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
  • 項目網(wǎng)站:https://wm-po.github.io
  • 論文鏈接:https://arxiv.org/abs/2511.09515
  • 論文代碼:https://github.com/WM-PO/WMPO

傳統(tǒng) VLA 訓(xùn)練的 “緊箍咒”:

模仿易碎,交互昂貴

近年來,視覺 - 語言 - 動作(VLA)模型在通用操作任務(wù)中展現(xiàn)了令人印象深刻的潛力,但其訓(xùn)練方式長期受制于兩大瓶頸。

第一,模仿學(xué)習(xí)的先天局限。

大多數(shù) VLA 模型依賴專家演示數(shù)據(jù)進(jìn)行訓(xùn)練,只學(xué)習(xí)了 “什么是正確操作”,卻幾乎沒有見過 “犯錯之后該怎么辦”。在推理時,一旦狀態(tài)稍微偏離訓(xùn)練分布,錯誤便會不斷累積,最終導(dǎo)致任務(wù)徹底失敗。這種 “脆弱性” 在長序列操作中尤為明顯。

第二,現(xiàn)實強化學(xué)習(xí)的高昂代價。

強化學(xué)習(xí)理論上可以解決上述問題,但在真實機器人上進(jìn)行 RL 交互往往需要數(shù)百萬次嘗試,不僅采樣效率極低,還伴隨著硬件磨損、安全風(fēng)險和高昂的實驗成本。

已有研究 [1] 嘗試借助潛空間世界模型(Latent Space World Model)來緩解現(xiàn)實交互壓力,但這類模型通常與預(yù)訓(xùn)練 VLA 所使用的真實圖像表征存在差異,難以直接用于現(xiàn)有 VLA 框架中的策略優(yōu)化。



WMPO 的核心突破:

像素級 “想象” 與 Online GRPO

WMPO 提出了一種新的訓(xùn)練范式:將策略優(yōu)化過程完整地遷移到視覺世界模型中完成,讓具身代理在 “想象” 的軌跡中學(xué)習(xí)如何從錯誤中恢復(fù)。其核心設(shè)計包含三個關(guān)鍵要點:

像素級視覺世界模型,讓錯誤也能被真實模擬

與以往在潛空間中進(jìn)行預(yù)測不同,WMPO 構(gòu)建的是像素級視覺世界模型。模型直接在圖像空間中,根據(jù)當(dāng)前觀察和動作預(yù)測下一幀視覺反饋,從而生成完整的 “想象軌跡”。為了保證世界模型不僅能復(fù)現(xiàn)專家行為,還能覆蓋策略執(zhí)行過程中可能出現(xiàn)的各種偏差,研究團(tuán)隊引入了策略行為對齊(Policy Behavior Alignment) 機制:在專家數(shù)據(jù)預(yù)訓(xùn)練的基礎(chǔ)上,進(jìn)一步對策略生成的非專家軌跡進(jìn)行對齊訓(xùn)練,使世界模型能夠準(zhǔn)確模擬 OOD 動作及其失敗后果。

在想象空間中進(jìn)行 Online GRPO

在高保真的視覺世界模型中,WMPO 進(jìn)一步將強化學(xué)習(xí)過程引入 “想象空間”。具體而言,對于同一初始狀態(tài),VLA 模型會在世界模型中生成一組不同的候選軌跡;通過訓(xùn)練得到的獎勵函數(shù)判斷每條軌跡是否成功,并在組內(nèi)進(jìn)行相對比較,從而估計優(yōu)勢。這種 Online GRPO(Group Relative Policy Optimization) 的方式不依賴額外的價值網(wǎng)絡(luò),顯著降低了內(nèi)存與訓(xùn)練復(fù)雜度,同時在長序列生成中表現(xiàn)出更好的穩(wěn)定性。更重要的是,“組內(nèi)競爭” 機制使模型能夠自動偏好那些即使犯錯、也能恢復(fù)并完成任務(wù)的動作路徑。

攻克長時生成難題:讓 “想象” 不崩壞

長時間視頻預(yù)測一直是視覺世界模型面臨的核心挑戰(zhàn)。為防止想象畫面隨時間退化,WMPO 引入了:

  • 噪聲幀增強(Noisy-frame conditioning)
  • 幀級動作控制機制

這些設(shè)計確保模型在生成數(shù)百幀 “想象軌跡” 時,仍能保持畫面清晰、動作對齊,為策略優(yōu)化提供穩(wěn)定可靠的訓(xùn)練環(huán)境。



WMPO 架構(gòu)解析:

像素級演化,三步跨越現(xiàn)實

構(gòu)建高保真 “沙盒”:視覺世界模型建模





策略行為對齊:為了讓世界模型能模擬策略生成的 OOD 動作及其后果,研究團(tuán)隊不僅在專家數(shù)據(jù)上訓(xùn)練,還針對策略生成的非專家軌跡進(jìn)行對齊,確保模型能夠準(zhǔn)確預(yù)測 “失敗案例”。

策略評價與改進(jìn):想象空間內(nèi)的 Online GRPO





這種 “組內(nèi)競爭” 機制讓模型能夠自動識別并強化那些能從錯誤中恢復(fù)的動作路徑。

學(xué)習(xí)目標(biāo):自監(jiān)督式參數(shù)優(yōu)化

在 “想象” 出的軌跡上,WMPO 最小化以下目標(biāo)函數(shù),將 VLA 模型從單純的模仿者轉(zhuǎn)化為自我進(jìn)化的決策者:



偽代碼算法如下:



實驗結(jié)果:樣本效率,

涌現(xiàn)能力,執(zhí)行效率的驚喜

研究團(tuán)隊在 MimicGen 模擬環(huán)境和真實 ALOHA 機器人上對 WMPO 進(jìn)行了系統(tǒng)評估。

采樣效率顯著提升。

在僅使用 128 條真實軌跡作為數(shù)據(jù)預(yù)算時,WMPO 的成功率已超過最優(yōu) Offline RL 基線 9.8%;當(dāng)預(yù)算提升至 1280 條時,領(lǐng)先優(yōu)勢進(jìn)一步擴大至 15.2%。



自我糾錯行為的涌現(xiàn)。

在 “方塊套圈” 等任務(wù)中,當(dāng)基座模型因碰撞或姿態(tài)偏移而卡死時,WMPO 訓(xùn)練得到的策略會主動調(diào)整動作:例如抬起方塊、重新對準(zhǔn)目標(biāo)并再次嘗試。這類糾錯行為并未出現(xiàn)在專家演示數(shù)據(jù)中,而是通過 “想象中的失敗與比較” 自然涌現(xiàn)。



執(zhí)行效率更高。

WMPO 訓(xùn)練的策略動作更加連貫、果斷,成功軌跡長度明顯縮短,減少了猶豫和重復(fù)嘗試。



需要注意的是,這種自我糾錯能力目前主要在結(jié)構(gòu)化操作任務(wù)中被系統(tǒng)觀察到,其泛化邊界仍有待進(jìn)一步探索。

啟示與展望

WMPO 的成功證明了:高質(zhì)量的 “想象” 足以替代昂貴的 “實踐”。通過將 VLA 的強化學(xué)習(xí)過程解耦到生成式世界模型中,我們不僅解決了采樣效率的難題,更讓機器人學(xué)會了在挫折中自我完善。

正如達(dá)芬奇所言,“簡單是終極的復(fù)雜”,WMPO 用純粹的視覺模擬,為具身智能走向通用化指明了一條充滿想象力的道路。

更多方法細(xì)節(jié)與實驗分析請見原論文。

[1] Hafner, D., Pasukonis, J., Ba, J. et al. Mastering diverse control tasks through world models. Nature 640, 647–653 (2025). https://doi.org/10.1038/s41586-025-08744-2

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
年銷7900輛,巨虧223億歐:意大利的汽車工業(yè)已然輸?shù)袅巳课磥?>
    </a>
        <h3>
      <a href=電科技網(wǎng)
2026-02-28 19:48:45
美國高級將領(lǐng)警告:中國正以難以置信的速度,成為美國的最大威脅

美國高級將領(lǐng)警告:中國正以難以置信的速度,成為美國的最大威脅

聚焦科技與創(chuàng)新
2026-02-11 21:48:50
這個詞牌有多難寫?千年間鮮有佳作,毛主席卻寫出壓盡千古之氣勢

這個詞牌有多難寫?千年間鮮有佳作,毛主席卻寫出壓盡千古之氣勢

長風(fēng)文史
2026-03-02 11:25:51
“大學(xué)女兒非要買LV”視頻火了,網(wǎng)友:窮人穿上龍袍也不像太子

“大學(xué)女兒非要買LV”視頻火了,網(wǎng)友:窮人穿上龍袍也不像太子

妍妍教育日記
2026-02-25 21:18:14
永遠(yuǎn)不要向任何人,包括你的親戚和好友,透露你真實的財務(wù)狀況

永遠(yuǎn)不要向任何人,包括你的親戚和好友,透露你真實的財務(wù)狀況

流蘇晚晴
2026-02-27 18:09:29
為什么感覺美國在走向衰落?那是因為你是中國人

為什么感覺美國在走向衰落?那是因為你是中國人

扶蘇聊歷史
2025-12-19 10:02:54
山東男籃拒絕爆冷!全力擊敗廣州,新外援CBA首秀,央視直播

山東男籃拒絕爆冷!全力擊敗廣州,新外援CBA首秀,央視直播

體壇瞎白話
2026-03-03 09:08:07
伊朗貨幣大幅貶值:1美元可兌換約131.4萬伊朗里亞爾

伊朗貨幣大幅貶值:1美元可兌換約131.4萬伊朗里亞爾

每日經(jīng)濟新聞
2026-03-03 00:32:59
亞運會冠軍因病去世年僅34歲,曾參加奧運會,孩子僅2歲

亞運會冠軍因病去世年僅34歲,曾參加奧運會,孩子僅2歲

米修體育
2026-03-03 00:06:54
凌晨!河北突發(fā)地震!

凌晨!河北突發(fā)地震!

新牛城
2026-03-03 09:29:46
奇葩!贛州一女子進(jìn)店蹭網(wǎng)20分鐘后找老板強借100元,遭拒后砸店

奇葩!贛州一女子進(jìn)店蹭網(wǎng)20分鐘后找老板強借100元,遭拒后砸店

火山詩話
2026-03-03 09:45:17
江西48.8萬彩禮后續(xù):男子轉(zhuǎn)頭退婚提豪車,女子破防:要告你強奸

江西48.8萬彩禮后續(xù):男子轉(zhuǎn)頭退婚提豪車,女子破防:要告你強奸

鋭娛之樂
2025-09-09 22:24:54
日媒:如果霍爾木茲海峽被長期封鎖,日本將受極其嚴(yán)重“致命打擊”,GDP預(yù)計將減少3%

日媒:如果霍爾木茲海峽被長期封鎖,日本將受極其嚴(yán)重“致命打擊”,GDP預(yù)計將減少3%

環(huán)球網(wǎng)資訊
2026-03-02 09:39:10
沖突第3天,伊朗熬過艱難時刻,打通中方電話,王毅亮明態(tài)度

沖突第3天,伊朗熬過艱難時刻,打通中方電話,王毅亮明態(tài)度

東極妙嚴(yán)
2026-03-03 11:04:37
特朗普3月訪華要泡湯?再次談到相關(guān)安排,中方的態(tài)度和措辭變了

特朗普3月訪華要泡湯?再次談到相關(guān)安排,中方的態(tài)度和措辭變了

小武世界
2026-03-03 10:49:37
王楚然巴黎時裝周“牛仔褲災(zāi)難”引全網(wǎng)吐槽

王楚然巴黎時裝周“牛仔褲災(zāi)難”引全網(wǎng)吐槽

深度解析熱點
2026-03-02 18:41:27
豆瓣9.4分!三月這部直擊女性痛點的佳作最不該錯過

豆瓣9.4分!三月這部直擊女性痛點的佳作最不該錯過

桃桃淘電影
2026-03-02 10:00:15
2100枚核彈24小時待命,張召忠曾發(fā)出警告:一旦開戰(zhàn),將無處可逃

2100枚核彈24小時待命,張召忠曾發(fā)出警告:一旦開戰(zhàn),將無處可逃

近史博覽
2026-01-22 12:52:47
伊朗戰(zhàn)事升級,對中國5大產(chǎn)業(yè)影響深遠(yuǎn),普通人別只看熱鬧

伊朗戰(zhàn)事升級,對中國5大產(chǎn)業(yè)影響深遠(yuǎn),普通人別只看熱鬧

曉踏就是我
2026-03-02 16:50:25
紅樓夢:難怪寶玉第一次“干人事”要找襲人,看襲人做了什么動作

紅樓夢:難怪寶玉第一次“干人事”要找襲人,看襲人做了什么動作

談史論天地
2026-02-26 11:13:38
2026-03-03 12:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12396文章數(shù) 142576關(guān)注度
往期回顧 全部

科技要聞

手機AI在MWC上卷出了新高度

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護(hù)夫:喊話薛之謙給張杰道歉

財經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

長安汽車2月銷量151922輛 環(huán)比逆勢增長12.8%

態(tài)度原創(chuàng)

數(shù)碼
本地
旅游
健康
房產(chǎn)

數(shù)碼要聞

小米Xiaomi Tag防丟器國內(nèi)開售:僅重10克續(xù)航一年,69元起

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

旅游要聞

青海海西州:文旅市場“業(yè)態(tài)更新”現(xiàn)活力

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

無障礙瀏覽 進(jìn)入關(guān)懷版