国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當(dāng)世界模型不可信:如何讓RL在想象里訓(xùn)練,但不被想象騙?

0
分享至

清華大學(xué)、中國科學(xué)院自動化研究所和北京中關(guān)村學(xué)院聯(lián)合提出WoVR(World Models as Reliable Simulators for Post-Training VLA Policies with RL):一種基于可靠世界模型的VLA 強(qiáng)化學(xué)習(xí)后訓(xùn)練框架,核心聚焦一個痛點:世界模型的閉環(huán)自回歸執(zhí)行會產(chǎn)生“幻覺”,如何讓強(qiáng)化學(xué)習(xí)在著這種不完美的世界中實現(xiàn)有效訓(xùn)練?


論文題目: World Models as Reliable Simulators for Post-Training VLA Policies with RL 論文鏈接: https://arxiv.org/abs/2602.13977 代碼鏈接: https://github.com/RLinf /RLinf HuggingFace: https://huggingface.co/collections/RLinf/wovr

一、研究背景

2026 年具身智能的一個主流共識是:強(qiáng)化學(xué)習(xí)(RL)正在成為進(jìn)一步提升智能的關(guān)鍵路徑。 但當(dāng) RL 真正落到機(jī)器人上,研究者普遍卡在兩條路線:

路線 A:在仿真器里學(xué)。

仿真便宜、可并行、可規(guī)?;?,這是 RL 最舒服的土壤;但現(xiàn)實代價是仿真到現(xiàn)實非常難遷移——為了對齊真實世界,往往需要復(fù)雜的建模、調(diào)參、域隨機(jī)化與反復(fù)迭代,投入大量時間與工程成本,但是最終結(jié)果仍然差強(qiáng)人意。

路線 B:在真實世界里學(xué)。

直接與真實機(jī)器人交互最“對”,但會立刻碰到工程與數(shù)據(jù)效率的天花板:

試錯成本高(安全、磨損、重置、人力)、數(shù)據(jù)效率低、訓(xùn)練速度慢,導(dǎo)致進(jìn)展往往緩慢且難以規(guī)?;?。

隨著世界模型的發(fā)展,隨著世界模型的快速發(fā)展,第三條路線逐漸形成 —— 用學(xué)習(xí)到的世界模型當(dāng)模擬器,在“想象里”做強(qiáng)化學(xué)習(xí)——既想保留仿真器的規(guī)?;窒敫N近現(xiàn)實世界的動力學(xué)和分布。

然而,這條路線還存在不可忽視的問題,阻礙了其實際應(yīng)用:

世界模型的閉環(huán)自回歸執(zhí)行會產(chǎn)生“幻覺”——畫面看起來像成功,甚至給出成功獎勵,但現(xiàn)實執(zhí)行是失敗。一旦把這種“幻覺軌跡”喂給強(qiáng)化學(xué)習(xí),優(yōu)化信號會被系統(tǒng)性污染:策略學(xué)到的不是完成任務(wù),而是學(xué)會利用模型漏洞。如圖1所示。


圖1:由于幻覺,機(jī)器人在想象中成功,在現(xiàn)實執(zhí)行失敗

因此,我們提出 WoVR:不再假設(shè)世界模型是忠實模擬器,而是把問題當(dāng)成“可靠性”問題來解——研究強(qiáng)化學(xué)習(xí)應(yīng)該如何與不完美的想象動態(tài)交互。WoVR 從三個相互關(guān)聯(lián)的層面同時約束“幻覺”:

(1)模擬器層:把世界模型做得更穩(wěn)、更可控

(2)交互層:不一定從起點想象——關(guān)鍵幀初始化 KIR

(3)對齊層:策略在變,模擬器也要跟上——PACE 共進(jìn)化


圖2:WoVR 的整體框架圖 二、核心方法 2.1 把模擬器做得更穩(wěn)、更可控:基于 Wan 的動作可控世界模型

我們基于先進(jìn)的 Wan2.2-TI2V-5B作為網(wǎng)絡(luò)的主干,將動作嵌入通過兩個通道進(jìn)行注入:與擴(kuò)散時間步相加后通過AdaLN-Zero調(diào)制;將原始的文本嵌入替換為動作嵌入通過交叉注意力注入。

為了抑制累計誤差,模型的自回歸生成使用首幀錨定的上下文,即context由固定的序列首幀和上一個chunk生成的最后4幀組成,因為自注意力機(jī)制在去噪時會更多關(guān)注第一幀。此外在訓(xùn)練時我們向context的后4幀注入噪聲提升魯棒性。

2.2再在策略優(yōu)化時主動避開幻覺:關(guān)鍵幀初始

長時自回歸生成的累計誤差會導(dǎo)致世界模型的生成產(chǎn)生物理上不正確的轉(zhuǎn)變影響RL質(zhì)量。在VLA交互中,許多決定性的交互往往發(fā)生在夾爪與物體接觸的關(guān)鍵幀附近,能否準(zhǔn)確模擬這一段的交互對于世界模型最終的生成質(zhì)量至關(guān)重要,為此,我們引入 Keyframe-Initialized Rollouts (KIR):直接從任務(wù)關(guān)鍵幀附近初始化再開始執(zhí)行“想象”,縮短有效誤差深度,讓學(xué)習(xí)更關(guān)注“關(guān)鍵接觸段”,而不是被長前綴的漂移帶偏。


RL方法上,采用GRPO更新策略,對于成功的軌跡,我們會掩碼成功之后的步驟并用有效長度對每條軌跡歸一化。這種方法補(bǔ)充了KIR,因為其往往用更少的有效步驟完成任務(wù),使用這種方法可以增加KIR軌跡每步的貢獻(xiàn),進(jìn)而讓梯度由短且關(guān)鍵的任務(wù)段主導(dǎo),而非長且容易偏移的延續(xù)段主導(dǎo)。



2.3 最后解決策略–模型分布錯配:提出 PACE ,讓模擬器跟得上策略演化

雖然策略優(yōu)化完全在學(xué)習(xí)到的世界模型中進(jìn)行,但策略分布會在訓(xùn)練過程中不斷演變,隨著策略偏移用于訓(xùn)練初始世界模型的數(shù)據(jù)分布,這種分布不匹配會降低想象rollout的可靠性。為此,我們引入PACE(Policy-Aligned Co-Evolution),PACE 采用低頻率、階段式的共進(jìn)化:首先用基礎(chǔ)VLA收集的軌跡訓(xùn)練初始世界模型 WMBase,在WMBase中完成第一階段策略優(yōu)化后,我們根據(jù)更新后的策略收集額外rollout進(jìn)一步優(yōu)化世界模型得到WMEvo。這種低頻率的優(yōu)化只需要再次收集一次數(shù)據(jù),不需要持續(xù)的人類監(jiān)督,降低操作開銷;同時在不犧牲訓(xùn)練穩(wěn)定性的前提下保持了模擬器的可靠性。

我們在RLinf上構(gòu)建WoVR,以實現(xiàn)高效的訓(xùn)練和推理。

三、實驗驗證 3.1 世界模型的性能指標(biāo)

我們的世界模型在rollout 128/256/512幀的情形下性能超過EVAC,Cosmos-Predict2和WMPO中所采用的OpenSora


3.2 仿真環(huán)境性能

我們在 libero suite 上進(jìn)行實驗。在每類套件上,我們限制世界模型和仿真器的交互軌跡數(shù)量,以此來模擬真實世界中軌跡昂貴的情況。 WoVR 和 WMPO 作為基于世界模型的方法,使用的軌跡都只用來訓(xùn)練世界模型,再在世界模型中訓(xùn)練策略,而 GRPO 則是通過和環(huán)境進(jìn)行交互來優(yōu)化性能。在相同的軌跡條數(shù)限制下,WoVR在4個套件上均實現(xiàn)超過WMPO和GRPO。


四、真機(jī)實驗

真機(jī)上,我們基于 Franka 開展了兩個經(jīng)典的 pick and place 的任務(wù),在引入少量軌跡,無需在線交互只在世界模型中訓(xùn)練策略的情況下, WoVR實現(xiàn)了策略性能提升。


五、世界模型組件消融實驗

在消融實驗中,我們驗證了首幀錨定的上下文機(jī)制和訓(xùn)練時的噪聲幀機(jī)制的必要性。



六、策略優(yōu)化機(jī)制消融實驗

我們驗證了KIR(關(guān)鍵幀初始化)機(jī)制和PACE(世界模型和策略協(xié)同進(jìn)化)機(jī)制對于策略性能的提升效果


七、總結(jié)

世界模型用于 RL 的關(guān)鍵,不僅僅是把視頻生成做得更像,而是把“幻覺如何影響優(yōu)化信號”這件事控制住。WoVR 給出了從模擬器、交互協(xié)議到對齊機(jī)制的系統(tǒng)解法。

llustration generated by AI.

-The End-

掃碼觀看!

本周上新!


“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

yimingzhang@thejiangmen.com

添加工作人員微信(aceyiming投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團(tuán)隊由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

聲明:包含AI生成內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
周鴻祎力挺“龍蝦”:不進(jìn)步才是最大安全隱患

周鴻祎力挺“龍蝦”:不進(jìn)步才是最大安全隱患

中國經(jīng)濟(jì)網(wǎng)
2026-03-12 22:30:03
全球僅生產(chǎn)2枚!爆炸威力比“小男孩”大3000多倍,美國至今忌憚

全球僅生產(chǎn)2枚!爆炸威力比“小男孩”大3000多倍,美國至今忌憚

通文知史
2026-03-12 18:30:51
梅奔不演了 F1中國站沖刺排位賽毫無懸念

梅奔不演了 F1中國站沖刺排位賽毫無懸念

五星體育
2026-03-13 16:39:38
WTT冠軍賽!再爆大冷,世界冠軍被淘汰,蒯曼、申裕斌皆3-1晉級

WTT冠軍賽!再爆大冷,世界冠軍被淘汰,蒯曼、申裕斌皆3-1晉級

林子說事
2026-03-13 12:13:15
意足壇俱樂部老板財富榜:科莫老板哈托諾家族385億歐居首

意足壇俱樂部老板財富榜:科莫老板哈托諾家族385億歐居首

懂球帝
2026-03-13 10:43:17
2026年美加墨世界杯阿根廷最強(qiáng)陣容預(yù)測!奪冠幾乎不可能了?

2026年美加墨世界杯阿根廷最強(qiáng)陣容預(yù)測!奪冠幾乎不可能了?

體壇八點半的那些事兒
2026-03-13 18:50:31
83分之夜卻拒絕刷分!阿德巴約最后時刻大喊“別犯規(guī)”引熱議

83分之夜卻拒絕刷分!阿德巴約最后時刻大喊“別犯規(guī)”引熱議

大眼瞄世界
2026-03-13 10:04:29
一場生日,戳穿37歲奚夢瑤婚姻現(xiàn)狀,一月前就有大瓜傳出

一場生日,戳穿37歲奚夢瑤婚姻現(xiàn)狀,一月前就有大瓜傳出

洲洲影視娛評
2026-03-12 18:19:35
美伊沖突升級致臺灣能源告急,臺當(dāng)局向大陸求援,國臺辦明確答復(fù)

美伊沖突升級致臺灣能源告急,臺當(dāng)局向大陸求援,國臺辦明確答復(fù)

風(fēng)眼軍情
2026-03-11 20:33:18
韓媒:薩德發(fā)射車全被拉走,若雷達(dá)走了,那意味著戰(zhàn)局的徹底崩壞

韓媒:薩德發(fā)射車全被拉走,若雷達(dá)走了,那意味著戰(zhàn)局的徹底崩壞

嘯鷹評
2026-03-11 18:26:58
美國為何對伊朗開戰(zhàn),是否被以色列拖下水?特朗普因小失大

美國為何對伊朗開戰(zhàn),是否被以色列拖下水?特朗普因小失大

青松解局
2026-03-13 20:04:33
超45萬手買單封板!600691,強(qiáng)勢2連漲停!

超45萬手買單封板!600691,強(qiáng)勢2連漲停!

證券時報e公司
2026-03-13 10:02:08
為了綁定足壇頂流姆巴佩,歐美名媛究竟付出了多大代價?

為了綁定足壇頂流姆巴佩,歐美名媛究竟付出了多大代價?

羅氏八卦
2026-03-13 18:35:03
大S中學(xué)顏值曝光,五官普通、目測體重120斤,小玥兒長得和媽媽一個模子

大S中學(xué)顏值曝光,五官普通、目測體重120斤,小玥兒長得和媽媽一個模子

不八卦掌門人
2026-03-13 11:19:21
五角大樓首席技術(shù)官:有一個AI已經(jīng)產(chǎn)生了“靈魂”,甚至有自己的“憲法”

五角大樓首席技術(shù)官:有一個AI已經(jīng)產(chǎn)生了“靈魂”,甚至有自己的“憲法”

可達(dá)鴨面面觀
2026-03-13 18:01:15
今天18點,亞洲杯誕生首個4強(qiáng)!中國女足明天出戰(zhàn),傳來2個好消息

今天18點,亞洲杯誕生首個4強(qiáng)!中國女足明天出戰(zhàn),傳來2個好消息

大魚簡科
2026-03-13 12:34:59
苗苗終于曬三胎,母女四個坐一張椅子,小女兒露臉顏值比哥姐還高

苗苗終于曬三胎,母女四個坐一張椅子,小女兒露臉顏值比哥姐還高

八怪娛
2026-03-13 19:19:30
烏克蘭攻擊俄南部最大石油港!俄空軍基地傳出十次爆炸

烏克蘭攻擊俄南部最大石油港!俄空軍基地傳出十次爆炸

項鵬飛
2026-03-13 18:17:39
人大代表:中國芯片不注重長期攻堅,不注重基礎(chǔ)研究,只想賺快錢

人大代表:中國芯片不注重長期攻堅,不注重基礎(chǔ)研究,只想賺快錢

Thurman在昆明
2026-03-13 19:43:05
霍爾木茲海峽風(fēng)云突變,巴基斯坦亮出底牌,強(qiáng)勢護(hù)航油輪通過

霍爾木茲海峽風(fēng)云突變,巴基斯坦亮出底牌,強(qiáng)勢護(hù)航油輪通過

書紀(jì)文譚
2026-03-13 12:56:34
2026-03-13 20:28:49
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無腦”硬件或被淘汰

頭條要聞

貴州茅臺副總經(jīng)理蔣焰被查

頭條要聞

貴州茅臺副總經(jīng)理蔣焰被查

體育要聞

叕戰(zhàn)奧運,張雨霏要做回“小將”

娛樂要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財經(jīng)要聞

2月M2同增9% 前兩個月存款增加9.26萬億

汽車要聞

大眾汽車與小鵬首款聯(lián)合開發(fā)車型與眾08正式量產(chǎn)

態(tài)度原創(chuàng)

親子
游戲
旅游
教育
公開課

親子要聞

萌娃對老媽的年齡感到震驚,他的話太逗了

決非故意!團(tuán)隊回應(yīng)漫威爭鋒女性皮膚過分性感問題

旅游要聞

北海公園山桃花盛放 春日攝影打卡正當(dāng)時

教育要聞

不要過度消耗孩子的能量

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版