国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

港中深-跨維智能提出EVA框架,強化學(xué)習(xí)讓視頻世界模型“動”起來

0
分享至

機器之心發(fā)布

近期,利用視頻生成模型為機器人構(gòu)建 “世界模型”,已成為具身智能領(lǐng)域的熱門技術(shù)路線。給定當(dāng)前觀測和自然語言指令,這類模型能夠先 “想象” 出未來的視覺軌跡,再由逆動力學(xué)模型(IDM)將生成畫面解碼為機器人動作,從而形成 “先預(yù)測、后執(zhí)行” 的解耦式規(guī)劃范式。由于兼具較強的可解釋性與開放場景泛化潛力,這一路線正在受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。

然而,這一看似理想的范式背后,卻隱藏著一個關(guān)鍵瓶頸:生成的視頻未必對應(yīng)真實可執(zhí)行的動作序列,即所謂的 “可執(zhí)行性鴻溝”(Executability Gap)

針對這一問題,香港中文大學(xué)(深圳)與跨維智能的研究團隊提出了一種全新的強化學(xué)習(xí)后訓(xùn)練框架 ——Executable Video Alignment (EVA)。該框架創(chuàng)新性地將逆動力學(xué)模型轉(zhuǎn)化為獎勵模型,通過強化學(xué)習(xí)直接優(yōu)化視頻生成過程,使生成結(jié)果不僅 “看起來真實”,更 “動起來可行”

這也表明,真正服務(wù)于機器人的世界模型不能只停留在二維視覺預(yù)測層面,而應(yīng)進一步融入對世界物理的建模;本工作正是跨維智能此前提出的GS-World及其開源工具EmbodiChain所提出的核心思想的一個具體算法創(chuàng)新



  • 論文標(biāo)題:EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards
  • 論文鏈接:https://arxiv.org/abs/2603.17808
  • 項目頁: https://eva-project-page.github.io/
  • 代碼鏈接:https://github.com/RobbinW/EVA

痛點:中看不中用的 “可執(zhí)行性鴻溝”

近年來,視頻生成模型在機器人任務(wù)規(guī)劃中展現(xiàn)出很強的潛力。相比直接從圖像和語言映射到動作序列,這類方法先生成未來視覺過程,再從中恢復(fù)動作,天然具備更強的中間表征能力,也讓 “規(guī)劃” 變得更加直觀。

然而,現(xiàn)有視頻模型主要優(yōu)化的是像素分布或感知一致性,它們擅長生成 “視覺上真實” 的內(nèi)容,卻并不真正理解機器人本體結(jié)構(gòu)、關(guān)節(jié)約束和運動學(xué)規(guī)律



由此帶來一種典型現(xiàn)象:生成的視頻在細(xì)節(jié)上卻可能存在機械臂局部形變、關(guān)節(jié)連接模糊、運動突然跳變等不符合運動學(xué)規(guī)律的問題。經(jīng)過逆動力學(xué)模型翻譯成動作信號之后,這些偏差會被迅速放大,最終演化為抖動、越界甚至完全不可執(zhí)行的控制指令。



破局之道:EVA 框架

圍繞這個問題,研究團隊提出了Executable Video Alignment(EVA)

EVA 的核心思想很直接:既然機器人最終需要的是可執(zhí)行的動作序列,那么視頻生成模型的訓(xùn)練目標(biāo)就不應(yīng)只由視覺質(zhì)量決定,而應(yīng)該進一步引入來自動作空間的約束

具體而言,EVA 首先訓(xùn)練一個逆動力學(xué)模型(Inverse Dynamics Model, IDM),讓它能夠根據(jù)視頻中的局部時序變化恢復(fù)出機器人動作;隨后,再將這個 IDM 擴展作為 “獎勵模型”,用于評估視頻生成結(jié)果對應(yīng)的動作序列是否平滑、合理、符合機器人本體約束。

換句話說,EVA 讓視頻世界模型在監(jiān)督微調(diào)階段首先回答:

  • 這段視頻看起來真實嗎?
  • 是否符合任務(wù)語義?

而在強化學(xué)習(xí)階段進一步回答:

  • 這段視頻如果被翻譯成動作,機器人到底能不能執(zhí)行?
  • 它對應(yīng)的動作軌跡是否平滑?
  • 是否違反速度、加速度等本體約束?
  • 是否會產(chǎn)生突兀跳變或不穩(wěn)定控制?

基于這一思路,研究團隊在獎勵設(shè)計中顯式引入了多種機器人執(zhí)行層面的約束,包括動作速度變化、加速度平滑性以及更高階的jerk正則項,同時對超過機器人本體限制的異常動作進行懲罰。通過強化學(xué)習(xí)后訓(xùn)練,模型會逐漸傾向于生成那些不僅視覺自然,而且對應(yīng)動作更穩(wěn)定、更符合物理規(guī)律的未來軌跡。從本質(zhì)上看,EVA 并不是簡單地 “修補視頻中的瑕疵”,而是在將視頻生成分布主動拉回到機器人可行運動流形之上。



實驗表現(xiàn):從仿真到真實的提升

為了驗證 EVA 的有效性,研究團隊在仿真和真實機器人平臺上進行了系統(tǒng)實驗。

  • 視覺規(guī)劃質(zhì)量飛躍:在視覺質(zhì)量評估中,經(jīng)過 RL 對齊的 EVA 模型在 “運動學(xué)合理性”(Kinematic plausibility)上相比未對齊的基線模型大幅提升了 20.9%。在更嚴(yán)格的整體標(biāo)準(zhǔn)下,模型的 Perfect Execution 達到了 83.8%。這說明 EVA 優(yōu)化的不只是 “畫面是否自然”,而是在減少機械臂形變、關(guān)節(jié)歧義和時序跳變等對執(zhí)行極其重要的結(jié)構(gòu)性偽影。



  • 仿真任務(wù)成功率提高:研究團隊在當(dāng)前具身操作領(lǐng)域具有代表性的 RoboTwin 2.0 基準(zhǔn)上進行了仿真實驗評測。之所以選擇 RoboTwin,一方面是因為它面向雙臂操作任務(wù),任務(wù)類型豐富、場景隨機性強,能夠更真實地反映機器人在復(fù)雜環(huán)境中的操作能力;另一方面,RoboTwin 已逐漸成為檢驗 VLA 方法 與 具身世界模型方法 泛化能力和真實執(zhí)行潛力的重要公開基準(zhǔn),因此在這一平臺上的結(jié)果具有較強的說服力。

在實驗中,研究團隊對21 個雙臂任務(wù)進行了系統(tǒng)評測。評測方式并不是只比較生成視頻 “看起來好不好”,而是將生成視頻進一步交給逆動力學(xué)模型(IDM)解碼為動作序列,再真正送入控制系統(tǒng)執(zhí)行,并統(tǒng)計每個任務(wù) 20 次試驗中的成功次數(shù)。換句話說,這一指標(biāo)考察的是:視頻世界模型生成的未來,究竟能不能被機器人真正做出來。從結(jié)果來看,EVA(with RL)將平均成功率進一步提升到 52.6%,不僅明顯超過未對齊版本,也整體優(yōu)于多種代表性 VLA 方法和機器人基礎(chǔ)模型基線。例如,在 ClickBell 任務(wù)上,EVA(with RL)達到 20/20;在 PressStapler 上達到 20/20;在 TurnSwitch 上達到 13/20,相比未對齊版本的 8/20 有明顯提升。



  • 真實世界部署更穩(wěn)定:為了進一步驗證方法在真實場景中的落地價值,研究團隊還在真實雙臂機器人平臺上進行了部署測試。結(jié)果表明,EVA 的優(yōu)勢并不只停留在仿真環(huán)境中,而是穩(wěn)定延伸到了真實機器人部署階段。對于 Seen tasks,經(jīng)過可執(zhí)行性對齊后的 EVA(with RL)達到 64.0%,明顯高于 ACT、π?、Vidar 和 GE-Act 等代表性基線方法。尤其在 StackBowl、Place2Basket 和 Place2Tray 等任務(wù)上,EVA(with RL)都取得了更優(yōu)表現(xiàn)。更值得關(guān)注的是,在5 個全新的 OOD 任務(wù)上,EVA 的優(yōu)勢更加明顯。相比于基線方法,EVA(with RL) 將平均成功率提升至60.0%,顯示出更強的新任務(wù)適應(yīng)能力和跨場景泛化能力。



如果把這三組結(jié)果放在一起解讀,EVA 的貢獻就會更清晰:

它并不是單純把視頻 “變好看” 了,也不是只在某個局部指標(biāo)上做了優(yōu)化;它展示的是一條更完整的提升鏈條 ——

從視覺規(guī)劃質(zhì)量改善,到仿真執(zhí)行成功率提升,再到真實機器人部署更穩(wěn)定。

這條鏈條背后對應(yīng)的,其實正是 EVA 的核心判斷:對于具身世界模型來說,真正決定落地價值的,不只是 “能不能生成未來”,而是 “生成出來的未來,能不能被機器人可靠地執(zhí)行”。而 EVA 通過逆動力學(xué)獎勵,把這一點第一次系統(tǒng)性地變成了訓(xùn)練目標(biāo)。

拓展?jié)摿Γ毫銟颖旧少x能數(shù)據(jù)合成

除了提升視頻世界模型的執(zhí)行可靠性,EVA 還展現(xiàn)出一個極具潛力的延伸方向:面向具身智能的數(shù)據(jù)合成與增強

眾所周知,具身智能系統(tǒng)的發(fā)展長期受制于高質(zhì)量機器人數(shù)據(jù)的稀缺。真實機器人采集不僅成本高、周期長,而且對人力示教和平臺條件高度依賴。EVA 所彌合的 “可執(zhí)行性鴻溝”,則為構(gòu)建全合成具身數(shù)據(jù)流水線打開了新的可能。

研究團隊展示了一種零樣本(Zero-Shot)的數(shù)據(jù)生成方案:首先利用先進的文本到圖像基礎(chǔ)模型生成多樣化的初始場景觀測,再將這些圖像輸入經(jīng)過對齊后的 EVA 視頻世界模型,從而自動生成具備合理物理約束的動態(tài)視頻軌跡。相比以往僅追求視覺多樣性的合成方式,這一流程更進一步保證了生成結(jié)果在動作層面的可用性。

這意味著,未來或許可以在不依賴人工遙操作的前提下,持續(xù)合成更豐富、更可信、更接近真實執(zhí)行分布的具身數(shù)據(jù),為機器人學(xué)習(xí)提供新的規(guī)模化路徑。



結(jié)語:從 “會生成” 到 “會執(zhí)行”,EVA 補上關(guān)鍵一步

這項工作的一個重要意義在于,它提醒整個領(lǐng)域重新思考視頻世界模型的評價標(biāo)準(zhǔn)。

過去,許多研究更關(guān)注生成結(jié)果是否清晰、連貫、符合語義,但對于機器人而言,這些指標(biāo)遠遠不夠。因為機器人并不是在 “觀看” 世界模型生成的畫面,而是在 “執(zhí)行” 這些畫面背后所對應(yīng)的動作與交互過程。

從這個意義上看,EVA 提供了一條重要的技術(shù)路徑:它讓視頻世界模型不再只是生成未來畫面,而是開始面向真實機器人執(zhí)行去優(yōu)化未來軌跡。EVA 所補上的,正是視覺合理性與動作可執(zhí)行性之間長期存在的關(guān)鍵缺口,推動世界模型從 “看起來合理” 邁向 “真正能夠執(zhí)行”。

EVA 主要聚焦于運動學(xué)層面的對齊,其拓展可進一步引入更豐富的動力學(xué)約束,例如接觸力、摩擦、扭矩等真實物理因素。更進一步說,要讓世界模型真正服務(wù)于具身智能,僅僅具備二維視覺生成能力仍然不夠。更 “好用” 的世界模型,需要進一步走向?qū)θS空間結(jié)構(gòu)、真實物理規(guī)律和連續(xù)交互過程的統(tǒng)一理解。沿著這條路徑,世界模型才有可能真正成為支撐具身智能決策、執(zhí)行與泛化的基礎(chǔ)能力。這個方向,也正與跨維智能圍繞 GS-World(Generative Simulation World Model) 和其開源平臺 EmbodiChain 所推進的研究主線一脈相承:前者致力于以生成式仿真建模 3D 資產(chǎn)、環(huán)境和物理交互規(guī)則,后者則作為面向具身智能的 Real2Sim2Real 引擎,連接場景生成、數(shù)據(jù)合成、模型訓(xùn)練和 Sim2Real 部署。

通過 EVA,跨維智能已經(jīng)給出了一個清晰的信號:

機器人需要的,不只是會 “想象未來” 的世界模型,更是能夠在真實三維物理世界中 “做得出來” 的世界模型

而這,或許正是世界模型邁向具身智能落地過程中,最關(guān)鍵的一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
女人偷吃后晚上跟丈夫同房是什么體驗?這位46歲出軌女人說出答案

女人偷吃后晚上跟丈夫同房是什么體驗?這位46歲出軌女人說出答案

混音情感
2026-03-26 14:25:07
TVB四屆視后主演新劇內(nèi)地點擊破億!宣傳遇突發(fā)狀況,淡定應(yīng)對顯風(fēng)范

TVB四屆視后主演新劇內(nèi)地點擊破億!宣傳遇突發(fā)狀況,淡定應(yīng)對顯風(fēng)范

TVB劇評社
2026-03-26 22:37:56
韓媒臆想:中國隊歡呼吧,國際足聯(lián)同意他們替補世界杯

韓媒臆想:中國隊歡呼吧,國際足聯(lián)同意他們替補世界杯

體壇風(fēng)之子
2026-03-26 07:00:06
三連冠后首度被主場球迷高呼下課,廣東男籃近八年唯一無換帥球隊

三連冠后首度被主場球迷高呼下課,廣東男籃近八年唯一無換帥球隊

狼叔評論
2026-03-26 18:02:06
伊朗發(fā)動第82波打擊

伊朗發(fā)動第82波打擊

閃電新聞
2026-03-26 18:32:07
伊朗伊斯蘭革命衛(wèi)隊責(zé)令一艘擅自通過霍爾木茲海峽船只返航

伊朗伊斯蘭革命衛(wèi)隊責(zé)令一艘擅自通過霍爾木茲海峽船只返航

財聯(lián)社
2026-03-25 02:02:18
福氣追著跑!三大生肖命中帶財,2026一路順?biāo)熵斶\旺到年底!

福氣追著跑!三大生肖命中帶財,2026一路順?biāo)熵斶\旺到年底!

毅談生肖
2026-03-26 11:31:20
原來他們是夫妻,《冬去春來》他又火了,不高不帥卻娶了漂亮老婆

原來他們是夫妻,《冬去春來》他又火了,不高不帥卻娶了漂亮老婆

趣味八卦
2026-03-25 17:34:15
油價降了!3月26日全國油價下調(diào)85元噸,4月7日油價將迎下跌!

油價降了!3月26日全國油價下調(diào)85元噸,4月7日油價將迎下跌!

沙雕小琳琳
2026-03-26 15:31:42
億萬國人破防了!90歲院士平靜宣布,中國導(dǎo)彈從此沒有任何死角!

億萬國人破防了!90歲院士平靜宣布,中國導(dǎo)彈從此沒有任何死角!

墨蘭史書
2026-03-05 07:10:08
收評:三大指數(shù)均跌超1% 兩市成交額跌破2萬億

收評:三大指數(shù)均跌超1% 兩市成交額跌破2萬億

財聯(lián)社
2026-03-26 15:02:09
別被“某音”前凸后翹的網(wǎng)紅騙了

別被“某音”前凸后翹的網(wǎng)紅騙了

健身S叔
2026-03-22 11:12:04
華裔女賭神趙蘇茜:曾橫掃美國賭場,一局贏下400萬,33歲遭焚尸

華裔女賭神趙蘇茜:曾橫掃美國賭場,一局贏下400萬,33歲遭焚尸

嘆為觀止易
2026-03-24 16:45:26
美軍官揭露“愛國者”慘敗原因:伊朗不講武德用了幾千架無人機!

美軍官揭露“愛國者”慘敗原因:伊朗不講武德用了幾千架無人機!

阿芒娛樂說
2026-03-27 00:16:22
國足決戰(zhàn)庫拉索 541陣型沖首勝 首發(fā)11人基本定9人 王鈺棟或替補

國足決戰(zhàn)庫拉索 541陣型沖首勝 首發(fā)11人基本定9人 王鈺棟或替補

男足的小球童
2026-03-26 17:47:27
51歲林志玲狀態(tài)炸上熱搜!歲月在她臉上按了暫停鍵?看完我服了

51歲林志玲狀態(tài)炸上熱搜!歲月在她臉上按了暫停鍵?看完我服了

時間巡查
2026-03-27 00:27:26
萊萬最后1屆世界杯懸了:波蘭0-1輸球就出局

萊萬最后1屆世界杯懸了:波蘭0-1輸球就出局

我是一個養(yǎng)蝦人
2026-03-27 01:05:31
為什么閑魚很多賣家只支持自提?網(wǎng)友:等你碰上到手刀的就老實了

為什么閑魚很多賣家只支持自提?網(wǎng)友:等你碰上到手刀的就老實了

另子維愛讀史
2026-03-22 22:34:48
她58歲仍是干凈之身,至今沒談過戀愛,除非是最愛不然不會獻身

她58歲仍是干凈之身,至今沒談過戀愛,除非是最愛不然不會獻身

小熊侃史
2026-02-15 07:30:10
不結(jié)婚怎么解決生理需求?33歲的女頂流楊紫,用六個字道破真相!

不結(jié)婚怎么解決生理需求?33歲的女頂流楊紫,用六個字道破真相!

丁丁鯉史紀(jì)
2026-03-08 16:53:30
2026-03-27 01:44:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12608文章數(shù) 142594關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
家居
數(shù)碼
親子
公開課

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復(fù)仇了一萬遍

家居要聞

傍海而居 靜觀蝴蝶海

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動,支持B70 / B65顯卡

親子要聞

看看把孩子嚇得哈哈哈

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版