国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

告別多步去噪!清華團(tuán)隊(duì)推出MVP,實(shí)現(xiàn)機(jī)器人動(dòng)作單步極速生成

0
分享至



生成式策略(如 Diffusion Policy 和 Flow Matching)在強(qiáng)化學(xué)習(xí)中展現(xiàn)了強(qiáng)大的多模態(tài)分布擬合能力,但其多步迭代采樣帶來的高延遲一直是實(shí)時(shí)控制的痛點(diǎn)。

清華大學(xué)智能駕駛課題組 iDLab,加州大學(xué)伯克利分校人工智能研究院 BAIR在ICLR 2026 (Oral, Top 1%)聯(lián)合發(fā)表的最新研究成果《Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation》:突破生成式強(qiáng)化學(xué)習(xí)的效率與質(zhì)量瓶頸,實(shí)現(xiàn)最快最好的單步動(dòng)作生成。該研究工作由清華大學(xué)博士生占國建和陶樂天在李升波教授指導(dǎo)下完成。



  • 論文標(biāo)題:Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation
  • 論文鏈接:https://openreview.net/forum?id=mIeKe74W43

本文最新研究成果MVP (Mean Velocity Policy):提出了一種建模均值速度場(chǎng)(Mean Velocity Field)的新型生成式策略。該方法通過引入瞬時(shí)速度約束(IVC)作為關(guān)鍵的邊界條件,解決了均值流學(xué)習(xí)中的解不唯一性問題,并且設(shè)計(jì)了復(fù)合生成與選擇機(jī)制,確保在線強(qiáng)化學(xué)習(xí)過程中策略 “步步變強(qiáng)”。MVP 實(shí)現(xiàn)了極致的單步生成 —— 從噪聲直接映射到動(dòng)作,徹底消除了迭代計(jì)算開銷。在 Robomimic 和 OGBench 等高難度具身智能基準(zhǔn)測(cè)試中,MVP 不僅取得了 SOTA 的成功率,更在訓(xùn)練和推理速度上實(shí)現(xiàn)了數(shù)量級(jí)的提升。

背景:生成式強(qiáng)化學(xué)習(xí)的效率與質(zhì)量瓶頸


在具身智能(Embodied AI)和機(jī)器人控制領(lǐng)域,面對(duì)復(fù)雜的任務(wù),最優(yōu)動(dòng)作往往呈現(xiàn)多模態(tài)分布(Multimodal Distribution)。傳統(tǒng)的單高斯策略難以應(yīng)對(duì),而基于擴(kuò)散模型(Diffusion)或流匹配(Flow Matching)的生成式策略雖然表達(dá)能力強(qiáng),但通常依賴幾十甚至上百步的迭代去噪,導(dǎo)致推理延遲極高,難以滿足機(jī)器人高頻控制的實(shí)時(shí)性要求。為了提高推理速度,字節(jié)跳動(dòng)、加州伯克利等團(tuán)隊(duì)曾嘗試通過大步長離散化或單步蒸餾等技術(shù)進(jìn)行優(yōu)化,但往往不可避免地以犧牲生成質(zhì)量為代價(jià),陷入了速度與精度難以兩全的瓶頸。

核心問題出現(xiàn)了:我們能否在保持流模型強(qiáng)大表達(dá)能力的同時(shí),直接實(shí)現(xiàn)一步到位的動(dòng)作生成?

MVP 給出的答案是肯定的。相比于傳統(tǒng)方法學(xué)習(xí) “瞬時(shí)速度” 逐步生成動(dòng)作,MVP 學(xué)習(xí)的是 “均值速度”,這使得它能夠直接跨越時(shí)間步,一步生成目標(biāo)動(dòng)作。

核心貢獻(xiàn):MVP—— 兼具生成式策略的 “高表達(dá)能力” 與單步生成的 “高時(shí)間效率”。

技術(shù)一:瞬時(shí)速度約束錨定,精確極速的均值流策略


傳統(tǒng)的 Flow Matching 往往受限于 “步步為營”:它學(xué)習(xí)的是某一時(shí)刻的瞬時(shí)速度,導(dǎo)致推理時(shí)必須像歐拉積分那樣多步逼近。而 MVP 另辟蹊徑,直接建模時(shí)間區(qū)間內(nèi)的均值速度。這種設(shè)計(jì)允許網(wǎng)絡(luò)直接學(xué)習(xí)如何 “跨越時(shí)間”,在推理階段實(shí)現(xiàn)從初始噪聲到目標(biāo)動(dòng)作的單步跳躍,真正做到了 “一步即終點(diǎn)”。

然而,單純學(xué)習(xí)均值速度存在一個(gè)致命的理論困局:由于缺乏明確的邊界條件,描述均值速度的常微分方程(ODE)存在無窮多組解。這會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)陷入不確定性,產(chǎn)生嚴(yán)重的擬合偏差。

為了破局,該研究引入了瞬時(shí)速度約束(Instantaneous Velocity Constraint, IVC)作為 “定海神針”:

1.物理直覺:在時(shí)間間隔趨于零的極限下,均值速度必須收斂于瞬時(shí)速度。

2.理論護(hù)航:IVC 為 ODE 顯式提供了唯一的邊界條件。論文中的 Theorem 3 從理論上證明了,最小化 IVC Loss 可以強(qiáng)制積分常數(shù)誤差歸零。

通過 IVC 的錨定,MVP 在省去繁瑣迭代步驟的同時(shí),極大地提升了策略擬合的精度與穩(wěn)定性,實(shí)現(xiàn)了精度與速度的雙重突破。

技術(shù)二:復(fù)合生成與選擇,確保策略 “步步變強(qiáng)”


強(qiáng)化學(xué)習(xí)沒有現(xiàn)成的專家動(dòng)作供生成式模型進(jìn)行匹配,為了實(shí)現(xiàn)生成式策略提升,MVP 采用了 Generate-and-Select(復(fù)合生成與選擇)機(jī)制,以自舉方式進(jìn)行動(dòng)作優(yōu)選與匹配,逐步收斂至多模態(tài)最優(yōu)策略。

1.高效生成 (Generate):利用 GPU 并行能力快速生成 N 個(gè)候選動(dòng)作。

2.智能優(yōu)選 (Select):利用 Q 函數(shù)對(duì)候選動(dòng)作精確評(píng)分,鎖定最優(yōu)執(zhí)行方案。

理論保證:論文中的 Theorem 1 證明了,該機(jī)制能確保策略性能的單調(diào)提升。它將增益拆解為 Best-Select 優(yōu)勢(shì)(嚴(yán)格非負(fù))與擬合誤差。只要通過 IVC 約束將誤差控制在極低水平,Generate-and-Select 就能確保策略在迭代中穩(wěn)定變強(qiáng)。這一理論貢獻(xiàn)為 MVP 的收斂性和最優(yōu)性提供了嚴(yán)格的數(shù)學(xué)保障。

實(shí)驗(yàn)結(jié)果:刷新 SOTA,征服具身機(jī)器人靈巧操作挑戰(zhàn)


研究團(tuán)隊(duì)在 Robomimic 和 OGBench 兩大主流機(jī)器人操作基準(zhǔn)上進(jìn)行了廣泛測(cè)試,涵蓋了從基礎(chǔ)的 Lift、Can 到極具挑戰(zhàn)性的 Cube-Double/Triple 等 9 個(gè)稀疏獎(jiǎng)勵(lì)任務(wù)。

1.MVP 在絕大多數(shù)任務(wù)上都取得了 SOTA 性能。特別是在長視距、高難度的方塊錯(cuò)位重排任務(wù)中,MVP(粉色)表現(xiàn)出更快的在線收斂速度和更高的最終性能。





2. 得益于單步生成的特性,MVP 在計(jì)算效率上展現(xiàn)了壓倒性優(yōu)勢(shì)。



  • 訓(xùn)練速度:相比于需要多步去噪計(jì)算的 QC,F(xiàn)QL 和 BFN,單步生成動(dòng)作的 MVP 的在線訓(xùn)練吞吐量(iter/s)提升超過 50%。
  • 推理延遲:在統(tǒng)一的無編譯加速的 CPU 環(huán)境下,MVP 的單步推理耗時(shí)僅為幾毫秒,而同樣而同樣基于生成式流模型的 BFN 和 QC 等方法則需百毫秒量級(jí)。這使得 MVP 能夠輕松部署在算力受限的具身機(jī)器人本體上。

總結(jié)與展望


在本研究中,團(tuán)隊(duì)直擊了生成式強(qiáng)化學(xué)習(xí)在交互訓(xùn)練與實(shí)時(shí)控制場(chǎng)景下 “采樣速度慢、推理延遲高” 的痛點(diǎn),提出了 MVP(Mean Velocity Policy)框架,通過學(xué)習(xí)均值速度場(chǎng)繞過了復(fù)雜的時(shí)序迭代采樣過程,實(shí)現(xiàn)了無需蒸餾的單步極速生成。為了彌補(bǔ)均值流學(xué)習(xí)在邊界條件上的理論缺失,研究設(shè)計(jì)了瞬時(shí)速度約束(IVC),從數(shù)學(xué)底層保證了策略函數(shù)的高精度擬合。實(shí)驗(yàn)表明,MVP 在保持 SOTA 成功率的同時(shí),不僅顯著縮短了訓(xùn)練周期,更將推理延遲壓低至毫秒量級(jí)。這種 “極速生成” 與 “高精控制” 的深度融合,為未來追求極致響應(yīng)速度的具身智能系統(tǒng)指明了新的范式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
杜鋒發(fā)布會(huì)發(fā)飆,反問記者,球迷為陳家政擔(dān)心:你可以離開球隊(duì)了

杜鋒發(fā)布會(huì)發(fā)飆,反問記者,球迷為陳家政擔(dān)心:你可以離開球隊(duì)了

南海浪花
2026-03-26 00:26:05
1982年血色使館:中國外交官唐健生為了生存殺光了所有同事

1982年血色使館:中國外交官唐健生為了生存殺光了所有同事

阿校談史
2026-03-20 11:03:27
張雪峰,倒在上市前夜

張雪峰,倒在上市前夜

帥真商業(yè)
2026-03-25 11:31:43
杭州球場(chǎng)突發(fā),40歲男子心臟驟停倒地!緊急提醒:有這些信號(hào),千萬別硬扛!

杭州球場(chǎng)突發(fā),40歲男子心臟驟停倒地!緊急提醒:有這些信號(hào),千萬別硬扛!

環(huán)球網(wǎng)資訊
2026-03-25 17:34:17
U23國足讓2追2!媒體人熱議:安帥必執(zhí)教國足,亞運(yùn)會(huì)別指望小鬼

U23國足讓2追2!媒體人熱議:安帥必執(zhí)教國足,亞運(yùn)會(huì)別指望小鬼

奧拜爾
2026-03-25 21:54:17
換帥即蛻變!維尼修斯徹底迎來爆發(fā),阿韋洛亞激活其進(jìn)攻天賦!

換帥即蛻變!維尼修斯徹底迎來爆發(fā),阿韋洛亞激活其進(jìn)攻天賦!

田先生籃球
2026-03-25 05:49:48
歐冠+德比制勝!阿韋洛亞撕碎阿隆索體系皇馬兩大“廢人”翻身

歐冠+德比制勝!阿韋洛亞撕碎阿隆索體系皇馬兩大“廢人”翻身

林子說事
2026-03-25 11:05:46
黃仁勛呼吁所有人使用AI提升自己:大學(xué)生畢業(yè)時(shí)都要成AI專家

黃仁勛呼吁所有人使用AI提升自己:大學(xué)生畢業(yè)時(shí)都要成AI專家

快科技
2026-03-24 22:46:04
剛剛,利好來了!直線暴漲!

剛剛,利好來了!直線暴漲!

中國基金報(bào)
2026-03-25 16:06:14
國民黨大亂!馬英九緊急發(fā)聲,鄭麗文下場(chǎng)開罵:扯破臉、斗到底

國民黨大亂!馬英九緊急發(fā)聲,鄭麗文下場(chǎng)開罵:扯破臉、斗到底

小小科普員
2026-03-25 19:25:13
太離譜!皇馬頭號(hào)罪人曝光,差點(diǎn)葬送全隊(duì)一整年努力

太離譜!皇馬頭號(hào)罪人曝光,差點(diǎn)葬送全隊(duì)一整年努力

瀾歸序
2026-03-26 05:24:20
崩了,知名光伏公司大規(guī)模停產(chǎn),大面積待崗!

崩了,知名光伏公司大規(guī)模停產(chǎn),大面積待崗!

黯泉
2026-03-25 21:36:39
4個(gè)LV包都是假的!女子送檢后傻眼:全在專柜買的啊,最新回應(yīng)

4個(gè)LV包都是假的!女子送檢后傻眼:全在專柜買的啊,最新回應(yīng)

半島晨報(bào)
2026-03-25 15:30:03
崩潰,市級(jí)城投集團(tuán):全員薪資腰斬后還發(fā)不出工資!

崩潰,市級(jí)城投集團(tuán):全員薪資腰斬后還發(fā)不出工資!

黯泉
2026-03-25 21:19:18
美國政府有關(guān)部門決定禁止進(jìn)口所有外國制造路由器 外交部回應(yīng)

美國政府有關(guān)部門決定禁止進(jìn)口所有外國制造路由器 外交部回應(yīng)

新京報(bào)
2026-03-25 20:27:41
流行毒株變了?無錫疾控最新提醒

流行毒株變了?無錫疾控最新提醒

江南晚報(bào)
2026-03-25 21:46:46
張雪峰現(xiàn)任妻子遭扒,曝其去年再婚有兒子,年輕漂亮還很清純

張雪峰現(xiàn)任妻子遭扒,曝其去年再婚有兒子,年輕漂亮還很清純

古希臘掌管松餅的神
2026-03-25 14:28:44
800萬粉網(wǎng)紅挖機(jī)小何徹底涼涼?挖機(jī)遭廠家回收,流量密碼沒了

800萬粉網(wǎng)紅挖機(jī)小何徹底涼涼?挖機(jī)遭廠家回收,流量密碼沒了

雷科技
2026-03-24 14:32:17
原來他們是夫妻,《冬去春來》他中年大火,與妻因戲生情恩愛17年

原來他們是夫妻,《冬去春來》他中年大火,與妻因戲生情恩愛17年

攬星河的筆記
2026-03-25 19:31:09
連蔡依林都在玩,“雪山救狐貍”到底是什么梗?對(duì)話視頻原創(chuàng)作者:最初只是為了賣醬板鴨,特意設(shè)置反轉(zhuǎn)劇情,沒想到會(huì)這么火

連蔡依林都在玩,“雪山救狐貍”到底是什么梗?對(duì)話視頻原創(chuàng)作者:最初只是為了賣醬板鴨,特意設(shè)置反轉(zhuǎn)劇情,沒想到會(huì)這么火

極目新聞
2026-03-25 19:37:57
2026-03-26 07:43:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收?qǐng)?,Sora宣布正式關(guān)停

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場(chǎng)畫面披露

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場(chǎng)畫面披露

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

管濤:中東局勢(shì)如何影響人民幣匯率走勢(shì)?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

親子
時(shí)尚
藝術(shù)
旅游
軍事航空

親子要聞

眼睛和嘴對(duì)了一晚上賬,愣是沒對(duì)上!

女人過了40歲別胡亂穿衣,趕緊看看這些日系穿搭,舒適又耐看

藝術(shù)要聞

原來唐朝貴婦的生活,比我們還會(huì)享受!

旅游要聞

風(fēng)?吹?麥?浪?正出片!

軍事要聞

伊朗重申非交戰(zhàn)國家船只可安全通過霍爾木茲海峽

無障礙瀏覽 進(jìn)入關(guān)懷版