国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

告別多步去噪!清華團(tuán)隊(duì)推出MVP,實(shí)現(xiàn)機(jī)器人動(dòng)作單步極速生成

0
分享至



生成式策略(如 Diffusion Policy 和 Flow Matching)在強(qiáng)化學(xué)習(xí)中展現(xiàn)了強(qiáng)大的多模態(tài)分布擬合能力,但其多步迭代采樣帶來(lái)的高延遲一直是實(shí)時(shí)控制的痛點(diǎn)。

清華大學(xué)智能駕駛課題組 iDLab,加州大學(xué)伯克利分校人工智能研究院 BAIR在ICLR 2026 (Oral, Top 1%)聯(lián)合發(fā)表的最新研究成果《Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation》:突破生成式強(qiáng)化學(xué)習(xí)的效率與質(zhì)量瓶頸,實(shí)現(xiàn)最快最好的單步動(dòng)作生成。該研究工作由清華大學(xué)博士生占國(guó)建和陶樂(lè)天在李升波教授指導(dǎo)下完成。



  • 論文標(biāo)題:Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation
  • 論文鏈接:https://openreview.net/forum?id=mIeKe74W43

本文最新研究成果MVP (Mean Velocity Policy):提出了一種建模均值速度場(chǎng)(Mean Velocity Field)的新型生成式策略。該方法通過(guò)引入瞬時(shí)速度約束(IVC)作為關(guān)鍵的邊界條件,解決了均值流學(xué)習(xí)中的解不唯一性問(wèn)題,并且設(shè)計(jì)了復(fù)合生成與選擇機(jī)制,確保在線強(qiáng)化學(xué)習(xí)過(guò)程中策略 “步步變強(qiáng)”。MVP 實(shí)現(xiàn)了極致的單步生成 —— 從噪聲直接映射到動(dòng)作,徹底消除了迭代計(jì)算開(kāi)銷。在 Robomimic 和 OGBench 等高難度具身智能基準(zhǔn)測(cè)試中,MVP 不僅取得了 SOTA 的成功率,更在訓(xùn)練和推理速度上實(shí)現(xiàn)了數(shù)量級(jí)的提升。

背景:生成式強(qiáng)化學(xué)習(xí)的效率與質(zhì)量瓶頸


在具身智能(Embodied AI)和機(jī)器人控制領(lǐng)域,面對(duì)復(fù)雜的任務(wù),最優(yōu)動(dòng)作往往呈現(xiàn)多模態(tài)分布(Multimodal Distribution)。傳統(tǒng)的單高斯策略難以應(yīng)對(duì),而基于擴(kuò)散模型(Diffusion)或流匹配(Flow Matching)的生成式策略雖然表達(dá)能力強(qiáng),但通常依賴幾十甚至上百步的迭代去噪,導(dǎo)致推理延遲極高,難以滿足機(jī)器人高頻控制的實(shí)時(shí)性要求。為了提高推理速度,字節(jié)跳動(dòng)、加州伯克利等團(tuán)隊(duì)曾嘗試通過(guò)大步長(zhǎng)離散化或單步蒸餾等技術(shù)進(jìn)行優(yōu)化,但往往不可避免地以犧牲生成質(zhì)量為代價(jià),陷入了速度與精度難以兩全的瓶頸。

核心問(wèn)題出現(xiàn)了:我們能否在保持流模型強(qiáng)大表達(dá)能力的同時(shí),直接實(shí)現(xiàn)一步到位的動(dòng)作生成?

MVP 給出的答案是肯定的。相比于傳統(tǒng)方法學(xué)習(xí) “瞬時(shí)速度” 逐步生成動(dòng)作,MVP 學(xué)習(xí)的是 “均值速度”,這使得它能夠直接跨越時(shí)間步,一步生成目標(biāo)動(dòng)作。

核心貢獻(xiàn):MVP—— 兼具生成式策略的 “高表達(dá)能力” 與單步生成的 “高時(shí)間效率”。

技術(shù)一:瞬時(shí)速度約束錨定,精確極速的均值流策略


傳統(tǒng)的 Flow Matching 往往受限于 “步步為營(yíng)”:它學(xué)習(xí)的是某一時(shí)刻的瞬時(shí)速度,導(dǎo)致推理時(shí)必須像歐拉積分那樣多步逼近。而 MVP 另辟蹊徑,直接建模時(shí)間區(qū)間內(nèi)的均值速度。這種設(shè)計(jì)允許網(wǎng)絡(luò)直接學(xué)習(xí)如何 “跨越時(shí)間”,在推理階段實(shí)現(xiàn)從初始噪聲到目標(biāo)動(dòng)作的單步跳躍,真正做到了 “一步即終點(diǎn)”。

然而,單純學(xué)習(xí)均值速度存在一個(gè)致命的理論困局:由于缺乏明確的邊界條件,描述均值速度的常微分方程(ODE)存在無(wú)窮多組解。這會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)陷入不確定性,產(chǎn)生嚴(yán)重的擬合偏差。

為了破局,該研究引入了瞬時(shí)速度約束(Instantaneous Velocity Constraint, IVC)作為 “定海神針”:

1.物理直覺(jué):在時(shí)間間隔趨于零的極限下,均值速度必須收斂于瞬時(shí)速度。

2.理論護(hù)航:IVC 為 ODE 顯式提供了唯一的邊界條件。論文中的 Theorem 3 從理論上證明了,最小化 IVC Loss 可以強(qiáng)制積分常數(shù)誤差歸零。

通過(guò) IVC 的錨定,MVP 在省去繁瑣迭代步驟的同時(shí),極大地提升了策略擬合的精度與穩(wěn)定性,實(shí)現(xiàn)了精度與速度的雙重突破。

技術(shù)二:復(fù)合生成與選擇,確保策略 “步步變強(qiáng)”


強(qiáng)化學(xué)習(xí)沒(méi)有現(xiàn)成的專家動(dòng)作供生成式模型進(jìn)行匹配,為了實(shí)現(xiàn)生成式策略提升,MVP 采用了 Generate-and-Select(復(fù)合生成與選擇)機(jī)制,以自舉方式進(jìn)行動(dòng)作優(yōu)選與匹配,逐步收斂至多模態(tài)最優(yōu)策略。

1.高效生成 (Generate):利用 GPU 并行能力快速生成 N 個(gè)候選動(dòng)作。

2.智能優(yōu)選 (Select):利用 Q 函數(shù)對(duì)候選動(dòng)作精確評(píng)分,鎖定最優(yōu)執(zhí)行方案。

理論保證:論文中的 Theorem 1 證明了,該機(jī)制能確保策略性能的單調(diào)提升。它將增益拆解為 Best-Select 優(yōu)勢(shì)(嚴(yán)格非負(fù))與擬合誤差。只要通過(guò) IVC 約束將誤差控制在極低水平,Generate-and-Select 就能確保策略在迭代中穩(wěn)定變強(qiáng)。這一理論貢獻(xiàn)為 MVP 的收斂性和最優(yōu)性提供了嚴(yán)格的數(shù)學(xué)保障。

實(shí)驗(yàn)結(jié)果:刷新 SOTA,征服具身機(jī)器人靈巧操作挑戰(zhàn)


研究團(tuán)隊(duì)在 Robomimic 和 OGBench 兩大主流機(jī)器人操作基準(zhǔn)上進(jìn)行了廣泛測(cè)試,涵蓋了從基礎(chǔ)的 Lift、Can 到極具挑戰(zhàn)性的 Cube-Double/Triple 等 9 個(gè)稀疏獎(jiǎng)勵(lì)任務(wù)。

1.MVP 在絕大多數(shù)任務(wù)上都取得了 SOTA 性能。特別是在長(zhǎng)視距、高難度的方塊錯(cuò)位重排任務(wù)中,MVP(粉色)表現(xiàn)出更快的在線收斂速度和更高的最終性能。





2. 得益于單步生成的特性,MVP 在計(jì)算效率上展現(xiàn)了壓倒性優(yōu)勢(shì)。



  • 訓(xùn)練速度:相比于需要多步去噪計(jì)算的 QC,F(xiàn)QL 和 BFN,單步生成動(dòng)作的 MVP 的在線訓(xùn)練吞吐量(iter/s)提升超過(guò) 50%。
  • 推理延遲:在統(tǒng)一的無(wú)編譯加速的 CPU 環(huán)境下,MVP 的單步推理耗時(shí)僅為幾毫秒,而同樣而同樣基于生成式流模型的 BFN 和 QC 等方法則需百毫秒量級(jí)。這使得 MVP 能夠輕松部署在算力受限的具身機(jī)器人本體上。

總結(jié)與展望


在本研究中,團(tuán)隊(duì)直擊了生成式強(qiáng)化學(xué)習(xí)在交互訓(xùn)練與實(shí)時(shí)控制場(chǎng)景下 “采樣速度慢、推理延遲高” 的痛點(diǎn),提出了 MVP(Mean Velocity Policy)框架,通過(guò)學(xué)習(xí)均值速度場(chǎng)繞過(guò)了復(fù)雜的時(shí)序迭代采樣過(guò)程,實(shí)現(xiàn)了無(wú)需蒸餾的單步極速生成。為了彌補(bǔ)均值流學(xué)習(xí)在邊界條件上的理論缺失,研究設(shè)計(jì)了瞬時(shí)速度約束(IVC),從數(shù)學(xué)底層保證了策略函數(shù)的高精度擬合。實(shí)驗(yàn)表明,MVP 在保持 SOTA 成功率的同時(shí),不僅顯著縮短了訓(xùn)練周期,更將推理延遲壓低至毫秒量級(jí)。這種 “極速生成” 與 “高精控制” 的深度融合,為未來(lái)追求極致響應(yīng)速度的具身智能系統(tǒng)指明了新的范式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
委內(nèi)瑞拉石油,引爆美方4個(gè)煉油廠,特朗普做的孽,終于來(lái)了報(bào)應(yīng)

委內(nèi)瑞拉石油,引爆美方4個(gè)煉油廠,特朗普做的孽,終于來(lái)了報(bào)應(yīng)

松林侃世界
2026-03-28 15:09:14
英國(guó)首相回?fù)裘绹?guó)的伊朗戰(zhàn)爭(zhēng)施壓:絕不屈服

英國(guó)首相回?fù)裘绹?guó)的伊朗戰(zhàn)爭(zhēng)施壓:絕不屈服

國(guó)際在線
2026-03-28 07:46:18
陳都靈出席零跑發(fā)布會(huì),白襯衫短褲穿出天價(jià)感,這才是真女神

陳都靈出席零跑發(fā)布會(huì),白襯衫短褲穿出天價(jià)感,這才是真女神

原夢(mèng)叁生
2026-03-28 11:39:30
心源性猝死面前沒(méi)有“僥幸”!急診醫(yī)學(xué)科專家稱半數(shù)患者前1-4周有身體預(yù)警

心源性猝死面前沒(méi)有“僥幸”!急診醫(yī)學(xué)科專家稱半數(shù)患者前1-4周有身體預(yù)警

瀟湘晨報(bào)
2026-03-25 20:21:20
“保羅散步”迎來(lái)春天:“拉夫勞倫平替”常年打一折,單平臺(tái)月銷近2500萬(wàn)

“保羅散步”迎來(lái)春天:“拉夫勞倫平替”常年打一折,單平臺(tái)月銷近2500萬(wàn)

藍(lán)鯨新聞
2026-03-28 09:37:11
失控?伊朗科技大學(xué)被炸!以國(guó)防部大樓被擊中!局勢(shì)迎來(lái)三大走向

失控?伊朗科技大學(xué)被炸!以國(guó)防部大樓被擊中!局勢(shì)迎來(lái)三大走向

薛小榮
2026-03-28 19:19:44
隊(duì)記談焦泊喬:他想要個(gè)官方通報(bào),但球隊(duì)不想出,球迷:無(wú)法調(diào)和

隊(duì)記談焦泊喬:他想要個(gè)官方通報(bào),但球隊(duì)不想出,球迷:無(wú)法調(diào)和

南海浪花
2026-03-28 11:44:31
綠聯(lián)把充電寶壓到13.9mm,iPhone用戶卻買不到

綠聯(lián)把充電寶壓到13.9mm,iPhone用戶卻買不到

賽博蘭博
2026-03-28 14:15:12
特朗普沒(méi)想到:中東大戰(zhàn)打醒了朝韓,朝鮮亮劍,韓國(guó)已對(duì)華掏心窩

特朗普沒(méi)想到:中東大戰(zhàn)打醒了朝韓,朝鮮亮劍,韓國(guó)已對(duì)華掏心窩

顧史
2026-03-28 23:33:59
毒梟留下的河馬,成災(zāi)了

毒梟留下的河馬,成災(zāi)了

中國(guó)新聞周刊
2026-03-11 10:45:05
喪夫僅5個(gè)月,49歲翁帆突傳“喜訊”高調(diào)露面,狀態(tài)好到出人意料

喪夫僅5個(gè)月,49歲翁帆突傳“喜訊”高調(diào)露面,狀態(tài)好到出人意料

冷紫葉
2026-03-24 19:12:36
上海月租7000的“廢土風(fēng)”房火了!房東花了10萬(wàn)裝修,網(wǎng)友:看著像一分沒(méi)花!

上海月租7000的“廢土風(fēng)”房火了!房東花了10萬(wàn)裝修,網(wǎng)友:看著像一分沒(méi)花!

新民晚報(bào)
2026-03-26 15:10:34
廣東一店主下單寄遞10箱茅臺(tái)酒總價(jià)超12萬(wàn)元,司機(jī)用一張模糊“卸貨照”虛假“送達(dá)”后失聯(lián),平臺(tái):已與警方確認(rèn)找到司機(jī),貨物已追回

廣東一店主下單寄遞10箱茅臺(tái)酒總價(jià)超12萬(wàn)元,司機(jī)用一張模糊“卸貨照”虛假“送達(dá)”后失聯(lián),平臺(tái):已與警方確認(rèn)找到司機(jī),貨物已追回

大象新聞
2026-03-27 21:45:04
立陶宛請(qǐng)求訪華,當(dāng)面向中方認(rèn)錯(cuò)?中方已開(kāi)出條件,做不到就免談

立陶宛請(qǐng)求訪華,當(dāng)面向中方認(rèn)錯(cuò)?中方已開(kāi)出條件,做不到就免談

壹知眠羊
2026-03-29 09:46:53
中國(guó)將迎來(lái) “死亡高峰期”:一代人集體老去,人口天平徹底傾斜

中國(guó)將迎來(lái) “死亡高峰期”:一代人集體老去,人口天平徹底傾斜

介知
2026-03-29 08:19:26
伊朗伊斯蘭革命衛(wèi)隊(duì)發(fā)布公告

伊朗伊斯蘭革命衛(wèi)隊(duì)發(fā)布公告

新浪財(cái)經(jīng)
2026-03-29 08:32:06
你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛(ài)雜談
2026-02-21 21:37:02
公開(kāi)批評(píng)或抵制J.K. 羅琳的明星名單

公開(kāi)批評(píng)或抵制J.K. 羅琳的明星名單

下水道男孩
2026-03-28 23:25:19
張雪峰自曝每天就睡兩個(gè)小時(shí),助理非要給他買除顫儀

張雪峰自曝每天就睡兩個(gè)小時(shí),助理非要給他買除顫儀

金牌娛樂(lè)
2026-03-29 08:06:36
52年陳明仁由司令降為軍長(zhǎng),3年后擬授少將,毛主席:必須是上將

52年陳明仁由司令降為軍長(zhǎng),3年后擬授少將,毛主席:必須是上將

大運(yùn)河時(shí)空
2026-03-28 08:50:03
2026-03-29 10:27:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142598關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

牛彈琴:特朗普親口對(duì)沙特說(shuō)出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對(duì)沙特說(shuō)出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊(duì)?

娛樂(lè)要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

教育
旅游
手機(jī)
公開(kāi)課
軍事航空

教育要聞

“黃毛的爹,酗酒的媽”,上海三口之家火了,只有孩子看著不叛逆

旅游要聞

武漢:一城繁花 全域皆景

手機(jī)要聞

與直板機(jī)坐一桌 OPPO Find N6躋身暢銷機(jī)榜單

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍中東基地?fù)p失最新披露

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版