国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓離線強(qiáng)化學(xué)習(xí)從「局部描摹」變「全局布局」丨ICLR'26

0
分享至

面對(duì)復(fù)雜連續(xù)任務(wù)的長(zhǎng)程規(guī)劃,現(xiàn)有的生成式離線強(qiáng)化學(xué)習(xí)方法往往會(huì)暴露短板。

它們生成的軌跡經(jīng)常陷入局部合理但全局偏航的窘境。

它們太關(guān)注眼前的每一步,卻忘了最終的目的地。



針對(duì)這一痛點(diǎn),廈門大學(xué)和香港科技大學(xué)提出一種名為MAGE(魔法師,Multi-scale Autoregressive Generation)的離線強(qiáng)化學(xué)習(xí)新算法。

MAGE與現(xiàn)有序列生成方法不同,MAGE采用自頂向下的“由粗到細(xì)”生成策略,先建模軌跡的宏觀規(guī)劃,再逐步細(xì)化微觀細(xì)節(jié)。

MAGE的核心思路非常符合人類的直覺:“自頂向下、由粗到細(xì)”

這就好比畫一幅素描,你不會(huì)一上來就描繪眼睛的睫毛,而是先畫出整體的身體輪廓(宏觀規(guī)劃),再逐步細(xì)化五官和表情

(微觀動(dòng)作)



△MAGE的思考過程

從一場(chǎng)”迷宮尋寶“揭示AI規(guī)劃的盲區(qū)

為了直觀展示現(xiàn)有模型的缺陷,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)迷宮吃金幣小實(shí)驗(yàn)。智能體需要從隨機(jī)起點(diǎn)出發(fā),依靠對(duì)環(huán)境的長(zhǎng)程空間理解,先吃銀幣,再吃金幣,最后抵達(dá)終點(diǎn)。



△各個(gè)算法在迷宮環(huán)境的表現(xiàn)

然而,面對(duì)這種需要全局規(guī)劃的場(chǎng)景,現(xiàn)有的模型紛紛暴露了缺陷。

  • Decision Transformer受限于單向自回歸特性帶來的全局上下文缺失,它在長(zhǎng)程規(guī)劃中完全迷失方向,最終連終點(diǎn)都未能抵達(dá)。
  • Decision Diffuser則由于擴(kuò)散模型固有的局部生成偏差,生成的軌跡往往只能保證局部合理;雖然智能體抵達(dá)了終點(diǎn),卻遺漏了關(guān)鍵的一枚金幣,全局連貫性較差。
  • Hierarchical Diffuser雖然嘗試通過分層結(jié)構(gòu)建模全局軌跡,但由于其固定的雙層結(jié)構(gòu)過于僵硬高低層策略之間缺乏有效協(xié)同,生成的軌跡甚至出現(xiàn)了物理違規(guī)的“穿墻”現(xiàn)象,全局規(guī)劃與局部動(dòng)作嚴(yán)重脫節(jié)。

相比之下,MAGE則通過多尺度“從粗到細(xì)”的生成架構(gòu)成功完成了任務(wù)。它首先在最粗的時(shí)間尺度上勾勒出包含所有關(guān)鍵節(jié)點(diǎn)的宏觀全局輪廓,隨后利用多尺度Transformer在更細(xì)的時(shí)間尺度上逐層細(xì)化,順利規(guī)劃出完整的路徑。

MAGE的核心思路:從畫大綱到扣細(xì)節(jié)

MAGE采用“自頂向下、由粗到細(xì)”的生成方式。MAGE包含兩大核心模塊,并輔以精確的控制機(jī)制:



△MAGE的架構(gòu)圖

MTAE多尺度軌跡自編碼器:MAGE將長(zhǎng)序列軌跡轉(zhuǎn)化為從粗到細(xì)的多尺度離散Token。粗尺度的Token負(fù)責(zé)掌控全局長(zhǎng)程結(jié)構(gòu),最細(xì)尺度的Token則詳細(xì)建模短期的動(dòng)態(tài)細(xì)節(jié)。

多尺度條件引導(dǎo)自回歸生成:模型使用Transformer序列化地生成這些多尺度Token。在生成每層時(shí),都會(huì)嚴(yán)格以“目標(biāo)回報(bào)”和“初始狀態(tài)”作為條件進(jìn)行約束,確保智能體的每一步都在朝著最終目標(biāo)前進(jìn)。

條件引導(dǎo)細(xì)化與動(dòng)作決策:因?yàn)榘堰B續(xù)世界變成離散Token會(huì)丟失信息,普通的生成過程容易讓軌跡起點(diǎn)偏離現(xiàn)實(shí)。為此,MAGE在解碼器中集成了輕量級(jí)的適配器(adapter)模塊,并引入了條件引導(dǎo)損失函數(shù)Lcond,強(qiáng)制解碼出的初始狀態(tài)與真實(shí)環(huán)境是精確對(duì)齊的。最后,通過潛在逆動(dòng)力學(xué)模型決定最終的動(dòng)作。

實(shí)驗(yàn)表現(xiàn):長(zhǎng)序列任務(wù)全面超越,推理速度滿足實(shí)時(shí)控制

研究團(tuán)隊(duì)在包含Adroit、Franka Kitchen、AntMaze等5個(gè)離線RL基準(zhǔn)測(cè)試中,將MAGE與15種具有代表性的基線算法進(jìn)行了廣泛的評(píng)估。

多任務(wù)表現(xiàn)出色



在極具挑戰(zhàn)的高維連續(xù)控制Adroit機(jī)械臂任務(wù)中,面對(duì)極其稀疏的獎(jiǎng)勵(lì),MAGE實(shí)現(xiàn)了顯著的性能提升,大幅優(yōu)于對(duì)比方法。在強(qiáng)調(diào)子目標(biāo)執(zhí)行順序的Franka Kitchen組合任務(wù)中,MAGE憑借捕獲全局結(jié)構(gòu)和局部細(xì)節(jié)的能力,以相當(dāng)大的優(yōu)勢(shì)超越了所有競(jìng)爭(zhēng)算法。



迷宮導(dǎo)航任務(wù)中,MAGE在所有數(shù)據(jù)集上均取得了最佳性能,證明了其處理長(zhǎng)序列導(dǎo)航任務(wù)的卓越能力。

極高的推理效率與部署潛力



MAGE在保持高性能的同時(shí),實(shí)現(xiàn)了出色的計(jì)算效率平衡。實(shí)驗(yàn)數(shù)據(jù)表明,MAGE的運(yùn)行速度比Hierarchical Diffuser快約50倍,比Decision Diffuser快80倍。其每步推理時(shí)間保持在27毫秒,完美滿足了真實(shí)機(jī)器人控制所要求的20 Hz實(shí)時(shí)運(yùn)行門檻。

結(jié)語

MAGE成功地將多尺度軌跡建模與條件引導(dǎo)相結(jié)合,通過“從粗到細(xì)”的自回歸框架生成連貫且可控的高回報(bào)軌跡。當(dāng)有一天,機(jī)器人不再需要人類一口一口地“喂”獎(jiǎng)勵(lì),而是能夠自主審視全局,制定長(zhǎng)遠(yuǎn)計(jì)劃并流暢執(zhí)行時(shí),也許具身智能的下一個(gè)奇點(diǎn)就真正到來了。

論文鏈接:
https://arxiv.org/abs/2602.23770
開源代碼:
https://github.com/xmu-rl-3dv/MAGE
實(shí)驗(yàn)室主頁:
https://asc.xmu.edu.cn/

作者介紹:
本文第一作者來自廈門大學(xué)空間感知與計(jì)算實(shí)驗(yàn)室(ASC Lab)2024級(jí)碩士生林晨興、2025級(jí)碩士生高鑫輝,通訊作者為廈門大學(xué)沈思淇副教授,并由張海鵬、李欣然(香港科技大學(xué))、王海濤、梅松竹副研究員、劉偉權(quán)副教授(集美大學(xué))、王程教授共同合作完成。研究團(tuán)隊(duì)長(zhǎng)期聚焦于強(qiáng)化學(xué)習(xí),多智能體系統(tǒng)以及大模型智能體。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
愛因斯坦臨終警告:宇宙誕生之前是什么?大腦根本無法想象

愛因斯坦臨終警告:宇宙誕生之前是什么?大腦根本無法想象

觀察宇宙
2026-04-10 21:32:43
3·15晚會(huì)曝光“萬能神藥”涉事企業(yè)被吊銷營(yíng)業(yè)執(zhí)照并罰200萬元

3·15晚會(huì)曝光“萬能神藥”涉事企業(yè)被吊銷營(yíng)業(yè)執(zhí)照并罰200萬元

界面新聞
2026-04-11 14:07:04
美談判團(tuán)隊(duì)攜數(shù)十輛裝甲車抵達(dá)后,巴基斯坦:伊朗團(tuán)隊(duì)我負(fù)責(zé)護(hù)航

美談判團(tuán)隊(duì)攜數(shù)十輛裝甲車抵達(dá)后,巴基斯坦:伊朗團(tuán)隊(duì)我負(fù)責(zé)護(hù)航

共工之錨
2026-04-11 01:03:28
刷牙可能影響壽命?再次提醒:55歲以后,刷牙要牢記“4不要”

刷牙可能影響壽命?再次提醒:55歲以后,刷牙要牢記“4不要”

白話電影院
2026-04-06 19:35:56
劉震云:一個(gè)媽媽最大的悲哀,就是輕易向別人透露子女這3件隱私,真的很傻!

劉震云:一個(gè)媽媽最大的悲哀,就是輕易向別人透露子女這3件隱私,真的很傻!

新浪財(cái)經(jīng)
2026-04-10 12:43:57
父親百萬積蓄全給小兒子,大年三十兩個(gè)哥哥沒到,小兒子傻眼了

父親百萬積蓄全給小兒子,大年三十兩個(gè)哥哥沒到,小兒子傻眼了

奶茶麥子
2026-04-11 14:52:14
澤連斯基:如果美國(guó)真的考慮退出北約,英國(guó)、烏克蘭必須加入歐盟

澤連斯基:如果美國(guó)真的考慮退出北約,英國(guó)、烏克蘭必須加入歐盟

二大爺觀世界
2026-04-11 08:56:36
大外交|王毅訪朝延續(xù)高層互動(dòng)勢(shì)頭,中朝多領(lǐng)域交流回暖

大外交|王毅訪朝延續(xù)高層互動(dòng)勢(shì)頭,中朝多領(lǐng)域交流回暖

澎湃新聞
2026-04-10 20:02:30
陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

一窺究竟
2026-04-10 04:24:44
萬斯發(fā)出最后通牒,以色列碰了一鼻子灰,內(nèi)塔尼亞胡或被關(guān)進(jìn)大牢

萬斯發(fā)出最后通牒,以色列碰了一鼻子灰,內(nèi)塔尼亞胡或被關(guān)進(jìn)大牢

麓谷隱士
2026-04-11 16:05:16
就業(yè)卷到極限,12人花30萬買高鐵工作,月薪才兩千,還是勞務(wù)派遣

就業(yè)卷到極限,12人花30萬買高鐵工作,月薪才兩千,還是勞務(wù)派遣

眼光很亮
2026-04-09 16:15:14
剛剛!美聯(lián)儲(chǔ),降息大消息!

剛剛!美聯(lián)儲(chǔ),降息大消息!

新浪財(cái)經(jīng)
2026-04-10 22:18:45
北京亦莊太魔幻了,無人機(jī)、機(jī)器人滿街跑,連鴕鳥都上路了

北京亦莊太魔幻了,無人機(jī)、機(jī)器人滿街跑,連鴕鳥都上路了

每日人物
2026-04-09 09:17:24
中科院一招,讓固態(tài)電池突然不香了!2026最大電池黑科技揭秘

中科院一招,讓固態(tài)電池突然不香了!2026最大電池黑科技揭秘

粵語音樂噴泉
2026-04-11 07:36:46
鄭合惠子簽約新主,演技派與頂級(jí)流量的資源合流

鄭合惠子簽約新主,演技派與頂級(jí)流量的資源合流

商業(yè)不許冷
2026-04-11 11:43:26
不尋常!男子一連9次乘坐同一郵輪,一天逛十幾次免稅店,上海民警一查,果然不簡(jiǎn)單

不尋常!男子一連9次乘坐同一郵輪,一天逛十幾次免稅店,上海民警一查,果然不簡(jiǎn)單

新民晚報(bào)
2026-04-10 13:56:07
門店腰斬2萬家!一線撤離、雜牌泛濫,國(guó)民快餐巨頭徹底扛不住了

門店腰斬2萬家!一線撤離、雜牌泛濫,國(guó)民快餐巨頭徹底扛不住了

毒sir財(cái)經(jīng)
2026-04-09 16:14:36
成年人最頂級(jí)的自律,是學(xué)會(huì)看人

成年人最頂級(jí)的自律,是學(xué)會(huì)看人

青蘋果sht
2026-04-11 05:13:13
傻眼!美國(guó)員工店內(nèi)熱舞TikTok引流突破780萬,老板:全員開除,一個(gè)不留

傻眼!美國(guó)員工店內(nèi)熱舞TikTok引流突破780萬,老板:全員開除,一個(gè)不留

北美省錢快報(bào)
2026-04-11 06:32:55
高光時(shí)刻!梟龍戰(zhàn)機(jī)進(jìn)入伊朗領(lǐng)空,巴空軍直接為伊方護(hù)航作戰(zhàn)

高光時(shí)刻!梟龍戰(zhàn)機(jī)進(jìn)入伊朗領(lǐng)空,巴空軍直接為伊方護(hù)航作戰(zhàn)

精彩瞬間回顧
2026-04-10 17:46:25
2026-04-11 18:28:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12457文章數(shù) 176449關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

伊朗消息人士:美國(guó)同意解凍伊朗海外資產(chǎn)

頭條要聞

伊朗消息人士:美國(guó)同意解凍伊朗海外資產(chǎn)

體育要聞

換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

娛樂要聞

浪姐7淘汰 該走的沒走,不該走的走了

財(cái)經(jīng)要聞

從日本翻身看:這次誰能扛住高油價(jià)?

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

家居
游戲
本地
公開課
軍事航空

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

《生化危機(jī)9》遭破解!D加密再失一局

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗議長(zhǎng)帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進(jìn)入關(guān)懷版