国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

山大、理想汽車和中科院聯(lián)合提出新范式:讓Transformer去其糟粕

0
分享至



離線強(qiáng)化學(xué)習(xí)(Offline RL)的一大難點(diǎn)是:訓(xùn)練數(shù)據(jù)固定、質(zhì)量參差不齊。近兩年,Decision Transformer(DT)等基于 Transformer 的方法因?yàn)榘褯Q策建模成條件序列生成而受到關(guān)注,但它們往往把「整條軌跡」作為學(xué)習(xí)單位:如果一條軌跡的最終回報(bào)不高,軌跡中間即便出現(xiàn)過有效動(dòng)作與局部成功,也容易被整體低回報(bào)「稀釋」。

針對(duì)這一痛點(diǎn),山東大學(xué)、中科院、理想汽車與清華大學(xué)的研究團(tuán)隊(duì)聯(lián)合提出了一種名為PRGS(Peak-Return Greedy Slicing)的新框架。

PRGS 的目標(biāo)是在不改變離線數(shù)據(jù)來源的前提下,從原始軌跡中自動(dòng)篩選出更有學(xué)習(xí)價(jià)值的子軌跡(sub-trajectories),用于訓(xùn)練 Transformer 型離線 RL 方法,并在推理階段進(jìn)一步避免「糟糕歷史」對(duì)當(dāng)前決策的干擾。

在 D4RL、BabyAI 等主流榜單上,PRGS 不僅超越各種基線方法,更讓 Transformer 類方法的平均性能提升了 15.8%!

本論文的第一作者徐志偉,山東大學(xué)通用智能實(shí)驗(yàn)室助理教授。于 2024 年在中國(guó)科學(xué)院自動(dòng)化研究所獲博士學(xué)位,研究?jī)?nèi)容主要為強(qiáng)化學(xué)習(xí)、多智能體系統(tǒng)與基于大語言模型的 AI Agent。曾獲得 2025 年度中國(guó)智能體與多智能體系統(tǒng)優(yōu)秀博士論文提名等榮譽(yù)。

目前,該論文已接收于國(guó)際計(jì)算機(jī)頂級(jí)會(huì)議 ICLR 2026。ICLR(International Conference on Learning Representations)是機(jī)器學(xué)習(xí)與表示學(xué)習(xí)領(lǐng)域的國(guó)際頂級(jí)會(huì)議之一,與 NeurIPS、ICML 并列為人工智能方向最具影響力的學(xué)術(shù)會(huì)議。本次 ICLR 2026 共有接近 19000 篇有效投稿,接收率約為 28%。



  • 論文標(biāo)題:Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL
  • 論文鏈接:
  • https://openreview.net/pdf?id=7vpehpWnnY

01 痛點(diǎn):按「整條軌跡」學(xué)習(xí),粒度不夠細(xì)

在離線 RL 中,數(shù)據(jù)是固定的,不能像在線 RL 那樣去不斷試錯(cuò)。現(xiàn)有的 Transformer-based 方法(如 DT),本質(zhì)上是在做條件序列建模。它們通常以「最終回報(bào)(Final Return)」為條件來生成動(dòng)作。

這帶來的問題是顯而易見的:

  • 粒度偏粗:模型只能看到一條軌跡的整體回報(bào)信號(hào),難以區(qū)分軌跡內(nèi)部不同時(shí)間段的質(zhì)量差異。

  • 縫合能力缺失:由于缺乏局部?jī)?yōu)化目標(biāo),模型很難從多個(gè)平庸策略中提取出最優(yōu)片段并組合成新的完美策略。

雖然也有研究試圖通過重采樣或加權(quán)來緩解,但大多治標(biāo)不治本,沒有深入到時(shí)間步(Timestep)級(jí)別去精細(xì)化操作。而PRGS 的出現(xiàn),正是為了打破這一僵局。

02 核心解法:從全局建模到精細(xì)化切片

PRGS(Peak-Return Greedy Slicing)可以理解為一個(gè)面向 Transformer 離線 RL 的數(shù)據(jù)處理與推理增強(qiáng)框架,包含三部分:回報(bào)估計(jì)、貪心切片、推理時(shí)自適應(yīng)截?cái)唷?/p>



它的核心邏輯非常像人類的學(xué)習(xí)過程:回顧過去的經(jīng)歷,哪怕結(jié)局是失敗的,也要找出其中做得最好的那一段,刻在腦子里。

PRGS 包含三個(gè)環(huán)環(huán)相扣的模塊:

第一步:MMD-based Return Estimator:用分布視角做更「樂觀」的回報(bào)估計(jì)

PRGS 首先需要回答:在軌跡內(nèi)部,哪些時(shí)間段更可能帶來高回報(bào)?為此作者引入基于最大均值差異(MMD)的回報(bào)估計(jì)器,用來刻畫狀態(tài)-動(dòng)作對(duì)的潛在回報(bào)分布。

不同于傳統(tǒng)的均值預(yù)測(cè),MMD 估計(jì)器能預(yù)測(cè)狀態(tài)-動(dòng)作對(duì)的潛在回報(bào)分布。通過對(duì)分布采樣并取 Top-n 均值,PRGS 獲得了一個(gè)樂觀的回報(bào)估計(jì)值。簡(jiǎn)單來說就是:它能挖掘出當(dāng)前狀態(tài)下可能達(dá)到的最好結(jié)果,而不是平均結(jié)果。

第二步:Greedy Subtrajectory Slicing:圍繞峰值回報(bào)做遞歸切片

在得到每個(gè)時(shí)間步的「樂觀回報(bào)」后,PRGS 對(duì)單條軌跡執(zhí)行貪心切片:PRGS 會(huì)掃描整條軌跡,計(jì)算每個(gè)時(shí)間步的「樂觀回報(bào)」。然后,它會(huì)找到那個(gè)回報(bào)最高的點(diǎn)——峰值點(diǎn)(Peak Point)。

  • 切。以這個(gè)峰值點(diǎn)為界,從起點(diǎn)到峰值點(diǎn)的這一段,被認(rèn)定為「高質(zhì)量子軌跡」,直接拿去訓(xùn)練 Transformer。

  • 再切。剩下的部分,再重新找峰值,繼續(xù)切,直到切完為止。

這種遞歸式的貪心策略,把長(zhǎng)軌跡拆成一組更短、質(zhì)量更聚焦的子軌跡,從而讓 Transformer 在訓(xùn)練中更頻繁地接觸到「相對(duì)高回報(bào)」的決策片段。

第三步:Adaptive History Truncation:推理階段的自適應(yīng)截?cái)?/strong>

PRGS 還考慮了一個(gè)實(shí)際問題:模型訓(xùn)練時(shí)看到的是「從軌跡中段截取出來的子軌跡」,推理時(shí)如果始終把所有歷史上下文都喂給模型,早期的低質(zhì)量動(dòng)作可能會(huì)干擾后續(xù)決策。

PRGS 引入了一種自適應(yīng)歷史截?cái)鄼C(jī)制(AHT):每走一步,模型都會(huì)評(píng)估當(dāng)前狀態(tài)的價(jià)值。如果發(fā)現(xiàn)現(xiàn)在的處境比歷史記錄顯示的更有前途,說明之前的歷史已經(jīng)不僅沒用,反而成了累贅。這時(shí)候,模型會(huì)果斷失憶,丟掉歷史上下文,輕裝上陣。

03 實(shí)驗(yàn):多場(chǎng)景達(dá)到 SOTA 表現(xiàn),復(fù)雜場(chǎng)景更強(qiáng)


研究團(tuán)隊(duì)在D4RL(連續(xù)控制)、BabyAI(自然語言指令跟隨)以及AuctionNet(大規(guī)模廣告競(jìng)價(jià))三個(gè)截然不同的基準(zhǔn)上進(jìn)行了測(cè)試。

D4RL 場(chǎng)景中表現(xiàn)驚艷

在經(jīng)典的 MuJoCo 和 AntMaze 任務(wù)中,PRGS 的表現(xiàn)堪稱驚艷。特別是在需要極強(qiáng)「縫合能力」的Maze2D-Large迷宮任務(wù)中,DT-PRGS 的得分高達(dá)127.5,而原始 DT 只有不到 30 分。



在迷宮任務(wù)中的可視化結(jié)果也顯示,通過 PRGS 提取出的子軌跡,精準(zhǔn)地覆蓋了通往目標(biāo)的「黃金路徑」,幾乎剔除了所有繞彎路的無效探索。



真實(shí)業(yè)務(wù)場(chǎng)景的潛力

除了學(xué)術(shù)榜單,PRGS 在AuctionNet(阿里媽媽開源的廣告競(jìng)價(jià)數(shù)據(jù)集)上也表現(xiàn)出色。相比于 BC(行為克?。?,加持了 PRGS 后的 BC 算法在多個(gè)周期內(nèi)實(shí)現(xiàn)了顯著的利潤(rùn)提升。



04 總結(jié)與展望


PRGS 的成功證明了一件事:在離線強(qiáng)化學(xué)習(xí)中,數(shù)據(jù)不僅要「多」,更要「精」。

通過MMD 估計(jì)器、貪心切片和自適應(yīng)截?cái)噙@套組合拳,PRGS 成功地讓 Transformer 具備了「取其精華,去其糟粕」的能力。這一成果也為自動(dòng)駕駛、機(jī)器人控制等工業(yè)級(jí)應(yīng)用提供了極具價(jià)值的技術(shù)參考。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
好消息!2026年城管進(jìn)駐小區(qū),亂停、油煙、違建、噪音都有人管

好消息!2026年城管進(jìn)駐小區(qū),亂停、油煙、違建、噪音都有人管

另子維愛讀史
2026-03-24 21:12:59
約基奇23+17+17準(zhǔn)絕殺!掘金三殺太陽 布克22+8丟三分絕殺

約基奇23+17+17準(zhǔn)絕殺!掘金三殺太陽 布克22+8丟三分絕殺

醉臥浮生
2026-03-25 13:43:07
40歲菲爾普斯現(xiàn)狀曝光!退役后暴瘦到無人識(shí),老婆長(zhǎng)得很漂亮

40歲菲爾普斯現(xiàn)狀曝光!退役后暴瘦到無人識(shí),老婆長(zhǎng)得很漂亮

小徐講八卦
2026-03-23 14:19:30
英國(guó)的難吃,是民族天賦,還是歷史選擇

英國(guó)的難吃,是民族天賦,還是歷史選擇

食味藝文志
2026-03-24 13:46:07
張雪峰去世了,但他留下了硬科技“遺產(chǎn)”

張雪峰去世了,但他留下了硬科技“遺產(chǎn)”

野馬財(cái)經(jīng)
2026-03-25 20:11:31
東航昨夜一北京飛上海航班,落地后艙內(nèi)現(xiàn)火情,官方通報(bào):系旅客手機(jī)掉落座椅縫隙受擠壓冒煙

東航昨夜一北京飛上海航班,落地后艙內(nèi)現(xiàn)火情,官方通報(bào):系旅客手機(jī)掉落座椅縫隙受擠壓冒煙

縱相新聞
2026-03-26 01:52:05
梁興初被隔離審查8年,自由后葉帥給出兩個(gè)選擇,梁:一個(gè)也不要

梁興初被隔離審查8年,自由后葉帥給出兩個(gè)選擇,梁:一個(gè)也不要

興趣知識(shí)
2026-03-25 12:32:27
伊朗“真實(shí)承諾4”81輪了!這次打擊70多目標(biāo)?要把以色列打懵了

伊朗“真實(shí)承諾4”81輪了!這次打擊70多目標(biāo)?要把以色列打懵了

阿芒娛樂說
2026-03-26 05:31:34
伊朗:倡議建立“無美以聯(lián)盟”!特朗普要談判,以色列慌了,繼續(xù)轟炸德黑蘭!以軍要強(qiáng)占黎巴嫩10%土地建“緩沖區(qū)”,真主黨:抵抗到底

伊朗:倡議建立“無美以聯(lián)盟”!特朗普要談判,以色列慌了,繼續(xù)轟炸德黑蘭!以軍要強(qiáng)占黎巴嫩10%土地建“緩沖區(qū)”,真主黨:抵抗到底

每日經(jīng)濟(jì)新聞
2026-03-25 17:30:14
德黑蘭街頭忽然空了:巴斯基帳篷被遺棄,民兵連夜跑了,為什么?

德黑蘭街頭忽然空了:巴斯基帳篷被遺棄,民兵連夜跑了,為什么?

老馬拉車莫少裝
2026-03-24 22:55:20
續(xù)約2年!大幅度降薪,馬奎爾是真愛曼聯(lián),梅努高薪續(xù)約

續(xù)約2年!大幅度降薪,馬奎爾是真愛曼聯(lián),梅努高薪續(xù)約

卡靈頓分析師
2026-03-25 15:44:29
48歲趙薇“女兒”因長(zhǎng)得太好看,被全網(wǎng)“禁止整容”,如今17歲變化大到不敢認(rèn)!

48歲趙薇“女兒”因長(zhǎng)得太好看,被全網(wǎng)“禁止整容”,如今17歲變化大到不敢認(rèn)!

背包旅行
2026-03-24 17:09:33
一份文檔,一個(gè)截止日期:英國(guó)政府給所有房東發(fā)了"最后通知",必須發(fā)給租客!

一份文檔,一個(gè)截止日期:英國(guó)政府給所有房東發(fā)了"最后通知",必須發(fā)給租客!

英國(guó)那些事兒
2026-03-24 23:18:10
戰(zhàn)事是如何開啟的?特朗普被曝和內(nèi)塔尼亞胡通話后批準(zhǔn)打擊伊朗

戰(zhàn)事是如何開啟的?特朗普被曝和內(nèi)塔尼亞胡通話后批準(zhǔn)打擊伊朗

澎湃新聞
2026-03-24 20:42:27
馬斯克放話:比MPV更酷的新車要來了,特斯拉卻只剩3款車在賣

馬斯克放話:比MPV更酷的新車要來了,特斯拉卻只剩3款車在賣

我是一個(gè)養(yǎng)蝦人
2026-03-25 23:32:20
張雪峰去世細(xì)節(jié)披露:在公司跑步后突發(fā)不適緊急送醫(yī)!警惕猝死前身體3個(gè)信號(hào)

張雪峰去世細(xì)節(jié)披露:在公司跑步后突發(fā)不適緊急送醫(yī)!警惕猝死前身體3個(gè)信號(hào)

上觀新聞
2026-03-25 10:26:15
官宣!33歲薩拉赫今夏離開利物浦:9年9冠4金靴 435場(chǎng)255球

官宣!33歲薩拉赫今夏離開利物浦:9年9冠4金靴 435場(chǎng)255球

念洲
2026-03-25 06:42:21
為什么二手車市場(chǎng)里,幾乎全是“九成新”的車?原因很現(xiàn)實(shí)

為什么二手車市場(chǎng)里,幾乎全是“九成新”的車?原因很現(xiàn)實(shí)

復(fù)轉(zhuǎn)這些年
2026-03-18 18:58:13
首爾的“危險(xiǎn)天平”:俄羅斯為何如此擔(dān)心韓國(guó)援烏

首爾的“危險(xiǎn)天平”:俄羅斯為何如此擔(dān)心韓國(guó)援烏

民間胡扯老哥
2026-03-23 19:00:36
尷尬 22歲夏思凝社媒曬性感視頻 網(wǎng)友留言:吳艷妮我好愛你,真的

尷尬 22歲夏思凝社媒曬性感視頻 網(wǎng)友留言:吳艷妮我好愛你,真的

風(fēng)過鄉(xiāng)
2026-03-25 10:56:58
2026-03-26 08:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收?qǐng)?,Sora宣布正式關(guān)停

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場(chǎng)畫面披露

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場(chǎng)畫面披露

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

管濤:中東局勢(shì)如何影響人民幣匯率走勢(shì)?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

家居
健康
旅游
藝術(shù)
軍事航空

家居要聞

輕奢堇天府 小資情調(diào)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

風(fēng)?吹?麥?浪?正出片!

藝術(shù)要聞

原來唐朝貴婦的生活,比我們還會(huì)享受!

軍事要聞

伊朗重申非交戰(zhàn)國(guó)家船只可安全通過霍爾木茲海峽

無障礙瀏覽 進(jìn)入關(guān)懷版