国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

山大、理想汽車和中科院聯(lián)合提出新范式:讓Transformer去其糟粕

0
分享至



離線強(qiáng)化學(xué)習(xí)(Offline RL)的一大難點是:訓(xùn)練數(shù)據(jù)固定、質(zhì)量參差不齊。近兩年,Decision Transformer(DT)等基于 Transformer 的方法因為把決策建模成條件序列生成而受到關(guān)注,但它們往往把「整條軌跡」作為學(xué)習(xí)單位:如果一條軌跡的最終回報不高,軌跡中間即便出現(xiàn)過有效動作與局部成功,也容易被整體低回報「稀釋」。

針對這一痛點,山東大學(xué)、中科院、理想汽車與清華大學(xué)的研究團(tuán)隊聯(lián)合提出了一種名為PRGS(Peak-Return Greedy Slicing)的新框架。

PRGS 的目標(biāo)是在不改變離線數(shù)據(jù)來源的前提下,從原始軌跡中自動篩選出更有學(xué)習(xí)價值的子軌跡(sub-trajectories),用于訓(xùn)練 Transformer 型離線 RL 方法,并在推理階段進(jìn)一步避免「糟糕歷史」對當(dāng)前決策的干擾。

在 D4RL、BabyAI 等主流榜單上,PRGS 不僅超越各種基線方法,更讓 Transformer 類方法的平均性能提升了 15.8%!

本論文的第一作者徐志偉,山東大學(xué)通用智能實驗室助理教授。于 2024 年在中國科學(xué)院自動化研究所獲博士學(xué)位,研究內(nèi)容主要為強(qiáng)化學(xué)習(xí)、多智能體系統(tǒng)與基于大語言模型的 AI Agent。曾獲得 2025 年度中國智能體與多智能體系統(tǒng)優(yōu)秀博士論文提名等榮譽。

目前,該論文已接收于國際計算機(jī)頂級會議 ICLR 2026。ICLR(International Conference on Learning Representations)是機(jī)器學(xué)習(xí)與表示學(xué)習(xí)領(lǐng)域的國際頂級會議之一,與 NeurIPS、ICML 并列為人工智能方向最具影響力的學(xué)術(shù)會議。本次 ICLR 2026 共有接近 19000 篇有效投稿,接收率約為 28%。



  • 論文標(biāo)題:Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL
  • 論文鏈接:
  • https://openreview.net/pdf?id=7vpehpWnnY

01 痛點:按「整條軌跡」學(xué)習(xí),粒度不夠細(xì)

在離線 RL 中,數(shù)據(jù)是固定的,不能像在線 RL 那樣去不斷試錯?,F(xiàn)有的 Transformer-based 方法(如 DT),本質(zhì)上是在做條件序列建模。它們通常以「最終回報(Final Return)」為條件來生成動作。

這帶來的問題是顯而易見的:

  • 粒度偏粗:模型只能看到一條軌跡的整體回報信號,難以區(qū)分軌跡內(nèi)部不同時間段的質(zhì)量差異。

  • 縫合能力缺失:由于缺乏局部優(yōu)化目標(biāo),模型很難從多個平庸策略中提取出最優(yōu)片段并組合成新的完美策略。

雖然也有研究試圖通過重采樣或加權(quán)來緩解,但大多治標(biāo)不治本,沒有深入到時間步(Timestep)級別去精細(xì)化操作。而PRGS 的出現(xiàn),正是為了打破這一僵局。

02 核心解法:從全局建模到精細(xì)化切片

PRGS(Peak-Return Greedy Slicing)可以理解為一個面向 Transformer 離線 RL 的數(shù)據(jù)處理與推理增強(qiáng)框架,包含三部分:回報估計、貪心切片、推理時自適應(yīng)截斷。



它的核心邏輯非常像人類的學(xué)習(xí)過程:回顧過去的經(jīng)歷,哪怕結(jié)局是失敗的,也要找出其中做得最好的那一段,刻在腦子里。

PRGS 包含三個環(huán)環(huán)相扣的模塊:

第一步:MMD-based Return Estimator:用分布視角做更「樂觀」的回報估計

PRGS 首先需要回答:在軌跡內(nèi)部,哪些時間段更可能帶來高回報?為此作者引入基于最大均值差異(MMD)的回報估計器,用來刻畫狀態(tài)-動作對的潛在回報分布。

不同于傳統(tǒng)的均值預(yù)測,MMD 估計器能預(yù)測狀態(tài)-動作對的潛在回報分布。通過對分布采樣并取 Top-n 均值,PRGS 獲得了一個樂觀的回報估計值。簡單來說就是:它能挖掘出當(dāng)前狀態(tài)下可能達(dá)到的最好結(jié)果,而不是平均結(jié)果。

第二步:Greedy Subtrajectory Slicing:圍繞峰值回報做遞歸切片

在得到每個時間步的「樂觀回報」后,PRGS 對單條軌跡執(zhí)行貪心切片:PRGS 會掃描整條軌跡,計算每個時間步的「樂觀回報」。然后,它會找到那個回報最高的點——峰值點(Peak Point)。

  • 切。以這個峰值點為界,從起點到峰值點的這一段,被認(rèn)定為「高質(zhì)量子軌跡」,直接拿去訓(xùn)練 Transformer。

  • 再切。剩下的部分,再重新找峰值,繼續(xù)切,直到切完為止。

這種遞歸式的貪心策略,把長軌跡拆成一組更短、質(zhì)量更聚焦的子軌跡,從而讓 Transformer 在訓(xùn)練中更頻繁地接觸到「相對高回報」的決策片段。

第三步:Adaptive History Truncation:推理階段的自適應(yīng)截斷

PRGS 還考慮了一個實際問題:模型訓(xùn)練時看到的是「從軌跡中段截取出來的子軌跡」,推理時如果始終把所有歷史上下文都喂給模型,早期的低質(zhì)量動作可能會干擾后續(xù)決策。

PRGS 引入了一種自適應(yīng)歷史截斷機(jī)制(AHT):每走一步,模型都會評估當(dāng)前狀態(tài)的價值。如果發(fā)現(xiàn)現(xiàn)在的處境比歷史記錄顯示的更有前途,說明之前的歷史已經(jīng)不僅沒用,反而成了累贅。這時候,模型會果斷失憶,丟掉歷史上下文,輕裝上陣。

03 實驗:多場景達(dá)到 SOTA 表現(xiàn),復(fù)雜場景更強(qiáng)


研究團(tuán)隊在D4RL(連續(xù)控制)、BabyAI(自然語言指令跟隨)以及AuctionNet(大規(guī)模廣告競價)三個截然不同的基準(zhǔn)上進(jìn)行了測試。

D4RL 場景中表現(xiàn)驚艷

在經(jīng)典的 MuJoCo 和 AntMaze 任務(wù)中,PRGS 的表現(xiàn)堪稱驚艷。特別是在需要極強(qiáng)「縫合能力」的Maze2D-Large迷宮任務(wù)中,DT-PRGS 的得分高達(dá)127.5,而原始 DT 只有不到 30 分。



在迷宮任務(wù)中的可視化結(jié)果也顯示,通過 PRGS 提取出的子軌跡,精準(zhǔn)地覆蓋了通往目標(biāo)的「黃金路徑」,幾乎剔除了所有繞彎路的無效探索。



真實業(yè)務(wù)場景的潛力

除了學(xué)術(shù)榜單,PRGS 在AuctionNet(阿里媽媽開源的廣告競價數(shù)據(jù)集)上也表現(xiàn)出色。相比于 BC(行為克?。映至?PRGS 后的 BC 算法在多個周期內(nèi)實現(xiàn)了顯著的利潤提升。



04 總結(jié)與展望


PRGS 的成功證明了一件事:在離線強(qiáng)化學(xué)習(xí)中,數(shù)據(jù)不僅要「多」,更要「精」。

通過MMD 估計器、貪心切片和自適應(yīng)截斷這套組合拳,PRGS 成功地讓 Transformer 具備了「取其精華,去其糟粕」的能力。這一成果也為自動駕駛、機(jī)器人控制等工業(yè)級應(yīng)用提供了極具價值的技術(shù)參考。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
浙江一男子去客戶家,被“陽臺養(yǎng)雞”震驚!兩套房打通,鄰居也不投訴,當(dāng)事人:雞住上了商品房

浙江一男子去客戶家,被“陽臺養(yǎng)雞”震驚!兩套房打通,鄰居也不投訴,當(dāng)事人:雞住上了商品房

極目新聞
2026-03-28 14:50:45
以色列專打伊朗“鎮(zhèn)壓機(jī)器”,為巴列維王儲勢力鋪路

以色列專打伊朗“鎮(zhèn)壓機(jī)器”,為巴列維王儲勢力鋪路

老馬拉車莫少裝
2026-03-01 21:19:35
細(xì)思極恐!張雪峰8個月前悄悄和母校告別,幼兒園到中學(xué)都走一遍

細(xì)思極恐!張雪峰8個月前悄悄和母校告別,幼兒園到中學(xué)都走一遍

火山詩話
2026-03-28 06:05:06
伊朗發(fā)出復(fù)仇警告:以色列的大學(xué)和美國在西亞地區(qū)的大學(xué)都將成為打擊目標(biāo)

伊朗發(fā)出復(fù)仇警告:以色列的大學(xué)和美國在西亞地區(qū)的大學(xué)都將成為打擊目標(biāo)

魯中晨報
2026-03-29 07:29:01
52年陳明仁由司令降為軍長,3年后擬授少將,毛主席:必須是上將

52年陳明仁由司令降為軍長,3年后擬授少將,毛主席:必須是上將

大運河時空
2026-03-28 08:50:03
羅德里戈前女友官宣戀情,新男友是礦工球員考阿-埃利亞斯

羅德里戈前女友官宣戀情,新男友是礦工球員考阿-埃利亞斯

懂球帝
2026-03-29 09:18:13
張濤任山東省政府副秘書長、辦公廳主任

張濤任山東省政府副秘書長、辦公廳主任

汲古知新
2026-03-28 20:25:13
49年主席聽聞賀子珍獲十二級行政待遇后,決定用自己的稿費來支付

49年主席聽聞賀子珍獲十二級行政待遇后,決定用自己的稿費來支付

小莜讀史
2026-03-28 23:52:15
谷歌把70種語言塞進(jìn)耳機(jī),iPhone用戶等了3年

谷歌把70種語言塞進(jìn)耳機(jī),iPhone用戶等了3年

算力游俠
2026-03-27 00:24:42
中方對等反制開始,特朗普罕見反省自身,承認(rèn)對華政策過火了

中方對等反制開始,特朗普罕見反省自身,承認(rèn)對華政策過火了

墜入二次元的海洋
2026-03-29 11:17:06
1980年鄧小平說:毛主席的錯誤,要毫不含糊地批評,但要實事求是

1980年鄧小平說:毛主席的錯誤,要毫不含糊地批評,但要實事求是

帝哥說史
2026-02-25 06:30:03
馮鞏在人民日報發(fā)文,撕開喜劇圈臟亂內(nèi)幕,點破岳云鵬尷尬處境

馮鞏在人民日報發(fā)文,撕開喜劇圈臟亂內(nèi)幕,點破岳云鵬尷尬處境

林雁飛
2026-03-27 14:42:10
場均17+9+3!楊瀚森帶領(lǐng)混音隊首進(jìn)季后賽,斯帥用心良苦被誤解

場均17+9+3!楊瀚森帶領(lǐng)混音隊首進(jìn)季后賽,斯帥用心良苦被誤解

你的籃球頻道
2026-03-29 12:12:59
騰勢D9二代預(yù)售38.98萬起,閃充5分鐘跑400公里

騰勢D9二代預(yù)售38.98萬起,閃充5分鐘跑400公里

賽博蘭博
2026-03-29 12:44:34
3-2!張本美和女團(tuán)奪冠,賽后瘋狂慶祝!早田希娜爆冷遭雙殺!美和獲MVP

3-2!張本美和女團(tuán)奪冠,賽后瘋狂慶祝!早田希娜爆冷遭雙殺!美和獲MVP

好乒乓
2026-03-29 13:18:54
越南向世界隱瞞40余年,對越反擊戰(zhàn)中,越南竟然還藏了驚人力量

越南向世界隱瞞40余年,對越反擊戰(zhàn)中,越南竟然還藏了驚人力量

混沌錄
2026-03-22 18:33:03
超700億賽道,乙肝“功能性治愈”的決賽啟動

超700億賽道,乙肝“功能性治愈”的決賽啟動

健識局
2026-03-28 21:12:08
好消息!老年公交卡2026年調(diào)整,告別一刀切,老人出行更順心

好消息!老年公交卡2026年調(diào)整,告別一刀切,老人出行更順心

吳蒂旅行ing
2026-03-28 13:10:35
比肩科比!東契奇轟41+8連創(chuàng)7大紀(jì)錄 累計16T將被禁賽+損失27萬

比肩科比!東契奇轟41+8連創(chuàng)7大紀(jì)錄 累計16T將被禁賽+損失27萬

越嶺尋蹤
2026-03-28 13:25:02
為嫁給美國人,56歲南京大媽奔赴美國,2年后嫁給70歲美國老頭

為嫁給美國人,56歲南京大媽奔赴美國,2年后嫁給70歲美國老頭

情感藝術(shù)家
2026-03-08 22:07:38
2026-03-29 13:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142599關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

網(wǎng)約車司機(jī)被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

頭條要聞

網(wǎng)約車司機(jī)被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂要聞

張凌赫事件持續(xù)升級!官方點名怒批

財經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

時尚
游戲
藝術(shù)
親子
公開課

大牌專場|| 愛了8年沒換過,這次100+拿下

《428~被封鎖的澀谷~》主創(chuàng)新作眾籌5400萬日元 被平臺扣下一半

藝術(shù)要聞

2025江南如畫——中國油畫作品展 | 入選作品選刊(二)

親子要聞

睡著的兩個姐妹,不安分的小樣,媽媽在旁邊心被萌化!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版