国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

激發(fā)多模態(tài)智能體決策潛力!清華&北大&騰訊聯(lián)合提出GTR訓(xùn)練框架

0
分享至



論文第一作者為魏彤,清華大學(xué)在讀博士生,研究方向為大模型智能體和強(qiáng)化學(xué)習(xí),導(dǎo)師為清華大學(xué)興軍亮、史元春;共同一作為騰訊楊一君;合作者為北京大學(xué)盧宗青;通訊作者為葉德珩。

基于可驗證獎勵的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Verifiable Reward, RLVR)能夠在大語言模型(LLMs)上有效提升思維鏈(Chain-of-Thought, CoT)決策的能力。然而對于多模態(tài)大模型(VLM)智能體的目標(biāo)導(dǎo)向的動作推理任務(wù),強(qiáng)化學(xué)習(xí)在復(fù)雜問題上并不能很好地提升決策能力,甚至?xí)?dǎo)致思維過程的退化。

來自清華、北大和騰訊的研究團(tuán)隊深入研究了這一“思維崩塌”(thought collapse)的現(xiàn)象,發(fā)現(xiàn)由于模型訓(xùn)練的反饋僅依賴于最終動作,RL 訓(xùn)練無法有效約束 CoT 思維過程,導(dǎo)致 VLM 智能體思維退化,喪失多樣性,并輸出不一致和不完整的思路。



為了對抗思維崩塌,研究團(tuán)隊提出思維引導(dǎo)的強(qiáng)化學(xué)習(xí)(Guided Thought Reinforcement, GTR)框架,通過自動化修正器提供過程引導(dǎo),在 RL 訓(xùn)練中實時優(yōu)化模型的思路,且無需依賴人類的精細(xì)標(biāo)注。在困難的卡牌游戲和具身智能任務(wù)中,基于 LLaVA-7B 的智能體用很小的規(guī)模實現(xiàn)了相比 SOTA 顯著的成功率提升。



  • 論文標(biāo)題:GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
  • 論文鏈接:https://arxiv.org/pdf/2503.08525

1.“思維崩塌” 現(xiàn)象影響 RLVR 訓(xùn)練效果

不像純文本的智能體訓(xùn)練,由于多模態(tài)信息的引入和決策流程復(fù)雜性的提高,在交互性視覺環(huán)境中用 RL 訓(xùn)練 VLM 智能體更加困難。而其中 “思維崩塌” 的現(xiàn)象則主要體現(xiàn)在以下幾點:

  • 智能體的 CoT 過程失去多樣性,對于不同的視覺和文本輸入給出相同的思路。
  • 模型輸出思路不正確、不一致、不完整,雖在輸出思路,但已喪失思考能力。
  • 思維能力的喪失極大限制了模型的決策能力,難以釋放模型潛力。

實驗中發(fā)現(xiàn),更大的模型、更長的訓(xùn)練時間也均展示出思維崩塌的情況。因此,問題的核心原因是強(qiáng)化學(xué)習(xí)的訓(xùn)練機(jī)制:

  • 環(huán)境提供的獎勵完全由模型最終的動作決定。
  • 比動作輸出更長且更基礎(chǔ)的思維過程缺少評估和監(jiān)督,只能依賴結(jié)果獎勵間接引導(dǎo)。
  • 在動作步驟多、狀態(tài)空間大、復(fù)雜程度高的任務(wù)中,這一問題更加顯著。

因此,這證明了 VLM 智能體的強(qiáng)化學(xué)習(xí)訓(xùn)練中,過程引導(dǎo)有著至關(guān)重要的作用。

2.GTR 框架如何避免模型 “不懂裝懂”?

此前的相關(guān)工作也對過程引導(dǎo)的方法做出了研究。然而,常見的過程獎勵模型(Process Reward Models, PRMs)需要精細(xì)標(biāo)注的多模態(tài)數(shù)據(jù)訓(xùn)練,昂貴且費(fèi)力;且固定數(shù)據(jù)集上的訓(xùn)練容易產(chǎn)生偏差,不適用于動態(tài)的交互式環(huán)境。

此外,用 VLM 進(jìn)行打分的 VLM-as-a-judge 方法效果也不佳。這是由于簡單的數(shù)值獎勵難以提供充足的信息量和有效的指導(dǎo),尤其考慮到大模型更強(qiáng)的 reward hacking 能力。在模型基礎(chǔ)能力較差的情況下,缺少正向激勵也容易導(dǎo)致悲觀探索的問題。



因此,我們需要找到一個足夠簡單、可規(guī)?;矣行畔⒘康乃季S引導(dǎo)方式。在 GTR 框架中,“修正器模型”(corrector model)承擔(dān)了這一至關(guān)重要的角色。



GTR 利用一個外部的 VLM 模型作為修正器,在強(qiáng)化學(xué)習(xí)的每一步,先對智能體思路中識別和推理的正確性進(jìn)行評估,如果發(fā)現(xiàn)不正確或者不一致的情況,則利用智能體的狀態(tài)輸入進(jìn)行修正。通過在常規(guī)的 PPO 過程中加入一個針對思路 token 的 SFT loss,將模型的思路與修正器給出的正確結(jié)果對齊,形成一個“思維 + 動作”、“SFT+PPO” 的聯(lián)合訓(xùn)練框架。

通過這種方式,強(qiáng)化學(xué)習(xí)與思維引導(dǎo)互相形成了補(bǔ)充。思維引導(dǎo)為訓(xùn)練提供了更多的監(jiān)督信號,強(qiáng)化學(xué)習(xí)也能通過可驗證獎勵的反饋,使得修正過程無需專家級別的外部模型提供高質(zhì)量的參考軌跡,讓智能體能夠突破外部模型的能力天花板。

針對在線訓(xùn)練樣本偏移的問題,GTR 引入了 DAgger 策略緩解錯誤累積。框架還通過為智能體增加格式獎勵和重復(fù)懲罰、為修正器模型提供工具調(diào)用彌補(bǔ)專業(yè)知識等方法,進(jìn)一步提升了數(shù)據(jù)質(zhì)量。

GTR 訓(xùn)練過程的偽代碼如下:



3.GTR 的實驗效果


論文在 gym_cards 和 ALFWorld 兩個常用的 VLM 智能體測試任務(wù)上進(jìn)行了實驗評估。智能體基于 LLaVA-7B,使用 GPT-4o 作為修正器訓(xùn)練。以僅包含強(qiáng)化學(xué)習(xí)的 RL4VLM 和僅包含思路引導(dǎo)的方法(SFT-only)作為基線進(jìn)行比較。

在 gym_cards 中最困難的 24 點紙牌游戲中,GTR 在 15k 的訓(xùn)練步數(shù)內(nèi)達(dá)到了最高 17.5% 的成功率,大幅超過了兩個基線方法(2.5%、11.0%),甚至突破了 GPT-4o,即其修正器模型的水平(13.5%)。



而在更簡單的、思維崩塌現(xiàn)象不顯著的另外三個游戲中,GTR 相比于 RL4VLM 也能取得突破,并達(dá)到10 倍其規(guī)模的預(yù)訓(xùn)練模型的能力水平。



對于家用機(jī)器人場景的具身智能任務(wù) ALFWorld,為了模擬真實環(huán)境,同時避免模型利用額外文本信息繞開多模態(tài)決策,實驗中去掉了環(huán)境提供的文本觀察,模型僅能依賴視覺信息進(jìn)行決策。GTR 比起 RL4VLM 能夠有效避免思維崩塌帶來的性能下降,提升模型決策能力。







消融實驗研究則證明了訓(xùn)練全過程思維引導(dǎo)的重要性、工具調(diào)用提升修正器專業(yè)知識的必要性和 DAgger 緩解在線訓(xùn)練分布偏移的有效性。同時指出,采用完整輸出的 SFT 會限制 RL 的反饋,并使訓(xùn)練容易受到修正器幻覺的影響。

4. 研究意義與展望

本項研究揭示了多模態(tài)大模型智能體強(qiáng)化學(xué)習(xí)訓(xùn)練中,思維崩塌現(xiàn)象對訓(xùn)練穩(wěn)定性和性能提升的限制。而通過修正器模型進(jìn)行思路修改,GTR 在無需數(shù)據(jù)標(biāo)注的條件下實現(xiàn)了實時自動化的思維過程監(jiān)督,使過程引導(dǎo)與強(qiáng)化學(xué)習(xí)有機(jī)結(jié)合,互為補(bǔ)充,展現(xiàn)出強(qiáng)大的性能優(yōu)勢。

這一創(chuàng)新性的分析和解決方案也能夠為復(fù)雜長時任務(wù)中大模型智能體的訓(xùn)練提供更多的啟發(fā)和可能性。

更多細(xì)節(jié)請見原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
終于動手了!日本援兵剛到,中方果斷封海,高市早苗自尋死路

終于動手了!日本援兵剛到,中方果斷封海,高市早苗自尋死路

阿芒娛樂說
2026-03-25 16:27:17
臺媒:歷經(jīng)偵查118天、審判363天,柯文哲案26日宣判

臺媒:歷經(jīng)偵查118天、審判363天,柯文哲案26日宣判

環(huán)球網(wǎng)資訊
2026-03-25 14:47:02
61歲大叔哭訴:再婚娶了40歲的女人,每天都過得筋疲力盡,太難了

61歲大叔哭訴:再婚娶了40歲的女人,每天都過得筋疲力盡,太難了

惟來
2026-03-25 09:40:07
可控核聚變一旦實現(xiàn),100克的核燃料,可以讓一輛汽車跑多遠(yuǎn)?

可控核聚變一旦實現(xiàn),100克的核燃料,可以讓一輛汽車跑多遠(yuǎn)?

向航說
2026-03-24 00:20:03
聯(lián)盟擴(kuò)軍正式批準(zhǔn)!杜蘭特和森林狼成大贏家?最快28年正式參賽

聯(lián)盟擴(kuò)軍正式批準(zhǔn)!杜蘭特和森林狼成大贏家?最快28年正式參賽

你的籃球頻道
2026-03-26 07:23:33
單場7次炸筐扣出湖人生涯夜!海斯21+10似鯊魚 東皇賽后贊不絕口

單場7次炸筐扣出湖人生涯夜!海斯21+10似鯊魚 東皇賽后贊不絕口

顏小白的籃球夢
2026-03-26 10:01:33
韓國KF-21首架量產(chǎn)機(jī)出廠,李在明發(fā)聲

韓國KF-21首架量產(chǎn)機(jī)出廠,李在明發(fā)聲

環(huán)球網(wǎng)資訊
2026-03-25 19:39:15
C羅兒子要加盟皇馬?15歲迷你羅試訓(xùn)皇馬,C羅的7號后繼有人

C羅兒子要加盟皇馬?15歲迷你羅試訓(xùn)皇馬,C羅的7號后繼有人

仰臥撐FTUer
2026-03-25 23:05:29
普京面臨斬首威脅后,俄軍展開行動,不到24小時,一個國家遭波及

普京面臨斬首威脅后,俄軍展開行動,不到24小時,一個國家遭波及

黑鷹觀軍事
2026-03-25 16:30:19
凱爾特人119-109終結(jié)雷霆12連勝,布朗31分準(zhǔn)三雙,SGA空砍33分

凱爾特人119-109終結(jié)雷霆12連勝,布朗31分準(zhǔn)三雙,SGA空砍33分

懂球帝
2026-03-26 10:26:04
到東北喝了頓酒,才知道為啥東北白酒走不出東三省,不是價格問題

到東北喝了頓酒,才知道為啥東北白酒走不出東三省,不是價格問題

濤哥美食匯
2026-03-10 09:16:10
被成龍“泡過”的三位女星,個個性感迷人,其中一位火遍全國

被成龍“泡過”的三位女星,個個性感迷人,其中一位火遍全國

阿鳧愛吐槽
2026-03-23 14:07:43
電商平臺速效救心丸搜索量同比增30倍,品牌方工作人員:的確有增長,價格不會因張雪峰事件上漲

電商平臺速效救心丸搜索量同比增30倍,品牌方工作人員:的確有增長,價格不會因張雪峰事件上漲

極目新聞
2026-03-25 10:57:19
日本少尉持刀闖館,失敗就自殺切腹,中方扣留3小時,審出真相?

日本少尉持刀闖館,失敗就自殺切腹,中方扣留3小時,審出真相?

古史青云啊
2026-03-26 09:38:25
全世界都被特朗普耍了?打擊伊朗只是幌子,真實目的終于浮出水面

全世界都被特朗普耍了?打擊伊朗只是幌子,真實目的終于浮出水面

夕陽渡史人
2026-01-30 09:47:08
上證指數(shù)翻紅,此前一度跌超0.29%

上證指數(shù)翻紅,此前一度跌超0.29%

每日經(jīng)濟(jì)新聞
2026-03-26 09:53:07
杭州球場突發(fā),40歲男子心臟驟停倒地!緊急提醒:有這些信號,千萬別硬扛!

杭州球場突發(fā),40歲男子心臟驟停倒地!緊急提醒:有這些信號,千萬別硬扛!

環(huán)球網(wǎng)資訊
2026-03-25 17:34:17
來俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,殺全族都行

來俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,殺全族都行

銘記歷史呀
2026-03-09 15:28:19
為什么要對成品油價格采取臨時調(diào)控措施?專家解讀→

為什么要對成品油價格采取臨時調(diào)控措施?專家解讀→

極目新聞
2026-03-23 16:35:50
難以置信!佛山年薪20萬老師找不到老婆,父母是公務(wù)員,現(xiàn)已43歲

難以置信!佛山年薪20萬老師找不到老婆,父母是公務(wù)員,現(xiàn)已43歲

火山詩話
2026-03-24 06:18:07
2026-03-26 10:59:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

硅谷因AI大裁員?一線工程師戳破真相

頭條要聞

上海36歲女子嫁23歲小伙 拿千萬元房產(chǎn)99%份額"閃離"

頭條要聞

上海36歲女子嫁23歲小伙 拿千萬元房產(chǎn)99%份額"閃離"

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

手機(jī)
游戲
教育
藝術(shù)
本地

手機(jī)要聞

米粉都更新了嗎?小米澎湃OS 3.1 重磅推送,實現(xiàn)安卓蘋果生態(tài)互通

這能IGN 8分?卡普空經(jīng)典大作重制后口碑竟然暴漲

教育要聞

ISAR選修課丨重磅古典占星預(yù)測課程:整合6大預(yù)測技法,從入門到實戰(zhàn)

藝術(shù)要聞

哪一座橋不是風(fēng)景?

本地新聞

來永泰同安 赴一場春天的約會

無障礙瀏覽 進(jìn)入關(guān)懷版