国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

訓(xùn)練獎勵太稀疏?港中文聯(lián)合美團(tuán)給Agent加上「過程分」

0
分享至



在很多大模型和 Agent 的訓(xùn)練里,最常見的一種做法就是只看結(jié)果:最后答案對了就給獎勵,錯了就當(dāng) 0 分。

在單輪問答里,這樣「只看結(jié)果」還勉強(qiáng)能用;可一旦換成 Agent 這種要多輪對話、搜索、刷網(wǎng)頁、寫代碼、讀文件的長鏈任務(wù),就變成用一個 bit 去概括一整條復(fù)雜軌跡。

結(jié)果就是:差一點就做成功的過程,和從第一步就跑偏的過程,在獎勵眼里沒區(qū)別;訓(xùn)練看不出哪種失敗更有價值,手寫規(guī)則或人工細(xì)粒度打分又很難覆蓋開放環(huán)境、多模態(tài)這些復(fù)雜情況。

港中文和美團(tuán)在這篇工作里,盯上的就是這個核心矛盾:

Agent 需要長程、細(xì)粒度的反饋,但我們手里大多只有終局對錯這樣的粗粒度獎勵。



  • 論文標(biāo)題:Exploring Reasoning Reward Model for Agents
  • 論文鏈接:https://arxiv.org/pdf/2601.22154
  • 項目地址:https://github.com/kxfan2002/Reagent

為了解決這個矛盾,作者先造了一個「懂推理、看得懂工具調(diào)用」的評審器,給 Agent 的整條軌跡打「過程分」和「評語」,再把這份反饋喂回訓(xùn)練。

這也是 Reagent 框架的核心出發(fā)點:讓 Agent 不再只看結(jié)果,而是也要為自己的思考和工具調(diào)用過程負(fù)責(zé)。

給 Agent 的思路打個分

這篇工作最重要的一步,就是不再只看 Agent 最后有沒有把題做對,而是開始認(rèn)真給整個思考過程打分。

研究團(tuán)隊先搭了一套專門面向智能體的「思考評分類」數(shù)據(jù):里面收集了各種真實的 Agent 軌跡,有推理順暢但執(zhí)行失誤的,有一路亂猜卻剛好蒙對的,也有工具用得亂七八糟的。每一條軌跡,都被標(biāo)注成一份「閱卷意見」,既指出思路哪里站得住腳、哪里明顯跑偏,也給出一個 0~1 之間的整體分?jǐn)?shù)。

基于這套數(shù)據(jù),他們訓(xùn)練了一個專門的「思考評分模型」——Agent-RRM。它不會只看最后一行答案,而是把整個過程從頭看到尾,然后輸出三樣?xùn)|西:一段內(nèi)部分析、一小段給 Agent 看的批評意見,再加上一個綜合分?jǐn)?shù)。

舉個簡單的例子:

  • 兩條軌跡最后都答對了,但一條邏輯跳躍嚴(yán)重、工具亂用,只是誤打誤撞到達(dá)正確答案,那 Agent-RRM 可能只給個 0.3;
  • 另一條從一開始就分析清楚、什么時候該搜、什么時候該點進(jìn)網(wǎng)頁、怎么利用信息都說得明明白白,這種思路就可能拿到 0.9。

就像老師改卷,不是只看「A/B/C/D」選了啥,還會看你中間的演算過程,給「過程分」。這一招的目標(biāo)很明確:

教會 Agent「怎么想」「怎么用工具」,而不是教它「怎么猜對答案」。

統(tǒng)一文本批評和獎勵信號:Reagent 框架

有了會打「思維分」的 Agent-RRM,還要想清楚怎么把這些反饋喂回給 Agent。這就是 Reagent 框架要解決的事情:把「文字點評」和「分?jǐn)?shù)獎勵」統(tǒng)一起來,用在智能體訓(xùn)練里。



作者設(shè)計了三種用法,可以理解成三檔「加持程度」:

① 只加點評,不改模型(Reagent-C)

最輕的一種:不動 Agent 參數(shù),只在推理時多一步「聽老師講評」。

大致流程就是:Agent 先做一遍題,Agent-RRM 看完給一小段 critique,指出關(guān)鍵問題,然后讓 Agent 在這段點評的基礎(chǔ)上重做一遍。這相當(dāng)于給任何現(xiàn)成的大模型,外掛一個「老師幫你看一眼再交卷」的過程。

② 給獎勵加一條「過程分」(Reagent-R)

再往上走一步,就是把 Agent-RRM 打出來的分?jǐn)?shù),當(dāng)成額外獎勵加進(jìn)來。

以前的訓(xùn)練只看「做對 / 做錯」那一分,現(xiàn)在變成「結(jié)果對錯 + 過程好壞」兩條線一起算:哪怕最后沒完全做對,只要思路清晰、工具用得合理,也不會被當(dāng)作垃圾樣本一票否決。這對長鏈、多工具的任務(wù)特別重要,可以緩解那種「一不小心就全是 0 分」的獎勵稀疏問題。

③ 把「第一次想」和「批評后再想」一起訓(xùn)(Reagent-U)

最強(qiáng)的一檔,是這篇文章重點強(qiáng)調(diào)的 Reagent-U。它一口氣把兩種反饋都用上:

  • 一方面,讓 Agent 學(xué)會第一次就少犯低級錯誤;
  • 另一方面,也教它「聽完批評以后,怎樣更聰明地改答案」。

訓(xùn)練時,同一個問題會有「首答」和「聽完點評后的再答」兩條軌跡,它們都拿到「結(jié)果獎勵 + 過程分?jǐn)?shù)」,一起放進(jìn)同一個訓(xùn)練循環(huán)里優(yōu)化。這樣做的好處是:模型不會只在某一種模式上刷分,而是整體上把「想清楚」「用好工具」「能根據(jù)反饋修正自己」這幾件事,一起學(xué)進(jìn)去。

實際部署時,Reagent-U 又不用再依賴外部的 Agent-RRM 提點評,直接就能像普通 Agent 一樣用 —— 那些「老師改卷時說過的話」,已經(jīng)被揉進(jìn)模型參數(shù)里了。

這套設(shè)計帶來了什么提升?

在實驗里,作者主要看了三件事:文字點評本身有沒有用、過程分?jǐn)?shù)能不能幫 RL 學(xué)得更好、統(tǒng)一之后是不是有效提升。





先看最輕量的那種:只加一段文本點評、不改模型參數(shù)。結(jié)果表明,在不少數(shù)學(xué)和搜索任務(wù)上,「聽完一段 Agent-RRM 的批評再答一次」,確實能穩(wěn)定把正確率拉上去。

再把過程分?jǐn)?shù)加進(jìn)訓(xùn)練里之后,Agent 不是只會去迎合最后那一個對錯信號,而是更愿意走那些「雖然這次沒完全做成,但整體思路是對的」的方向。

最后,當(dāng)文本批評和獎勵分?jǐn)?shù)在 Reagent-U 里統(tǒng)一起來時,提升就更直觀了:

在 GAIA 這個通用 Agent 基準(zhǔn)的文本子集上,基于 8B 模型的 Reagent-U,可以把平均成績拉到43.7%,基本追上甚至部分超過了一些更大參數(shù)量的開源 Agent。在 WebWalkerQA、HLE、xbench 等其他復(fù)雜任務(wù)上,也普遍比「只看終局獎勵」的版本更穩(wěn),更不容易被「瞎蒙對」或者「瞎忙活」帶偏。

作者還測試了模型在 GAIA 全集上的表現(xiàn),面對多模態(tài)的通用 agent 任務(wù),Reagent-U 也依然能打。



港中文聯(lián)合美團(tuán)這套 Reagent 框架,把「老師給過程打分」這件事,真正搬進(jìn)了 Agent 訓(xùn)練里。結(jié)果證明,只要能看懂、能評價思考過程,8B 級別的 Agent 也有機(jī)會在很多復(fù)雜任務(wù)上打出和大模型一樣好看的成績單。

更多細(xì)節(jié)請參考論文原文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
最高院:因配偶債務(wù)本人名下存款或其他資產(chǎn)被凍結(jié)的,如何救濟(jì)?

最高院:因配偶債務(wù)本人名下存款或其他資產(chǎn)被凍結(jié)的,如何救濟(jì)?

周軍律師聊案子
2026-03-02 10:10:05
交了物業(yè)費(fèi)還收車位管理費(fèi)?2026年這4種情況,你可以直接拒交

交了物業(yè)費(fèi)還收車位管理費(fèi)?2026年這4種情況,你可以直接拒交

阿離家居
2026-03-01 16:53:47
贏球僅1天,中國男籃壞消息傳來:將失去1個主場,沖4連勝難了

贏球僅1天,中國男籃壞消息傳來:將失去1個主場,沖4連勝難了

墨印齋
2026-03-02 19:24:09
官宣!17歲新星前鋒,獲中國足球金童獎,U17亞預(yù)賽狂轟5場9球

官宣!17歲新星前鋒,獲中國足球金童獎,U17亞預(yù)賽狂轟5場9球

小金體壇大視野
2026-03-02 17:08:27
曾是央視知名主持,如今桂林街頭買菜!她的選擇為何讓人深思?

曾是央視知名主持,如今桂林街頭買菜!她的選擇為何讓人深思?

全球風(fēng)情大揭秘
2026-01-11 23:10:48
俄鐵公司將于3月開通前往中國的客運(yùn)列車

俄鐵公司將于3月開通前往中國的客運(yùn)列車

俄羅斯衛(wèi)星通訊社
2026-03-01 16:07:36
你們都是什么時候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
男人壽命短,根源不在煙酒,而在你每晚的睡覺里

男人壽命短,根源不在煙酒,而在你每晚的睡覺里

青蘋果sht
2026-02-26 07:24:18
2026年養(yǎng)老金或再漲,低于3000元漲10%,高于6000元停漲可行嗎?

2026年養(yǎng)老金或再漲,低于3000元漲10%,高于6000元停漲可行嗎?

另子維愛讀史
2026-03-02 19:31:35
居心叵測!國際籃聯(lián)道歉后又搞事情,主動提及慘案,男籃強(qiáng)勢打臉

居心叵測!國際籃聯(lián)道歉后又搞事情,主動提及慘案,男籃強(qiáng)勢打臉

去山野間追風(fēng)
2026-03-03 01:36:49
終于不用打碼了!汪小菲高調(diào)曬三胎兒子,馬筱梅讓倆孩子徹底歸心

終于不用打碼了!汪小菲高調(diào)曬三胎兒子,馬筱梅讓倆孩子徹底歸心

未曾青梅
2026-03-01 20:05:13
“一家子碳水臉!”3個男生寒假伙食遭2.6w圍觀:你家人真好養(yǎng)活

“一家子碳水臉!”3個男生寒假伙食遭2.6w圍觀:你家人真好養(yǎng)活

墨印齋
2026-03-01 22:08:59
開拓者用雙向合同簽下前雷霆后場新星,他在發(fā)展聯(lián)盟表現(xiàn)出色?

開拓者用雙向合同簽下前雷霆后場新星,他在發(fā)展聯(lián)盟表現(xiàn)出色?

稻谷與小麥
2026-03-03 00:51:37
一場34分慘敗,讓開拓者看清楊瀚森,中國球迷開始理解斯普利特

一場34分慘敗,讓開拓者看清楊瀚森,中國球迷開始理解斯普利特

天光破云來
2026-03-02 20:48:11
掃地出門!曝曼聯(lián)決定出售兩大主力!1.45億強(qiáng)援強(qiáng)勢“空降”

掃地出門!曝曼聯(lián)決定出售兩大主力!1.45億強(qiáng)援強(qiáng)勢“空降”

頭狼追球
2026-03-02 09:34:35
美國軍力全球第一,敢打任何國家?俄潑冷水:這4國你敢打誰?

美國軍力全球第一,敢打任何國家?俄潑冷水:這4國你敢打誰?

近史談
2026-01-19 10:09:51
中美日首次世界500強(qiáng)排名斷崖差距:美151家,日149家,中國呢?

中美日首次世界500強(qiáng)排名斷崖差距:美151家,日149家,中國呢?

阿柒的訊
2025-12-04 19:39:35
笑不活了,看來傍大款這碗飯不是誰都能吃的!網(wǎng)友:我可下不了嘴

笑不活了,看來傍大款這碗飯不是誰都能吃的!網(wǎng)友:我可下不了嘴

另子維愛讀史
2026-03-01 23:17:53
48歲男子陰莖癌晚期,私生活干凈,妻子痛心:1件事,他改不了

48歲男子陰莖癌晚期,私生活干凈,妻子痛心:1件事,他改不了

全球軍事記
2026-03-02 10:15:12
又有2名間諜被抓!潛藏17年,泄露大量國家機(jī)密,身份曝光不簡單

又有2名間諜被抓!潛藏17年,泄露大量國家機(jī)密,身份曝光不簡單

boss外傳
2026-03-01 12:00:03
2026-03-03 03:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

時尚
教育
親子
旅游
家居

今年春天一定要擁有的4件衣服,太好看了!

教育要聞

特別猛,但在留學(xué)生心中存在感很低的英國大學(xué)!

親子要聞

45歲這年,我這個二胎媽媽決定做一件“瘋狂”的事

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

家居要聞

萬物互聯(lián) 享科技福祉

無障礙瀏覽 進(jìn)入關(guān)懷版