国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AEPO:智能體熵平衡策略優(yōu)化,讓探索更穩(wěn),推理更深!

0
分享至



在智能體強(qiáng)化學(xué)習(xí)的快速發(fā)展中,如何在探索與穩(wěn)定之間取得平衡已成為多輪智能體訓(xùn)練的關(guān)鍵。主流的熵驅(qū)動式智能體強(qiáng)化學(xué)習(xí)(Agentic RL)雖鼓勵模型在高不確定性處分支探索,但過度依賴熵信號常導(dǎo)致訓(xùn)練不穩(wěn)、甚至策略熵坍塌問題。

為此,中國人民大學(xué)高瓴人工智能學(xué)院與快手 Klear 語言大模型團(tuán)隊聯(lián)合提出 Agentic Entropy-Balanced Policy Optimization(AEPO),一種面向多輪智能體的熵平衡強(qiáng)化學(xué)習(xí)優(yōu)化算法。

AEPO 系統(tǒng)性揭示了「高熵 Rollout 采樣坍縮」和「高熵梯度裁剪」問題,并設(shè)計了「動態(tài)熵平衡 Rollout 采樣」與「熵平衡策略優(yōu)化」兩項核心機(jī)制。前者通過熵預(yù)監(jiān)控與連續(xù)分支懲罰實現(xiàn)全局與局部探索預(yù)算的自適應(yīng)分配,后者在策略更新階段引入梯度停止與熵感知優(yōu)勢估計以保留高熵 token 的探索梯度。



圖 1:AEPO 性能概覽:左圖對比深度搜索任務(wù)性能,右圖對比通用推理任務(wù)性能

實驗結(jié)果表明,AEPO 在 14 個跨領(lǐng)域基準(zhǔn)上顯著優(yōu)于七種主流強(qiáng)化學(xué)習(xí)算法。特別是深度搜索任務(wù)的 Pass@5 指標(biāo):GAIA (65.0%), Humanity’s Last Exam (26.0%), WebWalkerQA (70.0%)。在保持訓(xùn)練穩(wěn)定性的同時進(jìn)一步提升了采樣多樣性與推理效率,為通用智能體的可擴(kuò)展強(qiáng)化訓(xùn)練提供了新的優(yōu)化范式。



  • 論文標(biāo)題:Agentic Entropy-Balanced Policy Optimization
  • 論文鏈接:https://arxiv.org/abs/2510.14545
  • 代碼倉庫:https://github.com/dongguanting/ARPO
  • 開源數(shù)據(jù) & 模型:https://huggingface.co/collections/dongguanting/aepo-68ef6832c99697ee03d5e1c7

目前AEPO 在 X 上收獲極高關(guān)注度,Github 倉庫已獲星標(biāo) 700 余枚,同時榮登 Huggingface Paper 日榜第二名!





研究動機(jī):在高熵中尋求平衡

隨著 Agentic RL 的發(fā)展,如何在持續(xù)探索與訓(xùn)練穩(wěn)定之間取得平衡已成制約智能體性能的關(guān)鍵?,F(xiàn)有方法(如 ARPO)通常依賴熵信號作為依據(jù),并在高熵時刻觸發(fā)分支采樣探索潛在推理路徑。我們的研究發(fā)現(xiàn)熵驅(qū)動的探索雖能提升多樣性,卻也帶來了顯著的訓(xùn)練不穩(wěn)定:模型在連續(xù)高熵的工具調(diào)用階段容易出現(xiàn)單一鏈條過度分支,導(dǎo)致探索受限(如下圖左側(cè));同時在策略更新階段,高熵 token 的梯度常被無差別裁剪,使模型難以學(xué)習(xí)的探索行為(如下圖右側(cè))。這種熵失衡也使智能體在強(qiáng)化學(xué)習(xí)中容易陷入局部最優(yōu)解。



圖 2:智能體中的高熵 Rollout 坍縮與高熵梯度裁剪現(xiàn)象

因此,如何在高熵驅(qū)動下同時實現(xiàn)高效探索與穩(wěn)定優(yōu)化,成為智能體強(qiáng)化學(xué)習(xí)亟待突破的核心瓶頸。為此,我們提出 AEPO,一種面向多輪智能體的熵平衡強(qiáng)化學(xué)習(xí)優(yōu)化算法。我們的貢獻(xiàn)如下:

  • 我們系統(tǒng)性分析并揭示了現(xiàn)有熵驅(qū)動的 Agentic RL 在高熵階段易出現(xiàn)的「rollout 坍縮」和「梯度裁剪」問題,為后續(xù)算法設(shè)計提供了經(jīng)驗與理論依據(jù)。
  • 我們提出了 AEPO 算法,旨在通過「動態(tài)熵平衡 Rollout 采樣」與「熵感知策略優(yōu)化」兩個階段實現(xiàn)強(qiáng)化學(xué)習(xí)探索與穩(wěn)定的協(xié)同優(yōu)化。
  • 在 14 個挑戰(zhàn)性基準(zhǔn)上的實驗結(jié)果表明,AEPO 在采樣多樣性、訓(xùn)練穩(wěn)定性及工具調(diào)用效率方面均優(yōu)于 7 種主流強(qiáng)化學(xué)習(xí)算法,為智能體在復(fù)雜開放環(huán)境下的可擴(kuò)展訓(xùn)練提供了新的啟發(fā)。

工具調(diào)用的熵變現(xiàn)象:高熵集聚與梯度困境

通過分析智能體在多輪工具調(diào)用強(qiáng)化學(xué)習(xí)中的 token 熵變與訓(xùn)練過程,我們發(fā)現(xiàn)以下核心現(xiàn)象:

  1. 高熵工具調(diào)用步驟存在連續(xù)性:連續(xù)的高熵工具調(diào)用輪次占比達(dá) 56.5%,部分軌跡甚至出現(xiàn) 6 次連續(xù)高熵調(diào)用,這種連續(xù)性導(dǎo)致 rollout 階段的分支預(yù)算分配嚴(yán)重傾斜(如下圖左側(cè));
  2. 高熵 Token 梯度裁剪:傳統(tǒng) Agentic RL 算法在策略更新階段存在「無差別梯度裁剪」問題,未區(qū)分其是否包含有價值的探索行為,這些 token 大多是在推理中激發(fā)工具調(diào)用,反思等行為的提示(如下圖右側(cè))。



圖 3:智能體強(qiáng)化學(xué)習(xí)訓(xùn)練中兩種熵相關(guān)問題的量化統(tǒng)計

上述現(xiàn)象本質(zhì)是高熵信號的雙重矛盾:高熵是智能體探索工具使用潛力的必要條件,但無約束的高熵連續(xù)性會破壞 rollout 資源分配,激進(jìn)的梯度裁剪又會扼殺高熵的探索價值。

AEPO 算法:熵驅(qū)動的精準(zhǔn)探索與梯度保護(hù)



圖 4:AEPO 概述

動態(tài)熵平衡 Rollout 采樣:

1.熵預(yù)監(jiān)測:按信息增益分配采樣預(yù)算

傳統(tǒng) RL 算法(如 ARPO)憑經(jīng)驗分配全局采樣與分支采樣的坍縮資源,AEPO 則基于信息增益理論,根據(jù)問題與工具的信息增益動態(tài)調(diào)整采樣預(yù)算,具體來說,在總 rollout 采樣的預(yù)算為 k(包含 m 次全局采樣與 k-m 次高熵分支采樣)的條件下,將 Rollout 階段的信息增益簡單地建模為:



在語言模型的自回歸解碼過程中,輸入問題的信息增益通常由模型解碼的 token 熵值來衡量,因此我們可以得到如下正相關(guān)關(guān)系:



因此,我們的目標(biāo)是盡可能增大 Rollout 階段的信息增益,基于上述公式,AEPO 按信息增益分配采樣預(yù)算:





2.連續(xù)高熵分支懲罰:避免單一軌跡過度分支

即使預(yù)算分配合理,連續(xù)高熵調(diào)用仍可能導(dǎo)致單一軌跡過度分支。因此 AEPO 通過動態(tài)分支概率施加懲罰:



實驗驗證:如下圖所示,相比于 ARPO 通常僅分支 2-3 條軌跡,而AEPO 可覆蓋全部 8 條預(yù)算軌跡(右圖),采樣聚類數(shù)從 54 提升至 62(左 2 圖),大幅提升 Rollout 采樣的多樣性。



圖 5:采樣多樣性 ARPO vs AEPO(左)與 Rollout 的分支采樣分布(右)

熵平衡策略優(yōu)化:

1.熵裁剪平衡機(jī)制:保留高熵 Token 梯度

收到 GPPO 啟發(fā),AEPO 將「梯度停止」操作融入到策略更新的高熵裁剪項中,保證了前向傳播不受影響,同時保護(hù)了高熵 token 的梯度在反向傳播時不被裁剪。AEPO 在策略更新時使用如下公式:











這一設(shè)計讓高熵探索性 Token 的梯度得以保留,避免訓(xùn)練初期探索能力流失。

2.熵感知優(yōu)勢估計:優(yōu)先學(xué)習(xí)高價值探索行為





實驗結(jié)果:14 個基準(zhǔn)驗證 AEPO 的高效與穩(wěn)定

為了充分評估 AEPO 的泛化性和高效性,我們考慮以下三種測試集:

  • 計算型推理任務(wù):評估模型的計算推理能力,包括 AIME24、AIME25、MATH500、GSM8K、MATH。
  • 知識密集型推理任務(wù):評估模型結(jié)合外部知識推理的能力,包括 WebWalker、HotpotQA、2WIKI、MisiQue、Bamboogle。
  • 深度搜索任務(wù):評估模型的深度搜索能力,包括 HLE、GAIA、SimpleQA、XBench、Frames。

深度信息檢索任務(wù):小樣本實現(xiàn)大突破





如上表所示,僅用 1K RL 訓(xùn)練樣本,Qwen3-14B+AEPO 在關(guān)鍵任務(wù)上表現(xiàn)優(yōu)異:

  • AEPO 在 Pass@1 上較 ARPO 平均提升 3.9%;在 Pass@5 上較 ARPO 平均提升 5.8%;
  • 對比梯度裁剪優(yōu)化 RL 算法(DAPO、CISPO、GPPO):AEPO 在 GAIA 任務(wù)上領(lǐng)先 7%-10%,在 Qwen3-14B 基座上取得了 47.6% 的 Pass@1 與 65% 的 Pass@5,這證明熵平衡機(jī)制優(yōu)于單純的梯度裁剪優(yōu)化 RL 算法;
  • 對比傳統(tǒng) RL(GRPO、Reinforce++):AEPO 在 HLE 任務(wù)上領(lǐng)先 2.6%-3.4%,在 Qwen3-14B 基座上取得了 11.2% 的 Pass@1 與 26% 的 Pass@5,凸顯 Agentic RL 中熵平衡的必要性。



我們比較了 7 種強(qiáng)化學(xué)習(xí)算法在 10 個推理任務(wù)中的表現(xiàn),發(fā)現(xiàn):

  • 梯度裁剪優(yōu)化算法的穩(wěn)定性差:在 Qwen 2.5-7B-instruct 上,梯度裁剪優(yōu)化算法表現(xiàn)良好,但在 Llama3-8B 上未顯著優(yōu)于 GRPO,且易導(dǎo)致熵崩潰。
  • Agentic RL 算法具備泛化能力:ARPO,GIGPO,AEPO 等算法在不同模型上表現(xiàn)穩(wěn)定,證明在高熵環(huán)境下的分支探索有效。
  • AEPO 優(yōu)勢顯著:AEPO 在所有測試中表現(xiàn)突出,一致性高于 7 種主流 RL 算法。并且平均準(zhǔn)確率比 GRPO 高 5%,更適合訓(xùn)練多輪次 Web 智能體。

實驗:熵穩(wěn)定與準(zhǔn)確率分析

在 Agentic RL 訓(xùn)練中,熵動態(tài)穩(wěn)定性與訓(xùn)練準(zhǔn)確率收斂性是衡量算法有效性的核心指標(biāo):熵過高易導(dǎo)致探索失控,熵過低則會引發(fā)探索不足;而準(zhǔn)確率的持續(xù)提升則直接反映模型對有效工具使用行為的學(xué)習(xí)能力。

我們對比 AEPO 與主流 RL 算法(含 ARPO、GRPO、DAPO 等)在 10 個推理任務(wù)中的訓(xùn)練動態(tài),清晰揭示了 AEPO 在「熵穩(wěn)定」與「準(zhǔn)確率提升」雙維度的優(yōu)勢。實驗發(fā)現(xiàn)訓(xùn)練的熵?fù)p失驟增與下降都不會對性能帶來增益;相比之下,AEPO 的熵?fù)p失全程維持高且穩(wěn)定,對應(yīng)穩(wěn)定的性能增益。其表現(xiàn)遠(yuǎn)超其他 RL 算法,且解決了 ARPO 在訓(xùn)練后期熵波動的問題。



圖 5:訓(xùn)練指標(biāo)可視化,包括各訓(xùn)練步驟的熵?fù)p失(左)和準(zhǔn)確率(右)

總結(jié)與未來展望

未來可從三個方向進(jìn)一步拓展:

  • 多模態(tài) Agent:當(dāng)前 AEPO 與 ARPO 均聚焦文本任務(wù),未來可擴(kuò)展至圖像、視頻等多模態(tài)輸入,探索多模態(tài)工具的熵平衡優(yōu)化,解決多模態(tài)反饋帶來的熵波動問題。
  • 工具生態(tài)擴(kuò)展:引入更復(fù)雜工具(如 MCP 服務(wù)、外部訂機(jī)票酒店服務(wù)調(diào)用、代碼調(diào)試器),基于 AEPO 的熵感知機(jī)制優(yōu)化多工具協(xié)作策略,提升復(fù)雜任務(wù)表現(xiàn),超越現(xiàn)有工具協(xié)作能力。
  • 多智能體強(qiáng)化學(xué)習(xí):探索在更多智能體的協(xié)作學(xué)習(xí),互相任務(wù)交互與博弈中找到平衡,實現(xiàn)收斂。

作者介紹

董冠霆目前就讀于中國人民大學(xué)高瓴人工智能學(xué)院,博士二年級,導(dǎo)師為竇志成教授和文繼榮教授。他的研究方向主要包括智能體強(qiáng)化學(xué)習(xí)、深度搜索智能體,大模型對齊等。在國際頂級會議如 ICLR、ACL、AAAI 等發(fā)表了多篇論文,并在快手快意大模型組、阿里通義千問組等大模型團(tuán)隊進(jìn)行實習(xí)。其代表性工作包括 ARPO、AUTOIF、Tool-Star、RFT、Search-o1、WebThinker、Qwen2 和 Qwen2.5 等。

  • 個人主頁:dongguanting.github.io

本文的通信作者為中國人民大學(xué)的竇志成教授與快手科技的周國睿。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國要做好戰(zhàn)爭準(zhǔn)備,中國的下場戰(zhàn)爭不是印度菲律賓越南而是日本

中國要做好戰(zhàn)爭準(zhǔn)備,中國的下場戰(zhàn)爭不是印度菲律賓越南而是日本

百態(tài)人間
2026-01-09 17:17:17
哈梅內(nèi)伊死了,美伊戰(zhàn)爭烈度比想象的要大很多

哈梅內(nèi)伊死了,美伊戰(zhàn)爭烈度比想象的要大很多

黑噪音
2026-03-01 09:49:45
史無前例的封殺令:特朗普拉黑 3800 億 AI 巨頭,Anthropic 遭全網(wǎng)“斷供”

史無前例的封殺令:特朗普拉黑 3800 億 AI 巨頭,Anthropic 遭全網(wǎng)“斷供”

鈦媒體APP
2026-02-28 11:09:22
美國發(fā)出警告:中國不還100年前的舊債,美國絕不承認(rèn)欠中國的錢

美國發(fā)出警告:中國不還100年前的舊債,美國絕不承認(rèn)欠中國的錢

霽寒飄雪
2026-01-26 16:18:59
當(dāng)不成總統(tǒng)了?27座美軍基地遇襲,美本土爆發(fā)混亂,特朗普被逼宮

當(dāng)不成總統(tǒng)了?27座美軍基地遇襲,美本土爆發(fā)混亂,特朗普被逼宮

荷蘭豆愛健康
2026-03-02 13:11:10
票房128.6億,密鑰又一次延期,超過《哪吒2》只是時間問題

票房128.6億,密鑰又一次延期,超過《哪吒2》只是時間問題

白公子探劇
2026-03-02 15:26:41
王楚欽擊敗林昀儒奪得冠軍賽后居然對王皓吐槽說了三個字讓人心疼

王楚欽擊敗林昀儒奪得冠軍賽后居然對王皓吐槽說了三個字讓人心疼

不似少年游
2026-03-02 17:28:21
俄專家:美國如今面對的中國,是一個沒有任何缺陷的超級大國!

俄專家:美國如今面對的中國,是一個沒有任何缺陷的超級大國!

花花娛界
2025-11-07 20:54:57
河南洛陽一女子過年離家,智能馬桶17天耗水超200噸,當(dāng)事人:馬桶晝夜不停自動工作

河南洛陽一女子過年離家,智能馬桶17天耗水超200噸,當(dāng)事人:馬桶晝夜不停自動工作

黃河新聞網(wǎng)呂梁
2026-02-28 14:27:42
蔣介石至死想不通:為何25萬大軍搜不到毛澤東,主席藏在眼皮底下

蔣介石至死想不通:為何25萬大軍搜不到毛澤東,主席藏在眼皮底下

小莜讀史
2026-03-01 17:16:27
伊朗教育部:美以對伊朗的襲擊已致175名師生死亡

伊朗教育部:美以對伊朗的襲擊已致175名師生死亡

環(huán)球網(wǎng)資訊
2026-03-02 17:45:23
所有AI全軍覆沒!學(xué)者出2500道題,GPT-5得分25.3%,GPT-4o 2.7%

所有AI全軍覆沒!學(xué)者出2500道題,GPT-5得分25.3%,GPT-4o 2.7%

DeepTech深科技
2026-03-01 17:25:27
《美人魚2》永不上映真相就一個,周星馳你太慢了慢到被時代拋棄

《美人魚2》永不上映真相就一個,周星馳你太慢了慢到被時代拋棄

楊仔述
2026-03-01 19:20:27
受美伊以沖突影響 中國男籃8月賽程撲朔迷離

受美伊以沖突影響 中國男籃8月賽程撲朔迷離

體壇周報
2026-03-02 13:57:38
美軍上尉回憶:志愿軍沖入陣地后,拿刺刀捅死看到的每一個美國兵

美軍上尉回憶:志愿軍沖入陣地后,拿刺刀捅死看到的每一個美國兵

阿器談史
2026-02-26 17:42:09
醫(yī)生勸告:動過心臟支架的人,這3事別再干了!后果無法承受

醫(yī)生勸告:動過心臟支架的人,這3事別再干了!后果無法承受

阿兵科普
2026-03-02 09:53:51
伊朗稱重創(chuàng)美軍艦!安理會應(yīng)中俄要求緊急開會!聯(lián)合國秘書長發(fā)表聲明

伊朗稱重創(chuàng)美軍艦!安理會應(yīng)中俄要求緊急開會!聯(lián)合國秘書長發(fā)表聲明

每日經(jīng)濟(jì)新聞
2026-02-28 23:06:38
肝癌后才懂放手!孫志浩全部遺產(chǎn)歸梧桐妹,這結(jié)局誰也沒料到

肝癌后才懂放手!孫志浩全部遺產(chǎn)歸梧桐妹,這結(jié)局誰也沒料到

小椰的奶奶
2026-03-01 10:32:16
離岸人民幣兌美元跌破6.88

離岸人民幣兌美元跌破6.88

每日經(jīng)濟(jì)新聞
2026-03-02 08:44:35
“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實

“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實

妍妍教育日記
2026-02-28 17:41:50
2026-03-02 18:28:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12393文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

36歲副鎮(zhèn)長開會暈倒除夕當(dāng)天不幸離世 家中有3個孩子

頭條要聞

36歲副鎮(zhèn)長開會暈倒除夕當(dāng)天不幸離世 家中有3個孩子

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

教育
親子
健康
時尚
游戲

教育要聞

2月28日雅思大作文示范寫作 | 違規(guī)駕駛成因與最優(yōu)對策分析

親子要聞

給中國姥姥拿鞋,一歲半的乖寶寶

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

從每天只睡4小時到8小時:一個失眠者的自救指南

停擺800天仍堅挺,《坦克世界》為何讓6000萬軍迷念念不忘

無障礙瀏覽 進(jìn)入關(guān)懷版