国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北航,清華,北大聯(lián)合發(fā)布: 異構(gòu)智能體協(xié)同強(qiáng)化學(xué)習(xí)!

0
分享至





  • 論文標(biāo)題:Heterogeneous Agent Collaborative Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2603.02604
  • Github Page: https://zzx-peter.github.io/hacrl/
  • Huggingface: https://huggingface.co/papers/2603.02604

主要貢獻(xiàn)

  • 異構(gòu)協(xié)同強(qiáng)化學(xué)習(xí)(HACRL)新范式:多個(gè)在參數(shù)狀態(tài)、模型規(guī)模乃至架構(gòu)家族上存在異構(gòu)性的智能體,在訓(xùn)練階段共享經(jīng)過驗(yàn)證的 rollouts實(shí)現(xiàn)協(xié)同策略優(yōu)化,而在推理階段各自獨(dú)立部署執(zhí)行。該范式既不同于需協(xié)同執(zhí)行的多智能體強(qiáng)化學(xué)習(xí),也區(qū)別于單向的 "教師 — 學(xué)生" 知識蒸餾 ——HACRL 首次實(shí)現(xiàn)了異構(gòu)智能體間的雙向互學(xué)與獨(dú)立部署的統(tǒng)一:訓(xùn)練時(shí)協(xié)同優(yōu)化,推理時(shí)各自獨(dú)立運(yùn)行
  • 異構(gòu)協(xié)同策略優(yōu)化(HACPO)算法,通過四項(xiàng)關(guān)鍵技術(shù)彌合智能體間的能力與策略分布差異
  • 實(shí)驗(yàn)結(jié)果:在多個(gè)數(shù)學(xué)推理基準(zhǔn)上,使所有參與智能體的性能均獲得一致提升,平均性能超越基線方法3.3%,同時(shí)僅需一半的采樣成本,為實(shí)現(xiàn)高效的多智能體協(xié)同學(xué)習(xí)指明了新方向。

問題背景:昂貴的 “單打獨(dú)斗”,寶貴的 “異構(gòu)數(shù)據(jù)”

  • 當(dāng)前大模型強(qiáng)化學(xué)習(xí)微調(diào)中,rollout 采樣與校驗(yàn)成本是整個(gè)微調(diào)流程的核心瓶頸,嚴(yán)重制約訓(xùn)練效率與規(guī)模化落地。同時(shí),現(xiàn)有的強(qiáng)化學(xué)習(xí)微調(diào)范式普遍采用孤立優(yōu)化范式,模型各自獨(dú)立采樣、驗(yàn)證與策略更新。這就導(dǎo)致模型生成的高質(zhì)量軌跡僅用于自訓(xùn)練迭代,寶貴探索經(jīng)驗(yàn)無法復(fù)用,樣本利用率極低,造成巨大算力浪費(fèi)。
  • 與此同時(shí),大模型生態(tài)呈現(xiàn)顯著異構(gòu)性,不同架構(gòu)、尺寸、狀態(tài)的模型面向同一任務(wù)生成的 rollouts,在任務(wù)目標(biāo)與格式上高度兼容,且攜帶互補(bǔ)知識。然而現(xiàn)有多智能體強(qiáng)化學(xué)習(xí)主要針對多智能體組成統(tǒng)一的系統(tǒng),無法支持異構(gòu)模型訓(xùn)練時(shí)協(xié)同優(yōu)化推理時(shí)各自獨(dú)立運(yùn)行的場景;知識蒸餾難主要針對同構(gòu)模型單向?qū)W習(xí),難以支持異構(gòu)模型的雙向?qū)W習(xí)。目前的范式中,異構(gòu)數(shù)據(jù)的價(jià)值沒有被有效發(fā)掘。

論文的核心問題是:一個(gè)智能體能否利用其他異構(gòu)智能體生成的 rollouts 來同時(shí)提升效果和效率?

異構(gòu)智能體共享 Rollout:HACRL 范式

為了解決訓(xùn)練過程中模型的 “單打獨(dú)斗”,該工作提出了一個(gè)新方法HACRL (Heterogeneous Agent Collaborative Reinforcement Learning),多個(gè)異構(gòu)智能體在訓(xùn)練時(shí)可以共享彼此的 Rollout (Response + Reward),推理時(shí)則各自獨(dú)立完成任務(wù)。HACRL 范式使得原本獨(dú)立的智能體可以互相學(xué)習(xí),同時(shí)提高了 Rollout 利用率。

HACRL 和現(xiàn)有的其它范式可不能混為一談:

  • HACRL 不同于多智能體強(qiáng)化學(xué)習(xí) (MARL): HACRL 強(qiáng)調(diào)多個(gè)獨(dú)立的智能體在訓(xùn)練時(shí)共享 Rollout 進(jìn)行協(xié)同優(yōu)化,但是在推理時(shí)彼此是獨(dú)立的;MARL 則是多個(gè)智能體在推理時(shí)相互合作??偨Y(jié)來說,HACRL 訓(xùn)練多個(gè)獨(dú)立的模型,而 MARL 則是在訓(xùn)練一個(gè)整體的系統(tǒng)
  • HACRL 也不同于在線 / 離線的蒸餾: HACRL 支持多個(gè)異構(gòu)的智能體相互學(xué)習(xí),而蒸餾則是更強(qiáng)的教師模型單向地向弱小的學(xué)生模型傳遞知識。總結(jié)來說,HACRL 是異構(gòu)模型的相互學(xué)習(xí),而蒸餾則是同構(gòu)模型的單向傳遞



異構(gòu)智能體強(qiáng)化學(xué)習(xí) (HACRL) 與多智能體強(qiáng)化學(xué)習(xí) (MARL)、知識蒸餾 (KD)

核心算法:HACPO

HACRL 可不是簡單的 Rollout 共享!因?yàn)楫悩?gòu)智能體之間存在著能力差異策略分布差異,如果異構(gòu)模型來自于不同的廠家,那么模型的分詞器也會不同,在共享數(shù)據(jù)時(shí)出現(xiàn)工程問題。

為了求解 HACRL 問題,該工作提出了一個(gè)新算法HACPO (Heterogeneous Agent Collaborative Policy Optimization)。它在基礎(chǔ)的強(qiáng)化學(xué)習(xí)優(yōu)化方法之上,引入了四項(xiàng)量身定制的修改,以彌合異構(gòu)智能體之間的能力與分布差異。同時(shí),該工作在理論證明了,利用自身和其它智能體 rollout 進(jìn)行的梯度更新方向,在期望上具有小于 90 度的夾角。這表明 HACPO 是有效的。



HACPO 的算法流程圖

1. 智能體能力感知的優(yōu)勢估計(jì) (Agent-Capability-Aware Advantage Estimation)

該工作提出了一種能力感知的估計(jì)器,它根據(jù)每個(gè)智能體的相對性能,為其分配不同的組間優(yōu)勢基線。直觀上,如果一個(gè)回應(yīng)由更強(qiáng)的智能體生成,其優(yōu)勢應(yīng)更高;若由更弱的智能體生成,則其優(yōu)勢應(yīng)更低。理論上,該估計(jì)器是無偏的。



2. 模型能力差異系數(shù) (Model Capabilities Discrepancy Coefficient)

為了鼓勵(lì)向更強(qiáng)的智能體學(xué)習(xí),同時(shí)對較弱的智能體保持保守,該工作使用能力比率來調(diào)節(jié)有效優(yōu)勢。能力比率



扮演兩個(gè)互補(bǔ)的角色:(i)基線校準(zhǔn)— 在估計(jì)能力感知基線時(shí)重新縮放獎勵(lì),以對齊異構(gòu)智能體間的獎勵(lì)統(tǒng)計(jì)量;(ii)梯度調(diào)制— 它作為一個(gè)類似學(xué)習(xí)率的因子,放大來自更強(qiáng)智能體的梯度,并衰減來自更弱智能體的梯度。調(diào)制后的優(yōu)勢為:



3. 指數(shù)重要性采樣 (Exponential Importance Sampling)

該工作采用序列級別的重要性比率并將其擴(kuò)展到異構(gòu)多智能體設(shè)置,同時(shí)引入了非梯度指數(shù)重加權(quán)。這種設(shè)計(jì)使智能體偏向于從那些輸出分布與其自身更一致的 rollout 中學(xué)習(xí)。對于具有不兼容分詞器的異構(gòu)智能體組合,將對應(yīng)反分詞器(detokenizer)得到文本,再使用目標(biāo)智能體的分詞器(tokenizer)重新進(jìn)行分詞。





4. 逐步裁剪 (Stepwise Clipping)

跨智能體重要性采樣比率在步驟之間和步驟內(nèi)部都會不規(guī)則地波動。該工作首先對跨智能體回應(yīng)應(yīng)用非對稱裁剪邊界,以確保跨智能體回應(yīng)只能被降權(quán),而永遠(yuǎn)不會被增權(quán)。然后,應(yīng)用逐步裁剪策略,以防止跨智能體經(jīng)驗(yàn)在批次內(nèi)的后期更新中占據(jù)主導(dǎo)地位,從而提高訓(xùn)練穩(wěn)定性。



實(shí)驗(yàn)現(xiàn)象:尺有所短,寸有所長

異構(gòu)模型間的取長補(bǔ)短

實(shí)驗(yàn)設(shè)置與對比基線

該工作在 MATH 數(shù)據(jù)集 上選取 7500 道高質(zhì)量數(shù)學(xué)問題,并在 七個(gè)具有挑戰(zhàn)性的基準(zhǔn)測試 上評估 HACPO 的性能。為嚴(yán)格驗(yàn)證協(xié)同訓(xùn)練范式的有效性,將 HACPO 與下列三類基線方法進(jìn)行了對比:

  • 標(biāo)準(zhǔn)單智能體基線:包括 GRPO、GSPO(Rollout 成本相同,參數(shù)更新成本只有 HACPO 的一半
  • 等資源基線(GSPO×2):用雙倍 rollout 和更新次數(shù),以排除因?yàn)閿?shù)據(jù)量增大帶來的提升(Rollout 成本是 HACPO 的一倍,參數(shù)更新成本相同
  • 樸素協(xié)同基線(Naive):簡單共享 rollouts 的多智能體設(shè)置,但不包含 HACPO 的創(chuàng)新模塊(Rollout 和參數(shù)更新成本都和 HACPO相同

該工作總結(jié)了三類異構(gòu),并分別進(jìn)行了驗(yàn)證實(shí)驗(yàn):



主實(shí)驗(yàn)結(jié)果

結(jié)果分析

該工作在狀態(tài)異構(gòu)、尺寸異構(gòu)、模型異構(gòu)三中 setting 下進(jìn)行了多種實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了 HACPO 的有效性。同時(shí),將 HACPO 的效果歸因?yàn)橐韵聝煞N機(jī)制:

  • 能力驅(qū)動的指導(dǎo):強(qiáng)模型提供更多高質(zhì)量正確解,幫助弱模型更快提高。
  • 互補(bǔ)知識的交換:弱模型作為 “不同探索器”,會產(chǎn)生強(qiáng)模型較少覆蓋的推理路徑與信息性錯(cuò)誤,甚至少量強(qiáng)模型未采到的正確解,從而使強(qiáng)模型也獲得可學(xué)習(xí)的補(bǔ)充信號。

狀態(tài)異構(gòu):

弱模型(Qwen3-4B)提高7.1%,強(qiáng)模型(Qwen3-4B-Instruct)提高1.4%。模型異構(gòu)性低,因此主要是強(qiáng)模型幫助弱模型,而弱模型難以對強(qiáng)模型有幫助。



尺寸異構(gòu):

大小模型都有提升,Qwen3-1.7B-Base 提升2.6%,Qwen3-4B-Base 提升2.3%。盡管小模型的準(zhǔn)確率低于大模型,其仍然可以為大模型提供一些難以覆蓋到的錯(cuò)誤路徑和少量正確路徑,提供互補(bǔ)知識



模型異構(gòu):

即使模型異構(gòu)程度很大,兩個(gè)模型也都有提升。Qwen3-4B-Base 提高,Llama3.2-3B-Instruct 提高3.9%。這表明 HACPO 算法的通用性和魯棒性。



效率、效果雙提升:

等資源基線(GSPO×2)進(jìn)行對比,HACPO 僅使用一半的 Rollout 成本,就實(shí)現(xiàn)了3.3% 的性能提升

消融實(shí)驗(yàn)

對于核心算法 HACPO 中的四個(gè)模塊進(jìn)行消融,實(shí)驗(yàn)證明了缺失任何一個(gè)模塊都會導(dǎo)致模型性能的下降,表明了四個(gè)模塊都是有效的。同時(shí),指數(shù)重要性采樣中的最佳指數(shù)在不同的模型組合上也會有不同。

討論和展望

本文針對當(dāng)前智能體強(qiáng)化學(xué)習(xí)面臨的孤立優(yōu)化采樣成本高、異構(gòu)大模型生態(tài)知識利用效率低的核心行業(yè)痛點(diǎn),提出了異構(gòu)智能體協(xié)同強(qiáng)化學(xué)習(xí)(HACRL)全新范式。該范式突破知識蒸餾單向師生傳遞的固有局限,實(shí)現(xiàn)了訓(xùn)練階段異構(gòu)智能體協(xié)同優(yōu)化、推理階段獨(dú)立執(zhí)行的核心設(shè)計(jì)。

面向未來,HACRL 范式的拓展方向主要包括以下幾個(gè)方面:一是將適用場景從數(shù)學(xué)推理任務(wù)延伸至代碼生成、多模態(tài)理解等更廣泛的大模型核心下游任務(wù),以驗(yàn)證其在通用場景下的普適性;二是探索更大規(guī)模的異構(gòu)智能體協(xié)同訓(xùn)練網(wǎng)絡(luò),深入研究智能體間相互學(xué)習(xí)的效果邊界與影響機(jī)制。此外,HACPO 的提出為跨異構(gòu)智能體的數(shù)據(jù)統(tǒng)一復(fù)用奠定了初步框架,未來在邁向通用人工智能(AGI)的進(jìn)程中,構(gòu)建跨模型、跨領(lǐng)域的統(tǒng)一知識學(xué)習(xí)平臺同樣是不可或缺的重要方向。

作者:第一作者為北京航空航天大學(xué)本科生張之夏與博士生黃子軒,通訊作者為北京航空航天大學(xué)班義琨教授。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
汪小菲馬筱梅基因太絕!家中“小炸毛”萌翻全網(wǎng)這顏值太招人疼!

汪小菲馬筱梅基因太絕!家中“小炸毛”萌翻全網(wǎng)這顏值太招人疼!

孤酒老巷QA
2026-03-24 05:34:17
特斯拉股價(jià)3天飆漲40%,馬斯克放話:這是AI公司不是車企

特斯拉股價(jià)3天飆漲40%,馬斯克放話:這是AI公司不是車企

野生運(yùn)營
2026-03-25 15:32:24
NBA董事會官宣批準(zhǔn):擴(kuò)軍僅限賭城西雅圖 每隊(duì)預(yù)計(jì)出70-100億美元

NBA董事會官宣批準(zhǔn):擴(kuò)軍僅限賭城西雅圖 每隊(duì)預(yù)計(jì)出70-100億美元

醉臥浮生
2026-03-25 23:03:44
賴清德天塌了!參會身份已定,4國與臺斷交,臺當(dāng)局10年努力白費(fèi)

賴清德天塌了!參會身份已定,4國與臺斷交,臺當(dāng)局10年努力白費(fèi)

娛樂小可愛蛙
2026-03-25 17:08:42
王毅判斷沒錯(cuò),短短三天中方見識了:比利時(shí)的虛偽、西班牙的真誠

王毅判斷沒錯(cuò),短短三天中方見識了:比利時(shí)的虛偽、西班牙的真誠

墨印齋
2026-03-26 01:52:13
微軟前CTO長文控訴:Windows被搞成一鍋粥!14年14次轉(zhuǎn)變、17種GUI共存

微軟前CTO長文控訴:Windows被搞成一鍋粥!14年14次轉(zhuǎn)變、17種GUI共存

快科技
2026-03-25 15:13:32
哈薩克斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混成了個(gè)霸主

哈薩克斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混成了個(gè)霸主

花顏蘊(yùn)韻
2026-03-26 03:37:13
韓國媒體報(bào)道張本兄妹:改國籍沒人討厭,但改祖姓就不討人喜歡了

韓國媒體報(bào)道張本兄妹:改國籍沒人討厭,但改祖姓就不討人喜歡了

體壇亦說
2026-03-25 09:05:54
薩拉赫官宣離隊(duì)!克洛普一語道破:他難管?他才是紅軍真核

薩拉赫官宣離隊(duì)!克洛普一語道破:他難管?他才是紅軍真核

體育閑話說
2026-03-25 22:04:34
張雪峰經(jīng)典名言 100 條(完整版)

張雪峰經(jīng)典名言 100 條(完整版)

新浪財(cái)經(jīng)
2026-03-25 06:17:25
伊朗退了,敘利亞退了,巴勒斯坦退了,黎巴嫩退了,塞爾維亞退了

伊朗退了,敘利亞退了,巴勒斯坦退了,黎巴嫩退了,塞爾維亞退了

南權(quán)先生
2026-01-29 15:57:27
信張維迎還是信張維為?這是一個(gè)時(shí)代之問

信張維迎還是信張維為?這是一個(gè)時(shí)代之問

壹家言
2026-03-24 22:54:33
印度偷師不成鬧笑話?10億購入我國8臺盾構(gòu)機(jī),拆解后裝不上了

印度偷師不成鬧笑話?10億購入我國8臺盾構(gòu)機(jī),拆解后裝不上了

有范又有料
2026-03-25 16:38:02
遼寧男籃為什么輸給吉林?烏戈毫不遮掩說出輸球原因,非常實(shí)在

遼寧男籃為什么輸給吉林?烏戈毫不遮掩說出輸球原因,非常實(shí)在

呂彍極限手工
2026-03-26 05:37:26
AI“搶飯碗”,硅谷大裁員!一線工程師戳破真相:AI效率被嚴(yán)重高估,人類被倒逼成審核員,工作量是過去10倍

AI“搶飯碗”,硅谷大裁員!一線工程師戳破真相:AI效率被嚴(yán)重高估,人類被倒逼成審核員,工作量是過去10倍

華爾街見聞官方
2026-03-25 23:20:49
暴雷!連續(xù)3年財(cái)務(wù)造假,又一上市藥企要涼了?數(shù)萬股民被割韭菜

暴雷!連續(xù)3年財(cái)務(wù)造假,又一上市藥企要涼了?數(shù)萬股民被割韭菜

財(cái)經(jīng)八卦
2026-03-25 20:36:09
蔣介石孫子召開發(fā)布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

蔣介石孫子召開發(fā)布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

老謝談史
2026-03-18 18:33:35
郭碧婷一家四口出游!向佐手臂全是肌肉好壯實(shí),3歲兒子趕超姐姐

郭碧婷一家四口出游!向佐手臂全是肌肉好壯實(shí),3歲兒子趕超姐姐

鄉(xiāng)野小珥
2026-03-26 01:49:54
宅基地確權(quán)最后沖刺:今年不把名字改成兒子的,以后可能就改不了

宅基地確權(quán)最后沖刺:今年不把名字改成兒子的,以后可能就改不了

混沌錄
2026-03-19 21:59:03
中國空軍立下規(guī)矩:從今以后,絕不允許有人對我大聲說話!

中國空軍立下規(guī)矩:從今以后,絕不允許有人對我大聲說話!

郭蛹包工頭
2026-03-25 17:06:08
2026-03-26 06:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收場,Sora宣布正式關(guān)停

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場畫面披露

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場畫面披露

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

家居
數(shù)碼
本地
教育
軍事航空

家居要聞

輕奢堇天府 小資情調(diào)

數(shù)碼要聞

英特爾發(fā)布基于第三代酷睿Ultra處理器vPro平臺

本地新聞

來永泰同安 赴一場春天的約會

教育要聞

雄安新區(qū):北京史家胡同小學(xué)分校,傳承“和諧教育”理念

軍事要聞

伊朗重申非交戰(zhàn)國家船只可安全通過霍爾木茲海峽

無障礙瀏覽 進(jìn)入關(guān)懷版