国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北航,清華,北大聯(lián)合發(fā)布: 異構(gòu)智能體協(xié)同強(qiáng)化學(xué)習(xí)!

0
分享至





  • 論文標(biāo)題:Heterogeneous Agent Collaborative Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2603.02604
  • Github Page: https://zzx-peter.github.io/hacrl/
  • Huggingface: https://huggingface.co/papers/2603.02604

主要貢獻(xiàn)

  • 異構(gòu)協(xié)同強(qiáng)化學(xué)習(xí)(HACRL)新范式:多個(gè)在參數(shù)狀態(tài)、模型規(guī)模乃至架構(gòu)家族上存在異構(gòu)性的智能體,在訓(xùn)練階段共享經(jīng)過(guò)驗(yàn)證的 rollouts實(shí)現(xiàn)協(xié)同策略優(yōu)化,而在推理階段各自獨(dú)立部署執(zhí)行。該范式既不同于需協(xié)同執(zhí)行的多智能體強(qiáng)化學(xué)習(xí),也區(qū)別于單向的 "教師 — 學(xué)生" 知識(shí)蒸餾 ——HACRL 首次實(shí)現(xiàn)了異構(gòu)智能體間的雙向互學(xué)與獨(dú)立部署的統(tǒng)一:訓(xùn)練時(shí)協(xié)同優(yōu)化,推理時(shí)各自獨(dú)立運(yùn)行
  • 異構(gòu)協(xié)同策略優(yōu)化(HACPO)算法,通過(guò)四項(xiàng)關(guān)鍵技術(shù)彌合智能體間的能力與策略分布差異
  • 實(shí)驗(yàn)結(jié)果:在多個(gè)數(shù)學(xué)推理基準(zhǔn)上,使所有參與智能體的性能均獲得一致提升,平均性能超越基線方法3.3%,同時(shí)僅需一半的采樣成本,為實(shí)現(xiàn)高效的多智能體協(xié)同學(xué)習(xí)指明了新方向。

問(wèn)題背景:昂貴的 “單打獨(dú)斗”,寶貴的 “異構(gòu)數(shù)據(jù)”

  • 當(dāng)前大模型強(qiáng)化學(xué)習(xí)微調(diào)中,rollout 采樣與校驗(yàn)成本是整個(gè)微調(diào)流程的核心瓶頸,嚴(yán)重制約訓(xùn)練效率與規(guī)?;涞?。同時(shí),現(xiàn)有的強(qiáng)化學(xué)習(xí)微調(diào)范式普遍采用孤立優(yōu)化范式,模型各自獨(dú)立采樣、驗(yàn)證與策略更新。這就導(dǎo)致模型生成的高質(zhì)量軌跡僅用于自訓(xùn)練迭代,寶貴探索經(jīng)驗(yàn)無(wú)法復(fù)用,樣本利用率極低,造成巨大算力浪費(fèi)。
  • 與此同時(shí),大模型生態(tài)呈現(xiàn)顯著異構(gòu)性,不同架構(gòu)、尺寸、狀態(tài)的模型面向同一任務(wù)生成的 rollouts,在任務(wù)目標(biāo)與格式上高度兼容,且攜帶互補(bǔ)知識(shí)。然而現(xiàn)有多智能體強(qiáng)化學(xué)習(xí)主要針對(duì)多智能體組成統(tǒng)一的系統(tǒng),無(wú)法支持異構(gòu)模型訓(xùn)練時(shí)協(xié)同優(yōu)化推理時(shí)各自獨(dú)立運(yùn)行的場(chǎng)景;知識(shí)蒸餾難主要針對(duì)同構(gòu)模型單向?qū)W習(xí),難以支持異構(gòu)模型的雙向?qū)W習(xí)。目前的范式中,異構(gòu)數(shù)據(jù)的價(jià)值沒(méi)有被有效發(fā)掘。

論文的核心問(wèn)題是:一個(gè)智能體能否利用其他異構(gòu)智能體生成的 rollouts 來(lái)同時(shí)提升效果和效率?

異構(gòu)智能體共享 Rollout:HACRL 范式

為了解決訓(xùn)練過(guò)程中模型的 “單打獨(dú)斗”,該工作提出了一個(gè)新方法HACRL (Heterogeneous Agent Collaborative Reinforcement Learning),多個(gè)異構(gòu)智能體在訓(xùn)練時(shí)可以共享彼此的 Rollout (Response + Reward),推理時(shí)則各自獨(dú)立完成任務(wù)。HACRL 范式使得原本獨(dú)立的智能體可以互相學(xué)習(xí),同時(shí)提高了 Rollout 利用率。

HACRL 和現(xiàn)有的其它范式可不能混為一談:

  • HACRL 不同于多智能體強(qiáng)化學(xué)習(xí) (MARL): HACRL 強(qiáng)調(diào)多個(gè)獨(dú)立的智能體在訓(xùn)練時(shí)共享 Rollout 進(jìn)行協(xié)同優(yōu)化,但是在推理時(shí)彼此是獨(dú)立的;MARL 則是多個(gè)智能體在推理時(shí)相互合作??偨Y(jié)來(lái)說(shuō),HACRL 訓(xùn)練多個(gè)獨(dú)立的模型,而 MARL 則是在訓(xùn)練一個(gè)整體的系統(tǒng)
  • HACRL 也不同于在線 / 離線的蒸餾: HACRL 支持多個(gè)異構(gòu)的智能體相互學(xué)習(xí),而蒸餾則是更強(qiáng)的教師模型單向地向弱小的學(xué)生模型傳遞知識(shí)。總結(jié)來(lái)說(shuō),HACRL 是異構(gòu)模型的相互學(xué)習(xí),而蒸餾則是同構(gòu)模型的單向傳遞



異構(gòu)智能體強(qiáng)化學(xué)習(xí) (HACRL) 與多智能體強(qiáng)化學(xué)習(xí) (MARL)、知識(shí)蒸餾 (KD)

核心算法:HACPO

HACRL 可不是簡(jiǎn)單的 Rollout 共享!因?yàn)楫悩?gòu)智能體之間存在著能力差異策略分布差異,如果異構(gòu)模型來(lái)自于不同的廠家,那么模型的分詞器也會(huì)不同,在共享數(shù)據(jù)時(shí)出現(xiàn)工程問(wèn)題。

為了求解 HACRL 問(wèn)題,該工作提出了一個(gè)新算法HACPO (Heterogeneous Agent Collaborative Policy Optimization)。它在基礎(chǔ)的強(qiáng)化學(xué)習(xí)優(yōu)化方法之上,引入了四項(xiàng)量身定制的修改,以彌合異構(gòu)智能體之間的能力與分布差異。同時(shí),該工作在理論證明了,利用自身和其它智能體 rollout 進(jìn)行的梯度更新方向,在期望上具有小于 90 度的夾角。這表明 HACPO 是有效的。



HACPO 的算法流程圖

1. 智能體能力感知的優(yōu)勢(shì)估計(jì) (Agent-Capability-Aware Advantage Estimation)

該工作提出了一種能力感知的估計(jì)器,它根據(jù)每個(gè)智能體的相對(duì)性能,為其分配不同的組間優(yōu)勢(shì)基線。直觀上,如果一個(gè)回應(yīng)由更強(qiáng)的智能體生成,其優(yōu)勢(shì)應(yīng)更高;若由更弱的智能體生成,則其優(yōu)勢(shì)應(yīng)更低。理論上,該估計(jì)器是無(wú)偏的。



2. 模型能力差異系數(shù) (Model Capabilities Discrepancy Coefficient)

為了鼓勵(lì)向更強(qiáng)的智能體學(xué)習(xí),同時(shí)對(duì)較弱的智能體保持保守,該工作使用能力比率來(lái)調(diào)節(jié)有效優(yōu)勢(shì)。能力比率



扮演兩個(gè)互補(bǔ)的角色:(i)基線校準(zhǔn)— 在估計(jì)能力感知基線時(shí)重新縮放獎(jiǎng)勵(lì),以對(duì)齊異構(gòu)智能體間的獎(jiǎng)勵(lì)統(tǒng)計(jì)量;(ii)梯度調(diào)制— 它作為一個(gè)類似學(xué)習(xí)率的因子,放大來(lái)自更強(qiáng)智能體的梯度,并衰減來(lái)自更弱智能體的梯度。調(diào)制后的優(yōu)勢(shì)為:



3. 指數(shù)重要性采樣 (Exponential Importance Sampling)

該工作采用序列級(jí)別的重要性比率并將其擴(kuò)展到異構(gòu)多智能體設(shè)置,同時(shí)引入了非梯度指數(shù)重加權(quán)。這種設(shè)計(jì)使智能體偏向于從那些輸出分布與其自身更一致的 rollout 中學(xué)習(xí)。對(duì)于具有不兼容分詞器的異構(gòu)智能體組合,將對(duì)應(yīng)反分詞器(detokenizer)得到文本,再使用目標(biāo)智能體的分詞器(tokenizer)重新進(jìn)行分詞。





4. 逐步裁剪 (Stepwise Clipping)

跨智能體重要性采樣比率在步驟之間和步驟內(nèi)部都會(huì)不規(guī)則地波動(dòng)。該工作首先對(duì)跨智能體回應(yīng)應(yīng)用非對(duì)稱裁剪邊界,以確??缰悄荏w回應(yīng)只能被降權(quán),而永遠(yuǎn)不會(huì)被增權(quán)。然后,應(yīng)用逐步裁剪策略,以防止跨智能體經(jīng)驗(yàn)在批次內(nèi)的后期更新中占據(jù)主導(dǎo)地位,從而提高訓(xùn)練穩(wěn)定性。



實(shí)驗(yàn)現(xiàn)象:尺有所短,寸有所長(zhǎng)

異構(gòu)模型間的取長(zhǎng)補(bǔ)短

實(shí)驗(yàn)設(shè)置與對(duì)比基線

該工作在 MATH 數(shù)據(jù)集 上選取 7500 道高質(zhì)量數(shù)學(xué)問(wèn)題,并在 七個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試 上評(píng)估 HACPO 的性能。為嚴(yán)格驗(yàn)證協(xié)同訓(xùn)練范式的有效性,將 HACPO 與下列三類基線方法進(jìn)行了對(duì)比:

  • 標(biāo)準(zhǔn)單智能體基線:包括 GRPO、GSPO(Rollout 成本相同,參數(shù)更新成本只有 HACPO 的一半
  • 等資源基線(GSPO×2):用雙倍 rollout 和更新次數(shù),以排除因?yàn)閿?shù)據(jù)量增大帶來(lái)的提升(Rollout 成本是 HACPO 的一倍,參數(shù)更新成本相同
  • 樸素協(xié)同基線(Naive):簡(jiǎn)單共享 rollouts 的多智能體設(shè)置,但不包含 HACPO 的創(chuàng)新模塊(Rollout 和參數(shù)更新成本都和 HACPO相同

該工作總結(jié)了三類異構(gòu),并分別進(jìn)行了驗(yàn)證實(shí)驗(yàn):



主實(shí)驗(yàn)結(jié)果

結(jié)果分析

該工作在狀態(tài)異構(gòu)、尺寸異構(gòu)、模型異構(gòu)三中 setting 下進(jìn)行了多種實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了 HACPO 的有效性。同時(shí),將 HACPO 的效果歸因?yàn)橐韵聝煞N機(jī)制:

  • 能力驅(qū)動(dòng)的指導(dǎo):強(qiáng)模型提供更多高質(zhì)量正確解,幫助弱模型更快提高。
  • 互補(bǔ)知識(shí)的交換:弱模型作為 “不同探索器”,會(huì)產(chǎn)生強(qiáng)模型較少覆蓋的推理路徑與信息性錯(cuò)誤,甚至少量強(qiáng)模型未采到的正確解,從而使強(qiáng)模型也獲得可學(xué)習(xí)的補(bǔ)充信號(hào)。

狀態(tài)異構(gòu):

弱模型(Qwen3-4B)提高7.1%,強(qiáng)模型(Qwen3-4B-Instruct)提高1.4%。模型異構(gòu)性低,因此主要是強(qiáng)模型幫助弱模型,而弱模型難以對(duì)強(qiáng)模型有幫助。



尺寸異構(gòu):

大小模型都有提升,Qwen3-1.7B-Base 提升2.6%,Qwen3-4B-Base 提升2.3%。盡管小模型的準(zhǔn)確率低于大模型,其仍然可以為大模型提供一些難以覆蓋到的錯(cuò)誤路徑和少量正確路徑,提供互補(bǔ)知識(shí)



模型異構(gòu):

即使模型異構(gòu)程度很大,兩個(gè)模型也都有提升。Qwen3-4B-Base 提高,Llama3.2-3B-Instruct 提高3.9%。這表明 HACPO 算法的通用性和魯棒性。



效率、效果雙提升:

等資源基線(GSPO×2)進(jìn)行對(duì)比,HACPO 僅使用一半的 Rollout 成本,就實(shí)現(xiàn)了3.3% 的性能提升

消融實(shí)驗(yàn)

對(duì)于核心算法 HACPO 中的四個(gè)模塊進(jìn)行消融,實(shí)驗(yàn)證明了缺失任何一個(gè)模塊都會(huì)導(dǎo)致模型性能的下降,表明了四個(gè)模塊都是有效的。同時(shí),指數(shù)重要性采樣中的最佳指數(shù)在不同的模型組合上也會(huì)有不同。

討論和展望

本文針對(duì)當(dāng)前智能體強(qiáng)化學(xué)習(xí)面臨的孤立優(yōu)化采樣成本高、異構(gòu)大模型生態(tài)知識(shí)利用效率低的核心行業(yè)痛點(diǎn),提出了異構(gòu)智能體協(xié)同強(qiáng)化學(xué)習(xí)(HACRL)全新范式。該范式突破知識(shí)蒸餾單向師生傳遞的固有局限,實(shí)現(xiàn)了訓(xùn)練階段異構(gòu)智能體協(xié)同優(yōu)化、推理階段獨(dú)立執(zhí)行的核心設(shè)計(jì)。

面向未來(lái),HACRL 范式的拓展方向主要包括以下幾個(gè)方面:一是將適用場(chǎng)景從數(shù)學(xué)推理任務(wù)延伸至代碼生成、多模態(tài)理解等更廣泛的大模型核心下游任務(wù),以驗(yàn)證其在通用場(chǎng)景下的普適性;二是探索更大規(guī)模的異構(gòu)智能體協(xié)同訓(xùn)練網(wǎng)絡(luò),深入研究智能體間相互學(xué)習(xí)的效果邊界與影響機(jī)制。此外,HACPO 的提出為跨異構(gòu)智能體的數(shù)據(jù)統(tǒng)一復(fù)用奠定了初步框架,未來(lái)在邁向通用人工智能(AGI)的進(jìn)程中,構(gòu)建跨模型、跨領(lǐng)域的統(tǒng)一知識(shí)學(xué)習(xí)平臺(tái)同樣是不可或缺的重要方向。

作者:第一作者為北京航空航天大學(xué)本科生張之夏與博士生黃子軒,通訊作者為北京航空航天大學(xué)班義琨教授。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
雷軍罕見(jiàn)不自信,被物理博士追問(wèn)結(jié)構(gòu)!網(wǎng)友:碰見(jiàn)真懂物理的了

雷軍罕見(jiàn)不自信,被物理博士追問(wèn)結(jié)構(gòu)!網(wǎng)友:碰見(jiàn)真懂物理的了

大白聊IT
2026-03-24 09:46:29
吃蘭州拉面的人為什么越來(lái)越少了?網(wǎng)友:進(jìn)店小心翼翼的怕說(shuō)錯(cuò)話

吃蘭州拉面的人為什么越來(lái)越少了?網(wǎng)友:進(jìn)店小心翼翼的怕說(shuō)錯(cuò)話

另子維愛(ài)讀史
2026-02-27 20:31:34
十人法國(guó)熱身賽2-1巴西!姆巴佩單刀破僵 利物浦9000萬(wàn)神鋒建功

十人法國(guó)熱身賽2-1巴西!姆巴佩單刀破僵 利物浦9000萬(wàn)神鋒建功

我愛(ài)英超
2026-03-27 06:17:44
4-3逆轉(zhuǎn)!歐洲弱旅爆大冷,接近首次進(jìn)世界杯,瑞典送烏克蘭出局

4-3逆轉(zhuǎn)!歐洲弱旅爆大冷,接近首次進(jìn)世界杯,瑞典送烏克蘭出局

侃球熊弟
2026-03-27 06:28:11
郭正亮直播突現(xiàn)眼歪嘴斜:比中風(fēng)更可怕的是成年人不敢喊停的人生

郭正亮直播突現(xiàn)眼歪嘴斜:比中風(fēng)更可怕的是成年人不敢喊停的人生

戧詞奪理
2026-03-26 14:28:17
戲都沒(méi)演明白還當(dāng)評(píng)委,自己都沒(méi)拿過(guò)獎(jiǎng),坐在評(píng)審團(tuán)位置不心虛嗎

戲都沒(méi)演明白還當(dāng)評(píng)委,自己都沒(méi)拿過(guò)獎(jiǎng),坐在評(píng)審團(tuán)位置不心虛嗎

娛樂(lè)圈筆娛君
2026-03-25 10:46:06
家長(zhǎng)違停孩子開(kāi)門殺撞人后逃逸?交警回應(yīng)

家長(zhǎng)違停孩子開(kāi)門殺撞人后逃逸?交警回應(yīng)

中國(guó)新聞周刊
2026-03-26 14:46:51
2026.3.27【A股早報(bào)】:注意!國(guó)家隊(duì)也出現(xiàn)了大幅虧損!

2026.3.27【A股早報(bào)】:注意!國(guó)家隊(duì)也出現(xiàn)了大幅虧損!

旌陽(yáng)財(cái)經(jīng)視角
2026-03-27 06:30:03
解放戰(zhàn)爭(zhēng)中,國(guó)民黨軍也曾策反我軍,一次拉走4個(gè)師,但10天全滅

解放戰(zhàn)爭(zhēng)中,國(guó)民黨軍也曾策反我軍,一次拉走4個(gè)師,但10天全滅

云霄紀(jì)史觀
2026-03-26 11:51:38
奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來(lái)她從未變過(guò)!

奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來(lái)她從未變過(guò)!

社會(huì)醬
2026-03-23 17:34:19
炸屏跑圈!51歲林志玲跑馬拉松,生圖狀態(tài)封神,網(wǎng)友:滿50減30!

炸屏跑圈!51歲林志玲跑馬拉松,生圖狀態(tài)封神,網(wǎng)友:滿50減30!

馬拉松跑步健身
2026-03-26 22:09:16
《紅樓夢(mèng)》成就的3段姻緣,對(duì)對(duì)恩愛(ài)到白頭,活成愛(ài)情最好的模樣

《紅樓夢(mèng)》成就的3段姻緣,對(duì)對(duì)恩愛(ài)到白頭,活成愛(ài)情最好的模樣

上官晚安
2026-03-26 06:48:44
比秦始皇陵大3倍!陜西深山藏世界最大帝陵,建了107年藏滿玄機(jī)

比秦始皇陵大3倍!陜西深山藏世界最大帝陵,建了107年藏滿玄機(jī)

百年歷史老號(hào)
2026-03-21 09:12:16
不容易啊,意大利終于贏了,加圖索感謝托納利,世界杯這下穩(wěn)了吧

不容易啊,意大利終于贏了,加圖索感謝托納利,世界杯這下穩(wěn)了吧

足壇劉脂導(dǎo)
2026-03-27 05:50:14
丞相是丞相,宰相是宰相,兩者一字之差卻天壤之別,可別分不清楚

丞相是丞相,宰相是宰相,兩者一字之差卻天壤之別,可別分不清楚

觀史搜尋著
2026-03-26 01:10:50
光通信+CPO,邏輯最硬的11家公司

光通信+CPO,邏輯最硬的11家公司

龍頭主升趨勢(shì)
2026-03-25 17:51:33
國(guó)民黨內(nèi)炸鍋!馬英九鄭麗文徹底撕破臉,鄭麗文或成第二個(gè)洪秀柱

國(guó)民黨內(nèi)炸鍋!馬英九鄭麗文徹底撕破臉,鄭麗文或成第二個(gè)洪秀柱

愛(ài)下廚的阿釃
2026-03-27 01:08:12
外資大撤退:亞洲股市遭遇2009年以來(lái)...

外資大撤退:亞洲股市遭遇2009年以來(lái)...

新浪財(cái)經(jīng)
2026-03-27 01:06:32
《浪姐2026》陣容惹爭(zhēng)議,32位姐姐一半不認(rèn)識(shí),范瑋琪被抵制

《浪姐2026》陣容惹爭(zhēng)議,32位姐姐一半不認(rèn)識(shí),范瑋琪被抵制

啊呆吃瓜
2026-03-26 19:35:03
日媒:日本高中生起訴市政府和日本政府,指控市政府擅自將個(gè)人信息提交給防衛(wèi)省用于招募

日媒:日本高中生起訴市政府和日本政府,指控市政府擅自將個(gè)人信息提交給防衛(wèi)省用于招募

環(huán)球網(wǎng)資訊
2026-03-26 20:44:05
2026-03-27 08:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12608文章數(shù) 142595關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

很反常!油價(jià)向上,黃金向下

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
手機(jī)
親子
時(shí)尚
公開(kāi)課

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

手機(jī)要聞

iQOO 15贏、REDMI K90贏,一加是哪個(gè)贏了?

親子要聞

在那聲嘆息里,產(chǎn)后媽媽終于找回了弄丟的自己

張雪峰曾經(jīng)“5次談猝死”

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版