国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

清華大學(xué)提出新方案,提升大模型多智能體推理能力!

0
分享至



近日,清華大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了MARSHAL框架。該框架利用強(qiáng)化學(xué)習(xí),讓大模型在策略游戲中進(jìn)行自博弈(Self-Play)。實(shí)驗(yàn)表明,這種多輪、多智能體訓(xùn)練不僅提升了模型在游戲中的博弈決策水平,更將其推理能力有效泛化到了通用的多智能體系統(tǒng):在如數(shù)學(xué)競賽和專家級問答等一般推理任務(wù)中,顯著提升了多智能體系統(tǒng)的整體表現(xiàn)。



  • 論文標(biāo)題:MARSHAL: Incentivizing Multi-Agent Reasoning via Self-Play with Strategic LLMs
  • 論文鏈接:https://arxiv.org/abs/2510.15414
  • 項(xiàng)目主頁:https://thu-nics.github.io/MARSHAL/
  • 代碼開源:https://github.com/thu-nics/MARSHAL
  • 模型倉庫:https://huggingface.co/collections/nics-efc/marshal

一、 背景與挑戰(zhàn)

盡管 DeepSeek-R1 等大模型已在數(shù)學(xué)、問答等單輪、單智能體場景中,驗(yàn)證了可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)對提升推理能力的巨大價(jià)值;但在多智能體系統(tǒng)(MAS)復(fù)雜的多輪、多智能體交互場景中,這一方法的應(yīng)用仍處于探索階段。具體而言,將 RLVR 拓展至多智能體領(lǐng)域面臨著兩大核心技術(shù)挑戰(zhàn):

  • 多輪交互的信用分配:現(xiàn)有的單輪 RLVR 方法難以精準(zhǔn)地將最終結(jié)果回溯并分配給每一個(gè)具體的輪次或動(dòng)作,進(jìn)而影響了模型的有效學(xué)習(xí)。
  • 多智能體的優(yōu)勢估計(jì):不同智能體通常具有高度的異構(gòu)性,其在優(yōu)勢估計(jì)(advantage estimation)中的優(yōu)勢基準(zhǔn)(baseline)存在顯著差異,導(dǎo)致多智能體聯(lián)合訓(xùn)練難以收斂,策略表現(xiàn)波動(dòng)劇烈。

為了解決上述問題,為多智能體系統(tǒng)訓(xùn)練更強(qiáng)的推理模型,清華大學(xué)研究團(tuán)隊(duì)提出了MARSHAL(Multi-Agent Reasoning through Self-play witH strAtegic LLMs)框架,通過策略游戲中的多智能體自博弈和端到端強(qiáng)化學(xué)習(xí),激發(fā)大模型的在通用多智能體系統(tǒng)中的推理決策能力。



圖 1 MARSHAL 在策略游戲的表現(xiàn)及通用推理基準(zhǔn)泛化性能

核心實(shí)驗(yàn)結(jié)果:

  • 策略游戲:多智能體博弈決策表現(xiàn)顯著提升,測試游戲勝率提升高達(dá)28.7%。
  • 泛化表現(xiàn):將模型集成至通用多智能體系統(tǒng)中時(shí),在一般推理任務(wù)中展現(xiàn)出顯著泛化性 ——AIME 準(zhǔn)確率提升10.0%(AutoGen 框架 [1]);GPQA-Diamond 準(zhǔn)確率提升7.6%(MAD 框架 [2]);所有基準(zhǔn)測試平均提升3.5%。

二、MARSHAL 方法介紹



圖 2 MARSHAL 框架概覽

面向策略游戲自博弈中多輪次、多智能體訓(xùn)練的挑戰(zhàn),MARSHAL 基于 Group-Relative Policy Optimization (GRPO) 架構(gòu),提出了兩項(xiàng)關(guān)鍵算法改進(jìn):

  • 輪次級優(yōu)勢估計(jì)器 (Turn-level Advantage Estimator):針對多輪交互中的信用分配問題,MARSHAL 摒棄了經(jīng)典單輪 GRPO 粗糙的軌跡級評估,引入精細(xì)的輪次級(Turn-level)獎(jiǎng)勵(lì)機(jī)制,并設(shè)計(jì)了 “先求累計(jì)和再歸一化(Sum-then-Normalize)” 的方法進(jìn)行穩(wěn)定的優(yōu)勢計(jì)算。
  • 分角色的優(yōu)勢歸一化 (Agent-specific Advantage Normalization):針對角色異構(gòu)性導(dǎo)致的回報(bào)分布差異,MARSHAL 實(shí)施了嚴(yán)格區(qū)分角色的歸一化策略:在計(jì)算優(yōu)勢時(shí),系統(tǒng)不再將所有智能體混為一談,而是根據(jù)角色的不同(例如 “玩家 1” 與 “玩家 2”)將數(shù)據(jù)分組。

為了培養(yǎng)全面的多智能體推理能力,研究團(tuán)隊(duì)精心挑選了六款策略游戲(其中三款用于訓(xùn)練,另外三款用于測試),涵蓋了從簡單到復(fù)雜、從競爭到合作的多種博弈類型。



圖 3 MARSHAL 使用的游戲集合

三、核心實(shí)驗(yàn)

研究團(tuán)隊(duì)以 Qwen3-4B 為基線模型,在三款訓(xùn)練游戲(Tic-Tac-Toe、Kuhn Poker、Mini Hanabi)中訓(xùn)練了兩種類型的智能體:

  • 專家智能體 (Specialist):僅在單一游戲上訓(xùn)練。
  • 通用智能體 (Generalist):在所有三款游戲上混合訓(xùn)練。

游戲策略能力的泛化

MARSHAL 訓(xùn)練出的專家智能體在各自的同類型游戲中展現(xiàn)出出色的泛化性;通用智能體則在所有游戲類型中的綜合表現(xiàn)最佳,在測試游戲中取得了高達(dá)28.7%的勝率提升。這些結(jié)果表明,模型并非僅僅記住了特定游戲的規(guī)則,而是真正掌握了通用的博弈邏輯(如 “先手優(yōu)勢利用”、“信息推斷” 等),并能將其靈活泛化到全新的游戲環(huán)境中。



圖 4 MARSHAL 專家智能體在各類策略游戲中的勝率對比

通用推理能力的泛化

這是本研究最核心的實(shí)驗(yàn),研究團(tuán)隊(duì)將 MARSHAL 模型作為基座集成到主流的多智能體框架(MAD 和 AutoGen)中,測試其在7種數(shù)學(xué)和問答基準(zhǔn)測試上的成績,最終得到兩個(gè)關(guān)鍵結(jié)論:

  • 在策略游戲中習(xí)得的多智能體博弈能力,能夠跨域泛化到通用的多智能體系統(tǒng)中,提升系統(tǒng)在一般推理任務(wù)中的表現(xiàn)。綜合表現(xiàn)最強(qiáng)的 MARSHAL 通用智能體在數(shù)學(xué)測試 AIME 和問答測試 GPQA 中分別取得高達(dá)10.0%和7.6%的提升;在所有測試中的平均提升高達(dá)3.5%。
  • 能力泛化領(lǐng)域高度對齊:在競爭性多智能體系統(tǒng) MAD 中,競爭性游戲(Tic-Tac-Toe)訓(xùn)練的模型表現(xiàn)更優(yōu);而在合作性多智能體系統(tǒng) AutoGen 中,合作性游戲(Hanabi)訓(xùn)練的模型表現(xiàn)更優(yōu)。



圖 5 MARSHAL 智能體在數(shù)學(xué)和問答推理測試中的泛化表現(xiàn)

以上實(shí)驗(yàn)結(jié)果強(qiáng)有力地證明了自博弈是提升多智能體系統(tǒng)推理能力的磨刀石。此外,在擴(kuò)展到 8B 模型的實(shí)驗(yàn)中,MARSHAL 依然保持了強(qiáng)勁的增長勢頭,驗(yàn)證了該方法良好的可擴(kuò)展性(Scalability)。

四、推理模式分析:模型學(xué)到了什么?

為了探究 MARSHAL 成功泛化的原因,研究團(tuán)隊(duì)從定性和定量兩個(gè)維度進(jìn)行了深入分析。

  • 定性分析:通過對思維鏈(Chain-of-Thought)的深入解讀,研究發(fā)現(xiàn)游戲訓(xùn)練激發(fā)了模型兩項(xiàng)關(guān)鍵的涌現(xiàn)能力:1)角色意識(shí)(Role-Awareness),根據(jù)自身角色調(diào)整決策策略;2)意圖識(shí)別(Intent Recognition),在不確定信息場景中根據(jù)其他智能體的決策動(dòng)作判斷其意圖。



圖 6 推理模型定性分析

  • 定量分析(Quantitative Analysis):為了進(jìn)一步量化 MARSHAL 帶來的多智能體推理能力的提升,研究團(tuán)隊(duì)對多智能體系統(tǒng)進(jìn)行了失敗模式分析。結(jié)果顯示,MARSHAL 將智能體間未對齊(Inter-Agent Misalignment)的情況減少了 11.5%,顯著提升了模型在跨智能體的溝通效率和理解能力。



圖 7 失敗模式定量分析

五、消融實(shí)驗(yàn)

自博弈 vs 固定對手

與固定專家對手進(jìn)行訓(xùn)練相比,自博弈展現(xiàn)出了不可替代的優(yōu)勢。實(shí)驗(yàn)發(fā)現(xiàn),針對固定對手訓(xùn)練的模型容易對訓(xùn)練環(huán)境過擬合,在測試游戲中性能急劇下降。



圖 8 MARSHAL 自博弈和固定對手訓(xùn)練方式在策略游戲中的對比

優(yōu)勢估計(jì)算法設(shè)計(jì)

研究團(tuán)隊(duì)通過逐步移除核心算法組件,驗(yàn)證了 MARSHAL 算法設(shè)計(jì)的必要性:1)輪次級優(yōu)勢估計(jì)的精細(xì)信用分配是處理長序列決策的關(guān)鍵;2)分角色歸一化在角色回報(bào)差異大的競爭性游戲中(如 Tic-Tac-Toe)影響巨大,而在角色回報(bào)分布相似的合作游戲(如 Hanabi)中影響則相對較小。



圖 9 MARSHAL 算法設(shè)計(jì)的消融實(shí)驗(yàn)



圖 10 角色回報(bào)分布的差異性分析

六、總結(jié)

該項(xiàng)研究工作提出了MARSHAL框架,通過在策略游戲中進(jìn)行自博弈,成功增強(qiáng)了大語言模型在多智能體系統(tǒng)中的推理能力,提高了其在一般推理任務(wù)中的表現(xiàn)。核心結(jié)論如下:

  • 驗(yàn)證了策略游戲自博弈的泛化性:在簡單的策略游戲中通過自博弈習(xí)得的博弈技巧(如角色意識(shí)、意圖識(shí)別)能夠泛化到通用多智能體系統(tǒng),在一般的推理任務(wù)中取得顯著的效果提升。
  • 提出了有效的技術(shù)方案:通過輪次級優(yōu)勢估計(jì)和分角色的歸一化等算法設(shè)計(jì),為多輪、多智能體強(qiáng)化學(xué)習(xí)中的穩(wěn)定訓(xùn)練提供了有效方案。

盡管目前主要聚焦于雙人博弈,但 MARSHAL 為未來通向更復(fù)雜的 “社會(huì)沙盒”(如多智能體協(xié)作編程、搜索、科研等)指明了潛在方向:自博弈不僅是 AlphaGo 戰(zhàn)勝人類的法寶,也能成為大模型邁向更高階群體智能的關(guān)鍵引擎。

參考文獻(xiàn)

[1] Wu, Qingyun, et al. "Autogen: Enabling next-gen llm applications via multi-agent conversation." COLM 2024.

[2] Liang, Tian, et al. "Encouraging divergent thinking in large language models through multi-agent debate." EMNLP 2024.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
廣湛高鐵工地工人從橋面扔鐵模板砸中一放牛老人致死,事故調(diào)查報(bào)告公布

廣湛高鐵工地工人從橋面扔鐵模板砸中一放牛老人致死,事故調(diào)查報(bào)告公布

澎湃新聞
2026-01-09 18:42:27
揚(yáng)言不上春晚一周后,央媒“點(diǎn)名”岳云鵬,郭德綱的話有人信了

揚(yáng)言不上春晚一周后,央媒“點(diǎn)名”岳云鵬,郭德綱的話有人信了

銀河史記
2026-01-09 19:24:55
伊朗步入十字路口:抗議者焚燒革命衛(wèi)隊(duì)總部!撕毀哈梅內(nèi)伊肖像

伊朗步入十字路口:抗議者焚燒革命衛(wèi)隊(duì)總部!撕毀哈梅內(nèi)伊肖像

項(xiàng)鵬飛
2026-01-09 19:37:50
為什么全網(wǎng)都在“針對”小米雷軍?

為什么全網(wǎng)都在“針對”小米雷軍?

首席商業(yè)評論
2026-01-09 13:23:54
上海一小區(qū)突發(fā)火災(zāi),多輛非機(jī)動(dòng)車被燒毀,還殃及一輛商務(wù)車

上海一小區(qū)突發(fā)火災(zāi),多輛非機(jī)動(dòng)車被燒毀,還殃及一輛商務(wù)車

環(huán)球網(wǎng)資訊
2026-01-09 20:05:13
因說出“把賴清德狗頭斬下來”,臺(tái)網(wǎng)紅“館長”被提起公訴

因說出“把賴清德狗頭斬下來”,臺(tái)網(wǎng)紅“館長”被提起公訴

參考消息
2026-01-09 19:16:00
73歲影帝欠租6萬面臨驅(qū)逐,昔日硬漢如今禿頭領(lǐng)外賣太糟心

73歲影帝欠租6萬面臨驅(qū)逐,昔日硬漢如今禿頭領(lǐng)外賣太糟心

蜉蝣說
2026-01-09 14:51:15
剛剛,谷歌反超蘋果成全球第二大市值公司!而救它的,竟然是一個(gè)連名字都沒有的產(chǎn)品

剛剛,谷歌反超蘋果成全球第二大市值公司!而救它的,竟然是一個(gè)連名字都沒有的產(chǎn)品

AI范兒
2026-01-09 09:44:00
特朗普透露“美扣押一懸掛俄國旗油輪”行動(dòng)細(xì)節(jié)

特朗普透露“美扣押一懸掛俄國旗油輪”行動(dòng)細(xì)節(jié)

環(huán)球網(wǎng)資訊
2026-01-09 22:23:15
59年,赫魯曉夫當(dāng)眾呵斥陳毅:你是中國元帥,但政治上得聽我的!

59年,赫魯曉夫當(dāng)眾呵斥陳毅:你是中國元帥,但政治上得聽我的!

古書記史
2026-01-09 00:17:48
河北2025年給農(nóng)民取暖補(bǔ)貼安排了多少預(yù)算?查不到數(shù)據(jù)

河北2025年給農(nóng)民取暖補(bǔ)貼安排了多少預(yù)算?查不到數(shù)據(jù)

可達(dá)鴨面面觀
2026-01-09 09:53:14
謝賢前女友大曝戀愛私隱!三年不碰她,卻每天給她做“四哥菜芯”

謝賢前女友大曝戀愛私隱!三年不碰她,卻每天給她做“四哥菜芯”

阿纂看事
2026-01-09 10:19:00
立竿見影!北京晚報(bào)昨天報(bào)道,宣武醫(yī)院今天行動(dòng)

立竿見影!北京晚報(bào)昨天報(bào)道,宣武醫(yī)院今天行動(dòng)

今日養(yǎng)生之道
2026-01-10 01:19:31
特朗普的支持者稱,若巴倫迎娶丹麥公主,格陵蘭可作為嫁妝贈(zèng)美國

特朗普的支持者稱,若巴倫迎娶丹麥公主,格陵蘭可作為嫁妝贈(zèng)美國

遍體鱗傷為我證明
2026-01-09 08:18:58
領(lǐng)導(dǎo)30萬員工1萬,申萬期貨員工質(zhì)疑年終獎(jiǎng)分配遭停職,和總經(jīng)理起沖突,雙方已報(bào)警

領(lǐng)導(dǎo)30萬員工1萬,申萬期貨員工質(zhì)疑年終獎(jiǎng)分配遭停職,和總經(jīng)理起沖突,雙方已報(bào)警

紅星新聞
2026-01-09 19:12:18
非洲杯2-0:26歲皇馬悍將發(fā)威,率東道主淘汰喀麥隆,晉級四強(qiáng)

非洲杯2-0:26歲皇馬悍將發(fā)威,率東道主淘汰喀麥隆,晉級四強(qiáng)

側(cè)身凌空斬
2026-01-10 04:58:11
南通市第一人民醫(yī)院就宋女士醫(yī)療事件致歉

南通市第一人民醫(yī)院就宋女士醫(yī)療事件致歉

新京報(bào)
2026-01-09 20:24:35
我媽被姑姑扇了4巴掌,我爸靜了5秒,然后摘下45萬手表遞給我媽:媳婦,咱們這就離開這個(gè)家

我媽被姑姑扇了4巴掌,我爸靜了5秒,然后摘下45萬手表遞給我媽:媳婦,咱們這就離開這個(gè)家

起飛做故事
2026-01-08 20:18:07
給我跪下,你給我跪下!

給我跪下,你給我跪下!

布衣亂彈
2026-01-09 19:32:23
中國恩格爾系數(shù)接近日本!中國人的日子,過得不比日本人差

中國恩格爾系數(shù)接近日本!中國人的日子,過得不比日本人差

狐貍先森講升學(xué)規(guī)劃
2026-01-09 08:09:18
2026-01-10 06:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142533關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

媒體稱委內(nèi)瑞拉代總統(tǒng)計(jì)劃13日訪問華盛頓 委方回應(yīng)

頭條要聞

媒體稱委內(nèi)瑞拉代總統(tǒng)計(jì)劃13日訪問華盛頓 委方回應(yīng)

體育要聞

金元時(shí)代最后的外援,來中國8年了

娛樂要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

旅游
藝術(shù)
數(shù)碼
教育
健康

旅游要聞

想看霧凇別瞎跑!吉林阿什哈達(dá)這 5 個(gè)觀賞秘訣,幫你避開空跑遺憾

藝術(shù)要聞

15位著名畫家的女性之美:哪一張觸動(dòng)了你的心?

數(shù)碼要聞

銘凡CES 2026新聞稿提及英特爾酷睿Ultra 9 290HX Plus處理器

教育要聞

震驚!556分上211?合肥工大統(tǒng)計(jì)學(xué)真香

這些新療法,讓化療不再那么痛苦

無障礙瀏覽 進(jìn)入關(guān)懷版