清華大學(xué)提出新方案，提升大模型多智能體推理能力！

2026-01-09 14:14:11　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

近日，清華大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了MARSHAL框架。該框架利用強(qiáng)化學(xué)習(xí)，讓大模型在策略游戲中進(jìn)行自博弈（Self-Play）。實(shí)驗(yàn)表明，這種多輪、多智能體訓(xùn)練不僅提升了模型在游戲中的博弈決策水平，更將其推理能力有效泛化到了通用的多智能體系統(tǒng)：在如數(shù)學(xué)競賽和專家級問答等一般推理任務(wù)中，顯著提升了多智能體系統(tǒng)的整體表現(xiàn)。

論文標(biāo)題：MARSHAL: Incentivizing Multi-Agent Reasoning via Self-Play with Strategic LLMs
論文鏈接：https://arxiv.org/abs/2510.15414
項(xiàng)目主頁：https://thu-nics.github.io/MARSHAL/
代碼開源：https://github.com/thu-nics/MARSHAL
模型倉庫：https://huggingface.co/collections/nics-efc/marshal

一、背景與挑戰(zhàn)

盡管 DeepSeek-R1 等大模型已在數(shù)學(xué)、問答等單輪、單智能體場景中，驗(yàn)證了可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（RLVR）對提升推理能力的巨大價(jià)值；但在多智能體系統(tǒng)（MAS）復(fù)雜的多輪、多智能體交互場景中，這一方法的應(yīng)用仍處于探索階段。具體而言，將 RLVR 拓展至多智能體領(lǐng)域面臨著兩大核心技術(shù)挑戰(zhàn)：

多輪交互的信用分配：現(xiàn)有的單輪 RLVR 方法難以精準(zhǔn)地將最終結(jié)果回溯并分配給每一個(gè)具體的輪次或動(dòng)作，進(jìn)而影響了模型的有效學(xué)習(xí)。
多智能體的優(yōu)勢估計(jì)：不同智能體通常具有高度的異構(gòu)性，其在優(yōu)勢估計(jì)（advantage estimation）中的優(yōu)勢基準(zhǔn)（baseline）存在顯著差異，導(dǎo)致多智能體聯(lián)合訓(xùn)練難以收斂，策略表現(xiàn)波動(dòng)劇烈。

為了解決上述問題，為多智能體系統(tǒng)訓(xùn)練更強(qiáng)的推理模型，清華大學(xué)研究團(tuán)隊(duì)提出了MARSHAL（Multi-Agent Reasoning through Self-play witH strAtegic LLMs）框架，通過策略游戲中的多智能體自博弈和端到端強(qiáng)化學(xué)習(xí)，激發(fā)大模型的在通用多智能體系統(tǒng)中的推理決策能力。

圖 1 MARSHAL 在策略游戲的表現(xiàn)及通用推理基準(zhǔn)泛化性能

核心實(shí)驗(yàn)結(jié)果：

策略游戲：多智能體博弈決策表現(xiàn)顯著提升，測試游戲勝率提升高達(dá)28.7%。
泛化表現(xiàn)：將模型集成至通用多智能體系統(tǒng)中時(shí)，在一般推理任務(wù)中展現(xiàn)出顯著泛化性 ——AIME 準(zhǔn)確率提升10.0%（AutoGen 框架 [1]）；GPQA-Diamond 準(zhǔn)確率提升7.6%（MAD 框架 [2]）；所有基準(zhǔn)測試平均提升3.5%。

二、MARSHAL 方法介紹

圖 2 MARSHAL 框架概覽

面向策略游戲自博弈中多輪次、多智能體訓(xùn)練的挑戰(zhàn)，MARSHAL 基于 Group-Relative Policy Optimization (GRPO) 架構(gòu)，提出了兩項(xiàng)關(guān)鍵算法改進(jìn)：

輪次級優(yōu)勢估計(jì)器 (Turn-level Advantage Estimator)：針對多輪交互中的信用分配問題，MARSHAL 摒棄了經(jīng)典單輪 GRPO 粗糙的軌跡級評估，引入精細(xì)的輪次級（Turn-level）獎(jiǎng)勵(lì)機(jī)制，并設(shè)計(jì)了 “先求累計(jì)和再歸一化（Sum-then-Normalize）” 的方法進(jìn)行穩(wěn)定的優(yōu)勢計(jì)算。
分角色的優(yōu)勢歸一化 (Agent-specific Advantage Normalization)：針對角色異構(gòu)性導(dǎo)致的回報(bào)分布差異，MARSHAL 實(shí)施了嚴(yán)格區(qū)分角色的歸一化策略：在計(jì)算優(yōu)勢時(shí)，系統(tǒng)不再將所有智能體混為一談，而是根據(jù)角色的不同（例如 “玩家 1” 與 “玩家 2”）將數(shù)據(jù)分組。

為了培養(yǎng)全面的多智能體推理能力，研究團(tuán)隊(duì)精心挑選了六款策略游戲（其中三款用于訓(xùn)練，另外三款用于測試），涵蓋了從簡單到復(fù)雜、從競爭到合作的多種博弈類型。

圖 3 MARSHAL 使用的游戲集合

三、核心實(shí)驗(yàn)

研究團(tuán)隊(duì)以 Qwen3-4B 為基線模型，在三款訓(xùn)練游戲（Tic-Tac-Toe、Kuhn Poker、Mini Hanabi）中訓(xùn)練了兩種類型的智能體：

專家智能體 (Specialist)：僅在單一游戲上訓(xùn)練。
通用智能體 (Generalist)：在所有三款游戲上混合訓(xùn)練。

游戲策略能力的泛化

MARSHAL 訓(xùn)練出的專家智能體在各自的同類型游戲中展現(xiàn)出出色的泛化性；通用智能體則在所有游戲類型中的綜合表現(xiàn)最佳，在測試游戲中取得了高達(dá)28.7%的勝率提升。這些結(jié)果表明，模型并非僅僅記住了特定游戲的規(guī)則，而是真正掌握了通用的博弈邏輯（如 “先手優(yōu)勢利用”、“信息推斷” 等），并能將其靈活泛化到全新的游戲環(huán)境中。

圖 4 MARSHAL 專家智能體在各類策略游戲中的勝率對比

通用推理能力的泛化

這是本研究最核心的實(shí)驗(yàn)，研究團(tuán)隊(duì)將 MARSHAL 模型作為基座集成到主流的多智能體框架（MAD 和 AutoGen）中，測試其在7種數(shù)學(xué)和問答基準(zhǔn)測試上的成績，最終得到兩個(gè)關(guān)鍵結(jié)論：

在策略游戲中習(xí)得的多智能體博弈能力，能夠跨域泛化到通用的多智能體系統(tǒng)中，提升系統(tǒng)在一般推理任務(wù)中的表現(xiàn)。綜合表現(xiàn)最強(qiáng)的 MARSHAL 通用智能體在數(shù)學(xué)測試 AIME 和問答測試 GPQA 中分別取得高達(dá)10.0%和7.6%的提升；在所有測試中的平均提升高達(dá)3.5%。
能力泛化領(lǐng)域高度對齊：在競爭性多智能體系統(tǒng) MAD 中，競爭性游戲（Tic-Tac-Toe）訓(xùn)練的模型表現(xiàn)更優(yōu)；而在合作性多智能體系統(tǒng) AutoGen 中，合作性游戲（Hanabi）訓(xùn)練的模型表現(xiàn)更優(yōu)。

圖 5 MARSHAL 智能體在數(shù)學(xué)和問答推理測試中的泛化表現(xiàn)

以上實(shí)驗(yàn)結(jié)果強(qiáng)有力地證明了自博弈是提升多智能體系統(tǒng)推理能力的磨刀石。此外，在擴(kuò)展到 8B 模型的實(shí)驗(yàn)中，MARSHAL 依然保持了強(qiáng)勁的增長勢頭，驗(yàn)證了該方法良好的可擴(kuò)展性（Scalability）。

四、推理模式分析：模型學(xué)到了什么？

為了探究 MARSHAL 成功泛化的原因，研究團(tuán)隊(duì)從定性和定量兩個(gè)維度進(jìn)行了深入分析。

定性分析：通過對思維鏈（Chain-of-Thought）的深入解讀，研究發(fā)現(xiàn)游戲訓(xùn)練激發(fā)了模型兩項(xiàng)關(guān)鍵的涌現(xiàn)能力：1）角色意識(shí)（Role-Awareness），根據(jù)自身角色調(diào)整決策策略；2）意圖識(shí)別（Intent Recognition），在不確定信息場景中根據(jù)其他智能體的決策動(dòng)作判斷其意圖。

圖 6 推理模型定性分析

定量分析（Quantitative Analysis）：為了進(jìn)一步量化 MARSHAL 帶來的多智能體推理能力的提升，研究團(tuán)隊(duì)對多智能體系統(tǒng)進(jìn)行了失敗模式分析。結(jié)果顯示，MARSHAL 將智能體間未對齊（Inter-Agent Misalignment）的情況減少了 11.5%，顯著提升了模型在跨智能體的溝通效率和理解能力。

圖 7 失敗模式定量分析

五、消融實(shí)驗(yàn)

自博弈 vs 固定對手

與固定專家對手進(jìn)行訓(xùn)練相比，自博弈展現(xiàn)出了不可替代的優(yōu)勢。實(shí)驗(yàn)發(fā)現(xiàn)，針對固定對手訓(xùn)練的模型容易對訓(xùn)練環(huán)境過擬合，在測試游戲中性能急劇下降。

圖 8 MARSHAL 自博弈和固定對手訓(xùn)練方式在策略游戲中的對比

優(yōu)勢估計(jì)算法設(shè)計(jì)

研究團(tuán)隊(duì)通過逐步移除核心算法組件，驗(yàn)證了 MARSHAL 算法設(shè)計(jì)的必要性：1）輪次級優(yōu)勢估計(jì)的精細(xì)信用分配是處理長序列決策的關(guān)鍵；2）分角色歸一化在角色回報(bào)差異大的競爭性游戲中（如 Tic-Tac-Toe）影響巨大，而在角色回報(bào)分布相似的合作游戲（如 Hanabi）中影響則相對較小。

圖 9 MARSHAL 算法設(shè)計(jì)的消融實(shí)驗(yàn)

圖 10 角色回報(bào)分布的差異性分析

六、總結(jié)

該項(xiàng)研究工作提出了MARSHAL框架，通過在策略游戲中進(jìn)行自博弈，成功增強(qiáng)了大語言模型在多智能體系統(tǒng)中的推理能力，提高了其在一般推理任務(wù)中的表現(xiàn)。核心結(jié)論如下：

驗(yàn)證了策略游戲自博弈的泛化性：在簡單的策略游戲中通過自博弈習(xí)得的博弈技巧（如角色意識(shí)、意圖識(shí)別）能夠泛化到通用多智能體系統(tǒng)，在一般的推理任務(wù)中取得顯著的效果提升。
提出了有效的技術(shù)方案：通過輪次級優(yōu)勢估計(jì)和分角色的歸一化等算法設(shè)計(jì)，為多輪、多智能體強(qiáng)化學(xué)習(xí)中的穩(wěn)定訓(xùn)練提供了有效方案。

盡管目前主要聚焦于雙人博弈，但 MARSHAL 為未來通向更復(fù)雜的 “社會(huì)沙盒”（如多智能體協(xié)作編程、搜索、科研等）指明了潛在方向：自博弈不僅是 AlphaGo 戰(zhàn)勝人類的法寶，也能成為大模型邁向更高階群體智能的關(guān)鍵引擎。

參考文獻(xiàn)

[1] Wu, Qingyun, et al. "Autogen: Enabling next-gen llm applications via multi-agent conversation." COLM 2024.

[2] Liang, Tian, et al. "Encouraging divergent thinking in large language models through multi-agent debate." EMNLP 2024.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.