清華、無問芯穹發(fā)布多智能體WideSeek-R1，4B模型比肩671B模型！

2026-03-27 14:30:44　來源: 機器之心Pro

河北舉報

分享至

DeepSeek-R1 的成功證明了「深度擴展（Depth Scaling）」在解決復(fù)雜邏輯推理上的巨大潛力。AI 社區(qū)開始思考另一個維度的可能性：當(dāng)任務(wù)不僅需要深度的推理，更需要極寬廣度的信息搜集時，單一的大模型還是最優(yōu)解嗎？

設(shè)想這樣一個場景：你需要整理 “2025 年全球前 50 大科技公司的營收、凈利潤及研發(fā)投入對比表”。這是一個典型的廣度信息搜索任務(wù)。對于單個大模型而言，哪怕它是擁有 671B 參數(shù)的超大模型，面對這種需要數(shù)十次檢索，往往會陷入上下文信息干擾和串行效率低的問題，而顯得力不從心。

近日，來自清華大學(xué)與無問芯穹的 RLinf 團隊提出了一種全新的互補維度 ——「廣度擴展（Width Scaling）」，并以此發(fā)布了多智能體系統(tǒng)WideSeek-R1。不同于以往依賴人工設(shè)計工作流的多智能體系統(tǒng)，該工作采用了一種「Lead-agent-Subagent」的分層多智能體框架，并通過多智能體強化學(xué)習(xí)（MARL）進行端到端訓(xùn)練，展現(xiàn)出靈活的規(guī)模化調(diào)度與高效的并發(fā)處理能力。

實驗結(jié)果顯示，4B 參數(shù)的 WideSeek-R1 在廣度搜索任務(wù)上的表現(xiàn)達到了40%的 Item F1指標(biāo)，不僅看齊 671B 參數(shù)的 DeepSeek-R1 單智能體，更大幅超越了同參數(shù)規(guī)模的基線模型。

論文標(biāo)題：WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
論文鏈接：https://arxiv.org/abs/2602.04634
項目主頁：https://wideseek-r1.github.io
代碼文檔：https://rlinf.readthedocs.io/en/latest/rst_source/examples/agentic/wideseek_r1/index.html
Hugging Face 模型和數(shù)據(jù)：https://huggingface.co/collections/RLinf/wideseek-r1

1. 只有「深度」還不夠，

搜索需要「廣度」

過去一年，大模型的進步主要集中在深度擴展上。像 OpenAI o1 或 DeepSeek-R1 這樣的模型，通過增加推理步數(shù)來解決復(fù)雜難題。

然而，隨著任務(wù)廣度的增加，瓶頸從 “個體能力” 轉(zhuǎn)移到了 “組織能力”。

在廣度信息搜索任務(wù)中，單智能體面臨兩大痛點：

1.上下文干擾：隨著檢索信息的堆積，無關(guān)信息會干擾模型對后續(xù)子任務(wù)的判斷。

2.串行效率低：依次處理數(shù)十個獨立的子任務(wù)不僅慢，而且容易因序列過長而遺忘有用信息，導(dǎo)致任務(wù)失敗。

對此，WideSeek-R1 給出的答案是：用多智能體系統(tǒng) + MARL 實現(xiàn)廣度擴展。

圖1：深度擴展與廣度擴展的對比

當(dāng)傳統(tǒng)的深度擴展（藍色曲線）依賴單智能體多輪串行推理而逐漸遭遇性能瓶頸時，廣度擴展（粉色曲線）通過增加智能體個數(shù)，通過多智能體并行執(zhí)行開辟了新的增長路徑；而我們提出的WideSeek-R1（紅色星號），通過多智能體強化學(xué)習(xí)（MARL）進一步實現(xiàn)了調(diào)度與執(zhí)行的協(xié)同優(yōu)化，證明了在廣度信息搜索任務(wù)中，協(xié)同的 “寬度” 擴展能帶來比 “深度” 更顯著的性能飛躍。

2. WideSeek-R1：采用端到端 MARL

訓(xùn)練 “編排” 和 “執(zhí)行” 能力

現(xiàn)有的多智能體系統(tǒng)大多依賴手動設(shè)計的工作流（Hand-crafted workflows）或簡單的輪流對話，難以實現(xiàn)真正的并行高效協(xié)作。

WideSeek-R1 引入了一個「Lead-agent-Subagent」的層級框架，并用多智能體強化學(xué)習(xí)（MARL）端到端訓(xùn)練：

Lead-agent：負(fù)責(zé)將一個寬泛的復(fù)雜問題分解為獨立的子任務(wù)，可調(diào)度多個 Subagents 并行執(zhí)行。同時也需要對 Subagent 返回的結(jié)果進行總結(jié)歸納，判斷應(yīng)該直接返回最終答案，還是進行下一回合的任務(wù)分解。
Subagent：在隔離的上下文中并行工作，利用搜索和瀏覽等工具獲取特定信息。

為了訓(xùn)練這個系統(tǒng)，研究團隊在 GRPO 算法基礎(chǔ)上，針對多智能體、多回合場景進行了兩項關(guān)鍵改進：

多智能體優(yōu)勢分配（Multi-Agent Advantage Assignment）：多智能體協(xié)作中，最大的難題是 “功勞歸誰”。WideSeek-R1 將同一個樣本的最終獎勵共享給所有參與的 Agent，確立 “榮辱與共” 的協(xié)作目標(biāo)，避免復(fù)雜的信用分配導(dǎo)致的 Reward Hacking 。
優(yōu)勢雙重加權(quán)歸一（Dual-Level Advantage Reweighting）：
Token 級加權(quán)歸一：類似于 DAPO，確保長思維鏈的 Turn 在某一智能體里獲得足夠高的權(quán)重；
Agent 級加權(quán)歸一：確保增加 Agent 數(shù)量是為了真正提高質(zhì)量，而非僅僅為了 “湊人頭”。

圖2：WideSeek-R1 推理與訓(xùn)練流程概述

3. 構(gòu)造廣度信息搜索任務(wù)訓(xùn)練數(shù)據(jù)：

彌補開源社區(qū)領(lǐng)域空白

當(dāng)前開源數(shù)據(jù)集通常關(guān)注深度搜索任務(wù)，盡管已有一些廣度搜索訓(xùn)練集，但是數(shù)據(jù)量較小，無法滿足大規(guī)模 RL 訓(xùn)練。研究團隊填補了社區(qū)空白，開發(fā)了一套全自動的數(shù)據(jù)構(gòu)建流水線，基于 HybridQA 數(shù)據(jù)集，合成了20,000 條高質(zhì)量的廣度信息搜索任務(wù)。

這一流水線包含三個階段：

1.問題生成：提取用戶意圖并轉(zhuǎn)化為具有特定約束的廣度信息搜索問題；

2.答案生成：利用 Gemini-3-Pro 獨立生成兩個答案及唯一標(biāo)識列；

3.QA 對過濾：通過對兩個答案的一致性校驗和難度過濾，得到最終高質(zhì)量數(shù)據(jù)集。

圖3: 三階段自動化數(shù)據(jù)構(gòu)建流程概述

4. 實驗結(jié)果

(1) 多智能體 4B 模型在 WideSearch 上追平單智能體 671B 模型

表1: WideSearch 主實驗結(jié)果

研究團隊在公開的廣度信息搜索測評任務(wù) WideSearch 上，對現(xiàn)有單智能體、多智能體 baseline 進行測試，實驗數(shù)據(jù)顯示，WideSeek-R1-4B 取得了 40.0% 的 Item F1 分?jǐn)?shù)：

相比未訓(xùn)練的 Qwen3-4B 多智能體基線提升了 8.8% 。
相比同參數(shù)的單智能體版本 SingleSeek-R1-4B 提升了 11.9% 。
最重要的是，這一成績與單智能體 DeepSeek-R1-671B 幾乎持平，而參數(shù)量僅為后者的 1/170 。

(2) 驗證「廣度擴展」定律

圖4: 面向測試時計算資源的深度與廣度擴展性能對比

文章最核心的發(fā)現(xiàn)之一在于 Scaling 行為的對比：

深度擴展（Depth Scaling）：隨著推理步數(shù)增加，單智能體性能很快飽和，甚至因上下文過長而下降。
廣度擴展（Width Scaling）：在單智能體性能飽和情況下，增加并行 Subagent 的數(shù)量（從 1 到 10）展現(xiàn)了持續(xù)的性能增長潛力。在此基礎(chǔ)上，MARL 訓(xùn)練通過優(yōu)化協(xié)作機制，進一步顯著提升了系統(tǒng)的性能上限。

(3) 在標(biāo)準(zhǔn) QA 上保持性能

表2: 在傳統(tǒng)單跳與多跳QA任務(wù)上的實驗結(jié)果

在 NQ、HotpotQA 等 7 個標(biāo)準(zhǔn)問答數(shù)據(jù)集上，WideSeek-R1-4B 同樣表現(xiàn)出色，平均分達到 59.0%，優(yōu)于部分 7B/8B 的多智能體基線（如 AgentFlow, OWL 等），證明了模型并未因?qū)Ｗ⒂趶V度搜索而犧牲通用搜索能力。

(4) 消融實驗

圖5: 智能體模型的消融實驗（左圖），訓(xùn)練數(shù)據(jù)的消融實驗（右圖）

左圖：我們發(fā)現(xiàn)只有當(dāng) Lead-agent 和 Subagent 同時使用 WideSeek-R1-4B 時才能達到最佳性能，這驗證了端到端多智能體強化學(xué)習(xí)訓(xùn)練的重要性。

右圖：在相同數(shù)據(jù)集規(guī)模的前提下，在混合數(shù)據(jù)集（廣度 + 深度）上訓(xùn)練的模型表現(xiàn)始終優(yōu)于僅在單一類型數(shù)據(jù)集上訓(xùn)練的模型，表明廣度數(shù)據(jù)與深度數(shù)據(jù)提供了互補的增益。

5. 算法背后的工程哲學(xué)：

RLinf 的關(guān)鍵支撐

圖6: RLinf 多智能體強化學(xué)習(xí)訓(xùn)練架構(gòu)圖

WideSeek-R1 傳達的核心結(jié)論是：在廣度信息搜索場景里，Width Scaling + MARL確實能帶來進一步收益。這一結(jié)論除了需要“算法層面”的創(chuàng)新，更需要“系統(tǒng)層面”的強力支撐。例如：多智能體的調(diào)度、多工具的統(tǒng)一接入與管理、多會話的調(diào)度與隔離、動態(tài)會話與長尾問題的緩解，以及訓(xùn)練與推理間的高效切換與資源分配等。

為應(yīng)對上述系統(tǒng)挑戰(zhàn)，團隊將自研單智能體強化學(xué)習(xí)框架 RLinf 進一步擴展至多智能體強化學(xué)習(xí)場景。系統(tǒng)結(jié)構(gòu)如圖6所示，包含三個粒度：MARL 邏輯流、 Agent 工作流、以及工具庫、推理庫、訓(xùn)練庫等服務(wù)化組件。 MARL 邏輯流包含 Rollout 、訓(xùn)練與權(quán)重同步，由 RLinf Runner 實現(xiàn)。相較單智能體，多智能體強化學(xué)習(xí)的復(fù)雜邏輯主要體現(xiàn)在 Rollout 部分， RLinf 新增 AgentLoop 模塊負(fù)責(zé)執(zhí)行多智能體核心推理邏輯，即各智能體基于大模型進行交替的推理與工具調(diào)用。最細粒度的服務(wù)組件均繼承自 RLinf Worker ，從而可以靈活調(diào)用 RLinf 提供的通信接口，極大降低了開發(fā)復(fù)雜度。在多智能體場景中，如 lead-agent 與多個 Subagent ，可通過多個 SGLang 實例進行推理，僅需簡單配置即可拉起整套多組件交互流程。

在訓(xùn)練效率方面，框架引入了多項優(yōu)化：

樣本打包（Sample Packing）：將不同長度的樣本動態(tài)打包，使訓(xùn)練 token 更集中于有效計算，減少 padding 開銷，提升 GPU 利用率；在長序列、多輪 Agent 軌跡訓(xùn)練中，可顯著減少無效算力消耗并縮短單步時間。
多輪前綴合并（Multi-Turn Prefix Merging）：針對 Agent 多輪生成中后一輪 prompt 包含前一輪 prompt 與響應(yīng)的結(jié)構(gòu)特點，RLinf 可合并可復(fù)用前綴，避免重復(fù)前向與反向計算，在多輪工具調(diào)用場景中尤為有效。
面向Session的親和性請求分發(fā)：在通信層實現(xiàn)基于親和性的請求分發(fā)，保障多會話的合理調(diào)度。
高效權(quán)重同步：支持訓(xùn)練并行配置到推理并行配置的就地轉(zhuǎn)換，結(jié)合 NCCL / CUDAIPC 高帶寬同步路徑，降低頻繁同步的開銷，同時減少冗余權(quán)重拼接與中間態(tài)內(nèi)存占用，緩解同步階段的性能瓶頸與 OOM 風(fēng)險。
組件自動擴縮容：支持各組件的自動擴縮容，有效應(yīng)對動態(tài)性與長尾問題。

系統(tǒng)性能效果：WideSeek-R1通過廣度拓展有效拓展信息獲取的范圍，而廣度的拓展是通過更多的并行subagents完成的。從下圖實驗數(shù)據(jù)可見，通過高效的系統(tǒng)實現(xiàn)與并發(fā)優(yōu)化，拓展一倍的subagents的數(shù)量并沒有帶來明顯的eval時間的增加，充分說明系統(tǒng)在scaling上的有效性。

圖7: Agent scaling性能對比

6. 結(jié)語

WideSeek-R1 表明搜索不僅要Deep，還要Wide，同時也表明新一代科研的形態(tài)需要“算法創(chuàng)新 + 系統(tǒng)支撐”雙管齊下。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.