国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華、無問芯穹發(fā)布多智能體WideSeek-R1,4B模型比肩671B模型!

0
分享至



DeepSeek-R1 的成功證明了「深度擴展(Depth Scaling)」在解決復(fù)雜邏輯推理上的巨大潛力。AI 社區(qū)開始思考另一個維度的可能性:當(dāng)任務(wù)不僅需要深度的推理,更需要極寬廣度的信息搜集時,單一的大模型還是最優(yōu)解嗎?

設(shè)想這樣一個場景:你需要整理 “2025 年全球前 50 大科技公司的營收、凈利潤及研發(fā)投入對比表”。這是一個典型的廣度信息搜索任務(wù)。對于單個大模型而言,哪怕它是擁有 671B 參數(shù)的超大模型,面對這種需要數(shù)十次檢索,往往會陷入上下文信息干擾和串行效率低的問題,而顯得力不從心。

近日,來自清華大學(xué)與無問芯穹的 RLinf 團隊提出了一種全新的互補維度 ——「廣度擴展(Width Scaling)」,并以此發(fā)布了多智能體系統(tǒng)WideSeek-R1。不同于以往依賴人工設(shè)計工作流的多智能體系統(tǒng),該工作采用了一種「Lead-agent-Subagent」的分層多智能體框架 ,并通過多智能體強化學(xué)習(xí)(MARL)進行端到端訓(xùn)練,展現(xiàn)出靈活的規(guī)模化調(diào)度高效的并發(fā)處理能力。

實驗結(jié)果顯示,4B 參數(shù)的 WideSeek-R1 在廣度搜索任務(wù)上的表現(xiàn)達到了40%的 Item F1指標(biāo),不僅看齊 671B 參數(shù)的 DeepSeek-R1 單智能體,更大幅超越了同參數(shù)規(guī)模的基線模型。



  • 論文標(biāo)題:WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2602.04634
  • 項目主頁:https://wideseek-r1.github.io
  • 代碼文檔:https://rlinf.readthedocs.io/en/latest/rst_source/examples/agentic/wideseek_r1/index.html
  • Hugging Face 模型和數(shù)據(jù):https://huggingface.co/collections/RLinf/wideseek-r1

1. 只有「深度」還不夠,

搜索需要「廣度」

過去一年,大模型的進步主要集中在深度擴展上。像 OpenAI o1 或 DeepSeek-R1 這樣的模型,通過增加推理步數(shù)來解決復(fù)雜難題。

然而,隨著任務(wù)廣度的增加,瓶頸從 “個體能力” 轉(zhuǎn)移到了 “組織能力”。

在廣度信息搜索任務(wù)中,單智能體面臨兩大痛點:

1.上下文干擾:隨著檢索信息的堆積,無關(guān)信息會干擾模型對后續(xù)子任務(wù)的判斷。

2.串行效率低:依次處理數(shù)十個獨立的子任務(wù)不僅慢,而且容易因序列過長而遺忘有用信息,導(dǎo)致任務(wù)失敗。

對此,WideSeek-R1 給出的答案是:用多智能體系統(tǒng) + MARL 實現(xiàn)廣度擴展。



圖1:深度擴展與廣度擴展的對比

當(dāng)傳統(tǒng)的深度擴展(藍色曲線)依賴單智能體多輪串行推理而逐漸遭遇性能瓶頸時,廣度擴展(粉色曲線)通過增加智能體個數(shù),通過多智能體并行執(zhí)行開辟了新的增長路徑;而我們提出的WideSeek-R1(紅色星號),通過多智能體強化學(xué)習(xí)(MARL)進一步實現(xiàn)了調(diào)度與執(zhí)行的協(xié)同優(yōu)化,證明了在廣度信息搜索任務(wù)中,協(xié)同的 “寬度” 擴展能帶來比 “深度” 更顯著的性能飛躍。

2. WideSeek-R1:采用端到端 MARL

訓(xùn)練 “編排” 和 “執(zhí)行” 能力

現(xiàn)有的多智能體系統(tǒng)大多依賴手動設(shè)計的工作流(Hand-crafted workflows)或簡單的輪流對話,難以實現(xiàn)真正的并行高效協(xié)作。

WideSeek-R1 引入了一個「Lead-agent-Subagent」的層級框架,并用多智能體強化學(xué)習(xí)(MARL)端到端訓(xùn)練:

  • Lead-agent:負(fù)責(zé)將一個寬泛的復(fù)雜問題分解為獨立的子任務(wù),可調(diào)度多個 Subagents 并行執(zhí)行。同時也需要對 Subagent 返回的結(jié)果進行總結(jié)歸納,判斷應(yīng)該直接返回最終答案,還是進行下一回合的任務(wù)分解。
  • Subagent:在隔離的上下文中并行工作,利用搜索和瀏覽等工具獲取特定信息。

為了訓(xùn)練這個系統(tǒng),研究團隊在 GRPO 算法基礎(chǔ)上,針對多智能體、多回合場景進行了兩項關(guān)鍵改進:

  • 多智能體優(yōu)勢分配(Multi-Agent Advantage Assignment):多智能體協(xié)作中,最大的難題是 “功勞歸誰”。WideSeek-R1 將同一個樣本的最終獎勵共享給所有參與的 Agent,確立 “榮辱與共” 的協(xié)作目標(biāo),避免復(fù)雜的信用分配導(dǎo)致的 Reward Hacking 。
  • 優(yōu)勢雙重加權(quán)歸一(Dual-Level Advantage Reweighting):
  • Token 級加權(quán)歸一: 類似于 DAPO,確保長思維鏈的 Turn 在某一智能體里獲得足夠高的權(quán)重;
  • Agent 級加權(quán)歸一: 確保增加 Agent 數(shù)量是為了真正提高質(zhì)量,而非僅僅為了 “湊人頭”。



圖2:WideSeek-R1 推理與訓(xùn)練流程概述

3. 構(gòu)造廣度信息搜索任務(wù)訓(xùn)練數(shù)據(jù):

彌補開源社區(qū)領(lǐng)域空白

當(dāng)前開源數(shù)據(jù)集通常關(guān)注深度搜索任務(wù),盡管已有一些廣度搜索訓(xùn)練集,但是數(shù)據(jù)量較小,無法滿足大規(guī)模 RL 訓(xùn)練。研究團隊填補了社區(qū)空白,開發(fā)了一套全自動的數(shù)據(jù)構(gòu)建流水線,基于 HybridQA 數(shù)據(jù)集,合成了20,000 條高質(zhì)量的廣度信息搜索任務(wù)。

這一流水線包含三個階段 :

1.問題生成:提取用戶意圖并轉(zhuǎn)化為具有特定約束的廣度信息搜索問題;

2.答案生成:利用 Gemini-3-Pro 獨立生成兩個答案及唯一標(biāo)識列;

3.QA 對過濾:通過對兩個答案的一致性校驗和難度過濾,得到最終高質(zhì)量數(shù)據(jù)集。



圖3: 三階段自動化數(shù)據(jù)構(gòu)建流程概述

4. 實驗結(jié)果

(1) 多智能體 4B 模型在 WideSearch 上追平單智能體 671B 模型



表1: WideSearch 主實驗結(jié)果

研究團隊在公開的廣度信息搜索測評任務(wù) WideSearch 上,對現(xiàn)有單智能體、多智能體 baseline 進行測試,實驗數(shù)據(jù)顯示,WideSeek-R1-4B 取得了 40.0% 的 Item F1 分?jǐn)?shù)

  • 相比未訓(xùn)練的 Qwen3-4B 多智能體基線提升了 8.8% 。
  • 相比同參數(shù)的單智能體版本 SingleSeek-R1-4B 提升了 11.9% 。
  • 最重要的是,這一成績與單智能體 DeepSeek-R1-671B 幾乎持平,而參數(shù)量僅為后者的 1/170 。

(2) 驗證「廣度擴展」定律



圖4: 面向測試時計算資源的深度與廣度擴展性能對比

文章最核心的發(fā)現(xiàn)之一在于 Scaling 行為的對比:

  • 深度擴展(Depth Scaling):隨著推理步數(shù)增加,單智能體性能很快飽和,甚至因上下文過長而下降。
  • 廣度擴展(Width Scaling):在單智能體性能飽和情況下,增加并行 Subagent 的數(shù)量(從 1 到 10)展現(xiàn)了持續(xù)的性能增長潛力。在此基礎(chǔ)上,MARL 訓(xùn)練通過優(yōu)化協(xié)作機制,進一步顯著提升了系統(tǒng)的性能上限。

(3) 在標(biāo)準(zhǔn) QA 上保持性能



表2: 在傳統(tǒng)單跳與多跳QA任務(wù)上的實驗結(jié)果

在 NQ、HotpotQA 等 7 個標(biāo)準(zhǔn)問答數(shù)據(jù)集上,WideSeek-R1-4B 同樣表現(xiàn)出色,平均分達到 59.0%,優(yōu)于部分 7B/8B 的多智能體基線(如 AgentFlow, OWL 等),證明了模型并未因?qū)W⒂趶V度搜索而犧牲通用搜索能力。

(4) 消融實驗



圖5: 智能體模型的消融實驗(左圖),訓(xùn)練數(shù)據(jù)的消融實驗(右圖)

左圖:我們發(fā)現(xiàn)只有當(dāng) Lead-agent 和 Subagent 同時使用 WideSeek-R1-4B 時才能達到最佳性能,這驗證了端到端多智能體強化學(xué)習(xí)訓(xùn)練的重要性。

右圖:在相同數(shù)據(jù)集規(guī)模的前提下,在混合數(shù)據(jù)集(廣度 + 深度)上訓(xùn)練的模型表現(xiàn)始終優(yōu)于僅在單一類型數(shù)據(jù)集上訓(xùn)練的模型,表明廣度數(shù)據(jù)與深度數(shù)據(jù)提供了互補的增益。

5. 算法背后的工程哲學(xué):

RLinf 的關(guān)鍵支撐



圖6: RLinf 多智能體強化學(xué)習(xí)訓(xùn)練架構(gòu)圖

WideSeek-R1 傳達的核心結(jié)論是:在廣度信息搜索場景里,Width Scaling + MARL確實能帶來進一步收益。這一結(jié)論除了需要“算法層面”的創(chuàng)新,更需要“系統(tǒng)層面”的強力支撐。例如:多智能體的調(diào)度、多工具的統(tǒng)一接入與管理、多會話的調(diào)度與隔離、動態(tài)會話與長尾問題的緩解,以及訓(xùn)練與推理間的高效切換與資源分配等。

為應(yīng)對上述系統(tǒng)挑戰(zhàn),團隊將自研單智能體強化學(xué)習(xí)框架 RLinf 進一步擴展至多智能體強化學(xué)習(xí)場景。系統(tǒng)結(jié)構(gòu)如圖6所示,包含三個粒度:MARL 邏輯流、 Agent 工作流、以及工具庫、推理庫、訓(xùn)練庫等服務(wù)化組件。 MARL 邏輯流包含 Rollout 、訓(xùn)練與權(quán)重同步,由 RLinf Runner 實現(xiàn)。相較單智能體,多智能體強化學(xué)習(xí)的復(fù)雜邏輯主要體現(xiàn)在 Rollout 部分, RLinf 新增 AgentLoop 模塊負(fù)責(zé)執(zhí)行多智能體核心推理邏輯,即各智能體基于大模型進行交替的推理與工具調(diào)用。最細粒度的服務(wù)組件均繼承自 RLinf Worker ,從而可以靈活調(diào)用 RLinf 提供的通信接口,極大降低了開發(fā)復(fù)雜度。在多智能體場景中,如 lead-agent 與多個 Subagent ,可通過多個 SGLang 實例進行推理,僅需簡單配置即可拉起整套多組件交互流程。

在訓(xùn)練效率方面,框架引入了多項優(yōu)化:

  • 樣本打包(Sample Packing):將不同長度的樣本動態(tài)打包,使訓(xùn)練 token 更集中于有效計算,減少 padding 開銷,提升 GPU 利用率;在長序列、多輪 Agent 軌跡訓(xùn)練中,可顯著減少無效算力消耗并縮短單步時間。
  • 多輪前綴合并(Multi-Turn Prefix Merging):針對 Agent 多輪生成中后一輪 prompt 包含前一輪 prompt 與響應(yīng)的結(jié)構(gòu)特點,RLinf 可合并可復(fù)用前綴,避免重復(fù)前向與反向計算,在多輪工具調(diào)用場景中尤為有效。
  • 面向Session的親和性請求分發(fā):在通信層實現(xiàn)基于親和性的請求分發(fā),保障多會話的合理調(diào)度。
  • 高效權(quán)重同步:支持訓(xùn)練并行配置到推理并行配置的就地轉(zhuǎn)換,結(jié)合 NCCL / CUDAIPC 高帶寬同步路徑,降低頻繁同步的開銷,同時減少冗余權(quán)重拼接與中間態(tài)內(nèi)存占用,緩解同步階段的性能瓶頸與 OOM 風(fēng)險。
  • 組件自動擴縮容:支持各組件的自動擴縮容,有效應(yīng)對動態(tài)性與長尾問題。

系統(tǒng)性能效果:WideSeek-R1通過廣度拓展有效拓展信息獲取的范圍,而廣度的拓展是通過更多的并行subagents完成的。從下圖實驗數(shù)據(jù)可見,通過高效的系統(tǒng)實現(xiàn)與并發(fā)優(yōu)化,拓展一倍的subagents的數(shù)量并沒有帶來明顯的eval時間的增加,充分說明系統(tǒng)在scaling上的有效性。



圖7: Agent scaling性能對比

6. 結(jié)語

WideSeek-R1 表明搜索不僅要Deep,還要Wide,同時也表明新一代科研的形態(tài)需要“算法創(chuàng)新 + 系統(tǒng)支撐”雙管齊下。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
C羅缺席葡萄牙悶平!4年第一次,57年首遭墨西哥零封,拉莫斯中柱

C羅缺席葡萄牙悶平!4年第一次,57年首遭墨西哥零封,拉莫斯中柱

奧拜爾
2026-03-29 10:59:02
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
上萬民眾自發(fā)趕來送別張雪峰!祭品中的黃桃罐頭和餃子,讓人淚目

上萬民眾自發(fā)趕來送別張雪峰!祭品中的黃桃罐頭和餃子,讓人淚目

火山詩話
2026-03-28 11:57:22
打不過就道德綁架!以色列一市長痛哭怒斥戰(zhàn)爭,絲毫沒有悔過之意

打不過就道德綁架!以色列一市長痛哭怒斥戰(zhàn)爭,絲毫沒有悔過之意

滄海旅行家
2026-03-27 15:07:47
女兒高二抑郁癥在家躺平,公公抑郁老年癡呆!深圳寶媽哭訴怎么辦

女兒高二抑郁癥在家躺平,公公抑郁老年癡呆!深圳寶媽哭訴怎么辦

火山詩話
2026-03-29 07:31:07
李鑫回到養(yǎng)家開懷大笑,終于明白,一句話斷了姐姐念想是對的

李鑫回到養(yǎng)家開懷大笑,終于明白,一句話斷了姐姐念想是對的

奇思妙想草葉君
2026-03-27 15:12:36
翻到張雪峰2016年婚紗照,瞬間看哭了!

翻到張雪峰2016年婚紗照,瞬間看哭了!

魔都姐姐雜談
2026-03-26 22:06:50
時代最令人失望者!加州州長怒批馬斯克:親手將美國電車王冠讓給了中國

時代最令人失望者!加州州長怒批馬斯克:親手將美國電車王冠讓給了中國

快科技
2026-03-27 14:18:12
晚清首富盛宣懷:家有兩女傭,一個生了宋美齡,另一個生了趙一荻

晚清首富盛宣懷:家有兩女傭,一個生了宋美齡,另一個生了趙一荻

近史博覽
2026-03-29 05:15:10
“出去!”店老板當(dāng)頭棒喝治愈女子“桃花癲”

“出去!”店老板當(dāng)頭棒喝治愈女子“桃花癲”

賓語觀世
2026-03-29 11:12:28
國家一級女演員陳麗云被逮捕!

國家一級女演員陳麗云被逮捕!

許三歲
2026-03-28 09:24:30
1996年, 施瓦辛格在家中無事,和35歲200斤女傭發(fā)生不當(dāng)關(guān)系

1996年, 施瓦辛格在家中無事,和35歲200斤女傭發(fā)生不當(dāng)關(guān)系

南權(quán)先生
2026-01-20 15:49:53
中年男人無妻是啥體驗?網(wǎng)友:沒錢苦一輩子,跟結(jié)婚不結(jié)婚沒關(guān)系

中年男人無妻是啥體驗?網(wǎng)友:沒錢苦一輩子,跟結(jié)婚不結(jié)婚沒關(guān)系

帶你感受人間冷暖
2026-03-28 17:20:05
萊卡,破產(chǎn)了

萊卡,破產(chǎn)了

放毒
2026-03-28 23:42:18
都說姚安娜這是來“整頓娛樂圈”的吧。
自打她進圈之后,

都說姚安娜這是來“整頓娛樂圈”的吧。 自打她進圈之后,

小光侃娛樂
2026-03-29 09:00:14
楊絳先生說:女人最大的悲哀就是一輩子都沒弄明白一個簡單的道理,那就是這個世界,終其一生都是你一個人

楊絳先生說:女人最大的悲哀就是一輩子都沒弄明白一個簡單的道理,那就是這個世界,終其一生都是你一個人

每日一首古詩詞
2026-03-29 06:08:10
某園區(qū)攝像頭時常自動旋轉(zhuǎn),國家安全機關(guān)查驗發(fā)現(xiàn):監(jiān)控系統(tǒng)密碼為出廠默認(rèn),境外黑客開展“撞庫”攻擊成功登錄

某園區(qū)攝像頭時常自動旋轉(zhuǎn),國家安全機關(guān)查驗發(fā)現(xiàn):監(jiān)控系統(tǒng)密碼為出廠默認(rèn),境外黑客開展“撞庫”攻擊成功登錄

揚子晚報
2026-03-28 07:40:48
伊朗議長:伊朗將加速以軍崩潰

伊朗議長:伊朗將加速以軍崩潰

新華社
2026-03-29 00:33:08
大清都亡了一百多年了,還有航司在讓飛行員寫檢討

大清都亡了一百多年了,還有航司在讓飛行員寫檢討

民航大腦殼
2026-03-28 08:05:43
四川一女子打印資料后要求店員幫忙歸類整理,店員解釋事先已經(jīng)告知,只負(fù)責(zé)打印,女子突然情緒崩潰大聲叫喊,被老板“怒吼”要求出去

四川一女子打印資料后要求店員幫忙歸類整理,店員解釋事先已經(jīng)告知,只負(fù)責(zé)打印,女子突然情緒崩潰大聲叫喊,被老板“怒吼”要求出去

瀟湘晨報
2026-03-29 10:16:35
2026-03-29 11:52:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142598關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊?

娛樂要聞

張凌赫事件持續(xù)升級!官方點名怒批

財經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態(tài)度原創(chuàng)

藝術(shù)
健康
教育
時尚
手機

藝術(shù)要聞

2025江南如畫——中國油畫作品展 | 入選作品選刊(二)

干細胞抗衰4大誤區(qū),90%的人都中招

教育要聞

深圳老師借盤古開天地講創(chuàng)新,唯有開拓創(chuàng)新才能獲得新生!

和田曦薇一樣嫩嘟嘟,這3個變美技巧你一定不能錯過!

手機要聞

市場提升20%,2月排名出爐,華為笑到最后

無障礙瀏覽 進入關(guān)懷版