国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI智能體不是越多越強:信息冗余構(gòu)成了LLM Agent Scaling的瓶頸

0
分享至



近年來,基于大語言模型的多智能體系統(tǒng)(LLM-based Multi-Agent Systems, MAS)被廣泛用于復雜推理任務。典型做法是讓多個 agent 獨立生成并通過投票或辯論等機制聚合決策,從而在算術(shù)推理、常識推斷與專業(yè)問答中提升準確率。

隨著 test-time compute(推理時計算)成為常見的能力提升手段,一個自然的問題隨之出現(xiàn):MAS 是否能通過不斷增加 agent 數(shù)量而持續(xù)變強?直覺上,這個設(shè)想似乎成立:類似 ensemble 或 self-consistency 的「多次采樣 + 聚合」往往能提高覆蓋正確答案的概率。

來自上海交通大學、UC Berkeley、加州理工學院以及約翰?霍普金斯大學的聯(lián)合研究論文Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity 表明:多智能體系統(tǒng)「擴不動」的真正原因,并不是 Agent 不夠多,而是信息冗余。 系統(tǒng)實驗發(fā)現(xiàn),單純堆規(guī)模收益迅速枯竭,而引入多樣性可以顯著延緩飽和、以更少的 Agent 獲得更強的性能。



  • 論文標題:Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity
  • 論文地址:https://arxiv.org/pdf/2602.03794
  • GitHub 代碼:https://github.com/SafeRL-Lab/Agent-Scaling

同質(zhì)擴展的失效:

規(guī)模帶來的收益迅速飽和

論文首先直接檢驗「增加 agent 數(shù)是否有效」。在同質(zhì)設(shè)置下,所有 agent 共享相同底座模型與系統(tǒng)提示(無 persona 差異,配置一致),采用兩類常見協(xié)作機制:

  • Vote:單輪獨立生成后多數(shù)投票;
  • Debate:多輪交互后再給出最終答案(交互 4 輪)。

僅改變 agent 數(shù) N,在 7 個基準任務(GSM8K、ARC、Formal Logic、TruthfulQA、HellaSwag、WinoGrande、Pro Medicine)上評估。



結(jié)果在不同任務與模型上高度一致:當 N 從 1 增至 2 或 4 時,性能通常明顯提升;但繼續(xù)增加 N 后,準確率迅速進入平臺期,邊際收益接近 0,部分設(shè)置甚至出現(xiàn)回落。這說明:在同質(zhì)配置下,單純堆疊更多 agent calls 并不能持續(xù)注入新的有效信息。

多樣性帶來的對照現(xiàn)象:

少量異質(zhì) agent 勝過大規(guī)模同質(zhì)系統(tǒng)

與同質(zhì)擴展的快速飽和形成鮮明對比的是,多樣性配置下的實驗結(jié)果。論文進一步比較了兩類系統(tǒng):一類由同一模型多次獨立運行構(gòu)成,另一類則由不同 backbone 模型或不同 persona prompt 組成。在匹配計算預算(固定總 agent calls)的前提下,異質(zhì)系統(tǒng)在同預算下整體更高,并且在更大的 N 上仍能保持增益。





為了更系統(tǒng)地理解這一現(xiàn)象,作者在實驗中將多樣性拆解為不同來源,包括 persona 多樣性、模型多樣性,以及二者結(jié)合的完全多樣性,并在統(tǒng)一設(shè)置下進行對比。

在 GSM8K、ARC、HellaSwag、TruthfulQA 等七個基準任務上,作者系統(tǒng)比較了:

  • Agent 完全一致(L1)
  • Agent Persona 多樣性(L2)
  • Base Model 多樣性(L3)
  • Persona多樣性兼Base Model多樣性(L4)

結(jié)果顯示,每引入一層新的多樣性,系統(tǒng)整體性能都會顯著上移;其中,模型多樣性和 persona 多樣性各自都具有獨立貢獻,而二者結(jié)合時效果最為顯著。



這一趨勢在效率層面體現(xiàn)得尤為明顯:在多個任務上,僅使用2 個完全異質(zhì)的 agent,就可以達到甚至超過16 個同質(zhì) agent的平均性能。



限制多智能體擴展的不是規(guī)模

而是信息冗余

將這些實驗結(jié)果串聯(lián)起來,論文在經(jīng)驗層面得出了一個清晰結(jié)論:多智能體系統(tǒng)的擴展瓶頸并不來自 agent 數(shù)量不足,而來自 agent 輸出之間的高度相關(guān)性。在同質(zhì)配置下,多個 agent 往往沿著相似的推理路徑生成答案,新增調(diào)用所帶來的大多是重復信息;而多樣性的作用,在于引入互補視角,降低輸出冗余,使系統(tǒng)能夠在相同甚至更小的計算預算下獲得更多有效證據(jù)。





基于這一系列實驗現(xiàn)象,作者進一步提出信息論分析框架,引入「有效信息通道」等概念,對「規(guī)模失效」與「多樣性優(yōu)勢」給出統(tǒng)一解釋。與其說這項工作提出了新的 agent 架構(gòu),不如說它明確指出:多智能體系統(tǒng)里真正稀缺的資源不是調(diào)用次數(shù),而是非冗余的信息來源

信息論視角:

性能由「有效信息」而非「調(diào)用次數(shù)」主導

作者考慮一個包含 N 個大模型智能體的多智能體系統(tǒng),每個智能體具有自身配置,包括基座模型(backbone model)、系統(tǒng)提示詞(system prompt)、角色設(shè)定(persona)與工具能力(tool access)。系統(tǒng)接收問題輸入 X,按預設(shè)工作流執(zhí)行若干次推理(記為 n 次),最終輸出答案。



從信息論角度,得到正確答案 Y 的成功率并不簡單由 N 與 n 決定,而取決于系統(tǒng)能夠提供多少關(guān)于 Y 的信息。作者用條件熵 H (Y|X) 刻畫任務的內(nèi)在難度:在給定問題 X 的情況下,正確答案 Y 仍然存在的剩余不確定性。

  • 同質(zhì)配置下,即便新增智能體,往往也只是在相似推理路徑下重復采樣,因而對降低不確定性幫助有限;
  • 異質(zhì)配置下,新增智能體更可能引入新的推理路徑,與既有路徑互補,從而更有效地減少不確定性。

為刻畫這一差異,作者定義:



在該設(shè)定下,作者基于若干建模假設(shè)推導出一個近似形式,用于刻畫趨勢而非精確預測。作者認為,系統(tǒng)可獲得的有效信息量(并據(jù)此關(guān)聯(lián)成功率)主要受如下量支配:



該結(jié)果強調(diào):影響系統(tǒng)性能的關(guān)鍵不在于 “智能體數(shù)量或推理次數(shù)”,而在于系統(tǒng)中有效信息通道的數(shù)量—— 也就是多樣化所帶來的非冗余信息規(guī)模。它也解釋了為何實踐中常見「邊際效益遞減」:當有效信息通道增長受限時,新增調(diào)用帶來的有效信息增量會快速衰減。

作者還給出了在實踐中估計有效信息通道 K 的方法,并在 GSM8K、ARC、Formal Logic、HellaSwag、WinoGrande、Pro Medicine 等數(shù)據(jù)集上驗證:經(jīng)驗成功率與理論預測總體吻合。



進一步地,作者將系統(tǒng)輸出拆分為「正確推理路徑」與「錯誤推理路徑」,分別估算其對應的有效信息通道數(shù)量。實驗一致表明:當正確推理路徑對應的有效信息通道更多時,多智能體系統(tǒng)表現(xiàn)更好。這意味著系統(tǒng)設(shè)計不應盲目追求多樣性本身,而應追求與任務相關(guān)的推理多樣性 —— 即提升與正確推理相關(guān)的有效信息通道數(shù)。



總結(jié)

論文的核心經(jīng)驗結(jié)論是:多智能體擴展的關(guān)鍵不在于把 N 做大,而在于讓新增調(diào)用帶來新的有效證據(jù)。只要輸出高度相關(guān),同質(zhì)擴展就會很快進入平臺期;而多樣性能夠提升效率,是因為它更可能產(chǎn)生互補推理路徑。換句話說,多智能體系統(tǒng)里稀缺的不是調(diào)用次數(shù),而是非冗余信息。

實踐上可以用一個簡單標準指導擴展:當增加 agent 主要帶來「同一思路的重復」 時,應停止堆同質(zhì)數(shù)量,轉(zhuǎn)而引入可控的異質(zhì)性(方法互補的 persona、不同模型家族、工具能力互補);只有當這些改動確實帶來額外增益時,再繼續(xù)擴大規(guī)模。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
錢楓近照曝光,肥頭大耳認不出,天天兄弟物是人非:還好退圈了

錢楓近照曝光,肥頭大耳認不出,天天兄弟物是人非:還好退圈了

娛說瑜悅
2026-02-27 17:37:41
彩票出現(xiàn)斷崖式暴跌,“花2元中500萬”沒人信了?原因引人深思

彩票出現(xiàn)斷崖式暴跌,“花2元中500萬”沒人信了?原因引人深思

平說財經(jīng)
2026-02-12 16:27:02
人民幣大幅升值,專家預測國內(nèi)通脹與資產(chǎn)價格或?qū)⒈q!

人民幣大幅升值,專家預測國內(nèi)通脹與資產(chǎn)價格或?qū)⒈q!

特約前排觀眾
2026-03-01 00:05:08
哈梅內(nèi)伊死了又如何?四層繼任體系加復仇劇本 美帝陷無處不戰(zhàn)墳場

哈梅內(nèi)伊死了又如何?四層繼任體系加復仇劇本 美帝陷無處不戰(zhàn)墳場

馬蹄燙嘴說美食
2026-03-01 10:45:21
幾塊錢的維生素B2,竟是高血壓克星?提醒:還有助改善性生活

幾塊錢的維生素B2,竟是高血壓克星?提醒:還有助改善性生活

橘子約定
2026-02-27 09:33:19
北京一男房東因聯(lián)系不上女租客,擔心出事,直接開鎖進了房間。

北京一男房東因聯(lián)系不上女租客,擔心出事,直接開鎖進了房間。

南權(quán)先生
2026-01-12 16:44:03
貴州29歲新娘拒上婚車,撒潑耍賴脫婚服就跑,網(wǎng)友:有備而來

貴州29歲新娘拒上婚車,撒潑耍賴脫婚服就跑,網(wǎng)友:有備而來

農(nóng)村情感故事
2026-02-28 19:52:43
周大福鑲金發(fā)夾賣2080元引熱議,“福”字部分金重0.42克,部分已賣斷貨;銷售:是miumiu的“高替”

周大福鑲金發(fā)夾賣2080元引熱議,“福”字部分金重0.42克,部分已賣斷貨;銷售:是miumiu的“高替”

臺州交通廣播
2026-03-01 10:55:14
“00后”陳某某被押赴刑場 執(zhí)行死刑

“00后”陳某某被押赴刑場 執(zhí)行死刑

閃電新聞
2026-02-07 16:53:35
王一博盜號風波升級!鞋碼衣服相機細節(jié)全對上,連杜華名字都對應

王一博盜號風波升級!鞋碼衣服相機細節(jié)全對上,連杜華名字都對應

萌神木木
2026-02-28 12:49:52
替補獻絕殺,盧卡庫時隔281天再次為那不勒斯進球

替補獻絕殺,盧卡庫時隔281天再次為那不勒斯進球

懂球帝
2026-03-01 03:14:27
撒貝寧一家回武漢走完親戚返京!老婆太漂亮,龍鳳胎身高沒有隨爹

撒貝寧一家回武漢走完親戚返京!老婆太漂亮,龍鳳胎身高沒有隨爹

大中國
2026-02-26 18:05:01
據(jù)以色列稱,伊朗的反擊并沒有給以方造成任何重大損害

據(jù)以色列稱,伊朗的反擊并沒有給以方造成任何重大損害

一種觀點
2026-02-28 20:00:44
與名模離婚凈身出戶5年后,40歲的前男籃國手孫悅,今已判若兩人

與名模離婚凈身出戶5年后,40歲的前男籃國手孫悅,今已判若兩人

小熊侃史
2026-02-16 07:10:12
消息人士稱哈梅內(nèi)伊正掌控戰(zhàn)局

消息人士稱哈梅內(nèi)伊正掌控戰(zhàn)局

界面新聞
2026-03-01 07:16:37
該輪到古巴了!特朗普放話“友好接管”,拉美再現(xiàn)強權(quán)博弈

該輪到古巴了!特朗普放話“友好接管”,拉美再現(xiàn)強權(quán)博弈

老馬拉車莫少裝
2026-03-01 01:01:03
第一天戰(zhàn)況驚人:美以空襲史上最大,伊朗高層團滅,包括哈梅內(nèi)伊

第一天戰(zhàn)況驚人:美以空襲史上最大,伊朗高層團滅,包括哈梅內(nèi)伊

云鵬敘事
2026-03-01 09:41:59
這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關(guān)!

這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關(guān)!

蜉蝣說
2026-01-29 14:46:50
不被任何人拿捏的頂級思維:不要回答別人的問題,要回答別人的目的

不被任何人拿捏的頂級思維:不要回答別人的問題,要回答別人的目的

古代經(jīng)典
2026-02-25 15:40:12
全面開戰(zhàn)!美以對伊朗狂轟濫炸,高層遭斬首、民心盡失

全面開戰(zhàn)!美以對伊朗狂轟濫炸,高層遭斬首、民心盡失

老馬拉車莫少裝
2026-03-01 00:09:55
2026-03-01 12:04:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

伊朗伊斯蘭革命衛(wèi)隊總司令身亡

頭條要聞

伊朗伊斯蘭革命衛(wèi)隊總司令身亡

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

《江山為聘》:吳謹言陳哲遠燃炸朝堂

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

小米汽車2月交付超20000臺 雷軍:為新SU7量產(chǎn)作準備

態(tài)度原創(chuàng)

房產(chǎn)
家居
手機
教育
軍事航空

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

家居要聞

素色肌理 品意式格調(diào)

手機要聞

華為HarmonyOS 6花粉Beta版更新包超18G,曝端側(cè)模型占大半

教育要聞

稅務專業(yè)別選錯!精準定位財政學類

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實時戰(zhàn)況

無障礙瀏覽 進入關(guān)懷版