国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepMind:智能體越多越亂,Agent天花板出現(xiàn)了?

0
分享至

機(jī)器之心編輯部

在最近 AI 領(lǐng)域內(nèi),智能體(Agent)的研究和應(yīng)用越來越多,原生多智能體工作的基礎(chǔ)模型也已開始出現(xiàn)。

作為一個(gè)能夠推理、規(guī)劃和行動(dòng)的系統(tǒng),智能體正逐漸成為現(xiàn)實(shí)世界人工智能應(yīng)用的常見范式。從編程助手到私人健康教練,AI 應(yīng)用正從單次問答轉(zhuǎn)向持續(xù)的多步驟交互。盡管研究人員長(zhǎng)期以來一直利用既定指標(biāo)來優(yōu)化傳統(tǒng)機(jī)器學(xué)習(xí)模型的準(zhǔn)確性,但 AI 智能體引入了新的復(fù)雜性。

與孤立的預(yù)測(cè)不同,AI 智能體必須應(yīng)對(duì)持續(xù)的多步驟交互,其中單個(gè)錯(cuò)誤可能會(huì)在整個(gè)工作流程中引發(fā)連鎖反應(yīng)。這種轉(zhuǎn)變促使我們超越標(biāo)準(zhǔn)的準(zhǔn)確性進(jìn)行思考:究竟該如何設(shè)計(jì)這些系統(tǒng)才能實(shí)現(xiàn)最佳性能?

在實(shí)踐上,我們常常依賴啟發(fā)式方法,例如「智能體越多越好」的假設(shè),認(rèn)為增加專業(yè)智能體就能持續(xù)提升結(jié)果。論文《More Agents Is All You Need》指出,大語言模型(LLM)的性能會(huì)隨著智能體數(shù)量的增加而提升,而《Scaling Large Language Model-based Multi-Agent Collaboration》發(fā)現(xiàn),多智能體協(xié)作「…… 通常通過集體推理超越單個(gè)智能體的性能」。

在 Google DeepMind 的新論文中,研究人員對(duì)這一假設(shè)提出了挑戰(zhàn)。通過對(duì) 180 種智能體配置進(jìn)行大規(guī)模受控評(píng)估,DeepMind 推導(dǎo)出了智能體系統(tǒng)的首個(gè)定量規(guī)?;瓌t,揭示了「增加智能體數(shù)量」的方法往往會(huì)遇到瓶頸,如果與任務(wù)的具體屬性不匹配,甚至?xí)档托阅堋?/p>



  • 論文:Towards a Science of Scaling Agent Systems
  • 鏈接:https://arxiv.org/abs/2512.08296

定義「智能體」評(píng)估

為了理解智能體如何擴(kuò)展,研究人員首先定義了「智能體任務(wù)」的構(gòu)成要素。傳統(tǒng)的靜態(tài)基準(zhǔn)測(cè)試衡量模型的知識(shí)水平,但無法捕捉部署的復(fù)雜性。其認(rèn)為智能體任務(wù)需要具備三個(gè)特定屬性:

1. 與外部環(huán)境持續(xù)進(jìn)行多步驟互動(dòng);

2. 在部分可觀測(cè)性條件下進(jìn)行迭代信息收集;

3. 基于環(huán)境反饋的自適應(yīng)策略改進(jìn)。

研究人員評(píng)估了五種典型架構(gòu):一種單智能體系統(tǒng) (SAS) 和四種多智能體變體(獨(dú)立式、集中式、分散式和混合式),并在四個(gè)不同的基準(zhǔn)測(cè)試中進(jìn)行了測(cè)試,包括 Finance-Agent(金融推理)、BrowseComp-Plus(網(wǎng)頁導(dǎo)航)、PlanCraft(規(guī)劃)和 Workbench(工具使用)。智能體架構(gòu)定義如下:

  • 單智能體(SAS):一個(gè)獨(dú)立的智能體,使用統(tǒng)一的記憶流按順序執(zhí)行所有推理和行動(dòng)步驟;
  • 獨(dú)立:多個(gè)智能體并行處理子任務(wù),彼此不進(jìn)行通信,僅在最后匯總結(jié)果;
  • 集中式:一種「中心輻射式」模型,有中央?yún)f(xié)調(diào)者將任務(wù)委派給作業(yè)者并綜合他們的輸出;
  • 去中心化:一種點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò),其中的智能體直接相互通信,共享信息并達(dá)成共識(shí);
  • 混合型:結(jié)合層級(jí)監(jiān)督和點(diǎn)對(duì)點(diǎn)協(xié)調(diào),以平衡中央控制和靈活執(zhí)行。



本研究評(píng)估了五種典型的智能體架構(gòu),并總結(jié)了它們的計(jì)算復(fù)雜度、通信開銷和協(xié)調(diào)機(jī)制。k = 每個(gè)智能體的最大迭代次數(shù), n = 智能體數(shù)量, r = 協(xié)調(diào)器輪數(shù), d = 辯論輪數(shù), p = 對(duì)等通信輪數(shù), m = 每輪平均對(duì)等請(qǐng)求數(shù)。通信開銷統(tǒng)計(jì)智能體間的消息交換次數(shù)。獨(dú)立架構(gòu)以最小的協(xié)調(diào)實(shí)現(xiàn)最大程度的并行化。去中心化架構(gòu)采用順序辯論輪次?;旌霞軜?gòu)結(jié)合了協(xié)調(diào)器控制和定向?qū)Φ韧ㄐ拧?/p>

結(jié)果:「增加智能體」只是神話

為了量化模型能力對(duì)智能體性能的影響,DeepMind 評(píng)估了這些架構(gòu)在三大主流模型系列(OpenAI GPT、Google Gemini 和 Anthropic Claude)上的表現(xiàn)。結(jié)果揭示了模型能力與協(xié)調(diào)策略之間復(fù)雜的關(guān)聯(lián)。

如下圖所示,雖然性能通常會(huì)隨著模型能力的提升而提高,但多智能體系統(tǒng)并非萬能解決方案 —— 根據(jù)具體配置的不同,它們既可能顯著提升性能,也可能意外地降低性能。



對(duì)三大主要模型系列(OpenAI GPT、Google Gemini、Anthropic Claude)的性能比較,展示了不同的智能體架構(gòu)如何隨著模型智能的提升而擴(kuò)展,其中多智能體系統(tǒng)可能會(huì)根據(jù)配置的不同而提升或降低性能。

以下結(jié)果比較了五種架構(gòu)在不同領(lǐng)域(例如網(wǎng)頁瀏覽和金融分析)的性能。箱線圖表示每種方法的準(zhǔn)確率分布,而百分比則表示多智能體團(tuán)隊(duì)相對(duì)于單智能體基線的相對(duì)改進(jìn)(或下降)。這些數(shù)據(jù)表明,雖然增加智能體可以顯著提升并行任務(wù)的性能,但在順序性更強(qiáng)的流程中,往往會(huì)導(dǎo)致收益遞減,甚至性能下降。



特定任務(wù)的性能表明,多智能體協(xié)調(diào)在可并行化的任務(wù)(如 Finance-Agent)上取得了顯著的收益(+81%),但在順序任務(wù)(如 PlanCraft)上的性能卻有所下降(-70%)。

對(duì)齊原則

對(duì)于像金融推理這樣可并行化的任務(wù)(例如,不同的智能體可以同時(shí)分析收入趨勢(shì)、成本結(jié)構(gòu)和市場(chǎng)對(duì)比),集中式協(xié)調(diào)比單個(gè)智能體的性能提升了 80.9%。將復(fù)雜問題分解為子任務(wù)的能力使得智能體能夠更高效地工作。

順序處罰

相反,在需要嚴(yán)格順序推理的任務(wù)(例如 PlanCraft 中的規(guī)劃)中,研究人員測(cè)試的每個(gè)多智能體變體的性能都下降了 39% 到 70%。在這些情況下,通信開銷會(huì)打斷推理過程,導(dǎo)致實(shí)際任務(wù)所需的「認(rèn)知預(yù)算」不足。

工具使用瓶頸

DeepMind 研究人員發(fā)現(xiàn)了一個(gè)「工具協(xié)調(diào)權(quán)衡」。隨著任務(wù)需要更多工具(例如一個(gè)編碼代理需要訪問 16 種以上的工具),協(xié)調(diào)多個(gè)智能體的「成本」會(huì)不成比例地增加。

安全特性

或許對(duì)實(shí)際部署而言最重要的是,該工作發(fā)現(xiàn)了架構(gòu)與可靠性之間的關(guān)系。DeepMind 測(cè)量了誤差放大率,即一個(gè)智能體的錯(cuò)誤傳播到最終結(jié)果的速率。



跨架構(gòu)的綜合指標(biāo)顯示,集中式系統(tǒng)在成功率和錯(cuò)誤控制之間實(shí)現(xiàn)了最佳平衡,而獨(dú)立的多智能體系統(tǒng)將錯(cuò)誤放大了高達(dá) 17.2 倍。

研究發(fā)現(xiàn),獨(dú)立的多智能體系統(tǒng)(智能體并行工作但不進(jìn)行通信)會(huì)將錯(cuò)誤放大 17.2 倍。由于缺乏相互檢查機(jī)制,錯(cuò)誤會(huì)不受控制地級(jí)聯(lián)傳播。集中式系統(tǒng)(帶有協(xié)調(diào)器)則將這種放大倍數(shù)控制在 4.4 倍。協(xié)調(diào)器有效地充當(dāng)了「驗(yàn)證瓶頸」,在錯(cuò)誤傳播之前將其捕獲。

智能體設(shè)計(jì)的預(yù)測(cè)模型

最后,作者不再局限于回顧性分析,而是開發(fā)了一個(gè)預(yù)測(cè)模型(R2 = 0.513),該模型利用工具數(shù)量和可分解性等可測(cè)量的任務(wù)屬性來預(yù)測(cè)哪種架構(gòu)性能最佳。該模型能夠正確識(shí)別 87% 未見過的任務(wù)配置的最佳協(xié)調(diào)策略。

這表明我們正在邁向智能體擴(kuò)展的新科學(xué)。開發(fā)者不再需要猜測(cè)是使用智能體集群還是單個(gè)強(qiáng)大的模型,而是可以根據(jù)任務(wù)的特性,特別是其順序依賴關(guān)系和工具密度,做出基于原則的工程決策。

結(jié)論

隨著 Gemini 等基礎(chǔ)模型的不斷發(fā)展,Google DeepMind 的研究表明,更智能的模型并不能取代多智能體系統(tǒng),而是加速了其發(fā)展,但這只有在架構(gòu)正確的情況下才能實(shí)現(xiàn)。通過從啟發(fā)式方法轉(zhuǎn)向定量原則,我們可以構(gòu)建下一代 AI 智能體,它們不僅數(shù)量更多,而且更智能、更安全、更高效。

參考內(nèi)容:

https://research.google/blog/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
斯諾克重磅官宣!奧沙利文出戰(zhàn)元老世錦賽!馬克威廉姆斯?fàn)幑诔袎?>
    </a>
        <h3>
      <a href=林子說事
2026-02-24 16:40:57
歐冠一夜4戰(zhàn)!將有4隊(duì)出線:頭號(hào)黑馬呼之欲出 2隊(duì)晉級(jí)無憂

歐冠一夜4戰(zhàn)!將有4隊(duì)出線:頭號(hào)黑馬呼之欲出 2隊(duì)晉級(jí)無憂

葉青足球世界
2026-02-24 09:46:59
《鏢人》原著作者許先哲的逆襲:欠債青年畫出“世界級(jí)水平中國動(dòng)漫精品”

《鏢人》原著作者許先哲的逆襲:欠債青年畫出“世界級(jí)水平中國動(dòng)漫精品”

封面新聞
2026-02-24 13:33:07
不能令人信服的通報(bào),媒體就別轉(zhuǎn)發(fā)了吧!

不能令人信服的通報(bào),媒體就別轉(zhuǎn)發(fā)了吧!

林中木白
2026-02-23 12:40:41
破案了!谷愛凌嘴里那個(gè)東西,關(guān)鍵時(shí)刻能救命,甚至能防腦震蕩!

破案了!谷愛凌嘴里那個(gè)東西,關(guān)鍵時(shí)刻能救命,甚至能防腦震蕩!

小娛樂悠悠
2026-02-24 12:57:58
三位軍長(zhǎng),同時(shí)被破格提拔,當(dāng)了大軍區(qū)司令

三位軍長(zhǎng),同時(shí)被破格提拔,當(dāng)了大軍區(qū)司令

文史茶館2020
2026-02-23 14:35:47
36 歲離婚女子獨(dú)自過年崩潰痛哭:沒老公沒孩子,誰還會(huì)娶我

36 歲離婚女子獨(dú)自過年崩潰痛哭:沒老公沒孩子,誰還會(huì)娶我

一盅情懷
2026-02-23 14:10:06
香港身份爛尾潮已來!12萬內(nèi)地中產(chǎn),正在被精準(zhǔn)收割

香港身份爛尾潮已來!12萬內(nèi)地中產(chǎn),正在被精準(zhǔn)收割

社會(huì)日日鮮
2026-02-22 04:38:12
毒梟死亡引發(fā)多州暴力事件 墨西哥總統(tǒng)呼吁民眾保持冷靜

毒梟死亡引發(fā)多州暴力事件 墨西哥總統(tǒng)呼吁民眾保持冷靜

極目新聞
2026-02-23 09:14:54
西部亂了,雷霆重返第1卻高興不起來,3-6名太激烈,附加賽無意義

西部亂了,雷霆重返第1卻高興不起來,3-6名太激烈,附加賽無意義

鐵甲西奇
2026-02-24 15:24:44
不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

我心縱橫天地間
2026-02-23 13:20:50
孔蒂與那不勒斯的緣分將盡!衛(wèi)冕冠軍那不勒斯賽季表現(xiàn)糟糕

孔蒂與那不勒斯的緣分將盡!衛(wèi)冕冠軍那不勒斯賽季表現(xiàn)糟糕

小驛拍客在北漂
2026-02-24 03:09:06
央媒曝光:14種品牌奶粉都是假的!原料為奶精+淀粉,已銷往全國

央媒曝光:14種品牌奶粉都是假的!原料為奶精+淀粉,已銷往全國

云舟史策
2026-02-23 16:26:54
國安部披露:境外反華勢(shì)力以快速“入籍”為餌,誘騙我國公民參加反華活動(dòng)

國安部披露:境外反華勢(shì)力以快速“入籍”為餌,誘騙我國公民參加反華活動(dòng)

澎湃新聞
2026-02-24 07:56:11
山姆超市偶遇金莎和孫丞瀟,金莎本人不年輕,一看就比老公大很多

山姆超市偶遇金莎和孫丞瀟,金莎本人不年輕,一看就比老公大很多

阿廢冷眼觀察所
2026-02-23 22:31:01
夢(mèng)鴿心中永遠(yuǎn)的痛:如今58歲的她,已經(jīng)為兒子鋪好下一條路了嗎?

夢(mèng)鴿心中永遠(yuǎn)的痛:如今58歲的她,已經(jīng)為兒子鋪好下一條路了嗎?

小熊侃史
2026-02-24 18:06:25
當(dāng)?shù)厝艘脖辉祝钊R酒樓屢教不改連夜被摘牌,老板透露身份還掙扎

當(dāng)?shù)厝艘脖辉?,蓬萊酒樓屢教不改連夜被摘牌,老板透露身份還掙扎

社會(huì)日日鮮
2026-02-24 09:27:23
從阿森納挖來的瑰寶!曼聯(lián)小將狂轟4球,青訓(xùn)主帥直言潛力未觸頂

從阿森納挖來的瑰寶!曼聯(lián)小將狂轟4球,青訓(xùn)主帥直言潛力未觸頂

夜白侃球
2026-02-24 18:59:48
59歲佟瑞欣近況曝光!娶生病變胖演員恩愛27年,兒女雙全很幸福

59歲佟瑞欣近況曝光!娶生病變胖演員恩愛27年,兒女雙全很幸福

代軍哥哥談娛樂
2026-02-23 09:47:05
中國正在大量囤油,一度吞掉世界9成囤量,有什么大事要發(fā)生?

中國正在大量囤油,一度吞掉世界9成囤量,有什么大事要發(fā)生?

森羅萬象視頻
2026-02-23 21:13:07
2026-02-24 20:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12344文章數(shù) 142569關(guān)注度
往期回顧 全部

科技要聞

AI顛覆發(fā)展最新犧牲品!IBM跳水重挫超13%

頭條要聞

20家日本實(shí)體被列入管制名單 中方:完全正當(dāng) 合理合法

頭條要聞

20家日本實(shí)體被列入管制名單 中方:完全正當(dāng) 合理合法

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個(gè)熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會(huì)照顧好3個(gè)孩子

財(cái)經(jīng)要聞

縣城消費(fèi)「限時(shí)繁榮」了十天

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

本地
親子
游戲
旅游
數(shù)碼

本地新聞

春花齊放2026:《駿馬奔騰迎新歲》

親子要聞

萌娃質(zhì)問老爸:媽媽為什么嫁給你,老爸的回答竟讓萌娃面露難色

天國拯救影視化官宣!主創(chuàng)卸任創(chuàng)意總監(jiān)全力投身

旅游要聞

海南2026年春節(jié)假期接待游客超1232萬人次

數(shù)碼要聞

宜鼎推出CXL AIC擴(kuò)展卡:可為兼容設(shè)備擴(kuò)展最大256GB內(nèi)存

無障礙瀏覽 進(jìn)入關(guān)懷版