国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

谷歌發(fā)布智能體Scaling Law:180組實(shí)驗(yàn)打破傳統(tǒng)煉金術(shù)

0
分享至




機(jī)器之心報(bào)道

編輯:Panda

智能體(Agent),即基于語言模型且具備推理、規(guī)劃和行動(dòng)能力的系統(tǒng),正在成為現(xiàn)實(shí)世界 AI 應(yīng)用的主導(dǎo)范式。

盡管其已被廣泛采用,但決定其性能的原則仍未被充分探索,導(dǎo)致從業(yè)者只能依賴啟發(fā)式經(jīng)驗(yàn),而非有原理依托的設(shè)計(jì)選擇。

現(xiàn)在,谷歌的一篇新論文填補(bǔ)了這一空白!

他們通過大量實(shí)驗(yàn)找到了智能體的 Scaling Law,只不過他們將其稱為quantitative scaling principles,即定量擴(kuò)展原則。



  • 論文標(biāo)題:Towards a Science of Scaling Agent Systems
  • 論文地址:https://arxiv.org/abs/2512.08296

具體來說,他們將這種擴(kuò)展定義為智能體數(shù)量、協(xié)作結(jié)構(gòu)、模型能力和任務(wù)屬性之間的相互作用。

他們?cè)谒膫€(gè)不同的基準(zhǔn)測(cè)試中對(duì)此進(jìn)行了評(píng)估:Finance-Agent(金融推理)、BrowseComp-Plus(網(wǎng)絡(luò)導(dǎo)航)、PlanCraft(游戲規(guī)劃)和 Workbench(工作流執(zhí)行)。



利用五種典型的智能體架構(gòu)(單智能體系統(tǒng)以及四種多智能體系統(tǒng):獨(dú)立型、中心化、去中心化、混合型),并在三個(gè) LLM 家族(OpenAI, Google, Anthropic)中進(jìn)行實(shí)例化,谷歌這個(gè)團(tuán)隊(duì)對(duì) 180 種配置進(jìn)行了受控評(píng)估,標(biāo)準(zhǔn)化了工具、提示結(jié)構(gòu)和 token 預(yù)算,以將架構(gòu)效應(yīng)從實(shí)施混雜因素中隔離出來。



他們使用經(jīng)驗(yàn)性的協(xié)作指標(biāo)(包括效率、開銷、錯(cuò)誤放大和冗余)推導(dǎo)出了一個(gè)預(yù)測(cè)模型,該模型實(shí)現(xiàn)了交叉驗(yàn)證 R2=0.513,通過對(duì)任務(wù)屬性建模而非過度擬合特定數(shù)據(jù)集,實(shí)現(xiàn)了對(duì)未見任務(wù)領(lǐng)域的預(yù)測(cè)。

是的,智能體的 Scaling Law 找到了!并且準(zhǔn)確度還相當(dāng)高,谷歌表示:「我們的框架在預(yù)測(cè)保留任務(wù)的最佳架構(gòu)方面實(shí)現(xiàn)了 87% 的準(zhǔn)確率?!惯@樣一來,智能體的部署決策將第一次獲得強(qiáng)有力的原則支撐。



實(shí)驗(yàn)與結(jié)果:打破「人多力量大」的迷思

為了找到這套定量原則,谷歌團(tuán)隊(duì)沒有僅僅停留在理論推導(dǎo),而是進(jìn)行了一場堪稱暴力窮舉的實(shí)證研究。

他們動(dòng)用了三大模型家族(Google Gemini、OpenAI GPT、Anthropic Claude),在金融、網(wǎng)購、游戲規(guī)劃等不同場景下進(jìn)行了 180 組受控實(shí)驗(yàn)。

實(shí)驗(yàn)結(jié)果不僅令人意外,甚至顛覆了許多開發(fā)者的直覺。簡單來說,他們發(fā)現(xiàn)了一些規(guī)律。

任務(wù)決定成敗:有的場景是神助攻,有的是豬隊(duì)友

過去人們常說「三個(gè)臭皮匠,頂個(gè)諸葛亮」,但這篇論文告訴我們:這完全取決于你們?cè)诟墒裁慈蝿?wù)。



紅榜(適合組團(tuán)): 在金融分析(Finance-Agent)這類任務(wù)中,多智能體協(xié)作是大殺器。中心化架構(gòu)(有一個(gè)「指揮官」分派任務(wù))能讓性能暴漲 80.9%。為什么?因?yàn)檫@類任務(wù)可以拆分 —— 你查財(cái)報(bào),我算匯率,他做總結(jié),大家并行工作,效率極高。

黑榜(切忌組團(tuán)): 在游戲規(guī)劃(PlanCraft)這類任務(wù)中,所有多智能體架構(gòu)都翻車了,性能慘跌 39% 到 70%。原因在于這類任務(wù)環(huán)環(huán)相扣(必須先砍樹,才能做木板),強(qiáng)行把流程拆給不同的人,光是溝通成本就把推理能力消耗殆盡了。

三大隱形殺手:什么在阻礙智能體變強(qiáng)?

通過對(duì)數(shù)據(jù)的深度挖掘,谷歌團(tuán)隊(duì)量化了阻礙智能體擴(kuò)展的三大核心因素:

第一,工具越多,協(xié)作越難(工具-協(xié)作權(quán)衡)

如果任務(wù)需要用到大量工具(比如 16 個(gè)以上的 API),再引入多智能體協(xié)作就是一場災(zāi)難。實(shí)驗(yàn)數(shù)據(jù)顯示,工具密集的任務(wù)會(huì)因巨大的溝通開銷而不僅沒變快,反而變慢、變笨。

第二,能力有天花板(能力飽和效應(yīng))

這是最反直覺的一點(diǎn):如果單個(gè)智能體已經(jīng)夠聰明了,就別再給它找?guī)褪至恕?數(shù)據(jù)表明,當(dāng)單智能體的基線準(zhǔn)確率超過 45% 時(shí),再增加智能體進(jìn)行協(xié)作,收益往往是負(fù)的。所謂「幫倒忙」,在 AI 世界里是真實(shí)存在的。

第三,沒有指揮官,錯(cuò)誤會(huì)指數(shù)級(jí)放大

如果你讓一群智能體各自為戰(zhàn)(獨(dú)立型架構(gòu)),錯(cuò)誤會(huì)被放大 17.2 倍 —— 因?yàn)闆]人檢查,一個(gè)人的錯(cuò)會(huì)傳給所有人。但如果引入一個(gè)「指揮官」進(jìn)行中心化管理,錯(cuò)誤放大率能被控制在 4.4 倍。這證明了在多智能體系統(tǒng)中,架構(gòu)設(shè)計(jì)比單純堆人數(shù)更重要。

模型性格測(cè)試:誰是最佳指揮官?

除了任務(wù)和架構(gòu),論文還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:不同廠商的模型有不同的協(xié)作性格。在選擇團(tuán)隊(duì)成員時(shí),你不能只看智商(IQ),還要看它們合不合群。

Google Gemini:擅長「層級(jí)管理」的執(zhí)行官。Gemini 模型在中心化架構(gòu)下表現(xiàn)出了驚人的適應(yīng)性。在金融任務(wù)中,Gemini 的中心化協(xié)作帶來了 +164.3% 的恐怖提升。數(shù)據(jù)表明,它最聽指揮,執(zhí)行力最強(qiáng),且在不同架構(gòu)下的性價(jià)比最為平衡。

OpenAI GPT:擅長「復(fù)雜溝通」的交際花。GPT 系列在混合型架構(gòu)(Hybrid)中表現(xiàn)最佳 。雖然混合架構(gòu)的溝通成本很高,但 GPT 似乎擁有獨(dú)特的「通信協(xié)同效應(yīng)」(Communication Synergy),能駕馭復(fù)雜的交互網(wǎng)絡(luò),不僅能聽指揮,還能搞定同級(jí)之間的橫向溝通 。

Anthropic Claude:穩(wěn)健但敏感的保守派。Claude 對(duì)協(xié)作開銷非常敏感,一旦溝通太復(fù)雜,成本就會(huì)飆升(每提升 1% 性能的成本是 Google 的 2 倍)。因此,它最適合簡單直接的中心化架構(gòu),表現(xiàn)最穩(wěn)(方差最?。?。更有趣的是,它是唯一一個(gè)在「弱指揮官帶強(qiáng)兵」(異構(gòu)混合)模式下還能提升性能的模型,展現(xiàn)出了獨(dú)特的容錯(cuò)性



結(jié)果:這就是我們要找的「預(yù)測(cè)公式」

最終,基于上述發(fā)現(xiàn),谷歌推導(dǎo)出了一個(gè)預(yù)測(cè)模型。這個(gè)模型不依賴玄學(xué),而是基于效率、開銷、錯(cuò)誤放大率等硬指標(biāo)。





它的威力如何?在預(yù)測(cè)完全沒見過的任務(wù)配置時(shí),這套理論能以 87% 的準(zhǔn)確率告訴你:對(duì)于當(dāng)前的任務(wù)和模型,到底該用單打獨(dú)斗,還是團(tuán)隊(duì)協(xié)作,亦或是某種特定的組隊(duì)方式。

這標(biāo)志著智能體系統(tǒng)設(shè)計(jì)正式告別了「煉金術(shù)」時(shí)代,進(jìn)入了可計(jì)算、可預(yù)測(cè)的「化學(xué)」時(shí)代。

更多詳情請(qǐng)?jiān)L問原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

商業(yè)與生活
2025-12-19 11:43:38
蘇聯(lián)不要的裝備,70萬武器被八路軍拉3天3夜,撿出“半個(gè)軍械庫”

蘇聯(lián)不要的裝備,70萬武器被八路軍拉3天3夜,撿出“半個(gè)軍械庫”

古書記史
2025-12-15 23:29:05
誰說屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

誰說屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

小喬古裝漢服
2025-11-12 11:46:01
4天5條人命,中國不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負(fù)

4天5條人命,中國不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負(fù)

春秋論娛
2025-12-18 07:11:35
Angelababy在上海與一眾網(wǎng)紅聚會(huì)!這真是“美得突出”

Angelababy在上海與一眾網(wǎng)紅聚會(huì)!這真是“美得突出”

今古深日?qǐng)?bào)
2025-12-18 11:58:58
案例:北京一女教授在家養(yǎng)病長達(dá)10年,民警進(jìn)門后,當(dāng)場愣在原地

案例:北京一女教授在家養(yǎng)病長達(dá)10年,民警進(jìn)門后,當(dāng)場愣在原地

蘭姐說故事
2025-01-02 20:00:06
掃地機(jī)器人鼻祖宣布破產(chǎn)

掃地機(jī)器人鼻祖宣布破產(chǎn)

臺(tái)州交通廣播
2025-12-16 20:24:44
王雷李小萌露餡!出席活動(dòng)冷臉互不理睬 原來恩愛只是“遮羞布”

王雷李小萌露餡!出席活動(dòng)冷臉互不理睬 原來恩愛只是“遮羞布”

好賢觀史記
2025-12-18 12:44:59
緬甸電詐園區(qū)暗藏軍事基地,遭泰軍大規(guī)模轟炸

緬甸電詐園區(qū)暗藏軍事基地,遭泰軍大規(guī)模轟炸

遠(yuǎn)方青木
2025-12-18 23:51:19
全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國首富在干啥

全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國首富在干啥

策略述
2025-12-19 12:39:06
男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發(fā)地為私人承包區(qū),已排查公園安全隱患

男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發(fā)地為私人承包區(qū),已排查公園安全隱患

極目新聞
2025-12-18 17:10:51
不查不知道!龐萊臣后人與南京博物院,早在2014年就打起了官司…

不查不知道!龐萊臣后人與南京博物院,早在2014年就打起了官司…

火山詩話
2025-12-18 18:47:29
劉二狗栽了!泳池派對(duì)搞低俗親密互動(dòng)直播,4400 萬粉也救不了!

劉二狗栽了!泳池派對(duì)搞低俗親密互動(dòng)直播,4400 萬粉也救不了!

小椰的奶奶
2025-12-19 12:15:15
日本人靠它發(fā)財(cái),美國人用它打仗,中國人卻把它當(dāng)毒藥扔進(jìn)垃圾桶

日本人靠它發(fā)財(cái),美國人用它打仗,中國人卻把它當(dāng)毒藥扔進(jìn)垃圾桶

策略述
2025-12-18 14:11:27
張繼科"炮轟"劉國梁,2017年換教練不提前說,誰會(huì)高三換語文老師

張繼科"炮轟"劉國梁,2017年換教練不提前說,誰會(huì)高三換語文老師

查爾菲的筆記
2025-10-12 17:15:34
1984年他一聲令下,把老山幾千噸炮彈當(dāng)水潑,2019年葬禮現(xiàn)場,昔日部下已是軍委副主席,含淚送別這位鐵血師長!

1984年他一聲令下,把老山幾千噸炮彈當(dāng)水潑,2019年葬禮現(xiàn)場,昔日部下已是軍委副主席,含淚送別這位鐵血師長!

史海孤雁
2025-12-17 16:50:24
石破茂預(yù)言果然應(yīng)驗(yàn),中方還沒開始反制,日企就已經(jīng)撐不住了

石破茂預(yù)言果然應(yīng)驗(yàn),中方還沒開始反制,日企就已經(jīng)撐不住了

鐵錘簡科
2025-12-19 13:22:04
泰王又封00后“新妃”,王后素顏跑馬淡定!真宮斗冠軍不在怕的

泰王又封00后“新妃”,王后素顏跑馬淡定!真宮斗冠軍不在怕的

商務(wù)范
2025-12-18 14:16:58
當(dāng)前最火的五部電視劇,《老舅》跌至第二,你在追哪一部?

當(dāng)前最火的五部電視劇,《老舅》跌至第二,你在追哪一部?

草莓解說體育
2025-12-19 10:26:11
美國一富豪被冷凍50年,原定2017年蘇醒,解凍時(shí)工作人員緊急叫停

美國一富豪被冷凍50年,原定2017年蘇醒,解凍時(shí)工作人員緊急叫停

蜉蝣說
2025-12-01 11:20:58
2025-12-19 14:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11953文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

團(tuán)播女生私下賣力維護(hù)"大哥":經(jīng)常擦邊 有女生會(huì)被約走

頭條要聞

團(tuán)播女生私下賣力維護(hù)"大哥":經(jīng)常擦邊 有女生會(huì)被約走

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬

態(tài)度原創(chuàng)

健康
藝術(shù)
旅游
手機(jī)
公開課

這些新療法,讓化療不再那么痛苦

藝術(shù)要聞

諸樂三的寫意花鳥

旅游要聞

北京周末可往返!賞冰雪、涮暖鍋、逛大集……官方推薦攻略來了→

手機(jī)要聞

榮耀WIN系列手機(jī)配置曝光:6.83英寸185Hz直屏,跑分超440萬

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版