国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI Agent、傳統(tǒng)聊天機(jī)器人有何區(qū)別?這篇30頁(yè)綜述講明白了

0
分享至



論文作者包括來(lái)自上海交通大學(xué)的朱家琛、芮仁婷、單榕、鄭琮珉、西云佳、林江浩、劉衛(wèi)文、俞勇、張偉楠,以及華為諾亞研究所的朱夢(mèng)輝、陳渤、唐睿明。

本文第一作者是朱家琛,上海交通大學(xué)博士生,主要研究興趣集中在大模型推理,個(gè)性化 Agent。本文通訊作者是張偉楠,上海交通大學(xué)教授,研究方向包含強(qiáng)化學(xué)習(xí)、數(shù)據(jù)科學(xué)、機(jī)器人控制、推薦搜索等。

自從 Transformer 問(wèn)世,NLP 領(lǐng)域發(fā)生了顛覆性變化。大語(yǔ)言模型極大提升了文本理解與生成能力,成為現(xiàn)代 AI 系統(tǒng)的基礎(chǔ)。而今,AI 正不斷向前,具備自主決策和復(fù)雜交互能力的新一代AI Agent也正加速崛起。

不同于以往只會(huì)對(duì)話的 LLM 機(jī)器人,AI Agent 能夠接入互聯(lián)網(wǎng)、調(diào)用各類(lèi) API,還能根據(jù)真實(shí)環(huán)境反饋靈活調(diào)整策略。AI Agent 因此具備了感知環(huán)境和自主決策的能力,已經(jīng)突破了傳統(tǒng) “問(wèn)答模式” 的限制,能夠主動(dòng)執(zhí)行任務(wù)、應(yīng)對(duì)各種復(fù)雜場(chǎng)景,真正成為用戶(hù)身邊可靠的智能助手。

在這股 AI Agent 浪潮中,每個(gè)人都可以有屬于自己的 AI Agent。而如何衡量自己的 AI Agent 是否足夠強(qiáng)大呢?海量的 Agent 評(píng)測(cè)方式層出不窮,你是否挑得眼花繚亂?如何在這千軍萬(wàn)馬中挑選出最適合你的測(cè)評(píng)方式呢?作為 AI Agent 的開(kāi)發(fā)者,你是否也在思考該從哪個(gè)角度來(lái)提升你的 “秘密武器”,在這場(chǎng)激烈的 AI Agent 大戰(zhàn)中脫穎而出?

因此,這引出了一個(gè)順理成章的問(wèn)題:

AI Agent 到底和傳統(tǒng)聊天機(jī)器人有何本質(zhì)區(qū)別?又該如何科學(xué)評(píng)測(cè) AI Agent?



  • 論文標(biāo)題:Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey
  • 論文鏈接:https://arxiv.org/pdf/2506.11102

一、從 LLM Chatbot 到 AI Agent

論文指出,AI Agent 的出現(xiàn)是 AI 發(fā)展的新階段。它們不僅僅回復(fù)人類(lèi)對(duì)話,還具備了五個(gè)維度的進(jìn)化:

1.復(fù)雜環(huán)境:Agent 不再局限于單一對(duì)話場(chǎng)景,可以與代碼庫(kù)、網(wǎng)頁(yè)、操作系統(tǒng)、移動(dòng)端、科學(xué)實(shí)驗(yàn)等各類(lèi)環(huán)境交互。

2.多源指令:Agent 不只接收人工輸入,還能結(jié)合自我反思、智能體協(xié)作等多源指令。

3.動(dòng)態(tài)反饋:Agent 運(yùn)行于連續(xù)多樣的反饋環(huán)境,可基于指標(biāo)、獎(jiǎng)勵(lì)等動(dòng)態(tài)反饋持續(xù)優(yōu)化自身能力,不再局限于被動(dòng)對(duì)話糾正。

4.多模態(tài):Agent 擁有跨模態(tài)處理能力,能理解文本、視覺(jué)、聽(tīng)覺(jué)等多種數(shù)據(jù)。

5.高級(jí)能力:隨著外部環(huán)境復(fù)雜化,Agent 具備了復(fù)雜規(guī)劃、持久記憶、自主推理等能力,實(shí)現(xiàn)從被動(dòng)響應(yīng)到自主執(zhí)行的躍遷。



圖 1:AI Agent 與 LLM Chatbot 演化的五個(gè)維度。

LLM Chatbot 向 AI Agent 的演進(jìn),背后主要受兩方面推動(dòng):一是外部環(huán)境的日益復(fù)雜,二是內(nèi)部能力的不斷提升。復(fù)雜的外部環(huán)境促使 Agent 不斷成長(zhǎng),而 Agent 能力的提升又推動(dòng)人們?nèi)ヌ剿鞲咛魬?zhàn)性的應(yīng)用場(chǎng)景。正是這種內(nèi)外循環(huán)、相互促進(jìn),成為現(xiàn)代 AI Agent 加速進(jìn)化的根本動(dòng)力。因此,論文的總體框架如圖 2 所示:我們系統(tǒng)梳理了現(xiàn)有 AI Agent 評(píng)測(cè)基準(zhǔn),提出 “環(huán)境 - 能力” 兩方面的分類(lèi)學(xué)。隨后進(jìn)行趨勢(shì)討論,對(duì) Agent 評(píng)測(cè)方法演化趨勢(shì)的討論,涉及環(huán)境角度,Agent 角度,評(píng)估者角度,指標(biāo)角度,并最終提出基準(zhǔn)選擇的方法論。



圖 2:論文框架總覽

二、評(píng)測(cè)框架與基準(zhǔn)盤(pán)點(diǎn)

面對(duì) Agent 能力的指數(shù)級(jí)擴(kuò)展,原有的聊天機(jī)器人評(píng)測(cè)方法已無(wú)法勝任。論文系統(tǒng)梳理了現(xiàn)有 AI Agent 評(píng)測(cè)基準(zhǔn),提出 “環(huán)境 - 能力” 兩方面的分類(lèi):

1.環(huán)境維度:細(xì)分為代碼、網(wǎng)頁(yè)、操作系統(tǒng)、移動(dòng)端、科學(xué)、游戲等環(huán)境。

2.能力維度:涵蓋規(guī)劃、自我反省、交互、記憶等高級(jí)能力。

針對(duì)每種環(huán)境與能力,論文整理了當(dāng)前最具代表性的評(píng)測(cè)基準(zhǔn),并梳理出一套 “實(shí)用屬性表”,幫助研究者在眼花繚亂的 benchmark 中挑選符合要求的。

以表 1 為例,我們列出了我們認(rèn)為最重要的屬性:真實(shí)性,離線 / 在線,評(píng)測(cè)者,輸入模態(tài),主要挑戰(zhàn)。并將所有 web 環(huán)境的基準(zhǔn)歸到這些屬性中。



表 1:Web 環(huán)境下的 Agent 基準(zhǔn)以及其各類(lèi)屬性

三、AI Agent 評(píng)測(cè)方法的進(jìn)化趨勢(shì)



圖 3:AI Agent 評(píng)測(cè)未來(lái)演化的四個(gè)視角。

論文深刻總結(jié)了 AI Agent 評(píng)測(cè)方法的未來(lái)趨勢(shì),不再只是 “比誰(shuí)答得對(duì)”,而是從四個(gè)關(guān)鍵視角全面升級(jí):

1. 環(huán)境視角:從單模態(tài)到多模態(tài)、從靜態(tài)到動(dòng)態(tài)、從少狀態(tài)到多狀態(tài)。

最初,Agent 評(píng)測(cè)只圍繞文本展開(kāi),如今則逐漸擴(kuò)展到圖片、音頻、視頻等多種信息形式。靜態(tài)的數(shù)據(jù)集已經(jīng)不能滿(mǎn)足需求,動(dòng)態(tài)、實(shí)時(shí)更新的真實(shí)環(huán)境成為新常態(tài)。同時(shí),評(píng)測(cè)方式也在轉(zhuǎn)變,開(kāi)始關(guān)注智能體在連續(xù)任務(wù)過(guò)程中的表現(xiàn)和調(diào)整,而不再只看最終結(jié)果。

2. 智能體視角:從單 Agent 到多 Agent、從單輪到多輪互動(dòng)。

新一代評(píng)測(cè)不僅關(guān)注單個(gè) Agent 的能力,更重視多個(gè) Agent 間的協(xié)作與博弈。與此同時(shí),任務(wù)由簡(jiǎn)單的一問(wèn)一答,演化為多輪對(duì)話、持續(xù)推理和復(fù)雜任務(wù)鏈,考驗(yàn) Agent 的全局規(guī)劃與長(zhǎng)期記憶。

3. 評(píng)測(cè)者視角:從人工到 AI 自動(dòng)評(píng)測(cè)、從通用到個(gè)性化。

AI 不再只是被動(dòng)接受人類(lèi)評(píng)分,越來(lái)越多的 Agent 可以自動(dòng)評(píng)判同行,實(shí)現(xiàn)規(guī)?;?、自主化評(píng)測(cè)。同時(shí),未來(lái)的評(píng)測(cè)將更加關(guān)注個(gè)性化,衡量 Agent 是否能針對(duì)不同用戶(hù)給出個(gè)性化的服務(wù)。

4. 指標(biāo)視角:從粗粒度到細(xì)粒度,從關(guān)注正確率到關(guān)注效率、安全與社會(huì)價(jià)值。

單一的正確率已無(wú)法反映 Agent 真實(shí)能力。未來(lái)評(píng)測(cè)更強(qiáng)調(diào)任務(wù)效率、細(xì)粒度決策的質(zhì)量、安全性和倫理性,比如防止誤操作、保障用戶(hù)利益、促進(jìn)社會(huì)善意等。

四、行動(dòng)指南:

如何選擇合適的 Agent 評(píng)測(cè)基準(zhǔn)

面對(duì) AI Agent 的快速發(fā)展,論文圍繞 “如何用演化視角系統(tǒng)評(píng)估 AI Agent” 這一核心問(wèn)題,提出了一套二階段的基準(zhǔn)選擇方法論:

第一階段:從當(dāng)下出發(fā)。

根據(jù)實(shí)際任務(wù)環(huán)境和 Agent 能力,先鎖定對(duì)應(yīng)的環(huán)境和能力分類(lèi)(圖 2),從屬性表(表 1)中精準(zhǔn)匹配最適用的評(píng)測(cè)基準(zhǔn)。例如,開(kāi)發(fā)者 Z 開(kāi)發(fā)了能預(yù)訂航班和酒店的 Agent,應(yīng)優(yōu)先考慮 Web 環(huán)境和交互能力,選用如 WebVoyager 和 ComplexFuncBench 等基準(zhǔn)進(jìn)行測(cè)試。

第二階段:為未來(lái)考慮。

結(jié)合評(píng)測(cè)進(jìn)化趨勢(shì)(圖 3),開(kāi)發(fā)者 Z 應(yīng)持續(xù)關(guān)注環(huán)境變化、多模態(tài)挑戰(zhàn)和社會(huì)價(jià)值等新維度。隨著產(chǎn)品商業(yè)化,適時(shí)引入動(dòng)態(tài)環(huán)境(如 BFCL)、安全性(如 ST WebAgentBench)和個(gè)性化(如 PeToolBench)等多樣化評(píng)測(cè)基準(zhǔn),確保 Agent 持續(xù)優(yōu)化與進(jìn)化。

結(jié)語(yǔ)

AI Agent 正在從 “會(huì)對(duì)話” 進(jìn)化為 “會(huì)行動(dòng)”,推動(dòng)人工智能邁向更智能、更自主、更有價(jià)值的下一個(gè)時(shí)代。而如何科學(xué)評(píng)測(cè) AI Agent,是驅(qū)動(dòng)這一切的關(guān)鍵。如果讀者你也關(guān)心如何評(píng)測(cè)新穎的 AI Agent,我們的綜述值得一讀。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國(guó)導(dǎo)彈打中國(guó)無(wú)人機(jī)!柬埔寨首開(kāi)防空戰(zhàn)果,前衛(wèi)3擊落泰國(guó)戰(zhàn)機(jī)

中國(guó)導(dǎo)彈打中國(guó)無(wú)人機(jī)!柬埔寨首開(kāi)防空戰(zhàn)果,前衛(wèi)3擊落泰國(guó)戰(zhàn)機(jī)

老鵜愛(ài)說(shuō)事
2025-12-21 03:57:47
浙江廣廈VS上海男籃!王博拒絕輸球,洛夫頓確定出戰(zhàn),CCTV5直播

浙江廣廈VS上海男籃!王博拒絕輸球,洛夫頓確定出戰(zhàn),CCTV5直播

體壇瞎白話
2025-12-20 16:06:54
隨著尤文圖斯2-1羅馬,拉齊奧0-0,意甲最新積分榜出爐

隨著尤文圖斯2-1羅馬,拉齊奧0-0,意甲最新積分榜出爐

側(cè)身凌空斬
2025-12-21 05:44:56
姆巴佩點(diǎn)射追平C羅神跡,貝林厄姆破僵+造紅牌,皇馬2-0塞維利亞

姆巴佩點(diǎn)射追平C羅神跡,貝林厄姆破僵+造紅牌,皇馬2-0塞維利亞

釘釘陌上花開(kāi)
2025-12-21 05:59:16
誰(shuí)會(huì)是下一個(gè)國(guó)乒總教練?已有3人報(bào)名,馬琳王皓之爭(zhēng)成關(guān)注焦點(diǎn)

誰(shuí)會(huì)是下一個(gè)國(guó)乒總教練?已有3人報(bào)名,馬琳王皓之爭(zhēng)成關(guān)注焦點(diǎn)

十點(diǎn)街球體育
2025-12-20 23:19:21
事業(yè)有成、家庭幸福的劉佩琦,唯一遺憾竟是那個(gè)“白眼狼”的侄子

事業(yè)有成、家庭幸福的劉佩琦,唯一遺憾竟是那個(gè)“白眼狼”的侄子

劉蕳愛(ài)下廚
2025-12-20 19:56:58
《江南春》被賣(mài)風(fēng)波再升級(jí):關(guān)鍵人物疑似現(xiàn)身,12年前被實(shí)名舉報(bào)

《江南春》被賣(mài)風(fēng)波再升級(jí):關(guān)鍵人物疑似現(xiàn)身,12年前被實(shí)名舉報(bào)

鋭娛之樂(lè)
2025-12-20 22:49:56
萬(wàn)億順差背后,為什么“擴(kuò)大內(nèi)需”成了最緊迫的事?

萬(wàn)億順差背后,為什么“擴(kuò)大內(nèi)需”成了最緊迫的事?

知本設(shè)
2025-12-13 10:32:01
CBA又出笑話!一球隊(duì)得53分輸31分,三分球20中1,球迷: 快解散吧

CBA又出笑話!一球隊(duì)得53分輸31分,三分球20中1,球迷: 快解散吧

梅亭談
2025-12-21 05:19:22
演員向梅:晚年退休后生活凄涼,真相被曝光,才知道背后的傷痛

演員向梅:晚年退休后生活凄涼,真相被曝光,才知道背后的傷痛

小熊侃史
2025-12-18 10:59:04
國(guó)乒教練組巨震,林詩(shī)棟新教練讓人意外,王曼昱主管教練情理之中

國(guó)乒教練組巨震,林詩(shī)棟新教練讓人意外,王曼昱主管教練情理之中

月亮的麥片
2025-12-20 21:18:01
澤連斯基:烏克蘭無(wú)法承擔(dān)80萬(wàn)軍隊(duì)的經(jīng)費(fèi),需國(guó)際伙伴部分資助

澤連斯基:烏克蘭無(wú)法承擔(dān)80萬(wàn)軍隊(duì)的經(jīng)費(fèi),需國(guó)際伙伴部分資助

桂系007
2025-12-21 04:57:33
羅永浩質(zhì)疑大金中央空調(diào)“換濾網(wǎng)加清洗每年1.5萬(wàn)元”,客服回應(yīng):正在核實(shí)

羅永浩質(zhì)疑大金中央空調(diào)“換濾網(wǎng)加清洗每年1.5萬(wàn)元”,客服回應(yīng):正在核實(shí)

極目新聞
2025-12-20 17:29:54
回國(guó)后我才敢說(shuō):越南是我去過(guò)的所有國(guó)家中,最被低估的

回國(guó)后我才敢說(shuō):越南是我去過(guò)的所有國(guó)家中,最被低估的

李健政觀察
2025-12-18 09:49:21
聯(lián)合國(guó)前副秘書(shū)長(zhǎng)索爾海姆:中國(guó)的國(guó)家規(guī)劃制定過(guò)程是獨(dú)一無(wú)二的

聯(lián)合國(guó)前副秘書(shū)長(zhǎng)索爾海姆:中國(guó)的國(guó)家規(guī)劃制定過(guò)程是獨(dú)一無(wú)二的

環(huán)球網(wǎng)資訊
2025-12-20 14:38:47
老婆被外派非洲8年,直到偶遇她上司,驚訝知道:她5年前就離職了

老婆被外派非洲8年,直到偶遇她上司,驚訝知道:她5年前就離職了

農(nóng)村情感故事
2025-12-07 15:05:41
伊爾馬茲遭辱罵后辭職,4天后又被俱樂(lè)部重新聘任

伊爾馬茲遭辱罵后辭職,4天后又被俱樂(lè)部重新聘任

懂球帝
2025-12-20 14:38:19
全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國(guó)首富在干啥

全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國(guó)首富在干啥

曉肂愛(ài)八卦
2025-12-20 15:15:19
日本右翼喊話政府,要沒(méi)收中國(guó)人在日不動(dòng)產(chǎn)

日本右翼喊話政府,要沒(méi)收中國(guó)人在日不動(dòng)產(chǎn)

扶蘇聊歷史
2025-12-19 17:58:25
上海一對(duì)情侶戀愛(ài)時(shí)男方說(shuō)“我養(yǎng)你”,分手后女方以此為證,拒絕返還40余萬(wàn)元!測(cè)謊實(shí)驗(yàn)后,法院判了

上海一對(duì)情侶戀愛(ài)時(shí)男方說(shuō)“我養(yǎng)你”,分手后女方以此為證,拒絕返還40余萬(wàn)元!測(cè)謊實(shí)驗(yàn)后,法院判了

都市快報(bào)橙柿互動(dòng)
2025-12-20 09:35:12
2025-12-21 06:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

高市早苗要趕在特朗普訪華前行動(dòng) 以免被中美邊緣化

頭條要聞

高市早苗要趕在特朗普訪華前行動(dòng) 以免被中美邊緣化

體育要聞

我開(kāi)了20年大巴,現(xiàn)在是一名西甲主帥

娛樂(lè)要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車(chē)要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬(wàn)公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
手機(jī)
公開(kāi)課
軍事航空

藝術(shù)要聞

中國(guó)老香煙品牌,你知道多少?

房產(chǎn)要聞

廣州有態(tài)度,一座國(guó)際化社區(qū)給出的城市答案

手機(jī)要聞

小米R(shí)EDMI Note 15系列手機(jī)新春版現(xiàn)身,元旦發(fā)售

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基:前線局勢(shì)愈發(fā)艱難

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版