国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Anthropic:大模型 benchmark 打分不適用 AI agent 評(píng)測(cè)

0
分享至

最近,Anthropic 發(fā)了一篇不太像“技術(shù)博客”的文章,《Demystifying evals for AI agents(揭開 AI agents 評(píng)測(cè)的迷霧)》,基本可視為一份“Agent 時(shí)代的產(chǎn)品生存指南”。


這篇文章背后隱含的一個(gè)判斷是,如果你做的是 AI Agent,卻還在用“模型 benchmark”那一套方式來(lái)評(píng)估它,那基本就是在扯淡。

Agent 的問(wèn)題,不是模型準(zhǔn)不準(zhǔn),而是它會(huì)不會(huì)在真實(shí)世界里,把事情搞砸。

Anthropic 在文中反復(fù)強(qiáng)調(diào)一個(gè)現(xiàn)實(shí):隨著 AI 從“一次性回答問(wèn)題”,走向“長(zhǎng)時(shí)間自主行動(dòng)”,系統(tǒng)的失敗方式已經(jīng)發(fā)生了根本變化。

錯(cuò)誤不再是“答錯(cuò)一道題”,而是一步小錯(cuò)、持續(xù)放大,最終造成不可逆后果。

比如一個(gè)研究型 Agent,早期一次資料篩選偏差,后面所有推理都會(huì)建立在錯(cuò)誤前提上;

又比如一個(gè)自動(dòng)化 Agent,在工具調(diào)用上出現(xiàn)微小誤判,卻在長(zhǎng)鏈條任務(wù)中不斷復(fù)制這種錯(cuò)誤。

這些問(wèn)題,用傳統(tǒng)的評(píng)測(cè)方式幾乎是測(cè)不出來(lái)的。

Anthropic 直接點(diǎn)破了一個(gè)行業(yè)誤區(qū):我們過(guò)去評(píng)估 AI,更像是在給“考試機(jī)器”打分;但 Agent 更像一個(gè)“實(shí)習(xí)生”,你真正關(guān)心的是——它在真實(shí)任務(wù)里能不能被信任。

所以,Anthropic提出,其核心不是“怎么跑 評(píng)測(cè)”,而是評(píng)測(cè)到底應(yīng)該服務(wù)什么目標(biāo)。

他們給出的第一個(gè)關(guān)鍵轉(zhuǎn)向是,從靜態(tài)結(jié)果評(píng)測(cè),轉(zhuǎn)向過(guò)程與行為評(píng)測(cè)。

在 Agent 系統(tǒng)中,最終結(jié)果是否正確固然重要,但遠(yuǎn)遠(yuǎn)不夠。更關(guān)鍵的是:


  • 它是否遵循了預(yù)期的決策路徑

  • 是否在不確定時(shí)主動(dòng)求證

  • 是否在失敗后調(diào)整策略

  • 是否在高風(fēng)險(xiǎn)節(jié)點(diǎn)表現(xiàn)得足夠保守

換句話說(shuō),評(píng)測(cè)不只是“對(duì)不對(duì)”,而是“像不像一個(gè)你敢用的 Agent”。


第二個(gè)非?,F(xiàn)實(shí)的判斷是:Agent 的 評(píng)測(cè)永遠(yuǎn)不可能一次性完成。

Anthropic 明確指出,Agent 的評(píng)估是一個(gè)“持續(xù)對(duì)抗”的過(guò)程。

你修復(fù)了一個(gè)失敗模式,很可能立刻引入一個(gè)新的失敗方式。

這點(diǎn)對(duì)所有做產(chǎn)品的人都很殘酷,也很真實(shí):Agent 并不存在“評(píng)測(cè)通過(guò) → 可以放心上線”的時(shí)刻,只有“暫時(shí)可控”。

因此,Anthropic建議,把評(píng)測(cè)變成和訓(xùn)練、部署同等重要的基礎(chǔ)設(shè)施,而不是發(fā)布前的一個(gè)檢查項(xiàng)。

第三個(gè)被反復(fù)強(qiáng)調(diào)的觀點(diǎn)是:不要迷信自動(dòng)化評(píng)測(cè)。

在 Agent 場(chǎng)景下,純自動(dòng)評(píng)測(cè)往往會(huì)遺漏最危險(xiǎn)的問(wèn)題。

很多真正致命的錯(cuò)誤,只能通過(guò)人工設(shè)計(jì)的 adversarial 測(cè)試、失敗案例復(fù)盤、極端場(chǎng)景模擬才能發(fā)現(xiàn)。

Anthropic 的態(tài)度非常清醒:評(píng)測(cè)不是為了證明系統(tǒng)“很強(qiáng)”,而是為了盡可能早地發(fā)現(xiàn)“它會(huì)怎么翻車”。

這和當(dāng)前行業(yè)大量“Agent Demo 導(dǎo)向”的做法,形成了非常鮮明的對(duì)比。

Anthropic幾乎是為整個(gè) AI 應(yīng)用層敲了警鐘:當(dāng) AI 開始替人“做事”,而不是“回答問(wèn)題”,評(píng)估體系本身就變成了安全邊界的一部分。

這也是為什么 Anthropic 會(huì)把評(píng)測(cè)提到如此高的戰(zhàn)略位置——不是工程細(xì)節(jié),而是產(chǎn)品能不能活下去的問(wèn)題。

對(duì)創(chuàng)業(yè)者來(lái)說(shuō),可以反思的是,未來(lái) AI Agent 的競(jìng)爭(zhēng),不只是在模型、算力或功能完整度上,而是在誰(shuí)更早建立起一套可靠的“可控性與信任機(jī)制”。

而評(píng)測(cè),正是這套機(jī)制的第一道防線。

原文鏈接(Anthropic 官方):

https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
iPhone 18 Pro屏幕蓋板偷跑:靈動(dòng)島縮小實(shí)錘了 告別大藥丸

iPhone 18 Pro屏幕蓋板偷跑:靈動(dòng)島縮小實(shí)錘了 告別大藥丸

快科技
2026-03-28 19:53:31
官方定調(diào)了,跌破6%,2025年出生人口792萬(wàn),這意味著什么?

官方定調(diào)了,跌破6%,2025年出生人口792萬(wàn),這意味著什么?

毒sir財(cái)經(jīng)
2026-03-28 22:22:36
青島膠州警方通報(bào)連環(huán)撞車事故:4車受損,2人受傷

青島膠州警方通報(bào)連環(huán)撞車事故:4車受損,2人受傷

界面新聞
2026-03-28 14:00:04
李某國(guó)(男,37歲)為博取關(guān)注、吸引流量,自導(dǎo)自演網(wǎng)約車糾紛罵乘客,已被行政處罰,并依法關(guān)停其相關(guān)網(wǎng)絡(luò)賬號(hào)

李某國(guó)(男,37歲)為博取關(guān)注、吸引流量,自導(dǎo)自演網(wǎng)約車糾紛罵乘客,已被行政處罰,并依法關(guān)停其相關(guān)網(wǎng)絡(luò)賬號(hào)

揚(yáng)子晚報(bào)
2026-03-28 07:37:58
深圳老牌酒樓閉店!網(wǎng)友:童年就是在這度過(guò)的

深圳老牌酒樓閉店!網(wǎng)友:童年就是在這度過(guò)的

深圳晚報(bào)
2026-03-28 18:13:40
廣州一大批業(yè)主后悔賣房了!

廣州一大批業(yè)主后悔賣房了!

樓市滅霸
2026-03-28 12:54:30
誰(shuí)贏,他們幫誰(shuí),伊朗等來(lái)最大強(qiáng)援,美陷入死局,后悔也來(lái)不及了

誰(shuí)贏,他們幫誰(shuí),伊朗等來(lái)最大強(qiáng)援,美陷入死局,后悔也來(lái)不及了

阿傖說(shuō)事
2026-03-28 01:58:57
內(nèi)娛再曝大瓜!郭麒麟、劉昊然,嚴(yán)浩翔疑似組團(tuán)去商K聚會(huì) 惹爭(zhēng)議

內(nèi)娛再曝大瓜!郭麒麟、劉昊然,嚴(yán)浩翔疑似組團(tuán)去商K聚會(huì) 惹爭(zhēng)議

丁丁鯉史紀(jì)
2026-03-28 10:28:29
我嫁給不能生育的迪拜富商,不到3個(gè)月我竟孕吐不止,醫(yī)生:恭喜

我嫁給不能生育的迪拜富商,不到3個(gè)月我竟孕吐不止,醫(yī)生:恭喜

千秋文化
2026-03-25 21:42:08
矛盾升級(jí),王鈺棟再發(fā)社媒硬剛球迷,稱只能再發(fā)一次再爽一次了

矛盾升級(jí),王鈺棟再發(fā)社媒硬剛球迷,稱只能再發(fā)一次再爽一次了

體壇風(fēng)之子
2026-03-28 04:30:03
一醫(yī)院新規(guī)!除科室正副職主任外,男55歲、女50歲以下全體醫(yī)護(hù),均需值夜班……

一醫(yī)院新規(guī)!除科室正副職主任外,男55歲、女50歲以下全體醫(yī)護(hù),均需值夜班……

華醫(yī)網(wǎng)
2026-03-29 05:40:53
42歲張子萱硬凹少女感翻車,臉部腫脹不堪,亮相活動(dòng)遭網(wǎng)友抵制

42歲張子萱硬凹少女感翻車,臉部腫脹不堪,亮相活動(dòng)遭網(wǎng)友抵制

大眼妹妹
2026-03-29 02:51:35
委內(nèi)瑞拉,為什么從我們的視野里消失了

委內(nèi)瑞拉,為什么從我們的視野里消失了

民間鐵血柔情
2026-03-28 04:41:19
電車會(huì)不會(huì)取代油車還不知道,但不得不承認(rèn),油混車“快完蛋了”

電車會(huì)不會(huì)取代油車還不知道,但不得不承認(rèn),油混車“快完蛋了”

小染說(shuō)臺(tái)球
2026-03-27 17:38:42
“華人神探”李昌鈺辭世:去年確診腦瘤,去世前兩天剛完成新書初稿

“華人神探”李昌鈺辭世:去年確診腦瘤,去世前兩天剛完成新書初稿

大風(fēng)新聞
2026-03-28 15:20:15
“擦邊”的世界冠軍吳柳芳,終于還清了債

“擦邊”的世界冠軍吳柳芳,終于還清了債

冰川思想庫(kù)
2026-03-27 11:33:25
嘴真硬!輸球不可怕,可怕的是庫(kù)拉索主帥的這番話,發(fā)布會(huì)逆轉(zhuǎn)!

嘴真硬!輸球不可怕,可怕的是庫(kù)拉索主帥的這番話,發(fā)布會(huì)逆轉(zhuǎn)!

田先生籃球
2026-03-28 07:00:31
女婿伺候岳母10年,妻子提離婚他笑著答應(yīng),出民政局后妻子懵了

女婿伺候岳母10年,妻子提離婚他笑著答應(yīng),出民政局后妻子懵了

曉艾故事匯
2025-08-07 17:10:25
港珠澳大橋海關(guān)查獲一起利用跨境客車改裝暗格藏匿16包銀粒進(jìn)境案

港珠澳大橋海關(guān)查獲一起利用跨境客車改裝暗格藏匿16包銀粒進(jìn)境案

環(huán)球網(wǎng)資訊
2026-03-28 14:37:14
2026年4大行業(yè)批量裁員,有人裸辭無(wú)工可找,普通人必看

2026年4大行業(yè)批量裁員,有人裸辭無(wú)工可找,普通人必看

老特有話說(shuō)
2026-03-24 15:16:29
2026-03-29 07:04:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評(píng)測(cè)
465文章數(shù) 69關(guān)注度
往期回顧 全部

科技要聞

華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

頭條要聞

美媒:和歐盟"外長(zhǎng)"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

頭條要聞

美媒:和歐盟"外長(zhǎng)"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

體育要聞

“我是全家最差勁的運(yùn)動(dòng)員”

娛樂(lè)要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

置換補(bǔ)貼價(jià)4.28萬(wàn)起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

數(shù)碼
本地
家居
房產(chǎn)
公開課

數(shù)碼要聞

蘋果或重啟與長(zhǎng)江存儲(chǔ)合作 國(guó)行機(jī)型擬采用國(guó)產(chǎn)NAND

本地新聞

在濰坊待了三天,沒(méi)遇到一個(gè)“濰坊人”

家居要聞

曲線華爾茲 現(xiàn)代簡(jiǎn)約

房產(chǎn)要聞

首日430組來(lái)訪,單日120組認(rèn)籌!??谑讉€(gè)真四代,徹底爆了!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版