国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

紅杉xbench 最新報(bào)告:104 項(xiàng)日常任務(wù),Agent 可處理 60+%

0
分享至

現(xiàn)在 Agent 產(chǎn)品很多,Claude Code、ChatGPT Agent、Manus、Genspark...還有各種各樣的

對(duì)于大家的干活靠譜程度,紅杉中國(guó)的 xbench 團(tuán)隊(duì),整了新評(píng)測(cè),叫 AgentIF-OneDay
(倆周,發(fā)了倆評(píng)測(cè)集了,另一個(gè)是 ,然后xiaobo 跟我說,他上個(gè)月全在整這個(gè))

大概就是:一堆真實(shí)的日常任務(wù),帶著 Excel、PPT、PDF 這些附件,能不能幫我搞定

結(jié)論:頭部 Agent 大約 62-65%


https://xbench.org/agi/agentif

先說在前面:這個(gè)榜單目前啥也不代表,看 insight 就行

能同時(shí)跑通所有附件格式的 Agent 其實(shí)很少,xbench 測(cè)了一圈,只有四家能完整跑完

Claude Code 因?yàn)楦鞣N原因沒測(cè)出來,Cowork 測(cè)的時(shí)候還沒發(fā)布,其他很多 Agent 要么不支持 PPT,要么不支持 Excel,反正就是跑不通

所以這次的價(jià)值不在排名,在方向

順便一提,雖然大家都是混合模型,但 Manus 和 Minimax-Agent 的基礎(chǔ)模型更偏 Claude,Genspark 和 ChatGPT-Agent 更偏 GPT

為什么要做這個(gè)評(píng)測(cè)

xbench 之前發(fā)過 ScienceQA 和 DeepSearch,都是分鐘級(jí)的集中推理任務(wù),模型表現(xiàn)已經(jīng)從 human-average 逐漸到了 PhD-level

但他們發(fā)現(xiàn)一個(gè)問題:一旦任務(wù)突破一般人一小時(shí)可處理的復(fù)雜度,Agent 的整體完成度就會(huì)出現(xiàn)明顯下降

短程任務(wù)表現(xiàn)驚艷,長(zhǎng)程任務(wù)顯乏力


所以 xbench 提了一個(gè)新視角來理解 Agent 能力邊界:任務(wù)復(fù)雜度

這里的復(fù)雜度,指的是完成一個(gè)任務(wù)所需的人類時(shí)間投入

Agent 能力的演進(jìn)會(huì)沿著兩條線展開:

Scaling Context
任務(wù)在時(shí)間維度上延展,從分鐘級(jí)到一天級(jí)、甚至一周級(jí)。Agent 需要在更長(zhǎng)的執(zhí)行周期中維護(hù)上下文狀態(tài),跟蹤中間目標(biāo),保持一致性

Scaling Domain
任務(wù)類型上的擴(kuò)展?,F(xiàn)實(shí)世界的工作往往橫跨多個(gè)領(lǐng)域,不同任務(wù)在目標(biāo)表述、隱含約束、工具使用上差異很大

AgentIF-OneDay 就是沿著這兩個(gè)方向推進(jìn)的第一步:以人類一天內(nèi)可完成的任務(wù)復(fù)雜度作為基準(zhǔn)

這個(gè)評(píng)測(cè)在測(cè)什么

AgentIF-OneDay 的核心是指令遵循,它要求 Agent 處理真實(shí)的附件:Excel、PPT、PDF、圖片,然后輸出可交付的文件,任務(wù)分三類:

場(chǎng)景一:你知道該怎么做,但執(zhí)行太繁瑣

用戶已知完整流程并明確給出操作步驟,Agent 只需精確執(zhí)行。這類任務(wù)叫工作流執(zhí)行(Workflow Execution)

例題 我計(jì)劃去 NeurIPS 2025,幫我規(guī)劃一個(gè)好的行程方案。請(qǐng)你先去官網(wǎng)確認(rèn) NeurIPS 2025 會(huì)議的主會(huì)場(chǎng)位置(San Diego Convention Center, San Diego)是否準(zhǔn)確,然后用另一個(gè)可靠來源交叉驗(yàn)證這個(gè)信息,確保萬無一失 接下來,幫我收集基本信息,比如會(huì)議時(shí)間、地點(diǎn)和論文提交截止日期 還要確認(rèn)完整的會(huì)議日程是否已經(jīng)發(fā)布,如果還沒發(fā)布,請(qǐng)明確告訴我 最后,從紐約出發(fā)給我兩套去圣地亞哥的行程方案:一個(gè)最便宜的 Cheap Plan,一個(gè)最快的 Fast Plan

當(dāng) Agent 能夠在整個(gè)流程中保持一致性、逐步完成步驟、并在長(zhǎng)上下文中保持狀態(tài),就具備幫你把事情做完的潛力

這也是大量用戶希望 Agent 能真正替代重復(fù)性勞動(dòng)的原因

場(chǎng)景二:你不知道規(guī)則,只能給個(gè)參考

用戶不明確知道完整的工作流或者條件約束,只提供若干案例或參考資料。這類任務(wù)叫隱式指令推理(Latent Instruction Inference)

例題 我現(xiàn)在用的是 iPhone 13 Pro Max,AT&T 套餐每月 20 美元預(yù)付費(fèi)。我想換 iPhone 17 Pro Max 基于附件里的購(gòu)機(jī)方案和運(yùn)營(yíng)商優(yōu)惠,幫我找出總成本最低的方式

這是人類最自然的工作方式,人們不會(huì)每次都從零寫起

Agent 需要從提供的示例文件中挖掘出潛在的意圖,同時(shí)滿足用戶的顯式指令與附件的隱式指令

如果具備這種能力,Agent 就能真正參與內(nèi)容生產(chǎn)、報(bào)告生成、數(shù)據(jù)整理等職業(yè)型任務(wù)

場(chǎng)景三:需求本身是動(dòng)態(tài)的,要邊做邊看

人類的工作普遍呈現(xiàn)多輪迭代結(jié)構(gòu),在工作的開始并不知道完整解法、也沒有參考示例,需要在與 Agent 多輪交互中逐漸提出新需求。這類任務(wù)叫迭代式編輯(Iterative Refinement)

例題 拿著這個(gè) SVG 平面圖(venue_layout.svg)和 Excel 約束表(venue_constraints.xlsx),更新會(huì)場(chǎng)布局以滿足所有約束條件,同時(shí)保持設(shè)計(jì)的可讀性和可行走性

Agent 必須具備在不斷變化的約束下維持上下文一致性并穩(wěn)定推進(jìn)任務(wù)的能力

評(píng)測(cè)細(xì)節(jié)

總共 104 道任務(wù),覆蓋工作、生活(游戲攻略、旅游規(guī)劃)和學(xué)習(xí),其中 62 道由文件驅(qū)動(dòng)的合成任務(wù)用于補(bǔ)充長(zhǎng)尾場(chǎng)景

覆蓋 PDF、PPT、Excel、圖像、代碼文件在內(nèi)的 15 種以上格式,模擬真實(shí)工作流程中跨格式、跨來源的模式

每道任務(wù)都帶有一套細(xì)粒度的評(píng)判標(biāo)準(zhǔn),總計(jì) 767 個(gè)評(píng)分點(diǎn),分為正向指標(biāo)(格式一致性、結(jié)構(gòu)復(fù)現(xiàn)、步驟完整)與負(fù)向指標(biāo)(誤刪內(nèi)容、越界生成、錯(cuò)誤操作)

評(píng)測(cè)系統(tǒng)采用 LLM 作為裁判,值得一提的是 Gemini 3-pro 的出現(xiàn)讓 rubrics 打分的準(zhǔn)確性提升到可用的程度

Agent 的得分不僅取決于最終是否完成任務(wù),還包括流程是否干凈、是否出現(xiàn)誤操作、是否正確解析附件、是否能在迭代過程中保持一致性

幾個(gè)有意思的發(fā)現(xiàn)

發(fā)現(xiàn)一:不同框架,拉不開差距

Manus、Genspark 與 ChatGPT-Agent 都集中在 0.62-0.65 區(qū)間,構(gòu)成當(dāng)下能力最強(qiáng)的第一梯隊(duì)

不管是模型原生訓(xùn)練出來的 Agent,還是基于 API 的工具鏈集成,在完成一套真實(shí)任務(wù)鏈時(shí),用戶側(cè)感受到的能力是比較接近的

這印證了一個(gè)判斷:基礎(chǔ) Agent 能力已經(jīng)商品化了


底層模型能力不變的情況下,不同多智能體框架本身難以拉開數(shù)量級(jí)上的性能差異。基座模型會(huì)逐步集成 agentic 能力,下游基于 API 的 Agent 產(chǎn)品,在能力表現(xiàn)上也會(huì)體現(xiàn)出 Agent RL 的能力

發(fā)現(xiàn)二:分場(chǎng)景各有所長(zhǎng)

工作場(chǎng)景:ChatGPT-Agent 72.18,Genspark 71.86,Manus 70.27

生活場(chǎng)景:Manus 73.40,ChatGPT-Agent 69.67,Genspark 67.85

學(xué)習(xí)場(chǎng)景:Genspark 71.19,Manus 64.41,ChatGPT-Agent 59.29

三個(gè)產(chǎn)品迭代方向不同。ChatGPT-Agent 重點(diǎn)關(guān)注 GDPval,聚焦專業(yè)工作場(chǎng)景的體驗(yàn);Manus 與 Genspark 更側(cè)重用戶反饋

xbench 的觀點(diǎn)是:優(yōu)秀的通用 Agent 應(yīng)當(dāng)兼顧最多樣的任務(wù),而不側(cè)重一方

發(fā)現(xiàn)三:分能力維度看

Genspark 在隱式指令推斷上表現(xiàn)最優(yōu),Manus 在開放工作流執(zhí)行最優(yōu),Minimax-Agent 具有最好的迭代式編輯能力

隱式條件推斷是目前 Agent 普遍最薄弱的能力項(xiàng)

比如讓 Agent 從 PPT 模板中抽取頁眉頁腳結(jié)構(gòu)或引用標(biāo)注方式,再遷移到新內(nèi)容生成中


即便是整體表現(xiàn)最好的系統(tǒng),在這類任務(wù)中也很難做到完全正確。要么格式復(fù)現(xiàn)正確但覆蓋不足,要么內(nèi)容理解到位但無法保持結(jié)構(gòu)一致

綜合來看,穩(wěn)定性、文件處理鏈路、隱式結(jié)構(gòu)理解能力,乃至跨工具的狀態(tài)管理,都是決定 Agent 能否真正承擔(dān)一天工作量的關(guān)鍵環(huán)節(jié)

展望:從 OneDay 到 OneWeek

xbench 已經(jīng)開始著手構(gòu)建 OneWeek 評(píng)測(cè)集

他們的判斷是:當(dāng)一個(gè) Agent 能夠在一周尺度的工作量上保持穩(wěn)定高質(zhì)量的產(chǎn)出,它就具備了承擔(dān)真實(shí)崗位的能力

這個(gè)過程有點(diǎn)像自動(dòng)駕駛,從有限路段走向通用路段,從頻繁人工干預(yù)走向長(zhǎng)時(shí)無干預(yù)


有效的數(shù)據(jù)積累可以帶來高可靠 Agent 系統(tǒng)的出現(xiàn),優(yōu)先轉(zhuǎn)起數(shù)據(jù)飛輪的公司將率先實(shí)現(xiàn)通用 Agent 的 FSD 時(shí)刻

xbench 的節(jié)奏

xbench 是紅杉中國(guó) 2025 年 5 月發(fā)的 AI 評(píng)測(cè)基準(zhǔn),設(shè)計(jì)思路是 Evergreen Evaluation,持續(xù)維護(hù)、動(dòng)態(tài)更新

這兩周,他們連發(fā)兩篇:上周是 ,測(cè)多模態(tài)的純視覺能力,這周 AgentIF-OneDay 測(cè) Agent 的日常任務(wù)能力

BabyVision 的結(jié)論是模型的視覺能力普遍低于 3 歲兒童

AgentIF-OneDay 的結(jié)論是最強(qiáng) Agent 在日常任務(wù)上大約 65%

所以嘛,模型的「看」和「做」,都還有很大空間

開源地址

Paper Link
https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

Website
https://xbench.org/

GitHub
https://github.com/xbench-ai/AgentIF-OneDay

HuggingFace
https://huggingface.co/datasets/xbench/AgentIF-OneDay

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
瓜帥崩潰?英超最新奪冠概率:阿森納83.3%,曼城16.6%,有15隊(duì)0%

瓜帥崩潰?英超最新奪冠概率:阿森納83.3%,曼城16.6%,有15隊(duì)0%

風(fēng)過鄉(xiāng)
2026-03-02 20:17:54
阿韋洛亞:裁判縱容了這樣一場(chǎng)比賽,赫塔費(fèi)做了裁判允許的事

阿韋洛亞:裁判縱容了這樣一場(chǎng)比賽,赫塔費(fèi)做了裁判允許的事

懂球帝
2026-03-03 08:39:44
特朗普慌了:中美打不起來,中國(guó)這招讓美軍徹底沒轍

特朗普慌了:中美打不起來,中國(guó)這招讓美軍徹底沒轍

小莜讀史
2026-02-06 17:43:45
巴方總統(tǒng)警告中國(guó)!只要中國(guó)敢出手反制,巴拿馬就動(dòng)手,后果自負(fù)

巴方總統(tǒng)警告中國(guó)!只要中國(guó)敢出手反制,巴拿馬就動(dòng)手,后果自負(fù)

安珈使者啊
2026-03-02 16:58:54
不用攝像頭也能“穿墻識(shí)人”?獲1.7萬星的 WiFi DensePose,撕開了智能感知的底牌

不用攝像頭也能“穿墻識(shí)人”?獲1.7萬星的 WiFi DensePose,撕開了智能感知的底牌

鈦媒體APP
2026-03-02 11:22:18
沖突第3天,伊朗熬過艱難時(shí)刻,打通中方電話,王毅亮明態(tài)度

沖突第3天,伊朗熬過艱難時(shí)刻,打通中方電話,王毅亮明態(tài)度

東極妙嚴(yán)
2026-03-03 11:04:37
伊朗伊斯蘭革命時(shí),人口3900萬,為何現(xiàn)在人口達(dá)到8800萬?

伊朗伊斯蘭革命時(shí),人口3900萬,為何現(xiàn)在人口達(dá)到8800萬?

史行途
2026-03-02 19:21:41
我發(fā)現(xiàn)家庭和睦、過年不吵架的,要么出錢到位,要么有人愿意吃虧

我發(fā)現(xiàn)家庭和睦、過年不吵架的,要么出錢到位,要么有人愿意吃虧

小馬達(dá)情感故事
2026-03-02 11:25:03
78:72爆冷!世預(yù)賽B組大亂,中國(guó)男籃自挖苦坑,日本隊(duì)坐收漁利

78:72爆冷!世預(yù)賽B組大亂,中國(guó)男籃自挖苦坑,日本隊(duì)坐收漁利

行舟問茶
2026-03-02 12:06:53
浙C牌照的群演,救不了中海的業(yè)績(jī)

浙C牌照的群演,救不了中海的業(yè)績(jī)

大嘴説
2026-03-02 17:36:44
比煙草電網(wǎng)還低調(diào)的5個(gè)央國(guó)企:幾乎不社招,但一進(jìn)就是人生贏家

比煙草電網(wǎng)還低調(diào)的5個(gè)央國(guó)企:幾乎不社招,但一進(jìn)就是人生贏家

生活新鮮市
2026-02-26 05:03:46
灣區(qū)雨姐,追夢(mèng)格林身著中國(guó)東北大花襖進(jìn)入球館

灣區(qū)雨姐,追夢(mèng)格林身著中國(guó)東北大花襖進(jìn)入球館

懂球帝
2026-03-03 10:58:37
美國(guó)沒想到,俄羅斯也沒想到!中國(guó)石油,如今會(huì)成為“遙遙領(lǐng)先”

美國(guó)沒想到,俄羅斯也沒想到!中國(guó)石油,如今會(huì)成為“遙遙領(lǐng)先”

來科點(diǎn)譜
2026-02-20 07:16:30
甄子丹模仿者直播重復(fù)臺(tái)詞,動(dòng)作滑稽,網(wǎng)友說:尊嚴(yán)和臉都不要了

甄子丹模仿者直播重復(fù)臺(tái)詞,動(dòng)作滑稽,網(wǎng)友說:尊嚴(yán)和臉都不要了

萱小蕾o
2026-03-02 13:34:24
年薪600萬華為技術(shù)總監(jiān),美國(guó)公民身份曝光,帶13人竊密獲刑

年薪600萬華為技術(shù)總監(jiān),美國(guó)公民身份曝光,帶13人竊密獲刑

過期少女致幻錄
2026-03-02 02:11:15
跑完五省才發(fā)現(xiàn),四川高速限速才是真的“拖后腿”!

跑完五省才發(fā)現(xiàn),四川高速限速才是真的“拖后腿”!

寶哥精彩賽事
2026-03-03 03:11:38
山東男籃拒絕爆冷!全力擊敗廣州,新外援CBA首秀,央視直播

山東男籃拒絕爆冷!全力擊敗廣州,新外援CBA首秀,央視直播

體壇瞎白話
2026-03-03 09:08:07
吃瑞舒伐他汀致大腿酸痛,停藥后仍然酸痛,應(yīng)該怎么辦?講出實(shí)情

吃瑞舒伐他汀致大腿酸痛,停藥后仍然酸痛,應(yīng)該怎么辦?講出實(shí)情

李藥師談健康
2026-03-02 09:27:34
現(xiàn)貨白銀快速跳水 跌幅擴(kuò)大至近6%

現(xiàn)貨白銀快速跳水 跌幅擴(kuò)大至近6%

財(cái)聯(lián)社
2026-03-02 22:30:10
菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少?

菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少?

傲傲講歷史
2025-09-27 16:59:25
2026-03-03 11:40:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
309文章數(shù) 45關(guān)注度
往期回顧 全部

科技要聞

手機(jī)AI在MWC上卷出了新高度

頭條要聞

牛彈琴:多國(guó)對(duì)轟炸保持沉默 西班牙首相確實(shí)是條漢子

頭條要聞

牛彈琴:多國(guó)對(duì)轟炸保持沉默 西班牙首相確實(shí)是條漢子

體育要聞

35輪后積分-7,他們?cè)庥鍪飞献钤绲慕导?jí)

娛樂要聞

謝娜霸氣護(hù)夫:喊話薛之謙給張杰道歉

財(cái)經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

長(zhǎng)安汽車2月銷量151922輛 環(huán)比逆勢(shì)增長(zhǎng)12.8%

態(tài)度原創(chuàng)

游戲
手機(jī)
教育
時(shí)尚
旅游

任天堂壓抑了!官號(hào)盛贊《生化危機(jī)9》里昂:好性感

手機(jī)要聞

2025年全球手機(jī)出貨量12.5億部:蘋果同比增長(zhǎng)7% 再奪全球第一

教育要聞

高中物理全反射實(shí)驗(yàn)課件

普通人穿衣真的很簡(jiǎn)單!單品選對(duì)、搭配合理,大方舒適又得體

旅游要聞

青海海西州:文旅市場(chǎng)“業(yè)態(tài)更新”現(xiàn)活力

無障礙瀏覽 進(jìn)入關(guān)懷版