国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ChatGPT、Manus、Genspark哪家強(qiáng)?紅杉中國(guó)xbench出了考卷

0
分享至

最近,紅杉中國(guó) xbench 在行業(yè)里有不少動(dòng)作,連發(fā)兩篇Agent有關(guān)的論文。

老朋友應(yīng)該都知道,xbench是紅杉中國(guó)推出的一款AI基準(zhǔn)測(cè)試,用來(lái)量化AI系統(tǒng)在真實(shí)場(chǎng)景的效用價(jià)值,采用的是長(zhǎng)青評(píng)估機(jī)制。


xbench想在市面上魚(yú)龍混雜的“刷榜”、“野榜”、“紙面數(shù)據(jù)”之外,建立起一套評(píng)價(jià)標(biāo)準(zhǔn),更好地衡量 AI 模型在真實(shí)業(yè)務(wù)場(chǎng)景中,解決復(fù)雜問(wèn)題的能力。

印象中的投資機(jī)構(gòu),親自下場(chǎng)參與模型能力測(cè)評(píng)以及技術(shù)標(biāo)準(zhǔn)定義的,不算多。
而在AI新技術(shù)范式影響下的VC,似乎已經(jīng)有了新的組織形態(tài),以及在新組織形態(tài)上長(zhǎng)出來(lái)的技術(shù)理解和成果。
記得xbench剛發(fā)布的時(shí)候,我的理解還停留在大模型測(cè)評(píng)集的階段,感覺(jué)是投資人為了追求更精準(zhǔn)的判斷力,主動(dòng)打造的一手實(shí)驗(yàn)數(shù)據(jù)。
現(xiàn)在再看,紅杉中國(guó)對(duì)AI模型能力邊界和Agent發(fā)展路線的理解,不亞于一線的技術(shù)型公司。

所以,別以為投資人不懂技術(shù)、很好忽悠了。
我甚至有種恐慌,也許有一天,頭部基金,用Venture Studio等形式,親自下場(chǎng)做產(chǎn)品也很正常。
聽(tīng)說(shuō)已經(jīng)有了。
難道下一個(gè)字節(jié)跳動(dòng),會(huì)是投資人在投資機(jī)構(gòu)里,自己vibe coding出來(lái)的嗎?
說(shuō)不定真的有可能。


https://xbench.org/

具體說(shuō)說(shuō)這兩篇論文是咋回事。

上周,xbench 聯(lián)合 UniPat AI 發(fā)布了 BabyVision,一個(gè)專注于純視覺(jué)理解能力的評(píng)測(cè)集。

它討論的主題很明確:在世界模型和視覺(jué)多模態(tài)這條路上,模型的潛力遠(yuǎn)沒(méi)有被完全釋放。

那套評(píng)測(cè)并不急著給模型打分,更像是在提醒行業(yè),未來(lái)的能力增長(zhǎng),很可能來(lái)自對(duì)真實(shí)世界結(jié)構(gòu)的重新理解。

這一周,xbench 又向前推了一步。

這一次,關(guān)注點(diǎn)從「看懂世界」轉(zhuǎn)向了「把一天過(guò)完」。


https://xbench.org/agi/agentif

AgentIF-OneDay 的出現(xiàn),標(biāo)志著 Agent 評(píng)測(cè)從短時(shí)、單點(diǎn)、封閉任務(wù),正式進(jìn)入長(zhǎng)時(shí)、復(fù)雜、全場(chǎng)景的現(xiàn)實(shí)尺度。

它試圖回答一個(gè)簡(jiǎn)單又殘酷的問(wèn)題:如果把人類一天的任務(wù)量完整交給一個(gè) Agent,它能否在沒(méi)有人工介入的情況下,把事情真正做完。

在當(dāng)前的行業(yè)語(yǔ)境下,這個(gè)問(wèn)題比任何排行榜都更重要。

01.當(dāng)單點(diǎn)能力接近 PhD,Agent 的短板開(kāi)始暴露

過(guò)去一年,大模型在單點(diǎn)推理任務(wù)上的進(jìn)步已經(jīng)非常明顯。

無(wú)論數(shù)學(xué)、代碼,還是知識(shí)密集型問(wèn)答,分鐘級(jí)任務(wù)的完成質(zhì)量已經(jīng)逼近人類高水平專家。

ScienceQA、DeepSearch 這類評(píng)測(cè)的多次升級(jí),也不斷拉高著模型的上限。

問(wèn)題出現(xiàn)在時(shí)間被拉長(zhǎng)之后。

一旦任務(wù)復(fù)雜度超過(guò)普通人一小時(shí)可以處理的范圍,Agent 的整體完成度會(huì)出現(xiàn)明顯下滑。


這種下滑并不體現(xiàn)在某個(gè)步驟做錯(cuò),而是體現(xiàn)在全過(guò)程的失控:上下文斷裂、中間目標(biāo)丟失、工具調(diào)用前后不一致、隱含約束被忽略,最終導(dǎo)致任務(wù)在形式上完成,實(shí)質(zhì)上失敗。

這道鴻溝的存在,讓「Agent 已經(jīng)很強(qiáng)」與「Agent 還不能真正替你工作」這兩種判斷同時(shí)成立。

xbench 在這一階段選擇引入 AgentIF-OneDay,本質(zhì)上是一次尺度的重構(gòu)。

評(píng)測(cè)的核心不再是模型知道多少知識(shí),也不只是能否完成某個(gè)高難度推理點(diǎn),而是把注意力轉(zhuǎn)向一個(gè)更貼近現(xiàn)實(shí)的問(wèn)題:完成一個(gè)任務(wù),需要消耗多少人類時(shí)間,這個(gè)時(shí)間背后,對(duì)應(yīng)著怎樣的經(jīng)濟(jì)價(jià)值。

02.用「人類一天」重新定義 Agent 的能力邊界

AgentIF-OneDay 背后的一個(gè)關(guān)鍵判斷,是將任務(wù)復(fù)雜度與知識(shí)深度解耦。

在傳統(tǒng)評(píng)測(cè)中,復(fù)雜度往往意味著推理鏈更長(zhǎng)、知識(shí)點(diǎn)更冷門、邏輯結(jié)構(gòu)更精巧。

但在真實(shí)工作中,復(fù)雜度更多來(lái)自時(shí)間和協(xié)同成本。一個(gè)任務(wù)并不一定難,卻可能極其耗時(shí),需要反復(fù)確認(rèn)信息、切換工具、處理格式、校驗(yàn)結(jié)果,還要在過(guò)程中持續(xù)保持目標(biāo)一致。

xbench 提出了兩個(gè)決定 Agent 能力上限的軸線:scaling context 與 scaling domain。


前者關(guān)注時(shí)間維度。

Agent 是否能在更長(zhǎng)的執(zhí)行周期中維護(hù)上下文狀態(tài),記住中間結(jié)果,遵守先前的約束,在多步驟、多工具的交互中保持一致性。

從分鐘級(jí),到小時(shí)級(jí),再到一天級(jí),這是一個(gè)對(duì)穩(wěn)定性和記憶管理要求極高的過(guò)程。

后者關(guān)注任務(wù)分布。

現(xiàn)實(shí)世界的工作很少是單一領(lǐng)域的連續(xù)推理,而是跨 domain、跨格式、跨語(yǔ)境的混合任務(wù)。

目標(biāo)表述往往不完整,約束隱藏在附件里,評(píng)估標(biāo)準(zhǔn)隨場(chǎng)景變化。

Agent 能否覆蓋更廣泛的任務(wù)類型,決定了它是否具備真正的通用性。

AgentIF-OneDay 正是沿著這兩條軸線展開(kāi)設(shè)計(jì)。它把評(píng)測(cè)的時(shí)間尺度推進(jìn)到 OneDay,同時(shí)覆蓋生活、學(xué)習(xí)與職業(yè)等多個(gè)高頻場(chǎng)景,試圖描繪出當(dāng)前 Agent 在真實(shí)世界任務(wù)分布中的能力輪廓。

03.把一天拆開(kāi),工作流、范例與迭代才是真實(shí)世界


在構(gòu)造評(píng)測(cè)任務(wù)之前,xbench 分析了大量用戶的真實(shí)工作日志。

一個(gè)有意思的發(fā)現(xiàn)是,具體內(nèi)容千差萬(wàn)別,但任務(wù)結(jié)構(gòu)高度穩(wěn)定。

大多數(shù)人的一天,可以被抽象為三種類型。

第一類是工作流執(zhí)行。

用戶清楚知道該做什么,步驟明確,難點(diǎn)集中在執(zhí)行的繁瑣性和信息校驗(yàn)上。

以 NeurIPS 行程規(guī)劃為例,Agent 需要跨站點(diǎn)核驗(yàn)信息、收集時(shí)間節(jié)點(diǎn)、判斷日程是否發(fā)布,再給出不同優(yōu)化目標(biāo)下的方案。

這類任務(wù)考驗(yàn)的不是創(chuàng)造力,而是耐心、準(zhǔn)確性和流程一致性。

第二類是范例參考。

用戶無(wú)法完整描述規(guī)則,只能提供示例或附件。換手機(jī)套餐的例子中,Agent 需要從文件中推斷隱含條件,在顯式指令與隱式約束之間做出平衡。

這是人類日常工作中最常見(jiàn)的模式,也是 Agent 走向內(nèi)容生產(chǎn)、報(bào)告生成等職業(yè)型任務(wù)的前提。

第三類是迭代式編輯。

需求在過(guò)程中不斷變化,約束逐步顯現(xiàn),解法并不預(yù)先存在。

更新會(huì)場(chǎng)布局的任務(wù),要求 Agent 在多輪修改中保持上下文一致,同時(shí)遵守來(lái)自不同文件的硬性條件。這類任務(wù)對(duì)狀態(tài)管理和長(zhǎng)期一致性的要求極高。


AgentIF-OneDay 的 104 道任務(wù),正是圍繞這三種結(jié)構(gòu)展開(kāi)。

文件驅(qū)動(dòng)的合成任務(wù)覆蓋了 PDF、PPT、Excel、圖像、代碼等 15 種以上格式,模擬的正是現(xiàn)實(shí)工作中極為常見(jiàn)的跨來(lái)源、跨工具流程。

04.當(dāng)評(píng)分變得細(xì)碎,Agent 的失誤也無(wú)處可藏

為了避免「結(jié)果對(duì)了就算贏」的粗糙判斷,AgentIF-OneDay 為每道任務(wù)設(shè)計(jì)了細(xì)粒度的評(píng)分標(biāo)準(zhǔn),總計(jì) 767 個(gè)評(píng)分點(diǎn)。

這些評(píng)分點(diǎn)既包含正向指標(biāo),也包含負(fù)向指標(biāo)。

格式是否一致、結(jié)構(gòu)是否復(fù)現(xiàn)、步驟是否完整,會(huì)被逐一檢查;誤刪內(nèi)容、越界生成、錯(cuò)誤操作,同樣會(huì)被明確扣分。


評(píng)測(cè)系統(tǒng)采用 LLM 作為裁判,并結(jié)合網(wǎng)頁(yè)檢索、HTML 渲染、多模態(tài)比對(duì)等自動(dòng)校驗(yàn)方式,盡量減少主觀偏差。

在這套機(jī)制下,Agent 的得分不只取決于有沒(méi)有完成任務(wù),更取決于過(guò)程是否干凈,是否正確解析附件,是否在迭代中保持一致。

評(píng)測(cè)結(jié)果也呈現(xiàn)出一些值得玩味的現(xiàn)象。


從整體任務(wù)成功率來(lái)看,Manus、Genspark 與 ChatGPT-Agent 集中在 0.62–0.65 區(qū)間,構(gòu)成第一梯隊(duì)。

不同技術(shù)路線的 Agent,在真實(shí)任務(wù)鏈上的體感差異并沒(méi)有拉開(kāi)數(shù)量級(jí)。

這在一定程度上印證了模型能力的重要性,在不引入 test-time scaling 的前提下,多智能體框架本身很難制造巨大差距。

從任務(wù)領(lǐng)域看,ChatGPT-Agent 更偏向?qū)I(yè)生產(chǎn)力,Manus 在生活助手場(chǎng)景表現(xiàn)突出,Genspark 更適合學(xué)習(xí)型任務(wù)。


不同產(chǎn)品的迭代方向,決定了各自的長(zhǎng)項(xiàng)與短板。

從能力維度看,Genspark 在隱式指令推斷上表現(xiàn)最佳,Manus 在開(kāi)放工作流執(zhí)行中更穩(wěn)定,Minimax-Agent 在迭代式編輯中優(yōu)勢(shì)明顯。


隱式結(jié)構(gòu)理解依然是當(dāng)前 Agent 普遍的薄弱環(huán)節(jié),尤其是在格式遷移和規(guī)則抽取任務(wù)中,完整正確的案例仍然罕見(jiàn)。

這些結(jié)果共同指向一個(gè)結(jié)論:穩(wěn)定性、文件處理鏈路、隱式結(jié)構(gòu)理解能力,以及跨工具的狀態(tài)管理,才是決定 Agent 能否承擔(dān)一天工作量的關(guān)鍵。

05.從OneDay到OneWeek,Agent的下一道門檻

在 AgentIF-OneDay 之后,xbench 已經(jīng)開(kāi)始構(gòu)建 OneWeek 級(jí)別的評(píng)測(cè)集。

一周尺度的任務(wù),帶來(lái)的挑戰(zhàn)并不僅僅是時(shí)間更長(zhǎng)。

隨著跨度增加,任務(wù)往往會(huì)自然嵌入具體行業(yè)語(yǔ)境,金融、醫(yī)療、法律等高價(jià)值場(chǎng)景的數(shù)據(jù)獲取成本顯著上升,rubric 的設(shè)計(jì)也會(huì)變得更加嚴(yán)格。

在這一階段,依賴靜態(tài)數(shù)據(jù)集和離線評(píng)測(cè)的方式開(kāi)始顯露局限性。

Agent 要想進(jìn)一步提升,很難只靠訓(xùn)練時(shí)吃下更多人類知識(shí),而需要在實(shí)際運(yùn)行中不斷修正行為。這也是近期 online learning 討論升溫的背景。

如果把長(zhǎng)程 Agent 的發(fā)展類比自動(dòng)駕駛,那么當(dāng)前階段更接近有限路段的輔助駕駛。

真正的 FSD 時(shí)刻,依賴于大量真實(shí)場(chǎng)景數(shù)據(jù)的積累。用戶數(shù)據(jù)帶來(lái)的場(chǎng)景多樣性,是系統(tǒng)泛化能力的關(guān)鍵來(lái)源。

在 Agent 領(lǐng)域,同樣的邏輯正在顯現(xiàn)。誰(shuí)能率先建立高質(zhì)量的數(shù)據(jù)飛輪,誰(shuí)就更有可能率先交付可靠的長(zhǎng)程 Agent。

當(dāng) Agent 能夠在一周尺度上穩(wěn)定產(chǎn)出,它才真正具備進(jìn)入組織、承擔(dān)崗位、創(chuàng)造持續(xù)經(jīng)濟(jì)價(jià)值的資格。

AgentIF-OneDay 的意義,正在于此。

它并不宣告某個(gè)系統(tǒng)已經(jīng)足夠成熟,而是清晰地標(biāo)出了下一段路的難度與方向。

最后,強(qiáng)烈大家去看看論文原文!

以及去紅杉中國(guó)xbench的官網(wǎng)去看看,上面有各種各樣的打分和排名,還有些好玩的小東西!


https://xbench.org/

AI一年,人間十年。

連投資人都這么努力,我們也多看些論文吧……


Paper Link:

https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

website:

https://xbench.org/

github:

https://github.com/xbench-ai/AgentIF-OneDay

huggingface:

https://huggingface.co/datasets/xbench/AgentIF-OneDay

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
51集諜戰(zhàn)大劇來(lái)襲,連續(xù)4天全國(guó)第一,這部諜戰(zhàn)作品值得一看

51集諜戰(zhàn)大劇來(lái)襲,連續(xù)4天全國(guó)第一,這部諜戰(zhàn)作品值得一看

樂(lè)楓電影
2026-04-09 14:10:12
三峽大壩收支出爐:運(yùn)行20余年,總投資近2500億,如今回本了嗎?

三峽大壩收支出爐:運(yùn)行20余年,總投資近2500億,如今回本了嗎?

丁丁鯉史紀(jì)
2026-04-07 10:44:35
1939年,一名波蘭女孩赤身露體被迫和德軍合影,低著頭一臉羞愧

1939年,一名波蘭女孩赤身露體被迫和德軍合影,低著頭一臉羞愧

浩舞默畫(huà)
2026-04-07 09:05:56
陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

一曲一場(chǎng)談
2026-04-09 13:56:12
燈滅之后的砂砂舞廳:五塊錢的舊時(shí)光與二十塊的新江湖

燈滅之后的砂砂舞廳:五塊錢的舊時(shí)光與二十塊的新江湖

成都人的故事
2026-04-09 17:55:06
以色列空襲一天內(nèi)致上千人死傷 黎巴嫩宣布全國(guó)哀悼

以色列空襲一天內(nèi)致上千人死傷 黎巴嫩宣布全國(guó)哀悼

國(guó)際在線
2026-04-09 08:11:56
查了下資料,有點(diǎn)心疼遲重瑞了!

查了下資料,有點(diǎn)心疼遲重瑞了!

木子愛(ài)娛樂(lè)大號(hào)
2026-04-08 15:49:32
馬克龍簽涉臺(tái)聲明后,中方雙管齊下,朱鳳蓮強(qiáng)硬發(fā)聲,法國(guó)賭輸了

馬克龍簽涉臺(tái)聲明后,中方雙管齊下,朱鳳蓮強(qiáng)硬發(fā)聲,法國(guó)賭輸了

像夢(mèng)一場(chǎng)a
2026-04-10 02:05:33
錯(cuò)失最年輕147,中國(guó)17歲斯諾克少年橫空出世,10-5晉級(jí)第2輪

錯(cuò)失最年輕147,中國(guó)17歲斯諾克少年橫空出世,10-5晉級(jí)第2輪

真理是我親戚
2026-04-09 11:14:21
小女孩玩“拼豆”不幸離世,這些安全隱患要警惕

小女孩玩“拼豆”不幸離世,這些安全隱患要警惕

大象新聞
2026-04-09 18:21:08
原來(lái)她已去世4年,曾穿旗袍滿身帝王綠,300間商鋪345套房隨便住

原來(lái)她已去世4年,曾穿旗袍滿身帝王綠,300間商鋪345套房隨便住

混沌錄
2026-04-09 18:24:16
美伊停戰(zhàn)內(nèi)幕曝光:特朗普被猶太人釣成了翹嘴

美伊停戰(zhàn)內(nèi)幕曝光:特朗普被猶太人釣成了翹嘴

木蹊說(shuō)
2026-04-10 00:56:49
特別巨大是多大

特別巨大是多大

言立方
2026-04-07 12:02:41
CBA新排名!北京重返四強(qiáng),廣東第五遼寧第九,深圳男籃連升三級(jí)

CBA新排名!北京重返四強(qiáng),廣東第五遼寧第九,深圳男籃連升三級(jí)

中國(guó)籃壇快訊
2026-04-10 00:00:52
福建車輛墜河5死后續(xù),親戚澄清3條真相,尤其痛心是車外男子身份

福建車輛墜河5死后續(xù),親戚澄清3條真相,尤其痛心是車外男子身份

天天熱點(diǎn)見(jiàn)聞
2026-04-09 17:24:21
廣東男子掃墓發(fā)現(xiàn)巨型蛇蛻,腹鱗比手掌都寬!網(wǎng)友:不能亂拿!

廣東男子掃墓發(fā)現(xiàn)巨型蛇蛻,腹鱗比手掌都寬!網(wǎng)友:不能亂拿!

貍貓之一的動(dòng)物圈
2026-04-09 09:00:30
四小時(shí)摧毀伊朗,法國(guó)提前動(dòng)手,中方罕見(jiàn)表態(tài),伊朗:美國(guó)中計(jì)了

四小時(shí)摧毀伊朗,法國(guó)提前動(dòng)手,中方罕見(jiàn)表態(tài),伊朗:美國(guó)中計(jì)了

云舟史策
2026-04-08 07:38:51
悲壯!美國(guó)或?qū)l(fā)動(dòng)滅國(guó)之戰(zhàn),1400萬(wàn)伊朗人甘愿為國(guó)犧牲

悲壯!美國(guó)或?qū)l(fā)動(dòng)滅國(guó)之戰(zhàn),1400萬(wàn)伊朗人甘愿為國(guó)犧牲

兵國(guó)大事
2026-04-08 00:05:08
“我們毫無(wú)勝算”本田社長(zhǎng)來(lái)了趟中國(guó),回國(guó)就把自家新車全給砍了

“我們毫無(wú)勝算”本田社長(zhǎng)來(lái)了趟中國(guó),回國(guó)就把自家新車全給砍了

半身Naked
2026-04-09 22:07:24
為什么WTO很少被提起了?中國(guó)入世談判花了15年,如今幾乎被架空

為什么WTO很少被提起了?中國(guó)入世談判花了15年,如今幾乎被架空

有范又有料
2026-04-07 16:45:46
2026-04-10 03:28:49
AI異類 incentive-icons
AI異類
從硅谷到中關(guān)村,AI信息與測(cè)評(píng)
148文章數(shù) 6關(guān)注度
往期回顧 全部

科技要聞

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

頭條要聞

以色列總理:同意與黎巴嫩直接談判

頭條要聞

以色列總理:同意與黎巴嫩直接談判

體育要聞

8萬(wàn)人面前心臟驟停 現(xiàn)在他還站在球場(chǎng)上

娛樂(lè)要聞

金莎官宣結(jié)婚 與老公孫丞瀟相差18歲

財(cái)經(jīng)要聞

停火又懸了,最糟糕的情況要來(lái)了?

汽車要聞

文飛掌舵,給神行者帶來(lái)了什么?

態(tài)度原創(chuàng)

本地
時(shí)尚
房產(chǎn)
數(shù)碼
公開(kāi)課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

越來(lái)越流行的松弛感穿搭,照著穿就很好看

房產(chǎn)要聞

利潤(rùn)暴跌44%!那個(gè)春節(jié)被罵慘了的海峽股份 正在經(jīng)歷什么?

數(shù)碼要聞

華為多款新品在路上:Pura 90、闊折疊、AI眼鏡、平板耳機(jī)全都有

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版