国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從大模型到Agent的跨越難度,正被整個(gè)行業(yè)嚴(yán)重低估

0
分享至

文 | 硅基星芒

過(guò)去兩年,AI 敘事的坐標(biāo)系近乎失準(zhǔn)。

MMLU、HumanEval 這類(lèi)靜態(tài)指標(biāo)像高考榜單一樣被反復(fù)張貼,不斷刷新的數(shù)字仿佛宣告通用人工智能已抵近終點(diǎn)線。

然而,一種名為APEX?Agents的新基準(zhǔn)戳破了這層幻象。

它揭示的并非模型智商的線性進(jìn)步,而是一個(gè)殘酷的悖論:當(dāng) AI 試圖從“回答問(wèn)題”跨越到“完成工作”時(shí),能力的提升正陷入嚴(yán)重的數(shù)據(jù)饑渴。

從LLM(語(yǔ)言大模型)到Agent的轉(zhuǎn)向,不是版本的升級(jí),而是一次從靜態(tài)智力到動(dòng)態(tài)生產(chǎn)力的范式轉(zhuǎn)移。其跨越難度,被整個(gè)行業(yè)嚴(yán)重低估。

評(píng)測(cè)權(quán)杖的交接

在過(guò)去的三年中,LLM一直是AI的主要形態(tài)。

那時(shí),人們?cè)u(píng)測(cè)模型的重心在于“智商”,也就是模型能夠掌握多少靜態(tài)知識(shí)、能否正確進(jìn)行邏輯推導(dǎo)。

但隨著AI的形態(tài)在不到半年間從LLM全面過(guò)渡到Agent,評(píng)測(cè)的權(quán)杖也必須發(fā)生交接。

Agent的核心本質(zhì)就在于它必須與數(shù)字環(huán)境甚至真實(shí)物理環(huán)境進(jìn)行高頻的感知和交互。

APEX-Agents基準(zhǔn)測(cè)試選擇徹底摒棄了以往“一問(wèn)一答”式的數(shù)學(xué)和編程考卷,取而代之的則是33個(gè)數(shù)據(jù)豐富的模擬世界(Worlds)。

每個(gè)世界都代表一個(gè)獨(dú)特的項(xiàng)目場(chǎng)景,其中平均包含166個(gè)文件并涉及9個(gè)以上的應(yīng)用程序工具。

對(duì)于模型來(lái)說(shuō),這與大語(yǔ)言模型“紙上談兵”的交互方式截然不同。

它被投放在一個(gè)數(shù)字沙盒之中,但這次要面對(duì)的不是各種復(fù)雜的數(shù)學(xué)題和編程題,而是要像人類(lèi)員工一樣在長(zhǎng)達(dá)數(shù)小時(shí)的任務(wù)鏈條中觀察環(huán)境變化、拆解復(fù)雜指令、調(diào)用各種工具并交付最終成果。


智能體時(shí)代初期的代碼執(zhí)行、PDF解析、電子表格標(biāo)簽操作等目標(biāo),也變成了微小但容錯(cuò)率極低的中間環(huán)節(jié)。

這種評(píng)價(jià)標(biāo)準(zhǔn)的轉(zhuǎn)變,反映出了AGI門(mén)檻的實(shí)質(zhì)性變化:

它關(guān)心的不是模型知道什么,而是在復(fù)雜的環(huán)境下能做成什么。

為了模擬真實(shí)職場(chǎng)給人類(lèi)帶來(lái)的“重力感”,APEX還下血本邀請(qǐng)了來(lái)自麥肯錫、高盛、思科等企業(yè)共256位擁有平均12.9年行業(yè)經(jīng)驗(yàn)的頂級(jí)專(zhuān)家。

這些專(zhuān)家不僅要基于專(zhuān)業(yè)知識(shí)給模型提出任務(wù),還要給出明確的“過(guò)程準(zhǔn)則(Rubrics)”,讓評(píng)測(cè)從一場(chǎng)智力游戲徹底蛻變成生產(chǎn)力的挑戰(zhàn)。

被無(wú)情揭開(kāi)的性能“遮羞布”

面對(duì)APEX-Agents的Pass@1(一次通過(guò)率)排行榜結(jié)果,任何出于商業(yè)化目的鼓吹“AGI即將實(shí)現(xiàn)”的說(shuō)法都不攻自破。

數(shù)據(jù)展現(xiàn)出了令人冷靜的低迷,而這種低準(zhǔn)確率和高跑分結(jié)果形成了鮮明的對(duì)比,直接戳破了AGI的泡沫。

這項(xiàng)基準(zhǔn)測(cè)試的場(chǎng)景主要用于評(píng)估三個(gè)職位:企業(yè)律師、管理顧問(wèn)和投資銀行分析師。

報(bào)告顯示,全球AI三巨頭之一的Google旗下的Gemini 3 Flash在開(kāi)啟高度思考模式下,也只得到了24%的分?jǐn)?shù)。


同為三巨頭之一的GPT-5.2(High)也沒(méi)好到哪里去,以23%的分?jǐn)?shù)位居第二。

具體到細(xì)分的職業(yè)場(chǎng)景中,分?jǐn)?shù)也都不太理想,再先進(jìn)的模型也難以突破30%的門(mén)檻。


在這個(gè)情況下,討論哪個(gè)模型能力更強(qiáng)已經(jīng)意義不大。

關(guān)鍵的問(wèn)題在于,為什么以前使用體驗(yàn)很好的LLM在實(shí)際任務(wù)中表現(xiàn)得如此差勁?

APEX報(bào)告指出了幾個(gè)關(guān)鍵的失敗模式,而這正是大模型無(wú)法轉(zhuǎn)變?yōu)樯a(chǎn)力工具的最大限制:

死循環(huán)(Doom Looping):模型在遇到工具調(diào)用失敗時(shí),無(wú)法進(jìn)行有效的反思,而是反復(fù)嘗試同樣的錯(cuò)誤指令,直到消耗完預(yù)設(shè)的步數(shù)限制。因此,現(xiàn)階段的Agent仍然缺乏認(rèn)知能力。

流氓行為(Rogue Behavior):GPT-5.2在測(cè)試中曾經(jīng)犯下大錯(cuò),意外刪除了21個(gè)關(guān)鍵的生產(chǎn)文件。對(duì)于嚴(yán)謹(jǐn)?shù)慕鹑诤头深I(lǐng)域,這種誤操作必然招致災(zāi)難性的后果。

長(zhǎng)時(shí)程規(guī)劃迷失:當(dāng)任務(wù)步驟超過(guò)了限制,模型的“意圖漂移(Intent Drift)”現(xiàn)象極為嚴(yán)重這也是Vibe Coding中最常見(jiàn)的情況,模型在任務(wù)執(zhí)行到一半時(shí)早已忘記了初始目標(biāo)。

若將嘗試次數(shù)放寬至8次(Pass@8),頂尖模型的得分能夠接近40%,但衡量穩(wěn)定性的指標(biāo)卻降到了最低6.5%,這就是當(dāng)前智能體的典型特征:具備潛力,但極不穩(wěn)定。

換句話說(shuō),智能體能夠產(chǎn)出碎片化的有效信息,但難以完成閉環(huán)交付。

這些數(shù)據(jù)也揭示了一個(gè)被刻意掩蓋的真相:

現(xiàn)階段的智能體最多只能算是AGI的最初級(jí)形態(tài)。

那些鼓吹A(chǔ)GI進(jìn)度已經(jīng)完成大半的說(shuō)法,完全是基于靜態(tài)智商測(cè)試的商業(yè)包裝。

傳統(tǒng)LLM的性能瓶頸主要在于算力和參數(shù)量,而Agent時(shí)代的門(mén)檻已經(jīng)轉(zhuǎn)移到任務(wù)編排、狀態(tài)管理、錯(cuò)誤恢復(fù)和長(zhǎng)程規(guī)劃。

智能體連“可用”和“可靠”之間的鴻溝都無(wú)法跨越,更不要提“好用”,在復(fù)雜的工作流面前,AI依然顯得十分稚嫩。

成本的陷阱

在現(xiàn)有的Agent測(cè)評(píng)中,準(zhǔn)確率順理成章地成為了唯一的主角,但對(duì)商業(yè)落地具有決定性影響的token消耗成本往往無(wú)人提及。

眾所周知,Agent相比于LLM,消耗的token成本完全不在一個(gè)量級(jí)。

APEX報(bào)告提供的數(shù)據(jù)讓這種差距更加具象化:


以24%的Pass@1分?jǐn)?shù)領(lǐng)跑的Google最新模型Gemini 3 Flash單次任務(wù)平均消耗的token達(dá)到了531.5萬(wàn),大約是GPT-5.2的5倍、Gemini 3 Pro的8倍。

然而,性能優(yōu)勢(shì)的差距只有1%。

這個(gè)數(shù)字已經(jīng)足以讓所有開(kāi)發(fā)者在做出決策前冷靜下來(lái)。

如果按照目前閉源模型的價(jià)格核算,完成一個(gè)復(fù)雜的投行任務(wù),算力成本必然高達(dá)幾十美金。

即便不考慮模型部署的固定成本,AI的運(yùn)行成本也已經(jīng)逼近甚至超過(guò)了初級(jí)人類(lèi)分析師的時(shí)薪。

目前智能體展現(xiàn)出來(lái)的較低水平的準(zhǔn)確率,本質(zhì)上也是建立在不計(jì)成本的暴力推理之上而實(shí)現(xiàn)的。

模型可以通過(guò)海量的思維鏈(CoT)和反復(fù)重試來(lái)?yè)Q取成功率,但在商業(yè)情境下,這兩種方式都不可能無(wú)限制使用。

因此,這種“高消耗+低增益”的邊際遞減效應(yīng)直接指向了一個(gè)產(chǎn)業(yè)級(jí)的命題:

在智能體時(shí)代,性?xún)r(jià)比必須與準(zhǔn)確率同等重要,甚至更具決定性。

未來(lái)的Agent基準(zhǔn)測(cè)試,必須引入基于token的投資回報(bào)率。

如果Agent無(wú)法實(shí)現(xiàn)低功耗、高精度的閉環(huán),它就永遠(yuǎn)無(wú)法成為社會(huì)期待的通用基礎(chǔ)設(shè)施。

生態(tài)分化與商業(yè)格局

APEX報(bào)告中另一個(gè)值得關(guān)注的現(xiàn)象在于開(kāi)源模型在這場(chǎng)基準(zhǔn)測(cè)試中的全面潰敗。

在LLM時(shí)代,開(kāi)源模型憑借著參數(shù)量的擴(kuò)張和高質(zhì)量語(yǔ)料庫(kù)的預(yù)訓(xùn)練,在多項(xiàng)靜態(tài)基準(zhǔn)中已經(jīng)屢屢逼近甚至反超AI巨頭的上一代旗艦?zāi)P汀?/p>

但進(jìn)入Agent時(shí)代以后,“開(kāi)源平權(quán)”的敘事已經(jīng)接近失效。

盡管全球范圍內(nèi)的頂尖模型也做不到“可靠”,但閉源模型還是對(duì)開(kāi)源模型形成了降維打擊,像GPT-OSS-120B和Kimi K2的得分甚至低于5%。


但事實(shí)證明,面對(duì)長(zhǎng)時(shí)程規(guī)劃、嚴(yán)格指令遵循和工具調(diào)用的實(shí)戰(zhàn)任務(wù)時(shí),這些開(kāi)源模型仍然處于不可用的狀態(tài)。

當(dāng)然,把這種落差單純歸因于基礎(chǔ)模型推理能力不足并不客觀,智能體能力的系統(tǒng)復(fù)合性也極為重要。

一個(gè)能穩(wěn)定執(zhí)行長(zhǎng)周期任務(wù)的Agent不僅需要底層模型具備強(qiáng)大的語(yǔ)言理解能力,還需要把軌跡優(yōu)化、狀態(tài)一致性等LLM時(shí)代容易被忽視的細(xì)節(jié)做得更完美。

閉環(huán)數(shù)據(jù)、大規(guī)模算力調(diào)度、端到端的技術(shù)棧,這些都是閉源廠商在智能體時(shí)代的商業(yè)命脈。

但開(kāi)源模型目前仍然停留在初期階段,缺少高質(zhì)量的行為對(duì)齊數(shù)據(jù)。

掌控了智能體的“辦事邏輯”和執(zhí)行軌跡,就等同于建立起一道堅(jiān)固的數(shù)據(jù)壁壘。

因此,LLM時(shí)代AI邏輯被顛覆的同時(shí),我們也可以清晰地看到眼前的事實(shí)和未來(lái)的趨勢(shì):

那些真正能放在智能體中“辦事”的模型,幾乎都不是免費(fèi)的。

存量數(shù)據(jù)正成為重大挑戰(zhàn)

無(wú)論是LLM的時(shí)代,還是Agent的時(shí)代,AI的三要素始終沒(méi)有變化:算法、算力和數(shù)據(jù)。

在上一篇文章中算力經(jīng)濟(jì)學(xué)的邏輯,在Agent時(shí)代徹底改寫(xiě)了,我們已經(jīng)說(shuō)過(guò)算力緊缺是客觀存在且短期內(nèi)不可改變的事實(shí)。

但智能體取代LLM成為新時(shí)代的AI形態(tài)的同時(shí),一個(gè)根本性的挑戰(zhàn)也已經(jīng)擺在所有人的面前:

Agent能力的提升已經(jīng)陷入嚴(yán)重的數(shù)據(jù)饑渴。

字節(jié)跳動(dòng)震驚全球的Seedance 2.0成功案例已經(jīng)證明,在TikTok的加持下,憑借海量真實(shí)的視覺(jué)數(shù)據(jù),即便算力相比Google和OpenAI處于劣勢(shì),但仍然能超越Veo和Sora實(shí)現(xiàn)多模態(tài)領(lǐng)域的突破。

但這一套成功的邏輯并不能直接套用到智能體上,因?yàn)?strong>文本、圖像、音頻和視頻都是現(xiàn)實(shí)世界中在AI出現(xiàn)之前就已經(jīng)存在的“非結(jié)構(gòu)化”存量。

Agent執(zhí)行任務(wù)的邏輯與多模態(tài)模型不同,它是一套“人如何使用工具完成任務(wù)”的隱形邏輯。

顯然,這種邏輯在AI出現(xiàn)之前不可能被大規(guī)模數(shù)字化記錄。

人類(lèi)如何打開(kāi)Excel、如何根據(jù)報(bào)錯(cuò)修改公式、如何在郵件中確認(rèn)需求,這些日常生活中最常見(jiàn)的情景,對(duì)于AI來(lái)說(shuō)極其復(fù)雜而且難以抽象。

互聯(lián)網(wǎng)上存在海量的高質(zhì)量文本數(shù)據(jù),卻幾乎沒(méi)有高質(zhì)量的“任務(wù)執(zhí)行軌跡”。

事實(shí)上,黃仁勛在2024年的預(yù)言就精確命中了這個(gè)痛點(diǎn):?jiǎn)渭円蕾?lài)現(xiàn)有的數(shù)據(jù)堆砌無(wú)法支撐下一代AI的演進(jìn)。

和具身智能一樣,想要解決現(xiàn)階段智能體的瓶頸,必須構(gòu)建高保真的虛擬世界環(huán)境,并通過(guò)合成數(shù)據(jù)(Synthetic Data)技術(shù)生成高質(zhì)量的訓(xùn)練樣本。

APEX基準(zhǔn)測(cè)試中構(gòu)建的Archipelago基礎(chǔ)設(shè)施,實(shí)際上就是為了智能體專(zhuān)門(mén)提供的加速迭代試驗(yàn)場(chǎng)。

在這些虛擬環(huán)境中,Agent可以經(jīng)歷數(shù)百萬(wàn)次失敗和修正,模擬真實(shí)職場(chǎng)中難以復(fù)現(xiàn)的極端場(chǎng)景。

未來(lái)的AGI門(mén)檻,將不再是誰(shuí)閱讀過(guò)的互聯(lián)網(wǎng)文本更多,而是誰(shuí)在仿真環(huán)境里見(jiàn)過(guò)的行動(dòng)軌跡更豐富。

智能體訓(xùn)練的本質(zhì)仍是強(qiáng)化學(xué)習(xí),而在沒(méi)有充足的“學(xué)習(xí)資料”的當(dāng)下,結(jié)果只能是嚴(yán)重的欠擬合。

APEX基準(zhǔn)測(cè)試不僅是一個(gè)技術(shù)指標(biāo),還是一次對(duì)行業(yè)認(rèn)知的重塑。

人們應(yīng)該看清,我們距離真正的AI生產(chǎn)力革命還有多遠(yuǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一車(chē)牌號(hào)帶8888的奔馳S450L疑似作為陪葬品下葬,官方通報(bào)

一車(chē)牌號(hào)帶8888的奔馳S450L疑似作為陪葬品下葬,官方通報(bào)

界面新聞
2026-04-10 16:53:21
門(mén)店腰斬2萬(wàn)家!一線撤離、雜牌泛濫,國(guó)民快餐巨頭徹底扛不住了

門(mén)店腰斬2萬(wàn)家!一線撤離、雜牌泛濫,國(guó)民快餐巨頭徹底扛不住了

毒sir財(cái)經(jīng)
2026-04-09 16:14:36
53條中日航線3月取消全部航班

53條中日航線3月取消全部航班

第一財(cái)經(jīng)資訊
2026-04-10 12:59:47
特朗普談判前再放“豪言”:我不需要備用方案

特朗普談判前再放“豪言”:我不需要備用方案

看看新聞Knews
2026-04-11 08:40:04
蘋(píng)果給折疊屏起了個(gè)新名字,國(guó)產(chǎn)廠商連夜抄作業(yè)

蘋(píng)果給折疊屏起了個(gè)新名字,國(guó)產(chǎn)廠商連夜抄作業(yè)

薛定諤的BUG
2026-04-09 17:06:08
南京軟件谷:為千家軟件企業(yè)亮出“AI家底”

南京軟件谷:為千家軟件企業(yè)亮出“AI家底”

正解局
2026-04-10 14:41:08
凌晨全線暴漲!特朗普重磅定調(diào),內(nèi)塔尼亞胡火速下令談判

凌晨全線暴漲!特朗普重磅定調(diào),內(nèi)塔尼亞胡火速下令談判

魏家東
2026-04-10 08:39:45
如愿以?xún)敚∴嶜愇慕K于見(jiàn)到了大陸行最重要的人物!

如愿以?xún)敚∴嶜愇慕K于見(jiàn)到了大陸行最重要的人物!

阿龍聊軍事
2026-04-10 18:02:00
以軍在教室開(kāi)槍?zhuān)蛩勒谏险n的9歲加沙女孩

以軍在教室開(kāi)槍?zhuān)蛩勒谏险n的9歲加沙女孩

瀟湘晨報(bào)
2026-04-10 14:59:14
伊朗權(quán)貴有三千多親屬在美過(guò)奢侈生活,盧比奧正在考慮全部驅(qū)逐

伊朗權(quán)貴有三千多親屬在美過(guò)奢侈生活,盧比奧正在考慮全部驅(qū)逐

小院之觀
2026-04-09 21:35:10
張雪奪冠賽車(chē)復(fù)刻版1分鐘拍出!500萬(wàn)元將捐給嫣然天使基金,張雪:標(biāo)哥捐了,我不捐不好意思

張雪奪冠賽車(chē)復(fù)刻版1分鐘拍出!500萬(wàn)元將捐給嫣然天使基金,張雪:標(biāo)哥捐了,我不捐不好意思

極目新聞
2026-04-10 20:58:02
賈平凹之女賈淺淺被調(diào)查,連米芾的芾字都不認(rèn)識(shí),引起書(shū)法界震怒

賈平凹之女賈淺淺被調(diào)查,連米芾的芾字都不認(rèn)識(shí),引起書(shū)法界震怒

潮鹿逐夢(mèng)
2026-04-10 12:43:59
“趙一鳴”被指918間諜:愛(ài)國(guó)不是“降智”的擋箭牌

“趙一鳴”被指918間諜:愛(ài)國(guó)不是“降智”的擋箭牌

虔青
2026-04-10 13:53:06
"我不要活了!"上海一阿婆崩潰,買(mǎi)了近30年的保險(xiǎn)全被退!警方:若繼續(xù)持有價(jià)值百萬(wàn)

"我不要活了!"上海一阿婆崩潰,買(mǎi)了近30年的保險(xiǎn)全被退!警方:若繼續(xù)持有價(jià)值百萬(wàn)

臺(tái)州交通廣播
2026-04-09 22:32:54
馬刺官宣文班復(fù)出!打滿20分鐘即可評(píng)獎(jiǎng):沖擊DPOY等多項(xiàng)年度大獎(jiǎng)

馬刺官宣文班復(fù)出!打滿20分鐘即可評(píng)獎(jiǎng):沖擊DPOY等多項(xiàng)年度大獎(jiǎng)

追球者
2026-04-11 07:37:16
奧妹這一脫,又為藝術(shù)獻(xiàn)身了

奧妹這一脫,又為藝術(shù)獻(xiàn)身了

來(lái)看美劇
2026-04-10 16:22:16
蓄電池生產(chǎn)企業(yè)要求員工體檢前吃排鉛藥“不吃藥不讓上班” 官方確認(rèn)情況屬實(shí)

蓄電池生產(chǎn)企業(yè)要求員工體檢前吃排鉛藥“不吃藥不讓上班” 官方確認(rèn)情況屬實(shí)

閃電新聞
2026-04-10 10:21:21
葉珂直播自曝全身do了:全身上下翻來(lái)覆去的打,為了漂亮只能忍受

葉珂直播自曝全身do了:全身上下翻來(lái)覆去的打,為了漂亮只能忍受

觀魚(yú)聽(tīng)雨
2026-04-10 19:22:19
馬伊琍公布喜訊不到24小時(shí),文章高調(diào)求"復(fù)合" 姚笛才是笑到最后

馬伊琍公布喜訊不到24小時(shí),文章高調(diào)求"復(fù)合" 姚笛才是笑到最后

小椰的奶奶
2026-04-11 00:25:15
美國(guó)“第一夫人”發(fā)表聲明

美國(guó)“第一夫人”發(fā)表聲明

魯中晨報(bào)
2026-04-10 09:24:04
2026-04-11 09:15:00
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
132079文章數(shù) 862085關(guān)注度
往期回顧 全部

科技要聞

馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

頭條要聞

美伊談判倒計(jì)時(shí) 特朗普:美方已為軍艦裝載最先進(jìn)武器

頭條要聞

美伊談判倒計(jì)時(shí) 特朗普:美方已為軍艦裝載最先進(jìn)武器

體育要聞

17歲賺了一百萬(wàn)美元,25歲被CBA裁員

娛樂(lè)要聞

黃景瑜王玉雯否認(rèn)戀情!聚會(huì)細(xì)節(jié)被扒

財(cái)經(jīng)要聞

李強(qiáng)主持召開(kāi)經(jīng)濟(jì)形勢(shì)專(zhuān)家和企業(yè)家座談會(huì)

汽車(chē)要聞

搭載第二代刀片電池及閃充技術(shù) 騰勢(shì)N8L閃充版預(yù)售35萬(wàn)起

態(tài)度原創(chuàng)

旅游
藝術(shù)
房產(chǎn)
親子
公開(kāi)課

旅游要聞

愛(ài)上海|國(guó)色天香 醉白池百年牡丹如期綻放

藝術(shù)要聞

曾熙『仿思翁山水冊(cè)』

房產(chǎn)要聞

28條新規(guī)落地!好房子,終于有了“廣州標(biāo)準(zhǔn)”!

親子要聞

時(shí)間會(huì)融化所有尖銳,只剩平靜

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版