国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

15個前沿大模型,100個職業(yè)場景:誰才是最強AI打工人?

0
分享至


通義千問 × 港中文聯(lián)合發(fā)布OccuBench,首次用"語言世界模型"系統(tǒng)評測AI Agent的真實職業(yè)能力。

GPT-5.2能寫代碼、能刷網(wǎng)頁、能聊天。但如果讓它去做急診分診呢?或者管核電站報警、處理海關(guān)報關(guān)呢?

答案是不知道,因為根本沒法測。

WebArena測網(wǎng)頁操作,SWE-bench測代碼修復(fù),OSWorld測桌面任務(wù)。這些基準(zhǔn)加在一起,覆蓋的也不過是瀏覽器、代碼編輯器、操作系統(tǒng)這幾個領(lǐng)域。而真實世界中絕大多數(shù)高價值職業(yè)工作,壓根沒有可以用來測試的公開環(huán)境:急診室沒有開源API,核電站不會給你搭沙箱,海關(guān)系統(tǒng)更不可能開放權(quán)限。

01


核心思路:讓大模型來模擬環(huán)境

通義千問團隊(Qwen Team)和香港中文大學(xué)的研究者想了個辦法:既然沒有真實環(huán)境,那就讓大模型模擬一個。

給LLM一份環(huán)境配置(任務(wù)場景描述、工具定義和初始狀態(tài)),它就能變成一個有狀態(tài)的、可交互的模擬環(huán)境。研究者將其稱為語言世界模型(Language World Model, LWM)

舉個例子:你告訴LLM "你現(xiàn)在是一個急診科信息系統(tǒng),有3個檢查室、5個候診患者,支持分診、轉(zhuǎn)運、下醫(yī)囑等操作",它就真的能扮演這個系統(tǒng), 根據(jù)Agent的每一步操作,維護內(nèi)部狀態(tài)并返回合理的響應(yīng)。

通過這樣做,環(huán)境的構(gòu)建從工程問題變成了配置問題,不用寫后端代碼,不用搭基礎(chǔ)設(shè)施,只要LLM能理解這個領(lǐng)域就行。

基于這個思路,研究者構(gòu)建了OccuBench,一個覆蓋100個職業(yè)場景、10大行業(yè)、65個細分領(lǐng)域、382個評測實例的Agent評測基準(zhǔn)。Bench當(dāng)中的任務(wù)平均包含5.5個專業(yè)工具,需要Agent調(diào)用約16.2次工具才能完成。


02


不只是模擬,還能注入故障

真實生產(chǎn)環(huán)境里,API會超時,數(shù)據(jù)會截斷,服務(wù)會降級,這些都是常態(tài)。但現(xiàn)有的Agent評測基本都是在理想環(huán)境下跑的。

基于LWM的agent 評測有一個獨特優(yōu)勢:環(huán)境行為完全由提示詞控制。只需要修改幾句提示詞,就能精確注入各種故障:


所有故障都是暫態(tài)的,重試就能恢復(fù)。關(guān)鍵在于Agent能不能意識到出了問題,然后主動重試。這考驗了agent的自主性,影響了agent能否在沒有人工干預(yù)的情況下獨立完成長程任務(wù)。

03


15個模型綜合評價,幾個值得注意的結(jié)果

研究者評測了15個前沿模型,覆蓋8大模型家族:GPT-5.2、Claude全系列(4 / 4.5 / 4.6,含Opus和Sonnet)、Gemini 3.1 Pro / Flash-Lite、DeepSeek V3.2、Kimi K2.5、MiniMax M2.7、GLM-5、Qwen 3.5 Plus / Flash。

▎發(fā)現(xiàn)一:沒有全能選手

GPT-5.2以總分79.6%排名第一,在科研領(lǐng)域更是高達94%。但看電商消費?只有67%,被Qwen 3.5 Plus(81%)甩開14個百分點。

Gemini 3.1 Pro在教育領(lǐng)域以84%拿下第一,Claude Opus 4.6在交通運輸以77%稱王,Qwen 3.5 Plus則在醫(yī)療健康和電商消費雙雙拿到81%的行業(yè)最高分。

每個模型都有自己擅長和不擅長的行業(yè)。這啟示我們,在實際生產(chǎn)中,選Agent不能只看總分,還得看你的具體場景。


▎發(fā)現(xiàn)二:隱式故障比顯式故障難對付得多

顯式故障(API報錯、超時)相對好處理, Agent看到報錯,知道該重試就行了。

隱式故障就不一樣了。在干凈環(huán)境下,模型平均得分67.5%。遇到顯式故障掉到62.6%,遇到隱式故障則降到53.4%,比顯式故障低了9.2個百分點。拿Claude Opus 4.6舉例:顯式故障下只掉了3.4%(71.5%→68.1%),但隱式故障下直接掉了17.6%(71.5%→53.9%)。原因其實也很簡單:數(shù)據(jù)截斷了,但返回格式完全正確,沒有報錯信號,Agent不知道自己拿到的數(shù)據(jù)是殘缺的。

9個測試模型中,有4個在隱式故障(E2)下的表現(xiàn)甚至比混合故障(E3)更差, 隱式故障比顯式+隱式一起來還難對付。


▎發(fā)現(xiàn)三:Scaling定律依然有效

研究者們還發(fā)現(xiàn),更大的模型、更新的版本、更深的思考,在OccuBench上全部帶來了穩(wěn)定提升:

模型規(guī)模:Gemini Pro比Flash-Lite高11.0%,Qwen Plus比Flash高10.2%

代際迭代:Claude Opus從v4到v4.6,總提升10.2個百分點(61.3%→71.5%)

推理深度:GPT-5.2關(guān)掉推理只有54.7%,開到最高推理強度則達到了82.2%的分數(shù),差了27.5個百分點




▎發(fā)現(xiàn)四:做Agent厲害 ≠ 當(dāng)環(huán)境模擬器靠譜

研究者還做了一個交叉實驗:讓不同模型分別充當(dāng)Agent和環(huán)境模擬器,看結(jié)果會怎么變。

GPT-5.2當(dāng)Agent是第一名(79.6%),但當(dāng)它反過來充當(dāng)環(huán)境模擬器時, 所有Agent的平均分只剩29.3%,還不到用Gemini Flash當(dāng)模擬器時(67.9%)的一半。

研究者扒了失敗案例,發(fā)現(xiàn)GPT-5.2當(dāng)模擬器時存在三種典型問題:

狀態(tài)虛構(gòu):急診分診任務(wù)中,憑空多出兩個不存在的檢查室,Agent被誤導(dǎo)選錯了房間

實體遺漏:工單派發(fā)任務(wù)中,把關(guān)鍵的數(shù)據(jù)庫專家從名冊里吞掉了,Agent無人可派

規(guī)則發(fā)明:退貨任務(wù)中,自己編了一條 "退貨窗口已過期" 的規(guī)則,但是任務(wù)里根本沒這條限制

相比之下,Qwen 3.5 Plus作為模擬器與Gemini Flash的排名的一致性達到了85.7%(28對成對排名比較中,24對完全相同),前三名完全吻合。

這啟示我們,做agent和做環(huán)境模擬器,看起來是兩種不太一樣的能力。這個結(jié)果對所有用LLM模擬環(huán)境來做評測/訓(xùn)練的方案來說,都值得參考。

04


三個具體案例

▎案例一:末端配送: 你會先充電嗎?

任務(wù):找到編號最大的醫(yī)療包裹MED-615,送到指定地址,全程電池不能低于15%。

Claude Opus 4.6:查庫存→找到MED-615→看了眼電量28%,覺得不夠→先充滿電→出發(fā),到達時還剩82%→送達 ->Success

DeepSeek V3.2:查庫存→找到MED-615→直接就走了→到達時電量12.5%→違反15%安全線 ->Fail

它們的區(qū)別就在于出發(fā)前有沒有看一眼電量夠不夠, 有沒有時刻牢記問題中的約束。

▎案例二:房產(chǎn)估值: 你能發(fā)現(xiàn)數(shù)據(jù)被截斷了嗎?

任務(wù):評估一棟15個單元的物業(yè),計算DSCR(償債覆蓋率)是否達到1.20x的貸款門檻。環(huán)境悄悄只返回了2個單元的數(shù)據(jù),沒有任何報錯。

Claude Opus 4.6:“等等,15個單元怎么只返回了2個?”→重新請求→拿到完整數(shù)據(jù)→算出DSCR 1.19x,不達標(biāo) ->Success

Kimi K2.5:也重試了一次,但故障還在→直接假設(shè)15個單元都跟這2個一樣→算出1.72x,達標(biāo)→實際上這棟樓根本不合格 ->Fail

就因為數(shù)據(jù)截斷,兩個模型得出了完全相反的財務(wù)結(jié)論。放在真實金融場景里,這種錯誤的代價是很大的!

▎案例三:公交調(diào)度: 故障面前,誰能堅持到底?

任務(wù):在顯式故障(E1)環(huán)境下恢復(fù)一條公交線路的時刻表。

Claude Opus 4.6:12步操作中遇到了4次錯誤(超時、500),每次都堅持重試→最終完成全部調(diào)度 ->Success

Kimi K2.5:第一次遇到錯誤就停了→只完成了2步操作→任務(wù)失敗 ->Fail

同樣的故障率,一個堅持了12步走完了,另一個第2步就放棄了。

05


關(guān)于OccuBench

OccuBench覆蓋10大行業(yè): 農(nóng)業(yè)與環(huán)境、商務(wù)與企業(yè)、電商與消費、教育與文化、醫(yī)療與生命科學(xué)、工業(yè)與工程、公共服務(wù)與治理、科學(xué)與研究、技術(shù)與IT、交通與物流。從行業(yè)難度來看,商務(wù)與企業(yè)(70.1%)和公共服務(wù)(69.4%)相對容易,而交通與物流(56.2%)和教育與文化(57.6%)是最具挑戰(zhàn)性的行業(yè)。

OccuBench完整開源:382個評測任務(wù) + 100個場景的環(huán)境配置 + 全部參考實現(xiàn)代碼。

論文:https://arxiv.org/abs/2604.10866

項目主頁:https://gregxmhu.github.io/OccuBench-website/

代碼:https://github.com/GregxmHu/OccuBench

數(shù)據(jù):https://huggingface.co/datasets/gregH/OccuBench


未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
不玩游戲、偶像包袱重、前胸貼白鹿后背,《奔跑吧》他干嘛來了?

不玩游戲、偶像包袱重、前胸貼白鹿后背,《奔跑吧》他干嘛來了?

洲洲影視娛評
2026-04-25 14:24:44
兩位知名港星聲援馬蹄露!廣東雨神直播拉票,張敬軒必敗無疑

兩位知名港星聲援馬蹄露!廣東雨神直播拉票,張敬軒必敗無疑

涵豆說娛
2026-04-25 12:07:14
張雪峰多位愛將離職,真相很殘忍

張雪峰多位愛將離職,真相很殘忍

新浪財經(jīng)
2026-04-24 19:11:55
澳洲折扣超市取代Coles, Woolies! 大批澳人瘋狂掃貨, 最高可省80%!

澳洲折扣超市取代Coles, Woolies! 大批澳人瘋狂掃貨, 最高可省80%!

澳微Daily
2026-04-25 15:42:43
辛納談阿卡退出法網(wǎng):安心養(yǎng)傷是明智之舉,期待溫網(wǎng)見到他

辛納談阿卡退出法網(wǎng):安心養(yǎng)傷是明智之舉,期待溫網(wǎng)見到他

懂球帝
2026-04-25 16:55:04
60分12板8助!大號文班真強啊!探花50+11+11一劍封喉1

60分12板8助!大號文班真強??!探花50+11+11一劍封喉1

貴圈真亂
2026-04-25 13:54:25
燃氣公司上門安檢,根本不是查漏氣!真正目的其實是這3個

燃氣公司上門安檢,根本不是查漏氣!真正目的其實是這3個

匹夫來搞笑
2026-04-20 13:24:51
眼紅??!工資到賬19380.52元,自稱“長沙教培牛馬”發(fā)帖刷爆網(wǎng)絡(luò)

眼紅??!工資到賬19380.52元,自稱“長沙教培牛馬”發(fā)帖刷爆網(wǎng)絡(luò)

火山詩話
2026-04-24 07:35:54
全球最疲憊總統(tǒng)宣布退場

全球最疲憊總統(tǒng)宣布退場

劉瀾昌
2026-04-25 08:43:52
59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

一盅情懷
2026-03-16 16:52:57
膽大包天!伊朗33艘快艇閃電突襲:美軍來不及出動,眼睜睜吃敗仗

膽大包天!伊朗33艘快艇閃電突襲:美軍來不及出動,眼睜睜吃敗仗

伴史緣
2026-04-25 14:02:08
昔日和王鈺棟齊名并稱國少雙星 如今卻淪落中甲碌碌無為 5輪0進球

昔日和王鈺棟齊名并稱國少雙星 如今卻淪落中甲碌碌無為 5輪0進球

零度眼看球
2026-04-25 08:54:32
我敢說,大部分會跟我一樣,選擇黑色衣服那個女孩!

我敢說,大部分會跟我一樣,選擇黑色衣服那個女孩!

草莓解說體育
2026-04-12 17:05:01
巔峰之夜!亞冠決賽今晚打響:吉達vs町田 馬寧擔(dān)任第四官員

巔峰之夜!亞冠決賽今晚打響:吉達vs町田 馬寧擔(dān)任第四官員

新英體育
2026-04-25 09:09:10
近7場1勝 皇馬球迷貼面怒罵球員:不知羞恥 姆巴佩用帽遮臉+逃離

近7場1勝 皇馬球迷貼面怒罵球員:不知羞恥 姆巴佩用帽遮臉+逃離

我愛英超
2026-04-25 07:46:50
印度終于搶到化肥,卻被狠宰一刀!算清這筆賬,為何中國不慌?

印度終于搶到化肥,卻被狠宰一刀!算清這筆賬,為何中國不慌?

丁丁鯉史紀(jì)
2026-04-25 11:45:39
看完伊朗,再看中國,盧卡申科做出一個神預(yù)測,特朗普怕就是這個

看完伊朗,再看中國,盧卡申科做出一個神預(yù)測,特朗普怕就是這個

落梅如雪亂飛
2026-04-22 13:31:47
?;韬詈啝┑膬r值,為什么遠高于他墓中的巨量黃金

?;韬詈啝┑膬r值,為什么遠高于他墓中的巨量黃金

澎湃新聞
2026-04-21 08:08:40
徹底焊死了!

徹底焊死了!

安安說
2026-04-25 11:52:50
C羅被媒體放出來的那份食譜太反科學(xué)!被認為是在搞營銷!

C羅被媒體放出來的那份食譜太反科學(xué)!被認為是在搞營銷!

歷史第一人梅西
2026-04-25 01:36:38
2026-04-25 18:35:00
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7222文章數(shù) 20749關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

頭條要聞

伊朗最高領(lǐng)袖一條腿截肢面部嚴(yán)重?zé)齻?通信方式披露

頭條要聞

伊朗最高領(lǐng)袖一條腿截肢面部嚴(yán)重?zé)齻?通信方式披露

體育要聞

火箭0-3觸發(fā)百分百出局定律:本季加時賽9戰(zhàn)8敗

娛樂要聞

鄧超最大的幸運,就是遇見孫儷

財經(jīng)要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態(tài)度原創(chuàng)

家居
數(shù)碼
本地
游戲
教育

家居要聞

自然肌理 溫潤美學(xué)

數(shù)碼要聞

英偉達適配DeepSeek-V4 AI模型,開箱性能超150 tokens/sec/user

本地新聞

云游中國|逛世界風(fēng)箏都 留學(xué)生探秘中國傳統(tǒng)文化

《殺戮尖塔2》開發(fā)者堅稱門扉締造者強度沒有問題

教育要聞

秀我中國|當(dāng)大學(xué)生之前,先來村小當(dāng)“小先生”

無障礙瀏覽 進入關(guān)懷版