15個前沿大模型，100個職業(yè)場景：誰才是最強AI打工人？

2026-04-15 16:34:11　來源: AI科技評論

廣東舉報

分享至

通義千問 × 港中文聯(lián)合發(fā)布OccuBench，首次用"語言世界模型"系統(tǒng)評測AI Agent的真實職業(yè)能力。

GPT-5.2能寫代碼、能刷網(wǎng)頁、能聊天。但如果讓它去做急診分診呢？或者管核電站報警、處理海關(guān)報關(guān)呢？

答案是不知道，因為根本沒法測。

WebArena測網(wǎng)頁操作，SWE-bench測代碼修復(fù)，OSWorld測桌面任務(wù)。這些基準(zhǔn)加在一起，覆蓋的也不過是瀏覽器、代碼編輯器、操作系統(tǒng)這幾個領(lǐng)域。而真實世界中絕大多數(shù)高價值職業(yè)工作，壓根沒有可以用來測試的公開環(huán)境：急診室沒有開源API，核電站不會給你搭沙箱，海關(guān)系統(tǒng)更不可能開放權(quán)限。

核心思路：讓大模型來模擬環(huán)境

通義千問團隊（Qwen Team）和香港中文大學(xué)的研究者想了個辦法：既然沒有真實環(huán)境，那就讓大模型模擬一個。

給LLM一份環(huán)境配置（任務(wù)場景描述、工具定義和初始狀態(tài)），它就能變成一個有狀態(tài)的、可交互的模擬環(huán)境。研究者將其稱為語言世界模型（Language World Model, LWM）。

舉個例子：你告訴LLM "你現(xiàn)在是一個急診科信息系統(tǒng)，有3個檢查室、5個候診患者，支持分診、轉(zhuǎn)運、下醫(yī)囑等操作"，它就真的能扮演這個系統(tǒng), 根據(jù)Agent的每一步操作，維護內(nèi)部狀態(tài)并返回合理的響應(yīng)。

通過這樣做，環(huán)境的構(gòu)建從工程問題變成了配置問題，不用寫后端代碼，不用搭基礎(chǔ)設(shè)施，只要LLM能理解這個領(lǐng)域就行。

基于這個思路，研究者構(gòu)建了OccuBench，一個覆蓋100個職業(yè)場景、10大行業(yè)、65個細分領(lǐng)域、382個評測實例的Agent評測基準(zhǔn)。Bench當(dāng)中的任務(wù)平均包含5.5個專業(yè)工具，需要Agent調(diào)用約16.2次工具才能完成。

不只是模擬，還能注入故障

真實生產(chǎn)環(huán)境里，API會超時，數(shù)據(jù)會截斷，服務(wù)會降級，這些都是常態(tài)。但現(xiàn)有的Agent評測基本都是在理想環(huán)境下跑的。

基于LWM的agent 評測有一個獨特優(yōu)勢：環(huán)境行為完全由提示詞控制。只需要修改幾句提示詞，就能精確注入各種故障：

所有故障都是暫態(tài)的，重試就能恢復(fù)。關(guān)鍵在于Agent能不能意識到出了問題，然后主動重試。這考驗了agent的自主性，影響了agent能否在沒有人工干預(yù)的情況下獨立完成長程任務(wù)。

15個模型綜合評價，幾個值得注意的結(jié)果

研究者評測了15個前沿模型，覆蓋8大模型家族：GPT-5.2、Claude全系列（4 / 4.5 / 4.6，含Opus和Sonnet）、Gemini 3.1 Pro / Flash-Lite、DeepSeek V3.2、Kimi K2.5、MiniMax M2.7、GLM-5、Qwen 3.5 Plus / Flash。

▎發(fā)現(xiàn)一：沒有全能選手

GPT-5.2以總分79.6%排名第一，在科研領(lǐng)域更是高達94%。但看電商消費？只有67%，被Qwen 3.5 Plus（81%）甩開14個百分點。

Gemini 3.1 Pro在教育領(lǐng)域以84%拿下第一，Claude Opus 4.6在交通運輸以77%稱王，Qwen 3.5 Plus則在醫(yī)療健康和電商消費雙雙拿到81%的行業(yè)最高分。

每個模型都有自己擅長和不擅長的行業(yè)。這啟示我們，在實際生產(chǎn)中，選Agent不能只看總分，還得看你的具體場景。

▎發(fā)現(xiàn)二：隱式故障比顯式故障難對付得多

顯式故障（API報錯、超時）相對好處理, Agent看到報錯，知道該重試就行了。

隱式故障就不一樣了。在干凈環(huán)境下，模型平均得分67.5%。遇到顯式故障掉到62.6%，遇到隱式故障則降到53.4%，比顯式故障低了9.2個百分點。拿Claude Opus 4.6舉例：顯式故障下只掉了3.4%（71.5%→68.1%），但隱式故障下直接掉了17.6%（71.5%→53.9%）。原因其實也很簡單：數(shù)據(jù)截斷了，但返回格式完全正確，沒有報錯信號，Agent不知道自己拿到的數(shù)據(jù)是殘缺的。

9個測試模型中，有4個在隱式故障（E2）下的表現(xiàn)甚至比混合故障（E3）更差, 隱式故障比顯式+隱式一起來還難對付。

▎發(fā)現(xiàn)三：Scaling定律依然有效

研究者們還發(fā)現(xiàn)，更大的模型、更新的版本、更深的思考，在OccuBench上全部帶來了穩(wěn)定提升：

模型規(guī)模：Gemini Pro比Flash-Lite高11.0%，Qwen Plus比Flash高10.2%

代際迭代：Claude Opus從v4到v4.6，總提升10.2個百分點（61.3%→71.5%）

推理深度：GPT-5.2關(guān)掉推理只有54.7%，開到最高推理強度則達到了82.2%的分數(shù)，差了27.5個百分點

▎發(fā)現(xiàn)四：做Agent厲害 ≠ 當(dāng)環(huán)境模擬器靠譜

研究者還做了一個交叉實驗：讓不同模型分別充當(dāng)Agent和環(huán)境模擬器，看結(jié)果會怎么變。

GPT-5.2當(dāng)Agent是第一名（79.6%），但當(dāng)它反過來充當(dāng)環(huán)境模擬器時, 所有Agent的平均分只剩29.3%，還不到用Gemini Flash當(dāng)模擬器時（67.9%）的一半。

研究者扒了失敗案例，發(fā)現(xiàn)GPT-5.2當(dāng)模擬器時存在三種典型問題：

狀態(tài)虛構(gòu)：急診分診任務(wù)中，憑空多出兩個不存在的檢查室，Agent被誤導(dǎo)選錯了房間

實體遺漏：工單派發(fā)任務(wù)中，把關(guān)鍵的數(shù)據(jù)庫專家從名冊里吞掉了，Agent無人可派

規(guī)則發(fā)明：退貨任務(wù)中，自己編了一條 "退貨窗口已過期" 的規(guī)則，但是任務(wù)里根本沒這條限制

相比之下，Qwen 3.5 Plus作為模擬器與Gemini Flash的排名的一致性達到了85.7%（28對成對排名比較中，24對完全相同），前三名完全吻合。

這啟示我們，做agent和做環(huán)境模擬器，看起來是兩種不太一樣的能力。這個結(jié)果對所有用LLM模擬環(huán)境來做評測/訓(xùn)練的方案來說，都值得參考。

三個具體案例

▎案例一：末端配送: 你會先充電嗎？

任務(wù)：找到編號最大的醫(yī)療包裹MED-615，送到指定地址，全程電池不能低于15%。

Claude Opus 4.6：查庫存→找到MED-615→看了眼電量28%，覺得不夠→先充滿電→出發(fā)，到達時還剩82%→送達 ->Success

DeepSeek V3.2：查庫存→找到MED-615→直接就走了→到達時電量12.5%→違反15%安全線 ->Fail

它們的區(qū)別就在于出發(fā)前有沒有看一眼電量夠不夠, 有沒有時刻牢記問題中的約束。

▎案例二：房產(chǎn)估值: 你能發(fā)現(xiàn)數(shù)據(jù)被截斷了嗎？

任務(wù)：評估一棟15個單元的物業(yè)，計算DSCR（償債覆蓋率）是否達到1.20x的貸款門檻。環(huán)境悄悄只返回了2個單元的數(shù)據(jù)，沒有任何報錯。

Claude Opus 4.6：“等等，15個單元怎么只返回了2個？”→重新請求→拿到完整數(shù)據(jù)→算出DSCR 1.19x，不達標(biāo) ->Success

Kimi K2.5：也重試了一次，但故障還在→直接假設(shè)15個單元都跟這2個一樣→算出1.72x，達標(biāo)→實際上這棟樓根本不合格 ->Fail

就因為數(shù)據(jù)截斷，兩個模型得出了完全相反的財務(wù)結(jié)論。放在真實金融場景里，這種錯誤的代價是很大的！

▎案例三：公交調(diào)度: 故障面前，誰能堅持到底？

任務(wù)：在顯式故障（E1）環(huán)境下恢復(fù)一條公交線路的時刻表。

Claude Opus 4.6：12步操作中遇到了4次錯誤（超時、500），每次都堅持重試→最終完成全部調(diào)度 ->Success

Kimi K2.5：第一次遇到錯誤就停了→只完成了2步操作→任務(wù)失敗 ->Fail

同樣的故障率，一個堅持了12步走完了，另一個第2步就放棄了。

關(guān)于OccuBench

OccuBench覆蓋10大行業(yè): 農(nóng)業(yè)與環(huán)境、商務(wù)與企業(yè)、電商與消費、教育與文化、醫(yī)療與生命科學(xué)、工業(yè)與工程、公共服務(wù)與治理、科學(xué)與研究、技術(shù)與IT、交通與物流。從行業(yè)難度來看，商務(wù)與企業(yè)（70.1%）和公共服務(wù)（69.4%）相對容易，而交通與物流（56.2%）和教育與文化（57.6%）是最具挑戰(zhàn)性的行業(yè)。

OccuBench完整開源：382個評測任務(wù) + 100個場景的環(huán)境配置 + 全部參考實現(xiàn)代碼。

論文：https://arxiv.org/abs/2604.10866

項目主頁：https://gregxmhu.github.io/OccuBench-website/

代碼：https://github.com/GregxmHu/OccuBench

數(shù)據(jù)：https://huggingface.co/datasets/gregH/OccuBench

未經(jīng)「AI科技評論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.