国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI當(dāng)高級白領(lǐng)牛馬,哪家大模型最強

0
分享至

AI大模型也好,智能體也好,在各種測評榜上刷得不亦樂乎。對于跟蹤模型進展,發(fā)現(xiàn)模型能力上限確實有用;不過衡量的是模型的抽象能力,而不是具有經(jīng)濟價值的產(chǎn)出。

從投資界、產(chǎn)業(yè)界到公眾,對于人工智能的刷榜和演示能力固然感到驚艷,但他們關(guān)注的重心,正在從“核彈級的炸裂”,轉(zhuǎn)移到真正的拷問,花這么多錢和這么多名校絕頂聰明的孩子,搞這些東西,最終用來干什么?

就是AI的經(jīng)濟價值有多大,在實際工作中,替代或者增強人類的潛力有多大; 如果很大的話,現(xiàn)在發(fā)揮出了多少?AI交付實際工作的能力,可能更需要衡量,如果說現(xiàn)在排上用場,人們還不放心的話。

硅谷的AI招聘獨角獸公司Mercor也想知道,幫助那些頂級AI大廠和獨角獸企業(yè)找到的學(xué)霸們,弄出來的大模型,除了又當(dāng)學(xué)霸之外,還能干什么實際工作。

“人工智能在奧林匹克數(shù)學(xué)方面已經(jīng)超越人類,但這些能力可能與經(jīng)濟發(fā)展脫節(jié)。擁有一萬個博士學(xué)位固然很好,但擁有一個能可靠地幫你報稅的模型就更好了。”

他們設(shè)計了一個AI生產(chǎn)力指數(shù) (AI Productivity Index, APEX),首先選取了4個最高經(jīng)濟價值的白領(lǐng)行業(yè)進行測試,邀請了投行、咨詢、法律、醫(yī)學(xué)的資深專家,把它們在實際工作中遇到和解決的問題搬出來,讓23個大模型下到職場,當(dāng)下這四個行業(yè)的“牛馬”:投資銀行助理、管理顧問、大型律師事務(wù)所助理和初級保健醫(yī)生 (MD)。

表現(xiàn)如何?結(jié)果如下:


排名前五的,都達到了及格線60分,排名第5-10名的,接近及格線。總體來看,OpenAI的模型家族,當(dāng)牛馬的能力最強。

GPT-5、Grok4、Gemini 2.5位居前三,值得關(guān)注的是,Qwen 3 235B和DeepSeek R1分別獲得第7名和第9名,在開源模型中排名前兩位,GPT OSS 120B(Medium)名列開源第三。相比之下,編程明星Sonnet 4 表現(xiàn)一般。

下面這個測試的案例,來自一家律所最近遇到的一個真實客戶,這位音樂家的版權(quán)繼承人遇到了麻煩,想找律師幫助解決問題。律所助理要對這個客戶的合法繼承問題做出初步判斷。該測試涉及到22條標準,8個法律來源,不超過10萬個token。


諸如此類的案例,總共200個,每個行業(yè)50個,分別由20名左右資深專家設(shè)計。Mercor通過自己的平臺找到了這些專家:

  • 投資銀行:20 位投資銀行家,經(jīng)驗從業(yè) 2 至 18 年不等,平均 8.7 年。他們曾在高盛、Evercore 和摩根大通等公司任職。

  • 管理咨詢:18位管理咨詢師,經(jīng)驗從業(yè)2至20年不等,平均6.9年。他們曾在麥肯錫、波士頓咨詢公司和貝恩等公司任職。

  • 法律:20名律師均擁有大型律所工作經(jīng)驗,從業(yè)經(jīng)驗在3至22年之間,平均5年。他們曾在Latham & Watkins、Skadden和Cravath, Swaine & Moore等律所任職,并擁有哈佛、耶魯、斯坦福等美國頂尖14所法學(xué)院的法學(xué)博士學(xué)位。

  • 醫(yī)學(xué):18名醫(yī)生擁有3至22年初級保健臨床經(jīng)驗,平均8.8年。他們曾在布萊根婦女醫(yī)院和西奈山醫(yī)院等醫(yī)院工作,并擁有賓夕法尼亞大學(xué)、西北大學(xué)、康奈爾大學(xué)等美國頂尖醫(yī)學(xué)院的醫(yī)學(xué)博士學(xué)位。

這些專家共同創(chuàng)建了一個數(shù)據(jù)庫APEX-v1.0 ,所有的案例和提示,都來自真實世界。這些任務(wù),專家們自己干,一般要用1-8個小時,平均3.5小時。

專家們找到權(quán)威和真實的來源,建立了標準和評分細則。然后由Mercor去搜集各模型的回答,再由語言模型根據(jù)專家標準打出分數(shù)。關(guān)于為什么用語言模型進行評判,以及它們與人工專家評判之間的差異,可以參考論文了解細節(jié)。


Mercor稱APEX是首個基于AI執(zhí)行具有經(jīng)濟價值的知識工作能力的基準測試。APEX-v1.0 測試了 23 個模型,除亞馬遜的 Nova Pro(發(fā)布于 2024 年 12 月)和 OpenAI 的 GPT 4o(最初發(fā)布于 2024 年 5 月,最后更新于 2024 年 11 月)外,所有模型均于 2025 年發(fā)布。最新的模型是 GPT 5(Thinking = High),發(fā)布于 2025 年 8 月初。模型響應(yīng)于 2025 年 8 月初收集。13 個閉源模型通過各自的 API 訪問,10 個開源模型通過開源提供商訪問。

測試還有些發(fā)現(xiàn),值得拿出來說下:

開源和閉源模型的性能有何不同?

還是有差距的。閉源模型的平均得分為55.2%,而開源模型的平均得分為 45.8%,下降了9.4個百分點。在成對勝率方面,差距更大,分別為57.6% 和40.2%,下降了15個百分點以上。也有兩個例外,Qwen3 235B和DeepSeek R1還是能和有些前沿閉源模型掰手腕的。

性能更強大的模型(工作中)表現(xiàn)是否更好?

不一定,而且這些模型的“考試”表現(xiàn)和“工作”表現(xiàn),有時反差挺大的。Claude模型家族的Opus 4在所有四個性能指標上的表現(xiàn)都比Sonnet 4差。o3 Pro在平均分數(shù)方面僅比o3高 0.1%,在其他三個指標上的表現(xiàn)更差。Gemini 2.5 Flash的平均分數(shù)比 Gemini 2.5 Pro高 0.3%,它在成對獲勝率和排名第一的次數(shù)百分比方面也表現(xiàn)出色。這些結(jié)果表明,功能更強大的模型版本(通常價格更高)并不一定更擅長執(zhí)行現(xiàn)實世界中高經(jīng)濟價值的任務(wù)。同一家族中不同代模型的性能略有提升。

響應(yīng)是不是越長越好?

Qwen 3 235B和DeepSeek R1都提供了大量關(guān)于其思維過程的細節(jié),并且高度重復(fù),且在某些地方偏離主題。然而,由于沒有對長度進行懲罰,因此兩者都獲得了較高的平均分數(shù),并且它們提供了足夠多的正確信息來通過許多標準。另一方面,一些表現(xiàn)較差的模型(例如 GPT 4o、Phi 4 Multimodal 和Nova Pro(Thinking = CoT))的平均回復(fù)長度最短(分別排名第一、第二和第四)。分析顯示回復(fù)長度與結(jié)果之間相關(guān)度幾乎為零。

大家最關(guān)心的問題,哪個領(lǐng)域牛馬最有可能被AI增(替)強(代)。

得分依次為法律56.9%,管理咨詢52.5%,投資銀行47.6%,醫(yī)學(xué)47.5%?磥鞟I在法律行業(yè)的表現(xiàn)最好,醫(yī)學(xué)最難。APEX 的未來迭代會涵蓋更多崗位,下面4個可能是軟件工程、教學(xué)、保險和平面設(shè)計。

最后,AI 模型提升勞動生產(chǎn)率的能力,正日益成為研究的熱點, 中國這方面的研究相對較少,也許更多是直接把模型當(dāng)牛馬到職場上去溜溜了?

論文原文及參考:

https://arxiv.org/html/2509.25721v2

https://mercor.com/blog/introducing-apex-ai-productivity-index/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
不戰(zhàn)而勝!對手門希克因傷退賽,德約生涯第65次躋身大滿貫八強

不戰(zhàn)而勝!對手門?艘騻速悾录s生涯第65次躋身大滿貫八強

全景體育V
2026-01-25 17:37:59
“美國斬殺線”事件詳細梳理:最新爆料美女留學(xué)生當(dāng)“狗”太辣眼

“美國斬殺線”事件詳細梳理:最新爆料美女留學(xué)生當(dāng)“狗”太辣眼

聽風(fēng)聽你
2026-01-24 20:54:06
替補出場2分鐘染黃!拜合拉木賽后手指著裁判說話 39度高燒仍拼命

替補出場2分鐘染黃!拜合拉木賽后手指著裁判說話 39度高燒仍拼命

風(fēng)過鄉(xiāng)
2026-01-25 10:59:52
國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

霹靂炮
2026-01-19 22:24:13
雷軍無奈宣布:全部下架!

雷軍無奈宣布:全部下架!

電動知家
2026-01-25 15:31:25
記者:徐彬與中國U23在吉達告別,已正式啟程前往英國迎接新挑戰(zhàn)

記者:徐彬與中國U23在吉達告別,已正式啟程前往英國迎接新挑戰(zhàn)

懂球帝
2026-01-25 16:26:22
58歲那英改走顏值路線?過度醫(yī)美變化大到認不出,這是要鬧哪出?

58歲那英改走顏值路線?過度醫(yī)美變化大到認不出,這是要鬧哪出?

鋒哥與八卦哥
2026-01-25 13:26:51
出大事了!中國收到“戰(zhàn)書”,這次不是美國,中方已經(jīng)做好準備

出大事了!中國收到“戰(zhàn)書”,這次不是美國,中方已經(jīng)做好準備

愛吃醋的貓咪
2026-01-23 20:27:00
武漢理工畢業(yè)做保安!男子被學(xué)校約談后,稱保安比送外賣掙得多…

武漢理工畢業(yè)做保安!男子被學(xué)校約談后,稱保安比送外賣掙得多…

火山詩話
2026-01-25 09:02:44
一語道破女留學(xué)生的牢A,親眼目睹陪讀媽媽的悲哀,到底真還是假

一語道破女留學(xué)生的牢A,親眼目睹陪讀媽媽的悲哀,到底真還是假

每日一見
2026-01-23 15:07:50
云南毒紅薯升級!調(diào)查組介入,網(wǎng)友扒出黑幕,難怪商戶敢主動投毒

云南毒紅薯升級!調(diào)查組介入,網(wǎng)友扒出黑幕,難怪商戶敢主動投毒

云舟史策
2026-01-24 16:14:54
李亞鵬曝光捐贈名單,向太發(fā)聲:我捐了幾百萬,王菲默默支持了幾千萬,也是不夠的……

李亞鵬曝光捐贈名單,向太發(fā)聲:我捐了幾百萬,王菲默默支持了幾千萬,也是不夠的……

都市快報橙柿互動
2026-01-24 19:48:42
首映僅150萬,《舒克貝塔》票房撲街,鄭淵潔父子虧到懷疑人生

首映僅150萬,《舒克貝塔》票房撲街,鄭淵潔父子虧到懷疑人生

電影票房預(yù)告片
2026-01-25 00:00:56
個稅降了,2026年1月15日起執(zhí)行

個稅降了,2026年1月15日起執(zhí)行

會計人
2026-01-25 12:03:57
女友懷孕收15萬元彩禮,被退婚后控告男友強奸,男方起訴退還全部彩禮,法院判了

女友懷孕收15萬元彩禮,被退婚后控告男友強奸,男方起訴退還全部彩禮,法院判了

南國今報
2026-01-25 17:09:35
安東尼奧即將成為國奧主帥,兩年后將挑戰(zhàn)40年魔咒

安東尼奧即將成為國奧主帥,兩年后將挑戰(zhàn)40年魔咒

澎湃新聞
2026-01-25 14:07:05
好消息!鐵路新規(guī):60歲以上老人乘坐高鐵火車,可享受5大福利

好消息!鐵路新規(guī):60歲以上老人乘坐高鐵火車,可享受5大福利

巢客HOME
2026-01-25 06:50:03
青島回應(yīng)“學(xué)生械斗”:系A(chǔ)I生成的不實信息

青島回應(yīng)“學(xué)生械斗”:系A(chǔ)I生成的不實信息

極目新聞
2026-01-24 23:30:18
株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

以茶帶書
2026-01-24 23:18:39
1550億美元身家的黃仁勛現(xiàn)身上海一菜場,商戶:他在我的栗子店消費65元,還給我簽名紅包

1550億美元身家的黃仁勛現(xiàn)身上海一菜場,商戶:他在我的栗子店消費65元,還給我簽名紅包

極目新聞
2026-01-25 15:58:12
2026-01-25 19:08:49
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
292文章數(shù) 61關(guān)注度
往期回顧 全部

科技要聞

黃仁勛在上海逛菜市場,可能惦記著三件事

頭條要聞

游客自稱爬衡山時掛脖子上80克金牌遺失 價值超10萬元

頭條要聞

游客自稱爬衡山時掛脖子上80克金牌遺失 價值超10萬元

體育要聞

中國足球不會一夜變強,但他們已經(jīng)創(chuàng)造歷史

娛樂要聞

王玉雯方嚴正聲明 劇方回應(yīng):涉事人員已被開除

財經(jīng)要聞

隋廣義等80人被公訴 千億騙局進入末路

汽車要聞

別克至境E7內(nèi)飾圖曝光 新車將于一季度正式發(fā)布

態(tài)度原創(chuàng)

旅游
時尚
健康
手機
軍事航空

旅游要聞

一秒入仙境!金佛山冬雪、日出、云海絕美同框

2025年度榜單|| 真金白銀票選出來的“真愛”,今天破價1.6折!

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

手機要聞

榮耀泡泡瑪特聯(lián)名手機今日開售:首銷即引爆,線下再現(xiàn)排隊熱潮

軍事要聞

俄美烏三方首輪會談細節(jié)披露

無障礙瀏覽 進入關(guān)懷版