国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ByteDance推出XpertBench:AI智能體的"專業(yè)資格證考試"正式開啟

0
分享至


這項由ByteDance Seed團隊領導的研究發(fā)表于2026年4月6日的arXiv預印本平臺,論文編號為arXiv:2604.02368v2,有興趣深入了解的讀者可以通過該編號查詢完整論文。研究團隊在人工智能評測領域推出了一個全新的評測框架XpertBench,這就好比為AI系統(tǒng)設計了一套真正的"專業(yè)資格證考試"。

當前的人工智能系統(tǒng)就像是剛從學校畢業(yè)的學生,在考試中表現(xiàn)出色,但一旦進入真實的工作環(huán)境,往往會暴露出各種問題。傳統(tǒng)的AI評測就像是標準化考試,題目固定,答案標準,但現(xiàn)實中的專業(yè)工作卻充滿了不確定性和復雜性。正如一個會背誦所有醫(yī)學教科書的學生,不一定能成為一個優(yōu)秀的醫(yī)生一樣,在傳統(tǒng)基準測試中表現(xiàn)優(yōu)秀的AI系統(tǒng),在處理真實專業(yè)任務時可能會遇到重重困難。

研究團隊意識到,隨著AI系統(tǒng)從簡單的問答工具發(fā)展為專業(yè)助手,我們需要一套全新的評測標準。傳統(tǒng)的評測方法就像是用駕照筆試來評判一個人的實際駕駛技能,雖然有一定參考價值,但無法反映真實的駕駛能力。因此,他們決定創(chuàng)建一個更接近真實專業(yè)工作的評測平臺。

XpertBench的設計理念就像是為AI系統(tǒng)設計一套專業(yè)執(zhí)業(yè)考試。不同于傳統(tǒng)考試的標準化題目,這套考試完全模擬真實的專業(yè)工作場景。研究團隊招募了超過1000名真正的專業(yè)人士,包括來自985和211高校的研究者、持有CFA和CPA資格的金融專家、具有醫(yī)師執(zhí)照的醫(yī)生、擁有法律資格的律師等等。這些專家就像是考試的命題委員會,他們不是坐在辦公室里憑空想象考題,而是將自己在實際工作中遇到的真實挑戰(zhàn)轉化為測試任務。

整個評測系統(tǒng)涵蓋了七個重要的專業(yè)領域,就像是為AI系統(tǒng)設置了七個不同的專業(yè)科目考試。教育領域占據(jù)了最大比重,達到24.4%,這反映了教育在社會中的重要地位。工程與應用科學緊隨其后,占20.4%,體現(xiàn)了技術類工作的復雜性。金融領域占18.1%,法律領域占16.0%,而人文社科、計算機科學和醫(yī)療健康也都有相應的比重。這種分配就像是在考察一個全才型專業(yè)人士的綜合能力。

在任務設計上,XpertBench完全顛覆了傳統(tǒng)的考試模式。傳統(tǒng)AI評測就像是選擇題考試,問題明確,答案標準,而XpertBench更像是讓考生完成一個完整的項目。舉個例子,在金融領域,傳統(tǒng)測試可能會問"什么是市盈率",而XpertBench會要求AI系統(tǒng)像真正的金融分析師一樣,分析兩家防務公司的財務狀況,計算各種財務比率,并給出專業(yè)的投資建議。這種差異就像是紙上談兵與實戰(zhàn)演練的區(qū)別。

為了確保評測的專業(yè)性,研究團隊開發(fā)了一套精密的評分系統(tǒng)。每個任務都有15到40個具體的評分點,就像是專業(yè)考試中的詳細評分標準。這些評分點不是簡單的對錯判斷,而是從多個維度評估AI的表現(xiàn),包括事實準確性、邏輯連貫性、專業(yè)深度等等。每個評分點還有不同的權重,就像是重要的考點分值更高一樣。

更有趣的是,研究團隊還創(chuàng)新性地開發(fā)了ShotJudge評測方法。傳統(tǒng)的AI評測往往依賴人工判分,成本高昂且效率低下,而完全自動化的評測又可能出現(xiàn)"自我評價"的偏差,就像是讓學生給自己的作業(yè)打分一樣不夠客觀。ShotJudge就像是培訓了一位專業(yè)的評卷老師,先讓真正的專家對一些樣本進行評分,然后讓AI評測系統(tǒng)學習專家的評分邏輯,從而實現(xiàn)既高效又準確的自動化評測。

當研究團隊將當前最先進的AI系統(tǒng)放到這套專業(yè)考試中時,結果令人深思。即使是表現(xiàn)最好的Claude-Opus-4.6-thinking模型,也只取得了66.2%的成績,而大多數(shù)模型的成績都在50%左右徘徊。這就好比讓一群在模擬考試中表現(xiàn)優(yōu)異的學生參加真正的專業(yè)執(zhí)業(yè)考試,結果發(fā)現(xiàn)通過率并不理想。

更有趣的發(fā)現(xiàn)是,不同的AI系統(tǒng)展現(xiàn)出了明顯的專業(yè)偏好,就像人類專業(yè)人士一樣有自己的強項和弱項。GPT-5.4-high在金融領域表現(xiàn)突出,達到了84.65%的高分,但在STEM領域卻只有42.84%的成績。相反,Claude-Opus-4.6-thinking在人文社科領域表現(xiàn)出色,達到83.02%,但在其他領域的優(yōu)勢就沒那么明顯了。這種現(xiàn)象就像是一個優(yōu)秀的外科醫(yī)生未必是一個出色的心理醫(yī)生一樣,專業(yè)化分工在AI系統(tǒng)中也開始顯現(xiàn)。

研究團隊還發(fā)現(xiàn)了AI系統(tǒng)在處理復雜任務時的一些典型問題。比如,一些系統(tǒng)在搜索信息時容易被無關信息干擾,就像是一個研究者在圖書館查資料時總是被其他有趣但不相關的書籍吸引,最終偏離了原本的研究方向。另一個常見問題是"原則性錯誤",即在處理問題的基礎概念上出現(xiàn)偏差,導致后續(xù)的所有推理都建立在錯誤的基礎上,就像是建房子時地基不穩(wěn),整棟建筑都會有問題。

這項研究的意義遠不止于創(chuàng)建了一個新的評測工具。它實際上為AI系統(tǒng)的發(fā)展指明了方向:從通用助手向專業(yè)合作伙伴的轉變。就像人類社會中的專業(yè)化分工一樣,未來的AI系統(tǒng)可能也需要在特定領域進行深度專業(yè)化,而不是追求在所有領域都表現(xiàn)平均。

XpertBench的出現(xiàn)也為普通用戶選擇AI工具提供了新的參考標準。過去我們可能只關心AI系統(tǒng)的總體表現(xiàn),現(xiàn)在我們可以根據(jù)具體需求選擇在特定領域表現(xiàn)優(yōu)異的系統(tǒng)。這就像是選擇醫(yī)生時會根據(jù)??苼磉x擇一樣,選擇AI助手也需要考慮專業(yè)對口性。

對于AI研發(fā)團隊來說,XpertBench提供了一面真實的鏡子,讓他們看到自己系統(tǒng)在真實專業(yè)場景中的表現(xiàn)。這種反饋將有助于開發(fā)更加實用和可靠的AI系統(tǒng),推動整個行業(yè)從追求基準測試高分轉向解決實際問題的能力提升。

研究團隊還建立了Xpert平臺,這個平臺匯聚了約3000名經(jīng)過嚴格篩選的專家,為AI評測和改進提供持續(xù)的專業(yè)支持。這就像是建立了一個專業(yè)顧問團,為AI系統(tǒng)的發(fā)展提供源源不斷的專業(yè)指導。

說到底,XpertBench的出現(xiàn)標志著AI評測進入了一個新的階段。我們不再滿足于AI系統(tǒng)能夠回答標準化問題,而是期望它們能夠真正勝任專業(yè)工作。這種轉變反映了人們對AI技術期望的提升,也預示著AI系統(tǒng)將在更多專業(yè)領域發(fā)揮重要作用。當然,目前的結果也提醒我們,AI系統(tǒng)距離真正的專業(yè)水準還有相當?shù)木嚯x,這為未來的技術發(fā)展提出了明確的目標和方向。

Q&A

Q1:XpertBench評測系統(tǒng)和傳統(tǒng)AI基準測試有什么不同?

A:XpertBench就像真正的職業(yè)資格考試,而傳統(tǒng)測試更像學??荚?。傳統(tǒng)測試通常是標準化的選擇題或簡單問答,而XpertBench讓AI系統(tǒng)處理來自真實工作場景的復雜任務,比如讓AI像金融分析師一樣分析公司財務報告,或像律師一樣處理法律文件,更能反映AI在實際工作中的表現(xiàn)。

Q2:為什么最先進的AI系統(tǒng)在XpertBench上成績不理想?

A:這說明當前AI系統(tǒng)在應對真實專業(yè)工作時還存在明顯不足。就像一個會背誦教科書的學生不一定能勝任實際工作一樣,AI系統(tǒng)雖然在標準化測試中表現(xiàn)優(yōu)秀,但面對復雜多變的專業(yè)任務時,往往會出現(xiàn)信息干擾、邏輯錯誤等問題,這反映了從理論知識到實踐應用之間的巨大鴻溝。

Q3:普通人如何利用XpertBench的評測結果選擇AI工具?

A:XpertBench揭示了不同AI系統(tǒng)的專業(yè)強項,普通人可以根據(jù)自己的需求選擇相應的AI助手。比如需要金融分析幫助時選擇在金融領域表現(xiàn)出色的GPT-5.4-high,需要人文寫作支持時選擇在人文社科領域優(yōu)秀的Claude-Opus-4.6-thinking,這樣可以獲得更專業(yè)、更可靠的AI服務。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
朝鮮公主好漂亮,圓臉蛋一臉福相,很可愛,氣質很好!

朝鮮公主好漂亮,圓臉蛋一臉福相,很可愛,氣質很好!

東方不敗然多多
2026-04-17 01:57:27
全季酒店賬號公開多名客人特殊訂單備注,華住集團:系個人賬號

全季酒店賬號公開多名客人特殊訂單備注,華住集團:系個人賬號

19樓
2026-04-16 19:55:51
理想汽車26省份銷售中臺全員沒年終獎

理想汽車26省份銷售中臺全員沒年終獎

21世紀經(jīng)濟報道
2026-04-15 22:56:44
美國終于開始害怕?比稀土更致命王牌出手了,萬斯:中國要冷靜

美國終于開始害怕?比稀土更致命王牌出手了,萬斯:中國要冷靜

混沌錄
2026-04-10 22:53:19
你見過創(chuàng)業(yè)最慘的人是啥樣?網(wǎng)友:我被前任刷了30萬信用卡

你見過創(chuàng)業(yè)最慘的人是啥樣?網(wǎng)友:我被前任刷了30萬信用卡

帶你感受人間冷暖
2026-04-07 00:15:06
《乘風2026》嘉賓趙子琪喊話芒果TV:是逼我爆所有的料嗎,我跟慧雯吵架的視頻是怎么被你們剪輯出來的

《乘風2026》嘉賓趙子琪喊話芒果TV:是逼我爆所有的料嗎,我跟慧雯吵架的視頻是怎么被你們剪輯出來的

魯中晨報
2026-04-16 09:25:03
美國敢抓馬杜羅、敢炸哈梅內伊,為什么偏偏不敢動金正恩?

美國敢抓馬杜羅、敢炸哈梅內伊,為什么偏偏不敢動金正恩?

賤議你讀史
2026-04-12 21:40:28
時隔3年重返WNBA!韓旭訓練營合同簽紐約自由人 多位國手留洋

時隔3年重返WNBA!韓旭訓練營合同簽紐約自由人 多位國手留洋

醉臥浮生
2026-04-15 23:58:33
伊朗繳獲美軍飛行員的私人物品,有牙膏,內褲,牛肉干,壓縮食品

伊朗繳獲美軍飛行員的私人物品,有牙膏,內褲,牛肉干,壓縮食品

魔都姐姐雜談
2026-04-06 13:11:53
美伊要打第二場,伊朗發(fā)現(xiàn),有巴基斯坦插手,不能隨便打美基地了

美伊要打第二場,伊朗發(fā)現(xiàn),有巴基斯坦插手,不能隨便打美基地了

書紀文譚
2026-04-16 18:13:52
中國金花綻放!張帥2-0進女雙4強,半決賽對手出爐,劍指第4冠!

中國金花綻放!張帥2-0進女雙4強,半決賽對手出爐,劍指第4冠!

劉姚堯的文字城堡
2026-04-17 07:06:48
NBA破例:東契奇與坎寧安重獲評獎資格

NBA破例:東契奇與坎寧安重獲評獎資格

競技風云錄
2026-04-17 08:12:45
許家印剛認罪,海花島的“爛賬”又被翻出來了

許家印剛認罪,?;◢u的“爛賬”又被翻出來了

GA環(huán)球建筑
2026-04-16 19:49:51
好萊塢風流往事:沃倫體力太好,一天數(shù)次求歡,讓麥當娜欲罷不能

好萊塢風流往事:沃倫體力太好,一天數(shù)次求歡,讓麥當娜欲罷不能

錢小刀娛樂
2026-04-15 15:40:52
馬科斯未料到:仁愛礁27年破船意外助力中國

馬科斯未料到:仁愛礁27年破船意外助力中國

李橑在北漂
2026-04-16 19:40:55
皇馬夏窗首賣敲定:卡馬文加為何成棄子

皇馬夏窗首賣敲定:卡馬文加為何成棄子

綠茵狂熱者
2026-04-17 08:12:00
韓媒:180°反轉,樊振東“最后時刻”回歸幫助中國男乒衛(wèi)冕?

韓媒:180°反轉,樊振東“最后時刻”回歸幫助中國男乒衛(wèi)冕?

順靜自然
2026-04-16 18:51:41
瞿穎何潤東早期內衣廣告爆了,看傻全網(wǎng)

瞿穎何潤東早期內衣廣告爆了,看傻全網(wǎng)

李東陽朋友圈
2026-04-16 10:57:33
PS5主機獨占再添重磅新作!科樂美傾力打造全球巨獻

PS5主機獨占再添重磅新作!科樂美傾力打造全球巨獻

游民星空
2026-04-16 19:21:20
當年咄咄逼人,如今滿是遺憾!頭部男主播深夜道歉!后悔切割退魚前一姐!女方現(xiàn)身開通年鉆!

當年咄咄逼人,如今滿是遺憾!頭部男主播深夜道歉!后悔切割退魚前一姐!女方現(xiàn)身開通年鉆!

新浪財經(jīng)
2026-04-17 00:40:08
2026-04-17 09:04:49
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術及其應用的實驗室。
3306文章數(shù) 170關注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

古巴國家主席:美國可能對古巴發(fā)動軍事侵略

頭條要聞

古巴國家主席:美國可能對古巴發(fā)動軍事侵略

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

數(shù)碼
藝術
健康
公開課
軍事航空

數(shù)碼要聞

MacBook Neo全球爆賣,多個市場蘋果官網(wǎng)發(fā)貨排期已至5月

藝術要聞

這 4 個紅底黑字,藏著毛主席給一位普通母親的最高贊譽,看完淚目

干細胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美宣布黎以?;?0天 以方稱不會撤軍

無障礙瀏覽 進入關懷版