国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

人類基準測試大翻車:樣本不足、方法不透明,AI性能結(jié)論可信嗎?

0
分享至

我們經(jīng)常在一些對比 AI 性能的測試中,看到宣稱基礎(chǔ)模型在自然語言理解、推理或編程任務(wù)等性能超人類的相關(guān)報道。

但你有沒有想過,這些結(jié)果真的可信嗎?

在近期的一項研究中,美國哈佛大學(xué)研究員魏來(Kevin Wei)與合作者指出,目前人類基準測試(Human Baselines)的嚴謹性和透明度存在一系列嚴重問題,這直接關(guān)系著相關(guān)測試中關(guān)于 AI 性能的結(jié)論是否“立得住”的問題。

為此,研究人員對基礎(chǔ)模型評估中人類基線方法提出了相關(guān)的改進建議。與此同時,為全面梳理當前評估方法的短板,他們還系統(tǒng)回顧了 115 項人類基線研究。

相關(guān)論文以《立場:模型評估中的人類基線需要嚴謹性和透明性》(Position: Human Baselines in Model Evaluations Need Rigor and Transparency)為題發(fā)表在 ICML 2025(The Forty-Second International Conference on Machine Learning)[1]。

圖丨相關(guān)論文(來源:ICML)



長期以來,人類基準測試作為 AI 領(lǐng)域評估模型性能的重要工具,直接影響著對 AI 基礎(chǔ)模型表現(xiàn)的判斷,尤其是為 AI 達到超人類的水平相關(guān)結(jié)論是否可靠提供關(guān)鍵參考。

魏來目前的主要研究方向是 AI 評估測試,致力于將安全測試的系統(tǒng)做得更安全,以及將相關(guān)機制做得更好。他對 DeepTech 表示:“我們在研究過程中發(fā)現(xiàn),當下很多聲稱模型達到超人類性能的研究,其人類基線評估方法不僅嚴謹性不夠,透明度也不足。這會導(dǎo)致人類和 AI 性能的比較缺乏可信性?!?/p>


圖丨魏來(來源:魏來)

人類基準測試結(jié)果是否可信關(guān)系著對系統(tǒng)層級的理解,以及對人類的層級準確比較。相關(guān)結(jié)論不僅影響著機器學(xué)習(xí)社區(qū)、相關(guān)用戶和政策制定者,還與 AI 是否能代替、如何替代人類工作等社會和經(jīng)濟問題密切相關(guān)。


表丨基線設(shè)計與實施項目(含數(shù)據(jù)填補)的匯總統(tǒng)計(來源:ICML)

研究人員發(fā)現(xiàn),在以往研究中最大的問題是所選取作為基線缺乏代表性,或在進行基線測試時,為基線測試人員和網(wǎng)絡(luò)系統(tǒng)提供的信息存在差異:要么對二者所提出的問題不同,要么在某些方面存在差異,使得二者之間難以進行有效比較。

讓人意外的是,只有 59% 的基線使用與 AI 相同的測試集。舉例來說,某個數(shù)據(jù)中有 1,000 個樣本,然后研究人員可能僅從中選 50 個樣本作為基線,再將這 50 個人類的層級與 1,000 個 AI 系統(tǒng)的場景做對比。

除此之外,人類基線的樣本量普遍不足也是極為重要的問題,這會導(dǎo)致無法據(jù)此判斷這一結(jié)果是否能夠代表更廣泛人群。其中,以單個測試題目計算,人類基線的回應(yīng)者人數(shù)中位數(shù)僅有 8 人,遠低于科學(xué)研究的可靠性要求。

另一方面,倫理審查報告方面,只有 14% 的論文報告了倫理審查,其中大部分研究并沒有公開測試方法、參與者信息和數(shù)據(jù)分析代碼。在統(tǒng)計檢驗使用方面的問題同樣嚴重,進行統(tǒng)計檢驗的基線只有 8%。

“我們發(fā)現(xiàn),這種在人類基準測試過程中普遍存在信息不透明的做法,在影響結(jié)果可重復(fù)性的同時,也很有可能存在潛在的偏差?!蔽簛肀硎?。


(來源:ICML)

基于對測量理論和 AI 評估文獻的分析,該團隊提出了一個新的框架來改進相關(guān)問題,其涵蓋五個階段并在每個階段給出了相關(guān)建議。

具體而言:

·設(shè)計與實施(Design&Implementation):選擇一致且具有代表性的測試集,迭代基線工具,收集足夠大小的樣本和滿足倫理要求;

·招募(Recruitment):指定感興趣的人群,選擇適當?shù)某闃硬呗?,在招募過程中采用質(zhì)量控制;

·執(zhí)行(Execution):在執(zhí)行過程中采用質(zhì)量控制,控制方法效應(yīng),控制人類和 AI 的努力程度,收集定性基線數(shù)據(jù)(例如解釋);

·分析(Analysis):量化人類和 AI 表現(xiàn)之間的不確定性,確保評估指標、評分標準和評分方法的一致性;

·文檔化(Documentation):報告方法和基線樣本的詳細信息,采用開放科學(xué)和可重復(fù)性標準。

根據(jù)相關(guān)建議,在設(shè)計人類基線時,可采用更科學(xué)的方法來確保公平性和準確性。例如,研究人員借鑒了包括心理學(xué)、經(jīng)濟學(xué)、政治學(xué)等在內(nèi)的多學(xué)科知識,為 AI 和人類性能的比較提供了新的視角。研究還強調(diào)了透明度的重要性,指出基于詳細的記錄和報告,可促進研究結(jié)果更可信。

研究人員將這些建議整合成一份清單,并在此基礎(chǔ)上系統(tǒng)性地回顧了 115 項基礎(chǔ)模型評估中的人類基線研究。這項研究不僅梳理出當下人類基準測試方法中存在的不足,同時也為未來研究特別是數(shù)學(xué)領(lǐng)域 AI 技術(shù)的評估指出了改進方向。

參考資料:

1.https://openreview.net/forum?id=gwhPvu97Gm

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特朗普發(fā)布馬杜羅被抓后照片:戴手銬、雙眼被蒙??!

每日經(jīng)濟新聞
2026-01-04 01:17:06

哈里斯稱美對委內(nèi)瑞拉動武非法

哈里斯稱美對委內(nèi)瑞拉動武非法

界面新聞
2026-01-04 11:26:34
中俄先進武器為何失靈?委內(nèi)瑞拉事件揭開現(xiàn)代戰(zhàn)爭核心邏輯

中俄先進武器為何失靈?委內(nèi)瑞拉事件揭開現(xiàn)代戰(zhàn)爭核心邏輯

創(chuàng)作者_b3jm
2026-01-03 22:47:03
不是戰(zhàn)爭,是逮捕:馬杜羅落網(wǎng),宣告美國全球執(zhí)法新時代

不是戰(zhàn)爭,是逮捕:馬杜羅落網(wǎng),宣告美國全球執(zhí)法新時代

斌聞天下
2026-01-04 10:32:06
震驚!網(wǎng)傳特斯拉開除一產(chǎn)線組長,起因是他為提升產(chǎn)能提倡加班

震驚!網(wǎng)傳特斯拉開除一產(chǎn)線組長,起因是他為提升產(chǎn)能提倡加班

火山詩話
2026-01-02 15:42:01
她復(fù)出后依然山峰林立

她復(fù)出后依然山峰林立

貴圈真亂
2026-01-04 10:38:30
與其說美軍綁架了馬杜羅,不如說是委內(nèi)瑞拉統(tǒng)治集團出賣了他

與其說美軍綁架了馬杜羅,不如說是委內(nèi)瑞拉統(tǒng)治集團出賣了他

阿爾法34號
2026-01-04 09:38:31
伊朗最高領(lǐng)袖就美國對委軍事行動表態(tài):“絕不會向敵人屈服”

伊朗最高領(lǐng)袖就美國對委軍事行動表態(tài):“絕不會向敵人屈服”

環(huán)球網(wǎng)資訊
2026-01-04 12:08:21
雷軍直播,沖上熱搜!網(wǎng)友:是真敢啊

雷軍直播,沖上熱搜!網(wǎng)友:是真敢啊

中國基金報
2026-01-04 00:01:01
未來72小時至關(guān)重要:美國若掌控委內(nèi)瑞拉將改寫全球油價

未來72小時至關(guān)重要:美國若掌控委內(nèi)瑞拉將改寫全球油價

桂系007
2026-01-03 23:59:15
“i茅臺”連續(xù)4天秒空,茅臺批發(fā)價再度跌破1499元

“i茅臺”連續(xù)4天秒空,茅臺批發(fā)價再度跌破1499元

第一財經(jīng)資訊
2026-01-04 10:48:26
大爭議!三球效仿字母哥“爭議暴扣”引沖突 黃蜂15分逆轉(zhuǎn)公牛

大爭議!三球效仿字母哥“爭議暴扣”引沖突 黃蜂15分逆轉(zhuǎn)公牛

醉臥浮生
2026-01-04 12:11:17
俄首富警告:美國若掌握委國油田,將壓垮俄羅斯財政

俄首富警告:美國若掌握委國油田,將壓垮俄羅斯財政

桂系007
2026-01-04 01:45:32
笑不活!司曉迪“可汗大點兵”炸翻頂流圈,我卻笑死在成毅評論區(qū)

笑不活!司曉迪“可汗大點兵”炸翻頂流圈,我卻笑死在成毅評論區(qū)

八卦南風(fēng)
2026-01-03 17:33:45
遭雙殺,北京隊揪出最令人失望之人!拿550萬10中2,被胡金秋打爆

遭雙殺,北京隊揪出最令人失望之人!拿550萬10中2,被胡金秋打爆

南海浪花
2026-01-04 06:55:12
紐約市長:這是違法的戰(zhàn)爭行為!

紐約市長:這是違法的戰(zhàn)爭行為!

環(huán)球時報國際
2026-01-04 10:16:39
給嬰兒喂安眠藥后續(xù):月嫂單位被扒,黑幕曝光,孩子狀態(tài)讓人擔(dān)憂

給嬰兒喂安眠藥后續(xù):月嫂單位被扒,黑幕曝光,孩子狀態(tài)讓人擔(dān)憂

奇思妙想草葉君
2026-01-03 19:47:31
馬杜羅最新照片

馬杜羅最新照片

新京報政事兒
2026-01-04 00:40:21
美國告知全世界,馬杜羅將進監(jiān)獄,不到24小時,反美強國仗義出手

美國告知全世界,馬杜羅將進監(jiān)獄,不到24小時,反美強國仗義出手

時時有聊
2026-01-03 20:32:29
“最美新生兒”火了,似乎在娘胎整容化妝一般,全網(wǎng)都想沾喜氣

“最美新生兒”火了,似乎在娘胎整容化妝一般,全網(wǎng)都想沾喜氣

菁媽育兒
2026-01-03 12:44:30
2026-01-04 13:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16072文章數(shù) 514446關(guān)注度
往期回顧 全部

科技要聞

雷軍:罵小米汽車有流量,但別故意抹黑

頭條要聞

男子在村口畫"天安門"墻繪爆火:因英語5考央美均落榜

頭條要聞

男子在村口畫"天安門"墻繪爆火:因英語5考央美均落榜

體育要聞

離開中超后,他成了足壇“倒鉤之王”

娛樂要聞

謝玲玲為101歲林老太慶生,四代同堂

財經(jīng)要聞

委內(nèi)瑞拉華商親歷:顧客排隊買生活物資

汽車要聞

最高續(xù)航310km 嵐圖泰山8或?qū)⑸习肽臧l(fā)布

態(tài)度原創(chuàng)

手機
健康
藝術(shù)
數(shù)碼
游戲

手機要聞

小迭代旗艦工程機影像配置曝光:3X±光學(xué)變焦、200Mp主攝

這些新療法,讓化療不再那么痛苦

藝術(shù)要聞

故宮一級文物:和珅送給乾隆的80大壽賀禮

數(shù)碼要聞

華擎帶來SL-P白金ATX電源:全日系電容,Cybenetics A靜音

一款PlayStation獨占游戲突然要下架!引發(fā)玩家擔(dān)憂

無障礙瀏覽 進入關(guān)懷版