国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

MMLU已死?「人類最后考試」登Nature:全球AI模型集體不及格!

0
分享至


新智元報(bào)道

編輯:KingHZ

【新智元導(dǎo)讀】從高德納震驚Claude解難題,到陶哲軒稱GPT-5.2pro夠發(fā)Nature數(shù)學(xué)博士……AI狂飆突進(jìn),卻在 「人類最后的考試」上集體啞火:最高分不過50%,人類專家還有多大安全區(qū)?

AI新聞圈,兩天一地震,三天一顛覆,讓你目不暇接、眼花繚亂!

或有夸大的地方,但AI日新月異、有目共睹!

「算法分析祖師爺」高德納見證了Claude解決了一道高難度算法題,發(fā)文連用兩個(gè)「震驚」(shock)。

數(shù)學(xué)家陶哲軒宣布GPT 5.2 Pro解決了一個(gè)數(shù)學(xué)Erdos難題且完全與之前人類的解法不同,足以拿下數(shù)學(xué)博士學(xué)位了!


此前,更有Claude Code引發(fā)的Vibe Coding熱潮。

至于各種長(zhǎng)期存在的基準(zhǔn)測(cè)試,AI取得優(yōu)異成績(jī)已不足為怪!

AI研究人員早已意識(shí)到問題:這些測(cè)試太簡(jiǎn)單了。


像大規(guī)模多任務(wù)語(yǔ)言理解(MMLU)這類曾被視為難度頗高的熱門評(píng)測(cè),如今已無法有效檢驗(yàn)先進(jìn)AI系統(tǒng)的真實(shí)水平

問題在于:AI模型發(fā)展得如此之快,基準(zhǔn)測(cè)試正難以跟上其步伐,難以確保AI安全有效。


在MMLU等熱門基準(zhǔn)測(cè)試中,大語(yǔ)言模型的準(zhǔn)確率現(xiàn)已超過90%,早已「飽和」。

「人類最后的考試」的新AI測(cè)試基準(zhǔn),或許能提供解決方案。


各大LLM在不同基準(zhǔn)上準(zhǔn)確率的對(duì)比

最近,這篇合作名單巨長(zhǎng)的論文,正式登上頂刊Nature!


鏈接:https://www.nature.com/articles/s41586-025-09962-4

順便提一句,Alexandr Wang還在Scale AI時(shí),相關(guān)工作已發(fā)表在預(yù)印本平臺(tái)Arxiv。

AI基準(zhǔn):測(cè)試,再測(cè)試

從性能和安全等角度來看,測(cè)試大語(yǔ)言模型有多種不同的方法。

例如,在發(fā)布前,AI開發(fā)人員會(huì)評(píng)估大語(yǔ)言模型被用于惡意目的的抵抗能力。

此外,還有一些獨(dú)立組織對(duì)大語(yǔ)言模型進(jìn)行評(píng)估,比如評(píng)估大語(yǔ)言模型被用于自主利用軟件漏洞的風(fēng)險(xiǎn)。

然而,這些測(cè)試通常只涵蓋狹窄的學(xué)科領(lǐng)域,或者只包含少量任務(wù)。

為了比較模型而創(chuàng)建更廣泛、標(biāo)準(zhǔn)化基準(zhǔn)的嘗試包括MMLU,它使用大約16000道多項(xiàng)選擇題來測(cè)試模型的通用知識(shí)和解決問題的能力。

但很快,過去那些曾經(jīng)很難的考試,現(xiàn)在對(duì)AI來說已經(jīng)變成了「送分題」。


為了彌補(bǔ)這一差距,近1000名研究人員組成的全球聯(lián)盟創(chuàng)建了「人類最后的考試」(Humanity’s Last Exam,HLE。


該測(cè)試由AI安全中心CAIS和Scale AI的一個(gè)團(tuán)隊(duì)開發(fā),包含由全球研究人員提交的3000個(gè)具有挑戰(zhàn)性的問題,旨在成為衡量大語(yǔ)言模型能力的終極基準(zhǔn)

這項(xiàng)基準(zhǔn)測(cè)試覆蓋面極廣、挑戰(zhàn)性極高、深深植根于人類專家知識(shí),以至于當(dāng)前最強(qiáng)的AI準(zhǔn)確率也不足50%。


「人類最后的考試」共包含2500道問題,涵蓋數(shù)學(xué)、人文學(xué)科、自然科學(xué)、古代語(yǔ)言以及高度專業(yè)化的子領(lǐng)域。


問題學(xué)科分布

這些題目非常專業(yè):從翻譯古代巴爾米拉銘文,到識(shí)別鳥類的顯微解剖結(jié)構(gòu),再到分析圣經(jīng)希伯來語(yǔ)發(fā)音的復(fù)雜特征。


每道題都經(jīng)過了領(lǐng)先AI模型的測(cè)試。如果有任何系統(tǒng)能答對(duì),該題就會(huì)被剔除。最終形成的是一項(xiàng)經(jīng)過精心設(shè)計(jì)、恰好處于當(dāng)前AI能力邊界之外的考試。


從7萬到提交的難題中,精挑細(xì)選出了其中的2500道題目

結(jié)果也證實(shí)了這一點(diǎn)。

早期結(jié)果顯示,即使是最先進(jìn)的模型也舉步維艱:

  • GPT-4o得分2.7%;

  • Claude 3.5 Sonnet達(dá)到4.1%;

  • OpenAI的旗艦?zāi)P蚾1僅取得8%的成績(jī)。


新基準(zhǔn)為何重要

德州農(nóng)工大學(xué)計(jì)算機(jī)科學(xué)與工程系的教學(xué)副教授Tung Nguyen,他參與了問題的撰寫和完善工作。


他貢獻(xiàn)了2500道公開考題中的73道(貢獻(xiàn)量位居第二),并且在數(shù)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域撰寫的題目數(shù)量最多。

最近,他分享了對(duì)「人類最后的考試」的思考。


「當(dāng)AI系統(tǒng)開始在人類設(shè)定的基準(zhǔn)測(cè)試中表現(xiàn)得極為出色時(shí),人們很容易認(rèn)為它們正在接近人類水平的理解力,」Tung Nguyen說道。

但HLE提醒我們,智能不僅僅是模式識(shí)別——它關(guān)乎深度、背景和專業(yè)化的知識(shí)。

這個(gè)考試的目的并非難倒人類。而是要精確、系統(tǒng)地揭示出AI目前——至少是現(xiàn)階段——還無法做到的事情。


鏈接:lastexam.ai

Tung Nguyen表示,AI超越傳統(tǒng)基準(zhǔn)的問題遠(yuǎn)超學(xué)術(shù)層面。

「如果沒有準(zhǔn)確的評(píng)估工具,政策制定者、開發(fā)者和用戶就可能誤解AI系統(tǒng)的實(shí)際能力,」他說。「基準(zhǔn)測(cè)試為衡量進(jìn)展和識(shí)別風(fēng)險(xiǎn)提供了基礎(chǔ)。

正如團(tuán)隊(duì)論文所指出的,雖然AI可能在為人類設(shè)計(jì)的考試中表現(xiàn)出色,但這些測(cè)試不一定在衡量「智能」。

盡管名字聽起來有點(diǎn)「末日」感,但「人類最后的考試」并非意在暗示人類重要性的終結(jié)。

相反,它突顯了仍有大量知識(shí)是獨(dú)一無二地屬于人類的,以及AI還需要走多遠(yuǎn)。

Tung Nguyen坦言:「這個(gè)名字有點(diǎn)半開玩笑的意味」。

重要的是背后的理念:

這是人類對(duì)AI的設(shè)置的最后一道難關(guān)。如果AI能通過這項(xiàng)考試,就意味著它達(dá)到了某種專業(yè)化的人類專家水平,而這在以前被認(rèn)為是機(jī)器不可能做到的。

因?yàn)镠LE涵蓋了從核物理到古代史的所有領(lǐng)域,所以沒人能通過單打獨(dú)斗的通過整個(gè)考試。

然而,特定領(lǐng)域的人類專家可以輕松回答其專業(yè)領(lǐng)域內(nèi)的問題,而AI在幾乎所有類別上都失敗了。


為什么AI還會(huì)失???

原因在于AI擅長(zhǎng)模式識(shí)別和總結(jié)已知數(shù)據(jù),但它難以處理深度、專業(yè)化的背景知識(shí)。

HLE提出的問題需要多年的專門研究。在這些問題上,基于常見互聯(lián)網(wǎng)數(shù)據(jù)的「猜測(cè)」行不通。

參考資料:

https://www.nature.com/articles/s41586-025-09962-4

https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美方發(fā)布報(bào)告,巴拿馬事實(shí)上出局,華盛頓低估中國(guó),有件事做不到

美方發(fā)布報(bào)告,巴拿馬事實(shí)上出局,華盛頓低估中國(guó),有件事做不到

甜檸聊史
2026-03-07 19:18:51
隨禮200元,喝2瓶酒偷藏3瓶:河北一男子吃大席丟盡體面

隨禮200元,喝2瓶酒偷藏3瓶:河北一男子吃大席丟盡體面

南方健哥
2026-03-07 10:33:10
拒絕裁掉薩林杰!廣東單外援決戰(zhàn)陣容正式出爐,杜鋒棄用三大鋒衛(wèi)

拒絕裁掉薩林杰!廣東單外援決戰(zhàn)陣容正式出爐,杜鋒棄用三大鋒衛(wèi)

緋雨兒
2026-03-07 14:02:09
潘功勝:人民銀行正在規(guī)范企業(yè)在應(yīng)收賬款管理中存在的不規(guī)范行為

潘功勝:人民銀行正在規(guī)范企業(yè)在應(yīng)收賬款管理中存在的不規(guī)范行為

財(cái)聯(lián)社
2026-03-07 18:26:17
謝賢前女友CoCo大曝張柏芝三胎生父內(nèi)幕,無底線爆料,賬號(hào)被封!

謝賢前女友CoCo大曝張柏芝三胎生父內(nèi)幕,無底線爆料,賬號(hào)被封!

尋墨閣
2026-03-06 13:57:52
伊朗總統(tǒng):美國(guó)要伊朗“無條件投降”是“幻想”

伊朗總統(tǒng):美國(guó)要伊朗“無條件投降”是“幻想”

新華社
2026-03-07 19:20:04
準(zhǔn)備續(xù)約?美記:波神在勇士眼里并不是到期合同,而是長(zhǎng)期資產(chǎn)

準(zhǔn)備續(xù)約?美記:波神在勇士眼里并不是到期合同,而是長(zhǎng)期資產(chǎn)

移動(dòng)擋拆
2026-03-07 07:25:14
越來越多孩子“腦腐”了,玩手機(jī)排第二,排第一竟然是……

越來越多孩子“腦腐”了,玩手機(jī)排第二,排第一竟然是……

新東方家庭教育
2026-03-03 14:49:40
李開復(fù)談OpenClaw:“一人公司”的初步演示

李開復(fù)談OpenClaw:“一人公司”的初步演示

金融界
2026-03-07 07:53:05
臺(tái)灣有“斷氣”危機(jī),民進(jìn)黨仍在甩鍋,盧秀燕愛將轟“臺(tái)灣走十年彎路”

臺(tái)灣有“斷氣”危機(jī),民進(jìn)黨仍在甩鍋,盧秀燕愛將轟“臺(tái)灣走十年彎路”

海峽導(dǎo)報(bào)社
2026-03-06 16:34:04
準(zhǔn)備同歸于盡!伊朗或啟用“沉睡小組”,在美國(guó)本土執(zhí)行斬首行動(dòng)

準(zhǔn)備同歸于盡!伊朗或啟用“沉睡小組”,在美國(guó)本土執(zhí)行斬首行動(dòng)

東極妙嚴(yán)
2026-03-06 13:43:35
女子離婚2年,發(fā)現(xiàn)前夫最好,求復(fù)婚開口要10萬彩禮,男子:免談

女子離婚2年,發(fā)現(xiàn)前夫最好,求復(fù)婚開口要10萬彩禮,男子:免談

社會(huì)日日鮮
2026-03-06 05:32:50
最佳防守!郭士強(qiáng)承認(rèn)在對(duì)日本男籃的比賽中“搶斷”了對(duì)手

最佳防守!郭士強(qiáng)承認(rèn)在對(duì)日本男籃的比賽中“搶斷”了對(duì)手

懂球帝
2026-03-07 10:19:14
特朗普沒想到:美伊大戰(zhàn)打醒兩個(gè)國(guó)家,一個(gè)是越南,一個(gè)是菲律賓

特朗普沒想到:美伊大戰(zhàn)打醒兩個(gè)國(guó)家,一個(gè)是越南,一個(gè)是菲律賓

達(dá)文西看世界
2026-03-07 17:18:03
上海老破小大反轉(zhuǎn),內(nèi)環(huán)房東坐地起價(jià),郊區(qū)暴跌真相扎心

上海老破小大反轉(zhuǎn),內(nèi)環(huán)房東坐地起價(jià),郊區(qū)暴跌真相扎心

說故事的阿襲
2026-03-07 18:15:02
你做過最羞愧的事情是什么?網(wǎng)友:穿上一次就脫不下來了

你做過最羞愧的事情是什么?網(wǎng)友:穿上一次就脫不下來了

另子維愛讀史
2026-03-07 19:10:19
降薪潮下,很多家庭已經(jīng)供不起讀大學(xué)的兒子了!

降薪潮下,很多家庭已經(jīng)供不起讀大學(xué)的兒子了!

黯泉
2026-03-02 21:13:16
國(guó)家要給漲養(yǎng)老金和工資了?先別高興,國(guó)家要?jiǎng)佑蟹咳说牡案饬耍?>
    </a>
        <h3>
      <a href=現(xiàn)代小青青慕慕
2026-01-14 12:58:46
2026年村兩委換屆:這6類人不能當(dāng)村干部,你們村有這樣的人嗎?

2026年村兩委換屆:這6類人不能當(dāng)村干部,你們村有這樣的人嗎?

貓叔東山再起
2026-03-06 11:10:31
庫(kù)里未來愿改打替補(bǔ)!以角色球員身份繼續(xù)發(fā)揮作用 盼留勇士退役

庫(kù)里未來愿改打替補(bǔ)!以角色球員身份繼續(xù)發(fā)揮作用 盼留勇士退役

羅說NBA
2026-03-07 05:26:14
2026-03-07 20:08:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14661文章數(shù) 66667關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

美方承認(rèn):伊朗武器的破壞性超預(yù)期

頭條要聞

美方承認(rèn):伊朗武器的破壞性超預(yù)期

體育要聞

塔圖姆298天走完這段路 只用27分鐘征服這座城

娛樂要聞

周杰倫田馥甄的“JH戀” 被扒得底朝天

財(cái)經(jīng)要聞

針對(duì)"不敢休、不讓休"怪圈 國(guó)家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

家居
手機(jī)
藝術(shù)
親子
軍事航空

家居要聞

暖棕撞色 輕法奶油風(fēng)

手機(jī)要聞

折疊旗艦OPPO Find N6渲染圖流出:全新橙色配色最吸睛

藝術(shù)要聞

2025年天津市第十屆油畫雙年展 | 人物油畫選刊

親子要聞

春天睡得好,才能長(zhǎng)得高!

軍事要聞

美第三個(gè)航母打擊群據(jù)稱準(zhǔn)備部署至中東

無障礙瀏覽 進(jìn)入關(guān)懷版