国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI解數(shù)學(xué)題的速度比科學(xué)家編考題還快——技術(shù)飛速迭代,基準(zhǔn)測(cè)試正以前所未有的速度過(guò)時(shí)——IEEE Spectrum

0
分享至

置頂zzllrr小樂(lè)公眾號(hào)(主頁(yè)右上角)數(shù)學(xué)科普不迷路!

AI解數(shù)學(xué)題的速度比科學(xué)家編考題還快。技術(shù)飛速迭代,基準(zhǔn)測(cè)試正以前所未有的速度過(guò)時(shí)。

作者:Benjamin Skuse(本杰明·斯庫(kù)斯)IEEE Spectrum 2026-2-26

譯者:zzllrr小樂(lè)(數(shù)學(xué)科普公眾號(hào))2026-2-27


圖表:折線圖顯示,谷歌DeepMind的Aletheia AI在博士階段數(shù)學(xué)習(xí)題中的得分,比最新版Gemini Deep Think至少高出5%。

AI解決高階數(shù)學(xué)問(wèn)題的能力正飛速提升

圖源:谷歌DeepMind

數(shù)學(xué)常被視為有效衡量AI進(jìn)展的理想領(lǐng)域。其分步推進(jìn)的邏輯易于追蹤,且答案明確、可自動(dòng)驗(yàn)證,能排除人為或主觀因素的干擾。但AI系統(tǒng)的進(jìn)步速度如此之快,以至于數(shù)學(xué)基準(zhǔn)測(cè)試已難以跟上其步伐。

早在2024年11月,非營(yíng)利研究機(jī)構(gòu)Epoch AI悄然發(fā)布了FrontierMath基準(zhǔn)測(cè)試。這一標(biāo)準(zhǔn)化、嚴(yán)謹(jǐn)?shù)臏y(cè)試工具,旨在衡量最先進(jìn)AI工具的數(shù)學(xué)推理能力。

“它包含一系列難度極高的數(shù)學(xué)題,”Epoch AI高級(jí)研究員格雷格·伯納姆解釋道,“最初只有300道題,也就是我們現(xiàn)在所說(shuō)的1-3級(jí);但目睹AI能力突飛猛進(jìn)后,我們意識(shí)到必須全力跟進(jìn)才能保持領(lǐng)先,因此新增了一組精心設(shè)計(jì)的特殊挑戰(zhàn)題,命名為4級(jí)。”

大致來(lái)說(shuō),1-4級(jí)的難度覆蓋從高等本科到博士后初期階段的數(shù)學(xué)水平。該測(cè)試推出時(shí),最先進(jìn)的AI模型最多只能解決其中2%的題目。而如今,GPT-5.2、Claude Opus 4.6等最優(yōu)秀的公開(kāi)AI模型,已能解決FrontierMath 300道1-3級(jí)題目中的40%以上,以及50道4級(jí)題目中的30%以上。

AI挑戰(zhàn)博士級(jí)數(shù)學(xué)研究

這種驚人的進(jìn)步速度毫無(wú)放緩跡象。例如,谷歌DeepMind近期宣布,其基于Gemini Deep Think開(kāi)發(fā)的實(shí)驗(yàn)性AI系統(tǒng)Aletheia,取得了可發(fā)表級(jí)別的博士水平研究成果。盡管從數(shù)學(xué)角度來(lái)看較為冷門——計(jì)算算術(shù)幾何中名為“特征權(quán)重”的特定結(jié)構(gòu)常數(shù)——但這一成果在AI發(fā)展史上具有重要意義。

“他們聲稱該系統(tǒng)基本實(shí)現(xiàn)了自主研究,即無(wú)需人類指導(dǎo),且研究結(jié)果達(dá)到了發(fā)表標(biāo)準(zhǔn),”伯納姆說(shuō),“這雖然算不上能讓數(shù)學(xué)家們興奮不已的重大成果,但它是全新的——是我們此前從未見(jiàn)過(guò)的突破。”

為了讓這一成就更易理解:FrontierMath的所有題目都有人類已推導(dǎo)得出的已知答案,而Aletheia的成果,盡管“人類若花一周時(shí)間潛心鉆研或許也能完成”,但在此之前,從未有人做到過(guò)。

Aletheia的成果及其他AI“數(shù)學(xué)家”近期的突破表明,我們亟需更快地推出更嚴(yán)苛的新基準(zhǔn)測(cè)試來(lái)評(píng)估AI能力,因?yàn)楝F(xiàn)有測(cè)試很快就會(huì)過(guò)時(shí)?!耙延泻脦状^簡(jiǎn)單的數(shù)學(xué)基準(zhǔn)測(cè)試被淘汰了,”伯納姆說(shuō),“FrontierMath可能在未來(lái)兩年內(nèi)達(dá)到飽和狀態(tài)(即最先進(jìn)AI模型得分為100%),甚至可能更快。”

“首輪證明”挑戰(zhàn)賽

為應(yīng)對(duì)這一問(wèn)題,2月6日,11位頂尖數(shù)學(xué)家聯(lián)合發(fā)起了“首輪證明”(First Proof)挑戰(zhàn)賽。該挑戰(zhàn)賽包含10道極難的數(shù)學(xué)題,均源自出題者自身的研究過(guò)程,證明過(guò)程約5頁(yè)紙以內(nèi),且此前未向任何人公開(kāi)。這一挑戰(zhàn)賽是評(píng)估AI系統(tǒng)獨(dú)立解決研究級(jí)數(shù)學(xué)問(wèn)題能力的初步嘗試。詳情參閱:

挑戰(zhàn)賽在數(shù)學(xué)界引發(fā)了廣泛關(guān)注,專業(yè)與業(yè)余數(shù)學(xué)家紛紛參與,OpenAI等團(tuán)隊(duì)也積極應(yīng)戰(zhàn)。但截至2月14日出題者公布證明過(guò)程時(shí),尚無(wú)任何參與者能提交全部10道題的正確解答。

事實(shí)上,差距還很大。出題者本人使用Gemini 3.0 Deep Think和ChatGPT 5.2 Pro,也僅解決了其中2道題。除OpenAI和谷歌DeepMind的Aletheia小團(tuán)隊(duì)外,多數(shù)外部參與者的表現(xiàn)都不盡如人意。在“有限人類監(jiān)督”下,OpenAI最先進(jìn)的內(nèi)部AI系統(tǒng)解決了10道題中的5道,Aletheia也取得了類似成績(jī)——數(shù)學(xué)界對(duì)此反應(yīng)不一,有人驚嘆,也有人失望。“首輪證明”挑戰(zhàn)賽團(tuán)隊(duì)計(jì)劃于3月14日推出難度更高的第二輪挑戰(zhàn)。

AI的新前沿

“我認(rèn)為‘首輪證明’挑戰(zhàn)賽非常出色:它盡可能真實(shí)地讓AI系統(tǒng)模擬數(shù)學(xué)家的工作場(chǎng)景,”伯納姆說(shuō)。盡管他贊賞該挑戰(zhàn)賽能測(cè)試AI對(duì)各類數(shù)學(xué)領(lǐng)域及數(shù)學(xué)家的實(shí)用價(jià)值,但Epoch AI也推出了自己的新測(cè)試方案——FrontierMath:開(kāi)放問(wèn)題 (參閱 )。這一試點(diǎn)基準(zhǔn)測(cè)試的獨(dú)特之處在于,它包含16道來(lái)自研究領(lǐng)域的開(kāi)放問(wèn)題(后續(xù)還將新增),這些問(wèn)題都是專業(yè)數(shù)學(xué)家嘗試解決但未能成功的難題。自1月27日推出以來(lái),尚無(wú)AI能解決其中任何一道題。

“通過(guò)‘開(kāi)放問(wèn)題’測(cè)試,我們?cè)噲D讓挑戰(zhàn)難度再上一個(gè)臺(tái)階,”伯納姆說(shuō),“僅達(dá)到基準(zhǔn)線的成果就具備發(fā)表價(jià)值,至少能在專業(yè)期刊上發(fā)表。”更重要的是,每道題都設(shè)計(jì)成可自動(dòng)評(píng)分的形式?!斑@有點(diǎn)違反直覺(jué),”伯納姆補(bǔ)充道,“雖然沒(méi)人知道答案,但我們有一個(gè)計(jì)算機(jī)程序,能夠判斷提交的答案是否正確。”

伯納姆認(rèn)為“首輪證明”與“開(kāi)放問(wèn)題”這兩項(xiàng)測(cè)試是互補(bǔ)的。“我認(rèn)為對(duì)AI能力的了解越多越好,”他說(shuō),“AI已經(jīng)發(fā)展到在某些方面優(yōu)于大多數(shù)博士生的水平,因此我們需要提出一些人類數(shù)學(xué)家至少會(huì)適度感興趣的問(wèn)題——不是因?yàn)檫@些問(wèn)題是AI在解決,而是因?yàn)樗鼈儽旧砭褪侨祟悢?shù)學(xué)家關(guān)注的數(shù)學(xué)問(wèn)題?!?/p>

參考資料

https://spectrum.ieee.org/ai-math-benchmarks

小樂(lè)數(shù)學(xué)科普近期文章

·開(kāi)放 · 友好 · 多元 · 普適 · 守拙·

讓數(shù)學(xué)

更加

易學(xué)易練

易教易研

易賞易玩

易見(jiàn)易得

易傳易及

歡迎評(píng)論、點(diǎn)贊、在看、在聽(tīng)

收藏、分享、轉(zhuǎn)載、投稿

查看原始文章出處

點(diǎn)擊zzllrr小樂(lè)

公眾號(hào)主頁(yè)

右上角

置頂★加星

數(shù)學(xué)科普不迷路!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
北京“最火駐京辦”關(guān)門半個(gè)月重開(kāi)業(yè),菜有調(diào)整嗎?飯點(diǎn)排隊(duì)超1小時(shí)…

北京“最火駐京辦”關(guān)門半個(gè)月重開(kāi)業(yè),菜有調(diào)整嗎?飯點(diǎn)排隊(duì)超1小時(shí)…

北京商報(bào)
2026-04-22 22:48:43
15歲少年跳樓墜亡,事前曾購(gòu)處方藥服用 父母索賠,一審判藥店及公寓物業(yè)共賠42萬(wàn)

15歲少年跳樓墜亡,事前曾購(gòu)處方藥服用 父母索賠,一審判藥店及公寓物業(yè)共賠42萬(wàn)

紅星新聞
2026-04-23 13:42:31
栽得一點(diǎn)不冤!華晨宇撫仙湖演唱會(huì)被叫停,百億身家也救不了他

栽得一點(diǎn)不冤!華晨宇撫仙湖演唱會(huì)被叫停,百億身家也救不了他

草莓解說(shuō)體育
2026-04-23 18:22:58
字母哥:梅羅、喬詹都是GOAT;C羅更自律所以我更傾向他

字母哥:梅羅、喬詹都是GOAT;C羅更自律所以我更傾向他

懂球帝
2026-04-23 12:48:07
一覺(jué)醒來(lái)日本連遭3噩耗,麻生太郎帶頭“造反”,高市或?qū)⑾屡_(tái)

一覺(jué)醒來(lái)日本連遭3噩耗,麻生太郎帶頭“造反”,高市或?qū)⑾屡_(tái)

春日在捕月
2026-04-24 04:30:37
破案了!麥考爾為何沒(méi)有隨廣東隊(duì)前往福建,經(jīng)紀(jì)人道出原因

破案了!麥考爾為何沒(méi)有隨廣東隊(duì)前往福建,經(jīng)紀(jì)人道出原因

體育哲人
2026-04-23 20:56:42
勸告馬英九,不要在錯(cuò)誤的道路越走越遠(yuǎn)

勸告馬英九,不要在錯(cuò)誤的道路越走越遠(yuǎn)

白日追夢(mèng)人
2026-04-24 02:08:20
古偶泛濫的2026,終于等來(lái)一部“真歷史劇”!央視一出手就是王炸

古偶泛濫的2026,終于等來(lái)一部“真歷史劇”!央視一出手就是王炸

娛樂(lè)圈十三太保
2026-04-21 17:16:54
出海更難了!俄朝圖們江公路大橋合攏,預(yù)計(jì)今年6月正式通車

出海更難了!俄朝圖們江公路大橋合攏,預(yù)計(jì)今年6月正式通車

全城探秘
2026-04-22 16:41:13
俄羅斯媒體稱,澤連斯基接受采訪時(shí),暗示自己會(huì)比特朗普更晚下臺(tái)

俄羅斯媒體稱,澤連斯基接受采訪時(shí),暗示自己會(huì)比特朗普更晚下臺(tái)

空谷幽幽藍(lán)
2026-04-24 02:49:19
寧德時(shí)代麒麟凝聚態(tài)電池發(fā)布,最高續(xù)航1500公里

寧德時(shí)代麒麟凝聚態(tài)電池發(fā)布,最高續(xù)航1500公里

新京報(bào)
2026-04-21 20:38:22
寧德“回?fù)簟北葋喌希撼潆娍?分多鐘,稱高端車磷酸鐵鋰是減配

寧德“回?fù)簟北葋喌希撼潆娍?分多鐘,稱高端車磷酸鐵鋰是減配

明鏡pro
2026-04-22 16:55:17
中紀(jì)委2026嚴(yán)查新方向,這6類崗位首當(dāng)其沖

中紀(jì)委2026嚴(yán)查新方向,這6類崗位首當(dāng)其沖

細(xì)說(shuō)職場(chǎng)
2026-04-23 09:15:43
費(fèi)翔:父母都已離世,他無(wú)兒女與貓為伴,是親戚眼里的“唐僧肉”

費(fèi)翔:父母都已離世,他無(wú)兒女與貓為伴,是親戚眼里的“唐僧肉”

細(xì)品名人
2026-04-23 07:20:51
中莫聲明落地,莫桑比克全方位鼎力挺華,破格拿下中方獨(dú)一份優(yōu)待

中莫聲明落地,莫桑比克全方位鼎力挺華,破格拿下中方獨(dú)一份優(yōu)待

書紀(jì)文譚
2026-04-23 23:09:11
星巴克貼紙辱女翻車,遭眾多女生抵制

星巴克貼紙辱女翻車,遭眾多女生抵制

虔青
2026-04-23 18:01:32
廣西一4S店疑因資金鏈斷裂閉店,店內(nèi)一片狼藉,展車被清空!

廣西一4S店疑因資金鏈斷裂閉店,店內(nèi)一片狼藉,展車被清空!

黃河新聞網(wǎng)呂梁
2026-04-22 10:03:58
大連主城區(qū)交通限制延至年底!節(jié)假公休日濱海西路局部單雙號(hào)通行

大連主城區(qū)交通限制延至年底!節(jié)假公休日濱海西路局部單雙號(hào)通行

半島晨報(bào)
2026-04-23 18:32:02
好萊塢明星夫妻的74次觀影實(shí)驗(yàn)

好萊塢明星夫妻的74次觀影實(shí)驗(yàn)

時(shí)光慢郵啊
2026-04-23 03:49:45
患難見(jiàn)情誼,普京被逼賣黃金?中方發(fā)話:俄賣多少,中方就收多少

患難見(jiàn)情誼,普京被逼賣黃金?中方發(fā)話:俄賣多少,中方就收多少

嘴角上翹
2026-04-23 18:08:12
2026-04-24 06:00:49
小樂(lè)數(shù)學(xué)科普 incentive-icons
小樂(lè)數(shù)學(xué)科普
zzllrr小樂(lè),小樂(lè)數(shù)學(xué)科普,讓前沿?cái)?shù)學(xué)流行起來(lái)~
324文章數(shù) 7關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測(cè)

頭條要聞

以色列:只要美國(guó)同意 將刺殺伊朗最高領(lǐng)袖

頭條要聞

以色列:只要美國(guó)同意 將刺殺伊朗最高領(lǐng)袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂(lè)要聞

王大陸因涉黑討債被判 女友也一同獲刑

財(cái)經(jīng)要聞

普華永道賠償10億 恒大股東見(jiàn)到"回頭錢"

汽車要聞

預(yù)售30.29萬(wàn)起 嵐圖泰山X8配896線激光雷達(dá)

態(tài)度原創(chuàng)

家居
藝術(shù)
本地
時(shí)尚
游戲

家居要聞

浪漫協(xié)奏 法式風(fēng)格

藝術(shù)要聞

罕見(jiàn)曝光!毛澤東 36 幅經(jīng)典對(duì)聯(lián),每一幅都是絕品!

本地新聞

SAGA GIRLS 2026女團(tuán)選秀

李昀銳:林深見(jiàn)木

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢(shì)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版