国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI解數(shù)學(xué)題的速度比科學(xué)家編考題還快——技術(shù)飛速迭代,基準(zhǔn)測試正以前所未有的速度過時——IEEE Spectrum

0
分享至

置頂zzllrr小樂公眾號(主頁右上角)數(shù)學(xué)科普不迷路!

AI解數(shù)學(xué)題的速度比科學(xué)家編考題還快。技術(shù)飛速迭代,基準(zhǔn)測試正以前所未有的速度過時。

作者:Benjamin Skuse(本杰明·斯庫斯)IEEE Spectrum 2026-2-26

譯者:zzllrr小樂(數(shù)學(xué)科普公眾號)2026-2-27


圖表:折線圖顯示,谷歌DeepMind的Aletheia AI在博士階段數(shù)學(xué)習(xí)題中的得分,比最新版Gemini Deep Think至少高出5%。

AI解決高階數(shù)學(xué)問題的能力正飛速提升

圖源:谷歌DeepMind

數(shù)學(xué)常被視為有效衡量AI進(jìn)展的理想領(lǐng)域。其分步推進(jìn)的邏輯易于追蹤,且答案明確、可自動驗證,能排除人為或主觀因素的干擾。但AI系統(tǒng)的進(jìn)步速度如此之快,以至于數(shù)學(xué)基準(zhǔn)測試已難以跟上其步伐。

早在2024年11月,非營利研究機構(gòu)Epoch AI悄然發(fā)布了FrontierMath基準(zhǔn)測試。這一標(biāo)準(zhǔn)化、嚴(yán)謹(jǐn)?shù)臏y試工具,旨在衡量最先進(jìn)AI工具的數(shù)學(xué)推理能力。

“它包含一系列難度極高的數(shù)學(xué)題,”Epoch AI高級研究員格雷格·伯納姆解釋道,“最初只有300道題,也就是我們現(xiàn)在所說的1-3級;但目睹AI能力突飛猛進(jìn)后,我們意識到必須全力跟進(jìn)才能保持領(lǐng)先,因此新增了一組精心設(shè)計的特殊挑戰(zhàn)題,命名為4級?!?/p>

大致來說,1-4級的難度覆蓋從高等本科到博士后初期階段的數(shù)學(xué)水平。該測試推出時,最先進(jìn)的AI模型最多只能解決其中2%的題目。而如今,GPT-5.2、Claude Opus 4.6等最優(yōu)秀的公開AI模型,已能解決FrontierMath 300道1-3級題目中的40%以上,以及50道4級題目中的30%以上。

AI挑戰(zhàn)博士級數(shù)學(xué)研究

這種驚人的進(jìn)步速度毫無放緩跡象。例如,谷歌DeepMind近期宣布,其基于Gemini Deep Think開發(fā)的實驗性AI系統(tǒng)Aletheia,取得了可發(fā)表級別的博士水平研究成果。盡管從數(shù)學(xué)角度來看較為冷門——計算算術(shù)幾何中名為“特征權(quán)重”的特定結(jié)構(gòu)常數(shù)——但這一成果在AI發(fā)展史上具有重要意義。

“他們聲稱該系統(tǒng)基本實現(xiàn)了自主研究,即無需人類指導(dǎo),且研究結(jié)果達(dá)到了發(fā)表標(biāo)準(zhǔn),”伯納姆說,“這雖然算不上能讓數(shù)學(xué)家們興奮不已的重大成果,但它是全新的——是我們此前從未見過的突破?!?/p>

為了讓這一成就更易理解:FrontierMath的所有題目都有人類已推導(dǎo)得出的已知答案,而Aletheia的成果,盡管“人類若花一周時間潛心鉆研或許也能完成”,但在此之前,從未有人做到過。

Aletheia的成果及其他AI“數(shù)學(xué)家”近期的突破表明,我們亟需更快地推出更嚴(yán)苛的新基準(zhǔn)測試來評估AI能力,因為現(xiàn)有測試很快就會過時?!耙延泻脦状^簡單的數(shù)學(xué)基準(zhǔn)測試被淘汰了,”伯納姆說,“FrontierMath可能在未來兩年內(nèi)達(dá)到飽和狀態(tài)(即最先進(jìn)AI模型得分為100%),甚至可能更快?!?/p>

“首輪證明”挑戰(zhàn)賽

為應(yīng)對這一問題,2月6日,11位頂尖數(shù)學(xué)家聯(lián)合發(fā)起了“首輪證明”(First Proof)挑戰(zhàn)賽。該挑戰(zhàn)賽包含10道極難的數(shù)學(xué)題,均源自出題者自身的研究過程,證明過程約5頁紙以內(nèi),且此前未向任何人公開。這一挑戰(zhàn)賽是評估AI系統(tǒng)獨立解決研究級數(shù)學(xué)問題能力的初步嘗試。詳情參閱:

挑戰(zhàn)賽在數(shù)學(xué)界引發(fā)了廣泛關(guān)注,專業(yè)與業(yè)余數(shù)學(xué)家紛紛參與,OpenAI等團(tuán)隊也積極應(yīng)戰(zhàn)。但截至2月14日出題者公布證明過程時,尚無任何參與者能提交全部10道題的正確解答。

事實上,差距還很大。出題者本人使用Gemini 3.0 Deep Think和ChatGPT 5.2 Pro,也僅解決了其中2道題。除OpenAI和谷歌DeepMind的Aletheia小團(tuán)隊外,多數(shù)外部參與者的表現(xiàn)都不盡如人意。在“有限人類監(jiān)督”下,OpenAI最先進(jìn)的內(nèi)部AI系統(tǒng)解決了10道題中的5道,Aletheia也取得了類似成績——數(shù)學(xué)界對此反應(yīng)不一,有人驚嘆,也有人失望?!笆纵喿C明”挑戰(zhàn)賽團(tuán)隊計劃于3月14日推出難度更高的第二輪挑戰(zhàn)。

AI的新前沿

“我認(rèn)為‘首輪證明’挑戰(zhàn)賽非常出色:它盡可能真實地讓AI系統(tǒng)模擬數(shù)學(xué)家的工作場景,”伯納姆說。盡管他贊賞該挑戰(zhàn)賽能測試AI對各類數(shù)學(xué)領(lǐng)域及數(shù)學(xué)家的實用價值,但Epoch AI也推出了自己的新測試方案——FrontierMath:開放問題 (參閱 )。這一試點基準(zhǔn)測試的獨特之處在于,它包含16道來自研究領(lǐng)域的開放問題(后續(xù)還將新增),這些問題都是專業(yè)數(shù)學(xué)家嘗試解決但未能成功的難題。自1月27日推出以來,尚無AI能解決其中任何一道題。

“通過‘開放問題’測試,我們試圖讓挑戰(zhàn)難度再上一個臺階,”伯納姆說,“僅達(dá)到基準(zhǔn)線的成果就具備發(fā)表價值,至少能在專業(yè)期刊上發(fā)表?!备匾氖?,每道題都設(shè)計成可自動評分的形式?!斑@有點違反直覺,”伯納姆補充道,“雖然沒人知道答案,但我們有一個計算機程序,能夠判斷提交的答案是否正確?!?/p>

伯納姆認(rèn)為“首輪證明”與“開放問題”這兩項測試是互補的?!拔艺J(rèn)為對AI能力的了解越多越好,”他說,“AI已經(jīng)發(fā)展到在某些方面優(yōu)于大多數(shù)博士生的水平,因此我們需要提出一些人類數(shù)學(xué)家至少會適度感興趣的問題——不是因為這些問題是AI在解決,而是因為它們本身就是人類數(shù)學(xué)家關(guān)注的數(shù)學(xué)問題。”

參考資料

https://spectrum.ieee.org/ai-math-benchmarks

小樂數(shù)學(xué)科普近期文章

·開放 · 友好 · 多元 · 普適 · 守拙·

讓數(shù)學(xué)

更加

易學(xué)易練

易教易研

易賞易玩

易見易得

易傳易及

歡迎評論、點贊、在看、在聽

收藏、分享、轉(zhuǎn)載、投稿

查看原始文章出處

點擊zzllrr小樂

公眾號主頁

右上角

置頂★加星

數(shù)學(xué)科普不迷路!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
郭藹明港姐訪談片出土自爆有後臺,胞妹神顏值震驚網(wǎng)民:個妹仲靚

郭藹明港姐訪談片出土自爆有後臺,胞妹神顏值震驚網(wǎng)民:個妹仲靚

粵睇先生
2026-03-02 23:12:50
那邊死了一個神棍,這邊火了一堆神婆神漢

那邊死了一個神棍,這邊火了一堆神婆神漢

李老逵亂擺龍門陣
2026-03-02 09:57:56
史詩級封殺!2000萬網(wǎng)紅“聽風(fēng)的蠶”徹底涼了

史詩級封殺!2000萬網(wǎng)紅“聽風(fēng)的蠶”徹底涼了

互聯(lián)網(wǎng)品牌官
2026-02-12 01:17:23
上海影院丈夫抓小三后續(xù):女主帶著丈夫和兒子,還有男小三看電影

上海影院丈夫抓小三后續(xù):女主帶著丈夫和兒子,還有男小三看電影

漢史趣聞
2026-02-28 11:58:20
曼昱究竟輸在了哪?劉國正一針見血:問題不在技術(shù),而在這3點

曼昱究竟輸在了哪?劉國正一針見血:問題不在技術(shù),而在這3點

生活新鮮市
2026-03-03 00:30:08
美軍公布最新傷亡情況

美軍公布最新傷亡情況

環(huán)球時報國際
2026-03-02 23:57:00
只要中國人敢參戰(zhàn),我將讓只靠步槍作戰(zhàn)的中國人尸橫遍野

只要中國人敢參戰(zhàn),我將讓只靠步槍作戰(zhàn)的中國人尸橫遍野

忠于法紀(jì)
2025-12-05 21:54:58
2026年,退休人員工齡滿40年,一年工齡的單價就能有2元了嗎?

2026年,退休人員工齡滿40年,一年工齡的單價就能有2元了嗎?

碎月導(dǎo)師
2026-03-02 07:00:03
黃一鳴帶小孩給爺爺奶奶拜年,嘴巴很甜,被懷疑是變相要紅包

黃一鳴帶小孩給爺爺奶奶拜年,嘴巴很甜,被懷疑是變相要紅包

新游戲大妹子
2026-02-18 09:18:57
繼 “斬殺線” 之后,中國網(wǎng)友又為美國人送上新標(biāo)簽:北美懦夫

繼 “斬殺線” 之后,中國網(wǎng)友又為美國人送上新標(biāo)簽:北美懦夫

我心縱橫天地間
2026-01-29 14:21:49
火箭隊傳聞:泰厄斯·瓊斯被獨行俠裁掉后,火箭隊會考慮他嗎?

火箭隊傳聞:泰厄斯·瓊斯被獨行俠裁掉后,火箭隊會考慮他嗎?

好火子
2026-03-03 02:30:22
牛鬼蛇神現(xiàn)原形!周煒當(dāng)選會長還不到3天,惡心的一幕出現(xiàn)了

牛鬼蛇神現(xiàn)原形!周煒當(dāng)選會長還不到3天,惡心的一幕出現(xiàn)了

開著車去流浪
2026-02-10 02:58:51
心酸!女子年后回娘家被趕出門后續(xù): 原因曝光令人憤怒,評論淪陷

心酸!女子年后回娘家被趕出門后續(xù): 原因曝光令人憤怒,評論淪陷

離離言幾許
2026-03-02 17:19:50
中方呼吁美以立即停止對伊軍事行動

中方呼吁美以立即停止對伊軍事行動

看看新聞Knews
2026-03-01 12:31:25
超2萬名旅客滯留迪拜!外交部提醒

超2萬名旅客滯留迪拜!外交部提醒

看看新聞Knews
2026-03-02 14:27:08
特朗普同意對話,以色列卻再撂狠話,美以聯(lián)合行動能持續(xù)多久?

特朗普同意對話,以色列卻再撂狠話,美以聯(lián)合行動能持續(xù)多久?

新民晚報
2026-03-02 10:32:41
“大學(xué)女兒非要買LV”視頻火了,網(wǎng)友:窮人穿上龍袍也不像太子

“大學(xué)女兒非要買LV”視頻火了,網(wǎng)友:窮人穿上龍袍也不像太子

妍妍教育日記
2026-02-25 21:18:14
中英香港談判中方為何吃暗虧?因我方出內(nèi)鬼,6年后中央布局抓捕

中英香港談判中方為何吃暗虧?因我方出內(nèi)鬼,6年后中央布局抓捕

阿胡
2024-10-11 16:54:21
沉默整整9天,毛寧一錘定音,中美戰(zhàn)機已交手,美方要見中國代表

沉默整整9天,毛寧一錘定音,中美戰(zhàn)機已交手,美方要見中國代表

boss外傳
2026-03-02 00:00:04
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

八斗小先生
2025-12-26 09:33:27
2026-03-03 06:04:49
小樂數(shù)學(xué)科普 incentive-icons
小樂數(shù)學(xué)科普
zzllrr小樂,小樂數(shù)學(xué)科普,讓前沿數(shù)學(xué)流行起來~
251文章數(shù) 7關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

家居
旅游
親子
教育
軍事航空

家居要聞

萬物互聯(lián) 享科技福祉

旅游要聞

不用遠(yuǎn)行!重慶家門口的花海,治愈所有疲憊

親子要聞

開學(xué)了!珠海香洲:筑牢安全防線,保障托育機構(gòu)順利開園復(fù)托

教育要聞

高考地理中的侵蝕類地貌

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進(jìn)入關(guān)懷版