国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

震撼!OpenAI神秘模型連破6道前沿難題,奧特曼:AI在造「新知識(shí)」

0
分享至


新智元報(bào)道

編輯:犀牛

【新智元導(dǎo)讀】OpenAI首席科學(xué)家震撼爆料,其神秘內(nèi)部模型僅憑一周成功攻克了10道未發(fā)表頂尖數(shù)學(xué)難題中的6道。這一名為First Proof的挑戰(zhàn)標(biāo)志著AI已從奧賽選手進(jìn)化為前沿知識(shí)的創(chuàng)造者,奧特曼更直言STEM研究范式將被徹底重塑。

還記得兩年前,AI只能磕磕絆絆地解出一道小學(xué)奧數(shù)題。

今天,讀完這篇文章時(shí),你可能會(huì)感到一種深入骨髓的戰(zhàn)栗。

因?yàn)槟莻€(gè)曾經(jīng)蹣跚學(xué)步的「孩子」,在剛剛過(guò)去的一周里,不僅學(xué)會(huì)了奔跑,還一腳踢開(kāi)了人類(lèi)智力皇冠上最堅(jiān)固的那扇門(mén)——前沿?cái)?shù)學(xué)研究。

就在剛剛,OpenAI首席科學(xué)家Jakub Pachocki在X上扔出了一顆重磅炸彈——

「我們用內(nèi)部模型對(duì)10道前沿?cái)?shù)學(xué)研究題發(fā)起挑戰(zhàn),在僅有少量人工監(jiān)督的情況下,至少6道的解答有很高概率是正確的?!?/strong>


隨后,奧特曼親自轉(zhuǎn)發(fā)并感慨:「我們從AI連小學(xué)數(shù)學(xué)都做不好,到AI能解決研究級(jí)別的數(shù)學(xué)問(wèn)題,只用了短短幾年?!?/p>


奧特曼以一貫的輕描淡寫(xiě)風(fēng)格加了一句:「我也相當(dāng)確定,大家的主要反應(yīng)會(huì)是『也沒(méi)那么難嘛』。」

嗯,典型的奧式凡爾賽。

奧特曼甚至表示,AI已經(jīng)有了產(chǎn)生新知識(shí)的能力!


OpenAI總裁Brockman也轉(zhuǎn)發(fā)表示振奮!


確實(shí),這不是奧數(shù)競(jìng)賽題,不是考研真題,不是任何已經(jīng)有標(biāo)準(zhǔn)答案的東西。

這是11位世界頂級(jí)數(shù)學(xué)家剛剛從自己的研究中挖出來(lái)、答案從未公開(kāi)過(guò)的前沿問(wèn)題。

人類(lèi)專(zhuān)家自己解這些題,每道也需要好幾天,甚至更久。

而OpenAI一個(gè)還沒(méi)公開(kāi)的神秘模型,一周搞定了其中大部分。

這到底是怎么回事?

一場(chǎng)硬核的數(shù)學(xué)考試

故事要從2月6日說(shuō)起。

那天,來(lái)自斯坦福大學(xué)、哥倫比亞大學(xué)、哈佛大學(xué)、耶魯大學(xué)、洛桑聯(lián)邦理工學(xué)院等頂尖機(jī)構(gòu)的11位數(shù)學(xué)家,聯(lián)合發(fā)布了一篇名為「First Proof」(首次發(fā)酵)的論文。


這個(gè)名字本身就很有意思——在烘焙中,「first proof」指的是面團(tuán)的第一次整體發(fā)酵,在分割成型之前讓它慢慢膨脹。

數(shù)學(xué)家們把這次實(shí)驗(yàn)比作面團(tuán)發(fā)酵:先把問(wèn)題撒出去,讓AI和社區(qū)一起「醒發(fā)」。

這11位出題人來(lái)頭可不小。

其中Martin Hairer是2014年菲爾茲獎(jiǎng)得主,Daniel Spielman是耶魯大學(xué)的譜圖論大牛,Lauren Williams是哈佛大學(xué)的代數(shù)組合學(xué)權(quán)威。


Martin Hairer

他們每人貢獻(xiàn)了一道(或參與出了一道)從自己正在進(jìn)行的研究中抽出來(lái)的真問(wèn)題。

這10道題覆蓋了數(shù)學(xué)中極為廣泛的領(lǐng)域:代數(shù)組合、譜圖論、代數(shù)拓?fù)洹㈦S機(jī)分析、辛幾何、表示論、李群中的格、張量分析、數(shù)值線(xiàn)性代數(shù)。


網(wǎng)站地址:https://1stproof.org/

每一道題的證明長(zhǎng)度大約在五頁(yè)左右——這不是那種需要幾百頁(yè)論文才能搞定的世紀(jì)難題,而是數(shù)學(xué)家在研究過(guò)程中遇到的「引理」(lemma),也就是通往更大定理路上的一塊關(guān)鍵墊腳石。

換句話(huà)說(shuō),這是一個(gè)優(yōu)秀研究生可能需要苦苦琢磨一段時(shí)間的那種日常級(jí)研究任務(wù)。

關(guān)鍵是,這些問(wèn)題的答案從未在互聯(lián)網(wǎng)上出現(xiàn)過(guò)。

沒(méi)有發(fā)表過(guò),沒(méi)有在任何會(huì)議上講過(guò),沒(méi)有出現(xiàn)在任何公開(kāi)場(chǎng)合。

答案被加密后上傳到了1stproof.org。

這意味著,AI模型不可能通過(guò)檢索訓(xùn)練數(shù)據(jù)來(lái)作弊。

數(shù)學(xué)家們的目標(biāo)很明確:我們不想再看AI做奧數(shù)題了,我們想知道,AI到底能不能做真正的數(shù)學(xué)研究。

OpenAI的瘋狂一周

消息一出,整個(gè)AI圈和數(shù)學(xué)圈都炸了。

斯坦福大學(xué)數(shù)學(xué)教授、First Proof團(tuán)隊(duì)成員Mohammed Abouzaid后來(lái)坦言:「我們完全沒(méi)想到會(huì)引發(fā)這么大的動(dòng)靜,更沒(méi)想到AI公司會(huì)這么認(rèn)真地投入資源來(lái)做這件事。」

其中最引人注目的參賽者,當(dāng)然是OpenAI。

根據(jù)Jakub Pachocki的描述,這并不是OpenAI傾巢出動(dòng)的大會(huì)戰(zhàn),而是一次「Side-sprint」(副業(yè)沖刺)。

就像是工程師們?cè)谖缧輹r(shí)間順手搞的一個(gè)測(cè)試。

他們使用的是一個(gè)內(nèi)測(cè)模型。

不是GPT-5.2,不知道它是不是GPT-6,還是某種更激進(jìn)的架構(gòu)。

這個(gè)模型在「有限的人工監(jiān)督」下工作:OpenAI沒(méi)有向模型提供數(shù)學(xué)思路或解題建議,但在某些解答上,根據(jù)專(zhuān)家反饋要求模型進(jìn)行了擴(kuò)展和補(bǔ)充。

他們還手動(dòng)安排了這個(gè)內(nèi)部模型與ChatGPT之間的對(duì)話(huà),用于驗(yàn)證、排版和風(fēng)格潤(rùn)色。

對(duì)于部分問(wèn)題,他們從幾次嘗試中按照人類(lèi)判斷選出了最優(yōu)解。

最終,OpenAI在2月13日提交了一份67頁(yè)的PDF,包含了對(duì)全部10道題的解答嘗試。

Pachocki自信地宣布:至少6道解答(第2、4、5、6、9、10題)有很高概率是正確的。


文檔地址:https://cdn.openai.com/pdf/a430f16e-08c6-49c7-9ed0-ce5368b71d3c/1stproof_oai.pdf

OpenAI的另一位核心研究者Noam Brown也在社交媒體上高調(diào)喊話(huà):「去年夏天IMO的結(jié)果公布時(shí),有些人不以為然,說(shuō)那只是高中數(shù)學(xué)。我們認(rèn)為我們最新的模型將消除一切懷疑——STEM研究即將發(fā)生根本性變革。


Noam Brown還在文中承諾,他們很快會(huì)發(fā)布這個(gè)新模型。

真相比宣傳復(fù)雜得多

2月14日,F(xiàn)irst Proof團(tuán)隊(duì)公布了全部10道題的正式答案,并發(fā)布了他們自己用公開(kāi)AI模型(GPT-5.2 Pro和Gemini 3.0 Deepthink)測(cè)試這些題目的經(jīng)驗(yàn)報(bào)告。


有趣的是,官方論文中可能出現(xiàn)了一個(gè)小錯(cuò)誤。

這里應(yīng)該是2026,不是2025。


不過(guò),這都不重要。

我們來(lái)看結(jié)論。

結(jié)論相當(dāng)冷峻:在單次嘗試的情況下,公開(kāi)可用的最強(qiáng)AI模型只答對(duì)了2道題——第9題(張量代數(shù)關(guān)系)和第10題(核化CP-ALS子問(wèn)題)。

而且第9題還存在疑似「數(shù)據(jù)污染」問(wèn)題——一個(gè)幾乎等價(jià)的證明已經(jīng)存在于已有文獻(xiàn)中。

第1題也被發(fā)現(xiàn)受到了污染,出題人Hairer網(wǎng)站上曾經(jīng)有一個(gè)證明草稿的存檔,但即便如此,AI也沒(méi)能填上其中的關(guān)鍵缺口。

更耐人尋味的是Abouzaid對(duì)AI產(chǎn)出風(fēng)格的評(píng)價(jià):「我看到的AI給出的正確解答,有一種19世紀(jì)數(shù)學(xué)的味道。但我們要構(gòu)建的是21世紀(jì)的數(shù)學(xué)?!?/strong>

那么OpenAI自稱(chēng)的「6道很可能正確」到底怎么樣了?

事態(tài)很快出現(xiàn)了戲劇性轉(zhuǎn)折。

論文發(fā)布不到一天,數(shù)學(xué)社區(qū)就開(kāi)始對(duì)OpenAI的解答進(jìn)行逐題審查。

Pachocki自己很快更新了聲明,承認(rèn)第2題(關(guān)于扭曲局部Rankin-Selberg積分的非消沒(méi)檢驗(yàn)向量)的解答「很可能不正確」。


社區(qū)的獨(dú)立評(píng)審則進(jìn)一步發(fā)現(xiàn),第5題(關(guān)于等變穩(wěn)定范疇的O-適應(yīng)切片濾過(guò))和第7題(關(guān)于Q-無(wú)環(huán)萬(wàn)有覆疊的均勻格)的解答也存在嚴(yán)重漏洞。

到目前為止,根據(jù)《科學(xué)美國(guó)人》的報(bào)道以及社區(qū)數(shù)學(xué)家的獨(dú)立評(píng)判,比較確定正確的是第4題(有限加法卷積的調(diào)和平均不等式)、第8題(四價(jià)多面體拉格朗日曲面的光滑化)、第9題和第10題。


其余幾道仍在審查中,但整體來(lái)看,OpenAI的實(shí)際命中率很可能低于其最初宣稱(chēng)的六成。

依然是一個(gè)歷史時(shí)刻

盡管真實(shí)成績(jī)可能沒(méi)有OpenAI宣傳的那么輝煌,但我們不應(yīng)因此低估這件事的歷史意義。

哪怕最終確認(rèn)只有3到4道題被正確解答,這也意味著一個(gè)AI,在面對(duì)從未見(jiàn)過(guò)的、真正前沿的數(shù)學(xué)研究問(wèn)題時(shí),能在一周之內(nèi)獨(dú)立(或半獨(dú)立地)給出嚴(yán)格的數(shù)學(xué)證明。

這在幾年前是完全不可想象的事情。

2022年,當(dāng)時(shí)ChatGPT還經(jīng)常在分?jǐn)?shù)加減法上犯錯(cuò)。

2024年,AI開(kāi)始能解一些競(jìng)賽數(shù)學(xué)題。

2025年夏天,OpenAI的模型在國(guó)際數(shù)學(xué)奧林匹克上拿到金牌成績(jī)。

而現(xiàn)在——2026年2月——AI正在嘗試解答人類(lèi)數(shù)學(xué)家正在研究的、從未發(fā)表過(guò)的原創(chuàng)問(wèn)題。

從小學(xué)算術(shù)到前沿研究,這條路走了不到四年。

這個(gè)速度,才是真正讓人心跳加速的地方。

更值得關(guān)注的是那些被AI做對(duì)了的題目。

比如第4題,關(guān)于有限加法卷積中Φ_n函數(shù)的調(diào)和平均不等式——這需要一系列精巧的線(xiàn)性代數(shù)操作、對(duì)雙隨機(jī)矩陣的深刻理解、以及Jensen不等式的巧妙應(yīng)用。

OpenAI的模型寫(xiě)出了一個(gè)自包含的23頁(yè)證明,邏輯鏈條完整,最終被專(zhuān)家確認(rèn)為正確。


一個(gè)AI,獨(dú)立完成了一篇可以發(fā)表在數(shù)學(xué)期刊上的研究級(jí)證明。

這不是做題,這就是做研究。

數(shù)學(xué)家要失業(yè)了嗎?

至少現(xiàn)在,還不會(huì)。

《科學(xué)美國(guó)人》在報(bào)道這次事件時(shí)給出的判斷很直接:「AI目前還不能取代數(shù)學(xué)家?!?/strong>


為什么?

因?yàn)閿?shù)學(xué)研究遠(yuǎn)不止「證明一個(gè)已知問(wèn)題」這一個(gè)環(huán)節(jié)。

真正的數(shù)學(xué)研究包括:發(fā)現(xiàn)值得研究的問(wèn)題、創(chuàng)造新的概念和定義、構(gòu)建新的理論框架——然后才是證明。

First Proof測(cè)試的只是最后一步,也是最機(jī)械化的一步。

而在前面那些需要真正的洞察力、審美判斷和開(kāi)創(chuàng)性想象的環(huán)節(jié),AI目前連門(mén)都還沒(méi)摸到。

但奧特曼說(shuō)的也沒(méi)錯(cuò):速度是關(guān)鍵變量。

如果AI從做不了小學(xué)數(shù)學(xué)到能碰前沿研究只用了四年。

那再過(guò)四年呢?

有趣的是,一些頂尖數(shù)學(xué)家已經(jīng)開(kāi)始用腳投票。

哥倫比亞大學(xué)的數(shù)學(xué)天才Ashwin Sawhney從學(xué)術(shù)界休假加入了OpenAI。意大利數(shù)學(xué)家Pagano則去了Google DeepMind。

他們的理由出奇一致:「很明顯這將改變我們做數(shù)學(xué)的方式,與其以后被動(dòng)適應(yīng),不如趁早參與。」

面團(tuán)還在發(fā)酵

First Proof團(tuán)隊(duì)已經(jīng)宣布,他們將在3月14日(恰好是π日)發(fā)布更多細(xì)節(jié)和分析,并計(jì)劃在未來(lái)幾個(gè)月內(nèi)發(fā)布第二批問(wèn)題——附帶更嚴(yán)格的評(píng)判標(biāo)準(zhǔn)和更完善的規(guī)則。

他們甚至愿意與AI公司簽訂協(xié)議,在問(wèn)題公開(kāi)前進(jìn)行受控測(cè)試。


這不是一場(chǎng)考試的結(jié)束,而是一個(gè)新時(shí)代的開(kāi)始。

數(shù)學(xué)——這門(mén)人類(lèi)最古老、最純粹的智力活動(dòng)——正在第一次面臨一個(gè)真正的對(duì)話(huà)伙伴。

這個(gè)伙伴有時(shí)胡說(shuō)八道,有時(shí)又驚人地深刻。

它會(huì)用19世紀(jì)的語(yǔ)言說(shuō)話(huà),但運(yùn)算速度是21世紀(jì)的。

它還不能代替數(shù)學(xué)家思考,但它已經(jīng)可以在某些關(guān)鍵節(jié)點(diǎn)上為數(shù)學(xué)家分擔(dān)工作。

面團(tuán)還在發(fā)酵。

我們已經(jīng)聞到面包的香味了。

參考資料:

https://x.com/merettm/status/2022517085193277874

https://x.com/polynoamial/status/2022527227049742779

https://x.com/sama/status/2022729068949717182

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“80后”廳官王正儒,被查!

“80后”廳官王正儒,被查!

阜陽(yáng)發(fā)布
2026-02-25 20:18:18
劉強(qiáng)東稱(chēng)已接到5條大型游艇訂單,每艘平均賣(mài)6000萬(wàn)歐元

劉強(qiáng)東稱(chēng)已接到5條大型游艇訂單,每艘平均賣(mài)6000萬(wàn)歐元

第一財(cái)經(jīng)資訊
2026-02-25 18:38:04
鄭欽文新教練敲定?與里巴分道揚(yáng)鑣被球迷炮轟:眼露兇光薄情寡義

鄭欽文新教練敲定?與里巴分道揚(yáng)鑣被球迷炮轟:眼露兇光薄情寡義

搏擊江湖
2026-02-25 19:51:44
1950 年胡蘭成獲北京當(dāng)官邀請(qǐng),行至上海醒悟,連夜偷渡日本保命

1950 年胡蘭成獲北京當(dāng)官邀請(qǐng),行至上海醒悟,連夜偷渡日本保命

磊子講史
2026-02-05 09:14:45
“13萬(wàn)元奢侈品被15歲女兒9300元賤賣(mài)”最新消息:新人物出現(xiàn),家長(zhǎng)與回收方達(dá)成初步協(xié)議

“13萬(wàn)元奢侈品被15歲女兒9300元賤賣(mài)”最新消息:新人物出現(xiàn),家長(zhǎng)與回收方達(dá)成初步協(xié)議

極目新聞
2026-02-25 21:24:20
1984年,李訥回韶山,接待處登記簿上,她為何把名字寫(xiě)成別人的?

1984年,李訥回韶山,接待處登記簿上,她為何把名字寫(xiě)成別人的?

柳絮憶史
2026-02-26 09:22:33
火箭大勝!杜蘭特21+4+5,賽后老范抱住德羅贊,小謝接受采訪(fǎng)

火箭大勝!杜蘭特21+4+5,賽后老范抱住德羅贊,小謝接受采訪(fǎng)

擔(dān)酒
2026-02-26 11:21:36
浴缸陪睡只是冰山一角,多位助理服務(wù)明星方式曝光,一個(gè)個(gè)太離譜

浴缸陪睡只是冰山一角,多位助理服務(wù)明星方式曝光,一個(gè)個(gè)太離譜

完善法
2026-02-26 01:16:24
東契奇驚人數(shù)據(jù):最后時(shí)刻關(guān)鍵球0出手 與老詹同場(chǎng)輸82分全隊(duì)最差

東契奇驚人數(shù)據(jù):最后時(shí)刻關(guān)鍵球0出手 與老詹同場(chǎng)輸82分全隊(duì)最差

羅說(shuō)NBA
2026-02-26 07:16:22
傅作義的女兒,曾為和平解放北平立下了功勞,后來(lái)結(jié)局怎么樣?

傅作義的女兒,曾為和平解放北平立下了功勞,后來(lái)結(jié)局怎么樣?

歷史龍?jiān)w
2026-02-25 11:10:09
比電子布還猛!光纖價(jià)格飆漲80%   這7大寡頭迎戴維斯雙擊

比電子布還猛!光纖價(jià)格飆漲80% 這7大寡頭迎戴維斯雙擊

元芳說(shuō)投資
2026-02-26 06:00:08
看看狀元張謇的殿試卷,這才叫書(shū)法,清帝退位詔書(shū)也是他寫(xiě)的!

看看狀元張謇的殿試卷,這才叫書(shū)法,清帝退位詔書(shū)也是他寫(xiě)的!

芊芊子吟
2026-02-25 11:30:03
朝鮮“新星女將軍”金主愛(ài):下一代領(lǐng)導(dǎo)者?她頻頻露面原因?yàn)楹危?>
    </a>
        <h3>
      <a href=洞鑒歷史
2024-04-24 15:10:54
75歲老人全新養(yǎng)老方式:不請(qǐng)保姆不去養(yǎng)老院,成本小老人舒心

75歲老人全新養(yǎng)老方式:不請(qǐng)保姆不去養(yǎng)老院,成本小老人舒心

孢木情感
2026-02-21 12:15:25
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
古巴高調(diào)反美!美國(guó)為啥不打古巴?因?yàn)楣虐褪亲睢跋冗M(jìn)”的國(guó)家

古巴高調(diào)反美!美國(guó)為啥不打古巴?因?yàn)楣虐褪亲睢跋冗M(jìn)”的國(guó)家

南宮一二
2026-01-10 17:41:19
美媒:20歲華裔選手粉絲數(shù)遠(yuǎn)超谷愛(ài)凌 她拒絕中國(guó)招募 對(duì)美國(guó)忠誠(chéng)

美媒:20歲華裔選手粉絲數(shù)遠(yuǎn)超谷愛(ài)凌 她拒絕中國(guó)招募 對(duì)美國(guó)忠誠(chéng)

念洲
2026-02-25 11:46:11
總出問(wèn)題的馬拉松兔子,還有必要存在嗎

總出問(wèn)題的馬拉松兔子,還有必要存在嗎

江湖馬拉松
2026-02-25 22:32:59
解放臺(tái)灣需要多久?解放軍中將給出準(zhǔn)確答案

解放臺(tái)灣需要多久?解放軍中將給出準(zhǔn)確答案

阿七說(shuō)體育
2026-02-25 13:19:06
真正的“逆齡運(yùn)動(dòng)”,堅(jiān)持一年大腦年輕2.3歲!不是跑步、走路……

真正的“逆齡運(yùn)動(dòng)”,堅(jiān)持一年大腦年輕2.3歲!不是跑步、走路……

人民日?qǐng)?bào)健康客戶(hù)端
2026-02-25 07:34:27
2026-02-26 13:48:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14594文章數(shù) 66644關(guān)注度
往期回顧 全部

科技要聞

單季營(yíng)收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

賴(lài)清德改口稱(chēng)“大陸”被指釋出善意 國(guó)民黨發(fā)言人表態(tài)

頭條要聞

賴(lài)清德改口稱(chēng)“大陸”被指釋出善意 國(guó)民黨發(fā)言人表態(tài)

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂(lè)要聞

尼格買(mǎi)提撒貝寧滑雪被偶遇 17年老友情

財(cái)經(jīng)要聞

短劇市場(chǎng)風(fēng)云突變!有人投百萬(wàn)賠得精光

汽車(chē)要聞

第五代宏光MINIEV煥新 四門(mén)玩趣代步車(chē)來(lái)襲

態(tài)度原創(chuàng)

游戲
房產(chǎn)
旅游
本地
數(shù)碼

PS港服三月會(huì)免來(lái)了!怪獵崛起 史萊姆牧場(chǎng)2等

房產(chǎn)要聞

2.2萬(wàn)/m2起!三亞主城性?xún)r(jià)比標(biāo)桿 海墾·桃花源實(shí)景現(xiàn)房春節(jié)被瘋搶

旅游要聞

水潤(rùn)壽鄉(xiāng) 文旅煥新——眉山市彭山區(qū)擘畫(huà)現(xiàn)代化都市圈文旅融合新圖景

本地新聞

津南好·四時(shí)總相宜

數(shù)碼要聞

華碩靈耀14雙屏2026筆記本上市:Ultra X9 388H,14999元起

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版