国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌AI攻克6道世界級難題,比IMO金牌更震撼!陶哲軒指明新玩法

0
分享至


新智元報道

編輯:定慧 好困

【新智元導讀】Google DeepMind最新AI智能體Aletheia在FirstProof挑戰(zhàn)賽中,獨立攻克了6道世界級數(shù)學難題,實現(xiàn)了從競賽水平到PhD科研級的質(zhì)變。人類數(shù)學研究的「手工時代」或許正步入倒計時。

剛剛,人類數(shù)學界最后的防線,宣告全面崩塌!

連吃瓜群眾都驚掉下巴:AI不僅會做題,現(xiàn)在居然已經(jīng)能獨立搞定PhD級別的純粹數(shù)學研究了。

就在這兩天,谷歌DeepMind的最新AI研究智能體Aletheia,在數(shù)學界一場名為「FirstProof」的巔峰挑戰(zhàn)賽中,一口氣干掉了10道公認的世界級未解數(shù)學難題中的6道!

DeepMind的高管Thang Luong在X上難掩激動地發(fā)帖:

「對我而言,這甚至比去年歷史性拿下IMO金牌的成就意義還要重大!」


這可不是什么普通的數(shù)學競賽。要知道,這些題目連全球最頂尖的數(shù)學家都感到極度棘手。


結(jié)果,Aletheia不僅自主算出了答案,甚至連提出其中第7題猜想的數(shù)學家Jim Fowler本人,都親自出面蓋章確認:

「AI的解題過程,是完全正確的!


就連當今世界最杰出的天才數(shù)學家陶哲軒,都在最新的訪談中表示:AI,已經(jīng)成為了我的「初級合著者」。


Aletheia的「神之一手」:暴力推演

Aletheia到底有多厲害呢?

來看看谷歌DeepMind首席科學家兼研究主任,超級推理團隊負責人Thang Luong怎么說:

「超級激動!我們的數(shù)學科研AI智能體 #Aletheia,剛剛?cè)灾鹘獬隽?0道出了名變態(tài)難的FirstProof挑戰(zhàn)題里的6道,直接拿下了首屆全場最佳!」

大家品品這句話的分量。

Luong直言不諱:

「在我看來,這甚至比咱們?nèi)ツ赀_到IMO(國際奧數(shù))金牌水平的歷史性時刻,含金量還要高得多!

因為這些題,是連當今世界上最頂尖的幾位數(shù)學大佬都感到極度頭疼的「超級硬骨頭」。

這次,DeepMind跑了兩個基于Gemini 3 DeepThink打造的Aletheia版本(區(qū)別僅在于底層模型不同)。

經(jīng)過多數(shù)專家的交叉「會診」,它們聯(lián)手干掉了10道題里的6道(分別是第2、5、7、8、9、10題)。


要知道,這套題的判卷評估環(huán)節(jié)簡直是地獄難度。

因為這世界上能看懂其中這幾道題的專家,都已經(jīng)是鳳毛麟角。

但也正因如此,DeepMind的研究過程嚴謹?shù)搅私跗珗?zhí)的地步:

整個解答過程純靠機器自己跑,全程「零人工干預」,而且完完全全是在FirstProof規(guī)定的死線內(nèi)提交的。

這是一個里程碑式的時刻。

不再是人類一步步喂算式,而是AI智能體已經(jīng)學會了趴在一個極端復雜的科研難題上「死磕」很久,在幾千條死胡同里撞南墻,最后跑回來向人類淡淡匯報一句:「我搞定了(或者搞砸了)!

DeepMind甚至把Aletheia在這個過程中燒掉的算力(推理成本)做了完整的可視化——


其中最炸裂的,莫過于第7題(P7)的驚天翻盤。

這是一道好幾年都沒人能解開的非典型難題。

據(jù)該領(lǐng)域?qū)<襎ony Feng透露,在這次比賽里,除了Aletheia,根本沒AI能接近正確答案。


剛開始跑的時候,連DeepMind團隊自己都覺得Aletheia這次肯定沒戲了,結(jié)果居然跑出了正確答案!

為了攻克P7,Aletheia投入了海量算力——是當初解開Erd?s-1051問題時的整整16倍!

數(shù)學界權(quán)威Sang Hyun Kim在看完AI的解題步驟后,給出了極高評價:

「這是我有史以來第一次,看到AI完美無瑕地串聯(lián)運用了好幾個極其深奧的數(shù)學定理。這絕對是一個獨一無二的稀有案例!

關(guān)于DeepMind對FirstProof的解讀和實驗細節(jié)全放這了:


論文地址:https://arxiv.org/abs/2602.21201

不胡說八道,才是AI最硬核的底氣

如果深挖DeepMind這篇論文,你會發(fā)現(xiàn)Aletheia之所以這么穩(wěn),根本原因在于它掌握了一項關(guān)鍵技能:「自我過濾」

傳統(tǒng)的AI大模型有個臭毛病,就是不懂裝懂(幻覺)。

不管你問啥,它都會一本正經(jīng)地給你編個答案。

但在科研級別的高端局,如果你給數(shù)學家扔一堆看起來極其合理但經(jīng)不起推敲的廢料,那還不如不給。

DeepMind是怎么解決這個問題的呢?

他們給Aletheia體內(nèi)設(shè)計了兩個「次級人格」:

一個是「生成者(Generator)」,專門負責大開腦洞,瘋狂猜想解題路徑;另一個是冷血無情的「驗證者(Verifier)」,專門負責給「生成者」挑刺。


在解題的黑箱里,這兩個子系統(tǒng)會瘋狂互搏。

當遇到那4道解不出來的問題時,Aletheia沒有選擇強行胡編亂造蒙混過關(guān),而是直接給人類發(fā)出:「No solution found(未找到解法)」,或者到了時限直接閉嘴。


不胡編亂造,絕不在沒有把握的地方瞎耗人類專家的精力——這正是Aletheia最讓頂尖學者放心的地方。

正如論文中所寫:「為了提升準確率,我們寧愿犧牲它解答某些問題的能力!

而在解題成本上,除了P7那道耗費16倍算力的「神題」,其他幾道題解決下來,耗費的「腦力」也都遠遠超出了去年解決Erd?s-1051難題的極值。

想看完整的交互日志和解題過程(對的錯的,原汁原味全公開),直接戳這里:


GitHub地址:

https://github.com/google-deepmind/superhuman/tree/main/aletheia

Aletheia到底手撕了哪些「變態(tài)難題」?

先來看看特地提到的P7。


問題背景:代數(shù)拓撲/微分幾何。判斷包含二階扭轉(zhuǎn)元素的半單李群均勻格,能否作為某個萬有覆蓋在有理同調(diào)下無圈的緊致無邊界流形的基本群。

答案:不可能。

AI神仙解法

證明思路一:純拓撲方法(Lefschetz數(shù)矛盾)

利用萬有覆蓋Q-無圈的條件,算出2階元素γ的緊支持Lefschetz數(shù)必須非零;但γ是自由作用的(沒有不動點),通過歐拉示性數(shù)的乘性又推出Lefschetz數(shù)必須為零。0 = ±1,矛盾。

證明思路二:幾何方法(對稱空間的剛性)

利用格的幾何結(jié)構(gòu),構(gòu)造萬有覆蓋到對稱空間的等變映射,證明γ在兩邊的Lefschetz數(shù)必須相等。但在萬有覆蓋一側(cè)為零(自由作用),在對稱空間一側(cè)非零(Cartan不動點定理保證有不動點)。再次矛盾。

好在哪?

證明一好在「少」。題目給了一堆條件,但全都沒用。只靠最基礎(chǔ)的拓撲工具就解決了問題,而且實際證明了一個更強的結(jié)論:任何含扭轉(zhuǎn)的離散群都不行。鏈條極短:算Lefschetz數(shù),一邊非零一邊為零,矛盾,結(jié)束。

證明二好在「深」。它把題目給的幾何條件全部用上了,構(gòu)造了萬有覆蓋到對稱空間的映射,最終在對稱空間上用Cartan不動點定理找到矛盾。這條路更長,但回答了更本質(zhì)的問題。。


問題背景:數(shù)論/表示論。在非阿基米德局部域上的矩陣群表示中,證明存在一個萬能的Whittaker函數(shù),使得局部Rankin–Selberg積分對所有配對表示都非零。

答案:可以。 存在這樣的「萬能」W。

AI神仙解法:

先選一個特殊的Whittaker函數(shù)W,使積分域壓縮到緊集上,復參數(shù)s完全消失,問題簡化為證明一個有限泛函非零。然后用反證法:假設(shè)對所有V都為零,通過有限Fourier分析推出測試函數(shù)具有「平移不變性」,這會迫使表示π在一個比其導子更粗的子群下有不變向量,與導子的定義矛盾。

好在哪?

整個證明最關(guān)鍵的就是第一步選取Whittaker函數(shù)W。這一個選擇同時做到了三件事:1)把積分域壓縮到緊集上,2)消去了復參數(shù)s,3)把無窮維的解析問題變成有限維的代數(shù)問題。而且這個W不依賴于配對表示π——同一個選擇對所有π都管用,這在表示論里非常稀有。

反證法部分的「level lowering」也很精彩:假設(shè)泛函恒為零,通過有限Fourier分析逐步推出測試函數(shù)在模p^{c-1}下不變,但π的導子恰好是p^c,這個層級上不可能有不變向量。矛盾恰好卡在導子的定義上,一步不多一步不少。

對于其他題目,感興趣的讀者可自行查閱論文和GitHub項目。

人類出題的速度,已經(jīng)快跟不上了

為什么偏偏是數(shù)學,成了檢驗AI實力的終極擂臺?

道理很簡單——數(shù)學的答案非黑即白,對就是對、錯就是錯,沒有任何讓人類「手下留情」打人情分的空間。

但現(xiàn)在的問題是:出卷的速度,已經(jīng)被答卷的速度按在地上摩擦了。


2024年11月,Epoch AI上線了FrontierMath評測基準,專門用來摸底最前沿AI的數(shù)學推理能力。

剛上線時最強AI連2%的題都做不出來,結(jié)果到了今天,GPT-5.2和Claude Opus 4.6已經(jīng)能搞定基礎(chǔ)題庫40%以上的題目,連50道終極難度的第4級挑戰(zhàn)題,正確率也突破了30%。



不過,F(xiàn)rontierMath再難,本質(zhì)上還是「人類已有標準答案,看AI能不能也做出來」,說白了還是考試。

但FirstProof里的10道題,是11位頂尖數(shù)學家從自己真實科研中掏出來的、從未公開發(fā)表過的難題。


項目主頁:https://1stproof.org/

而且這場挑戰(zhàn)賽的結(jié)局充滿戲劇性。


  • 2月6日題目放出后,專業(yè)學者、民間高手、各大AI實驗室紛紛下場。

  • 到2月14日揭曉答案時,沒有任何人或團隊全部拿下。

  • 隨后,出題者自己拿Gemini 3.0 Deep Think和ChatGPT 5.2 Pro跑了一輪,也只解出了2道。

  • 最終,OpenAI最強內(nèi)部系統(tǒng)在有限人類監(jiān)督下解出5道。


對比之下,足以見得這次Aletheia「零人工」干預做出6道題的含金量有多高。

數(shù)學圈對此五味雜陳:一部分人直呼逆天,另一部分人覺得10道還剩4道沒解,離替代數(shù)學家還遠。

但一個不可逆轉(zhuǎn)的趨勢已經(jīng)擺在所有人面前——

我們需要更難的題庫來測AI,而且動作必須快,因為現(xiàn)有的一切正在以肉眼可見的速度過期。

Epoch AI顯然也意識到了這一點。

就在FirstProof開賽同期,他們放出了自己的大招——FrontierMath: Open Problems。






左右滑動查看

這個全新題庫收錄了16道專業(yè)數(shù)學家死磕過但至今全軍覆沒的真正未解之謎。

更絕的是,雖然沒有標準答案,Epoch AI卻給每道題寫了自動評分程序來判斷AI的解是否成立。

上線至今,沒有任何AI解出哪怕一道——這個「零分」現(xiàn)狀,反而恰恰證明了題庫的價值所在。


FirstProof團隊也沒打算收手,已經(jīng)官宣3月14日推出難度更變態(tài)的第二輪挑戰(zhàn)。


陶哲軒:AI是我的「初級合著者」

那么,站在數(shù)學界絕對頂峰的人,到底怎么看這場風暴?

在最新訪談中,陶哲軒給出了一個極其精準的定位:AI現(xiàn)在是他的「初級合著者」。

他2023年曾預測到2026年AI能達到論文合著者水平,當時褒貶不一,現(xiàn)在看進度完全吻合甚至略有超前。


而比這個頭銜更重要的,是陶哲軒描述的一種全新的數(shù)學研究范式。

他說,傳統(tǒng)數(shù)學研究像是「個案研究」,一篇論文揪著一兩個問題往死里磕,這是數(shù)學家?guī)装倌陙淼墓ぷ鞣绞。但AI正在讓數(shù)學家第一次有能力做「大樣本普查」。

與此同時,數(shù)學研究中有大量極其繁瑣的計算是人類極其討厭做的,所以數(shù)學家們會絞盡腦汁想聰明辦法繞過去。但AI不嫌煩,它樂意不知疲倦地把這些枯燥的推演全部跑完。

當AI被整合進人類的工作流,這些曾經(jīng)讓人望而卻步的障礙就直接被跨過去了。

而在另一個維度上,AI還展現(xiàn)出一種獨特的本事——它能系統(tǒng)性地掃描人類根本沒精力去碰的問題長尾。

以埃爾德什留下的1000多個數(shù)學問題為例,AI能把它們從頭到尾過一遍,從中挑出可突破的題目逐個擊破。

人類不可能這么干,但AI可以,而且已經(jīng)在這么干了。

陶哲軒甚至承認自己從AI的解題過程里學到了東西:

也許它用到了某篇1960年論文里我沒見過的小技巧,它能做到那些人類專家看了一眼就懶得去試的事情。


下一個倒計時已經(jīng)開始

回看這整場風暴,一條清晰的主線已經(jīng)浮出水面:

從FrontierMath被快速刷穿,到FirstProof上Aletheia零人工干預拿下6題,再到陶哲軒親口承認AI已是自己的「初級合著者」。

所有信號都在指向同一個事實:

AI正在以一種不可逆的姿態(tài),嵌入人類數(shù)學研究的核心流程。

而最值得玩味的,是Epoch AI那個至今「零分」的Open Problems題庫。

它的存在本身就是一個隱喻:

人類現(xiàn)在能拿來考AI的最后武器,是連自己都不知道答案的題目。

這道防線還能守多久?沒人敢打包票。

但有一點幾乎可以確定——

當3月14日FirstProof第二輪挑戰(zhàn)賽開啟的那一刻,今天這篇文章里的所有數(shù)字,可能就已經(jīng)過時了。

參考資料:

https://x.com/rohanpaul_ai/status/2026559039241597070?s=20

https://www.theatlantic.com/technology/2026/02/ai-math-terrance-tao/686107/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
哈梅內(nèi)伊身亡,投資者關(guān)心“然后”呢?周末唯一開盤的市場已完成從"大跌"到"大漲"

哈梅內(nèi)伊身亡,投資者關(guān)心“然后”呢?周末唯一開盤的市場已完成從"大跌"到"大漲"

華爾街見聞官方
2026-03-01 14:19:22
第一個面臨消失的職業(yè),不是幼師,不是快遞員,而是這三種工作?

第一個面臨消失的職業(yè),不是幼師,不是快遞員,而是這三種工作?

夢史
2026-03-01 11:39:35
打伊朗前,美國先找了中國,特朗普知道:他錯一步中國就不戰(zhàn)而勝

打伊朗前,美國先找了中國,特朗普知道:他錯一步中國就不戰(zhàn)而勝

通文知史
2026-02-24 23:40:03
中國男籃vs中國臺北時間已定!CCTV5直播,省隊球員賽前放出狠話

中國男籃vs中國臺北時間已定!CCTV5直播,省隊球員賽前放出狠話

籃球?qū)^(qū)
2026-02-28 20:36:42
美以空襲伊朗,哈梅內(nèi)伊為什么依然不慌?

美以空襲伊朗,哈梅內(nèi)伊為什么依然不慌?

清書先生
2026-02-28 16:27:01
陳若琳也沒想到,春節(jié)剛過10天,全紅嬋僅憑一個舉動再次口碑暴增

陳若琳也沒想到,春節(jié)剛過10天,全紅嬋僅憑一個舉動再次口碑暴增

社會日日鮮
2026-02-28 12:16:51
確認參賽!941萬美金戰(zhàn)場,鄭欽文攜新帥出征,首戰(zhàn)即考驗?

確認參賽!941萬美金戰(zhàn)場,鄭欽文攜新帥出征,首戰(zhàn)即考驗?

卿子書
2026-03-01 09:25:20
荷蘭半導體專家:ASML花費40年鉆研光刻機,中國企業(yè)竟比ASML還狠

荷蘭半導體專家:ASML花費40年鉆研光刻機,中國企業(yè)竟比ASML還狠

策略述
2026-02-28 17:11:40
伊朗主持人哭泣播報哈梅內(nèi)伊的死訊,中國“專家”又說謊了!

伊朗主持人哭泣播報哈梅內(nèi)伊的死訊,中國“專家”又說謊了!

老馬拉車莫少裝
2026-03-01 12:00:10
“以為是六個博士,結(jié)果是六個送外賣的!”六個兒子征婚視頻火了

“以為是六個博士,結(jié)果是六個送外賣的!”六個兒子征婚視頻火了

阿凱銷售場
2026-03-01 01:46:42
丟臉丟到海外! 2023年,中國夫妻在日本旅游, 海灘上抓683只說要吃

丟臉丟到海外! 2023年,中國夫妻在日本旅游, 海灘上抓683只說要吃

萬象硬核本尊
2026-02-27 18:28:04
已有杭州飛往迪拜的航班取消!多家航空公司暫停航班,滯留旅客花費人均近萬元回國

已有杭州飛往迪拜的航班取消!多家航空公司暫停航班,滯留旅客花費人均近萬元回國

都市快報橙柿互動
2026-03-01 10:18:58
如果打開全部閘門,把三峽水庫的水全部放光,需要多久?

如果打開全部閘門,把三峽水庫的水全部放光,需要多久?

心中的麥田
2026-02-19 20:29:21
3月1日起,銀行存款50萬以下10萬以上的人,這幾個消息一定要了解

3月1日起,銀行存款50萬以下10萬以上的人,這幾個消息一定要了解

別人都叫我阿腈
2026-03-01 02:00:06
戰(zhàn)斧導彈為啥要超低空飛行?

戰(zhàn)斧導彈為啥要超低空飛行?

52赫茲實驗室
2026-03-01 09:49:41
伊朗打擊美國中東軍事基地,美第五艦隊服務(wù)中心遭導彈襲擊,科威特、阿聯(lián)酋、卡塔爾等多國發(fā)生爆炸,胡塞武裝導彈射向以色列……

伊朗打擊美國中東軍事基地,美第五艦隊服務(wù)中心遭導彈襲擊,科威特、阿聯(lián)酋、卡塔爾等多國發(fā)生爆炸,胡塞武裝導彈射向以色列……

每日經(jīng)濟新聞
2026-02-28 18:02:13
伊朗革命衛(wèi)隊宣布大規(guī)模軍事行動

伊朗革命衛(wèi)隊宣布大規(guī)模軍事行動

界面新聞
2026-02-28 18:18:55
女婿當眾摟腰挽留丈母娘,10天后評論區(qū)還在吵:這算親?還是越界

女婿當眾摟腰挽留丈母娘,10天后評論區(qū)還在吵:這算親?還是越界

大熊歡樂坊
2026-02-28 01:40:08
伊朗革命衛(wèi)隊發(fā)布血性檄文:哈梅內(nèi)伊殉難是勝利象征,復仇之手已張開

伊朗革命衛(wèi)隊發(fā)布血性檄文:哈梅內(nèi)伊殉難是勝利象征,復仇之手已張開

健身狂人
2026-03-01 10:58:21
哈佛華西證實:咖啡真能續(xù)命!但90%的人都喝錯了

哈佛華西證實:咖啡真能續(xù)命!但90%的人都喝錯了

愛醫(yī)斯坦
2026-02-28 10:01:47
2026-03-01 16:36:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14617文章數(shù) 66649關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

專家:伊朗局勢可參考委內(nèi)瑞拉 反美力量將進一步削弱

頭條要聞

專家:伊朗局勢可參考委內(nèi)瑞拉 反美力量將進一步削弱

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹言陳哲遠燃炸朝堂

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

小米汽車2月交付超20000臺 雷軍:為新SU7量產(chǎn)作準備

態(tài)度原創(chuàng)

健康
家居
數(shù)碼
教育
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

家居要聞

素色肌理 品意式格調(diào)

數(shù)碼要聞

DDR4價格已連續(xù)11個月上漲

教育要聞

五年級求面積,會者不難

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實時戰(zhàn)況

無障礙瀏覽 進入關(guān)懷版