網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

谷歌AI連發(fā)6篇數(shù)學(xué)論文！Gemini攻入博士級科研，91.9%刷爆SOTA

2026-02-12 10:14:50　來源: 新智元

北京舉報

分享至

新智元報道

編輯：桃子好困

【新智元導(dǎo)讀】今天，谷歌DeepMind「AI數(shù)學(xué)家」Aletheia徹底殺瘋了，攻克數(shù)學(xué)猜想，獨立寫論文。更令人震驚的是，拿下金牌的Gemini一舉橫掃18大核心科研難題。

下一個諾獎得主，Gemini提前預(yù)定了！

谷歌DeepMind再次向全球科研圈扔出炸彈，一口氣放出兩篇重磅論文——

Gemini Deep Think成為「科研合伙人」，連破數(shù)學(xué)、物理和計算機(jī)科學(xué)領(lǐng)域研究級難題。

以前，AI可以拿下IMO、ICPC國際大賽金牌，已經(jīng)很牛了....

這一次，Gemini徹底開掛，真正搞起了科研！

谷歌打造了一款基于Gemini「AI數(shù)學(xué)家」，代號Aletheia。它在博士級難題上，取得了多項科研里程碑。

其中包括，獨立撰寫發(fā)表學(xué)術(shù)幾何論文，還對「Erd?s猜想」數(shù)據(jù)庫中700個開放問題，完成系統(tǒng)性評估。

在IMO-ProofBench基準(zhǔn)測試中，Aletheia一騎絕塵，拿下91.9%的成績刷爆SOTA。

更具顛覆性的，它具備了人類最核心的技能：自我糾錯，還會主動承認(rèn)自身無法解決的問題。

所謂的千禧年大獎難題，或許離逐一破解的那天也不遠(yuǎn)了。

不僅如此，在物理學(xué)和計算機(jī)科學(xué)，Gemini Deep Think聯(lián)手專家，攻克了18個長期停滯的研究難題。

涵蓋了終結(jié)十年子模優(yōu)化猜想、突破離散算法瓶頸、機(jī)器學(xué)習(xí)與組合優(yōu)化、信息論與經(jīng)濟(jì)學(xué)等，斐然的成績足以載入史冊。

此時此刻，人類的科研工作流正在醞釀著一場顛覆性的變革。

Gemini加速進(jìn)化正以一種近乎「降維打擊」的方式，在多個科研領(lǐng)域暴力破局。

谷歌「AI數(shù)學(xué)家」Aletheia重磅出世

干翻博士級難題

2025年夏天，Gemini Deep Think（高級版）首次拿下了IMO金牌，緊接著，在ICPC大賽中一舉奪冠。

如今，Gemini徹底跨越了競賽門檻，正式攻入人類智慧的「深水區(qū)」。

與IMO級的競賽難度不同，研究級數(shù)學(xué)問題需要，從浩如煙海的文獻(xiàn)中調(diào)用「高級技術(shù)」。

雖然「基礎(chǔ)模型」（FM）知識淵博，但缺少專業(yè)數(shù)據(jù)，難免在處理高級學(xué)科時往往會理解不到位，甚至產(chǎn)生「幻覺」。

為此，谷歌DeepMind內(nèi)部構(gòu)建了一個數(shù)學(xué)研究AI智能體——Aletheia，背靠強(qiáng)大的Gemini Deep Think。

論文地址：https://github.com/google-deepmind/superhuman/blob/main/aletheia/Aletheia.pdf

在古希臘語中，Aletheia代表著「真理」。

它做到了在自然語言中「端到端」迭代生成、驗證和修改解決方案。

具體來說，Aletheia自帶一個「自然語言驗證器」，能挑出候選方案中的毛病，并實現(xiàn)「生成-修改」的迭代過程。

最關(guān)鍵的是，它能承認(rèn)自己解不出來，這一特性大大提高了研究人員的效率。

Aletheia概覽：這是一個由Deep Think驅(qū)動的數(shù)學(xué)研究AI智能體，能夠針對研究級數(shù)學(xué)問題進(jìn)行迭代式的生成、驗證和修正

總言之，驅(qū)動Aletheia的三大核心技術(shù)支柱是：

Gemini Deep Think高級版：專門用來死磕那些極難的推理題；

新穎的推理時Scaling Law：它的能力跨度極大，上能搞定奧數(shù)級難題，下能應(yīng)付博士級的專業(yè)練習(xí)；

強(qiáng)大的工具調(diào)用能力：深度集成Google搜索和網(wǎng)頁瀏覽，以此攻克數(shù)學(xué)研究中老大難問題，瞎編參考文獻(xiàn)、計算不準(zhǔn)的情況幾乎不存在。

自2025年7月達(dá)到IMO金牌水準(zhǔn)以來，Gemini Deep Think進(jìn)步謂之神速。

隨著推理時計算量（inference-time compute）的增加，它在IMO-ProofBench高級測試中的得分高達(dá)90%。

谷歌DeepMind證明了，即便從奧賽級別跨越到博士級練習(xí)題（根據(jù)內(nèi)部FutureMath Basic基準(zhǔn)），Scaling Law依然有效。

值得注意的是，Aletheia即便用更少推理算力，也能實現(xiàn)更高的推理質(zhì)量。

截至2026年1月，Deep Think的最新進(jìn)階版在奧賽級題目上的表現(xiàn)已大幅超越IMO金牌版本（2025年7月）。推理時的Scaling Law同樣適用于博士級練習(xí)題。Aletheia在推理質(zhì)量上實現(xiàn)了進(jìn)一步的飛躍，且推理時的計算量更低。所有結(jié)果均由人類專家評分

首批6篇論文，AI手搓一篇，3篇已發(fā)表

在研究級數(shù)學(xué)的實戰(zhàn)中，Aletheia的實力可不是鬧著玩的，已取得了許多令人矚目的「自主突破」。

在Aletheia完成的首批六篇論文中，一共包括以下幾類——

獨立完成，0人類

論文「

Eigenweights for arithmetic Hirzebruch Proportionality

」完全由Aletheia生成，沒有任何人工干預(yù)。

它計算了算術(shù)幾何中被稱為「特征權(quán)重」（eigenweights）的某些結(jié)構(gòu)常數(shù)。

論文地址：https://arxiv.org/abs/2601.23245

人類與AI協(xié)作

論文「

Lower bounds for multivariate independence polynomials and their generalisations

」是由人類與Aletheia協(xié)作完成，共同證明了相互作用粒子系統(tǒng)（稱為獨立集）的界限。

論文地址：https://arxiv.org/abs/2602.02450

大規(guī)模半自主評估，攻克Erd?s猜想難題

論文「

Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erd?s Problems

」針對 Bloom的「Erd?s猜想」數(shù)據(jù)庫中的700個開放問題進(jìn)行了評估，并自主解決了其中列出的四個未解之謎。

在Erd?s-1051問題上，模型給出了自主解答，并推動了另一篇研究「

Irrationality of rapidly converging series: a problem of Erd?s and Graham

」中報告的推廣性成果。

論文地址：https://arxiv.org/abs/2601.22401

論文地址：https://arxiv.org/abs/2601.21442

此外，Aletheia還在如下另外兩篇論文中，貢獻(xiàn)了中間命題。

論文地址：https://arxiv.org/abs/2601.18557

論文地址：https://arxiv.org/abs/2601.23229

值得一提的是，之前也有Gemini進(jìn)行研究級數(shù)學(xué)探索的工作，但在合作規(guī)模和解決問題的數(shù)量上都相對較小。

此外，谷歌DeepMind還建立了一個分類法，根據(jù)重要性和AI貢獻(xiàn)程度對「AI輔助數(shù)學(xué)研究」進(jìn)行分級——

下表中，已被列為第2級（可發(fā)表質(zhì)量）的成果已提交給知名期刊。

目前，谷歌尚未通過Gemini獲得任何第3級（重大進(jìn)展）或第4級（里程碑式突破）的成果。

本研究涵蓋的所有AI輔助數(shù)學(xué)成果的分類表。表中列為第2級的成果已投稿發(fā)表

終結(jié)十年猜想，攻克18大研究難題

除了在數(shù)學(xué)方面大展身手，Gemini Deep Think在計算機(jī)科學(xué)和物理學(xué)領(lǐng)域，也表現(xiàn)出了巨大的潛力。

論文「

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

」建立在類似的智能體推理思路之上，并總結(jié)出了高效合作的「秘籍」，特別是「顧問」（Advisor）模式：

即人類通過迭代的「直覺驗證」（Vibe-Proving）循環(huán)來引導(dǎo) AI，以驗證直覺并完善證明。

論文地址：https://arxiv.org/abs/2602.03837

此外，谷歌還詳細(xì)介紹了一些戰(zhàn)術(shù)技巧，比如「平衡提示詞」（balanced prompting）。

——要求AI同時嘗試證明或反駁以防止確認(rèn)偏誤，以及代碼輔助驗證。

這些方法，結(jié)合模型通過深層結(jié)構(gòu)連接跨越不同科學(xué)領(lǐng)域的能力，正在改變理論研究的開展方式。

這項工作，是建立在成功部署Gemini Deep Think進(jìn)階版協(xié)助審查STOC’26會議CS理論論文的基礎(chǔ)之上的。

AI推理流程示意圖：展示了網(wǎng)絡(luò)層如何對解題空間進(jìn)行廣泛探索，然后收斂為結(jié)構(gòu)化的推理，并最終通過自動化驗證與人工審核進(jìn)行確認(rèn)

通過與專家合作攻克18個研究難題，Gemini Deep Think進(jìn)階版幫助打破了算法、機(jī)器學(xué)習(xí)、組合優(yōu)化、信息論以及經(jīng)濟(jì)學(xué)領(lǐng)域長期存在的瓶頸。

ICLR 2026已錄用

論文「

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

」中的亮點包括：

跨越數(shù)學(xué)邊界解決網(wǎng)絡(luò)謎題

像「最大割（Max-Cut）」（高效分割網(wǎng)絡(luò)）和「施泰納樹（Steiner Tree）」（連接高維點）這類經(jīng)典計算機(jī)科學(xué)問題的進(jìn)展一度停滯。

Gemini通過打破「思維定勢」破解了這兩個僵局。

它從完全不相關(guān)的連續(xù)數(shù)學(xué)分支中搬來了高深工具——比如Kirszbraun定理、測度論和Stone-Weierstrass定理——成功解決了這些離散算法謎題。

終結(jié)在線子模優(yōu)化領(lǐng)域十年的猜想

2015年的一篇理論論文為數(shù)據(jù)流提出了一個看似顯而易見的規(guī)則：復(fù)制一個新到達(dá)的項目永遠(yuǎn)比簡單地移動原始項目價值低。專家們花了十年時間試圖證明這一點。

Gemini設(shè)計了一個極其刁鉆的「三項目組合反例」，嚴(yán)格證明了這一長期以來的人類直覺是錯的。

機(jī)器學(xué)習(xí)優(yōu)化

訓(xùn)練AI過濾噪聲通常需要工程師手動調(diào)整一個數(shù)學(xué)上的「懲罰項」。

研究人員發(fā)明了一種能自動調(diào)整的新技術(shù)，但無法從數(shù)學(xué)上解釋為什么有效。

Gemini分析了方程并證明了該方法的成功機(jī)理：它在運行過程中秘密生成了自己的「自適應(yīng)懲罰」。

升級AI時代的經(jīng)濟(jì)理論

最近一個關(guān)于拍賣AI生成Token的「顯示原理（Revelation Principle）」在數(shù)學(xué)上僅在投標(biāo)被限制為有理數(shù)時才成立。

一旦將范圍擴(kuò)展到連續(xù)的實數(shù)，原始證明就失效了。Gemini利用先進(jìn)的拓?fù)鋵W(xué)和序理論擴(kuò)展了該定理，使其能適應(yīng)現(xiàn)實世界中連續(xù)的拍賣動態(tài)。

宇宙弦物理學(xué)

計算來自宇宙弦的引力輻射需要找到包含「奇點」的棘手積分的解析解。

Gemini利用「蓋根鮑爾多項式」（Gegenbauer polynomials）找到了一個新穎的解法。這自然地吸收了奇點，將無限級數(shù)坍縮成了一個封閉形式的有限和。

這些成果橫跨了從信息與復(fù)雜性理論到密碼學(xué)和機(jī)制設(shè)計的各個領(lǐng)域，展示了AI正如何從根本上改變研究工作。

考慮到計算機(jī)科學(xué)領(lǐng)域那種流動性強(qiáng)、以會議為導(dǎo)向的發(fā)表機(jī)制，我們按學(xué)術(shù)軌跡而非僵化的分類法來描述這些成果。

以上大約一半的成果瞄準(zhǔn)了頂級會議，其中一篇被ICLR ’26錄用，剩下的大部分將在未來在期刊投稿。

無論是通過識別錯誤，還是反駁猜想來糾正領(lǐng)域方向，這些成果都凸顯了AI作為高水平科學(xué)協(xié)作者的價值。

Gemini重塑科研，人類「倍增器」來了

基于谷歌此前的突破，這項工作表明，通用的基礎(chǔ)模型，聯(lián)動智能體推理工作流，可以成為強(qiáng)大的科學(xué)伙伴。

在數(shù)學(xué)家、物理學(xué)家和計算機(jī)科學(xué)家等專家的指導(dǎo)下，Gemini Deep Think模式正在那些以復(fù)雜數(shù)學(xué)、邏輯和推理為核心的領(lǐng)域證明其實用性。

我們正在見證科學(xué)工作流的根本性轉(zhuǎn)變。

隨著Gemini的進(jìn)化，它正在成為人類智慧的「倍增器」，負(fù)責(zé)處理知識檢索和嚴(yán)格驗證等工作，讓科學(xué)家能夠?qū)Ｗ⒂诟拍畹纳疃群蛣?chuàng)新的方向。

無論是完善證明、尋找反例，還是連接看似不相關(guān)的領(lǐng)域，AI正在成為科學(xué)進(jìn)步新篇章中不可或缺的協(xié)作者。

參考資料：

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/

https://mathstodon.xyz/@tao/116053101218408010

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.