国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌AI連發(fā)6篇數(shù)學(xué)論文!Gemini攻入博士級科研,91.9%刷爆SOTA

0
分享至


新智元報道

編輯:桃子 好困

【新智元導(dǎo)讀】今天,谷歌DeepMind「AI數(shù)學(xué)家」Aletheia徹底殺瘋了,攻克數(shù)學(xué)猜想,獨立寫論文。更令人震驚的是,拿下金牌的Gemini一舉橫掃18大核心科研難題。

下一個諾獎得主,Gemini提前預(yù)定了!

谷歌DeepMind再次向全球科研圈扔出炸彈,一口氣放出兩篇重磅論文——

Gemini Deep Think成為「科研合伙人」,連破數(shù)學(xué)、物理和計算機(jī)科學(xué)領(lǐng)域研究級難題。


以前,AI可以拿下IMO、ICPC國際大賽金牌,已經(jīng)很牛了....

這一次,Gemini徹底開掛,真正搞起了科研!

谷歌打造了一款基于Gemini「AI數(shù)學(xué)家」,代號Aletheia。它在博士級難題上,取得了多項科研里程碑。

其中包括,獨立撰寫發(fā)表學(xué)術(shù)幾何論文,還對「Erd?s猜想」數(shù)據(jù)庫中700個開放問題,完成系統(tǒng)性評估。

在IMO-ProofBench基準(zhǔn)測試中,Aletheia一騎絕塵,拿下91.9%的成績刷爆SOTA


更具顛覆性的,它具備了人類最核心的技能:自我糾錯,還會主動承認(rèn)自身無法解決的問題。

所謂的千禧年大獎難題,或許離逐一破解的那天也不遠(yuǎn)了。


不僅如此,在物理學(xué)和計算機(jī)科學(xué),Gemini Deep Think聯(lián)手專家,攻克了18個長期停滯的研究難題。

涵蓋了終結(jié)十年子模優(yōu)化猜想、突破離散算法瓶頸、機(jī)器學(xué)習(xí)與組合優(yōu)化、信息論與經(jīng)濟(jì)學(xué)等,斐然的成績足以載入史冊。


此時此刻,人類的科研工作流正在醞釀著一場顛覆性的變革。

Gemini加速進(jìn)化正以一種近乎「降維打擊」的方式,在多個科研領(lǐng)域暴力破局。



谷歌「AI數(shù)學(xué)家」Aletheia重磅出世

干翻博士級難題

2025年夏天,Gemini Deep Think(高級版)首次拿下了IMO金牌,緊接著,在ICPC大賽中一舉奪冠。

如今,Gemini徹底跨越了競賽門檻,正式攻入人類智慧的「深水區(qū)」。

與IMO級的競賽難度不同,研究級數(shù)學(xué)問題需要,從浩如煙海的文獻(xiàn)中調(diào)用「高級技術(shù)」。

雖然「基礎(chǔ)模型」(FM)知識淵博,但缺少專業(yè)數(shù)據(jù),難免在處理高級學(xué)科時往往會理解不到位,甚至產(chǎn)生「幻覺」。

為此,谷歌DeepMind內(nèi)部構(gòu)建了一個數(shù)學(xué)研究AI智能體——Aletheia,背靠強(qiáng)大的Gemini Deep Think。


論文地址:https://github.com/google-deepmind/superhuman/blob/main/aletheia/Aletheia.pdf

在古希臘語中,Aletheia代表著「真理」。

它做到了在自然語言中「端到端」迭代生成、驗證和修改解決方案。


具體來說,Aletheia自帶一個「自然語言驗證器」,能挑出候選方案中的毛病,并實現(xiàn)「生成-修改」的迭代過程。

最關(guān)鍵的是,它能承認(rèn)自己解不出來,這一特性大大提高了研究人員的效率。


Aletheia概覽:這是一個由Deep Think驅(qū)動的數(shù)學(xué)研究AI智能體,能夠針對研究級數(shù)學(xué)問題進(jìn)行迭代式的生成、驗證和修正

總言之,驅(qū)動Aletheia的三大核心技術(shù)支柱是:

  • Gemini Deep Think高級版專門用來死磕那些極難的推理題;

  • 新穎的推理時Scaling Law它的能力跨度極大,上能搞定奧數(shù)級難題,下能應(yīng)付博士級的專業(yè)練習(xí);

  • 強(qiáng)大的工具調(diào)用能力深度集成Google搜索和網(wǎng)頁瀏覽,以此攻克數(shù)學(xué)研究中老大難問題, 瞎編參考文獻(xiàn)、計算不準(zhǔn)的情況幾乎不存在。

自2025年7月達(dá)到IMO金牌水準(zhǔn)以來,Gemini Deep Think進(jìn)步謂之神速。

隨著推理時計算量(inference-time compute)的增加,它在IMO-ProofBench高級測試中的得分高達(dá)90%。

谷歌DeepMind證明了,即便從奧賽級別跨越到博士級練習(xí)題(根據(jù)內(nèi)部FutureMath Basic基準(zhǔn)),Scaling Law依然有效。

值得注意的是,Aletheia即便用更少推理算力,也能實現(xiàn)更高的推理質(zhì)量。



截至2026年1月,Deep Think的最新進(jìn)階版在奧賽級題目上的表現(xiàn)已大幅超越IMO金牌版本(2025年7月)。推理時的Scaling Law同樣適用于博士級練習(xí)題。Aletheia在推理質(zhì)量上實現(xiàn)了進(jìn)一步的飛躍,且推理時的計算量更低。所有結(jié)果均由人類專家評分

首批6篇論文,AI手搓一篇,3篇已發(fā)表

在研究級數(shù)學(xué)的實戰(zhàn)中,Aletheia的實力可不是鬧著玩的,已取得了許多令人矚目的「自主突破」。

在Aletheia完成的首批六篇論文中,一共包括以下幾類——

  • 獨立完成,0人類

論文「

Eigenweights for arithmetic Hirzebruch Proportionality
」完全由Aletheia生成,沒有任何人工干預(yù)。


它計算了算術(shù)幾何中被稱為「特征權(quán)重」(eigenweights)的某些結(jié)構(gòu)常數(shù)。


論文地址:https://arxiv.org/abs/2601.23245

  • 人類與AI協(xié)作

論文「

Lower bounds for multivariate independence polynomials and their generalisations
」是由人類與Aletheia協(xié)作完成,共同證明了相互作用粒子系統(tǒng)(稱為獨立集)的界限。


論文地址:https://arxiv.org/abs/2602.02450

  • 大規(guī)模半自主評估,攻克Erd?s猜想難題

論文「

Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erd?s Problems
」針對 Bloom的「Erd?s猜想」數(shù)據(jù)庫中的700個開放問題進(jìn)行了評估,并自主解決了其中列出的四個未解之謎。

在Erd?s-1051問題上,模型給出了自主解答,并推動了另一篇研究「

Irrationality of rapidly converging series: a problem of Erd?s and Graham
」中報告的推廣性成果。


論文地址:https://arxiv.org/abs/2601.22401


論文地址:https://arxiv.org/abs/2601.21442

此外,Aletheia還在如下另外兩篇論文中,貢獻(xiàn)了中間命題。


論文地址:https://arxiv.org/abs/2601.18557


論文地址:https://arxiv.org/abs/2601.23229

值得一提的是,之前也有Gemini進(jìn)行研究級數(shù)學(xué)探索的工作,但在合作規(guī)模和解決問題的數(shù)量上都相對較小。

此外,谷歌DeepMind還建立了一個分類法,根據(jù)重要性和AI貢獻(xiàn)程度對「AI輔助數(shù)學(xué)研究」進(jìn)行分級——

下表中,已被列為第2級(可發(fā)表質(zhì)量)的成果已提交給知名期刊。

目前,谷歌尚未通過Gemini獲得任何第3級(重大進(jìn)展)或第4級(里程碑式突破)的成果。


本研究涵蓋的所有AI輔助數(shù)學(xué)成果的分類表。表中列為第2級的成果已投稿發(fā)表

終結(jié)十年猜想,攻克18大研究難題

除了在數(shù)學(xué)方面大展身手,Gemini Deep Think在計算機(jī)科學(xué)和物理學(xué)領(lǐng)域,也表現(xiàn)出了巨大的潛力。

論文「

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques
」建立在類似的智能體推理思路之上,并總結(jié)出了高效合作的「秘籍」,特別是「顧問」(Advisor)模式:

即人類通過迭代的「直覺驗證」(Vibe-Proving)循環(huán)來引導(dǎo) AI,以驗證直覺并完善證明。


論文地址:https://arxiv.org/abs/2602.03837

此外,谷歌還詳細(xì)介紹了一些戰(zhàn)術(shù)技巧,比如「平衡提示詞」(balanced prompting)。

——要求AI同時嘗試證明或反駁以防止確認(rèn)偏誤,以及代碼輔助驗證。

這些方法,結(jié)合模型通過深層結(jié)構(gòu)連接跨越不同科學(xué)領(lǐng)域的能力,正在改變理論研究的開展方式。

這項工作,是建立在成功部署Gemini Deep Think進(jìn)階版協(xié)助審查STOC’26會議CS理論論文的基礎(chǔ)之上的。


AI推理流程示意圖:展示了網(wǎng)絡(luò)層如何對解題空間進(jìn)行廣泛探索,然后收斂為結(jié)構(gòu)化的推理,并最終通過自動化驗證與人工審核進(jìn)行確認(rèn)

通過與專家合作攻克18個研究難題,Gemini Deep Think進(jìn)階版幫助打破了算法、機(jī)器學(xué)習(xí)、組合優(yōu)化、信息論以及經(jīng)濟(jì)學(xué)領(lǐng)域長期存在的瓶頸。

ICLR 2026已錄用

論文「

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques
」中的亮點包括:
  • 跨越數(shù)學(xué)邊界解決網(wǎng)絡(luò)謎題

像「最大割(Max-Cut)」(高效分割網(wǎng)絡(luò))和「施泰納樹(Steiner Tree)」(連接高維點)這類經(jīng)典計算機(jī)科學(xué)問題的進(jìn)展一度停滯。

Gemini通過打破「思維定勢」破解了這兩個僵局。

它從完全不相關(guān)的連續(xù)數(shù)學(xué)分支中搬來了高深工具——比如Kirszbraun定理、測度論和Stone-Weierstrass定理——成功解決了這些離散算法謎題。


  • 終結(jié)在線子模優(yōu)化領(lǐng)域十年的猜想

2015年的一篇理論論文為數(shù)據(jù)流提出了一個看似顯而易見的規(guī)則:復(fù)制一個新到達(dá)的項目永遠(yuǎn)比簡單地移動原始項目價值低。專家們花了十年時間試圖證明這一點。

Gemini設(shè)計了一個極其刁鉆的「三項目組合反例」,嚴(yán)格證明了這一長期以來的人類直覺是錯的。

  • 機(jī)器學(xué)習(xí)優(yōu)化

訓(xùn)練AI過濾噪聲通常需要工程師手動調(diào)整一個數(shù)學(xué)上的「懲罰項」。

研究人員發(fā)明了一種能自動調(diào)整的新技術(shù),但無法從數(shù)學(xué)上解釋為什么有效。

Gemini分析了方程并證明了該方法的成功機(jī)理:它在運行過程中秘密生成了自己的「自適應(yīng)懲罰」。

  • 升級AI時代的經(jīng)濟(jì)理論

最近一個關(guān)于拍賣AI生成Token的「顯示原理(Revelation Principle)」在數(shù)學(xué)上僅在投標(biāo)被限制為有理數(shù)時才成立。

一旦將范圍擴(kuò)展到連續(xù)的實數(shù),原始證明就失效了。Gemini利用先進(jìn)的拓?fù)鋵W(xué)和序理論擴(kuò)展了該定理,使其能適應(yīng)現(xiàn)實世界中連續(xù)的拍賣動態(tài)。

  • 宇宙弦物理學(xué)

計算來自宇宙弦的引力輻射需要找到包含「奇點」的棘手積分的解析解。

Gemini利用「蓋根鮑爾多項式」(Gegenbauer polynomials)找到了一個新穎的解法。這自然地吸收了奇點,將無限級數(shù)坍縮成了一個封閉形式的有限和。


這些成果橫跨了從信息與復(fù)雜性理論到密碼學(xué)和機(jī)制設(shè)計的各個領(lǐng)域,展示了AI正如何從根本上改變研究工作。

考慮到計算機(jī)科學(xué)領(lǐng)域那種流動性強(qiáng)、以會議為導(dǎo)向的發(fā)表機(jī)制,我們按學(xué)術(shù)軌跡而非僵化的分類法來描述這些成果。

以上大約一半的成果瞄準(zhǔn)了頂級會議,其中一篇被ICLR ’26錄用,剩下的大部分將在未來在期刊投稿。

無論是通過識別錯誤,還是反駁猜想來糾正領(lǐng)域方向,這些成果都凸顯了AI作為高水平科學(xué)協(xié)作者的價值。

Gemini重塑科研,人類「倍增器」來了

基于谷歌此前的突破,這項工作表明,通用的基礎(chǔ)模型,聯(lián)動智能體推理工作流,可以成為強(qiáng)大的科學(xué)伙伴。

在數(shù)學(xué)家、物理學(xué)家和計算機(jī)科學(xué)家等專家的指導(dǎo)下,Gemini Deep Think模式正在那些以復(fù)雜數(shù)學(xué)、邏輯和推理為核心的領(lǐng)域證明其實用性。


我們正在見證科學(xué)工作流的根本性轉(zhuǎn)變。

隨著Gemini的進(jìn)化,它正在成為人類智慧的「倍增器」,負(fù)責(zé)處理知識檢索和嚴(yán)格驗證等工作,讓科學(xué)家能夠?qū)W⒂诟拍畹纳疃群蛣?chuàng)新的方向。

無論是完善證明、尋找反例,還是連接看似不相關(guān)的領(lǐng)域,AI正在成為科學(xué)進(jìn)步新篇章中不可或缺的協(xié)作者。

參考資料:

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/

https://mathstodon.xyz/@tao/116053101218408010


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
今夜,集體暴漲了!

今夜,集體暴漲了!

中國基金報
2026-02-25 00:17:24
73人死亡!美國、加拿大、英國、法國、俄羅斯,發(fā)布“安全警告”

73人死亡!美國、加拿大、英國、法國、俄羅斯,發(fā)布“安全警告”

每日經(jīng)濟(jì)新聞
2026-02-24 15:35:05
王楚欽3-0打掉日本勁敵,反手?jǐn)Q拉&正手搶攻半出臺,全方位壓制

王楚欽3-0打掉日本勁敵,反手?jǐn)Q拉&正手搶攻半出臺,全方位壓制

乒談
2026-02-24 20:34:15
巴拿馬接管長江和記兩座港口,外交部:中方將堅決維護(hù)企業(yè)合法權(quán)益

巴拿馬接管長江和記兩座港口,外交部:中方將堅決維護(hù)企業(yè)合法權(quán)益

澎湃新聞
2026-02-24 15:30:29
冰上傳奇劉美賢:一個華裔家庭用自由寫下的史詩

冰上傳奇劉美賢:一個華裔家庭用自由寫下的史詩

濤哥銳評
2026-02-24 13:20:47
汪小菲官宣三胎出生:承諾會照顧好3個孩子,曬馬筱梅與兒子合照

汪小菲官宣三胎出生:承諾會照顧好3個孩子,曬馬筱梅與兒子合照

素素娛樂
2026-02-24 16:34:48
女子返程被堵高速,發(fā)現(xiàn)20多輛私家車占用應(yīng)急車道行駛,花半小時挨個拍照舉報,當(dāng)事人發(fā)聲;交警回應(yīng):處理中

女子返程被堵高速,發(fā)現(xiàn)20多輛私家車占用應(yīng)急車道行駛,花半小時挨個拍照舉報,當(dāng)事人發(fā)聲;交警回應(yīng):處理中

揚子晚報
2026-02-24 16:27:31
6年前2459元買入,現(xiàn)在漲到4048元!老相機(jī)成“電子黃金”,多的甚至漲價10倍,網(wǎng)友拍大腿:賣早了

6年前2459元買入,現(xiàn)在漲到4048元!老相機(jī)成“電子黃金”,多的甚至漲價10倍,網(wǎng)友拍大腿:賣早了

每日經(jīng)濟(jì)新聞
2026-02-25 00:41:04
窮人唯一的武器,正在被 AI 繳械

窮人唯一的武器,正在被 AI 繳械

風(fēng)向觀察
2026-02-24 17:25:51
宏大敘事是窮人最后的“精神鴉片”

宏大敘事是窮人最后的“精神鴉片”

浪子說
2026-02-24 22:08:10
歐冠16強(qiáng)已定12席:英超6隊全入圍!去年亞軍出局 意甲或全軍覆沒

歐冠16強(qiáng)已定12席:英超6隊全入圍!去年亞軍出局 意甲或全軍覆沒

我愛英超
2026-02-25 06:26:28
俄烏犧牲士兵們的平凡愿望,如今只能在AI里實現(xiàn)了

俄烏犧牲士兵們的平凡愿望,如今只能在AI里實現(xiàn)了

網(wǎng)易新聞出品
2026-02-24 10:00:05
30歲男子誤喝過期牛奶 短短7個月體重暴跌53斤

30歲男子誤喝過期牛奶 短短7個月體重暴跌53斤

閃電新聞
2026-02-24 22:06:32
天生一張娃娃臉都已經(jīng)46了,你敢想?

天生一張娃娃臉都已經(jīng)46了,你敢想?

娛樂圈見解說
2026-02-24 20:08:38
葡萄330元/斤,草莓360元/斤!網(wǎng)友高速上看到水果廣告牌驚呆了,種植企業(yè)回應(yīng)

葡萄330元/斤,草莓360元/斤!網(wǎng)友高速上看到水果廣告牌驚呆了,種植企業(yè)回應(yīng)

極目新聞
2026-02-24 12:58:13
京東創(chuàng)始人劉強(qiáng)東要造游艇,在廣州官宣創(chuàng)立品牌Sea Expandary

京東創(chuàng)始人劉強(qiáng)東要造游艇,在廣州官宣創(chuàng)立品牌Sea Expandary

IT之家
2026-02-24 19:22:04
未來危機(jī)!曝郭士強(qiáng)詢問遍旅外球員 僅余嘉豪1人馳援男籃

未來危機(jī)!曝郭士強(qiáng)詢問遍旅外球員 僅余嘉豪1人馳援男籃

大嘴爵爺侃球
2026-02-24 11:18:31
升級版的仙人跳,比戴綠帽子還憋屈

升級版的仙人跳,比戴綠帽子還憋屈

霹靂炮
2026-02-24 22:53:34
尉健行說:美國人選領(lǐng)導(dǎo)是5選1,我們選干部卻是1對1,這怎么行?

尉健行說:美國人選領(lǐng)導(dǎo)是5選1,我們選干部卻是1對1,這怎么行?

老謝談史
2026-02-24 23:20:42
歷史上唯一一位“女狀元”,白天處理政務(wù),晚上淪為玩物

歷史上唯一一位“女狀元”,白天處理政務(wù),晚上淪為玩物

談史論天地
2026-02-23 10:39:15
2026-02-25 07:43:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14583文章數(shù) 66641關(guān)注度
往期回顧 全部

科技要聞

宇樹科技發(fā)布四足機(jī)器人Unitree As2

頭條要聞

北京獨生女被男友打殘:他隱瞞有兒子 想把戶口上我家

頭條要聞

北京獨生女被男友打殘:他隱瞞有兒子 想把戶口上我家

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經(jīng)要聞

縣城消費「限時繁榮」了十天

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

本地
手機(jī)
房產(chǎn)
數(shù)碼
公開課

本地新聞

春花齊放2026:《駿馬奔騰迎新歲》

手機(jī)要聞

Jolla展示旗下全新旗魚手機(jī)工程機(jī),首批產(chǎn)品今年上半年交付

房產(chǎn)要聞

330萬人涌入!春節(jié)全國樓市,第一個賣爆的區(qū)域出現(xiàn)了!

數(shù)碼要聞

9.9元!小米上架6A自動反充數(shù)據(jù)線:16cm短線、支持120W秒充

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版