国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

數(shù)學(xué)研究智能體Aletheia自主求解FirstProof挑戰(zhàn)成績6/10——由Google Gemini 3 Deep Think驅(qū)動(dòng)

0
分享至

置頂zzllrr小樂公眾號(主頁右上角)數(shù)學(xué)科普不迷路!

本研究在谷歌深度思維 (Google DeepMind)開展。


Aletheia簡介:一款由深度思考(Deep Think)驅(qū)動(dòng)的數(shù)學(xué)研究智能體,可針對研究級數(shù)學(xué)問題實(shí)現(xiàn)迭代式生成、驗(yàn)證與修正。

我們報(bào)告了由 Gemini 3 Deep Think 驅(qū)動(dòng)的數(shù)學(xué)研究智能體 Aletheia(馮志強(qiáng)等人,2026b)在首屆 FirstProof 挑戰(zhàn)中的表現(xiàn)。在挑戰(zhàn)規(guī)定的時(shí)間范圍內(nèi),根據(jù)多數(shù)專家評估,Aletheia(古希臘語:真理) 自主解決了 10 個(gè)問題中的 6 個(gè)(問題 2、5、7、8、9、10);需說明的是,專家僅對問題 8 的評估未達(dá)成一致。為保證完全透明,我們解釋了對 FirstProof 挑戰(zhàn)的理解,并披露了實(shí)驗(yàn)細(xì)節(jié)及評估過程。原始提示詞和輸出結(jié)果可通過以下鏈接獲?。篽ttps://github.com/google-deepmind/superhuman/tree/main/aletheia

作者:Aletheia團(tuán)隊(duì) 2026-2-27

通訊作者

fengtony@google.com ( 馮志強(qiáng)) 、

thangluong@google.com

外部機(jī)構(gòu)

加州大學(xué)伯克利分校(Tony Feng)、

布朗大學(xué)(Junehyuk Jung)、

韓國高等研究院(Sang-hyun Kim)、

康考迪亞大學(xué)(Carlo Pagano)、

加州理工學(xué)院(Sergei Gukov)、

中央研究院(Chiang-Chiang Tsai)、

卡內(nèi)基梅隆大學(xué)(David Woodruff)、

南加州大學(xué)(Adel Javanmard)、

得克薩斯大學(xué)奧斯汀分校(Aryan Mokhtari)。

譯者:zzllrr小樂(數(shù)學(xué)科普公眾號)2026-3-16

1. 引言

FirstProof(Abouzaid 等人,2026)包含 10 個(gè)研究級數(shù)學(xué)問題,這些問題均源于專業(yè)數(shù)學(xué)家的實(shí)際研究工作,旨在評估當(dāng)前人工智能的能力水平。參閱:

FirstProof 的作者將這些問題描述為 “引理”(Lemmas),即中間技術(shù)性命題,而非具有獨(dú)立研究價(jià)值的開放問題 1。問題于 2026 年 2 月 5 日發(fā)布,截止日期為太平洋標(biāo)準(zhǔn)時(shí)間 2026 年 2 月 13 日 23:59,屆時(shí)官方(人工撰寫)解決方案將同步公布。

1 至少有一個(gè)問題(問題 7)此前已被 Weinberger(2023)列為具有研究價(jià)值的開放問題。

本報(bào)告記錄了 Aletheia(馮志強(qiáng)等人,2026b)—— 一款由 Gemini 3 Deep Think(深度思維團(tuán)隊(duì),2026)驅(qū)動(dòng)的數(shù)學(xué)研究智能體 —— 在 FirstProof 挑戰(zhàn)中的表現(xiàn)。Aletheia 針對每個(gè)問題進(jìn)行兩次求解并取最優(yōu)結(jié)果,具體表現(xiàn)如下表 1 所示。

問題編號

Aletheia

(兩次求解最優(yōu)結(jié)果)

專家評估

(正確 / 總評估人數(shù))

P1

無輸出

P2

正確

4/4

P3

無輸出

P4

無輸出

P5

正確

4/4

P6

無輸出

P7

正確

3/3

P8

疑似正確

5/7

P9

正確

4/4

P10

正確

2/2

表 1 | Aletheia 在 FirstProof 挑戰(zhàn)中的表現(xiàn)總結(jié)?!皩<以u估” 列顯示認(rèn)為解決方案正確的專家人數(shù)與參與評估的專家總數(shù)。僅問題 8 的評估未達(dá)成一致。

需要強(qiáng)調(diào)的是,本研究是由 Aletheia 智能體開發(fā)團(tuán)隊(duì)開展的有限范圍研究,評估過程得到了谷歌內(nèi)部其他專家的協(xié)助;該結(jié)果并不代表谷歌在 FirstProof 挑戰(zhàn)中的整體成果。

延續(xù)我們在數(shù)學(xué)和科學(xué)發(fā)現(xiàn)領(lǐng)域人工智能透明度實(shí)踐(Luong 和 Mirrokni,2026)以及在(馮志強(qiáng)等人,2026b)中提出的 “人機(jī)交互(HAI)卡片” 概念,以下提供獲取 FirstProof 問題解決方案的 HAI 卡片:

人機(jī)交互卡片


2. 對挑戰(zhàn)的理解

由于 FirstProof 被定義為無明確規(guī)則的實(shí)驗(yàn)性挑戰(zhàn),我們首先說明對挑戰(zhàn)的理解。FirstProof 作者在 1stproof.org 的常見問題解答(FAQ)中指出:

什么構(gòu)成解決方案?

如果人工智能模型能夠自主生成符合數(shù)學(xué)文獻(xiàn)中普遍認(rèn)可的嚴(yán)謹(jǐn)性和學(xué)術(shù)規(guī)范的證明,我們就認(rèn)為它解決了相應(yīng)問題。具體而言,人工智能不應(yīng)依賴人類輸入任何數(shù)學(xué)思想或內(nèi)容,也不應(yīng)依賴人類幫助其提煉問題核心。引用文獻(xiàn)時(shí)需包含精確的命題編號,且引用對象應(yīng)為同行評審期刊發(fā)表的文章或 arXiv 預(yù)印本。

此外,在論文(Abouzaid 等人,2026)中,作者提到:“…… 目前尚不清楚人工智能系統(tǒng)在無需專家參與的情況下,獨(dú)立解決研究級數(shù)學(xué)問題的能力水平?!?/p>

自主性

盡管有上述指導(dǎo)原則,我們?nèi)詫?“自主解決方案” 的定義存在一定困惑。例如:若人工智能生成了一個(gè)證明,人類評審就某個(gè)技術(shù)點(diǎn)要求澄清,人工智能隨后補(bǔ)充說明以增強(qiáng)證明的嚴(yán)謹(jǐn)性,該結(jié)果是否算作自主解決方案?此類交互在人類同行評審中極為常見。我們認(rèn)為答案可以是 “是”,但需提供完整的交互記錄,且觀察者需認(rèn)可人類輸入未包含任何數(shù)學(xué)思想或內(nèi)容。另一方面,對于 FirstProof 這類級別的研究問題,識(shí)別需要澄清的潛在薄弱點(diǎn)本身就需要專業(yè)知識(shí),因此這類交互無法在無專家參與的情況下進(jìn)行。

另一個(gè)問題是,是否可以利用人類專業(yè)知識(shí)從多個(gè)嘗試結(jié)果中篩選最優(yōu)解決方案。根據(jù)我們對規(guī)則的理解,這一做法并未被禁止,但它會(huì)帶來潛在的巨大性能優(yōu)勢,且與人工智能能力評估的核心目標(biāo)無關(guān)。

我們的挑戰(zhàn)應(yīng)對方案確保了最嚴(yán)格意義上的自主性:在解決方案生成過程中,完全無人類干預(yù)。人類專家僅對該流程的最終輸出進(jìn)行評估,不修改任何內(nèi)容。我們運(yùn)行了兩個(gè)不同的智能體實(shí)例,并為每個(gè)問題指定一個(gè) “首選解決方案”,其評估結(jié)果如表 1 所示。需承認(rèn),這一指定過程確實(shí)依賴了我們的專業(yè)判斷。

正確性

我們將 “正確” 定義為 “經(jīng)過小幅修改后可滿足同行評審流程要求并發(fā)表”,這與 FirstProof 作者提出的標(biāo)準(zhǔn) 2 一致。具體而言,我們并未聲稱生成的解決方案在原始狀態(tài)下已達(dá)到發(fā)表標(biāo)準(zhǔn)。許多解決方案未滿足 “引用文獻(xiàn)需包含精確命題編號且引用對象為同行評審期刊文章或 arXiv 預(yù)印本” 的要求,但符合文獻(xiàn)中普遍采用的引用規(guī)范。

我們強(qiáng)調(diào),這僅是我們對挑戰(zhàn)的理解。挑戰(zhàn)可能存在其他合理的解讀方式,且 FirstProof 作者在(Abouzaid 等人,2026)中明確表示,該挑戰(zhàn)并非旨在成為正式基準(zhǔn)。

2 參考鏈接:https://icarm.zulipchat.com/#narrow/channel/568090-first-proof/topic/Mathematical%20standard/near/573992500

3. 方法與結(jié)果

我們將 FirstProof LaTeX 文件中的問題描述直接復(fù)制粘貼到智能體 Aletheia(Feng 等人,2026b)中,未做任何修改。Aletheia 的輸出結(jié)果會(huì)通過一個(gè)預(yù)定義的驗(yàn)證與提取提示詞(詳見第 A 節(jié))進(jìn)行篩選,該提示詞按照 FirstProof 作者提出的標(biāo)準(zhǔn)設(shè)計(jì),旨在生成 “符合數(shù)學(xué)文獻(xiàn)中普遍認(rèn)可的嚴(yán)謹(jǐn)性和學(xué)術(shù)規(guī)范的證明”。此外,驗(yàn)證與提取提示詞可直接輸出 LaTeX 代碼,確保無需人工干預(yù)即可將響應(yīng)格式化為 LaTeX 文檔。

之后,我們嘗試對該流程的輸出結(jié)果進(jìn)行評估,部分情況下會(huì)征求同事的意見。在此過程中,我們未與模型進(jìn)行任何交互 —— 甚至未就不理解的內(nèi)容提示模型進(jìn)行澄清或補(bǔ)充說明。整體流程如下所示:


由于內(nèi)部權(quán)限原因,在 FirstProof 作者于太平洋標(biāo)準(zhǔn)時(shí)間 2 月 13 日 23:59 上傳官方解決方案之前,我們無法公開我們的結(jié)果。為證明我們的結(jié)果未受官方解決方案的影響,我們于太平洋標(biāo)準(zhǔn)時(shí)間 2 月 13 日 23:07 將解決方案私下發(fā)送給了 FirstProof 作者(同時(shí)附上本報(bào)告的初稿及表 3,表 3 為我們對解決方案正確性的初步評估)。隨后,我們于太平洋標(biāo)準(zhǔn)時(shí)間 2 月 18 日 9:27 公開了解決方案3,F(xiàn)irstProof 主要作者 Mohammed Abouzaid 在同一溝通線程中確認(rèn)了我們在截止日期前已完成解決方案。?

3 公開鏈接:https://icarm.zulipchat.com/#narrow/channel/568090-first-proof/topic/Aletheia’s%20solutions

? 遺憾的是,我們的提交存在一處筆誤:標(biāo)注為 FP10_A.pdf 的文件實(shí)際是 Aletheia B 針對問題 10 的解決方案,應(yīng)命名為 FP10_B.pdf;Aletheia A 針對問題 10 的解決方案未包含在初始提交中,現(xiàn)補(bǔ)充為 FP10_A.pdf。

3.1 Aletheia(兩次求解最優(yōu)結(jié)果)

我們在兩個(gè)不同的基礎(chǔ)模型上運(yùn)行了智能體 Aletheia(Feng 等人,2026b),具體如下:

  • Aletheia A:采用 2026 年 2 月版本的 Gemini 3 Deep Think 作為基礎(chǔ)模型(深度思維團(tuán)隊(duì),2026)。

  • Aletheia B:采用 2026 年 1 月版本的 Gemini 作為基礎(chǔ)模型,相關(guān)參考見(Feng 等人,2026b)。

在 10 個(gè) FirstProof 問題中,我們的智能體針對 6 個(gè)問題(P2、P5、P7、P8、P9、P10)生成了候選解決方案。基于兩次求解最優(yōu)的評估原則,多數(shù)專家認(rèn)為這 6 個(gè)問題均已被正確解決(即僅需小幅修改),但問題 8 的評估未達(dá)成一致:7 名專家中僅有 5 名認(rèn)為其正確。各解決方案的具體評估結(jié)果如表 2 所示,第 3.2 節(jié)將詳細(xì)討論評估過程。

問題編號

Aletheia A

Aletheia B

Zulip

公開評論鏈接

P1

無輸出

無輸出

P2

正確

正確

https://icarm.zulipchat.com//channel/568090-first-proof/topic/Problem.202.20--.20Aletheia/with/574567015

P3

無輸出

無輸出

P4

無輸出

無輸出

P5

正確

理解偏差

https://icarm.zulipchat.com//channel/568090-first-proof/topic/Problem.205.20--.20Aletheia/with/575042104

P6

無輸出

無輸出

P7

嚴(yán)重缺陷

正確

https://icarm.zulipchat.com//channel/568090-first-proof/topic/Problem.207.20--.20Aletheia/with/574990987

P8

不充分

疑似正確

https://icarm.zulipchat.com//channel/568090-first-proof/topic/Problem.208.20--.20Aletheia/with/574569368

P9

正確

正確

https://icarm.zulipchat.com//channel/568090-first-proof/topic/Problem.209.20--.20Aletheia/with/574726804

P10

正確

正確

https://icarm.zulipchat.com//channel/568090-first-proof/topic/Problem.2010.20--.20Aletheia/with/574570445

表 2 | 基于專家共識(shí)的當(dāng)前(截止日期后)結(jié)果評估。問題 8 的專家評估未達(dá)成一致。表中包含各問題在 Zulip 平臺(tái)的公開評論鏈接。

對于其余 4 個(gè)問題(P1、P3、P4、P6),兩個(gè)智能體實(shí)例均未生成解決方案:要么明確輸出 “未找到解決方案”,要么在規(guī)定時(shí)間內(nèi)未返回任何結(jié)果。這種自篩選功能是 Aletheia 的核心設(shè)計(jì)原則之一;我們認(rèn)為,可靠性是擴(kuò)大人工智能在研究級數(shù)學(xué)中應(yīng)用范圍的主要瓶頸。我們推測,考慮到人類專家驗(yàn)證的帶寬有限,許多實(shí)際研究者更愿意犧牲部分原始問題求解能力以換取更高的準(zhǔn)確性。?

? 這是我們開發(fā) Aletheia 的初衷,也是其名稱的由來(Aletheia 意為 “真理”)。

推理成本

Aletheia 在 FirstProof 問題上的推理時(shí)計(jì)算量可大致反映智能體對問題難度的感知。圖 1 展示了每個(gè)候選解決方案的推理成本,以(Feng 等人,2026a)中解決 Erd?s-1051 問題的推理成本為基準(zhǔn)倍數(shù)。需說明的是,本研究使用的兩個(gè)基礎(chǔ)模型與(Feng 等人,2026a)中使用的模型不同,因此該對比僅為參考。所有問題的推理成本均超過了 Erd?s-1051 問題的推理成本。

特別是問題 7,其推理成本較之前觀察到的水平高出一個(gè)數(shù)量級,原因包括生成子智能體(Generator subagent)需要更多計(jì)算資源來生成候選解決方案,且驗(yàn)證子智能體(Verifier subagent)需要更多交互才能通過驗(yàn)證。需注意的是,盡管大多數(shù) FirstProof 問題被描述為作者近期研究中的引理,但問題 7 在 Cappell–Weinberger–Yan 發(fā)表相關(guān)解決方案(該方案與 FirstProof 官方解決方案同步公布)之前,已被 Weinberger(2023)在其著作中列為開放問題。

并非所有問題都需要大量推理資源。Aryan Mokhtari 和 David Woodruff 通過人工協(xié)調(diào)公開可用的 Gemini 3 Deep Think 模型成功解決了問題 10,具體細(xì)節(jié)見附錄 C.7。


圖 1 | 各 FirstProof 問題的推理成本,以(Feng 等人,2026a)中解決 Erd?s-1051 問題的推理成本為基準(zhǔn)倍數(shù)。縱軸為推理成本倍數(shù),橫軸為問題編號(P2、P5、P7、P8、P9、P10),兩條曲線分別代表 Aletheia A 和 Aletheia B。

3.2 評估過程

為評估輸出結(jié)果,我們?yōu)槊總€(gè)問題至少邀請了兩名學(xué)術(shù)數(shù)學(xué)家(部分與谷歌存在部分隸屬關(guān)系)進(jìn)行獨(dú)立評估。當(dāng)專家對評估結(jié)果信心不足時(shí),我們會(huì)征求更多學(xué)術(shù)數(shù)學(xué)家的意見。表 2 總結(jié)了評估結(jié)果,以下為各問題的詳細(xì)評估說明:

  • P2

    4 名專家一致認(rèn)為兩個(gè)解決方案均正確。

  • P5

    專家指出問題表述存在歧義。4 名專家一致認(rèn)為 Aletheia A 的解決方案正確。Aletheia B 對 “切片濾過”(slice filtration)的理解采用了過時(shí)定義,與現(xiàn)代用法不符。因此,評審者將 Aletheia B 的解決方案歸類為 “理解偏差”,未進(jìn)一步驗(yàn)證其數(shù)學(xué)正確性。

  • P7

    3 名專家一致認(rèn)為 Aletheia B 的解決方案正確。Aletheia A 的解決方案存在 “嚴(yán)重缺陷”,其包含兩個(gè)核心論點(diǎn),均等價(jià)于聲稱 “若 σ 是自由作用于流形 M 的 2 階自同構(gòu),則 M 的(緊支撐)有理歐拉示性數(shù)可被 2 整除”。該論點(diǎn)的證明試圖調(diào)用(緊支撐)有理歐拉示性數(shù)的可乘性,但未對 M 施加必要的有限性條件;這一謬誤在官方問題評論中也被提及。

  • P8

    專家認(rèn)為 Aletheia A 的解決方案 “不充分”。對于 Aletheia B 的解決方案,太平洋標(biāo)準(zhǔn)時(shí)間 2 月 13 日截止日期前,3 名外部辛幾何專家均認(rèn)為其正確。但一名內(nèi)部數(shù)學(xué)家提出質(zhì)疑,因此我們征求了更多評估意見,最終邀請了 4 名辛幾何專家和 3 名相關(guān)領(lǐng)域數(shù)學(xué)家參與評估。

  • 結(jié)果顯示,3 名辛幾何專家和 2 名相關(guān)領(lǐng)域數(shù)學(xué)家認(rèn)為該解決方案正確,代表性評價(jià)為:“總體而言,盡管該解決方案并非完美,但將其視為正確證明是合理的?!?其余 1 名辛幾何專家和 1 名相關(guān)領(lǐng)域數(shù)學(xué)家認(rèn)為該證明因細(xì)節(jié)不足而不完整,代表性評價(jià)為:“最薄弱的部分確實(shí)是插值步驟 —— 將多面體拉格朗日曲面頂點(diǎn)處的局部光滑化擴(kuò)展到邊的光滑化。我認(rèn)為有理由要求該步驟提供更多細(xì)節(jié),且兩個(gè)智能體的證明嘗試在這一點(diǎn)上均存在不足。”

經(jīng)分析專家評估意見,我們發(fā)現(xiàn)所有專家對數(shù)學(xué)內(nèi)容的判斷基本一致,分歧主要源于對 “缺失細(xì)節(jié)是否超出小幅修改范圍” 的主觀解讀。沒有專家指出論證存在錯(cuò)誤,但大多數(shù)專家認(rèn)為第 3 步和第 4 步的部分內(nèi)容表述模糊或不夠詳盡(見第 3.2 節(jié)),且解決方案整體需修改后才能發(fā)表。

  • P9

    4 名專家一致認(rèn)為 Aletheia A 的解決方案正確;

  • 2 名專家一致認(rèn)為 Aletheia B 的解決方案正確。

  • P10

    2 名專家一致認(rèn)為 Aletheia A 和 Aletheia B 的解決方案均正確。

3.3 進(jìn)一步對比

Aletheia A 和 Aletheia B 分別針對相同的 6 個(gè)問題生成了候選解決方案。每個(gè)智能體實(shí)例均存在至少一個(gè)假陽性結(jié)果,但通過兩次求解最優(yōu)的策略,我們?yōu)樗?6 個(gè)問題獲得了可信的解決方案。這一結(jié)果表明,與 2025 年 12 月用于解決 Erd?s 問題的 Aletheia 版本(Feng 等人,2026a)相比,Aletheia A 和 Aletheia B 在智能體架構(gòu)和基礎(chǔ)模型方面均有顯著改進(jìn)。

除 Aletheia 外,對公開可用的 Gemini 3 Deep Think 模型的獨(dú)立評估也凸顯了其強(qiáng)大能力。盡管該評估并非嚴(yán)格自主(需兩名人類篩選并整合最優(yōu)輸出),但最終生成的問題 10 解決方案達(dá)到了與 Aletheia A 自主發(fā)現(xiàn)的最優(yōu)理論復(fù)雜度邊界一致的結(jié)果,且推理規(guī)模顯著更??;詳見附錄 C.7。

4. 致謝

感謝 Daniel Alvarez-Gavela、Otis Chodosh、Vincent Cohen-Addad、Laurent Cote、Jim Davis、Alex Davies、Jim Fowler、Javier Gomez-Serrano、Bogdan Georgiev、Vineet Gupta、Euiwoong Lee、Gilad Lerman、Yaguang Li、Hanzhao (Maggie) Lin、Daniel Litt、Chi-Heng Lo、Aranyak Mehta、Mona Merling、Daniel Miao、Agustin Moreno、Danny Xiaolin Shi、George Tsoukalas、Allen Yuan、Yufei Zhao、Daniel Zheng 和 Goran Zuzic 提供的幫助。感謝 Benoit Schillings、Koray Kavukcuoglu、Demis Hassabis 和 Sergey Brin 的支持及對我們挑戰(zhàn)更復(fù)雜問題的鼓勵(lì)。

原文參考文獻(xiàn)

  1. Mohammed Abouzaid、Andrew J. Blumberg、Martin Hairer、Joe Kileel、Tamara G. Kolda、Paul D. Nelson、Daniel Spielman、Nikhil Srivastava、Rachel Ward、Shmuel Weinberger、Lauren Williams. FirstProof, 2026. 鏈接:https://arxiv.org/abs/2602.05192

  2. William G. Dwyer、Clarence W. Wilkerson. Smith 理論再探討(

    Smith theory revisited
    ). 《數(shù)學(xué)年刊》(Ann. of Math. (2)), 127 (1): 191–198, 1988. ISSN 0003-486X, 1939-8980. DOI: 10.2307/1971419. 鏈接:https://doi.org/10.2307/1971419
  3. Tony Feng、Trieu Trinh、Garrett Bingham、Jiwon Kang、Shengtong Zhang、Sang hyun Kim、Kevin Barreto、Carl Schildkraut、Junehyuk Jung、Jaehyeon Seo、Carlo Pagano、Yuri Chervonyi、Dawsen Hwang、Kaiying Hou、Sergei Gukov、Cheng-Chiang Tsai、Hyunwoo Choi、Youngbeom Jin、Wei-Yuan Li、Hao-An Wu、Ruey-An Shiu、Yu-Sheng Shih、Quoc V. Le、Thang Luong. 基于 Gemini 的半自主數(shù)學(xué)發(fā)現(xiàn):Erd?s 問題案例研究(

    Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erd?s Problems
    ), 2026a. 鏈接:https://arxiv.org/abs/2601.22401
  4. Tony Feng、Trieu H. Trinh、Garrett Bingham、Dawsen Hwang、Yuri Chervonyi、Junehyuk Jung、Joonkyung Lee、Carlo Pagano、Sang hyun Kim、Federico Pasqualotto、Sergei Gukov、Jonathan N. Lee、Junsu Kim、Kaiying Hou、Golnaz Ghiasi、Yi Tay、YaGuang Li、Chenkai Kuang、Yuan Liu、Hanzhao Lin、Evan Zheran Liu、Nigamaa Nayakanti、Xiaomeng Yang、Heng-Tze Cheng、Demis Hassabis、Koray Kavukcuoglu、Quoc V. Le、Thang Luong. 邁向自主數(shù)學(xué)研究(

    Towards Autonomous Mathematics Research
    ), 2026b. 鏈接:https://arxiv.org/abs/2602.10177
  5. Thang Luong、Vahab Mirrokni. 借助 Gemini Deep Think 加速數(shù)學(xué)與科學(xué)發(fā)現(xiàn)(

    Accelerating Mathematical and Scientific Discovery with Gemini Deep Think
    ). 鏈接:https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/ 2026 年 2 月
  6. 深度思維團(tuán)隊(duì)(The Deep Think Team). Gemini 3 Deep Think:推動(dòng)科學(xué)、研究與工程進(jìn)步(

    Gemini 3 Deep Think: Advancing science, research and engineering
    ). 鏈接:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/ 2026 年 2 月。訪問日期:2026 年 2 月 17 日
  7. Shmuel Weinberger. 波萊爾主題的變體:基本群在剛性中的作用述評(Variations on a theme of Borel: an essay on the role of the fundamental group in rigidity), 《劍橋數(shù)學(xué)講義》

    Cambridge Tracts in Mathematics
    第 213 卷。劍橋大學(xué)出版社, 劍橋,2023. ISBN 978-1-107-14259-6

參考資料

https://arxiv.org/abs/2602.21201

https://github.com/google-deepmind/superhuman/tree/main/aletheia

https://1stproof.org

https://arxiv.org/abs/2602.05192

https://doi.org/10.2307/1971419

https://arxiv.org/abs/2601.22401

https://arxiv.org/abs/2602.10177

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

小樂數(shù)學(xué)科普近期文章

·開放 · 友好 · 多元 · 普適 · 守拙·

讓數(shù)學(xué)

更加

易學(xué)易練

易教易研

易賞易玩

易見易得

易傳易及

歡迎評論、點(diǎn)贊、在看、在聽

收藏、分享、轉(zhuǎn)載、投稿

查看原始文章出處

點(diǎn)擊zzllrr小樂

公眾號主頁

右上角

置頂★加星

數(shù)學(xué)科普不迷路!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張?zhí)鞇厶S滿了!穿掛脖裙都兜不住好身材,性感又撩人!

張?zhí)鞇厶S滿了!穿掛脖裙都兜不住好身材,性感又撩人!

小椰的奶奶
2026-04-23 18:12:08
神秘消失數(shù)月后突然現(xiàn)身!美國最頭疼的人,悄悄到了巴格達(dá)

神秘消失數(shù)月后突然現(xiàn)身!美國最頭疼的人,悄悄到了巴格達(dá)

混沌錄
2026-04-20 17:21:17
廣西一佳人好漂亮, 身高169cm,體重50kg 美的讓人移不開眼

廣西一佳人好漂亮, 身高169cm,體重50kg 美的讓人移不開眼

動(dòng)物奇奇怪怪
2026-04-15 18:16:01
兒子早戀被叫家長!必須形象管理,畢竟第一次見親家,評論區(qū)炸鍋

兒子早戀被叫家長!必須形象管理,畢竟第一次見親家,評論區(qū)炸鍋

夜深愛雜談
2026-04-21 20:06:20
看短劇掙買菜錢?62歲老人四部手機(jī)兩年“薅”兩千多元 律師提醒有風(fēng)險(xiǎn)

看短劇掙買菜錢?62歲老人四部手機(jī)兩年“薅”兩千多元 律師提醒有風(fēng)險(xiǎn)

封面新聞
2026-04-23 19:56:03
美國務(wù)院要求美在伊朗公民立即離境

美國務(wù)院要求美在伊朗公民立即離境

界面新聞
2026-04-23 10:37:04
CBA公司做出1個(gè)重要決定,更改季后賽賽制!

CBA公司做出1個(gè)重要決定,更改季后賽賽制!

體育哲人
2026-04-23 18:50:04
民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長期一家獨(dú)大政黨

民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長期一家獨(dú)大政黨

李橑在北漂
2026-04-02 10:22:26
美國現(xiàn)在徹底沒希望了,因?yàn)橐呀?jīng)遇到了,世界上最強(qiáng)大的大國崛起

美國現(xiàn)在徹底沒希望了,因?yàn)橐呀?jīng)遇到了,世界上最強(qiáng)大的大國崛起

混沌錄
2026-04-23 16:50:14
特朗普下令發(fā)射核武器遭軍方強(qiáng)硬攔截

特朗普下令發(fā)射核武器遭軍方強(qiáng)硬攔截

時(shí)光在作祟
2026-04-23 18:19:42
緊急通知!2026年起,銀行取錢全部換新,中老年家庭速看避坑!

緊急通知!2026年起,銀行取錢全部換新,中老年家庭速看避坑!

生活新鮮市
2026-04-24 03:54:14
著名書法家、北京市文史館資深館員愛新覺羅·啟驤逝世

著名書法家、北京市文史館資深館員愛新覺羅·啟驤逝世

澎湃新聞
2026-04-23 14:06:27
300475,一季度凈利暴增7835%

300475,一季度凈利暴增7835%

中國基金報(bào)
2026-04-23 22:42:34
打發(fā)叫花子!帶領(lǐng)開拓者打進(jìn)季后賽,結(jié)果只給100萬薪資,被拒絕

打發(fā)叫花子!帶領(lǐng)開拓者打進(jìn)季后賽,結(jié)果只給100萬薪資,被拒絕

你的籃球頻道
2026-04-23 11:12:55
第二個(gè) “富士康” 誕生,年收7771億,員工96萬,郭臺(tái)銘后悔了嗎

第二個(gè) “富士康” 誕生,年收7771億,員工96萬,郭臺(tái)銘后悔了嗎

老謝談史
2026-03-28 21:39:04
皇馬看到希望了!巴薩1-0領(lǐng)先9分,亞馬爾受傷離場,西甲爭冠生變

皇馬看到希望了!巴薩1-0領(lǐng)先9分,亞馬爾受傷離場,西甲爭冠生變

體育知多少
2026-04-23 06:34:43
信任崩塌!馬斯克親口承認(rèn):400萬輛特斯拉無法實(shí)現(xiàn)無人駕駛!

信任崩塌!馬斯克親口承認(rèn):400萬輛特斯拉無法實(shí)現(xiàn)無人駕駛!

燦若銀爛
2026-04-23 19:23:14
楊樂樂后悔全職帶娃落淚,在婚姻中不快樂,汪涵:為什么要和我比

楊樂樂后悔全職帶娃落淚,在婚姻中不快樂,汪涵:為什么要和我比

八斗小先生
2026-04-23 10:25:23
買iPhone17還是等iPhone18?一張圖看懂差一代的真正差距

買iPhone17還是等iPhone18?一張圖看懂差一代的真正差距

小柱解說游戲
2026-04-23 11:29:12
不裝了?馬斯克罕見承認(rèn):美國是第一,但第二到第十全都來自中國

不裝了?馬斯克罕見承認(rèn):美國是第一,但第二到第十全都來自中國

大衛(wèi)聊科技
2026-04-23 12:13:36
2026-04-24 07:19:00
小樂數(shù)學(xué)科普 incentive-icons
小樂數(shù)學(xué)科普
zzllrr小樂,小樂數(shù)學(xué)科普,讓前沿?cái)?shù)學(xué)流行起來~
324文章數(shù) 7關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測

頭條要聞

特朗普:不急于結(jié)束與伊朗戰(zhàn)爭 可伊朗沒時(shí)間了

頭條要聞

特朗普:不急于結(jié)束與伊朗戰(zhàn)爭 可伊朗沒時(shí)間了

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財(cái)經(jīng)要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預(yù)售30.29萬起 嵐圖泰山X8配896線激光雷達(dá)

態(tài)度原創(chuàng)

教育
時(shí)尚
家居
游戲
房產(chǎn)

教育要聞

家長要電子試卷被說派頭大?天津這起家校誤會(huì),沒有真正的贏家!

李昀銳:林深見木

家居要聞

浪漫協(xié)奏 法式風(fēng)格

索尼最美主機(jī)!PS3拋光煥然一新引熱議:完爆PS5

房產(chǎn)要聞

三亞安居房,突然官宣!

無障礙瀏覽 進(jìn)入關(guān)懷版