網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

專訪數(shù)學(xué)家Daniel Litt（丹尼爾?利特）：AI人工智能的數(shù)學(xué)能力或長(zhǎng)期處于不均衡發(fā)展?fàn)顟B(tài)（下）

2026-02-01 00:06:11　來(lái)源: 小樂(lè)數(shù)學(xué)科普

江蘇舉報(bào)

分享至

★置頂zzllrr小樂(lè)公眾號(hào)（主頁(yè)右上角）數(shù)學(xué)科普不迷路！

接上篇：

訪談背景簡(jiǎn)介：

丹尼爾?利特（Daniel Litt）是多倫多大學(xué)數(shù)學(xué)系教授。他一直密切關(guān)注人工智能在推動(dòng)數(shù)學(xué)發(fā)現(xiàn)領(lǐng)域的發(fā)展進(jìn)程，對(duì)此態(tài)度時(shí)而審慎懷疑，時(shí)而滿懷期待。

本期Epoch.ai與其探討的話題包括：當(dāng)下的模型能解決的最難數(shù)學(xué)問(wèn)題究竟是什么；是否有確鑿證據(jù)表明人工智能正推動(dòng)數(shù)學(xué)研究提速；以及人工智能能否攻克千禧年大獎(jiǎng)難題。

他們還探討如何評(píng)估數(shù)學(xué)研究的進(jìn)展，其中包括Epoch.ai全新推出的「FrontierMath前沿?cái)?shù)學(xué)：開(kāi)放式問(wèn)題」基準(zhǔn)測(cè)試 —— 該測(cè)試以數(shù)學(xué)領(lǐng)域具有研究?jī)r(jià)值的未解問(wèn)題為依據(jù)，對(duì)人工智能模型的能力進(jìn)行評(píng)估。

詳情參閱：

訪談人簡(jiǎn)介：

丹尼爾·利特（Daniel Litt）是多倫多大學(xué)數(shù)學(xué)助理教授。他獲得斯坦福大學(xué)博士學(xué)位，研究重點(diǎn)是代數(shù)幾何與數(shù)論之間的相互作用。

格雷格?伯納姆（Greg Burnham）是 Epoch AI 的研究員。在此之前，他曾在Elemental Cognition和Bridgewater Associates工作。他擁有普林斯頓大學(xué)數(shù)學(xué)學(xué)士學(xué)位。

安森（Anson Ho）是 Epoch AI 的研究員。他致力于幫助對(duì)人工智能未來(lái)發(fā)展及其社會(huì)影響進(jìn)行更嚴(yán)謹(jǐn)?shù)睦斫狻?/p>

時(shí)間節(jié)點(diǎn)目錄：

（采訪時(shí)間和內(nèi)容較長(zhǎng)，分成十四小節(jié)，上下兩篇。本篇為下篇，涉及后七小節(jié)）

00:00:00 一、如今人工智能能解決的最難數(shù)學(xué)問(wèn)題是什么？

00:16:08 二、當(dāng)下的人工智能模型對(duì)數(shù)學(xué)研究的助力有多大？

00:23:36 三、垃圾論文、大語(yǔ)言模型生成的證明與審稿危機(jī)

00:27:21 四、人工智能實(shí)現(xiàn)數(shù)學(xué)問(wèn)題的大規(guī)模篩選

00:33:49 五、人工智能何時(shí)能發(fā)展到足以在頂級(jí)數(shù)學(xué)期刊發(fā)表成果的水平？

00:42:15 六、智能的價(jià)值回報(bào)體現(xiàn)在何處？

00:59:50 七、人工智能能否攻克千禧年大獎(jiǎng)難題？

01:11:54 八、數(shù)學(xué)領(lǐng)域還存在大量易解的「低垂果實(shí)」嗎？

01:18:47 九、丹尼爾如何調(diào)整職業(yè)發(fā)展，以適應(yīng)人工智能的發(fā)展進(jìn)程？

01:25:28 十、人工智能數(shù)學(xué)基準(zhǔn)測(cè)試，實(shí)際在評(píng)估什么能力？

01:33:05 十一、開(kāi)放式問(wèn)題基準(zhǔn)測(cè)試的設(shè)計(jì)思路

01:56:35 十二、數(shù)學(xué)家會(huì)相信關(guān)于數(shù)學(xué)猜想的啟發(fā)式論證嗎？

02:01:24 十三、若人工智能攻克「FrontierMath前沿?cái)?shù)學(xué)：開(kāi)放式問(wèn)題」基準(zhǔn)測(cè)試，會(huì)帶來(lái)什么影響？

02:06:53 十四、人工智能是否即將推動(dòng)數(shù)學(xué)研究邁入加速發(fā)展階段？

作者：epoch.ai 2026-1-29

譯者：zzllrr小樂(lè)（數(shù)學(xué)科普公眾號(hào)）2026-1-31

訪談實(shí)錄（下）：

八、數(shù)學(xué)領(lǐng)域還有很多容易解決的問(wèn)題嗎？

[01:11:54]

安森：你在推特上提到過(guò)，解決一個(gè)數(shù)學(xué)問(wèn)題的含金量，取決于前人在這個(gè)問(wèn)題上付出了多少努力。我們是否有可能梳理這些問(wèn)題，量化一下前人的付出？

丹尼爾：可以去看提出這些問(wèn)題的論文，以及這篇論文的引用量。不過(guò)對(duì)于那些已經(jīng)被解決的問(wèn)題，我其實(shí)并不清楚具體數(shù)據(jù)。比如第 124 號(hào)難題的高難度版本目前仍未解決，提出這個(gè)問(wèn)題的論文只有 14 次引用。對(duì)于一篇 1996 年的數(shù)學(xué)論文來(lái)說(shuō)，這個(gè)引用量并不算高。

格雷格：但 14 次引用也并非毫無(wú)意義。

丹尼爾：1996 年發(fā)表的數(shù)學(xué)論文里，有很多引用量為零。而且這 14 次引用，大概率并非都是針對(duì)這個(gè)難題本身 —— 這篇論文里提出了很多問(wèn)題。

格雷格：你知道有多少人在研究p曲率猜想（p-curvature conjecture）嗎？

丹尼爾：非常少。這也是我一直想要攻克的難題，我為它投入了大量精力。目前還在積極研究這個(gè)猜想的人，我估計(jì)我都認(rèn)識(shí)，人數(shù)應(yīng)該不到 20 個(gè)。從歷史來(lái)看，80 年代、90 年代和 21 世紀(jì)初，這個(gè)領(lǐng)域的研究熱度更高，后來(lái)研究者們陷入了瓶頸，熱度也就降了下來(lái)。或許現(xiàn)在相關(guān)領(lǐng)域出現(xiàn)了一些新的思路。

任何一個(gè)連專業(yè)術(shù)語(yǔ)都沒(méi)多少人理解的問(wèn)題，關(guān)注者自然會(huì)很少。目前能完全理解 p 曲率猜想所有術(shù)語(yǔ)的人，可能也就幾千個(gè)。

格雷格：是否存在一種選擇效應(yīng)，讓一些問(wèn)題變成了 “研究者覺(jué)得研究它很沒(méi)面子” 的問(wèn)題？

丹尼爾：比如考拉茲猜想（3n+1猜想），它還很容易吸引一些非專業(yè)的業(yè)余研究者。很多問(wèn)題，專家的看法都是 “我們目前還沒(méi)有合適的方法解決它”，這就難免會(huì)讓人產(chǎn)生一種 “你憑什么覺(jué)得自己能解決” 的質(zhì)疑。（詳情參閱）

對(duì)于那些著名的重大難題，是否有很多研究者在悄悄嘗試，只是沒(méi)有公布成果？或許每個(gè)人都會(huì)偶爾思考這些著名難題，包括那些在相關(guān)領(lǐng)域發(fā)表過(guò)論文的知名學(xué)者。但 “嘗試解決一個(gè)問(wèn)題” 到底意味著什么？很多時(shí)候，人們只是想著 “要是能解決這個(gè)問(wèn)題就好了”，然后就沒(méi)有任何實(shí)際行動(dòng)了。

格雷格：當(dāng)你覺(jué)得 “或許我有一個(gè)值得一試的想法” 時(shí)，是什么感受？

丹尼爾：有時(shí)候會(huì)在半夜醒來(lái)，突然想到一個(gè)絕妙的主意。我思考問(wèn)題的方式主要有兩種：要么從一個(gè)想法出發(fā)，慢慢推演；要么先掌握一種通過(guò)其他途徑想到的新方法，再思考 “這個(gè)方法能解決哪些問(wèn)題”，從中挖掘價(jià)值，這是一種機(jī)會(huì)主義的研究思路。

有時(shí)候我也會(huì)定下明確的目標(biāo)，比如解決某個(gè)問(wèn)題、證明某個(gè)猜想 —— 更準(zhǔn)確地說(shuō)，是先嘗試?yán)斫饽硞€(gè)數(shù)學(xué)對(duì)象，再通過(guò)證明一個(gè)有意義的結(jié)論，來(lái)檢驗(yàn)自己的理解程度。我會(huì)找一個(gè)最簡(jiǎn)單的例子，一個(gè)用現(xiàn)有方法無(wú)法解決的例子，先嘗試攻克它，在這個(gè)過(guò)程中開(kāi)發(fā)新的方法，再看看這種新方法能走多遠(yuǎn)。

格雷格：從數(shù)據(jù)分析的角度來(lái)看，如果把引用量作為評(píng)估指標(biāo)，是否需要進(jìn)行一些非線性的修正？

丹尼爾：引用量的參考價(jià)值可能被高估了 —— 有很多論文引用了黎曼猜想的相關(guān)研究，但其實(shí)并沒(méi)有為解決黎曼猜想做出任何實(shí)質(zhì)性的貢獻(xiàn)。

格雷格：那這樣一來(lái)，引用量這個(gè)指標(biāo)就沒(méi)什么意義了。

丹尼爾：我認(rèn)為用這種方式評(píng)估數(shù)學(xué)問(wèn)題的難度，其實(shí)非常不靠譜。

安森：還存在垃圾論文的問(wèn)題。

丹尼爾：還有大量論文聲稱證明了黎曼猜想，這顯然讓相關(guān)研究的評(píng)估變得更難。計(jì)算機(jī)科學(xué)領(lǐng)域也有很多論文引用了 P 與 NP 問(wèn)題的相關(guān)內(nèi)容，但它們真的推動(dòng)了這個(gè)問(wèn)題的解決嗎？

九、丹尼爾如何適應(yīng)人工智能發(fā)展，調(diào)整自己的職業(yè)發(fā)展規(guī)劃

[01:18:47]

格雷格：在我們深入聊評(píng)估方法之前，想問(wèn)一下，為了在人工智能時(shí)代站穩(wěn)腳跟、謀求發(fā)展，你已經(jīng)做出了哪些調(diào)整，或者有哪些規(guī)劃？

丹尼爾：我正在做一些事，因?yàn)槲翌A(yù)判人工智能的能力會(huì)不斷提升。目前有很多研究者在做數(shù)學(xué)形式化的工作，比如用Lean或其他證明驗(yàn)證軟件將數(shù)學(xué)內(nèi)容形式化，但我并沒(méi)有參與這項(xiàng)工作，因?yàn)槲翌A(yù)計(jì)未來(lái)幾年，能讓人憑直覺(jué)完成形式化的工具會(huì)有大幅改進(jìn)。

格雷格：憑直覺(jué)完成形式化 —— 我再跟你確認(rèn)一下這個(gè)概念。

丹尼爾：當(dāng)然，也有一部分原因是我并非這個(gè)領(lǐng)域的專家，我只是簡(jiǎn)單嘗試過(guò)。而且我并不打算因?yàn)轭A(yù)判人工智能能力會(huì)提升，就改變自己研究的問(wèn)題方向，或是使用的研究方法。

究其根本，我認(rèn)為自己的工作核心不是證明定理，而是理解數(shù)學(xué)對(duì)象。證明定理，只是檢驗(yàn)理解程度的一個(gè)標(biāo)準(zhǔn)。很多定理或猜想，都是研究的 “終點(diǎn)” 而非 “源頭”—— 也就是說(shuō)，如果你能開(kāi)發(fā)出一種方法證明這個(gè)定理，說(shuō)明你已經(jīng)理解了相關(guān)的數(shù)學(xué)內(nèi)容，但研究的真正價(jià)值，在于這份理解本身。

這或許也能解釋，為什么訓(xùn)練人工智能開(kāi)展高質(zhì)量數(shù)學(xué)研究如此困難：我們發(fā)表的論文，大多沒(méi)能傳達(dá)出數(shù)學(xué)研究的真正價(jià)值 —— 研究的核心，是讓人類對(duì)某個(gè)學(xué)科的理解更進(jìn)一步。

格雷格：你腦海中形成這份理解時(shí)的那些想法，并不會(huì)出現(xiàn)在論文里。

丹尼爾：研究者會(huì)努力把自己的直覺(jué)寫進(jìn)論文，但這向來(lái)是個(gè)難題。如果我能直接告訴學(xué)生 “你應(yīng)該這樣理解這個(gè)數(shù)學(xué)對(duì)象”—— 我確實(shí)會(huì)這么說(shuō)，但這并不能傳遞任何有價(jià)值的信息。這只是給了他們一個(gè)線索，需要他們自己去研究這個(gè)數(shù)學(xué)對(duì)象，才能慢慢領(lǐng)悟，而這份直覺(jué)本身，無(wú)法直接傳遞。除了一些高度凝練的表述或隱晦的提示，論文的文字里根本沒(méi)有這份直覺(jué)的痕跡。

格雷格：我能想象到這種情況：你發(fā)表了一篇論文，標(biāo)題是 “某猜想的證明”，但你構(gòu)建相關(guān)理論的過(guò)程曲折得多，而論文里根本沒(méi)有留下多少能讓人工智能學(xué)習(xí)的線索。

丹尼爾：很多研究都是這樣的：證明一個(gè)結(jié)論時(shí)，你通常會(huì)有一個(gè)非常清晰的核心思路，之后會(huì)遇到各種各樣的障礙，可能是因?yàn)槟悴焕斫庾C明過(guò)程中的某個(gè)中間對(duì)象。你會(huì)想辦法繞開(kāi)這些障礙，最終寫出來(lái)的論證過(guò)程看起來(lái)會(huì)非?；逎?。當(dāng)然，你會(huì)試圖在論文里提示 “這才是我真正的研究思路”，但這種提示的效果往往不盡如人意。

那這和人工智能對(duì)我個(gè)人規(guī)劃的影響有什么關(guān)系呢？人工智能無(wú)法替我理解數(shù)學(xué)對(duì)象。正因?yàn)橹庇X(jué)的傳遞如此困難，即便有一個(gè)模型在各方面能力都超過(guò)我，它可能也只能在很小的程度上幫助我理解這些數(shù)學(xué)對(duì)象，甚至可能毫無(wú)幫助。

格雷格：也就是說(shuō)，核心的研究工作，終究還是要靠自己。

丹尼爾：我看到你在推特上引用了一位哲學(xué)家的話，說(shuō)數(shù)學(xué)家的社會(huì)角色，是成為數(shù)學(xué)理解的 “載體”。我特別喜歡這個(gè)說(shuō)法 —— 太貼切了。我很好奇，你是否會(huì)為這種角色感到困擾？如果未來(lái)人工智能能比人類更快地解決任何數(shù)學(xué)問(wèn)題，徹底主導(dǎo)人類的數(shù)學(xué)研究，你會(huì)感到困擾嗎？你還會(huì)繼續(xù)研究數(shù)學(xué)嗎？

丹尼爾：做數(shù)學(xué)研究的一大樂(lè)趣，就是證明一個(gè)結(jié)論時(shí)的那種成就感。這種成就感，未必只有解決未解難題才能獲得?；蛟S會(huì)少了一些虛榮心的滿足，但這份核心的情感體驗(yàn)依然存在。

對(duì)我而言，研究數(shù)學(xué)的真正目標(biāo)，是理解這個(gè)世界。如果未來(lái)社會(huì)的需求，正如佩利所說(shuō)，是讓數(shù)學(xué)家成為人類數(shù)學(xué)理解的 “載體”，讓我們通過(guò)研討會(huì)，向大家解讀人工智能證明的最新重大成果，只要社會(huì)愿意支持這項(xiàng)工作，我會(huì)非常樂(lè)意。

格雷格：就像在后稀缺的烏托邦社會(huì)（post-scarcity utopia）里，這種工作依然有價(jià)值。

丹尼爾：當(dāng)然。而且我認(rèn)為，我們離那個(gè)時(shí)代還很遠(yuǎn)。

格雷格：但只要我們還是現(xiàn)在的自己，就依然會(huì)想要做這份工作。

丹尼爾：這里存在一個(gè)社會(huì)問(wèn)題：如果人工智能模型在數(shù)學(xué)研究的所有領(lǐng)域都比人類更有優(yōu)勢(shì)，或者公眾認(rèn)為它們更有優(yōu)勢(shì) —— 我認(rèn)為后者的可能性更大 —— 社會(huì)還會(huì)愿意支持?jǐn)?shù)學(xué)家的研究工作嗎？這是一個(gè)懸而未決的問(wèn)題，但我希望答案是肯定的。

格雷格：目前來(lái)看，公眾普遍認(rèn)為數(shù)學(xué)研究大多最終會(huì)產(chǎn)生實(shí)際價(jià)值。

丹尼爾：數(shù)學(xué)之所以能產(chǎn)生實(shí)際價(jià)值，一個(gè)重要原因是有人類專家的存在，以及數(shù)學(xué)研究培養(yǎng)出的人力資本。即便是研究最抽象、最純粹數(shù)學(xué)的人，他們作為數(shù)學(xué)理解的 “載體”，本身就具有價(jià)值。無(wú)論未來(lái)的人工智能模型能力多強(qiáng)、創(chuàng)新能力多高，讓人類成為數(shù)學(xué)理解的載體依然有價(jià)值，即便在數(shù)學(xué)研究領(lǐng)域，人工智能已經(jīng)完全超越了人類。

十、人工智能數(shù)學(xué)基準(zhǔn)測(cè)試，究竟在評(píng)估什么？

[01:25:28]

格雷格：我們想繼續(xù)完善數(shù)學(xué)基準(zhǔn)測(cè)試的體系，尤其是 “前沿?cái)?shù)學(xué)” 基準(zhǔn)測(cè)試。但目前來(lái)看，這個(gè)測(cè)試的評(píng)估維度，并沒(méi)有涵蓋所有重要的能力。你認(rèn)為其中最核心的缺失是什么？

丹尼爾：我先說(shuō)說(shuō)我對(duì)基準(zhǔn)測(cè)試評(píng)估內(nèi)容的理解。這類測(cè)試試圖評(píng)估的能力包括：是否理解專業(yè)術(shù)語(yǔ)的含義？是否掌握已有的研究成果？是否熟悉現(xiàn)有的研究方法？能否應(yīng)用這些方法？還有一定的推理能力和創(chuàng)新能力？

但在我看來(lái)，這些基準(zhǔn)測(cè)試最終主要評(píng)估的，還是知識(shí)儲(chǔ)備。人類解決問(wèn)題時(shí)，知識(shí)儲(chǔ)備通常是有限的，所以我們會(huì)怎么做？可能先有一個(gè)思路，研究一段時(shí)間后，發(fā)現(xiàn) “需要把這個(gè)結(jié)論或結(jié)果作為中間步驟”，然后再嘗試證明這個(gè)中間結(jié)論，或者去查閱相關(guān)資料。

證明中間結(jié)論的過(guò)程，甚至發(fā)現(xiàn) “存在這樣一個(gè)可利用的中間結(jié)論” 的過(guò)程，都是高度依賴推理的。但如果一個(gè)模型已經(jīng)記住了所有的數(shù)學(xué)文獻(xiàn)，它早就知道這個(gè)中間結(jié)論的存在，要意識(shí)到這個(gè)結(jié)論能用來(lái)證明目標(biāo)問(wèn)題，就幾乎不需要任何推理了。

當(dāng)你向一個(gè)熟記所有文獻(xiàn)的模型提問(wèn)時(shí)，你其實(shí)并沒(méi)有測(cè)試到那種 “知識(shí)儲(chǔ)備有限的人類解決問(wèn)題時(shí)所展現(xiàn)的核心推理能力”。人類需要自己發(fā)現(xiàn)的那些已有結(jié)論，模型早就知道了。

對(duì)人類而言，很多能測(cè)試出推理能力、并與數(shù)學(xué)專業(yè)能力和研究成就高度相關(guān)的問(wèn)題，對(duì)模型而言，已經(jīng)無(wú)法反映其真正的推理能力了。任何一個(gè)人類，如果能在 “前沿?cái)?shù)學(xué)FrontierMath” 基準(zhǔn)測(cè)試中取得和模型一樣的成績(jī)，大概率會(huì)成為一名非常成功的研究者，但模型并沒(méi)有展現(xiàn)出相應(yīng)的研究能力。這就是原因所在 —— 同一個(gè)問(wèn)題，對(duì)人類和對(duì)模型，測(cè)試的是完全不同的能力。

格雷格：補(bǔ)充一個(gè)你可能不知道的信息：我們深入研究了Gemini 2.5 （谷歌雙子座AI工具）深度思考模型的數(shù)學(xué)能力，還讓它手動(dòng)完成了 “前沿?cái)?shù)學(xué)” 基準(zhǔn)測(cè)試。測(cè)試中的所有問(wèn)題都有三個(gè)評(píng)分維度：背景知識(shí)、執(zhí)行難度、創(chuàng)新要求。執(zhí)行難度主要看解題過(guò)程的長(zhǎng)度，以及需要完成的繁瑣計(jì)算量；背景知識(shí)看解題所需的知識(shí)是否高深、晦澀；而創(chuàng)新要求 —— 我本以為這是三個(gè)維度中，與我們所說(shuō)的推理能力最相關(guān)的一個(gè)。但結(jié)果顯示，Gemini 模型的得分與背景知識(shí)、執(zhí)行難度維度呈負(fù)相關(guān)，而與創(chuàng)新要求維度完全無(wú)關(guān)。

丹尼爾：這很有意思。

格雷格：這恰好印證了你所說(shuō)的現(xiàn)象。即便我們?cè)噲D讓 “前沿?cái)?shù)學(xué)” 基準(zhǔn)測(cè)試覆蓋創(chuàng)新能力這個(gè)維度，但模型解決問(wèn)題的過(guò)程，似乎并沒(méi)有體現(xiàn)出對(duì)這個(gè)維度的感知，也不會(huì)因?yàn)閱?wèn)題的創(chuàng)新要求高而覺(jué)得更難。

丹尼爾：其他模型也呈現(xiàn)出同樣的規(guī)律嗎？Google Gemini（雙子座）模型似乎很少使用合成數(shù)據(jù)，這可能導(dǎo)致它對(duì)一些偏門的專業(yè)領(lǐng)域了解較少。

格雷格：GPT-5 等其他模型也是如此。沒(méi)錯(cuò)，它們確實(shí)缺失了創(chuàng)新能力這一核心維度。

丹尼爾：還有一個(gè)問(wèn)題：人們?cè)噲D設(shè)計(jì)一道難題時(shí)，實(shí)際上，出題者本身都很忙，他們?cè)O(shè)計(jì)的題目，往往是自己已經(jīng)知道解法的。而一道任何人都知道解法的題，顯然可以用現(xiàn)有的方法解決。

或許出題者會(huì)想出一種新方法來(lái)解題，只是還沒(méi)寫進(jìn)論文。但這種方法究竟是真正的創(chuàng)新，還是只是對(duì)出題者而言的新方法，就不得而知了。最終這篇論文發(fā)表，新方法進(jìn)入訓(xùn)練數(shù)據(jù)，這個(gè)問(wèn)題也就無(wú)法再用來(lái)測(cè)試模型開(kāi)發(fā)新方法的能力了。

有時(shí)候，解決一道難題的關(guān)鍵，只是需要在一篇論文里找到一個(gè)公式，代入數(shù)值計(jì)算，而理解這篇論文的專業(yè)術(shù)語(yǔ)，需要大量的背景知識(shí)。但模型的背景知識(shí)儲(chǔ)備量極大，它們能直接讀取 PDF 文獻(xiàn)，然后代入數(shù)值計(jì)算。

格雷格：有時(shí)候，這類測(cè)試最終變成了測(cè)試 “模型能否讀懂 PDF 文獻(xiàn)”。

丹尼爾：沒(méi)錯(cuò)。我的看法是，如果一個(gè)基準(zhǔn)測(cè)試的難度，僅限于人類幾小時(shí)內(nèi)能解決的問(wèn)題，那它很快就會(huì)被模型吃透。人類幾小時(shí)能完成的工作，其實(shí)非常有限。

格雷格：參與我們 “前沿?cái)?shù)學(xué)” 四級(jí)測(cè)試命題的一位研究者說(shuō)，他對(duì)自己出的題特別滿意，因?yàn)檫@道題是他被 “絆住” 后花了兩周時(shí)間研究出來(lái)的。他沒(méi)有直接用自己會(huì)解的題，而是給自己定了一個(gè)目標(biāo) ——“用這些方法設(shè)計(jì)一道題”，然后不斷探索，最終才有了這道題。

丹尼爾：出題者投入的時(shí)間越長(zhǎng)，題目質(zhì)量大概率也會(huì)越高。但這里還有一個(gè)陷阱：如果一個(gè)人刻意想設(shè)計(jì)一道難題，最終設(shè)計(jì)出的，往往是對(duì)他自己而言的難題。比如他會(huì)在自己不擅長(zhǎng)的領(lǐng)域出題。

格雷格：然后就會(huì)覺(jué)得所有內(nèi)容都是新的、有趣的、難的。

丹尼爾：但對(duì)這個(gè)領(lǐng)域的專家而言，這道題可能很簡(jiǎn)單。設(shè)計(jì)一道難題，卻不驗(yàn)證它的實(shí)際難度，最終做出的基準(zhǔn)測(cè)試，很容易就會(huì)被模型吃透。

十一、開(kāi)放式問(wèn)題基準(zhǔn)測(cè)試的設(shè)計(jì)思路

[01:33:05]

格雷格：接下來(lái)聊聊我們正在設(shè)計(jì)的 “開(kāi)放式問(wèn)題” 基準(zhǔn)測(cè)試 —— 目前還只是暫定名。這個(gè)測(cè)試的核心目標(biāo)，是選取目前人類還無(wú)法解決的數(shù)學(xué)開(kāi)放式問(wèn)題。同時(shí)我們還受限于 “自動(dòng)驗(yàn)證” 的要求：即便目前人類不知道答案，一旦人工智能給出一個(gè)答案，我們需要能用程序驗(yàn)證這個(gè)答案是否正確。設(shè)計(jì)這個(gè)測(cè)試，也是為了避開(kāi) “無(wú)法評(píng)估問(wèn)題實(shí)際難度” 的痛點(diǎn)。

丹尼爾：很多開(kāi)放式問(wèn)題的研究，都受限于 “關(guān)注者過(guò)少”，所以這些問(wèn)題的實(shí)際難度，可能并沒(méi)有看起來(lái)那么高。一個(gè)有效的辦法，是讓數(shù)學(xué)家來(lái)評(píng)估 “這道題是否難”，這樣能避免后續(xù)隨意抬高評(píng)價(jià)門檻。

我很認(rèn)可這個(gè)項(xiàng)目的一點(diǎn)是：目前很多人工智能實(shí)驗(yàn)室都投入大量資源解決某個(gè)數(shù)學(xué)問(wèn)題，只是為了對(duì)外宣稱 “我們解決了這個(gè)問(wèn)題”。如果這些資源能被投入到人們真正關(guān)心的問(wèn)題上，會(huì)是一件好事。有些實(shí)驗(yàn)室在做真正的科學(xué)研究，但有些實(shí)驗(yàn)室的主要工作，其實(shí)只是公關(guān)。

格雷格：這個(gè)測(cè)試也能讓我們對(duì)一系列問(wèn)題進(jìn)行 “預(yù)先登記”。當(dāng)某個(gè)實(shí)驗(yàn)室宣稱 “我們的模型解決了這個(gè)問(wèn)題” 時(shí)，我們就能知道，這個(gè)成果的篩選有多刻意。

丹尼爾：開(kāi)放人工智能曾發(fā)表過(guò)一篇論文，他們梳理了一些學(xué)術(shù)會(huì)議的論文，從中挑選問(wèn)題研究，我記得他們選了十個(gè)問(wèn)題，最終解決了一個(gè)。這個(gè)數(shù)據(jù)能讓我們窺見(jiàn)一斑。我認(rèn)為這篇論文，并不能證明人工智能的數(shù)學(xué)能力在加速提升。而且和所有這類研究成果一樣，背后都存在各種復(fù)雜的影響因素。

格雷格：沒(méi)錯(cuò)。如果我們能讓數(shù)學(xué)家來(lái)評(píng)估 “這個(gè)問(wèn)題是否有研究?jī)r(jià)值”，該如何量化這種評(píng)估？我們?cè)撚檬裁礃拥臉?biāo)準(zhǔn)？

丹尼爾：或許可以讓數(shù)學(xué)家給出評(píng)級(jí)，比如 “有價(jià)值”、“非常有價(jià)值”、“極具價(jià)值”，也可以讓他們分析這個(gè)問(wèn)題的研究意義。有時(shí)候，一個(gè)問(wèn)題有研究?jī)r(jià)值，是因?yàn)樗茄芯康?“源頭”—— 解決它能推導(dǎo)出很多有意義的結(jié)論。我理解這個(gè)基準(zhǔn)測(cè)試，主要是尋找能被驗(yàn)證的構(gòu)造性問(wèn)題。

格雷格：我們并非只關(guān)注構(gòu)造性問(wèn)題，但受限于 “自動(dòng)驗(yàn)證” 的要求，選取的問(wèn)題通常都是 “構(gòu)造一個(gè)數(shù)學(xué)對(duì)象” 這類問(wèn)題。

丹尼爾：有些構(gòu)造性問(wèn)題的研究，確實(shí)能產(chǎn)生實(shí)質(zhì)性的研究成果；但有些構(gòu)造性問(wèn)題，只是檢驗(yàn)理解程度的 “基準(zhǔn)”。比如歐拉冪和猜想，因?yàn)楸┝λ阉鞯姆椒ㄐ胁煌?，解決這個(gè)問(wèn)題的過(guò)程，就是檢驗(yàn)研究者理解程度的過(guò)程。要解決它，你必須想出一種巧妙的搜索方法，而這也意味著你已經(jīng)理解了相關(guān)的搜索空間。

格雷格：這些作為 “理解基準(zhǔn)” 的構(gòu)造性問(wèn)題，目前人類都無(wú)法解決，用它們來(lái)評(píng)估人工智能的理解能力，是否公平？

丹尼爾：這取決于問(wèn)題本身。有些問(wèn)題的研究，只是受限于關(guān)注者過(guò)少。很多研究者尋找的數(shù)學(xué)構(gòu)造，目前的研究水平還停留在 “有人在周末用筆記本電腦做了一次簡(jiǎn)單的搜索”。如果人工智能能找到一種更好的構(gòu)造方法，只能說(shuō)明它做了一次嘗試，而人類之前從未嘗試過(guò)。這種成果顯然有價(jià)值，但我們很難判斷，這能反映出人工智能的什么能力。

但也有一些問(wèn)題，比如 M?? 單群的逆問(wèn)題，我認(rèn)為如果能像曼哈頓計(jì)劃一樣集中資源研究，肯定能解決，它絕對(duì)在人類的能力范圍內(nèi)，而且也確實(shí)有很多研究者嘗試過(guò)。

格雷格：我們是否應(yīng)該將 “研究?jī)r(jià)值” 和 “難度” 作為兩個(gè)獨(dú)立的評(píng)估維度？

丹尼爾：這絕對(duì)是兩個(gè)不同的維度，只是二者存在相關(guān)性，因?yàn)槿藗儠?huì)更愿意研究有價(jià)值的問(wèn)題，而那些有價(jià)值卻仍未被解決的問(wèn)題，往往難度都很高。

格雷格：我們之前聊過(guò)抬高評(píng)價(jià)門檻的問(wèn)題。有些情況是，你原本以為某個(gè)問(wèn)題不會(huì)用一種平庸的方法解決，但看到人工智能的解法后發(fā)現(xiàn)，其中毫無(wú)新想法，完全就是硬算出來(lái)的。它確實(shí)證明了結(jié)論，但這個(gè)成果，對(duì)預(yù)測(cè)人工智能的能力發(fā)展，似乎毫無(wú)參考價(jià)值。我們?cè)撊绾翁崆耙?guī)避這種情況？

丹尼爾：我想說(shuō)明的是，如果人工智能解決的是一個(gè)并非因 “關(guān)注者過(guò)少” 而未解的開(kāi)放式問(wèn)題，即便證明過(guò)程只是硬算，這也依然有價(jià)值，我們不能說(shuō) “這個(gè)成果毫無(wú)意義”。硬算的能力，對(duì)數(shù)學(xué)家而言，本身就是一種重要的技能。

格雷格：如果有能力的話，數(shù)學(xué)家自己也會(huì)這么做。

丹尼爾：四色定理的證明，難道就沒(méi)人認(rèn)可嗎？確實(shí)有人質(zhì)疑，但我認(rèn)為這些質(zhì)疑是錯(cuò)誤的。

數(shù)學(xué)研究中，抬高評(píng)價(jià)門檻的現(xiàn)象由來(lái)已久。18、19 世紀(jì)的很多偉大數(shù)學(xué)家，都是計(jì)算高手，而他們當(dāng)時(shí)做的很多計(jì)算工作，現(xiàn)在一個(gè)八年級(jí)的學(xué)生用圖形計(jì)算器就能完成。我們本就是工具的使用者，使用工具解決問(wèn)題，無(wú)可厚非。

格雷格：用各種方法做有價(jià)值的數(shù)學(xué)研究，本就是公平的。但從能力預(yù)測(cè)的角度來(lái)看，如果我們發(fā)現(xiàn)，人工智能解決某個(gè)問(wèn)題的方法，和AlphaProof（阿爾法證明器）解決 2024 年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽第六題的方法如出一轍 —— 都是平庸的硬算，這會(huì)讓人感到震驚。

丹尼爾：有時(shí)候，一個(gè)問(wèn)題在被解決之前，你永遠(yuǎn)不知道它其實(shí)很簡(jiǎn)單，人類數(shù)學(xué)家也會(huì)遇到這種情況。去年，我和艾倫?蘭德斯曼（Aaron Landesman）解決了一個(gè)懸置了 40 年的開(kāi)放式問(wèn)題，但我們沒(méi)有把成果發(fā)表在《數(shù)學(xué)年刊》上，因?yàn)槭潞罂磥?lái)，這個(gè)解法并沒(méi)有什么研究?jī)r(jià)值。這種情況很常見(jiàn)。

或許我們可以這樣做：建立一套明確的標(biāo)準(zhǔn)，判斷一個(gè)成果是否包含真正的新想法，也就是一套事后評(píng)估準(zhǔn)則。我們甚至可以等五年，看看有多少新的研究成果，是基于這個(gè)成果中的想法得出的。

有限域上的相關(guān)猜想，其證明引入了多項(xiàng)式方法，而這個(gè)方法后來(lái)產(chǎn)生了巨大的影響，這篇論文也發(fā)表在了《數(shù)學(xué)年刊》上，從后續(xù)的研究成果來(lái)看，這個(gè)發(fā)表決定是完全合理的。但如果只是用硬算的方法解決了國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽的第六題，這個(gè)解法顯然無(wú)法衍生出任何新的研究成果。

格雷格：我們一直在思考一種難度評(píng)估方法：統(tǒng)計(jì)有多少數(shù)學(xué)家為這個(gè)問(wèn)題付出了努力，付出了多長(zhǎng)時(shí)間，還可以考慮研究者的資歷。如果有 1 到 2 位青年數(shù)學(xué)家嘗試解決這個(gè)問(wèn)題但失敗了，那么人工智能解決了它，對(duì)我們而言，算是多大的突破？

丹尼爾：目前還不清楚，數(shù)學(xué)領(lǐng)域究竟還有多少容易解決的問(wèn)題，有可能數(shù)量非常多。人工智能目前還沒(méi)有開(kāi)始解決有價(jià)值的開(kāi)放式問(wèn)題，這或許能從側(cè)面說(shuō)明，這類問(wèn)題的數(shù)量并不多。但所有問(wèn)題的研究，都受限于關(guān)注者過(guò)少。如果真的有大量容易解決的問(wèn)題，那么人工智能的出現(xiàn)，會(huì)帶來(lái)數(shù)學(xué)研究的巨大突破，基準(zhǔn)測(cè)試也會(huì)變得很簡(jiǎn)單 —— 隨便拿一個(gè)開(kāi)放式問(wèn)題給它，最終都能被解決。

另一方面，也有一些側(cè)面證據(jù)表明，并非所有問(wèn)題的研究都受限于關(guān)注者過(guò)少，數(shù)學(xué)領(lǐng)域的 “低垂果實(shí)” 其實(shí)并不多。當(dāng)研究者真正投入精力研究一個(gè)問(wèn)題時(shí)，要么能解決它，要么會(huì)發(fā)現(xiàn)它確實(shí)很難。

格雷格：你為什么會(huì)有這樣的感受？

丹尼爾：那些著名的未解猜想，證明過(guò)程卻非常簡(jiǎn)短的，這樣的例子其實(shí)寥寥無(wú)幾。如果數(shù)學(xué)領(lǐng)域真的有大量容易解決卻未被解決的問(wèn)題，我們應(yīng)該會(huì)經(jīng)?？吹窖芯空甙l(fā)現(xiàn)并解決這類問(wèn)題的案例。這種情況確實(shí)存在，但非常罕見(jiàn)。

通常來(lái)說(shuō)，一個(gè)重要猜想的解決，并非只引入一個(gè)簡(jiǎn)單的新想法，而是會(huì)引入多個(gè)新想法，或者依賴于該領(lǐng)域的諸多其他研究進(jìn)展。你能從證明過(guò)程中，清晰地看到解決這個(gè)問(wèn)題所需的各項(xiàng)突破。

當(dāng)然，我們并非總能提前看到這些突破。有時(shí)候，你能證明一個(gè)結(jié)論，只是因?yàn)槟阈枰淖詈笠粋€(gè)中間結(jié)論，剛被其他人證明，恰好能用上；有時(shí)候，這個(gè)中間結(jié)論已經(jīng)發(fā)表在文獻(xiàn)中二十年了，只是你才發(fā)現(xiàn)。

我們每個(gè)人都有過(guò)這樣的經(jīng)歷：看到一篇新發(fā)表的論文，會(huì)想 “哦，我早就知道這個(gè)核心想法了，要是我當(dāng)時(shí)能意識(shí)到它能解決這個(gè)問(wèn)題就好了”。我最喜歡的一篇論文就是如此，它的核心想法，來(lái)自我?guī)啄昵霸跀?shù)學(xué)問(wèn)答網(wǎng)站MathOverflow上提的一個(gè)問(wèn)題的回答，我當(dāng)時(shí)看到這個(gè)回答時(shí)，腸子都悔青了。

格雷格：對(duì)于這個(gè)開(kāi)放式問(wèn)題基準(zhǔn)測(cè)試，我們被一個(gè)硬性、惱人且不自然的條件束縛著 —— 自動(dòng)驗(yàn)證，我們需要用計(jì)算機(jī)程序來(lái)判斷答案是否正確。這個(gè)條件的影響有多大？

丹尼爾：理論上，這并不是一個(gè)限制。任何數(shù)學(xué)構(gòu)造，排除不完備性的問(wèn)題，都可以附上一個(gè)能被驗(yàn)證的證明過(guò)程。但在實(shí)際操作中，這確實(shí)是一個(gè)實(shí)實(shí)在在的限制，因?yàn)槲覀兊馁Y源有限，無(wú)法讓研究者為所有問(wèn)題編寫驗(yàn)證程序。

格雷格：我們目前只能選取 “普通的計(jì)算機(jī)程序就能驗(yàn)證答案” 的問(wèn)題。

丹尼爾：所以第一個(gè)限制就是，很多數(shù)學(xué)領(lǐng)域和有價(jià)值的問(wèn)題，都不屬于這類可被程序驗(yàn)證的問(wèn)題。比如代數(shù)幾何的很多領(lǐng)域，就沒(méi)有這類問(wèn)題，數(shù)論的一些領(lǐng)域也是如此，不過(guò)計(jì)算數(shù)論領(lǐng)域有很多漂亮的可驗(yàn)證問(wèn)題。

這個(gè)條件帶來(lái)的核心限制，其實(shí)是對(duì)問(wèn)題研究?jī)r(jià)值的篩選。有些問(wèn)題，比如反伽羅瓦問(wèn)題，既需要構(gòu)造可驗(yàn)證的數(shù)學(xué)對(duì)象，也有很高的研究?jī)r(jià)值，但這類問(wèn)題非常少見(jiàn)。大多數(shù)情況下，研究者需要構(gòu)造的是一系列無(wú)限的數(shù)學(xué)對(duì)象，而這類構(gòu)造的驗(yàn)證難度要大得多。

格雷格：我發(fā)現(xiàn)有一類問(wèn)題很適合這個(gè)測(cè)試 —— 零知識(shí)證明相關(guān)問(wèn)題。比如需要構(gòu)造一個(gè)無(wú)限序列，我們不需要驗(yàn)證整個(gè)序列，只需要驗(yàn)證第 297 項(xiàng)即可。

丹尼爾：這是一個(gè)非常好的思路，但很快就會(huì)遇到實(shí)際問(wèn)題，除非驗(yàn)證的速度能極快。通常來(lái)說(shuō)，我們最多也就驗(yàn)證前五項(xiàng)。即便是反伽羅瓦問(wèn)題，我們可以提出驗(yàn)證要求，但大概率驗(yàn)證到前 3 到 4 項(xiàng)之后，就不具備實(shí)操性了。

所以這個(gè)條件帶來(lái)的限制是非常大的。我們希望這個(gè)基準(zhǔn)測(cè)試中，構(gòu)造數(shù)學(xué)對(duì)象的能力，能成為人工智能理解能力或巧妙搜索能力的一個(gè)參考指標(biāo)，但往往很難判斷這一點(diǎn)。有時(shí)候，我們有證據(jù)表明人類研究者嘗試過(guò)但失敗了，所以能確定，人類目前缺失了某種能力；但有時(shí)候，人類研究者已經(jīng)用一些巧妙的思路解決了類似的問(wèn)題，而這個(gè)問(wèn)題卻毫無(wú)進(jìn)展。

格雷格：確實(shí)有一些問(wèn)題，每一次新的構(gòu)造，都需要一個(gè)漂亮的新想法。如果人工智能能給出一個(gè)新的構(gòu)造，我們會(huì)希望背后也有一個(gè)漂亮的新想法支撐。

我之前給你發(fā)過(guò)一份問(wèn)題清單，我們的目標(biāo)是讓清單中的問(wèn)題覆蓋不同的難度等級(jí)。在難度較低的一端，我們擔(dān)心的是，出題的博士后當(dāng)時(shí)可能狀態(tài)不好，出的題在某些方面，難度甚至不如國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽的第一題。不過(guò)我們可以用統(tǒng)計(jì)學(xué)的方法規(guī)避這個(gè)問(wèn)題。我也很好奇難度較高的一端 —— 數(shù)學(xué)領(lǐng)域最有價(jià)值、最難的問(wèn)題，往往抽象性也更高。

丹尼爾：這可能涉及到莫拉維克（Moravec）悖論：數(shù)學(xué)問(wèn)題的難度，一方面在于需要高強(qiáng)度的推理，另一方面在于需要掌握大量的專業(yè)術(shù)語(yǔ)，在腦海中構(gòu)建一套龐大的理論體系。

代數(shù)幾何素來(lái)以難度高著稱，這很可能只是因?yàn)槿祟惐旧聿⒉簧瞄L(zhǎng)這個(gè)領(lǐng)域，而且從事該領(lǐng)域研究的人類研究者本就很少。

格雷格：沒(méi)錯(cuò)，還是關(guān)注者過(guò)少的問(wèn)題。對(duì)于我發(fā)給你的那份問(wèn)題清單，你有沒(méi)有直觀的感受，哪些問(wèn)題 “難度高得多，也更有研究?jī)r(jià)值”？

丹尼爾：有幾個(gè)問(wèn)題給我的印象很深。比如 M??單群的逆問(wèn)題，我可以明確說(shuō)，如果這個(gè)問(wèn)題被解決，我會(huì)非常興奮。我認(rèn)為集中資源研究的話，人類能解決這個(gè)問(wèn)題，而它的解決，也會(huì)是一件大事。無(wú)論是人類還是人工智能解決了它，我都會(huì)無(wú)比興奮。

還有一些關(guān)于無(wú)理性的問(wèn)題。70 年代末，阿佩里（Apéry）證明了黎曼澤塔zeta函數(shù)ζ(3)是無(wú)理數(shù)，也就是所有正整數(shù)的立方的倒數(shù)和是無(wú)理數(shù)，這個(gè)證明堪稱神奇。他在一次會(huì)議上公布了這個(gè)證明，當(dāng)時(shí)所有人都不敢相信，直到大家回去驗(yàn)證后，才驚嘆于證明的精妙。后來(lái)研究者們發(fā)現(xiàn)，這個(gè)證明與深?yuàn)W的 G-函數(shù)理論相關(guān)。

而相關(guān)的開(kāi)放式問(wèn)題是，尋找一系列整數(shù)或冪級(jí)數(shù)，讓阿佩里的方法能應(yīng)用于其他有意義的常數(shù)。扎吉爾（Zagier）是一位非常資深的數(shù)學(xué)家，他做了大量的計(jì)算，試圖找到類似的序列，取得了一些小成果，找到了 6 到 7 個(gè)例子。

格雷格：這些例子，都不是你之前認(rèn)為最有研究?jī)r(jià)值的那些常數(shù)吧？

丹尼爾：近期，卡萊加里（Calegari）、季米特洛夫（Dimitrov）和唐云清在這個(gè)領(lǐng)域取得了新的進(jìn)展。他們沒(méi)有尋找新的序列，而是想出了新的方法，對(duì)阿佩里的通用方法進(jìn)行了漂亮的改進(jìn)，讓這個(gè)方法能應(yīng)用于更廣泛的序列。我可以明確說(shuō)，這個(gè)問(wèn)題的難度很高，有很多研究者都為它付出了努力。

十二、數(shù)學(xué)家會(huì)相信關(guān)于猜想的啟發(fā)式論證嗎？

[01:56:35]

格雷格：我們面臨的另一個(gè)挑戰(zhàn)是，希望選取的問(wèn)題都是有解的。

丹尼爾：你們想要選取的是有確定答案的問(wèn)題，也就是正確的猜想。但要判斷一個(gè)猜想是否正確，本身就非常難，更不用說(shuō)證明它了。

格雷格：如果一個(gè)熟悉某領(lǐng)域的數(shù)學(xué)家告訴我們，他有 80% 的把握，這個(gè)問(wèn)題會(huì)朝某個(gè)方向解決，只是他自己無(wú)法構(gòu)造出相關(guān)的數(shù)學(xué)對(duì)象，你會(huì)有多相信他的判斷？

丹尼爾：比隨機(jī)猜測(cè)的準(zhǔn)確率高一點(diǎn)，但高不了多少。數(shù)學(xué)家的觀點(diǎn)總是在變化。比如你清單中的一個(gè)問(wèn)題：尋找秩至少為 30 的橢圓曲線。長(zhǎng)期以來(lái)，這個(gè)領(lǐng)域的所有人都認(rèn)為，橢圓曲線的秩是無(wú)界的，但現(xiàn)在，大部分研究者認(rèn)為，橢圓曲線的秩是有界的。

格雷格：真的嗎？

丹尼爾：近期有不少啟發(fā)式的研究支持這個(gè)觀點(diǎn)，不過(guò)也有一些研究者對(duì)此表示懷疑。人們對(duì)猜想正確性的判斷一直在變，比如霍奇猜想，大部分代數(shù)幾何學(xué)家認(rèn)為它是正確的，但也有很多人持反對(duì)意見(jiàn)。

格雷格：有些情況下，研究者已經(jīng)證明了某種數(shù)學(xué)構(gòu)造是存在的，但就是無(wú)法具體構(gòu)造出來(lái)。

丹尼爾：我其實(shí)很喜歡這類問(wèn)題。比如用概率方法得出的拉姆齊數(shù)（Ramsey numbers）的界，研究者已經(jīng)證明了這個(gè)界的存在，而相關(guān)的開(kāi)放式問(wèn)題，就是尋找具體的構(gòu)造。我目前正在研究的一個(gè)問(wèn)題，也屬于這類：塞爾（Serre）提出，需要為一些用非構(gòu)造性方法證明存在的數(shù)學(xué)對(duì)象，找到具體的構(gòu)造，而我正在做這項(xiàng)工作。構(gòu)造性的證明和非構(gòu)造性的證明，有著天壤之別，構(gòu)造性的證明能讓你獲得更多的洞見(jiàn)。

安森：有哪些經(jīng)典的啟發(fā)式論證，或是這類論證的典型例子，能讓研究者在沒(méi)有完整證明的情況下，改變對(duì)猜想的判斷？

丹尼爾：數(shù)論領(lǐng)域，用隨機(jī)模型研究數(shù)論對(duì)象的做法，由來(lái)已久。比如，我們可以認(rèn)為素?cái)?shù)的分布，類似于滿足某些性質(zhì)的隨機(jī)整數(shù)集合，然后構(gòu)造一個(gè)滿足這些性質(zhì)的隨機(jī)序列，研究這個(gè)序列幾乎必然具備的性質(zhì)，進(jìn)而猜測(cè)素?cái)?shù)也具備這些性質(zhì)。

研究橢圓曲線時(shí)，我們也會(huì)先梳理出它的所有性質(zhì)，構(gòu)造一個(gè)滿足這些性質(zhì)的隨機(jī)模型，再猜測(cè)橢圓曲線的性質(zhì)。一個(gè)最基礎(chǔ)的例子：某個(gè)幾何或數(shù)論問(wèn)題中，出現(xiàn)了一個(gè) n 階方陣，我們可以假設(shè)這個(gè)方陣的行為，和一個(gè)隨機(jī)的 n 階方陣一致。

梅蘭妮?馬切特?伍德（Melanie Matchett Wood）和她的合作者做了一項(xiàng)漂亮的研究，他們研究了整數(shù)隨機(jī)矩陣，并基于此對(duì)橢圓曲線及相關(guān)數(shù)論對(duì)象做出了預(yù)測(cè)。這項(xiàng)研究背后有定理支撐 —— 該定理指出，滿足 x、y、z 性質(zhì)的隨機(jī)對(duì)象，會(huì)具備某類特定性質(zhì)。

一個(gè)經(jīng)典的例子是數(shù)域的類群，我們假設(shè)它的行為，和按照某種分布生成的隨機(jī)交換群一致，進(jìn)而猜測(cè)，如果按照某種自然的順序羅列數(shù)域，那么滿足 X、Y、Z 性質(zhì)的數(shù)域的比例，和滿足這些性質(zhì)的隨機(jī)交換群的比例一致。這就是科恩 - 倫斯特拉（Cohen-Lenstra）啟發(fā)式，它也是目前數(shù)論和算術(shù)統(tǒng)計(jì)領(lǐng)域的重要研究動(dòng)力。

十三：如果人工智能攻克了 “Frontier Math前沿?cái)?shù)學(xué)：開(kāi)放式問(wèn)題” 基準(zhǔn)測(cè)試會(huì)怎樣？

[2:01:24]

格雷格：如果人工智能徹底碾壓了這個(gè)基準(zhǔn)測(cè)試，解決了我們討論的這類問(wèn)題，那我們所處的世界，會(huì)變成什么樣？

丹尼爾：我會(huì)感到無(wú)比興奮?？梢韵胍?jiàn)，人工智能找到這些數(shù)學(xué)構(gòu)造的方法，至少在很大程度上，會(huì)是有研究?jī)r(jià)值的。

有一個(gè)值得思考的問(wèn)題：人工智能解決這類構(gòu)造性問(wèn)題的能力，與它的其他能力之間，存在怎樣的相關(guān)性？構(gòu)造性問(wèn)題有明確的獎(jiǎng)勵(lì)信號(hào)，我們可以針對(duì)性地訓(xùn)練模型，讓它專注于解決這類問(wèn)題，但很難說(shuō)這個(gè)獎(jiǎng)勵(lì)信號(hào)，是否能讓模型的能力遷移到證明類問(wèn)題上。當(dāng)然，證明類問(wèn)題的答案，也是可以被驗(yàn)證的。

格雷格：但或許需要等驗(yàn)證的體系更加完善后，再針對(duì)證明類問(wèn)題訓(xùn)練模型。

丹尼爾：對(duì)我而言，關(guān)于人工智能數(shù)學(xué)能力未來(lái)發(fā)展的一個(gè)核心問(wèn)題，是模型的能力遷移性有多強(qiáng)。如果每發(fā)現(xiàn)或發(fā)明一個(gè)新的數(shù)學(xué)對(duì)象，都需要從頭訓(xùn)練一個(gè)新的模型，那么人工智能的發(fā)展，會(huì)和模型能快速掌握新對(duì)象并展開(kāi)研究的情況，截然不同。

甚至可以說(shuō)，模型在代數(shù)幾何領(lǐng)域的通用知識(shí)和能力，能否遷移到 “代數(shù)幾何 + 微小拓展” 的領(lǐng)域，都是一個(gè)問(wèn)題。過(guò)去十年，數(shù)學(xué)家提出了十種關(guān)于 “空間” 的新定義，而人工智能面臨的問(wèn)題，甚至不只是持續(xù)學(xué)習(xí) —— 即便模型能學(xué)習(xí)這些新定義，它是否能像人類一樣，具備運(yùn)用這些定義開(kāi)展研究的能力，還是一個(gè)未知數(shù)。

我們現(xiàn)在討論的，是一個(gè)特殊情況：模型非常擅長(zhǎng)構(gòu)造可驗(yàn)證的數(shù)學(xué)對(duì)象。但這種能力，與更廣泛的數(shù)學(xué)研究能力之間的相關(guān)性，仍未可知。但可以肯定的是，這種能力的出現(xiàn)，會(huì)是一個(gè)劃時(shí)代的突破。

格雷格：至少在數(shù)學(xué)領(lǐng)域，絕對(duì)是劃時(shí)代的。而對(duì)于人工智能的整體能力而言，這取決于模型的能力遷移性如何。它的能力可能非常狹窄，就像我們通過(guò)不斷優(yōu)化，讓人工智能在棋牌游戲中取勝一樣。

丹尼爾：目前，AlphaEvolve（阿爾法進(jìn)化）已經(jīng)能做出一些數(shù)學(xué)構(gòu)造了，雖然它還無(wú)法完成有價(jià)值的證明，但已經(jīng)能做出有意義的構(gòu)造。

格雷格：你在推特上明確表示過(guò)，AlphaEvolve做出的構(gòu)造，研究?jī)r(jià)值有限。

丹尼爾：這些構(gòu)造的研究?jī)r(jià)值，主要在于它們是由自動(dòng)化系統(tǒng)完成的。但我們可以想象，未來(lái)的迭代版本，能做出本身就具備重要獨(dú)立研究?jī)r(jià)值的構(gòu)造。

格雷格：最后一個(gè)我真正關(guān)心的問(wèn)題：人工智能的這種能力，不僅能遷移到數(shù)學(xué)的其他領(lǐng)域，還能遷移到其他科學(xué)領(lǐng)域、研發(fā)領(lǐng)域嗎？如果未來(lái)人工智能能持續(xù)解決有價(jià)值的數(shù)學(xué)問(wèn)題，而且并非依靠AlphaProof（阿爾法證明器）這類高度專業(yè)化的方法，這會(huì)對(duì)其他科學(xué)研究、人工智能自身的研發(fā)，帶來(lái)什么影響？

丹尼爾：我的看法是，目前人工智能無(wú)法自主開(kāi)展高質(zhì)量數(shù)學(xué)研究的核心障礙，和它無(wú)法完成任何有經(jīng)濟(jì)價(jià)值的工作的障礙，是一致的：有時(shí)候需要?jiǎng)?chuàng)新能力，需要適應(yīng)新的方法，需要學(xué)習(xí)新的知識(shí)，需要為一項(xiàng)工作投入大量的時(shí)間，而這些，都是目前的人工智能系統(tǒng)難以做到的。

我認(rèn)為，如果這些障礙被攻克，模型會(huì)成為非常優(yōu)秀的數(shù)學(xué)研究者，而攻克這些障礙，也是模型具備高水平數(shù)學(xué)研究能力的必要條件。

格雷格：有一個(gè)問(wèn)題：是否存在一種特殊的要素，讓數(shù)學(xué)研究的難度獨(dú)樹(shù)一幟，以至于數(shù)學(xué)成為人工智能邁向具有社會(huì)變革意義的通用智能過(guò)程中，最后被攻克的領(lǐng)域之一？

丹尼爾：我認(rèn)為這種可能性非常小。我們很難說(shuō)清，開(kāi)展高質(zhì)量的數(shù)學(xué)研究，究竟需要哪些能力，這本身就是一個(gè)需要內(nèi)省的問(wèn)題。但有證據(jù)表明，它需要?jiǎng)?chuàng)新能力，需要長(zhǎng)期投入的毅力。

當(dāng)然，也有可能事實(shí)并非如此，如果是這樣，那么數(shù)學(xué)領(lǐng)域的發(fā)展，可能會(huì)領(lǐng)先于其他領(lǐng)域。但我認(rèn)為，數(shù)學(xué)研究并不存在什么特殊的 “獨(dú)門要素”，我的研究工作，和其他人的工作，本質(zhì)上并沒(méi)有太大區(qū)別。當(dāng)然，我會(huì)花更多的時(shí)間躺在沙發(fā)上，盯著墻，單純地思考問(wèn)題，但這些工作所需的核心能力，和其他任何有經(jīng)濟(jì)價(jià)值的工作，其實(shí)都是相通的。

十四、人工智能即將推動(dòng)數(shù)學(xué)研究加速發(fā)展嗎？

[02:06:53]

格雷格：還有哪些問(wèn)題，是我們應(yīng)該問(wèn)但還沒(méi)問(wèn)的？

丹尼爾：我想再多說(shuō)一點(diǎn)：這一切的核心，其實(shí)是開(kāi)展不同數(shù)學(xué)研究活動(dòng)的邊際成本。我認(rèn)為人工智能會(huì)帶來(lái)重大影響的領(lǐng)域，是讓 “嘗試解決一個(gè)問(wèn)題” 的邊際成本變得極低。

很多猜想的研究，都存在這樣的情況：你其實(shí)應(yīng)該寫一個(gè)計(jì)算機(jī)程序，做一些計(jì)算驗(yàn)證，但你只是懶得做。解決這類猜想，并不需要能力多強(qiáng)的人工智能系統(tǒng)，而我們已經(jīng)看到，很多這類猜想正在被人工智能解決。我認(rèn)為這是一件意義重大的事。

格雷格：這會(huì)讓數(shù)學(xué)研究的發(fā)展速度，提升多少？

丹尼爾：我并不認(rèn)為這會(huì)帶來(lái)多大的 “加速”，數(shù)學(xué)研究本身存在一種 “成本”—— 你必須動(dòng)手嘗試，而降低這種成本，本身就有重要意義，即便研究的核心瓶頸并不在此。

數(shù)學(xué)研究的核心障礙，始終是：你需要有一個(gè)好的想法。大多數(shù)人一年也就只有幾個(gè)好想法，我目前還不清楚，人工智能能在多大程度上幫助人類產(chǎn)生好想法。但有時(shí)候，研究并不需要好想法，只需要坐下來(lái)，硬算完成即可。而判斷一個(gè)問(wèn)題是否需要好想法，本身就是一種非常重要的能力。

即便人工智能的能力不再提升，數(shù)學(xué)研究中的很多摩擦和阻礙，也會(huì)逐漸消失，而這，也是我認(rèn)為人工智能會(huì)帶來(lái)最多進(jìn)展的領(lǐng)域。

格雷格：也就是說(shuō)，你認(rèn)為人工智能目前給數(shù)學(xué)研究帶來(lái)的影響，并非讓研究速度出現(xiàn)突破性的提升，而是消除了研究中的諸多阻礙，這是你理解人工智能對(duì)數(shù)學(xué)研究當(dāng)下價(jià)值的核心視角。

丹尼爾：說(shuō)到 “加速發(fā)展”，我非常希望能找到一種方法，將這個(gè)概念量化，真正去評(píng)估：我們是否真的在經(jīng)歷數(shù)學(xué)研究的加速發(fā)展？人類歷史上，是否出現(xiàn)過(guò)這樣的加速？隨著時(shí)間的推移，數(shù)學(xué)家的人均研究產(chǎn)出，是否有所提升？即便有了這么多新工具，這個(gè)問(wèn)題的答案，對(duì)我而言依然不明確。該如何量化這個(gè)問(wèn)題？我們可以看引用量，但這是一個(gè)非常糟糕的參考指標(biāo)，而且它還和人口數(shù)量高度相關(guān)。

格雷格：在我們結(jié)束訪談之前，未來(lái)幾個(gè)月，有哪些事是你比較期待的？

丹尼爾：八月份的時(shí)候，我還說(shuō)過(guò)，“以人工智能目前的能力，還沒(méi)有解決很多稍有研究?jī)r(jià)值的猜想，這一點(diǎn)很奇怪”。而現(xiàn)在，我認(rèn)為這類猜想的解決，已經(jīng)開(kāi)始出現(xiàn)了。

未來(lái)一年內(nèi)，會(huì)有更多這樣的猜想被解決 —— 這些問(wèn)題沒(méi)人真正深入研究過(guò)，只是研究者隨手寫下的問(wèn)題，但依然有一定的研究?jī)r(jià)值，而人工智能會(huì)自主解決它們。我認(rèn)為這種情況的可能性非常大。

格雷格：未來(lái)我們肯定會(huì)有很多機(jī)會(huì)，推出緊急播客來(lái)解讀這些成果。大家可以關(guān)注丹尼爾的推特，這里絕對(duì)是了解人工智能與數(shù)學(xué)研究相關(guān)資訊的優(yōu)質(zhì)平臺(tái)。非常感謝你接受我們的訪談。

丹尼爾：也非常感謝你們的邀請(qǐng)，能參加這次訪談，我很開(kāi)心。

格雷格：非常愉快的交流。

原文參考資料：

歐拉冪和猜想：

蘭德與帕金（Lander & Parkin，1966 年，首個(gè)反例）https://www.ams.org/journals/bull/1966-72-06/S0002-9904-1966-11654-3/S0002-9904-1966-11654-3.pdf

埃爾基斯（Elkies，1988 年，四次冪情形）https://www.ams.org/journals/mcom/1988-51-184/S0025-5718-1988-0930224-9/S0025-5718-1988-0930224-9.pdf

埃斯諾爾特與格羅申尼希（Esnault & Groechenig，相伴理論與朗蘭茲綱領(lǐng)）https://arxiv.org/abs/1707.00752

德利涅（Deligne）對(duì)韋伊猜想的證明（1974 年）http://www.numdam.org/item/PMIHES_1974__43__273_0/

澤塔ζ函數(shù)值的無(wú)理性：

阿佩里（Apéry）的證明（1978-1979 年）http://www.numdam.org/item/AST_1979__61__11_0/

范德普滕（Van der Poorten）的闡釋https://doi.org/10.1007/BF03028234

扎吉爾（Zagier）的計(jì)算https://people.mpim-bonn.mpg.de/zagier/files/tex/AperylikeRecEqs/fulltext.pdf

卡萊加里 - 季米特洛夫 - 唐云清（Calegari-Dimitrov-Tang）的近期進(jìn)展https://arxiv.org/abs/2408.15403

數(shù)論中的隨機(jī)模型：

梅蘭妮?馬切特?伍德（Melanie Matchett Wood）關(guān)于隨機(jī)矩陣的研究https://doi.org/10.1353/ajm.2019.0008

科恩 - 倫斯特拉（Cohen-Lenstra）啟發(fā)式https://doi.org/10.1007/BFb0099440

提及的千禧年大獎(jiǎng)難題：

黎曼猜想https://www.claymath.org/millennium/riemann-hypothesis/

霍奇猜想https://www.claymath.org/millennium/hodge-conjecture/

貝赫和斯維訥通 - 戴爾（BSD）猜想https://www.claymath.org/millennium/birch-and-swinnerton-dyer-conjecture/

納維 - 斯托克斯方程https://www.claymath.org/millennium/navier-stokes-equation/

前沿?cái)?shù)學(xué)：開(kāi)放式問(wèn)題基準(zhǔn)測(cè)試 https://epoch.ai/frontiermath/open-problems

參考資料

https://epoch.ai/epoch-after-hours/daniel-litt-ai-math-capabilities-could-be-jagged-for-a-long-time

小樂(lè)數(shù)學(xué)科普近期文章

·開(kāi)放 · 友好 · 多元 · 普適 · 守拙·

讓數(shù)學(xué)

更加

易學(xué)易練

易教易研

易賞易玩

易見(jiàn)易得

易傳易及

歡迎評(píng)論、點(diǎn)贊、在看、在聽(tīng)

收藏、分享、轉(zhuǎn)載、投稿

查看原始文章出處

點(diǎn)擊zzllrr小樂(lè)

公眾號(hào)主頁(yè)

右上角

置頂加星★

數(shù)學(xué)科普不迷路！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.