国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

陶哲軒:我差點江郎才盡,只因在普林斯頓待了一年

0
分享至

Jay 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

陶哲軒在普林斯頓高等研究院待了一年,差點讓他江郎才盡了。

在與頂級播客主理人Dwarkesh Patel的最新訪談中,這位菲爾茲獎得主用親身經(jīng)歷,向同行們拋出了一個反直覺的建議:

朋友們,埋頭純搞學術(shù),對數(shù)學家來說真不見得是件好事?。?/strong>

起初幾周確實非常棒。不用上課,不用開委員會,大塊時間任由支配,終于可以專心做研究了。

誰曾想,沒過幾個月——

咦,怎么靈感好像有點枯竭……

百無聊賴之下,強如陶哲軒都開始沉迷于上網(wǎng)摸魚。

這段經(jīng)歷讓他感慨萬千:

數(shù)學家有時恰恰需要生活里的一些瑣事,才能迸發(fā)出好想法。



這是場很特別的訪談。陶哲軒罕見地從更個人的視角,談了他近段時間對數(shù)學和科學研究的思考,許多都是之前未曾分享過的觀點:

  • 科學不只是創(chuàng)造新理論并加以驗證,還要把它講成故事給別人聽。這是強化學習極難做到的。
  • AIGC泛濫的當下,如何判斷一項科學進展是否富有意義?或許需要天文學家的幫助。
  • 我非常相信緣分,因此會專門空出部分日程,去做些不尋常的事。
  • 十進制本身沒什么特別之處。但你無法脫離歷史和未來的語境,純粹孤立地評價某項科學成就。
  • 也許只有當獲取一百萬個外星文明的科學發(fā)展數(shù)據(jù),才能據(jù)此衡量什么是正確的范式方向。
  • 寫博客是種很好的記錄所學的方式,不然許多靈感會很快被忘記,非常可惜。
  • 我們正身處一場認知層面的哥白尼革命,人類不再是唯一的智能形態(tài)。

以下附上訪談全文。為保證可讀性,量子位在不改變原意的基礎(chǔ)上,對內(nèi)容做了部分調(diào)整。

開普勒就是個LLM

Dwarkesh:我想請你重新講一遍開普勒發(fā)現(xiàn)行星運動定律的故事。這會是聊AI與數(shù)學的一個很好的切入點。

陶哲軒:我一直對天文學有著業(yè)余愛好,也很喜歡早期天文學家探索宇宙本質(zhì)的那些故事。開普勒是站在哥白尼的肩膀上,而哥白尼又繼承了阿里斯塔克斯的工作。

哥白尼最著名的貢獻,是提出了日心說:不是行星和太陽繞地球轉(zhuǎn),而是太陽位于太陽系中心,其他行星繞太陽運行。

但哥白尼堅信行星的軌道是完美的圓形。他的理論與希臘人、阿拉伯人和印度人數(shù)百年來積累的觀測數(shù)據(jù)大致吻合,但也存在細微偏差。

開普勒在學習這些理論時,注意到哥白尼預(yù)測的各行星軌道尺寸之間的比例,似乎存在某種幾何意義。

他據(jù)此提出了一個極其美妙、充滿神學色彩的假說:如果你取地球的軌道,把它包在一個正方體里,那個外接球的半徑幾乎完美匹配火星的軌道。

當時已知六顆行星,軌道之間有五個間隔,而柏拉圖正多面體(Platonic Solids)恰好也有五種:正方體、正四面體、正二十面體、正八面體和正十二面體。

于是他提出了一個理論:可以在各行星的天球之間,依次嵌套這五種柏拉圖正多面體。

開普勒深信,上帝設(shè)計行星的方式,正對應(yīng)著柏拉圖正多面體的數(shù)學完美性。他在《宇宙的神秘》(Mysterium Cosmographicum)中詳細闡述了這一觀點。

但他需要數(shù)據(jù)來驗證這個理論。

當時唯一真正高質(zhì)量的數(shù)據(jù)集,來自第谷·布拉赫(Tycho Brahe)。

這位極其富有、行事古怪的丹麥天文學家,說服丹麥政府出資建造了一座造價極為高昂的天文臺——實際上是一整座島嶼。

他在那里用肉眼(望遠鏡尚未發(fā)明)對火星、木星等所有行星進行了長達數(shù)十年的系統(tǒng)觀測,只要天氣晴朗,每晚必記。他的觀測精度達到了角分的級別,比此前任何觀測都高出十倍

這批數(shù)據(jù)正是開普勒用來驗證理論的材料。

開普勒開始與第谷合作,但第谷對數(shù)據(jù)極為小氣,每次只給他一點點。開普勒最終干脆“偷走”了全部數(shù)據(jù),還因此與第谷的后人打了場官司。

誰曾想,拿到數(shù)據(jù)后,卻發(fā)現(xiàn)他那個美麗的柏拉圖立體理論根本行不通。

實測數(shù)據(jù)與理論預(yù)測的偏差達到5%到10%左右(對于火星尤為明顯)。他嘗試了各種修補方案,移動圓的位置,引入偏心點,仍然無法擬合。

如果是其他人,可能會強行修改數(shù)據(jù)以迎合理論,或者放棄。但開普勒選擇了尊重數(shù)據(jù)。

他在這個問題上堅持了許多年,進行了令人嘆為觀止的天才級數(shù)據(jù)分析。

他發(fā)現(xiàn),只有假設(shè)行星軌道實際上是橢圓,而非圓形,才能完美擬合第谷的數(shù)據(jù)。

就這樣,他推導(dǎo)出了行星運動的前兩條定律。

又過了十年,在積累了大量數(shù)據(jù)并進行了更深入的數(shù)學分析后,他終于得出了第三定律:行星完成一次公轉(zhuǎn)所需的時間(周期)的平方,與它到太陽的平均距離的立方成正比。

這就是著名的開普勒行星運動三定律。

他自己對此毫無物理解釋,這完全是實驗驅(qū)動(數(shù)據(jù)驅(qū)動)的結(jié)果。整整一個世紀后,牛頓才利用萬有引力定律和微積分,給出了同時解釋這三條定律的理論框架。

Dwarkesh:牛頓給出了三條行星運動定律必然成立的解釋,而開普勒發(fā)現(xiàn)這些定律的過程,充滿了試錯。

縱觀開普勒的職業(yè)生涯,他不過是在不斷地嘗試各種隨機的關(guān)系:先試柏拉圖立體,失敗了;再試圓形軌道加偏心點,失敗了;最后試橢圓,成功了。

LLM完全可以做開普勒做的事。

用二十年時間嘗試各種隨機關(guān)系,其中許多根本沒有物理意義,只要背后有一個像布拉赫數(shù)據(jù)集那樣可驗證的、高精度的數(shù)據(jù)庫。

陶哲軒:當我們談?wù)摽茖W史時,思維一直被視為最高貴的部分。

我們傾向于神話那些“靈光乍現(xiàn)”的時刻:開普勒突然看到了橢圓的真理。

但一個科學問題的解決涉及許多步驟:識別問題、找到一個真正有價值的問題來研究、收集數(shù)據(jù)、制定分析數(shù)據(jù)的策略、提出假說、驗證假說、撰寫論文并進行解釋。這里有十幾個不同的環(huán)節(jié)。

開普勒經(jīng)歷了無數(shù)次循環(huán)嘗試,其中絕大多數(shù)都失敗了。我相信有大量想法他甚至從未發(fā)表,因為根本無法與數(shù)據(jù)吻合。

但正如你所說,這必須與同等分量的驗證相匹配,否則就只是噪聲。

我們贊頌開普勒,但也應(yīng)該贊頌布拉赫。他那勤勉的數(shù)據(jù)收集工作,精度比此前任何觀測都高出十倍。

那額外的一位有效數(shù)字,對開普勒得出正確結(jié)論至關(guān)重要。如果數(shù)據(jù)誤差更大,橢圓和圓形的區(qū)別就會被噪聲淹沒,開普勒可能永遠無法發(fā)現(xiàn)真相。

他用歐幾里得幾何和當時最先進的數(shù)學,將模型與數(shù)據(jù)進行擬合。每個環(huán)節(jié)都必須到位:數(shù)據(jù)、理論、假說生成,缺一不可。

我不確定在今天,假說生成還是不是瓶頸所在

過去,科學的兩大范式是理論和實驗。到了20世紀,數(shù)值模擬出現(xiàn)了,可以通過計算機仿真來檢驗理論。然后,在20世紀末,我們進入了大數(shù)據(jù)時代。

如今很多新進展實際上是先從分析海量數(shù)據(jù)集開始的,這與過去科學的運作方式頗為不同。

過去是先做少量觀測,或者靈光一現(xiàn)有了某個想法,再去收集數(shù)據(jù)加以檢驗;而現(xiàn)在幾乎是反過來的:先有海量數(shù)據(jù),再從中挖掘規(guī)律。

開普勒也許是最早的數(shù)據(jù)科學家之一,但即便是他,也沒有完全從第谷的數(shù)據(jù)集出發(fā)再去分析。他是先有的預(yù)設(shè)理論(柏拉圖立體),被數(shù)據(jù)證偽后,才被迫轉(zhuǎn)向純數(shù)據(jù)驅(qū)動的擬合。

Dwarkesh:有意思。布拉赫的數(shù)據(jù)相當于一個海量仿真數(shù)據(jù)庫。如果沒有這些數(shù)據(jù),開普勒不過是在寫關(guān)于和聲學和柏拉圖正多面體的書,根本沒有任何東西可以用來驗證。

陶哲軒:數(shù)據(jù)的重要性毋庸置疑。

傳統(tǒng)上,你先提出假說,再用數(shù)據(jù)檢驗(假設(shè)驅(qū)動)。但如今有了機器學習、數(shù)據(jù)分析和統(tǒng)計學,你可以從數(shù)據(jù)出發(fā),通過統(tǒng)計推導(dǎo)出此前未曾存在的定律(數(shù)據(jù)驅(qū)動)。

開普勒第三定律有點類似回歸分析。只不過布拉赫提供的不是成千上萬個數(shù)據(jù)點,開普勒手里只有六個數(shù)據(jù)點(當時已知的六顆行星)。每顆行星對應(yīng)一個軌道周期和一個到太陽的距離。

但他相當幸運,恰好這六個數(shù)據(jù)點給出了正確的結(jié)論。

他做了一件我們今天稱之為冪律回歸的事——把一條曲線擬合到這六個數(shù)據(jù)點上,得到了立方-平方定律。

后來有一位天文學家叫約翰·波得(Johann Bode),取了同樣的數(shù)據(jù),受開普勒啟發(fā),預(yù)測這些距離構(gòu)成一個偏移等比數(shù)列。

他也做了曲線擬合,但其中有一個數(shù)據(jù)點缺失——火星和木星之間有一個巨大的空缺。這個定律預(yù)測:那里應(yīng)該有一顆失蹤的行星。

這聽起來像是一個怪人的理論,直到赫歇爾發(fā)現(xiàn)天王星,其距離完美符合這個規(guī)律。

隨后在小行星帶發(fā)現(xiàn)了谷神星,也同樣吻合。人們?yōu)榇伺d奮不已,以為波得發(fā)現(xiàn)了一條偉大的自然定律。

但后來海王星被發(fā)現(xiàn)了,距離完全對不上。

說到底,這不過是一個數(shù)字上的巧合。只有六個數(shù)據(jù)點,結(jié)論本就岌岌可危。

“故事”是科學里永遠屬于人類的一面

Dwarkesh:聽起來你并不認為科學的瓶頸在于為每個領(lǐng)域找到更多類似“行星運動第三定律”那樣的宏大定律。

陶哲軒:沒錯。AI已經(jīng)把思想生成的成本壓低到幾乎為零,就像互聯(lián)網(wǎng)曾經(jīng)把通信成本壓低到幾乎為零一樣。

這是一件了不起的事,但它本身并不直接創(chuàng)造“豐盛”。

瓶頸已經(jīng)轉(zhuǎn)移了。我們進入了一個人們可以為某個科學問題瞬間生成數(shù)千種理論的時代。

接下來真正的挑戰(zhàn)是:驗證、評估與篩選。

這要求我們徹底改變科學的組織結(jié)構(gòu)。

傳統(tǒng)上,我們靠的是設(shè)門檻。在AI生成內(nèi)容泛濫之前,雖然也有業(yè)余科學家提出各種宇宙理論,但大多數(shù)價值極低且數(shù)量可控。

因此,我們建立了同行評審和發(fā)表體系,用來過濾信息、篩選出高價值的想法加以檢驗。

但現(xiàn)在,AI可以大規(guī)模生成各種可能的解釋,其中一些是好的,但大量是糟糕的、甚至是幻覺。人類評審員已經(jīng)不堪重負。

許多期刊都反映,AI生成的投稿正在洶涌涌入。

AI讓我們能生成各種各樣的東西,這固然很好,但這意味著科學的其他環(huán)節(jié)必須跟上:驗證、確認,判斷哪些想法真正推動了領(lǐng)域進展。

這是我們目前不知道如何大規(guī)模完成的事。

對于單篇論文,科學家們可以展開辯論,幾年內(nèi)達成共識。但當每天涌現(xiàn)出一千篇這樣的論文,這套機制就徹底失效了。

Dwarkesh:1940年代,貝爾實驗室中新技術(shù)不斷涌現(xiàn):脈沖編碼調(diào)制、信號傳輸、數(shù)字化等等。有大量關(guān)于工程約束和技術(shù)細節(jié)的論文。

然后有一篇論文提出了“比特”這個概念,其影響波及許多不同領(lǐng)域。你需要一套系統(tǒng)來識別它,說:“好,這個要應(yīng)用到概率論里,要應(yīng)用到計算機科學里。”

倘若如今AI領(lǐng)域出現(xiàn)了下一個版本的統(tǒng)一性概念。怎么從數(shù)百萬篇論文中識別出那篇真正構(gòu)成進步、卻又遠不如“比特”概念那么顯眼的論文?

陶哲軒:很大程度上靠時間檢驗。許多偉大的想法在最初提出時并沒有得到很好的反響,往往是后來其他科學家意識到可以將其推進、應(yīng)用到自己的領(lǐng)域,它才被重新發(fā)現(xiàn)。

深度學習本身在很長一段時間里只是AI的一個小眾分支。完全通過數(shù)據(jù)訓練而非第一性原理推理來獲得答案,這個想法曾經(jīng)極具爭議,花了很長時間才開始結(jié)出果實。

你提到了比特。歷史上其實有過其他計算架構(gòu)的提案,而不是今天通行的二進制。我記得有三進制、三值邏輯。在另一個平行宇宙里,也許是不同的范式勝出了。

再比如Transformer,它是所有現(xiàn)代大語言模型的基礎(chǔ),也是第一個真正足夠復(fù)雜、能夠捕捉語言的深度學習架構(gòu)。但事情本不必如此。也許某種其他架構(gòu)率先做到了這一點,一旦被采用,它就成了標準。

判斷一個想法是否會結(jié)出果實之所以困難,正是因為這取決于未來,取決于文化和社會。

十進制在數(shù)學中極其有用,遠優(yōu)于羅馬數(shù)字,但十進制本身并沒有什么特別之處。它之所以有用,是因為所有人都在用它。

我們將其標準化,圍繞它構(gòu)建了所有的計算機和數(shù)字表示系統(tǒng),現(xiàn)在已經(jīng)無法脫身。偶爾有人提倡切換到其他進制,但慣性太大了。

你無法脫離歷史和未來的語境,純粹孤立地評價某項科學成就,給它打一個客觀的分數(shù)。

對于這類判斷,也許永遠無法像處理那些更局部的問題一樣,用強化學習來完成。

Dwarkesh:在科學史上,每當一個新理論出現(xiàn),而我們事后回頭看會意識到它是正確的,它往往會帶出一些推論:要么毫無意義,要么是正確的但在當時看起來極不可信。

阿里斯塔克斯在公元前三世紀提出了日心說。

古雅典人反駁道:這不可能,因為如果地球繞太陽轉(zhuǎn),我們應(yīng)該能觀察到恒星的相對位置隨地球公轉(zhuǎn)而變化。唯一不出現(xiàn)視差的解釋是——恒星距離遠得令人難以置信。

但有時推論是錯的,我們需要進階到更深層的理解。萊布尼茨曾批評牛頓的引力理論,理由是它暗含了超距作用,而他們不知道其中的機制。

牛頓自己也對慣性質(zhì)量和引力質(zhì)量居然是同一個量感到困惑。這些問題后來都由愛因斯坦解決了。但那仍然是進步。

所以,對AI同行評審體系來說,問題就變成了:即便你能證偽一個理論,你怎么判斷它相對于之前的理論仍然代表著進步?

陶哲軒:正確的理論在最初提出時,往往在許多方面比之前的理論更差。

哥白尼的行星理論就不如托勒密的理論精確。地心說那時已經(jīng)發(fā)展了一千年,經(jīng)過無數(shù)次調(diào)整和日益復(fù)雜的臨時修補。

哥白尼的理論雖然簡單得多,但精度卻遠遠不足。直到開普勒的出現(xiàn),日心說才在精度上超過了托勒密。

科學永遠是未竟之業(yè)。當你只得到部分解答時,它看起來比那些雖然錯誤、卻已被完善到能回答所有問題的理論更糟糕。

正如你所說,牛頓的理論留下了巨大的謎題:質(zhì)量等效性和超距作用,這些都要等到幾個世紀后,通過一種概念上截然不同的進路才得以解決。

進步往往不是靠增加更多理論,而是靠刪除你頭腦中某些根深蒂固的假設(shè)。地心說之所以能堅持那么久,部分原因在于我們一直覺得物體天然傾向于靜止。

這是亞里士多德的物理學,所以“地球在運動”這個想法會讓人追問:那我們?yōu)槭裁礇]有摔倒?一旦你有了牛頓運動定律,這一切就說得通了。

意識到地球在運動是一次巨大的飛躍。它不像是在運動。達爾文的進化論也是如此,其核心是物種并非靜止不變的,而這并不直觀,因為你在有生之年看不到進化的發(fā)生。

當然,現(xiàn)在我們實際上可以觀測到了,但它在感知上是永久、靜止的。

我們現(xiàn)在正在經(jīng)歷一場認知上的哥白尼革命: 我們曾經(jīng)認為人類智能是宇宙的中心,而現(xiàn)在我們看到,存在著各種截然不同的智能形態(tài),各有其不同的優(yōu)勢與局限。

哪些任務(wù)需要智能、哪些不需要?必須大幅重新排序。

Dwarkesh:有一本書叫《發(fā)條宇宙》,作者是愛德華·多爾尼克(Edward Dolnick)。他在書中有一個有趣的觀察:

《物種起源》在牛頓《原理》之后整整兩個世紀才出現(xiàn)。

從概念上看,達爾文的理論似乎更簡單。同時代生物學家托馬斯·赫胥黎讀完《物種起源》后說:“我怎么蠢到?jīng)]有先想到這個。”

但從沒有人這樣說過牛頓。

那么問題來了:為什么《物種起源》花了更長的時間?

一個很大的原因正是你說的。自然選擇的證據(jù)是累積的、回溯性的。

而牛頓可以直接說:“這是我的方程式,給我月球的軌道周期和距離,如果吻合,我們就取得了進展?!?/p>

盧克萊修在公元前一世紀就有了物種適應(yīng)環(huán)境的想法,但直到達爾文之前無人提及,因為盧克萊修沒有辦法做實驗。

這是否意味著,那些數(shù)據(jù)回路緊密、容易驗證的領(lǐng)域,進展會更為顯著?

陶哲軒:科學不只是創(chuàng)造新理論并加以驗證,還要把它傳達給他人。

達爾文是一位了不起的科學傳播者。他用英文寫作,用自然語言表達,不用方程式,將大量零散的事實綜合在一起。

他當然也有缺失的部分:他不知道遺傳的機制,沒有DNA。但他的寫作風格,幫了他很大的忙。

牛頓用拉丁文寫作,他甚至發(fā)明了全新的數(shù)學分支(微積分),只是為了解釋自己在做什么。他所處的時代,科學家之間的保密和競爭要激烈得多。

今天學術(shù)界仍然競爭激烈,但牛頓那個年代更甚。

他刻意保留了一些最深刻的洞見,不想讓競爭對手獲得任何優(yōu)勢。從各方面的描述來看,他也是一個相當難相處的人。

直到牛頓之后幾十年,其他科學家用簡潔得多的語言重新解釋了他的工作,這些成果才得以廣泛傳播。

表達的藝術(shù)、論證的能力、構(gòu)建敘事的技巧,也是科學極其重要的組成部分。

數(shù)據(jù)固然有幫助,但人們需要被說服,否則他們不會推進這個想法,也不會投入時間去學習你的理論并真正探索它。

這也是強化學習極難完成的事。你怎么給“說服力”打分?

科學有其社會屬性。盡管我們以其客觀性為豪,認為有數(shù)據(jù)、有實驗、有驗證,但我們?nèi)匀恍枰v故事、說服同行。

這是柔軟、模糊的部分,是數(shù)據(jù)與敘事的結(jié)合,而且是一種關(guān)于“空白”的敘事。

即便是達爾文的理論也有無法解釋的部分。但他仍然能夠論證:未來人們會發(fā)現(xiàn)過渡形態(tài),會找到遺傳的機制。

而事實也確實如此。

我不知道如何將這些量化得足夠精確,以至于能夠開始做強化學習。

也許這將永遠是科學中,屬于人類的那一面。

論文評估需要天文學家的幫助

Dwarkesh:在很多領(lǐng)域,演繹推理的潛力可能遠比人們意識到的要大得多。只要找到了研究某個問題的正確切入點,你可能會驚訝于自己能從這個世界中學到多少東西。

這是天文學在特定歷史時期的特殊產(chǎn)物,還是說,僅憑目前落在地球上的那些數(shù)據(jù),我們其實能推斷出遠比我們已知的多得多的東西?

陶哲軒:天文學是最早真正擁抱數(shù)據(jù)分析的科學之一。它的從業(yè)者竭盡全力從手頭的信息中榨取每一滴可能的價值,因為數(shù)據(jù)始終是瓶頸所在,而且至今仍然如此。

天文學家在從零散的數(shù)據(jù)痕跡中提煉各種結(jié)論方面堪稱世界級水準,簡直像福爾摩斯一樣。我聽說很多量化對沖基金最喜歡招的人就是天文學博士,這些人同樣癡迷于從各種隨機數(shù)據(jù)片段中提取信號。

我們其實大大低估了從各種信號中挖掘額外信息的可能性。

我曾讀過一項有趣的研究,研究者想測量科學家究竟有多少人真正讀了自己引用的論文。怎么測量?

他們利用了一個巧妙的指標:很多引用文獻里都有小錯誤,比如某個數(shù)字寫錯了,或者標點符號稍有出入。研究者追蹤一個特定的錯誤從一篇參考文獻被“復(fù)制粘貼”到下一篇的頻率。

如果兩篇論文出現(xiàn)了完全相同的非典型錯誤,就可以推斷后來的作者很可能只是在復(fù)制粘貼引用,根本沒有去核實原文。

從這個指標出發(fā),他們得以推斷出人們究竟在多大程度上真正關(guān)注了所引用的內(nèi)容。

這啟發(fā)了我們:如何判斷一項科學進展是否富有成效、是否有趣?

也許在數(shù)據(jù)里存在非常有用的指標和痕跡。我們可以分析引用情況,可以看某個概念在會議上被提及的頻率,甚至分析論文措辭的微妙變化。

科學社會學(Sociology of Science)這個領(lǐng)域也許還有大量研究工作可以做,也許真的能檢測出這些東西。

也許我們真的應(yīng)該讓幾位天文學家來攻克這個問題。

數(shù)學研究的低垂果實已被摘完

Dwarkesh:你最近提到,過去幾個月里AI程序已經(jīng)解決了埃爾德什問題集(Erdos Problems Project)中約1100個問題里的50個。

但你也指出,進展似乎出現(xiàn)了停滯,因為“低垂的果實”已經(jīng)被摘完了。這個判斷現(xiàn)在是否還成立?

陶哲軒:看起來確實如此。借助AI解決了50多個問題,這非常了不起,但還有大約600個有待攻克。目前,人們?nèi)栽诰徛乜衅渲械囊粌蓚€硬骨頭。

純AI“一擊即中”的解法越來越少了。曾經(jīng)有過那樣一個月,AI能夠直接給出完整答案,但那個階段已經(jīng)過去了。

AI能提出一些細枝末節(jié)的觀察,或者發(fā)現(xiàn)某個問題其實已經(jīng)在文獻中被解決過(只是未被收錄),但至今沒有出現(xiàn)任何新的、完全由純AI驅(qū)動的解答。

現(xiàn)在的模式更多是人機協(xié)作。有人用AI生成一個可能的證明策略,另一個人再用另一個AI工具來批評它、改寫它、為它生成數(shù)值數(shù)據(jù),或者做文獻調(diào)查。

想象你身處一片黑暗的山脈,到處是峭壁和高墻。有的墻只有一米高,有的六米,有的十五米,還有些高達百米甚至千米。

你試圖攀越盡可能多的墻壁,但周圍一片漆黑,你不知道哪堵墻高、哪堵墻矮。于是你點上蠟燭,慢慢繪制地圖,逐漸摸清哪些是可以攀登的,哪些墻上有可以先抵達的局部落腳點。

AI工具就像是能跳兩米高的彈跳機器,跳得比任何人類都高。有時它們跳錯了方向,有時直接撞墻,但有時它們確實能夠到達那些人類此前無法觸及的最矮的墻頭。

我們就這樣把它們放進這片山脈,讓它們四處跳躍。那段令人興奮的時期,它們找到并翻越了所有低矮的墻(即那50個問題)。等到模型下一次出現(xiàn)重大突破,人們會再次嘗試,也許又能多翻越幾道墻。

但這是一種不同的數(shù)學方式。通常我們會一步一步地爬山,做標記,識別局部進展。而這些工具要么成功,要么失敗。它們在創(chuàng)造局部進展、識別應(yīng)當優(yōu)先攻克的中間階段方面表現(xiàn)很差。

回到我們之前的討論,我們?nèi)狈σ惶自u估“局部進展”的方法,就像我們評估一個問題被“一擊即中”地解決或失敗那樣簡單明確。

Dwarkesh:悲觀的解讀是:它們只能翻越一定高度以下的墻,而那個高度還不及人類頂尖專家所能達到的高度。

樂觀的解讀是:一旦它們達到某個水位線,它們有一種強大的屬性,就是能夠填滿該水位線以下的每一個問題,而這是人類根本無法做到的。

我們沒辦法復(fù)制出一百萬個陶哲軒,給每一個分配一百萬美元的算力,讓它們同時在一百萬個不同的問題上做一百年的主觀時間研究。

但一旦AI達到陶哲軒的水平(甚至只是中等水平),它們就可以做到這一點。因為即便是同樣級別的智能,AI在寬度和并發(fā)能力上,也與人類有著本質(zhì)的差異。

陶哲軒:我同意。AI擅長廣度,人類擅長深度。兩者高度互補。

但我們目前做數(shù)學和科學的方式是以深度為核心的,因為人類的專長在深度,人類做不到廣度。我們必須重新設(shè)計做科學的方式,才能充分發(fā)揮我們現(xiàn)在擁有的這種廣度能力。

我們應(yīng)該在構(gòu)建非常寬泛的問題集上投入更多精力,而不是只盯著一兩個極其深刻、極其重要的難題。

當然,那些深度問題仍然應(yīng)該存在,人類也應(yīng)該繼續(xù)攻克它們。但現(xiàn)在我們有了另一種做科學的方式:

先讓這些能力適中但覆蓋面廣的AI進行大范圍探索,完成所有容易的觀察,再識別出其中幾個真正困難的“孤島”,讓人類專家集中攻克。

我非常清晰地看到一個互補科學的未來。最終,你希望同時擁有廣度和深度,得到兩全其美的結(jié)果。但我們需要在“廣度”這一側(cè)積累經(jīng)驗,它太新了,我們甚至還沒有發(fā)展出充分利用它的范式。

Dwarkesh:說到互補性,程序員們已經(jīng)注意到,有了這些AI工具之后,他們的生產(chǎn)力大幅提升。

我不知道你作為數(shù)學家是否有同感,但軟件和研究之間似乎有一個重要的區(qū)別:

軟件的目的是通過你的工作對世界產(chǎn)生某種影響,如果它能幫你更好地理解問題或提煉出一個干凈的抽象來體現(xiàn)在代碼里,這是達成目標的工具。

而在研究中,我們之所以在乎解決千禧年大獎難題,是因為在解決它們的過程中,我們會發(fā)現(xiàn)新的數(shù)學對象或新的技術(shù),推進人類對數(shù)學的理解。所以證明本身是通往中間工作的工具,過程往往比結(jié)果更重要。

我不知道你是否認同這個二元對立,以及它是否能解釋我們在軟件和研究上分別看到的提升程度。

陶哲軒:在數(shù)學中,過程往往比問題本身更重要。問題某種程度上只是衡量進展的代理指標。

即便在軟件領(lǐng)域,我認為也存在不同類型的任務(wù)。如果你只是做一個與其他一千個網(wǎng)頁功能完全相同的網(wǎng)頁,其中可能沒有什么需要學習的技能。

但代碼寫完了還需要維護。在升級和與其他系統(tǒng)兼容方面會出現(xiàn)各種問題。

我聽程序員們反映,即便AI能做出一個工具的初始原型,讓它與其他所有東西咬合、以你期望的方式與真實世界互動,仍然是一個持續(xù)進行的過程。如果你沒有通過親手寫代碼積累下來的技能,將來維護的時候可能會捉襟見肘。

數(shù)學也是如此。我們用問題來建立直覺,訓練人們對“什么是真的”、“什么是可以期待的”、“什么是可以證明的”、“什么是困難的”形成良好的判斷。如果一上來就直接得到答案,這個過程可能反而會被破壞。

我之前區(qū)分過理論和實驗。在大多數(shù)科學領(lǐng)域,理論和實驗平分秋色。數(shù)學的獨特之處在于它幾乎完全是理論性的。

我們非常重視構(gòu)建連貫、清晰的理論來解釋為什么某些事情是真或假。但我們幾乎沒有做過實驗性的研究,比如:如果有兩種方法解決同一個問題,哪種更有效?

現(xiàn)在我們可以做這件事了。我認為AI類工具將真正革命化數(shù)學的實驗側(cè)。在那里,你不那么在乎單個問題和解題過程,而是想大規(guī)模地收集關(guān)于“什么方法有效、什么方法無效”的數(shù)據(jù)。

就像一家軟件公司要推出一千個軟件,你不會想要精心手工打造每一個、從每一個中汲取經(jīng)驗,你只是想找到讓你能夠規(guī)?;墓ぷ髁鞒獭?/p>

在規(guī)?;瘜用孀鰯?shù)學,這件事還處于萌芽階段。但這正是AI真正將要革命化這門學科的地方。

Dwarkesh:僅憑使用現(xiàn)有技術(shù),究竟能取得多大進展?

如果我去看頂級數(shù)學期刊,里面有多少論文是在提出一種新技術(shù),又有多少是在用現(xiàn)有技術(shù)處理新問題?那個潛力空間有多大?

如果把每一種已知技術(shù)應(yīng)用到每一個開放問題上,這會帶來人類知識的巨大飛躍,還是其實并沒有那么令人驚嘆?

陶哲軒:人類數(shù)學家的工作中,相當一部分是這樣的:拿到一個新問題,第一件事是把過去在類似問題上行之有效的所有標準方法,逐一嘗試。有時奏效,有時差一點就成了,需要再加一個新的小變通。

但進入頂級期刊的論文,通常是那些現(xiàn)有方法能解決80%,剩下20%有頑固抵抗,需要發(fā)明一種新技術(shù)來填補缺口的論文。

現(xiàn)在已經(jīng)極少有論文完全不依賴過去的文獻、所有想法都憑空而來了。過去這種情況更常見,但數(shù)學現(xiàn)在已經(jīng)如此成熟,不先利用文獻就是給自己設(shè)置巨大障礙。

AI工具在前半段工作上已經(jīng)做得相當好:對一個問題嘗試所有標準技術(shù),而且在應(yīng)用過程中犯的錯誤往往還比人類少。

它們?nèi)匀粫稿e,但我測試過這些工具處理我能解決的小任務(wù),有時它們能發(fā)現(xiàn)我犯的錯誤,有時我也能發(fā)現(xiàn)它們的錯誤,目前大致是平手。

但我還沒有看到它們走出下一步。當論證出現(xiàn)漏洞、所有已知方法都行不通的時候,該怎么辦?

它們會隨機提出一些建議,但我發(fā)現(xiàn)去追這些建議、試圖讓它們成立、最后發(fā)現(xiàn)它們根本不成立,浪費的時間比節(jié)省的更多。

目前我們認為很難的問題中,有一部分會因為這種方法而倒下,尤其是那些沒有得到足夠關(guān)注的問題。在埃爾德什問題中,AI解決的那50個,幾乎都是此前基本沒有文獻積累的。

埃爾德什提過一兩次,也許有人隨手試了試,沒解出來,也沒有寫成論文。但事實證明,確實有一個解,只需要把某個鮮為人知的冷門技術(shù)與文獻中的某個結(jié)果結(jié)合起來就夠了。

如果你只關(guān)注那些成功的案例,那些在社交媒體上廣泛傳播的,會覺得驚艷無比:幾十年沒有人解決的問題,現(xiàn)在一個接一個地倒下了。

但每當我們做系統(tǒng)性研究,對于任意一個給定的問題,就會發(fā)現(xiàn):AI的成功率大概只有1%到2%。

只不過,它們能大規(guī)模解題,然后挑出做對的那一個。

但這樣,信號和噪聲會高度混雜。

收集標準化數(shù)據(jù)集變得越來越重要?,F(xiàn)在已經(jīng)有人在努力建立一套供AI解題的標準挑戰(zhàn)問題集,而不是只依賴AI公司發(fā)布自己的勝利、隱藏負面結(jié)果。

這也許能讓我們對現(xiàn)狀有更清晰的認識。

Dwarkesh:僅僅讓模型能夠應(yīng)用某種技術(shù),而沒有任何人事先寫下這種技術(shù)對這個特定問題的適用性,本身就已經(jīng)代表了AI的巨大進步。

陶哲軒:這種進步令人驚嘆,又令人失望,這是一種非常奇特的感受。但人們適應(yīng)得也非???。

我記得二十年前Google搜索剛出來的時候,把其他所有搜索引擎打得落花流水。你搜什么,首頁就給出你想要的相關(guān)結(jié)果。那真是令人嘆為觀止。

但幾年之后,我們就把搜索引擎當成了理所當然。

2026年的AI放到2021年會讓人瞠目結(jié)舌:人臉識別、自然語音、解大學水平的數(shù)學題……但這些我們現(xiàn)在都習以為常了。

AI并不能讓論文更深刻

Dwarkesh:做個預(yù)測吧,“你個人因為AI的幫助生產(chǎn)力提升了兩倍”,這會發(fā)生在哪一年?

陶哲軒:我做數(shù)學的方式正在發(fā)生相當大的變化,我從事的工作類型也在轉(zhuǎn)變?,F(xiàn)在的論文里包含了多得多的代碼和圖像,因為生成這些東西變得太容易了。

從某種角度說,我今天寫的這類論文,如果要在沒有AI輔助的情況下完成,肯定要花五倍的時間。但反過來說,如果沒有AI,我根本就不會選擇這樣寫論文。

這些目前仍屬于輔助性工作:比如進行更深入的文獻檢索,或者提供更多的數(shù)值計算支持。它們讓論文變得更加豐富和立體。

然而,我核心工作的部分——也就是真正解決數(shù)學問題中最困難、最本質(zhì)的那個環(huán)節(jié)——其實沒有太大變化。那部分我仍然依賴紙和筆。

AI幫我處理了很多瑣碎的事情。例如格式調(diào)整,以前括號大小不對要手動一個一個改,現(xiàn)在可以讓AI在后臺自動處理好。

這些工具確實大大加速了許多次要任務(wù)。它們雖然還沒有加速我工作的核心部分,但讓我能夠在論文中容納更多的內(nèi)容和維度。

反過來說,如果我現(xiàn)在要重寫一篇2020年的論文,不加那些額外的新功能,只是達到當時同等的水平,說實話并沒有節(jié)省多少時間。

AI讓論文變得更豐富、更寬泛,但不一定更深刻。

Dwarkesh:你曾提出過一個區(qū)分:人工聰明(Artificial Cleverness)和人工智能(Artificial Intelligence)。有什么例子能說明一種智能不僅僅是“聰明”?

陶哲軒:“智能”出了名地難以定義,它是那種你一看就知道、但很難說清楚的東西。

當我和合作者試圖解決一個數(shù)學問題時,最初我們兩個都不知道怎么解。其中一個人有了某個想法,看起來有點希望,于是我們有了一個初步策略。測試后發(fā)現(xiàn)不行,隨后我們修改它。

這個過程中充滿了適應(yīng)性,有對想法持續(xù)不斷的改進。最終,我們系統(tǒng)性地梳理了什么行不通、什么可以走,看到了一條路。而這條路是隨著我們的討論不斷演化出來的。

AI能在一定程度上模仿這個過程?;氐教S機器人的比喻:它們可以跳躍、失敗,再跳躍、再失敗。但它們做不到的是:跳一點點,抓住某個支撐點,停在那里,把別人也拉上來,再從那個位置繼續(xù)往上跳。

這種在互動中累積建構(gòu)的過程,目前還不存在。當前的AI更像是在進行大量的試錯和簡單重復(fù),本質(zhì)上是蠻力。這種方式可以擴展規(guī)模,在某些情境下效果驚人。但從局部進展中累積式地向上建構(gòu)的能力,仍然缺失。

Dwarkesh:你是說,如果Gemini 3或Claude 4.5解決了一個問題,并不意味著它自身對數(shù)學的理解有所深化?甚至即便它研究了一個問題而沒有解決,它自身對數(shù)學的理解也沒有進步?

陶哲軒:是的。你開啟一個新的會話,它已經(jīng)忘記了剛才做的一切。沒有任何新的技能可以用來處理相關(guān)問題。

也許你剛才做的事情會成為下一代訓練數(shù)據(jù)的0.001%,最終會有一點點被吸收進去。但在當前這個會話中,它并沒有真正的“學習”或“成長”。

如果AI能直接解決問題,人類還需要明白原理嗎?

Dwarkesh:如果我們持續(xù)訓練AI,讓它們在Lean等形式化系統(tǒng)中解題的能力越來越強,最終會不會出現(xiàn)這樣一種令人驚訝的情況:

AI 給出了一個黎曼猜想的證明,但這個證明幾乎沒給我們帶來任何真正的數(shù)學洞見?

換句話說,解決像黎曼猜想這樣的難題,是否有一個必要條件:

哪怕是由完全在Lean里運行的AI來完成,它在代碼中創(chuàng)造的那些構(gòu)造和定義,也必須能推進我們對數(shù)學的理解?

還是說,它完全可以是一堆類似匯編代碼的、人類無法理解的“亂碼”?

陶哲軒:我不知道確切答案。事實上,有些問題本質(zhì)上就是靠純蠻力解決的。四色定理就是一個著名的例子。直到今天,我們?nèi)晕凑业竭@個定理在概念上優(yōu)雅的證明,也許永遠都找不到。

有些問題可能只能被拆分成海量的情形,通過對每種情形進行缺乏洞見的計算機蠻力分析來解決。

然而,我們之所以如此重視黎曼猜想這樣的問題,部分原因在于我們相當確信:解決它需要創(chuàng)造一種新型的數(shù)學,或者發(fā)現(xiàn)兩個此前毫不相關(guān)的數(shù)學領(lǐng)域之間的全新聯(lián)系。

我們甚至不知道解答的形態(tài)會是什么樣子,但它絕不像是一個靠窮舉情形就能解決的問題。

當然,也存在另一種可能性:猜想本身就是錯的。

雖然概率極低,但設(shè)想一下:如果有人在臨界線之外直接算出了一個零點,并通過龐大的計算機計算驗證了這一點,那將是一個非常令人失望的結(jié)果。

對于這類問題,完全自主的“一擊即中”式解法并不適用。人類與這些工具深度協(xié)作的互動模式,將會更有成效。

我能想象這樣一類場景:聰明的人類借助極其強大的AI工具解決了問題,但具體的協(xié)作方式可能與我們現(xiàn)在設(shè)想的截然不同。

例如,也許有一種方法可以生成黎曼ζ函數(shù)的一百萬個變體,再利用AI輔助進行數(shù)據(jù)分析,從中發(fā)現(xiàn)某種我們此前未知的聯(lián)系規(guī)律,從而將這個問題轉(zhuǎn)化到數(shù)學的另一個全新領(lǐng)域。

Dwarkesh:假設(shè)AI真的解出來了,而Lean代碼里潛藏著某個全新的構(gòu)造。如果我們能意識到它的意義,就能在各種不同的情境下加以應(yīng)用。

但問題是:我們怎么識別它?

如果你提出了像笛卡爾坐標系那樣級別的想法,將代數(shù)與幾何統(tǒng)一起來,但在Lean代碼里,它可能看起來根本不起眼,甚至被淹沒在瑣碎的細節(jié)中。

陶哲軒:這正是將證明形式化到Lean這類系統(tǒng)中的美妙之處:你可以取出其中的任何一個部分,單獨地去研究它。

當我閱讀一篇解決了困難問題的傳統(tǒng)論文時,里面往往有一長串引理和定理。理想情況下,作者會引導(dǎo)讀者理解哪些步驟是關(guān)鍵的、哪些是常規(guī)的。

但有時,作者并未點明哪些步驟是真正的“靈光一閃”,哪些只是機械操作。

而在形式化證明中,你可以單獨審視每一個引理。

有些引理我一眼就能看出相當標準,跟我熟悉的東西很相似,大概沒什么特別之處。

但另一個引理,是我以前從未見過的。我能立刻判斷出來:有了這個結(jié)果,證明主定理就順暢多了。

你能清晰地判斷一個步驟究竟是論證的關(guān)鍵樞紐,還是可有可無的填充物。Lean極大地降低了這種判斷的門檻。

未來可能會出現(xiàn)一個專門的數(shù)學家群體,他們拿著一個龐大的、由AI生成的Lean證明來做消融實驗:嘗試去掉其中的某些部分,尋找更優(yōu)雅的替代方案,或者提取出通用的新引理。

他們可能會讓其他 AI 通過強化學習來優(yōu)化證明的“優(yōu)雅程度”,也許還有另一些 AI 專門負責評判這個證明是否在概念上變得更好了。

我們寫論文的方式將會徹底改變。

直到不久之前,撰寫論文一直是數(shù)學工作中最耗時、代價最高的部分。只有在論證的所有其他部分都核實無誤之后,你才會著手整理文字,因為修改和重構(gòu)實在太痛苦了。

但現(xiàn)在有了AI,這一切變得容易得多。你不必只拘泥于一個版本的論文。一旦有了一個初始版本,其他人(或AI)就可以據(jù)此生成數(shù)百個變體,嘗試不同的敘述方式和結(jié)構(gòu)。

一個龐大、混亂的Lean證明本身也許很難理解,也沒什么直接意義,但其他人可以對它進行重構(gòu)、拆解和詮釋。

我們在埃爾德什問題網(wǎng)站(Erdos Problems Project)上已經(jīng)看到了這種模式的雛形:

1、AI 生成一個證明,產(chǎn)出數(shù)千行驗證代碼。

2、人們利用其他 AI 工具對這個證明進行總結(jié)及自然語言翻譯。

3、人類數(shù)學家再基于這些總結(jié),寫出屬于自己的、更具洞察力的證明。

證明產(chǎn)生之后,存在著巨大的“后處理”空間。

一旦你擁有了“證明”這個產(chǎn)物,我們現(xiàn)在有很多工具可以對它進行拆解、分析和重新包裝。

這是數(shù)學研究中非常新興的領(lǐng)域,但我對此并不太擔心。有些人憂慮:“如果黎曼猜想被一個完全不可理解的證明解決了,那該怎么辦?”

我認為,一旦你擁有了證明這個客觀產(chǎn)物,我們就有了無數(shù)種分析工具去挖掘它。

科學家需要一種新的交流語言

Dwarkesh:你最近提到,為數(shù)學策略建立一種正式或半正式的語言將大有裨益,而不僅僅像Lean那樣專注于數(shù)學證明本身。這具體意味著什么?

陶哲軒:數(shù)學是幸運的。雖然我們的邏輯和數(shù)學規(guī)律梳理工作始于兩千年前的歐幾里得,但直到20世紀初,我們才最終確立了完整的公理體系。

如今,我們已經(jīng)能夠?qū)⑦@些基礎(chǔ)自動化,并為其建立了嚴謹?shù)男问秸Z言。

然而,在評估可信度方面,我們?nèi)悦媾R挑戰(zhàn)。當你提出一個猜想,并測試了若干例子都成立時,這能在多大程度上增加你對該猜想為真的信心?

我們有一些數(shù)學建模工具(如貝葉斯概率)來處理這個問題,但它們往往需要預(yù)設(shè)某些基本假設(shè),其中仍包含大量主觀判斷。

與其說這是一個具體的計劃,不如說是一個愿景。

看看Lean這樣的形式化框架是如何成功地讓演繹證明的自動化和AI訓練變得如此便捷,你就會意識到:目前利用 AI 制定策略、提出猜想的瓶頸在于,我們?nèi)员仨氁蕾嚾祟悓<业慕?jīng)驗和時間的檢驗來判斷某件事是否“可信”。

形式化證明助手之所以至關(guān)重要,是因為它們杜絕了“后門”或漏洞——你不能繞過真正的證明就獲得認證。要知道,強化學習算法在尋找系統(tǒng)漏洞方面可是極其擅長的。

如果未來能有一種框架,能夠模擬科學家之間那種既包含數(shù)據(jù)論證、又包含敘事交流的半形式化溝通方式,那將是一個巨大的突破。

科學中存在某種難以捉摸的主觀性成分,目前我們還不知道如何捕捉它,也就無法以有意義的方式將AI嵌入到這個過程中。

這是一個面向未來的課題。雖然已有研究在嘗試創(chuàng)建自動猜想生成器,或許我們可以找到方法對這些系統(tǒng)進行基準測試和模擬,但這仍處于早期階段。

Dwarkesh:這種科學家之間尚無法形式化的交流,究竟是什么樣子的?你一方面說我們在構(gòu)建某種敘事或自然語言解釋,另一方面又說希望將其形式化,這聽起來似乎是個悖論?

陶哲軒:讓我們以高斯為例。他對素數(shù)充滿興趣,并構(gòu)建了最早的數(shù)學數(shù)據(jù)集之一。

他計算了前十萬個素數(shù),發(fā)現(xiàn)了一個統(tǒng)計規(guī)律:隨著數(shù)值范圍擴大(從100到1000,再到一百萬),素數(shù)變得越來越稀疏,但其密度下降的速度與數(shù)值范圍的自然對數(shù)成反比。

基于此,他提出了我們現(xiàn)在稱為素數(shù)定理的猜想。當時他無法證明這一點,這完全是數(shù)據(jù)驅(qū)動的發(fā)現(xiàn)。

這個猜想在當時是革命性的,因為它或許是數(shù)學史上第一個真正基于統(tǒng)計性質(zhì)的重要猜想。

通常,我們討論的是精確的模式(例如素數(shù)間隔的規(guī)律性),但這個猜想并不告訴你某個范圍內(nèi)素數(shù)的精確個數(shù),只給出一個隨著范圍擴大而越來越精確的近似值。它開創(chuàng)了今天我們所知的解析數(shù)論領(lǐng)域。

這是此類猜想中的第一個。隨后許多類似的猜想得到了證明,逐漸鞏固了一種認知:素數(shù)并沒有確定的模式,它們的表現(xiàn)就像是一個具有特定密度的隨機數(shù)集合。

素數(shù)確實有一些規(guī)律,但它們并非真正的隨機,而是所謂的“偽隨機”。隨著時間的推移,將素數(shù)想象成由某個神明不斷擲骰子生成的隨機集合,被證明是一種極富成效的思維方式。

這種視角讓我們得以做出各種預(yù)測。數(shù)論中有一個至今未解的著名猜想——孿生素數(shù)猜想,認為存在無窮多對相差為2的素數(shù)。

雖然我們目前無法證明它,也有充分的理由解釋為何證明如此困難,但基于素數(shù)的統(tǒng)計隨機模型,我們對它的正確性深信不疑。

邏輯很簡單:如果素數(shù)是通過拋硬幣生成的,那么根據(jù)類似“無限猴子定理”的隨機性原理,孿生素數(shù)必然會一再出現(xiàn)。

久而久之,基于統(tǒng)計和概率,我們形成了一套關(guān)于素數(shù)行為的極為精確的概念模型。這套模型大體上是啟發(fā)式的、非嚴格的,但其預(yù)測的精確程度令人驚嘆。

每當我們真正能夠證明素數(shù)的某些性質(zhì)時,結(jié)果總是與我們所稱的“素數(shù)隨機模型”的預(yù)測完全吻合。

事實上,我們之所以如此重視黎曼猜想,部分原因在于:如果它是假的,如果我們要推翻它,那將對這個模型造成毀滅性打擊。這意味著素數(shù)背后存在某種我們此前未知的隱藏規(guī)律。

如果真的發(fā)生這種情況,我認為我們會非常迅速地放棄所有基于素數(shù)的密碼學體系。因為如果存在一個未知規(guī)律,很可能還有更多,而這些規(guī)律可能導(dǎo)致密碼學上的致命漏洞。這將是一次巨大的沖擊。

我們對黎曼猜想這類命題的信念,是隨時間積累起來的:部分來自實驗證據(jù),部分來自每當?shù)贸隼碚摻Y(jié)果時,它們總是與預(yù)測完美契合。

當然,也存在共識有誤、大家都遺漏了某個基本要素的可能性。歷史上科學確實發(fā)生過范式轉(zhuǎn)移。但我們目前缺乏真正的方法來量化這種風險,部分原因在于我們沒有足夠的關(guān)于“數(shù)學或科學如何發(fā)展”的歷史數(shù)據(jù)。

如果我們能接觸到一百萬個外星文明,每一個都以不同的順序發(fā)展出各自的歷史和科學,也許我們才能真正理解如何衡量什么是進步、什么是好的策略,并開始將其形式化,建立一套真正的理論框架。

既然無法接觸外星文明,也許我們現(xiàn)在能做的是:創(chuàng)建大量的“迷你宇宙”,讓AI 其中解決算術(shù)等非?;A(chǔ)的問題,讓它們自己摸索出解決策略,并用這些小型實驗室來進行測試。

已經(jīng)有人在研究“完成十位數(shù)乘法所需的最小神經(jīng)網(wǎng)絡(luò)”是什么樣的。僅僅通過在簡單問題上演化小型 AI,我們就能學到很多關(guān)于智能本質(zhì)的東西。

科研與生活需要一個平衡點

Dwarkesh:你不僅需要迅速學習新領(lǐng)域,還要深入其中以至于能在前沿做出貢獻。從某種意義上說,你也是世界上最杰出的自學者之一。你是如何學習數(shù)學的新子領(lǐng)域的?

陶哲軒:我們之前討論過深度與廣度的問題,這并非純粹的人類與AI之間的區(qū)別,人類個體之間也存在這種差異。

伯林(Isaiah Berlin)曾將人分為兩類:“刺猬”與“狐貍”。刺猬知曉一件大事,將其鉆研得極深;而狐貍知曉許多小事,對萬事萬物略知一二。

我無疑將自己歸類為狐貍。我經(jīng)常與“刺猬”們合作,而在必要時,我也能讓自己暫時變成一只“刺猬”。

當我讀到某個理論,覺得自己有能力理解,卻偏偏不明白它為何成立時,我就一定要搞清楚其中的訣竅。如果別人能做到我認為自己也能做到的事,而我卻做不到,這會讓我感到非常不適。

我一直有一種強迫性的執(zhí)念,必須把事情做完。甚至為此我不得不戒掉電子游戲,因為一旦開始玩,我就非要通關(guān)不可,必須打通每一關(guān)。

我與許多不同領(lǐng)域的學者合作,他們教會了我其他類型的數(shù)學,傳授給我基本的技巧,并告訴我哪些是已知的,哪些仍是未知的。

此外,我發(fā)現(xiàn)將所學寫下來極具幫助。我有一個博客,經(jīng)常記錄我的學習過程。

年輕時,我學到某個精妙的技巧,會心想:“好,我會記住這個的?!苯Y(jié)果六個月后便忘得一干二凈。

那種“理解了卻又失去”的挫敗感太過強烈。于是我下定決心:凡是學到的有價值的東西,一定要寫下來。這也是我開設(shè)博客的初衷之一。

Dwarkesh:你寫一篇博客通常需要多長時間?

陶哲軒:這通常是我在不想做其他工作時(比如撰寫審稿報告)會去做的事。寫博客讓我感到充滿創(chuàng)造力且樂趣無窮。

根據(jù)主題不同,耗時可能從半小時到幾小時不等。因為這是自愿進行的,寫作時時間過得飛快,這與那些出于行政職責不得不完成的苦差事截然不同。

Dwarkesh:如果文明能夠基于第一性原理,重新規(guī)劃如何最優(yōu)配置“陶哲軒”這一有限資源,最大的差異會是什么?

或者說,如果在“無知之幕”背后決定你的時間分配,與現(xiàn)在相比會有什么不同?

陶哲軒:在學術(shù)界,資歷越深,責任就越重,需要參與的委員會也越來越多,這讓我偶爾也會抱怨。

但事實上,正是這些超出我舒適區(qū)的任務(wù),帶來了與更多人接觸的機會——比如你。

因此,我非常相信緣分的力量。

我會精心安排一天中的某些時段,但也愿意留出一些空白,去嘗試一些不那么尋常的事情。這看似可能在浪費時間,但也可能帶來意想不到的收獲。

前幾年,我們大量轉(zhuǎn)向遠程會議,一切都被嚴格日程化了。在學術(shù)界,我們依然忙碌,見面的人數(shù)也與線下時期相當,但所有互動都必須提前計劃。

我們失去的,是那種隨手敲開走廊里同事的房門、或在咖啡間偶遇某人的時刻。那些偶發(fā)性的互動看似低效,實則至關(guān)重要。

回想我讀研究生時,去圖書館查閱期刊文章,需要親自找到那本刊物,坐下來閱讀。

在翻閱過程中,旁邊那篇原本不在計劃內(nèi)的文章有時也很有意思。你會偶然發(fā)現(xiàn)一些有趣的東西,哪怕有時并非如此。

而現(xiàn)在,這種體驗基本上消失了。

想找一篇文章,直接在搜索引擎或AI中輸入關(guān)鍵詞,立刻就能得到目標結(jié)果,但我們卻錯過了那些只有走“低效路線”才可能遇到的意外驚喜。

我曾有一年在普林斯頓高等研究院(IAS)度過,那是一個沒有任何干擾的絕佳之地,只需專注于研究。

頭幾周非常美妙,我將積壓已久的論文一篇接一篇地寫出來,能夠進行整塊的深度思考。

但超過幾個月后,靈感開始枯竭,生活變得單調(diào)無聊,我開始大量上網(wǎng)消磨時間。

事實證明,生活其實需要一定程度的“干擾”。

人和AI一起做數(shù)學的范式會持續(xù)很久

Dwarkesh:AI 何時能在前沿數(shù)學研究上,達到與最優(yōu)秀人類數(shù)學家比肩的水平?

陶哲軒:從某種意義上說,它們已經(jīng)在做人類無法完成的前沿數(shù)學工作了,但那是一種與我們習慣截然不同的“前沿”。

這就好比計算器在進行人類難以企及的數(shù)字運算,你可以稱之為“前沿計算”,但這并非我們傳統(tǒng)認知中的數(shù)學探索。

Dwarkesh:但我指的是完全取代像您這樣的數(shù)學家。

陶哲軒:(笑)那我該做什么呢?

Dwarkesh:您可以去上播客節(jié)目。

陶哲軒:在未來十年內(nèi),確實會有大量工作由AI來完成。但我們終將發(fā)現(xiàn),那些其實并不是我們工作中最核心、最重要的部分。

回顧一百年前,許多數(shù)家的主要工作就是求解微分方程。當時,物理學家如果需要某個方程組的精確解,就會雇傭數(shù)學家費力地進行微積分運算,以此求出流體方程的解,諸如此類。

而19世紀數(shù)學家所做的許多繁瑣工作,現(xiàn)在只需調(diào)用Mathematica、Wolfram Alpha等計算機代數(shù)系統(tǒng),或者借助最新的AI工具,幾分鐘內(nèi)就能解決。

在計算機誕生之前,Computer這個詞指代的其實是“人”。曾經(jīng),人們像高斯那樣耗費心力地制作對數(shù)表、計算素數(shù),如今這些任務(wù)早已外包給了機器。但數(shù)學學科并沒有因此停滯,我們繼續(xù)向前邁進。

同樣的情況也發(fā)生在遺傳學領(lǐng)域。過去,對單個生物體進行基因組測序是一個遺傳學家整個博士階段的工作量,需要仔細分離所有染色體;而現(xiàn)在,只需花費一千美元將樣本寄給測序儀即可搞定。

然而,遺傳學作為一門學科并未消亡,研究者只是轉(zhuǎn)向了不同的尺度——也許是從研究個體轉(zhuǎn)向了研究整個生態(tài)系統(tǒng)。

Dwarkesh:但是,大多數(shù)、甚至幾乎所有的數(shù)學進展,什么時候會主要由AI來完成?

陶哲軒:“人類+AI”的混合模式將在更長時間內(nèi)主導(dǎo)數(shù)學界。這取決于諸多因素,也需要一些超越我們目前成果的突破性進展,因此這其中充滿了隨機性。

當前的AI在某些任務(wù)上表現(xiàn)出色,而在另一些任務(wù)上則極為糟糕。雖然我們可以通過疊加更多框架來降低錯誤率、讓它們協(xié)同工作,但目前仍缺乏能夠真正令人滿意地替代所有智識性工作的關(guān)鍵要素。

現(xiàn)階段,這是一種互補關(guān)系,而非替代關(guān)系。當前水平的AI將以各種方式加速科學研究,我們希望新發(fā)現(xiàn)和新突破能因此來得更快。

當然,也存在一種可能性:如果過度依賴AI破壞了科學探索中的偶然性和直覺,反而可能會抑制某些類型的進步。

Dwarkesh:對于那些考慮從事數(shù)學職業(yè),或剛剛起步的年輕人,尤其是考慮到AI的迅猛進展,您有什么建議?他們應(yīng)該如何因應(yīng)AI的進步而重新思考自己的職業(yè)規(guī)劃?

陶哲軒:我們正生活在一個變革的時代,這也是一個特別難以預(yù)測的時代。

幾個世紀以來我們視為理所當然的規(guī)則,可能已不再適用。不僅是數(shù)學,我們做一切事情的方式都將發(fā)生巨變。

在很多方面,我寧愿生活在那個更無聊、更平靜的時代,那時的一切跟十年前、二十年前差不多。但我認為人們必須接受一個事實:變革是不可避免的。你必須始終保持對新機會的敏感度,去嘗試以前不可能做到的事情。

在數(shù)學領(lǐng)域,過去你需要經(jīng)過多年的嚴苛教育,拿到數(shù)學博士學位,才有可能在前沿研究上做出貢獻。但現(xiàn)在,在各類AI工具、形式化證明助手(如 Lean)等的輔助下,高中生很可能就能參與數(shù)學項目并做出實質(zhì)性貢獻。

因此,你需要具備一種高度適應(yīng)的心態(tài)。未來將有更多的空間供人們純粹出于好奇心去探索、去“玩耍”。

當然,獲取學歷資質(zhì)依然重要,傳統(tǒng)教育仍有其價值,用老方法打牢數(shù)學和科學基礎(chǔ)也是必要的。但同時,你也應(yīng)該對完全不同的科研范式保持開放。

這是一個令人忐忑的時代,但也同樣令人興奮。

播客鏈接:https://www.youtube.com/watch?v=Q8Fkpi18QXU

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
劉德華《拆彈專家3》啟動,22個項目排隊,他為啥先開這部?

劉德華《拆彈專家3》啟動,22個項目排隊,他為啥先開這部?

光影新天地
2026-03-26 14:21:46
神木麗:從自卑田徑少女到“六邊形戰(zhàn)士”的逆襲傳奇

神木麗:從自卑田徑少女到“六邊形戰(zhàn)士”的逆襲傳奇

碧波萬覽
2026-03-27 00:57:08
他倆才是最牛岳父母,3個女兒全嫁百億富豪,一個比一個漂亮厲害

他倆才是最牛岳父母,3個女兒全嫁百億富豪,一個比一個漂亮厲害

白面書誏
2026-03-26 18:13:05
尼日爾撕毀4億美元合同,并驅(qū)逐中方高管,我方暗藏后手漂亮反擊

尼日爾撕毀4億美元合同,并驅(qū)逐中方高管,我方暗藏后手漂亮反擊

詭譎怪談
2025-04-30 22:17:42
這曾經(jīng)是多少男人心中女神,她竟然這么蒼老,真是歲月不饒人呀

這曾經(jīng)是多少男人心中女神,她竟然這么蒼老,真是歲月不饒人呀

東方不敗然多多
2026-03-27 00:11:10
湖人結(jié)束客場之旅兩喜一憂,詹姆斯開啟季后賽模式,實力榜進前五

湖人結(jié)束客場之旅兩喜一憂,詹姆斯開啟季后賽模式,實力榜進前五

謝說籃球
2026-03-26 16:45:05
采耳變賣淫?女技師可變裝,躺采色誘客人,有反應(yīng)了就直接脫褲子

采耳變賣淫?女技師可變裝,躺采色誘客人,有反應(yīng)了就直接脫褲子

烏娛子醬
2025-03-19 10:27:30
浙江男老師意外發(fā)現(xiàn)女學生長相酷似亡妻,鑒定后,結(jié)果讓他當場愣住

浙江男老師意外發(fā)現(xiàn)女學生長相酷似亡妻,鑒定后,結(jié)果讓他當場愣住

紅豆講堂
2024-09-13 09:35:43
港圈傳奇落幕,79歲鄭少秋生日當天宣布退休

港圈傳奇落幕,79歲鄭少秋生日當天宣布退休

大象新聞
2026-03-25 20:09:04
四川3名干部職務(wù)明確,涉廳級干部

四川3名干部職務(wù)明確,涉廳級干部

微甘孜
2026-03-26 16:26:53
家長違停孩子開門殺撞人后逃逸?交警回應(yīng)

家長違停孩子開門殺撞人后逃逸?交警回應(yīng)

中國新聞周刊
2026-03-26 14:46:51
教育徹底變天!2026屆初中生注意,這是最后一屆只拼分數(shù)的一屆

教育徹底變天!2026屆初中生注意,這是最后一屆只拼分數(shù)的一屆

老特有話說
2026-03-25 15:22:58
2026普法:強奸、通奸、嫖娼,只有這個行為會坐牢!

2026普法:強奸、通奸、嫖娼,只有這個行為會坐牢!

奇葩游戲醬
2026-03-26 05:01:32
華潤置地24.8億拿下成都青羊蔡橋152畝商住地?將落地萬象系商業(yè)

華潤置地24.8億拿下成都青羊蔡橋152畝商住地?將落地萬象系商業(yè)

觀點機構(gòu)
2026-03-26 15:33:09
初中和高中一對比,你會發(fā)現(xiàn):初中成績好,高中掉隊的概率真不小

初中和高中一對比,你會發(fā)現(xiàn):初中成績好,高中掉隊的概率真不小

好爸育兒
2026-03-26 15:45:14
美軍繼續(xù)調(diào)兵,伊朗已在哈爾克島布雷備戰(zhàn)!鴿派將軍們堅持打下去

美軍繼續(xù)調(diào)兵,伊朗已在哈爾克島布雷備戰(zhàn)!鴿派將軍們堅持打下去

鷹眼Defence
2026-03-26 16:06:38
舉火燒天!楊瀚森接球順下單臂隔扣班克斯,目前9中9獨攬20分

舉火燒天!楊瀚森接球順下單臂隔扣班克斯,目前9中9獨攬20分

懂球帝
2026-03-26 10:15:02
伊朗創(chuàng)造歷史,美國難以置信!而一位神秘老人不得不提了!

伊朗創(chuàng)造歷史,美國難以置信!而一位神秘老人不得不提了!

華人星光
2026-03-25 11:24:58
上海一男子每天3包煙,持續(xù)幾十年!醫(yī)生:全身沒一根血管是好的

上海一男子每天3包煙,持續(xù)幾十年!醫(yī)生:全身沒一根血管是好的

上觀新聞
2026-03-24 13:32:07
為什么一定要多接高中孩子放學?這5個答案點醒無數(shù)家長

為什么一定要多接高中孩子放學?這5個答案點醒無數(shù)家長

戶外阿毽
2026-03-26 12:33:16
2026-03-27 02:07:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12348文章數(shù) 176425關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

旅游
房產(chǎn)
數(shù)碼
手機
公開課

旅游要聞

河南開封萬歲山武俠城,游客買300元門票:給妻子拍照被保安阻攔

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補償方案出爐!

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動,支持B70 / B65顯卡

手機要聞

1499 iQOO Z11系列發(fā)布丨9020mAh電池 165Hz高刷

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版