国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

人工智能在數(shù)學領域的應用:進展、挑戰(zhàn)與展望

0
分享至

https://arxiv.org/pdf/2601.13209v1

AI for Mathematics: Progress, Challenges, and Prospects

人工智能在數(shù)學領域的應用:進展、挑戰(zhàn)與展望



摘 要

人工智能用于數(shù)學(AI for Mathematics,簡稱 AI4Math)已作為一個獨立領域出現(xiàn),它利用機器學習來探索那些對早期符號系統(tǒng)而言歷來難以處理的數(shù)學領域。盡管20世紀中期的符號方法成功實現(xiàn)了形式邏輯的自動化,但由于搜索空間的組合爆炸,它們在可擴展性方面面臨嚴重限制。近期數(shù)據(jù)驅動方法的引入重新激發(fā)了這一研究方向。

在本綜述中,我們對 AI4Math 提供了系統(tǒng)性的概述,強調其主要目標是開發(fā)人工智能模型以支持數(shù)學研究。至關重要的是,我們指出這不僅限于將人工智能應用于數(shù)學活動;它同時也包括構建更強大的人工智能系統(tǒng)——其中數(shù)學所具有的嚴謹性可作為推進通用推理能力的頂級試驗平臺。

我們將現(xiàn)有研究劃分為兩個互補方向:一是面向特定問題的建模(problem-specific modeling),涉及為不同數(shù)學任務設計專用架構;二是通用建模(general-purpose modeling),聚焦于能夠支持更廣泛推理、檢索與探索性工作流的基礎模型(foundation models)。

最后,我們討論了關鍵挑戰(zhàn)與未來前景,倡導開發(fā)超越僅確保形式正確性的 AI 系統(tǒng),轉而致力于促成有意義成果與統(tǒng)一理論的發(fā)現(xiàn),并認識到一個證明的真正價值在于它為整個數(shù)學領域所提供的洞見與工具。

關鍵詞:機器學習,深度學習,形式驗證,自動形式化,數(shù)學發(fā)現(xiàn),自動推理,數(shù)學信息檢索

1 引言

自人工智能(AI)誕生以來,數(shù)學推理的自動化一直是其核心目標之一。機械化推理的夢想甚至早于數(shù)字計算機的出現(xiàn),可追溯至20世紀20年代,當時大衛(wèi)·希爾伯特(David Hilbert)提出了一個綱領,旨在將全部數(shù)學形式化,以期在一致的公理系統(tǒng)內證明所有定理。盡管這一樂觀愿景在1931年受到庫爾特·哥德爾(Kurt G?del)不完備性定理的理論挑戰(zhàn)——該定理表明,任何足夠豐富的形式系統(tǒng)必然是不完備的——但哥德爾的結果并未終結這一研究方向。正如烏拉姆(Ulam)[116]所指出的,馮·諾依曼(von Neumann)認為這些發(fā)現(xiàn)應促使人們重新思考形式主義的角色,而非徹底放棄它。后續(xù)研究進一步表明,經典數(shù)學的大部分內容可以進行有窮主義的約簡[111],從而維持了部分機械化夢想的活力。

隨著數(shù)字計算機的出現(xiàn),這些理論構想被付諸實踐。20世紀50年代,馬丁·戴維斯(Martin Davis)實現(xiàn)了普雷斯伯格算術(Presburger arithmetic)的一個判定過程[27, 35],這可被視為計算機機械驗證邏輯命題的首個實例。不久之后,紐厄爾(Newell)、西蒙(Simon)和肖(Shaw)開發(fā)了“邏輯理論家”(Logic Theorist)[97],被廣泛認為是第一個真正意義上的人工智能程序,它能在符號邏輯中進行定理證明。在符號主義時代,一個尤為具有影響力的里程碑是吳文?。╓en-Tsun Wu)提出的幾何定理機器證明方法[131, 133]。他通過將幾何問題轉化為代數(shù)方程組,并應用特征集方法,展示了復雜的邏輯推論可以被算法化地導出。

然而,大多數(shù)這類符號方法面臨一個關鍵瓶頸:搜索空間的組合爆炸。隨著證明復雜度的增加,可能的邏輯路徑數(shù)量呈指數(shù)級增長,使得窮舉搜索變得不可行。近幾十年來,機器學習的引入重新激發(fā)了這一研究方向,提供了數(shù)據(jù)驅動的方法來導航這些復雜的數(shù)學空間。自2010年代起,聯(lián)結主義人工智能(connectionist AI)迅速崛起,在計算機視覺和自然語言處理領域取得了顯著成功。數(shù)學家們隨后開始利用這些模型來識別可引導人類直覺的模式[34, 39, 57],通過強化學習(RL)構造反例[54, 109, 119],以及訓練神經定理證明器[10, 132]。更近以來,大語言模型(LLMs)的飛速發(fā)展已能夠生成新的數(shù)學構造[50, 98, 105]、實現(xiàn)自動形式化(autoformalization)[95, 135],并支持協(xié)作式定理證明[156]。

這一融合催生了跨學科領域“人工智能用于數(shù)學”(AI for Mathematics,簡稱 AI4Math)。我們強調,AI4Math 不僅是將人工智能工具應用于數(shù)學任務,還包含構建更強大的人工智能系統(tǒng)——其中數(shù)學所具有的嚴謹性可作為推進通用推理能力的頂級試驗平臺。廣義而言,該領域的研究可分為兩個互補方向:

  • 面向特定問題的建模(Problem-Specific Modeling):涉及為特定研究問題或狹窄類別的數(shù)學問題設計專用架構,例如在紐結理論中引導直覺,或在封閉幾何系統(tǒng)中進行推理。除了在目標任務上具有高度有效性外,這些模型通常所需的數(shù)據(jù)量和計算資源顯著較少,使更廣泛的科研人員能夠使用。然而,若不進行大量修改,它們很少能遷移到其他領域。
  • 通用建模(General-Purpose Modeling):聚焦于開發(fā)基礎模型(foundation models),包括專門面向數(shù)學的語言模型到通用推理引擎,旨在支持跨多個數(shù)學領域的廣泛工作流。盡管具備通用性,但這類方法需要海量訓練數(shù)據(jù)、大量計算資源以及深厚的工程專業(yè)知識。此外,當應用于定義明確的狹義數(shù)學問題時,它們可能無法達到專用模型那樣的針對性和有效性。該方向涵蓋自然語言推理的進展、通過自動形式化彌合非形式與形式數(shù)學之間的鴻溝,以及構建能夠自動定理證明和信息檢索的智能體系統(tǒng)。

值得注意的是,AI4Math 的技術范疇實際上超出了邏輯推理,還包括“人工智能用于計算數(shù)學與科學計算”。該子領域致力于構建人工智能模型以輔助數(shù)值計算,例如求解偏微分方程(PDEs)、優(yōu)化問題和反問題。這一方向的根源可追溯至1980至1990年代,當時研究者探索使用淺層神經網絡近似微分方程的解。然而,該領域在2015年前后隨著深度學習的興起而迎來復興。盡管這些計算方面的進展構成了更廣泛 AI4Math 圖景中的重要支柱,但本綜述將聚焦于數(shù)學推理——包括數(shù)學發(fā)現(xiàn)、形式化與證明。對 AI4Math 計算方面感興趣的讀者可參考其他綜合性綜述文獻[6, 17, 21, 38, 70, 130]。

本文對 AI4Math 的進展、挑戰(zhàn)與前景提供系統(tǒng)性概述。我們的目標并非窮盡所有工作,而是突出具有代表性的成果,以展現(xiàn)該領域的演進脈絡。對特定子領域感興趣的讀者可參閱關于幾何自動推理[25, 134]或用于定理證明的深度學習[85]等現(xiàn)有綜述。第2節(jié)考察面向特定問題的建模,第3節(jié)回顧通用建模。最后,第4節(jié)討論未來面臨的關鍵挑戰(zhàn),倡導開發(fā)超越簡單驗證、邁向發(fā)現(xiàn)深刻數(shù)學洞見的系統(tǒng)。

2 面向特定問題的建模


隨著數(shù)據(jù)驅動技術的快速發(fā)展,研究人員開始設計專門的機器學習模型,以應對特定的數(shù)學研究問題。這些工作大致可分為三個方向:
(1)在高維數(shù)據(jù)中識別模式,以引導人類直覺并激發(fā)新猜想;
(2)構造例子或反例,以嚴格檢驗或證偽數(shù)學假設;
(3)在封閉的公理系統(tǒng)(如歐幾里得幾何)內進行形式推理。
本節(jié)將回顧這三個領域的最新進展,并討論各自的優(yōu)勢與局限。

2.1 通過機器學習引導人類直覺
利用機器學習輔助提出數(shù)學猜想的早期范例之一是文獻[18]。該研究采用線性回歸預測大量F理論幾何結構中幾何規(guī)范群的秩,成功重新發(fā)現(xiàn)了關于規(guī)范群秩的一個已有猜想。在此基礎上,作者進一步將邏輯回歸應用于涉及E?規(guī)范群的分類問題;通過對模型進行歸因分析(attribution analysis),他們提出了一個全新的猜想,隨后由人類數(shù)學家完成了證明。

然而,真正展示深度學習在數(shù)學研究中廣泛潛力的關鍵性工作是文獻[34]。該研究的核心貢獻是一個系統(tǒng)性框架,旨在加速猜想生成過程——傳統(tǒng)上,這一過程耗時漫長,需數(shù)學家反復提出關系假設、嘗試證明并迭代優(yōu)化思路。在[34]提出的流程中,數(shù)學家首先假設兩個數(shù)學對象之間可能存在某種關系;隨后訓練一個專門設計的神經網絡,用其中一個對象的特征預測另一個量;接著使用歸因方法識別最具影響力的輸入成分,從而引導數(shù)學家形成更精確、更精細的猜想。該循環(huán)不斷重復,直至得出具有數(shù)學意義的命題。利用這一方法,作者在紐結理論中發(fā)現(xiàn)了一個代數(shù)不變量與幾何不變量之間的新關系[33],并基于對稱群的組合不變性猜想提出了一個候選算法[15]。

受此范式啟發(fā),文獻[39]為仿射Deligne–Lusztig簇(ADLV)的研究設計了另一套AI引導直覺的框架。該工作不僅獨立重新發(fā)現(xiàn)了算術幾何中的經典“虛擬維數(shù)公式”,還建立了一個新穎且精確的下界定理。該結果通過提供一種填補重要理論空白的定量刻畫,展示了AI引導直覺在純數(shù)學深層領域促成嚴格發(fā)現(xiàn)的有效性。

除精煉猜想外,機器學習還被證明能揭示全新的數(shù)學現(xiàn)象。一個突出的例子是文獻[58]:作者將橢圓曲線表示為向量,并訓練邏輯回歸分類器以區(qū)分不同秩的曲線。為解釋分類器的優(yōu)異性能,他們對向量表示進行了主成分分析(PCA)。在繪制固定秩和導子(conductor)的橢圓曲線的Frobenius跡平均值時,他們發(fā)現(xiàn)了一種令人驚訝的振蕩模式,并將其命名為“低語”(murmurations)。這一現(xiàn)象此后成為深入理論研究的對象[16, 81, 158]。越來越多的文獻正持續(xù)利用機器學習在各類數(shù)學領域中發(fā)現(xiàn)或重新發(fā)現(xiàn)關系[5, 12, 14, 18, 42, 55, 72, 77, 79, 80, 106]。

2.2 構造例子與反例
將機器學習用于構造例子和反例的開創(chuàng)性工作之一是文獻[119]。該研究將圖編碼為0–1序列,并應用強化學習(RL)中的深度交叉熵方法,搜索可作為現(xiàn)有猜想反例的圖結構。在此先例之后,RL被廣泛用于多種結構性問題。例如,文獻[11]將代數(shù)幾何中奇點消解的核心框架——廣中(Hironaka)博弈——建模為馬爾可夫決策過程(MDP)。通過結合蒙特卡洛樹搜索與深度Q網絡,作者成功訓練出一個智能體,能將奇點替換為光滑點,在du Val奇點上實現(xiàn)了近優(yōu)的消解。類似地,文獻[109]研究了Andrews–Curtis(AC)猜想。作者首先使用經典搜索算法驗證了Miller–Schupp序列無限子族的AC平凡性,并在Akbulut–Kirby序列中實現(xiàn)了長度縮減;隨后將一般問題形式化為MDP,并在不同難度的問題實例上訓練RL智能體,最終發(fā)現(xiàn)了兩個此前經典搜索方法未能找到的平衡展示(balanced presentations)的新型AC平凡化。

除強化學習外,多種其他機器學習技術也被用于數(shù)學構造。文獻[4]在合成數(shù)據(jù)上訓練Transformer模型,以預測穩(wěn)定動力系統(tǒng)的Lyapunov函數(shù);訓練后的模型被用于發(fā)現(xiàn)非多項式系統(tǒng)的新Lyapunov函數(shù)。在組合數(shù)學中,文獻[19]提出了一種迭代自舉(bootstrapping)流程:該方法首先通過局部搜索算法生成候選構造,再在得分最高的候選集上訓練神經網絡,然后從網絡中采樣新種子以初始化下一輪局部搜索。利用此方法,作者成功找到了一個存在30年之久的猜想的反例。此外,文獻[13]應用遺傳算法生成2至5維的自反多面體(reflexive polytopes),在5維中識別出若干此前未知的多面體。其他利用機器學習構造例子或反例的工作還包括[23, 24, 54, 112]。

2.3 面向特定問題的形式推理

AlphaGeometry [115] 是一種神經符號方法,用于求解奧林匹克級別的歐幾里得幾何問題。它將一個符號化的幾何推理引擎與一個用于建議輔助構造的語言模型相結合。其符號組件基于演繹數(shù)據(jù)庫(Deductive Database, DD)[26]和代數(shù)規(guī)則(Algebraic Rules, AR),能夠對給定前提集進行窮盡式推導,生成其演繹閉包。然而,純粹的符號演繹無法引入新的幾何對象——而這一能力在復雜證明中常常是必需的。為此,系統(tǒng)利用語言模型提出有用的輔助點。為克服人類證明數(shù)據(jù)稀缺的問題,作者通過交替執(zhí)行符號演繹與隨機點插入,生成了一個大規(guī)模的合成證明圖數(shù)據(jù)集,并通過回溯(traceback)提取出最簡證明。在推理階段,系統(tǒng)以循環(huán)方式運行:符號引擎擴展演繹閉包,語言模型提出高概率的輔助點,循環(huán)重復直至達到目標結論。該架構使 AlphaGeometry 的性能顯著優(yōu)于基于啟發(fā)式的系統(tǒng),達到了國際數(shù)學奧林匹克(IMO)銀牌水平。

其后續(xù)版本 AlphaGeometry2 [22] 通過在表達能力和效率兩方面的增強,進一步推進了這一范式。形式化幾何語言被擴展,以支持軌跡描述、線性幾何關系以及非構造性陳述;底層符號引擎也經過重新設計,速度更快、魯棒性更強。這些改進使得語言模型能夠使用更大、更多樣化的合成訓練集進行訓練。此外,AlphaGeometry2 引入了一種新穎的搜索算法——“共享知識搜索樹集成”(Shared Knowledge Ensemble of Search Trees, SKEST),該算法并行執(zhí)行多個搜索樹,并允許它們交換所發(fā)現(xiàn)的信息,從而顯著提升了對輔助構造空間的探索能力。因此,AlphaGeometry2 在 IMO 級別幾何問題上達到了金牌水平。

除了基于神經網絡的輔助點生成方法外,近期工作如 HAGeo [41] 提出了一種純啟發(fā)式策略,通過引入具有優(yōu)良幾何性質的輔助構造(如直線與圓的交點、中點、點反射等),同樣實現(xiàn)了金牌級別的性能。其他關于歐幾里得幾何問題求解的工作可見于 [59, 147, 151, 152, 157]。

2.4 討論

本節(jié)所討論的三類方法——通過識別模式引導直覺、構造反例、以及在封閉系統(tǒng)中進行形式推理——各自具有獨特優(yōu)勢,同時也面臨不同的挑戰(zhàn)。

AI引導直覺的范式之所以強大,在于它使數(shù)學家能夠發(fā)現(xiàn)高維數(shù)據(jù)中難以或耗時手動檢測的模式,從而有效縮小探索性研究中的搜索空間。然而,該方法并非普遍適用。它依賴于精心選擇的問題,因為目標問題必須能夠生成足夠大且具有代表性的數(shù)據(jù)集。此外,成功實施需要較高的雙重專業(yè)門檻:除了標準的機器學習考量(如架構設計、損失函數(shù)工程)外,深厚的數(shù)學洞察力對于解釋模型輸出并將經驗性關聯(lián)轉化為嚴格數(shù)學理論至關重要。最終,由于證明和驗證通常仍由人類數(shù)學家完成,該工作流的自動化程度仍然有限。

另一方面,利用機器學習構造例子與反例可顯著加速猜想的提出與檢驗,尤其能發(fā)現(xiàn)違背人類直覺的對象。然而,這一方向也面臨技術障礙,特別是分布外(out-of-distribution, OOD)泛化問題。例如,文獻[4]中從采樣解反向生成問題的方法可能產生具有特定分布的訓練集,這在泛化到典型問題實例時會帶來挑戰(zhàn),通常需要精心設計的機制(如作者提出的促進Lyapunov函數(shù)多樣性的機制)來確保魯棒性能。此外,當使用強化學習時,將數(shù)學問題映射為馬爾可夫決策過程(MDP)并非易事。定義合適的狀態(tài)表示、動作空間和獎勵函數(shù)可能非常復雜[119],而稀疏獎勵和長規(guī)劃視野等問題還會進一步加劇學習難度[109]。

最后,像 AlphaGeometry 這樣的面向特定問題的形式推理系統(tǒng)表明,在結構化領域中,將符號引擎與神經語言模型結合可達到專家級性能。然而,這些系統(tǒng)的成功通常依賴于特定領域的符號引擎(例如用于幾何的演繹數(shù)據(jù)庫[26])以及生成大規(guī)模合成數(shù)據(jù)的能力。因此,這類架構往往高度定制于其特定問題范圍,若不進行大量修改,難以遷移到數(shù)學的其他領域。

3 通用建模

通用建模標志著從為孤立問題設計的專用算法,轉向能夠處理廣泛數(shù)學領域的可適應系統(tǒng)。與面向特定問題的建模不同——后者針對每個新任務都需要定制特征和架構——通用建模方法利用在海量語料上訓練的基礎模型(foundation models),學習數(shù)學知識的通用表示。這些模型旨在支持多種活動,從求解多樣化的習題集,到檢索定理,再到協(xié)調復雜的發(fā)現(xiàn)工作流,而無需為每個新領域進行大量修改。

我們將通用建模領域的近期進展劃分為四個互補方向:
(1)利用語言直觀力量的自然語言推理模型;
(2)通過與證明助手交互以確保嚴謹性的形式推理模型;
(3)將推理錨定于既有知識的數(shù)學信息檢索系統(tǒng);
(4)整合上述能力以探索新成果的數(shù)學發(fā)現(xiàn)智能體。

本節(jié)首先分析基礎模型(尤其是大語言模型,LLMs)的能力與內在局限,為后續(xù)對這四個關鍵方向的詳細綜述奠定背景。

3.1 基礎模型與大語言模型(LLMs)
與傳統(tǒng)機器學習模型(通常針對單一、狹義定義的任務進行訓練)相比,大語言模型作為基礎模型:采用單一架構,在廣泛的數(shù)據(jù)和任務集合上以統(tǒng)一方式進行訓練。從數(shù)學角度看,這一區(qū)別代表了一種范式轉變——從函數(shù)逼近(function approximation)轉向算子逼近(operator approximation),而這一過程與元學習(meta-learning)密切相關。


其成功的一個關鍵因素在于處理多樣化數(shù)據(jù)類型的能力:分詞(tokenization)將異構輸入轉換為統(tǒng)一的序列表示,而“下一個詞元預測”(next-token prediction)目標則提供了一條適用于模型所遇所有任務的統(tǒng)一學習規(guī)則。在此框架中,基于注意力的架構至關重要。除了能有效隨模型規(guī)模和數(shù)據(jù)量擴展外,注意力機制在訓練過程中通過強制長上下文一致性,成為推理的核心引擎。這使得模型能夠捕捉并維持長序列中的復雜依賴關系——這是邏輯演繹的先決條件。通過接觸多樣化的領域和監(jiān)督信號,模型被迫將海量異構數(shù)據(jù)壓縮為共享的內部表示,并在不同任務與語言之間發(fā)現(xiàn)共同的低維結構。一個自然的假設是,該低維結構中的關鍵組成部分對應于通用推理能力,這種能力可在不同語言和領域中表達。

數(shù)學天然契合這一框架。數(shù)學工作受嚴格邏輯規(guī)則支配,許多數(shù)學任務可被表述為在計算、推導或證明中生成下一個有意義的步驟——這正是“下一個詞元預測”目標所設計建模的逐步結構。因此,當大語言模型作為基礎模型在足夠豐富的數(shù)學與科學語料上訓練時,支撐跨領域泛化與長上下文一致性的相同機制,也可用于學習和運用廣泛的數(shù)學推理能力。

然而,在掌握標準化考試與從事研究級數(shù)學之間仍存在根本性鴻溝。盡管當前模型在求解定義明確的本科水平問題上表現(xiàn)出色,但真正的數(shù)學研究要求開放式的探索、絕對的邏輯嚴謹性,以及駕馭高度專業(yè)化領域知識“長尾”的能力——在這些方面,隨機性文本生成往往力有不逮。要將人工智能從一名勝任的解題者提升為可靠的科研伙伴,通用建模必須超越簡單的“下一個詞元預測”,通過整合形式驗證、語義檢索與智能體工作流,彌合“看似合理文本”與“嚴格真理”之間的鴻溝。

3.2 自然語言推理

當前的自然語言數(shù)學推理方法通常分為兩類:數(shù)學專用的大語言模型(math-specific LLMs)通用推理模型(general-purpose reasoning models)。

數(shù)學專用的大語言模型通常通過對通用基礎模型進行專門的預訓練和后訓練流程(pre-training and post-training pipelines)加以適配。在預訓練階段,過濾流水線(filtering pipelines)[107, 141] 從網絡語料(如 Common Crawl)、教科書和研究論文中提取高質量的數(shù)學內容,以最大化領域相關性。后訓練階段則通過監(jiān)督微調(Supervised Fine-Tuning, SFT)和強化學習(RL)對模型進行進一步優(yōu)化。

用于監(jiān)督微調(SFT)的數(shù)據(jù)通常以“思維鏈”(Chain-of-Thought, CoT)[129]對的形式組織,包含問題及其分步解答;或采用“工具集成推理”(Tool-Integrated Reasoning, TIR)[53]示例,其中整合了外部代碼執(zhí)行。一個突出的例子是 NuminaMath [83],它通過對高質量的 CoT 和 TIR 數(shù)據(jù)集進行微調,在首屆 AIMO 進展獎(AIMO Progress Prize)中拔得頭籌。盡管這類模型 [9, 107, 141, 144] 在基礎數(shù)學和競賽級基準測試(如 GSM8K [28]、MATH [60]、AIME)上表現(xiàn)出色,但其在高等數(shù)學方面的能力仍較少被探索。

與此同時,通用大語言模型(general-purpose LLMs)憑借規(guī)模擴展和新穎的推理策略,在數(shù)學領域也取得了顯著進展。早期版本如 GPT-3 在基本算術任務上表現(xiàn)不佳,而 GPT-4 [1] 在 GSM8K 上達到了 92.0% 的準確率。隨著“測試時擴展”(test-time scaling)的引入,該領域發(fā)生了范式轉變——模型在推理階段投入更多計算資源用于推理。OpenAI 的 o1 模型在 AIME 上展現(xiàn)出強大性能,后續(xù)的推理模型 [30, 56, 114, 140] 進一步驗證了這一方法的有效性。截至 2025 年,增強型推理模型(如 Google 的 Gemini Deep Think)僅依靠純自然語言推理,就在國際數(shù)學奧林匹克(IMO)中達到金牌水平,標志著該技術在中學奧數(shù)領域已趨于成熟。

然而,從奧數(shù)問題過渡到高等數(shù)學提出了更嚴峻的挑戰(zhàn)。先前研究表明,盡管 GPT-4 能輔助處理本科階段的內容,但仍需人類的關鍵監(jiān)督 [29],且在研究生層次上常常失敗 [45]。近期的基準測試量化了這一差距:文獻 [69] 報告稱,DeepSeek-R1 在研究生代數(shù)(FATE-H)上的證明準確率為 71.0%,但在博士資格考試(FATE-X)上驟降至 33.0%。同樣,在由未發(fā)表的研究級問題組成的 FrontierMath 基準測試 [51] 中,Gemini 3 Pro 在研究級子集上的得分僅為 18.75%,表明穩(wěn)健的研究級推理能力仍是一個開放性問題。

為實證評估當前最先進模型的能力,我們構建了一個包含 100 道題目的數(shù)據(jù)集,題目選自北京大學(PKU)11 門本科數(shù)學課程的期末考試。我們評估了五個模型:GPT-4、o1、o3-mini、DeepSeek-R1 和 Gemini 2.5 Pro。附錄 B 提供了樣題及模型回答。人類專家根據(jù) 0–5 分制(評分標準見表 A)對輸出進行打分,歸一化后的結果如圖 1(左圖和中圖)所示。盡管 GPT-4 得分低于 60,但經過推理增強的模型(OpenAI o 系列、DeepSeek-R1、Gemini 2.5 Pro)表現(xiàn)顯著提升,其中多個模型得分超過 90。


此外,我們還在北京大學博士資格考試(涵蓋分析、概率、代數(shù)、幾何與拓撲)的 58 道題目上評估了 o3-mini。如圖 1(右圖)所示,o3-mini 的平均得分為 84.4。進一步分析各科表現(xiàn)可發(fā)現(xiàn)明顯差異:該模型在代數(shù)方面表現(xiàn)最強,而在幾何與拓撲方面得分最低。假設這些考試對人類學生構成相近難度,則這一結果表明,當前的人工智能系統(tǒng)在處理抽象代數(shù)結構方面相對更擅長,而在需要幾何直覺的任務上相對較弱。盡管由于潛在的數(shù)據(jù)污染風險以及考試題目與開放性研究問題之間的本質差異,這些結果需謹慎解讀,但它們提供了有力證據(jù):頂尖模型如今已能處理相當一部分研究生層次的數(shù)學內容。

綜合上述發(fā)現(xiàn),我們觀察到一條清晰的發(fā)展軌跡:大語言模型的數(shù)學推理能力已從掌握基礎運算和中學競賽,發(fā)展到勝任本科課程內容,并正開始進入研究生乃至研究級數(shù)學的領域。

3.3 形式推理
盡管頂尖的大語言模型(LLMs)如今已能解決某些研究生層次甚至部分研究級數(shù)學問題,但對其能力的評估仍是一個重大瓶頸,需要大量人工投入。隨著數(shù)學復雜性的增加,評估高度依賴領域專家;然而,由于自然語言本身具有內在的模糊性,即便是經驗豐富的數(shù)學家也可能誤判論證。一個著名的歷史案例發(fā)生在1994年:《數(shù)學年刊》(Annals of Mathematics)發(fā)表了一篇論文,聲稱Busemann–Petty問題在四維及以上維度具有負解 [148]。該結論后來被證明是錯誤的 [73, 74],而1999年的一篇論文最終確立了該問題在四維情形下實際上具有正解 [149]。這一事件表明,即使在頂級期刊嚴格的同行評審流程中,錯誤仍可能長期存在。因此,為了實現(xiàn)對數(shù)學推理快速且可靠的驗證,研究必須轉向一種更機械化、更無歧義的框架。形式系統(tǒng)(formal systems)恰好提供了這樣的基礎。本節(jié)將討論形式系統(tǒng)對數(shù)學研究的益處及其在增強大語言模型推理能力方面的價值,隨后綜述自動定理證明與自動形式化(autoformalization)領域的最新進展。

3.3.1 形式系統(tǒng)
形式系統(tǒng)提供了一種精確的符號語言,并配以嚴格定義的機制,用于構造和驗證證明。目前存在多種形式系統(tǒng),其區(qū)別在于底層邏輯基礎:HOL 系統(tǒng)(如 HOL Light、Isabelle/HOL)采用簡單類型論(simple type theory);Coq 和 Lean 使用依賴類型論(dependent type theory);Metamath 基于一階邏輯并顯式指定公理;而 Mizar 則建立在 Tarski–Grothendieck 集合論之上。一旦將數(shù)學論證翻譯成交互式定理證明器(Interactive Theorem Prover, ITP)的形式語言,即可對其進行絕對嚴謹?shù)尿炞C。倘若1994年那篇關于 Busemann–Petty 問題的錯誤結果當初在形式系統(tǒng)中被形式化,其潛在的邏輯缺陷很可能立即被發(fā)現(xiàn),從而避免錯誤結論的發(fā)表。

除了對數(shù)學正確性本身具有內在價值外,形式系統(tǒng)對人工智能發(fā)展還提供了一個關鍵優(yōu)勢:它們提供了可靠且可驗證的監(jiān)督信號。與初等數(shù)學不同(其答案常為數(shù)值,易于核對),面向證明的高等數(shù)學問題缺乏簡單的驗證器,難以生成可靠的訓練信號。交互式定理證明器通過為每一步邏輯推理提供精確反饋,彌補了這一缺口。這種能力為強化學習(RL)提供了高質量的訓練信號,從而使模型能夠在嚴格環(huán)境中發(fā)展出更強的推理能力。

在眾多交互式定理證明器中,Lean [36, 37] 已培育出一個尤為強大的生態(tài)系統(tǒng)。其統(tǒng)一的數(shù)學庫 mathlib4 通過大規(guī)模社區(qū)協(xié)作迅速擴展,截至2025年12月,已包含超過25萬條定理和12萬個定義。該領域的一項里程碑式成就是由 Johan Commelin 主導的“液態(tài)張量實驗”(Liquid Tensor Experiment),該項目形式化了 Peter Scholze 關于液態(tài)向量空間的一個核心定理。Scholze 最初對該證明的正確性存有疑慮,后來稱該定理可能是他“迄今為止最重要的成果”2。該項目歷時約18個月,不僅驗證了該結果,還簡化了 Clausen–Scholze 原始證明,幫助 Scholze 更深入地理解了論證的結構3。此外,“液態(tài)張量實驗”還推動了 mathlib4 中代數(shù)基礎設施的發(fā)展:它促成了同調代數(shù)與范疇論的早期形式化,并吸引了一大批代數(shù)學家加入社區(qū)。

其他值得注意的里程碑包括:Polynomial Freiman–Ruzsa(PFR)猜想的形式化、球面翻轉定理(sphere eversion theorem)的形式化,以及由 Kevin Buzzard 領導的費馬大定理(Fermat’s Last Theorem)形式化工作。在應用數(shù)學方向,近期研究還在 Lean4 中建立了數(shù)值優(yōu)化的形式化基礎,特別是驗證了一階算法的收斂性 [82]。

然而,這些項目仍然高度依賴人力,需要專家手動將定義和證明翻譯為代碼。這種高昂的成本推動了自動形式化工具與自動定理證明器的發(fā)展,以加速數(shù)學知識的數(shù)字化進程——即將標準的非形式化數(shù)學轉化為 Lean 等嚴格形式系統(tǒng)中的內容。

3.3.2 自動形式化(Autoformalization)
自動形式化是指以自主方式(例如通過語言模型)將自然語言中的數(shù)學陳述和證明翻譯為形式化代碼的任務。該領域的早期工作采用序列到序列(sequence-to-sequence)模型,并在對齊數(shù)據(jù)上進行訓練。例如,文獻[126]通過將Mizar形式陳述“非形式化”(informalizing)來構建數(shù)據(jù)集,用于訓練翻譯模型。為應對對齊語料稀缺的問題,文獻[125]隨后探索了基于循環(huán)一致性損失(cycle-consistency losses)的無監(jiān)督方法:模型在無需顯式監(jiān)督的情況下,通過在非形式與形式領域之間來回翻譯并重建原始陳述來學習映射關系。

大語言模型(LLMs)的出現(xiàn)從根本上改變了這一范式。研究表明,現(xiàn)成的LLMs通過少樣本提示(few-shot prompting)即可生成合理的形式化結果[3, 8, 46, 135]。尤為關鍵的是,文獻[135]觀察到一種不對稱性:對模型而言,將形式代碼翻譯為自然語言(即“非形式化”)遠比反向操作(即形式化)更容易。這一洞見催生了大規(guī)模合成數(shù)據(jù)集的構建——研究者利用LLMs對龐大的形式庫(如mathlib4)進行非形式化,從而生成高質量的對齊語料,用于訓練專用的自動形式化器[48, 66, 87, 90]。

近期工作聚焦于提升這些系統(tǒng)的質量與語義根基(grounding)。Herald [48] 提出了一種分層非形式化策略,該策略尊重mathlib庫的依賴圖結構:通過按拓撲序翻譯聲明,確保在翻譯依賴定理時,其前提概念的自然語言描述已可用。Herald還通過基于策略(tactic-based)的狀態(tài)合成進一步擴充數(shù)據(jù),在miniF2F驗證集上實現(xiàn)了超過96%的準確率。為增強語義根基,RAutoformalizer [87] 引入檢索機制,將生成的代碼錨定于已有的形式化聲明之上。針對研究級數(shù)學中常見的“缺失概念”問題,文獻[122]提出了Aria——一個基于LLM的智能體系統(tǒng)。

更一般地,基于LLM的智能體(agent)指一類通過與環(huán)境顯式交互循環(huán)運行的系統(tǒng):它維護中間狀態(tài),基于觀測進行推理,執(zhí)行多步規(guī)劃,并據(jù)此選擇行動。這些行動可包括調用外部工具,如語義檢索、符號推理模塊或代碼合成組件,而環(huán)境反饋則用于指導后續(xù)決策。此類智能體設計能夠將復雜任務分解為結構化的子任務,并支持超越單次生成的迭代優(yōu)化[123]。在此框架下,Aria將非形式陳述分解為概念依賴圖;若某概念在mathlib庫中缺失,該智能體會通過語義搜索與合成,自底向上遞歸地定義該概念,從而有效處理數(shù)學術語中的“長尾”現(xiàn)象。

評估與驗證
自動形式化的評估并非易事。盡管人類專家評審是黃金標準,但其不可擴展。因此,核心挑戰(zhàn)在于開發(fā)自動化的正確性度量方法:

  • 有參考真值(With Ground Truth):當存在參考形式陳述時,正確性應通過邏輯等價性(而非簡單的字符串匹配)來評估。例如,BEq [87] 利用神經定理證明器檢驗生成陳述與參考真值是否可相互推導。類似等價性檢驗方法也在[88, 101]中被探討。
  • 無參考真值(語義驗證,Semantic Verification):在缺乏參考形式陳述的情況下,需驗證語義正確性——即形式代碼是否忠實捕捉了非形式陳述的意圖。一種樸素方法是“回譯”(back-translation):讓LLM將代碼再翻譯回英文進行比對[48, 143]。然而,這種方法容易出錯,因為LLM可能忽略細微的邏輯差異。為緩解此問題,文獻[139]提出了Mathesis——一個細粒度評估框架。Mathesis將陳述分解為假設與結論,分別評估各組成部分的一致性,并通過模糊積分(fuzzy integral)聚合得分,以嚴格排除不一致情況。為進一步輔助驗證,Aria [122] 通過檢索每個形式術語的詳細元數(shù)據(jù)(類型、取值、非形式描述)來豐富上下文,從而支持更準確的語義判斷。

可靠的驗證器不僅對評估至關重要,還可作為強化學習(RL)中的關鍵獎勵模型,形成一個反饋閉環(huán),持續(xù)提升自動形式化的性能[63, 90, 139]。

:本節(jié)聚焦于陳述的自動形式化。而證明的自動形式化——即不僅翻譯定義,還需轉換邏輯推理步驟——與自動定理證明密不可分。因此,我們將在下一節(jié)關于證明生成的討論中一并闡述證明的自動形式化。

3.3.3 自動定理證明
形式系統(tǒng)中的自動定理證明旨在為形式化陳述生成有效的證明?;谏疃葘W習的方法大致可分為兩類:單模型方法(single-model approaches)智能體方法(agentic approaches)。單模型方法又可進一步細分為證明步驟生成(proof step generation)完整證明生成(whole-proof generation)。

證明步驟生成(Proof Step Generation)

證明步驟生成方法將定理證明建模為一個樹搜索問題。在此框架中,搜索樹的每個節(jié)點對應一個證明狀態(tài)(proof state),每個動作對應應用一個策略(tactic),從而將證明器轉移到新的證明狀態(tài)。一旦找到一條通往“無剩余目標”狀態(tài)的路徑,即成功構造出證明。圖2展示了此類方法生成的證明樹示例及其最終形式化證明。


該方法的優(yōu)勢在于可重用性探索能力。在搜索過程中,證明狀態(tài)是可重用的:若新遇到的狀態(tài)與先前已探索的狀態(tài)一致,則可合并。此外,系統(tǒng)在每一步嘗試多種策略,展現(xiàn)出強大的探索能力。然而,這些方法常因樹搜索的計算開銷而面臨推理速度慢、訓練不穩(wěn)定,以及對高效交互式工具在訓練和推理階段的高度依賴等問題。

該領域最早的神經方法之一是 Holophrasm [132],它采用蒙特卡洛樹搜索(MCTS)進行探索,并集成三個神經組件:用于檢索有用定理的相關性網絡、用于提出變量替換的生成網絡,以及用于估計可證性的價值網絡。后續(xù)工作大多將策略預測視為分類問題,代表性工作包括 GamePad [62]、DeepHOL [10] 和基于圖的方法 [99]。超越純分類范式,GPT-f [103] 訓練了一個 Transformer 模型,通過條件語言建模目標生成證明步驟,并使用最佳優(yōu)先搜索(best-first search)構造證明。類似地,文獻[76]引入了超樹(hypertree)搜索結合在線訓練策略,其中策略網絡與評判網絡定期根據(jù)重復證明搜索所收集的數(shù)據(jù)進行更新。

該領域的一大挑戰(zhàn)是大規(guī)模形式化數(shù)據(jù)的稀缺。為應對這一問題,REALProver [110] 提出了一套集成流水線:包含一個陳述自動形式化器(用于翻譯非形式陳述)、一個基于檢索增強的證明器(其策略生成以相關前提為條件),以及一種專家迭代(expert iteration)范式。在該循環(huán)中,模型在生成的狀態(tài)-策略對上訓練,執(zhí)行證明搜索,并從成功搜索中迭代收集新的訓練數(shù)據(jù)。

一個顯著的里程碑是 AlphaProof [64]。AlphaProof 訓練了一個30億參數(shù)的證明網絡,可同時輸出策略與價值估計。其訓練流程包括:在3000億詞元上預訓練,在30萬組狀態(tài)-策略對上進行監(jiān)督微調,并在8000萬條自動形式化陳述上進行強化學習。這些形式陳述源自約100萬道非形式問題,其自動形式化模型在(非形式陳述,形式化思維鏈,形式陳述)三元組上訓練,每道問題生成多個不同翻譯。對于特別困難的任務,AlphaProof 還采用測試時強化學習(test-time RL),通過構建并訓練專用課程(curriculum)來適應問題結構。結果,其性能達到IMO銀牌水平。其他值得注意的方法包括 [67, 84, 102, 121, 138, 142]。

完整證明生成(Whole-Proof Generation)

相比之下,完整證明生成方法旨在通過單次前向傳遞生成整個形式化證明(可能輔以內聯(lián)注釋)。其主要優(yōu)勢在于高推理速度,以及在生成過程中無需依賴交互式工具。然而,其探索能力相較于逐步搜索較為有限;它們通常依賴行為克?。╞ehavior cloning),且由于無法訪問中間證明狀態(tài),更容易出現(xiàn)錯誤累積

該范式高度依賴數(shù)據(jù)的質量與數(shù)量。由于缺乏先驗的、原則性的數(shù)據(jù)質量判定方法,評估通常通過模型性能間接進行。為解決數(shù)據(jù)量問題,文獻[136]提出了一套集成流水線:包括自動陳述形式化、過濾(剔除平凡或錯誤陳述)、陳述證明,以及在所得驗證對上進行迭代訓練。在此基礎上,DeepSeek-Prover-V1.5 [137] 通過構建更豐富的數(shù)據(jù)集(包含形式代碼前撰寫的非形式證明及內聯(lián)非形式注釋)并應用來自驗證器反饋的強化學習(RLVF),進一步提升了性能。采用該范式的其他工作包括 [9, 40, 44, 144, 150]。

智能體方法(Agentic Approaches)

智能體方法代表了從單模型系統(tǒng)向模塊化工作流的范式轉變。這些方法將定理證明分解為若干協(xié)調的子任務(如檢索、分解、驗證),并通過結構化工作流將語言模型與外部工具集成。其有效性依賴于三個核心組件:魯棒的檢索系統(tǒng)、LLM 的推理能力,以及模擬數(shù)學研究過程的工作流設計。

Draft, Sketch, and Prove (DSP) [68] 是該范式的原型。它首先生成非形式證明,將其翻譯為帶有開放子目標的形式化草稿(sketch),再使用輕量級證明器閉合這些子目標。LEGOProver [120] 在此基礎上擴展,維護一個持久的引理池(lemma pool)。其獨特之處在于,通過維度擴展、關鍵概念識別、參數(shù)化和復雜度增強等策略,將已驗證的引理演化為新引理。Hilbert [118] 則通過遞歸子目標分解(由定理檢索引導)將非形式證明轉化為形式草稿。Seed-Prover-1.5 [20] 同樣采用專用草稿模型與專用證明器模型,在研究生級基準 FATE-H/X [69] 上取得優(yōu)異成績。

針對非形式推理與形式代碼之間的粒度鴻溝,文獻[128]提出了兩階段的“狀態(tài)鏈”(Chain of States, CoS)框架。該方法在生成具體轉換策略前,先提取與非形式論證邏輯流對齊的中間形式狀態(tài)序列,從而在計算資源受限的情況下顯著降低策略生成的復雜度。

更先進的智能體如 Aristotle [2] 將非形式推理與形式驗證交織進行:它以引理序列為單位起草證明,對其進行形式化并嘗試驗證,并根據(jù)反饋迭代優(yōu)化輸出。Aristotle 結合幾何求解器,在 IMO 金牌水平上取得成果。最后,Gauss 智能體 [95] 展示了人機協(xié)作的力量:在專家搭建的腳手架(scaffolding)支持下,僅用三周便完成了強素數(shù)定理(strong Prime Number Theorem)的形式化。

這些成果表明,精心設計的智能體工作流能夠有效融合模型的內在推理能力與外部工具,從而在自動定理證明中實現(xiàn)顯著突破。

3.4 數(shù)學信息檢索(Mathematical Information Retrieval, MIR)

數(shù)學信息檢索旨在從大規(guī)模數(shù)學文檔集合中檢索數(shù)學內容,包括公式、定理和問題解答。與標準文本檢索不同,MIR 必須顯式考慮數(shù)學表達式的獨特結構與語義。數(shù)學公式本質上是結構化對象,其含義取決于符號的組合方式與關系結構,而非簡單的詞匯重疊。因此,一個有效的 MIR 系統(tǒng)必須應對諸如匹配數(shù)學結構與符號模式等挑戰(zhàn),同時利用周圍的文本上下文來消解歧義并解釋語義。

尤為重要的是,MIR 不僅是供人類用戶使用的搜索工具,更是現(xiàn)代自動定理證明(ATP)和 AI 智能體系統(tǒng)的基礎組件。在 ATP 中,“前提檢索”(premise retrieval)——即從龐大的數(shù)學庫中識別出對證明新定理有用的定理、引理或定義——往往是主要瓶頸。隨著數(shù)學庫規(guī)模擴大至包含數(shù)十萬條形式化陳述(如 mathlib4),能否高效檢索到“大海撈針”般的關鍵前提,直接決定了證明器能否成功解決問題,還是因超時而失敗。對于智能體系統(tǒng)而言,MIR 使其能夠訪問長期的數(shù)學記憶,從而將推理建立在已確立的知識基礎上,而非憑空生成未經支持的“幻覺”事實。這要求檢索范式從傳統(tǒng)的關鍵詞匹配轉向基于推理的檢索。一個魯棒的 MIR 模型必須理解邏輯蘊含與數(shù)學等價性;例如,它應能識別出“方陣行列式非零”這一陳述,是回答“該矩陣列向量是否線性無關”這一查詢所必需的關鍵前提,即便兩者之間沒有任何共享關鍵詞。

根據(jù)檢索目標的粒度與查詢的性質,MIR 涵蓋若干緊密相關的任務,主要包括:語義檢索(semantic retrieval)、問答檢索(question-answer retrieval)和前提檢索(premise retrieval)。

語義檢索(Semantic Retrieval)

語義檢索旨在根據(jù)數(shù)學含義(而非表面相似性)從數(shù)學語料庫中識別出數(shù)學上等價或高度相關的陳述。該任務源于實際需求,例如在大型數(shù)學庫中進行定理搜索。例如,Lean 用戶在構造證明時常需在 mathlib4 中定位相關定理。在此場景中,查詢可以是自然語言或形式代碼,而檢索語料庫通常由 mathlib4 的形式化聲明組成。

為彌合非形式查詢與形式語料之間的鴻溝,LeanSearch? 構建了一個源自 mathlib4 的對齊非形式–形式語料庫,并在聯(lián)合表示空間中執(zhí)行檢索 [47]。該方法實現(xiàn)了跨表示模態(tài)的語義匹配,顯著提升了自然語言查詢的檢索效果。除 LeanSearch 外,其他為 mathlib4 開發(fā)的語義搜索工具還包括 Moogle?、LeanExplore [7]、LeanFinder [89] 和 LeanDex?。

公式檢索(formula retrieval)是語義檢索的重要子任務,其查詢?yōu)閿?shù)學公式或公式模式,目標是從文檔集合中檢索語義相關的公式。該任務帶來獨特挑戰(zhàn):表示同一數(shù)學概念的公式可能因記號差異或代數(shù)性質(如交換律)而在表面形式上大相徑庭;反之,視覺上相似的公式在不同數(shù)學語境下可能含義迥異。

傳統(tǒng)公式檢索方法主要基于樹表示,以編碼數(shù)學表達式的結構組織。公式被表示為樹,相似性通過子樹或路徑匹配,或通過計算樹編輯距離來定義。廣泛使用的表示包括符號布局樹(Symbol Layout Tree, SLT)[145],其中節(jié)點對應符號,邊編碼上標、下標或鄰接等空間關系;以及算子樹(Operator Tree, OPT)[49],其內部節(jié)點表示運算符,葉節(jié)點表示操作數(shù)。與 SLT 相比,OPT 抽象掉視覺布局,聚焦于數(shù)學運算及其層次關系。

基于樹的檢索算法通常通過匹配子樹或路徑,或計算樹編輯距離來比較公式。例如,Approach0 [154, 155] 將公式表示為算子樹,并以葉到根的路徑作為基本檢索單元:先篩選出路徑與查詢重疊的候選公式,再基于最大公共子樹導出的相似性度量對候選結果重排序。

除傳統(tǒng)符號匹配外,近期研究探索了使用文本嵌入模型進行公式檢索。早期方法通過線性化結構化公式編碼,將其嵌入連續(xù)向量空間。例如,TangentCFT [93] 對 SLT 和 OPT 進行深度優(yōu)先遍歷,將所得元組序列分詞后應用文本嵌入模型獲取公式表示。同期工作通過融合周圍文本上下文來更好捕捉語義 [75, 92]。例如,MathAMR [92] 將公式整合進其語言上下文中:結合抽象語義表示(Abstract Meaning Representation, AMR)圖與 OPT,用對應 OPT 的根節(jié)點替換 AMR 圖中的公式節(jié)點,并使用 Sentence-BERT 嵌入線性化后的圖結構。

問答檢索(Question-Answer Retrieval)

問答(QA)檢索旨在響應自然語言查詢,檢索數(shù)學答案、解釋或支持性文檔。數(shù)學問題本質上是多模態(tài)的,通常結合自然語言與符號表達式、公式或圖表,候選答案也具有類似結構。因此,數(shù)學 QA 檢索中的相關性由語義充分性定義——即答案是否正確且有意義地回應了問題,例如提供有效解法、證明或概念性解釋,而非依賴表面詞匯重疊。

早期數(shù)學 QA 檢索主要依賴通用文本檢索技術,如 TF–IDF 和 BM25。盡管可直接應用,但這些方法在數(shù)學領域表現(xiàn)不佳,因其依賴精確詞匹配,無法建模數(shù)學語言的語義或公式中編碼的結構關系。

隨著深度學習興起,研究轉向基于預訓練 Transformer 的神經檢索模型。常見做法是在大規(guī)模數(shù)學語料上預訓練并微調 Transformer 模型,以獲得更契合數(shù)學語法與語義的表示。例如,MathBERT [100] 在富含公式的語料上預訓練,并引入“掩碼公式子結構預測”等目標,以更好地在上下文中建模數(shù)學符號。

基于稠密檢索范式,文獻[104] 在 ARQMath 基準 [94, 146] 上研究了 ColBERT [71] 的應用,通過基于規(guī)則啟發(fā)式選取負樣本,在數(shù)百萬問答對上微調神經檢索器。鑒于符號方法與神經方法的互補優(yōu)勢,若干混合方法也被提出。例如,Mabowdor [153] 將稠密段落檢索與基于結構感知數(shù)學索引的稀疏檢索并行結合,并通過學習加權方案融合輸出。該混合策略在 ARQMath-3 [91] 中表現(xiàn)優(yōu)異,凸顯了將經典數(shù)學結構與神經語義表示相結合在 QA 檢索中的有效性。

前提檢索(Premise Retrieval)

在自動定理證明中,一個核心子問題是前提檢索:給定一個猜想和一個包含大量已有數(shù)學陳述的庫,系統(tǒng)需識別出哪些前提可能有助于構造證明。

早期方法主要依賴手工設計的相似性度量與啟發(fā)式規(guī)則 [61, 96]。此類思想的變體與擴展(包括基于樹的相似性評分)在近期工作中仍被探索 [127]。同時,輕量級機器學習方法(如 k 近鄰或稀疏樸素貝葉斯)也曾用于前提選擇 [32]。

過去十年,深度學習方法在前提檢索中日益普及。代表性早期神經方法是 DeepMath [65]:它分別編碼猜想與候選前提,將所得表示拼接后輸入全連接網絡,預測該前提是否有助于證明該猜想。訓練采用監(jiān)督方式,利用現(xiàn)有證明——出現(xiàn)在證明中的前提視為正樣本,并通過困難負采樣(hard negative mining)構建信息豐富的負樣本。

后續(xù)工作試圖更好地利用邏輯公式的內部結構。例如,F(xiàn)ormulaNet [124] 將每個公式表示為源自其語法結構的圖,節(jié)點對應常量、變量或量詞,再通過圖神經網絡計算嵌入,組合后輸入分類器估計相關性。

超越成對評分模型,后期研究探索了對整個陳述庫的圖級表示。文獻[43] 構建了一個全局圖,其中節(jié)點對應數(shù)學陳述,有向邊編碼從證明中提取的前提–結論關系。新猜想的前提選擇被建模為鏈路預測問題,使用圖卷積網絡基于節(jié)點的文本與結構特征對潛在邊進行評分。

與此同時,另一研究路線采用基于嵌入的檢索方法:將每條數(shù)學陳述視為文本,通過學習的嵌入模型編碼為單個向量,相關性通過嵌入空間中的相似性評估,通常再經學習的重排序階段優(yōu)化候選集。訓練通常依賴對比目標:將猜想與其證明中出現(xiàn)的前提拉近,同時推遠無關陳述。該方法的代表工作包括 [110, 113, 142]。

3.5 數(shù)學發(fā)現(xiàn)智能體(Agents for Mathematical Discovery)
隨著大語言模型(LLMs)能力的持續(xù)增強,基于 LLM 的智能體也不斷進步,近期多項工作已展現(xiàn)出它們在發(fā)現(xiàn)新數(shù)學構造方面的潛力。

FunSearch [105] 采用進化方法搜索能夠生成目標構造的程序。對于具備明確定義評估器(evaluator)的問題,F(xiàn)unSearch 利用現(xiàn)成的 LLM 迭代地將低分候選程序演化為高分程序。具體而言,該方法維護一個規(guī)模大且多樣化的程序池,并反復提示 LLM 對早期候選程序進行改進。通過這一方法,F(xiàn)unSearch 發(fā)現(xiàn)了新的大容量帽集(large cap sets)構造,其結果超越了極值組合學中此前已知的最佳成果。

在此基礎上,AlphaEvolve [98] 采用了更強的 LLM,并將進化過程從單個函數(shù)擴展至整個代碼文件,同時支持多指標聯(lián)合優(yōu)化。AlphaEvolve 已在多個問題上取得了改進的構造,包括“最小重疊問題”(Minimum Overlap Problem)和 11 維空間中的“接吻數(shù)問題”(Kissing Numbers problem)。

受 AlphaEvolve 啟發(fā)的開源實現(xiàn)包括 OpenEvolve [108]、ShinkaEvolve [78] 和 DeepEvolve [86]。這類 AlphaEvolve 風格的智能體特別適用于那些可通過編寫代碼來處理、并能通過明確定義的評分函數(shù)進行評估的數(shù)學問題,尤其擅長尋找新的數(shù)學構造。

4 挑戰(zhàn)與展望
盡管人工智能在數(shù)學領域(AI for Mathematics)取得了令人鼓舞的進展,該領域仍面臨一個根本性障礙:當前的人工智能系統(tǒng),尤其是基礎模型,尚缺乏進行研究級數(shù)學所需的深度推理能力。彌合這一鴻溝需要從被動輔助轉向在嚴格“邏輯環(huán)境”中的主動學習。這要求加速數(shù)學的形式化(或數(shù)字化)進程,以提供可自動驗證的反饋,從而迭代式地增強 AI 的推理能力。此外,提升這些能力還需將專業(yè)數(shù)學知識——從高質量數(shù)據(jù)構建到專用智能體工作流的設計——深度融入模型開發(fā)過程。最終目標是將 AI 無縫整合進數(shù)學家的日常實踐中,而這一愿景唯有通過 AI 研究者、工程師與數(shù)學界持續(xù)、緊密的合作才能實現(xiàn)。我們將在下文總結這些關鍵挑戰(zhàn)與未來方向:

  1. 領域專業(yè)知識與特征工程:在面向特定問題的建模中,輸入特征的設計往往需要深厚的領域專業(yè)知識。人類直覺在選擇具有數(shù)學意義的特征以及解釋模型輸出以提煉理論洞見方面仍不可或缺。這一依賴同樣適用于面向發(fā)現(xiàn)的智能體(如 AlphaEvolve 類系統(tǒng)),它們依賴精心手工設計的表示和評分函數(shù)。因此,開發(fā)有效的 AI for Mathematics 必須依靠機器學習研究者與領域專家之間長期、緊密的合作,以確保計算成果能轉化為真正的數(shù)學進步。
  2. 驗證瓶頸與自動形式化:準確高效的驗證是研究級數(shù)學的關鍵瓶頸。自然語言固有的模糊性,加上能夠審核高級證明的專家稀缺,使得人工驗證既緩慢又易出錯。為實現(xiàn)可靠性,數(shù)學推理最終必須扎根于形式語言之中,其正確性可由機器機械地檢驗。然而,由于高質量形式數(shù)據(jù)嚴重匱乏,當前 LLM 的形式推理能力遠落后于其自然語言表現(xiàn)。解決這一“形式數(shù)據(jù)鴻溝”需要開發(fā)魯棒的自動形式化工具,以彌合非形式與形式數(shù)學之間的差距。通過為特定子領域構建可靠基礎設施,并支持庫級(repository-level)形式化,我們可加速將自然語言推理轉化為形式證明。這將形成一個良性循環(huán):形式可驗證的反饋可作為高質量訓練信號,進一步提升 LLM 在數(shù)學乃至更廣泛領域的推理能力。
  3. 形式化中的語義一致性:自動形式化面臨一個微妙挑戰(zhàn):驗證所生成形式陳述的語義正確性。現(xiàn)有模型常難以判斷回譯后的形式陳述是否忠實捕捉了原始非形式猜想的細微含義。這需要開發(fā)細粒度、魯棒的語義一致性驗證器。盡管語義意圖的最終判斷理應保留給人類專家以確保概念準確性,但自動化系統(tǒng)可作為高效的第一道篩選機制。通過大幅減少需人工復核的候選數(shù)量,這類系統(tǒng)可在不犧牲嚴謹標準的前提下規(guī)?;问交M程。
  4. 超越正確性,邁向理解:形式有效性是數(shù)學價值的必要條件,但非充分條件。正如威廉·瑟斯頓(William Thurston)著名指出的 [31]:“數(shù)學不是關于數(shù)字、方程、計算或算法;而是關于理解?!币粋€有價值的證明不僅確立真理性,更提供洞見、揭示結構,并貢獻可應用于其他問題的技術。類似地,斯坦尼斯瓦夫·烏拉姆(Stanislaw Ulam)[117] 引述斯特凡·巴拿赫(Stefan Banach)的話:“優(yōu)秀的數(shù)學家看到定理或理論之間的類比,而最杰出者則看到類比之間的類比?!边@揭示了一個更深層的真理:證明的價值在于其深化我們對數(shù)學圖景概念性把握的能力。因此,未來的 AI 系統(tǒng)必須超越單純驗證,協(xié)助發(fā)現(xiàn)那些能重塑我們思維、揭示此前不可見聯(lián)系的證明。
  5. 從啟發(fā)式到專家常規(guī)流程:盡管獨立的 LLM 是強大的推理引擎,但 AI4Math 的未來在于設計能模擬專業(yè)數(shù)學家復雜工作流的智能體系統(tǒng)。研究級數(shù)學極少是線性演繹;它涉及一個復雜的迭代循環(huán):構造例子、查閱文獻、提出猜想,并根據(jù)中間失敗不斷調整證明策略。然而,當前的智能體仍大多通用化。一個關鍵前沿是開發(fā)能顯式建模這些專家“常規(guī)流程”(routines)的架構,學會以反映研究者認知過程的方式協(xié)調工具與策略。這包括使用“計算草圖”(computational sketching)——不僅用代碼生成形式證明,還用于構造數(shù)值玩具示例或執(zhí)行符號推導,以快速驗證或證偽人類直覺。此外,這些智能體可自動化高價值但常被人類忽視的“長尾”任務,如證明重組、條件弱化、以及晦澀已有解法的語義檢索。最終目標不僅是模仿人類工作流,更是優(yōu)化它們,創(chuàng)造出能以超越人類的系統(tǒng)性與規(guī)模探索數(shù)學思想空間、攻克難題的智能體。
  6. 積極的社區(qū)參與:呼應領域專業(yè)知識的必要性,AI 推理能力的提升需要數(shù)學家的主動介入。除了生成形式數(shù)據(jù),社區(qū)必須積極探索這些系統(tǒng),以集體構建對其能力與邊界的心理模型。例如,明確模型在代數(shù)操作上是否優(yōu)于幾何拓撲,對確定 AI 可靠部署的場景至關重要。這不僅要求加速數(shù)學知識的數(shù)字化以創(chuàng)建可驗證的訓練語料庫,還要求開展“對抗性協(xié)作”(adversarial collaboration)以識別邏輯漏洞。通過嚴格刻畫這些優(yōu)劣勢,數(shù)學家可引導開發(fā)出不僅統(tǒng)計強大、而且數(shù)學上可靠(mathematically sound)的模型。
  7. 擁抱 AI 輔助研究:我們必須為一場文化轉變做好準備:AI 將從計算工具演變?yōu)檠芯扛瘪{駛(copilot)。2025 年末陶哲軒(Terence Tao)與 Google DeepMind 合作的工作 [50] 正凸顯了這一轉型。陶哲軒觀察到,盡管這些模型可能仍缺乏真正理解,常常只是“模仿思考”,但它們已能自主發(fā)現(xiàn)人類直覺難以企及的數(shù)學構造。即使模型產生幻覺或推理有缺陷,其生成看似合理結構候選的能力仍使其成為有效的副駕駛——引導研究者走向富有成果的探索路徑,而將最終的嚴格驗證留給專家。

我們認為,即便 AI 的發(fā)散式推理(提出隨機或創(chuàng)造性變體)正確概率較低,只要“驗證杠桿”(verification leverage)足夠高,整體研究效率仍會提升。在許多高等數(shù)學領域,生成一個解在計算或認知上代價高昂,而驗證一個候選解則相對迅速。這種不對稱性使研究者可將 AI 作為高吞吐量的候選思想生成器——單次有效洞見所節(jié)省的時間,遠超剔除錯誤建議的低成本。

然而,實現(xiàn)這一潛力不僅需要強大的模型,更需要精心設計、易于使用的工具。要促進高參與度,必須通過穩(wěn)健的軟件設計降低使用門檻。近期框架(如 AlphaEvolve)相比早期原型在易用性上的顯著提升表明:工程質量是決定這些技術能否從實驗性新奇物轉變?yōu)槿驈V泛采用的標準工具的關鍵因素。

原文鏈接:https://arxiv.org/pdf/2601.13209v1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
退休夫婦花10萬“郵輪養(yǎng)老”:船上住15年,包吃包打掃,環(huán)游世界4圈,比房租便宜得多!

退休夫婦花10萬“郵輪養(yǎng)老”:船上住15年,包吃包打掃,環(huán)游世界4圈,比房租便宜得多!

背包旅行
2026-01-23 10:33:42
趙薇胃癌傳聞真相大白,再迎壞消息連累李湘

趙薇胃癌傳聞真相大白,再迎壞消息連累李湘

觀察者海風
2026-01-26 20:24:53
詹姆斯今年至今末節(jié)得分還是聯(lián)盟第一!公牛球迷為他倒戈!

詹姆斯今年至今末節(jié)得分還是聯(lián)盟第一!公牛球迷為他倒戈!

氧氣是個地鐵
2026-01-27 14:30:05
日本!暴跌開始了!

日本!暴跌開始了!

大嘴說天下
2026-01-26 20:16:55
愛火:一場非關消耗的持久燃燒

愛火:一場非關消耗的持久燃燒

疾跑的小蝸牛
2026-01-27 22:57:37
李瑋峰指出,王鈺棟面對日本后衛(wèi)對抗成功率低,對歐洲后衛(wèi)更不行

李瑋峰指出,王鈺棟面對日本后衛(wèi)對抗成功率低,對歐洲后衛(wèi)更不行

足球分析員
2026-01-27 11:05:03
不管你信不信,男性過了61歲后,基本都有這7個現(xiàn)狀,要坦然接受

不管你信不信,男性過了61歲后,基本都有這7個現(xiàn)狀,要坦然接受

健康之光
2026-01-11 12:40:02
終于來了!芬蘭總理落地北京說了兩句話,特朗普怕啥來啥

終于來了!芬蘭總理落地北京說了兩句話,特朗普怕啥來啥

黑翼天使
2026-01-28 04:02:55
數(shù)據(jù)驚人!汽油消耗量暴跌得嚇人,未來油價會大幅降嗎?

數(shù)據(jù)驚人!汽油消耗量暴跌得嚇人,未來油價會大幅降嗎?

超喜歡我的狗子
2026-01-25 16:42:57
“8大癥狀說明你已經老了”,你占了幾項?我全占了!!

“8大癥狀說明你已經老了”,你占了幾項?我全占了!!

社評
2026-01-02 12:24:58
煥新Model Y亮相,你會考慮購買嗎

煥新Model Y亮相,你會考慮購買嗎

沙雕小琳琳
2026-01-28 01:59:15
銀價一個月內狂飆50%,白銀基金緊急停牌,有銀飾商家宣布閉店

銀價一個月內狂飆50%,白銀基金緊急停牌,有銀飾商家宣布閉店

21世紀經濟報道
2026-01-27 14:41:30
媒體人:重慶銅梁龍足球俱樂部的外援中衛(wèi)薩達烏斯卡斯即將離隊

媒體人:重慶銅梁龍足球俱樂部的外援中衛(wèi)薩達烏斯卡斯即將離隊

格斗聯(lián)盟
2026-01-27 20:11:05
舒淇在節(jié)目里第一次承認,她和馮德倫為了要孩子已經折騰了九年。

舒淇在節(jié)目里第一次承認,她和馮德倫為了要孩子已經折騰了九年。

歲月有情1314
2025-11-29 15:40:25
馬斯克預測世界大戰(zhàn)時間,大戰(zhàn)最可能爆發(fā)在兩地區(qū)

馬斯克預測世界大戰(zhàn)時間,大戰(zhàn)最可能爆發(fā)在兩地區(qū)

妙知
2025-12-29 00:08:32
印度報告尼帕病毒疫情:護士A參加婚禮誤飲蝙蝠污染的新鮮椰棗汁,疑傳染共同上夜班的同事B

印度報告尼帕病毒疫情:護士A參加婚禮誤飲蝙蝠污染的新鮮椰棗汁,疑傳染共同上夜班的同事B

縱相新聞
2026-01-27 16:17:01
千萬別姐弟戀,很累!

千萬別姐弟戀,很累!

果粉之家
2026-01-06 11:26:21
真的累了?瓜帥暫時沒能擺脫“四大皆空”問題,曼城穩(wěn)定打折扣

真的累了?瓜帥暫時沒能擺脫“四大皆空”問題,曼城穩(wěn)定打折扣

里芃芃體育
2026-01-28 03:00:03
美籍華人14小時飛越萬里來武漢求醫(yī) 中國醫(yī)生高效救治及時挽救患者視力

美籍華人14小時飛越萬里來武漢求醫(yī) 中國醫(yī)生高效救治及時挽救患者視力

極目新聞
2026-01-27 09:59:07
山西某村口一起交通事故!致人當場死亡!

山西某村口一起交通事故!致人當場死亡!

秀容通
2026-01-27 19:22:28
2026-01-28 05:07:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關鍵信息

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學?

娛樂要聞

張雨綺風波持續(xù)發(fā)酵,曝多個商務被取消

財經要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

時尚
教育
數(shù)碼
親子
軍事航空

這些韓系穿搭最適合普通人!多穿深色、衣服基礎,簡潔耐看

教育要聞

對話陳妤頡:閃閃發(fā)光的賽道,追逐夢想

數(shù)碼要聞

這事你怎么看 索尼與TCL簽署意向備忘錄 網友:Sony變Tony了

親子要聞

雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨立帶娃嗎?

軍事要聞

美海軍"林肯"號航母打擊群抵達中東地區(qū)

無障礙瀏覽 進入關懷版