国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

規(guī)?;瘮?shù)學探索與發(fā)現(xiàn)

0
分享至

MATHEMATICAL EXPLORATION AND DISCOVERY AT SCALE

規(guī)?;瘮?shù)學探索與發(fā)現(xiàn)

https://arxiv.org/pdf/2511.02864



摘要

AlphaEvolve(見[224])是一種通用進化式編碼智能體,它將大語言模型的生成能力與自動化評估相結合,構成迭代式進化框架,可針對具有挑戰(zhàn)性的科學與實際問題提出、測試并精煉算法解。本文將 AlphaEvolve 展示為一種自主發(fā)現(xiàn)新穎數(shù)學構造并推進對長期開放問題理解的工具。

為展現(xiàn)其廣度,我們考察了涵蓋數(shù)學分析、組合數(shù)學、幾何學與數(shù)論的 67 個問題。該系統(tǒng)在多數(shù)情形下重新發(fā)現(xiàn)了已知最優(yōu)解,并在若干問題上找到了改進解。某些情況下,AlphaEvolve 還能將有限輸入值的結果推廣為適用于所有輸入值的通用公式。此外,我們能夠將該方法與 Deep Think [149] 和 AlphaProof [148] 相結合,構建更廣泛的框架:其中額外的證明輔助與推理系統(tǒng)可提供自動化證明生成及更深入的數(shù)學洞見。

這些結果表明,大語言模型引導的進化搜索能夠自主發(fā)現(xiàn)與人類直覺互補的數(shù)學構造,有時可匹配甚至超越已知最優(yōu)結果,凸顯了數(shù)學家與人工智能系統(tǒng)之間產生全新交互方式的潛力。我們將 AlphaEvolve 呈現(xiàn)為一種強大的數(shù)學發(fā)現(xiàn)工具,能夠探索廣闊搜索空間以規(guī)?;蠼鈴碗s優(yōu)化問題,且通常顯著降低了對前期準備與計算時間的要求。

  1. 引言

數(shù)學發(fā)現(xiàn)的格局已被能夠自主探索數(shù)學空間并生成新穎構造的計算工具從根本上改變 [56, 120, 242, 291]。AlphaEvolve(見 [224])代表了這一演進中的重要一步,它表明:當大語言模型與進化計算及嚴格的自動化評估相結合時,能夠大規(guī)模地發(fā)現(xiàn)顯式數(shù)學構造,其性能可匹配甚至超越長期存在的數(shù)學問題的已知最優(yōu)界。

AlphaEvolve 并非適用于所有類型數(shù)學問題的通用求解器;其主要設計目標是攻克那些關鍵目標在于構造滿足優(yōu)良定量性質(例如以較好數(shù)值常數(shù)滿足特定不等式)的復雜數(shù)學對象的問題。在本后續(xù)論文中,我們報告了在廣泛此類問題上測試 AlphaEvolve 性能的實驗結果,主要集中于分析學、組合數(shù)學與幾何學領域。在許多情形下,AlphaEvolve 提供的構造不僅具有數(shù)值性質,還可由人類數(shù)學家、Deep Think 等其他工具、甚至 AlphaEvolve 自身進行解釋與推廣。AlphaEvolve 并未能在所有情形下匹配或超越先前結果,且其部分單項改進很可能亦可通過人類專家采用更傳統(tǒng)的計算或理論方法實現(xiàn)。然而,與這些方法不同,我們發(fā)現(xiàn) AlphaEvolve 可輕松擴展以同時研究大批量問題類別,且無需針對每個新問題進行大量專家監(jiān)督。這表明進化計算方法能夠以互補于傳統(tǒng)技術的方式系統(tǒng)探索數(shù)學對象空間,從而有助于回答關于計算搜索與數(shù)學存在性證明之間關系的問題。

我們還觀察到,在許多情形下,除可擴展性外,為使 AlphaEvolve 輸出與文獻相當?shù)慕Y果,相較于傳統(tǒng)數(shù)學研究方式,所需額外開銷極小:平均而言,使用 AlphaEvolve 設置一個問題的常規(guī)準備時間僅需數(shù)小時。我們預計,在缺乏先驗知識、信息或代碼的情況下,等效的傳統(tǒng)設置通常將耗費顯著更長時間。這促使我們提出“規(guī)模化構造性數(shù)學”(constructive mathematics at scale)這一術語。

AlphaEvolve 有效性的關鍵數(shù)學洞見在于其能夠同時在多個抽象層次上運作。該系統(tǒng)不僅能優(yōu)化數(shù)學構造的具體參數(shù),還能優(yōu)化發(fā)現(xiàn)此類構造的算法策略。這種元層次進化代表了一種新型遞歸形式,其中優(yōu)化過程本身成為優(yōu)化對象。例如,AlphaEvolve 可能演化出使用啟發(fā)式集合、SAT 求解器、無收斂保證的二階方法或其組合的程序。這種分層方法在 AlphaEvolve 處理復雜數(shù)學問題(由用戶提出)時尤為明顯:系統(tǒng)常為優(yōu)化過程的不同階段發(fā)現(xiàn)專用搜索啟發(fā)式。早期啟發(fā)式擅長從隨機或簡單初始狀態(tài)實現(xiàn)大幅改進,而后期啟發(fā)式則聚焦于近優(yōu)構型的精細調優(yōu)。這種涌現(xiàn)的專門化映射了人類數(shù)學家所采用的直觀方法。

1.1 與 [224] 的比較。白皮書 [224] 首次介紹了 AlphaEvolve 并強調了其廣泛的通用適用性(包括數(shù)學領域)及部分結果細節(jié)。在本后續(xù)論文中,我們從廣度、難度與重要性角度擴展了所考察數(shù)學問題的列表,并首次給出全部問題的完整細節(jié)。以下問題未按特定順序排列。出于篇幅限制,我們不試圖詳盡梳理所列各問題的歷史,而將讀者引向各問題所提供的參考文獻以深入探討已知結果。

隨本文一同發(fā)布的還有一個包含部分實驗與問題擴展細節(jié)的在線問題倉庫。盡管進化過程中的隨機性可能使復現(xiàn)更具挑戰(zhàn),我們預期憑借所給信息與足夠實驗次數(shù),結果可完全復現(xiàn)。

1.2 人工智能與數(shù)學發(fā)現(xiàn)。人工智能作為數(shù)學發(fā)現(xiàn)中的變革性力量的興起,標志著我們應對某些最具挑戰(zhàn)性數(shù)學問題方式的范式轉變。近期突破 [87, 165, 97, 77, 296, 6, 271, 295] 已證明人工智能輔助數(shù)學家的能力。AlphaGeometry 在標準時限內解決了 30 道奧林匹克幾何題中的 25 道 [287]。AlphaProof 與 AlphaGeometry 2 [148] 在 2024 年國際數(shù)學奧林匹克競賽中取得銀牌成績,隨后先進的 Gemini Deep Think 框架在 2025 年國際數(shù)學奧林匹克競賽中斬獲金牌 [149]。OpenAI 的模型亦取得金牌成績,參見 [297]。超越競賽表現(xiàn),人工智能已開始做出真正的數(shù)學發(fā)現(xiàn),例如 FunSearch [242] 發(fā)現(xiàn)了關于帽子集(cap set)問題的新解及更高效的裝箱算法(另見 [100]);PatternBoost [56] 推翻了一個長達 30 年的猜想(另見 [291]);以及早期先驅如 Graffiti [119] 生成猜想。人工智能協(xié)助數(shù)學家的其他實例還包括 [70, 283, 302, 301],涉及尋找數(shù)學命題的形式化與非形式化證明。

盡管 AlphaEvolve 更側重于探索與發(fā)現(xiàn),我們已能將其與其他系統(tǒng)進行流水線式集成,從而不僅實現(xiàn)探索,還能將發(fā)現(xiàn)結果與數(shù)學上嚴格的證明及其形式化相結合。

1.3 進化算法以尋找構造。AlphaEvolve 的核心是一種復雜的搜索算法。為理解其設計,從一個熟悉的概念入手會有所幫助:局部搜索。為求解諸如“尋找一個含 50 個頂點、不含三角形與四元環(huán)且邊數(shù)最多的圖”之類的問題,標準做法是從一個隨機圖出發(fā),迭代地進行小幅修改(例如添加或刪除一條邊),以提升其得分(本例中為邊數(shù),但對任何三角形或四元環(huán)施加懲罰)。我們持續(xù)“爬山”直至無法進一步改進。

從 FunSearch [242](見表 1 的直接對比)及其重新實現(xiàn) [100] 繼承的第一個關鍵思想是:不在圖的空間中執(zhí)行此類局部搜索,而是在生成圖的 Python 程序空間中進行。我們從一個簡單程序出發(fā),然后利用大語言模型(LLM)生成大量相似但略有差異的程序(“變異”)。通過運行每個程序并評估其生成的圖來對其進行評分。人們自然會疑惑這種方法為何有益:一次 LLM 調用通常遠比添加一條邊或評估一個圖昂貴得多,因此我們探索的候選解數(shù)量往往比標準局部搜索方法少數(shù)千甚至數(shù)百萬倍。


許多“優(yōu)美”的數(shù)學對象(如前述問題的最優(yōu)解 Hoffman-Singleton 圖 [142])可用簡短、優(yōu)雅的代碼進行描述。此外,即使某個問題僅存在一個最優(yōu)構造,也可能有多種不同而自然的程序生成它。相反,無數(shù)作為局部最優(yōu)解的“丑陋”圖可能并不對應任何簡單程序。在程序空間中搜索可作為一種強大的簡潔性與結構性先驗,幫助我們避開混亂的局部極大值,導向優(yōu)雅且往往最優(yōu)的解。即使最優(yōu)解本身無法通過簡單程序描述,而最佳發(fā)現(xiàn)途徑是啟發(fā)式方法,我們發(fā)現(xiàn) AlphaEvolve 在此類任務上同樣表現(xiàn)出色。

然而,對于評分函數(shù)計算成本低廉的問題,傳統(tǒng)方法純粹的暴力計算優(yōu)勢仍難以克服。我們對此提出的解決方案如下:AlphaEvolve 不再進化直接生成構造的程序,而是進化用于搜索構造的程序。這便是我們所稱的 AlphaEvolve“搜索模式”(search mode),也是我們在所有以尋找優(yōu)良構造為目標、且不關注其可解釋性與可推廣性的問題上采用的標準模式。

AlphaEvolve 種群中的每個程序均為一種搜索啟發(fā)式。它被賦予固定時間預算(例如 100 秒),任務是在該時限內找到盡可能優(yōu)良的構造。該啟發(fā)式的評分即為其找到的最佳對象的評分。這解決了速度差異問題:一次緩慢的 LLM 調用生成新搜索啟發(fā)式后,可觸發(fā)大規(guī)模廉價計算——該啟發(fā)式可自主探索數(shù)百萬候選構造。

我們強調,搜索無需每次都從零開始。新啟發(fā)式將根據其改進迄今最佳構造的能力進行評估。因此,我們實際進化的是一個“改進器”(improver)函數(shù)種群。這形成了動態(tài)自適應的搜索過程:初期可能偏好執(zhí)行廣泛探索性搜索的啟發(fā)式;隨著逼近優(yōu)良解,執(zhí)行巧妙問題特定精調的啟發(fā)式可能占據主導。最終結果通常是一系列專用啟發(fā)式的序列,當串聯(lián)使用時可產生前沿構造。其代價可能是搜索過程可解釋性的潛在損失,但其所發(fā)現(xiàn)的最終對象仍是我們可研究的明確定義的數(shù)學實體。

這一補充機制對更困難的問題尤為有用——單一搜索函數(shù)可能無法獨立發(fā)現(xiàn)優(yōu)良解。

1.4 從示例泛化到公式:泛化模式。除在固定問題規(guī)模(例如 n = 11 的堆積問題)上表現(xiàn)優(yōu)異的上述搜索模式外,我們還嘗試了更具雄心的“泛化模式”(generalizer mode)。在此模式下,我們要求 AlphaEvolve 編寫一個可對任意給定 n n 求解該問題的程序,并根據其在一系列 n n 值上的表現(xiàn)進行評估。期望是:通過觀察自身為小規(guī)模 n n生成的(往往是最優(yōu)的)解,AlphaEvolve 能夠識別模式并將其泛化為適用于所有 n n 的構造。

該模式更具挑戰(zhàn)性,但也產出了我們最激動人心的部分成果。例如,AlphaEvolve 為 Nikodym 問題(見問題 6.1)提出的構造啟發(fā)了第三作者撰寫的新論文 [281]。另一方面,使用搜索模式時,進化出的程序往往難以解釋;但最終構造本身仍可被分析——在算術 Kakeya 問題(問題 6.30)中,這些構造亦啟發(fā)了第三作者的另一篇論文 [282]。

1.5 構建多AI工具流水線。更引人注目的是,針對有限域 Kakeya 問題(參見問題 6.1),AlphaEvolve 發(fā)現(xiàn)了一個有趣的通用構造。當我們將該程序化解輸入名為 Deep Think [149] 的智能體時,它成功推導出其正確性證明及規(guī)模的閉式公式。隨后,該證明借助另一AI工具 AlphaProof [148] 在 Lean 證明輔助系統(tǒng)中完成了完全形式化。這一工作流——結合模式發(fā)現(xiàn)(AlphaEvolve)、符號化證明生成(Deep Think)與形式驗證(AlphaProof)——為專用AI系統(tǒng)如何集成提供了具體范例。它預示了一種潛在的未來方法論:多種AI工具的組合可協(xié)助實現(xiàn)從經驗觀察到的模式(由模型提出)到形式化驗證數(shù)學結果的全過程,全程自動化或半自動化。

1.6 局限性。我們亦需指出,盡管 AlphaEvolve 擅長處理可清晰表述為光滑評分函數(shù)優(yōu)化、且適合“爬山法”的問題,但在其他情形下有時會陷入困境。特別是,我們遇到若干實例中 AlphaEvolve 未能達到最優(yōu)或接近最優(yōu)結果,下文將一并報告這些案例??傮w而言,我們發(fā)現(xiàn) AlphaEvolve 在大規(guī)模應用于廣泛松散關聯(lián)的問題組合時最為有效,例如各類堆積問題,或 Sendov 猜想及其變體。

第 6 節(jié)將詳述通過該方法發(fā)現(xiàn)的新數(shù)學結果,以及所有 AlphaEvolve 未能找到先前已知最優(yōu)構造的案例。我們希望本工作不僅能為這些具體問題提供新見解,亦能激勵其他科學家探索如何將此類工具適配于各自研究領域。

  1. AlphaEvolve 概述與使用方法

如 [224] 所介紹,AlphaEvolve 建立了一個將大語言模型創(chuàng)造力與自動化評估器相結合的框架。其中部分描述與用法已在該文獻中呈現(xiàn),為保證本文自洽性,我們在此予以討論。AlphaEvolve 的核心是一個進化系統(tǒng),該系統(tǒng)維護一個程序種群,每個程序編碼了給定問題的潛在解。該種群通過模擬自然選擇的迭代循環(huán)持續(xù)改進。

進化過程包含兩個主要組件:

(1) 生成器(LLM):該組件負責引入變異。它選取當前種群中表現(xiàn)較優(yōu)的部分程序并對其進行“變異”,以生成新的候選解。該過程可在多個 CPU 上并行化。借助大語言模型,這些變異并非隨機的字符翻轉,而是基于父代程序邏輯與人類用戶提供的專家建議、具有語法意識的智能代碼修改。

(2) 評估器(通常由用戶提供):此即“適應度函數(shù)”。它是一段確定性代碼,接收種群中的一個程序,運行該程序,并根據其表現(xiàn)賦予數(shù)值評分。對于數(shù)學構造問題,該評分可反映構造滿足特定性質的程度(例如圖的邊數(shù),或堆積的密度)。

過程始于若干簡單初始程序。每一代中,部分高分程序被選中并輸入大語言模型,以生成潛在更優(yōu)的后代。這些后代隨后被評估、打分,其中得分較高者將構成未來程序的基礎。這種生成與選擇的循環(huán)使種群隨時間“進化”,趨向于產生質量日益提升的解的程序。需注意,由于每個評估器具有固定時間預算,評估器消耗的總 CPU 小時數(shù)與實驗中大語言模型調用總次數(shù)成正比。關于更多細節(jié)及數(shù)學問題之外的應用,讀者可參閱 [224]。Nagda 等人 [221] 應用 AlphaEvolve 為度量旅行商問題與 MAX-k-CUT 等問題建立了新的近似難度結果。AlphaEvolve 發(fā)布后,其他利用大語言模型進行科學發(fā)現(xiàn)的開源框架實現(xiàn)亦相繼開發(fā),例如 OpenEvolve [257]、ShinkaEvolve [190] 與 DeepEvolve [202]。

應用于數(shù)學領域時,該框架在尋找具有極值性質的構造方面尤為強大。如引言所述,我們主要采用其搜索模式:被進化的程序并非直接構造,其本身即是啟發(fā)式搜索算法。評估器為這些進化出的啟發(fā)式賦予固定時間預算,并根據其在該時限內能找到的最佳構造質量進行評分。該方法將大語言模型昂貴而富有創(chuàng)造力的能力導向高效搜索策略的設計,這些策略隨后可被廉價且大規(guī)模地執(zhí)行。這使 AlphaEvolve 能夠有效導航廣闊而復雜的數(shù)學景觀,發(fā)現(xiàn)本文詳述的各類新穎構造。

  1. 元分析與消融研究

為更深入理解 AlphaEvolve 的行為特性與敏感性,我們開展了一系列元分析與消融研究。這些實驗旨在回答該方法的若干實踐性問題:計算資源如何影響搜索效果?底層大語言模型扮演何種角色?典型成本為何?為保持一致性,許多實驗以自相關不等式問題(問題 6.2)作為測試平臺,因其提供了一個簡潔且評估迅速的目標函數(shù)。

3.1 發(fā)現(xiàn)速度與評估成本的權衡。任何 AlphaEvolve 運行中的關鍵參數(shù)是所用并行計算量(例如 CPU 線程數(shù))。直觀而言,并行度越高,發(fā)現(xiàn)速度應越快。我們通過以不同線程數(shù)(從 2 到 20)運行問題 6.2 對此進行探究。

我們的發(fā)現(xiàn)(見圖 1)雖存在一定噪聲,但似乎符合這一預期權衡。增加并行線程數(shù)顯著加快了發(fā)現(xiàn)時間:使用 20 個線程的運行始終比 2 個線程更快地超越前沿界。然而,這種速度提升伴隨著更高的總成本。由于每個線程半獨立運行并各自調用大語言模型生成新啟發(fā)式,線程數(shù)翻倍大致使大語言模型查詢速率翻倍。盡管線程間相互通信并基于彼此的最佳構造進行改進,但更快達成結果需要更大總量的大語言模型調用。最優(yōu)策略取決于研究者優(yōu)先級:若追求快速探索,高并行度效果顯著;若旨在最小化直接成本,則較少線程長時間運行更為經濟。


3.2 模型選擇的作用:大型模型與廉價模型。AlphaEvolve 的性能從根本上依賴于用于生成代碼變異的大語言模型。我們對比了高性能大語言模型與規(guī)模小得多、成本低廉的模型(輸入 token 價格相差約 15 倍,輸出 token 約 30 倍)的有效性。

我們觀察到,能力更強的大語言模型傾向于產生更高質量的建議(見圖 2),常以更少進化步數(shù)達成更優(yōu)評分。然而,最有效策略并非總是獨占使用最強模型。對于這一簡單的自相關問題,最具成本效益的超越文獻界策略是在多次運行中使用最廉價模型,其總大語言模型成本極低:僅數(shù)美元。但對于更困難的 Nikodym 集問題(見問題 6.1),廉價模型無法生成最精巧的構造。


我們還觀察到,僅使用高端模型的實驗有時表現(xiàn)不如偶爾混用廉價模型的運行。一種解釋是:不同模型可能提出截然不同的方法;盡管較差模型通常建議質量較低,但它確實增加了多樣性。這表明在進化過程中注入一定程度的隨機性或“樸素創(chuàng)造力”可能存在潛在收益。我們推測,對于需要更深刻數(shù)學洞見的問題,更智能大語言模型的價值將更為凸顯;但對于許多優(yōu)化景觀,來自廉價模型的多樣性是一種強大且經濟的工具。

  1. 結論

我們對 AlphaEvolve 的探索得出了若干關鍵洞見,總結如下。我們發(fā)現(xiàn),驗證器(verifier)的選擇是顯著影響系統(tǒng)性能與發(fā)現(xiàn)結果質量的關鍵組件。例如,優(yōu)化器有時會傾向于更穩(wěn)定(平凡)的解,而這正是我們希望避免的。設計巧妙的驗證器以規(guī)避此類行為,是發(fā)現(xiàn)新結果的關鍵。

類似地,在某些情形下,采用連續(xù)型(而非離散型)損失函數(shù)被證明是引導進化搜索過程更有效的策略。例如,對于問題 6.54,我們本可將評分函數(shù)設計為任意給定構型中相接觸圓柱的數(shù)量(若構型非法則為 ? ∞ ?∞);但通過采用依賴于距離的連續(xù)評分函數(shù),我們實現(xiàn)了更成功且更快速的優(yōu)化過程。

實驗過程中,我們還觀察到一種“作弊現(xiàn)象”:系統(tǒng)會發(fā)現(xiàn)漏洞或利用問題設置中的瑕疵(例如通過離散版本近似全局約束如正性時產生的泄漏型驗證器、對廉價模型的不可靠大語言模型查詢等),而非尋找真正解。這凸顯了精心設計魯棒評估環(huán)境的必要性。

另一重要組件是提示中給予的建議及提示者的經驗。我們發(fā)現(xiàn),隨著使用次數(shù)增加,我們越來越善于掌握如何向 AlphaEvolve 提供有效提示。例如,采用搜索模式提示相較于直接尋找構造,前者產生了更高效的程序與更優(yōu)結果。此外,當使用者是所嘗試問題的領域專家時,AlphaEvolve 的表現(xiàn)始終顯著優(yōu)于非專家使用者:我們發(fā)現(xiàn),提示中給予 AlphaEvolve 的建議對最終構造質量具有顯著影響。在提示中提供富有洞見的專家建議幾乎總能帶來顯著更優(yōu)的結果——事實上,AlphaEvolve 總是試圖在保留原始建議精髓的前提下,最大限度地榨取該建議的價值。我們強調,總體而言,最佳結果往往源于人類專業(yè)知識與 AlphaEvolve 計算能力的結合。

一個促進發(fā)現(xiàn)廣泛適用算法的有趣發(fā)現(xiàn)是:當系統(tǒng)被提供更受約束的輸入集或特征集時,泛化能力反而提升?!皵?shù)據量大”并不必然意味著泛化性能更優(yōu)。當我們尋求能跨廣泛參數(shù)范圍泛化的可解釋程序時,我們通過僅向 AlphaEvolve 展示小規(guī)模 n n 值下的先前最優(yōu)解來限制其可訪問數(shù)據量(參見問題 6.29、6.65、6.1)。這種“少即是多”的方法似乎有助于更基礎性思想的涌現(xiàn)。

展望未來,提升系統(tǒng)自主性的重要一步將是使 AlphaEvolve 能夠自主選擇超參數(shù),動態(tài)調整其搜索策略。

當系統(tǒng)在同一實驗中針對相關問題或問題實例族進行訓練時,結果亦顯著改善。例如,在探索幾何問題時,同時處理不同點數(shù) n n 與維度 d d 的構型極為有效。對特定 ( n , d ) 對表現(xiàn)良好的搜索啟發(fā)式,很可能為其他情形提供堅實基礎,引導系統(tǒng)趨向更具普適性的原理。

我們發(fā)現(xiàn),AlphaEvolve 擅長發(fā)現(xiàn)那些本已處于當前數(shù)學能力范圍內、但因尋找適用于特定問題的標準思想恰當組合所需時間與精力過大而尚未被發(fā)現(xiàn)的構造。另一方面,對于需要真正新穎、深刻洞見才能取得進展的問題,AlphaEvolve 可能并非合適工具。

未來,我們設想類似 AlphaEvolve 的工具可用于系統(tǒng)評估大批量數(shù)學界或猜想的難度。這可能導致一種新型分類方法,使研究者能夠半自動地標記某些不等式為"AlphaEvolve-難解",表明其對基于 AlphaEvolve 方法的抵抗性;反之,其他問題則可被標記為適合通過理論與計算機輔助技術進一步攻關,從而更有效地引導未來研究方向。

  1. 未來工作

AlphaEvolve 中的數(shù)學進展代表了邁向自動化數(shù)學發(fā)現(xiàn)的重要一步,盡管仍有許多廣闊的研究方向有待探索。鑒于人機交互的特性,我們設想未來可進一步將計算機輔助證明整合至 AlphaEvolve 的輸出中,從而實現(xiàn) AlphaEvolve 首先發(fā)現(xiàn)候選解,繼而自動生成例如 Lean 代碼形式的計算機輔助證明以驗證該解,全程自動化。本工作中,我們已通過一個從發(fā)現(xiàn)到形式化的完整流水線示例證明,此類情形在罕見情況下已然可行;該流水線結合人類專業(yè)知識后產生了更深入的洞見與更強的結果。本文僅代表這一尚在進行中的長期目標的第一步,我們期望在此方向上進一步探索。本文所劃定的邊界純粹受限于人類時間與論文篇幅,而非我們的計算能力。具體而言,對于部分問題,我們相信(正在進行及未來的)進一步探索可能帶來更豐富、更優(yōu)的結果。

  1. AlphaEvolve 測試的數(shù)學問題

在我們的實驗中,我們從數(shù)學文獻中選取了 67 個問題(包括已解決與未解決的),其中大多數(shù)可重新表述為對某個數(shù)值量(可能依賴于一個或多個參數(shù),少數(shù)情況下為多維而非標量值)獲取上界和/或下界。這些數(shù)值量中的許多可表達為某個評分函數(shù)在某集合(可能是有限集、有限維或無限維)上的上確界或下確界。

盡管上下界均具研究價值,但在許多情形下僅其中一類界適合采用 AlphaEvolve 方法處理,因其本質是用于發(fā)現(xiàn)有趣數(shù)學構造的工具——即嘗試優(yōu)化評分函數(shù)的實例,而非證明對所有可能實例均成立的界。當評分函數(shù)的定義域為無限維(例如函數(shù)空間)時,在應用 AlphaEvolve 前需額外施加限制或投影至有限維空間(例如通過離散化或正則化)。

在許多情形下,AlphaEvolve 能夠匹配(或近乎匹配)現(xiàn)有界(其中部分已知或被猜想為緊界),且常能提供極值構造的可解釋性描述;在若干情形下甚至超越了前沿結果。在其他情形下,AlphaEvolve 甚至未能達到文獻中的已知界,但我們仍致力于在此記錄實驗的正反兩方面結果,以更準確地呈現(xiàn) AlphaEvolve 作為工具的優(yōu)勢與局限。我們的目標是分享所有嘗試過的問題結果——包括僅短暫嘗試的問題——以誠實地呈現(xiàn)哪些方法有效、哪些無效。

在 AlphaEvolve 超越前沿結果的情形中,很可能通過進一步工作——例如采用提示與設置更優(yōu)的 AlphaEvolve 版本、由理論考量或傳統(tǒng)數(shù)值方法引導的定制化方法,或二者的混合策略——可帶來進一步改進;這在 [224] 中先前公布的若干 AlphaEvolve 結果中已然發(fā)生。我們希望此處報告的結果能通過多種方法激發(fā)這些問題的進一步進展。






原文鏈接:https://arxiv.org/pdf/2511.02864

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2020年女子當眾扇兒子耳光,兒子直接跳樓,如今女子已自殺身亡

2020年女子當眾扇兒子耳光,兒子直接跳樓,如今女子已自殺身亡

觀察鑒娛
2026-03-18 09:09:10
媒體人杜恩湖爆料趙薇最新工作近照!依然優(yōu)雅端莊,工作十分認真

媒體人杜恩湖爆料趙薇最新工作近照!依然優(yōu)雅端莊,工作十分認真

小徐講八卦
2026-03-29 15:27:10
《冬去春來》大結局:沈冉冉嫁人,莊莊上岸,徐勝利贏了

《冬去春來》大結局:沈冉冉嫁人,莊莊上岸,徐勝利贏了

草莓解說體育
2026-03-30 02:14:18
白酒再次被關注!醫(yī)生研究發(fā)現(xiàn):喝得越多,壽命或越短告訴你真相

白酒再次被關注!醫(yī)生研究發(fā)現(xiàn):喝得越多,壽命或越短告訴你真相

健康科普365
2026-03-29 18:30:09
安徽一女護士回娘家路上失蹤,15年后給哥哥托夢:我在院子里

安徽一女護士回娘家路上失蹤,15年后給哥哥托夢:我在院子里

清茶淺談
2025-02-27 14:55:55
杉杉集團家族內斗失控

杉杉集團家族內斗失控

地產微資訊
2026-03-27 10:10:55
伊朗武裝部隊發(fā)言人:伊朗正在制定戰(zhàn)爭結束條件

伊朗武裝部隊發(fā)言人:伊朗正在制定戰(zhàn)爭結束條件

財聯(lián)社
2026-03-28 04:50:19
他殺害數(shù)千紅軍和軍長,故居卻成景區(qū)被人洗白,終于被摘牌

他殺害數(shù)千紅軍和軍長,故居卻成景區(qū)被人洗白,終于被摘牌

品點歷史
2026-02-14 07:50:07
為啥山東人口碑很好?網友:去山東千萬不要說自己會喝酒

為啥山東人口碑很好?網友:去山東千萬不要說自己會喝酒

帶你感受人間冷暖
2026-03-26 00:10:05
婚姻的真相:不是嫁給一個人,是嫁給一種生活

婚姻的真相:不是嫁給一個人,是嫁給一種生活

疾跑的小蝸牛
2026-03-16 23:35:22
模特經紀人懇求愛潑斯坦與女性發(fā)生關系,聲稱很棒實驗,往來10年

模特經紀人懇求愛潑斯坦與女性發(fā)生關系,聲稱很棒實驗,往來10年

譯言
2026-03-29 08:44:57
央視主持人集體大哭,朱迅流淚康輝掩面痛哭,真相是什么?

央視主持人集體大哭,朱迅流淚康輝掩面痛哭,真相是什么?

落雪聽梅a
2026-03-28 09:14:37
刺激夜:美國2-5,加拿大2-2,日本1-0,塞內加爾2-0,韓國0-4

刺激夜:美國2-5,加拿大2-2,日本1-0,塞內加爾2-0,韓國0-4

側身凌空斬
2026-03-29 05:40:30
不會再延期!爆料人稱《GTA6》已進入最終沖刺階段

不會再延期!爆料人稱《GTA6》已進入最終沖刺階段

游民星空
2026-03-29 11:20:13
農村家長曬5個兒子,被網友群嘲:送外賣都費勁,還為國效力呢?

農村家長曬5個兒子,被網友群嘲:送外賣都費勁,還為國效力呢?

今朝牛馬
2026-03-27 18:23:13
天下只有一種生意掙錢,就是收租

天下只有一種生意掙錢,就是收租

記憶承載
2026-03-29 11:32:40
37歲仍在改寫歷史,威少助攻超越納什傳奇,全能豐碑無人撼動

37歲仍在改寫歷史,威少助攻超越納什傳奇,全能豐碑無人撼動

體育閑話說
2026-03-18 11:26:30
1972年廣東省委第一書記免職,主席批示心平氣和顯智慧

1972年廣東省委第一書記免職,主席批示心平氣和顯智慧

老橝說體育
2026-03-29 21:31:32
章澤天穿小香風接待卡塔爾公主,兩人見面就擁抱,老板娘很大氣!

章澤天穿小香風接待卡塔爾公主,兩人見面就擁抱,老板娘很大氣!

庭小娛
2026-03-29 13:19:47
特斯拉國內規(guī)模最大高速服務區(qū)超級充電站項目上線

特斯拉國內規(guī)模最大高速服務區(qū)超級充電站項目上線

新華社
2026-03-29 08:50:12
2026-03-30 04:11:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1313文章數(shù) 18關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

伊朗議長:美航母遭受巨大損失 我們絕不接受屈辱

頭條要聞

伊朗議長:美航母遭受巨大損失 我們絕不接受屈辱

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

汪峰定律再現(xiàn)!李榮浩喊話單依純侵權

財經要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態(tài)度原創(chuàng)

游戲
本地
時尚
健康
公開課

《超級肉肉男孩3D》發(fā)售/《海賊王》艾爾巴夫篇開播| 下周玩什么

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

來到1980的周也,好毛利蘭

干細胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版