国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

miniF2F-Dafny:通過自動驗(yàn)證的LLM引導(dǎo)的數(shù)學(xué)定理證明

0
分享至

miniF2F-Dafny:通過自動驗(yàn)證的LLM引導(dǎo)的數(shù)學(xué)定理證明

miniF2F-Dafny: LLM-Guided Mathematical Theorem Proving via Auto-Active Verification

https://arxiv.org/pdf/2512.10187


摘 要

我們提出了 miniF2F-Dafny——首個將數(shù)學(xué)推理基準(zhǔn) miniF2F 翻譯至自動定理證明器 Dafny 的工作。此前,該基準(zhǔn)僅存在于交互式定理證明器中(Lean、Isabelle、HOL Light、Metamath)。我們發(fā)現(xiàn),Dafny 的自動化能力在無需任何人工證明步驟(即空證明)的情況下,驗(yàn)證了測試集 244 題中的 99 題(40.6%)和驗(yàn)證集 244 題中的 109 題(44.7%)。對于空證明失敗的問題,我們評估了 12 個現(xiàn)成的大語言模型(LLMs)提供證明提示的能力。所測試的最佳模型通過迭代錯誤修正,達(dá)到了 55.7% 的 pass@4 成功率。這些初步結(jié)果凸顯了一種高效分工:LLM 提供高層指導(dǎo),而自動化機(jī)制處理底層細(xì)節(jié)。我們的基準(zhǔn)數(shù)據(jù)已在 GitHub 上發(fā)布。

1 引 言

形式化數(shù)學(xué)推理長期以來被視為人類智能的標(biāo)志,既需要創(chuàng)造性洞見,也要求嚴(yán)謹(jǐn)?shù)倪壿嬔堇[。大語言模型(LLMs)的出現(xiàn)為自動化數(shù)學(xué)形式化——即將非形式化的數(shù)學(xué)陳述與證明翻譯為機(jī)器可驗(yàn)證的形式系統(tǒng)——開辟了新的可能路徑。

早期工作主要聚焦于 Lean、Isabelle 和 Coq 等交互式定理證明器(ITPs),但這些系統(tǒng)需要大量人工構(gòu)造證明:人類專家或 AI 系統(tǒng)必須為每一步邏輯推理提供顯式的證明項(xiàng)。

為評估 AI 輔助形式化定理證明的進(jìn)展,研究者開發(fā)了多個基準(zhǔn)。其中,miniF2F 基準(zhǔn)最初為 Lean 設(shè)計(jì),包含 488 道數(shù)學(xué)問題,選自 AIME、AMC、IMO 以及高中和大學(xué)本科數(shù)學(xué)課程內(nèi)容,分為 244 題的測試集和 244 題的驗(yàn)證集。它已成為評估 AI 系統(tǒng)形式化數(shù)學(xué)推理能力的標(biāo)準(zhǔn)基準(zhǔn)。然而,所有現(xiàn)有翻譯版本(Lean、Isabelle、HOL Light、Metamath)均面向交互式定理證明器——這些系統(tǒng)自動化程度有限,證明過程需要大量人工干預(yù)。盡管近期方法在 Lean 的 miniF2F 上取得了優(yōu)異成果,但它們要么依賴于在形式化證明語料上大規(guī)模訓(xùn)練的專用模型,要么采用復(fù)雜的智能體框架來協(xié)調(diào)多個組件,以生成交互式定理證明器所需的詳細(xì)證明腳本。

我們提出 miniF2F-Dafny——首個將 miniF2F 基準(zhǔn)翻譯至自動主動驗(yàn)證語言(auto-active verification language)的工作。與交互式定理證明器不同,Dafny 圍繞由 SMT 求解器驅(qū)動的自動化推理能力構(gòu)建,提供了一種根本不同的范式:許多數(shù)學(xué)問題僅需極少甚至無需人工證明步驟即可被驗(yàn)證。這引發(fā)了一個關(guān)鍵問題:在自動主動驗(yàn)證器中降低的證明復(fù)雜性,是否能讓現(xiàn)成的 LLM 有效提供高層數(shù)學(xué)洞見——例如關(guān)鍵引理、證明策略或中間斷言——而將底層邏輯推理委托給自動化求解器?

我們發(fā)現(xiàn),僅靠 Dafny 的自動化能力,就能在零人工輸入的情況下,通過空證明(empty proofs)解決 miniF2F 中 40–45% 的問題。對于剩余問題,我們評估了 12 個現(xiàn)成 LLM 提供證明提示以引導(dǎo) Dafny 自動化的能力。結(jié)果凸顯了一種高效的分工模式:LLM 無需生成完整證明,而是提供高層指導(dǎo),自動化機(jī)制則處理底層細(xì)節(jié)。

我們的主要貢獻(xiàn)如下:? 我們提出了 miniF2F-Dafny,這是 miniF2F 首次被翻譯至自動主動驗(yàn)證語言。? 我們建立了基線結(jié)果:僅憑 Dafny 的自動化能力,在無需任何人工干預(yù)的情況下即可解決 40–45% 的問題。? 我們評估了 12 個現(xiàn)成 LLM 在需要人工引導(dǎo)的問題上提供證明提示的能力,最佳模型通過迭代修正達(dá)到 55.7% 的 pass@4 成功率。? 我們展示了 AI 輔助定理證明中“分工協(xié)作”的價(jià)值:自動化求解器處理底層邏輯步驟,而 LLM 專注于高層證明結(jié)構(gòu)。

2 miniF2F-Dafny 基準(zhǔn)
2.1 概述
miniF2F-Dafny 基準(zhǔn)包含 488 道數(shù)學(xué)問題(244 道測試題,244 道驗(yàn)證題),從 Lean 版本的 miniF2F 基準(zhǔn)翻譯而來。每個問題均被表述為一個 Dafny 引理(lemma),包含前提條件(requires 子句)和后置條件(ensures 子句),但證明體為空。任務(wù)是在空證明不足以通過 Dafny 驗(yàn)證器時,合成一個有效的證明。

問題陳述可自然地從 Lean 轉(zhuǎn)換至 Dafny,如圖 1 所示。問題涵蓋多個數(shù)學(xué)領(lǐng)域,包括代數(shù)、數(shù)論、不等式、組合數(shù)學(xué)和分析。每個子集(測試集與驗(yàn)證集)均包含 45 道 AMC 題、15 道 AIME 題和 20 道 IMO 題,其余題目選自大學(xué)本科數(shù)學(xué)課程。該基準(zhǔn)同時考察系統(tǒng)提供高層證明策略(如引理調(diào)用、分情況討論、歸納法)和底層證明細(xì)節(jié)(如代數(shù)運(yùn)算、不等式鏈)的能力。


兩個輔助文件提供了數(shù)學(xué)基礎(chǔ)設(shè)施,盡管目前仍處于開發(fā)中。definitions.dfy 文件(300 行)對 Dafny 原生不支持的核心數(shù)學(xué)結(jié)構(gòu)進(jìn)行了公理化:整數(shù)、有理數(shù)、實(shí)數(shù)和復(fù)數(shù),及其運(yùn)算與性質(zhì)。library.dfy 文件(550 行)包含 108 條公理化的引理,編碼了關(guān)于指數(shù)函數(shù)、對數(shù)、三角函數(shù)、復(fù)數(shù)和數(shù)論的標(biāo)準(zhǔn)數(shù)學(xué)事實(shí)。原則上這些引理可被證明,但我們選擇公理化它們,以將評估重點(diǎn)放在利用 SMT 自動化進(jìn)行證明合成上。我們并未投入大量精力構(gòu)建深層庫,而是旨在測試現(xiàn)代 AI 系統(tǒng)在使用 Dafny 的霍爾邏輯(Hoare-logic)風(fēng)格規(guī)范和 SMT 求解器自動化能力時,能多好地生成證明。

2.2 定義
該基準(zhǔn)的數(shù)學(xué)基礎(chǔ)由 definitions.dfy 提供,其中公理化了在 Dafny 中表達(dá)所有 miniF2F 問題所需的最小數(shù)學(xué)基礎(chǔ)設(shè)施。與 Mathlib [12](其中數(shù)學(xué)對象從第一性原理構(gòu)造)不同,我們的公理化策略體現(xiàn)了 Dafny 的設(shè)計(jì)哲學(xué):即依賴 SMT 求解器的能力,從一個可信的定義庫出發(fā)進(jìn)行自動化推理,而非要求構(gòu)建龐大的形式化證明庫。

這些定義覆蓋四個數(shù)域:整數(shù)、有理數(shù)、實(shí)數(shù)和復(fù)數(shù)。每個數(shù)域均包含標(biāo)準(zhǔn)算術(shù)運(yùn)算及領(lǐng)域特定的函數(shù)。

  • 整數(shù)支持有限集上的求和與求積、模運(yùn)算以及整除性謂詞。
  • 有理數(shù)被顯式表示為分子–分母對,并配備分?jǐn)?shù)算術(shù)。
  • 實(shí)數(shù)包含超越函數(shù)(指數(shù)、對數(shù)、三角函數(shù))、冪運(yùn)算以及數(shù)學(xué)常數(shù)(如 π)。
  • 復(fù)數(shù)提供域運(yùn)算、范數(shù)函數(shù)和復(fù)指數(shù)函數(shù)。

該公理化采用 Dafny 的 :axiom 屬性,通過規(guī)范(specifications)而非具體實(shí)現(xiàn)來聲明函數(shù)。規(guī)范的復(fù)雜度因函數(shù)性質(zhì)而異:

  • 對于對數(shù)等超越函數(shù)(見圖 3),我們公理化其基本值域性質(zhì)——例如,規(guī)定當(dāng)自變量大于 1 時對數(shù)為正,在 0 到 1 之間時為負(fù),在 1 處為零。
  • 對于求和等遞歸函數(shù)(見圖 2),我們通過后置條件(postconditions)復(fù)現(xiàn)歸納定義:明確其在空集上的行為,以及在非空集上通過移除一個元素后的遞歸行為。
  • 數(shù)論函數(shù)(如 gcd、lcm、素?cái)?shù)判定)、組合函數(shù)(如 choose、階乘)和工具函數(shù)(如 floor、ceil、abs)也以類似方式公理化。

這些契約(contracts)為 Dafny 基于 SMT 的自動化機(jī)制提供了足夠的語義信息,使其能在許多問題上僅憑空證明即可完成驗(yàn)證。盡管這些公理化遵循標(biāo)準(zhǔn)數(shù)學(xué)定義,且我們對其正確性持謹(jǐn)慎信心,但這種實(shí)用主義方法仍不可避免地帶來公理化本身固有的可靠性(soundness)考量。



2.3 庫(Library)

作為定義的補(bǔ)充,library.dfy 提供了 108 條公理化的引理,編碼了標(biāo)準(zhǔn)數(shù)學(xué)事實(shí)。該庫采用問題驅(qū)動的開發(fā)方式:通過分析證明嘗試過程,識別出所需的事實(shí),再將這些引理與 Mathlib [12] 中的定理進(jìn)行交叉核對以確保其可靠性,之后才集成進(jìn)來。

我們并未提供這些引理的構(gòu)造性證明,而是直接將其公理化,使問題能夠調(diào)用已確立的結(jié)果而無需重新證明——這模仿了數(shù)學(xué)實(shí)踐中的常見做法:引用已知定理,而非從頭重建。這些引理涵蓋多個數(shù)學(xué)領(lǐng)域:

  • 指數(shù)/對數(shù)(27 條引理):指數(shù)相乘、對數(shù)相加、換底公式(見圖 4)
  • 冪運(yùn)算(8 條引理):自然數(shù)與實(shí)數(shù)指數(shù)、冪律、平方根
  • 三角學(xué)(37 條引理):角加法公式、周期性、特殊值、畢達(dá)哥拉斯恒等式
  • 復(fù)數(shù)(19 條引理):域公理、范數(shù)性質(zhì)、歐拉公式
  • 數(shù)論(5 條引理):最大公約數(shù)(GCD)交換律、GCD–LCM 乘積公式
  • 分析(4 條引理):極限唯一性、連續(xù)性性質(zhì)
  • 數(shù)列(8 條引理):序列求和與求積、集合轉(zhuǎn)換

每條引理均通過前提條件(requires)和后置條件(ensures)進(jìn)行規(guī)范。例如,對數(shù)換底公式(圖 4)要求底數(shù)為正且不等于 1,并確保不同底數(shù)對數(shù)之間的標(biāo)準(zhǔn)關(guān)系成立。此外,某些數(shù)學(xué)性質(zhì)(如結(jié)合律、可加性)無法自然地編碼為單個函數(shù)的后置條件,而必須作為獨(dú)立引理顯式陳述。

該庫的規(guī)模(550 行)相比 Mathlib 的 200 萬行有意保持極簡,聚焦于奧林匹克級別數(shù)學(xué)所需的前置知識。這體現(xiàn)了一種務(wù)實(shí)的平衡:提供足夠理論以表達(dá)并求解 miniF2F 問題,同時測試 AI 系統(tǒng)能否在緊湊的基礎(chǔ)之上,有效利用 SMT 自動化能力構(gòu)建證明。

該庫很可能并不完備,若補(bǔ)充更多引理,評估結(jié)果很可能會進(jìn)一步提升。

2.4 驗(yàn)證
我們基準(zhǔn)測試的一個關(guān)鍵組成部分是驗(yàn)證所生成的解是否嚴(yán)格遵循原始問題陳述,而不對其弱化。這可以防止解決方案通過加強(qiáng)前提條件、弱化結(jié)論條件或引入不健全的公理來“作弊”——我們在其他基準(zhǔn)(如 DafnyBench [11])中已觀察到此類問題,其薄弱的評估腳本允許這類違規(guī)行為。

對于一個以 Dafny 引理形式給出的問題,我們的驗(yàn)證器會拒絕以下類型的解:

  • 驗(yàn)證過程中出現(xiàn)警告或錯誤
  • 修改或刪除原始的 requires 子句
  • 弱化或刪除原始的 ensures 子句
  • 使用 :axiom 屬性在無證明的情況下假設(shè)事實(shí)
  • 使用 assume 語句繞過驗(yàn)證

我們的驗(yàn)證流程分為兩個階段:
首先,調(diào)用 Dafny 驗(yàn)證器并解析其 JSON 輸出,以檢測驗(yàn)證失?。?br/>其次,通過一個提取流水線將每個問題引理解析為其簽名、前提條件(preconditions)和后置條件(postconditions)。驗(yàn)證器隨后比較原始規(guī)范與生成規(guī)范:

  • requires 子句必須完全一致(不允許添加或刪除);
  • ensures 子句必須是原始子句的超集(即允許添加更強(qiáng)的結(jié)論)。


    之所以允許增強(qiáng)后置條件,是因?yàn)閺?qiáng)化后的引理仍能推出原始陳述——可以從更強(qiáng)版本推導(dǎo)出原引理。

此外,我們還會掃描代碼中是否使用了 :axiom 屬性或 assume 語句。關(guān)鍵的是,我們按源文件區(qū)分驗(yàn)證診斷信息:允許來自庫文件definitions.dfy、library.dfy),但問題文件本身(即提交的解)中的任何警告或錯誤都會導(dǎo)致拒絕。

當(dāng)驗(yàn)證失敗時,我們會返回結(jié)構(gòu)化反饋,明確指出哪些子句被修改,或使用了哪些不健全的構(gòu)造,從而支持模型在后續(xù)迭代中進(jìn)行自我修正。

3 評估
我們在 miniF2F-Dafny 上評估了 Dafny 的基礎(chǔ)自動化能力以及 12 個現(xiàn)成大語言模型(LLMs),以檢驗(yàn)自動主動驗(yàn)證(auto-active verification)在自動化數(shù)學(xué)推理中的有效性。評估首先衡量 Dafny 基于 SMT 的自動化機(jī)制在無人工干預(yù)下能解決多少問題,然后評估現(xiàn)代 LLM 是否能為剩余問題提供證明提示以引導(dǎo)驗(yàn)證。

3.1 空證明基線
由 Z3 驅(qū)動的 Dafny 驗(yàn)證器在空證明(即無需任何人工證明步驟)的情況下,成功驗(yàn)證了 244 道測試題中的 99 題(40.6%)和 244 道驗(yàn)證題中的 109 題(44.7%)。我們對每道題運(yùn)行 5 次,每次超時 30 秒,使用 Dafny 4.11.0 版本。該基線展示了 SMT 自動化的能力:那些在 Lean 等交互式定理證明器中需要顯式證明項(xiàng)的問題,在 Dafny 中可被自動驗(yàn)證。例如,IMO 1959 第 1 題(圖 1)在 Lean 中需要大量證明,但在 Dafny 中僅憑空證明即可通過。

3.2 LLM 引導(dǎo)的證明
對于空證明失敗的問題,我們評估了 12 個現(xiàn)成 LLM 提供證明提示的能力。由于時間和算力限制,部分模型僅在問題子集上進(jìn)行評估;此評估仍在進(jìn)行中,后續(xù)將更新完整結(jié)果。

實(shí)驗(yàn)設(shè)置:每道題最多生成 N = 4
次,初始嘗試后進(jìn)行 E = 3 輪錯誤修正迭代(溫度 T = 0.5 ,每條響應(yīng)上限 8192 個詞元)。驗(yàn)證失敗時,我們從 Dafny 輸出中提取錯誤軌跡,并將其追加到對話歷史中用于迭代優(yōu)化。模型通過 AWS Bedrock API 調(diào)用,包括:Claude(Sonnet 3.7、Sonnet 4、Sonnet 4.5、Haiku 4.5)、DeepSeek V3.1、Llama 4 Maverick 17B、GPT-OSS(20B、120B)以及 Qwen 3(32B、235B MoE、Coder 30B、Coder 480B MoE)。所有模型均未微調(diào)。

結(jié)果:表 1 展示了測試集上的 pass@4 結(jié)果。Claude Sonnet 4.5 表現(xiàn)最佳,達(dá) 55.7%,其次為 Claude Sonnet 3.7(55.2%)和 Qwen 3 235B MoE(54.3%)。多個模型集中在 43–50% 區(qū)間。主要在通用代碼上訓(xùn)練的模型(如 DeepSeek V3.1、Llama 4 Maverick、GPT-OSS)缺乏 Dafny 特定知識,常混淆 Dafny 與 Lean 語法;相比之下,Claude 和 Qwen 系列的更大模型對 Dafny 的驗(yàn)證慣用法更熟悉。


LLM 生成的證明展現(xiàn)出不同層次的復(fù)雜性:

  • 一端如 Qwen3 Coder 30B,用簡潔的奇偶性論證解決了一道 AMC 12 關(guān)于素?cái)?shù)乘積的問題(圖 6):通過斷言 195 為奇數(shù)而相關(guān)偶數(shù)為偶數(shù),使 Dafny 自動完成驗(yàn)證;
  • 另一端如 Claude Sonnet 4,解決了 IMO 1964 一道困難的不等式問題(圖 5):引入了一個輔助的平方和恒等式引理。該證明展現(xiàn)了高階數(shù)學(xué)推理:使用 calc 語句代數(shù)變換左側(cè)表達(dá)式,構(gòu)造三個非負(fù)的平方和項(xiàng),并調(diào)用輔助引理建立不等式。



這些例子表明,現(xiàn)代 LLM 既能生成利用 SMT 自動化的簡潔提示,也能提出涉及輔助引理和結(jié)構(gòu)化推理的非平凡證明策略。附錄提供了更多示例。

錯誤分析:對未驗(yàn)證問題的分析揭示了三類主要難點(diǎn):

  • 驗(yàn)證脆弱性(Verification brittleness):斷言順序或 calc 語句組織的微小變化即可導(dǎo)致驗(yàn)證失??;
  • Dafny 訓(xùn)練數(shù)據(jù)有限:模型對 calc 語句、ghost 變量等語言特有慣用法掌握不足,生成語法正確但語義無效的證明;
  • 數(shù)學(xué)復(fù)雜性:問題所需數(shù)學(xué)事實(shí)未包含在庫中,需從零開始構(gòu)建理論。

討論:結(jié)果表明,Dafny 的 SMT 自動化為奧數(shù)數(shù)學(xué)提供了強(qiáng)大基線,而現(xiàn)代 LLM 能有效提供證明提示進(jìn)一步擴(kuò)展其能力。頂尖模型在測試集上達(dá)到約 55%,相較 40% 的基線實(shí)現(xiàn)了超 35% 的相對提升。然而,仍有顯著改進(jìn)空間,尤其是在應(yīng)對驗(yàn)證脆弱性及增強(qiáng)模型對 Dafny 特定證明模式的熟悉度方面。

4 相關(guān)工作
4.1 形式化數(shù)學(xué)推理基準(zhǔn)
形式化數(shù)學(xué)推理基準(zhǔn)通過證明助手提供自動驗(yàn)證機(jī)制,與 MATH [7] 和 GSM8K [6] 等非形式化基準(zhǔn)形成對比——后者僅評估自然語言數(shù)學(xué)推理,缺乏對正確性的形式化保證。

miniF2F 基準(zhǔn) [24] 是一個基于 Lean 的基準(zhǔn),包含 488 道數(shù)學(xué)問題,選自 AIME、AMC、IMO 以及高中和大學(xué)本科數(shù)學(xué)課程內(nèi)容,并分為各含 244 題的測試集與驗(yàn)證集。該基準(zhǔn)已被翻譯至 Isabelle、HOL Light 和 Metamath,這些系統(tǒng)均為交互式定理證明器,要求提供顯式的證明項(xiàng)。

其他競賽風(fēng)格的基準(zhǔn)包括:FIMO [10],包含 IMO 短名單問題的 Lean 形式化;PutnamBench [17],包含 William Lowell Putnam 數(shù)學(xué)競賽的 Lean 問題,難度顯著更高;ProofNet [2] 聚焦于大學(xué)數(shù)學(xué)教材中的 Lean 練習(xí)題;LeanDojo [23] 則提供了源自 Lean mathlib 庫的數(shù)據(jù)集。

由于其規(guī)模適中、問題覆蓋多樣且支持多語言實(shí)現(xiàn),miniF2F 仍是目前最廣泛采用的基準(zhǔn)。

4.2 面向交互式定理證明的人工智能
完整證明(whole-proof)方法生成完整的證明,并通過迭代優(yōu)化直至通過驗(yàn)證。GPT-f [14] 首次在 Metamath 中開創(chuàng)了這一范式,隨后 FMS-CL [13] 在 Lean 中跟進(jìn)。近期的完整證明系統(tǒng)還包括 DeepSeek-Prover [22]、Seed-Prover [5] 和 Kimina-Prover [19]。

逐步式方法(Step-wise approaches)通過樹搜索逐步構(gòu)造證明,包括 HTPS [9](Lean 和 Metamath)和 LLEMMA [3](Lean)。在各類基準(zhǔn)上的領(lǐng)先方法在完整證明與逐步式范式之間交替更迭。

混合系統(tǒng)(Hybrid systems)將非形式化推理與形式化驗(yàn)證相結(jié)合。例如 DSP [8] 和 LEGO-Prover [20] 在 Isabelle 中工作,先將自然語言證明轉(zhuǎn)換為形式化草稿(formal sketches),再完成證明。

智能體框架(Agentic frameworks)通過協(xié)調(diào)多個組件來生成證明。相關(guān)系統(tǒng)包括 Lean 中的 COPRA [15]、ProverAgent [4]、ProofCompass [21] 和 HILBERT [18]。

領(lǐng)域?qū)S梅椒ǎ―omain-specific approaches)如 AlphaGeometry [16] 則針對特定問題類型,例如 IMO 幾何題。

近期成功率顯著提升:HILBERT 在 miniF2F 上達(dá)到 99.2%,在 PutnamBench 上達(dá)到 70.0%。多個系統(tǒng)在 IMO 2025 中實(shí)現(xiàn)金牌水平表現(xiàn),包括提供形式化解答的 Seed-Prover 和 Aristotle [1],以及 Google DeepMind 和 OpenAI 提供自然語言解答的系統(tǒng)。

5 未來工作
Dafny 專用訓(xùn)練:當(dāng)前模型對 Dafny 語法和驗(yàn)證慣用法接觸有限,常將其與交互式定理證明器混淆。一個關(guān)鍵局限在于它們無法判斷 Z3 求解器能否自動解決子目標(biāo)。在精選的 Dafny 語料上進(jìn)行預(yù)訓(xùn)練,并在驗(yàn)證任務(wù)上微調(diào),可提升模型對自動主動驗(yàn)證模式的熟悉度,并學(xué)會有效使用 calc 語句、斷言位置安排和 ghost 變量。

智能體架構(gòu):類比于 Lean 中的 Aristotle [1]、Seed-Prover [5] 和 HILBERT [18] 等系統(tǒng),可構(gòu)建 Dafny 專用的智能體框架,協(xié)調(diào)證明搜索、引理合成與迭代優(yōu)化,充分發(fā)揮程序合成與形式驗(yàn)證之間的協(xié)同效應(yīng)。

可學(xué)習(xí)的引理庫:LEGO-Prover [20] 展示了模型如何提取、泛化并緩存成功的證明策略作為可復(fù)用引理。將此方法適配到 Dafny,可實(shí)現(xiàn)跨問題的累積學(xué)習(xí),從而更貼近人類數(shù)學(xué)實(shí)踐。

6 結(jié)論
miniF2F-Dafny 是首次在純數(shù)學(xué)推理領(lǐng)域探索自動主動驗(yàn)證的嘗試——該領(lǐng)域傳統(tǒng)上由交互式定理證明器主導(dǎo)。我們的結(jié)果展示了一種高效的分工模式:大語言模型提供高層指導(dǎo),而基于 SMT 的自動化機(jī)制處理底層細(xì)節(jié)。這一范式充分發(fā)揮了自動推理與現(xiàn)代語言模型的互補(bǔ)優(yōu)勢。展望未來,我們預(yù)期自動主動驗(yàn)證與交互式定理證明將逐步融合——Lean 中近期引入的 grind 策略已體現(xiàn)出這一趨勢。本工作指明了一條有前景的路徑:通過這種協(xié)同效應(yīng),實(shí)現(xiàn)更易用、AI 輔助的形式化驗(yàn)證。

A 示例解法
本節(jié)展示了一些由大語言模型生成的代表性證明解法,以說明在 miniF2F-Dafny 中所采用的多樣化證明策略。我們選取了若干示例,這些示例通過引入輔助引理展現(xiàn)了高階數(shù)學(xué)推理能力,表明 Dafny 的驗(yàn)證機(jī)制與 LLM 生成的精確輸出相結(jié)合,能夠完整解決 IMO 級別的數(shù)學(xué)問題。

A.1 imo_1964_p2 的完整證明
Claude Sonnet 4 為 IMO 1964 第 2 題(第 4 節(jié)中已截?cái)嗾故荆┥傻慕夥?,展示了一種基于平方和分解(sum-of-squares decomposition)的高階證明策略。該證明通過表明 3 a b c ? LHS 可表示為若干平方項(xiàng)之和(每項(xiàng)均乘以由三角不等式導(dǎo)出的正系數(shù)),從而建立所需的不等式。此過程需要通過系統(tǒng)性的展開與項(xiàng)合并,證明一個輔助代數(shù)恒等式。借助這些輔助事實(shí),Dafny 基于 SMT 求解器的后端成功驗(yàn)證了完整證明。








B 提示(Prompts)
B.1 初始證明合成提示
我們設(shè)計(jì)了一個初始模型提示,用于建立任務(wù)上下文與約束條件,如下所示。該提示強(qiáng)調(diào)必須保留原始問題規(guī)范,禁止使用不健全的構(gòu)造(如公理、assume 假設(shè)),并鼓勵策略性地使用 Dafny 慣用法,例如 calc 語句和斷言。提示還明確要求模型對其引用的任何數(shù)學(xué)結(jié)論都必須給出證明,不得依賴未聲明的“經(jīng)典定理”。這一設(shè)計(jì)體現(xiàn)了我們的核心目標(biāo):評估模型的 證明合成能力 ,而非對已有庫的檢索或調(diào)用能力。




原文鏈接: https://arxiv.org/pdf/2512.10187

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
退休夫婦花10萬“郵輪養(yǎng)老”:船上住15年,包吃包打掃,環(huán)游世界4圈,比房租便宜得多!

退休夫婦花10萬“郵輪養(yǎng)老”:船上住15年,包吃包打掃,環(huán)游世界4圈,比房租便宜得多!

背包旅行
2026-01-23 10:33:42
趙薇胃癌傳聞?wù)嫦啻蟀?,再迎壞消息連累李湘

趙薇胃癌傳聞?wù)嫦啻蟀?,再迎壞消息連累李湘

觀察者海風(fēng)
2026-01-26 20:24:53
詹姆斯今年至今末節(jié)得分還是聯(lián)盟第一!公牛球迷為他倒戈!

詹姆斯今年至今末節(jié)得分還是聯(lián)盟第一!公牛球迷為他倒戈!

氧氣是個地鐵
2026-01-27 14:30:05
日本!暴跌開始了!

日本!暴跌開始了!

大嘴說天下
2026-01-26 20:16:55
愛火:一場非關(guān)消耗的持久燃燒

愛火:一場非關(guān)消耗的持久燃燒

疾跑的小蝸牛
2026-01-27 22:57:37
李瑋峰指出,王鈺棟面對日本后衛(wèi)對抗成功率低,對歐洲后衛(wèi)更不行

李瑋峰指出,王鈺棟面對日本后衛(wèi)對抗成功率低,對歐洲后衛(wèi)更不行

足球分析員
2026-01-27 11:05:03
不管你信不信,男性過了61歲后,基本都有這7個現(xiàn)狀,要坦然接受

不管你信不信,男性過了61歲后,基本都有這7個現(xiàn)狀,要坦然接受

健康之光
2026-01-11 12:40:02
終于來了!芬蘭總理落地北京說了兩句話,特朗普怕啥來啥

終于來了!芬蘭總理落地北京說了兩句話,特朗普怕啥來啥

黑翼天使
2026-01-28 04:02:55
數(shù)據(jù)驚人!汽油消耗量暴跌得嚇人,未來油價(jià)會大幅降嗎?

數(shù)據(jù)驚人!汽油消耗量暴跌得嚇人,未來油價(jià)會大幅降嗎?

超喜歡我的狗子
2026-01-25 16:42:57
“8大癥狀說明你已經(jīng)老了”,你占了幾項(xiàng)?我全占了??!

“8大癥狀說明你已經(jīng)老了”,你占了幾項(xiàng)?我全占了!!

社評
2026-01-02 12:24:58
煥新Model Y亮相,你會考慮購買嗎

煥新Model Y亮相,你會考慮購買嗎

沙雕小琳琳
2026-01-28 01:59:15
銀價(jià)一個月內(nèi)狂飆50%,白銀基金緊急停牌,有銀飾商家宣布閉店

銀價(jià)一個月內(nèi)狂飆50%,白銀基金緊急停牌,有銀飾商家宣布閉店

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-01-27 14:41:30
媒體人:重慶銅梁龍足球俱樂部的外援中衛(wèi)薩達(dá)烏斯卡斯即將離隊(duì)

媒體人:重慶銅梁龍足球俱樂部的外援中衛(wèi)薩達(dá)烏斯卡斯即將離隊(duì)

格斗聯(lián)盟
2026-01-27 20:11:05
舒淇在節(jié)目里第一次承認(rèn),她和馮德倫為了要孩子已經(jīng)折騰了九年。

舒淇在節(jié)目里第一次承認(rèn),她和馮德倫為了要孩子已經(jīng)折騰了九年。

歲月有情1314
2025-11-29 15:40:25
馬斯克預(yù)測世界大戰(zhàn)時間,大戰(zhàn)最可能爆發(fā)在兩地區(qū)

馬斯克預(yù)測世界大戰(zhàn)時間,大戰(zhàn)最可能爆發(fā)在兩地區(qū)

妙知
2025-12-29 00:08:32
印度報(bào)告尼帕病毒疫情:護(hù)士A參加婚禮誤飲蝙蝠污染的新鮮椰棗汁,疑傳染共同上夜班的同事B

印度報(bào)告尼帕病毒疫情:護(hù)士A參加婚禮誤飲蝙蝠污染的新鮮椰棗汁,疑傳染共同上夜班的同事B

縱相新聞
2026-01-27 16:17:01
千萬別姐弟戀,很累!

千萬別姐弟戀,很累!

果粉之家
2026-01-06 11:26:21
真的累了?瓜帥暫時沒能擺脫“四大皆空”問題,曼城穩(wěn)定打折扣

真的累了?瓜帥暫時沒能擺脫“四大皆空”問題,曼城穩(wěn)定打折扣

里芃芃體育
2026-01-28 03:00:03
美籍華人14小時飛越萬里來武漢求醫(yī) 中國醫(yī)生高效救治及時挽救患者視力

美籍華人14小時飛越萬里來武漢求醫(yī) 中國醫(yī)生高效救治及時挽救患者視力

極目新聞
2026-01-27 09:59:07
山西某村口一起交通事故!致人當(dāng)場死亡!

山西某村口一起交通事故!致人當(dāng)場死亡!

秀容通
2026-01-27 19:22:28
2026-01-28 05:07:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個商務(wù)被取消

財(cái)經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
數(shù)碼
游戲
健康

藝術(shù)要聞

震撼!19世紀(jì)油畫巨匠的作品美得不可思議!

房產(chǎn)要聞

實(shí)景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

數(shù)碼要聞

這事你怎么看 索尼與TCL簽署意向備忘錄 網(wǎng)友:Sony變Tony了

LPL春季賽:決絕讓一追二,AL三局擊潰IG,大家的排名都不變

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

無障礙瀏覽 進(jìn)入關(guān)懷版