網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

反思預(yù)訓(xùn)練中的再思考

2026-02-19 00:04:47　來(lái)源: CreateAMind

上海舉報(bào)

分享至

反思預(yù)訓(xùn)練中的再思考

Rethinking Reflection in Pre-Training

https://arxiv.org/pdf/2504.04022

摘要
語(yǔ)言模型對(duì)其自身推理過(guò)程進(jìn)行反思的能力，為解決復(fù)雜問(wèn)題提供了一項(xiàng)關(guān)鍵優(yōu)勢(shì)。盡管近期研究大多聚焦于這種能力在強(qiáng)化學(xué)習(xí)階段如何發(fā)展，但我們的研究表明，它實(shí)際上在更早的階段——即模型的預(yù)訓(xùn)練階段——就已開(kāi)始顯現(xiàn)。為探究此現(xiàn)象，我們有意在思維鏈中引入錯(cuò)誤，并測(cè)試模型是否能通過(guò)識(shí)別并修正這些錯(cuò)誤，最終得出正確答案。通過(guò)追蹤模型在不同預(yù)訓(xùn)練階段的表現(xiàn)，我們觀(guān)察到這種自我修正能力出現(xiàn)得較早，并隨著時(shí)間的推移穩(wěn)步提升。例如，一個(gè)經(jīng)過(guò)4萬(wàn)億詞元預(yù)訓(xùn)練的OLMo-2-7B模型，在我們?cè)O(shè)計(jì)的六項(xiàng)自我反思任務(wù)中均展現(xiàn)出了自我修正能力。

1 引言
反思能力增強(qiáng)了模型根據(jù)先前的推理調(diào)整其回答的能力，從而提高了輸出的準(zhǔn)確性。近期研究指出，“諸如反思之類(lèi)的行為……是模型與強(qiáng)化學(xué)習(xí)環(huán)境相互作用的結(jié)果” [DeepSeek-AI, 2025a]。要驗(yàn)證此類(lèi)論斷，需要在整個(gè)訓(xùn)練階段對(duì)能力的發(fā)展進(jìn)行全面的評(píng)估。在這項(xiàng)工作中，我們提出了一個(gè)詳盡的框架來(lái)衡量反思能力，并觀(guān)察到該現(xiàn)象在預(yù)訓(xùn)練階段始終如一地出現(xiàn)。

利用現(xiàn)有的推理數(shù)據(jù)集來(lái)對(duì)反思能力進(jìn)行基準(zhǔn)測(cè)試一直頗具挑戰(zhàn)性 [Mondorf and Plank, 2024]。在這些任務(wù)中，反思行為往往很少見(jiàn)，并且每個(gè)模型都表現(xiàn)出不同的錯(cuò)誤模式，從而產(chǎn)生獨(dú)特的反思行為表現(xiàn) [Madaan et al., 2023, Liu et al., 2025]。我們通過(guò)區(qū)分情境性反思和自我反思來(lái)應(yīng)對(duì)這一挑戰(zhàn)。在情境性反思設(shè)定中，模型審視由另一個(gè)來(lái)源（例如，另一個(gè)前沿模型）生成的推理鏈條。在自我反思設(shè)定中，模型則思考其自身的推理過(guò)程。我們通過(guò)衡量模型在遇到導(dǎo)致錯(cuò)誤答案的混淆性推理時(shí)解決問(wèn)題的能力，來(lái)校準(zhǔn)模型的能力，并由此在整個(gè)預(yù)訓(xùn)練過(guò)程中測(cè)量其反思能力。

圖2展示了一個(gè)部分預(yù)訓(xùn)練的OLMo-2檢查點(diǎn) [OLMo et al., 2025] 嘗試解決一項(xiàng)編程任務(wù) [Gu et al., 2024] 的例子。在此案例中，模型被問(wèn)及一個(gè)問(wèn)題：確定導(dǎo)致Python函數(shù)f輸出為‘a(chǎn)vdropj gsd ’的輸入是什么。在其首次嘗試中，這個(gè)擁有320億參數(shù)、經(jīng)過(guò)4.8萬(wàn)億詞元預(yù)訓(xùn)練的模型，直接將輸出‘a(chǎn)dvdropj gsd ’重復(fù)作為了答案。當(dāng)使用其錯(cuò)誤的思考過(guò)程加上后綴“Wait,”進(jìn)行提示后，模型能夠成功地進(jìn)行自我反思，并生成：“我想我可能錯(cuò)了……??的值應(yīng)該是['gsd', 'avdropj']”。

通過(guò)程序化地引入包含算術(shù)擾動(dòng)和邏輯不一致性等元素的錯(cuò)誤思維鏈（CoT），我們能夠控制和擴(kuò)展正確完成這些任務(wù)所需的反思程度。這種方法同時(shí)也保留了既定的CoT格式[Wei等人，2022]。此外，我們的算法方法允許通過(guò)改編現(xiàn)有的推理基準(zhǔn)，以相對(duì)快速和經(jīng)濟(jì)的方式創(chuàng)建這些數(shù)據(jù)集，從而得以在跨越多領(lǐng)域的范圍內(nèi)全面研究模型的反思能力。我們構(gòu)建的六個(gè)數(shù)據(jù)集涵蓋了數(shù)學(xué)、編程、邏輯推理和知識(shí)獲取等領(lǐng)域，旨在評(píng)估模型在情境性反思和自我反思兩方面的能力。1

在OLMo-2系列模型的不同預(yù)訓(xùn)練檢查點(diǎn)上，使用我們六個(gè)多樣化數(shù)據(jù)集評(píng)估的結(jié)果表明，反思能力在各個(gè)領(lǐng)域中普遍存在。即使像“Wait,”[Muennighoff等人，2025]這樣簡(jiǎn)單的觸發(fā)短語(yǔ)，也能使部分預(yù)訓(xùn)練的模型始終如一地識(shí)別出引入的錯(cuò)誤以及自身生成的錯(cuò)誤。具體來(lái)說(shuō)，240個(gè)數(shù)據(jù)集-檢查點(diǎn)配對(duì)中，有231個(gè)展示了至少一次情境性反思實(shí)例，240個(gè)中有154個(gè)展示了至少一次自我反思實(shí)例。隨著預(yù)訓(xùn)練的深入，模型能夠糾正更多的對(duì)抗性示例，導(dǎo)致任務(wù)準(zhǔn)確率與預(yù)訓(xùn)練計(jì)算量對(duì)數(shù)之間的平均皮爾遜相關(guān)系數(shù)達(dá)到0.76。此外，隨著預(yù)訓(xùn)練的推進(jìn)，模型從先前錯(cuò)誤推理中恢復(fù)的能力不斷增強(qiáng)，模型生成內(nèi)容中顯式反思的頻率增加，并且顯式反思對(duì)從混淆性CoT中恢復(fù)的貢獻(xiàn)也越來(lái)越大。

本文的貢獻(xiàn)主要有三方面：
? 我們引入了一種系統(tǒng)性的方法，創(chuàng)建了涵蓋代碼、知識(shí)獲取、邏輯推理和數(shù)學(xué)領(lǐng)域的六個(gè)數(shù)據(jù)集，用以研究模型的反思能力。
? 我們證明了不同能力水平和訓(xùn)練計(jì)算量的預(yù)訓(xùn)練模型，能夠在廣泛領(lǐng)域內(nèi)，通過(guò)使用簡(jiǎn)單的插入語(yǔ)，激發(fā)反思能力以糾正先前不準(zhǔn)確的推理。
? 我們觀(guān)察到，持續(xù)改進(jìn)的預(yù)訓(xùn)練能夠帶來(lái)更好的反思能力，使得解決相同數(shù)量任務(wù)所需的測(cè)試時(shí)詞元更少。

2 相關(guān)工作
評(píng)估大語(yǔ)言模型的推理能力自然語(yǔ)言系統(tǒng)的實(shí)際應(yīng)用性取決于其推理能力 [Wos 等人，1992；Schuster 等人，2019；Mondorf 和 Plank，2024]。大語(yǔ)言模型結(jié)合諸如思維鏈 [Wei 等人，2022]、思維樹(shù) [Yao 等人，2023] 和自洽性 [Wang 等人，2023b] 等提示技術(shù)，已被成功用于解決各種推理任務(wù) [Kojima 等人，2022；Bubeck 等人，2023]。推理能力通常通過(guò)觀(guān)察模型輸出 [Fu 等人，2023a；Liu 等人，2023]、分析生成軌跡 [Saparov 和 He，2023；Dziri 等人，2023；Willig 等人，2022] 以及交互式參與 [Zhuang 等人，2024；Wang 等人，2023a；Bertolazzi 等人，2023] 來(lái)衡量。先前的研究還通過(guò)對(duì)模型內(nèi)部網(wǎng)絡(luò)進(jìn)行參數(shù)歸因，通過(guò)研究注意力模式 [Hou 等人，2023]、激活流 [Dutta 等人，2024] 和各個(gè)層 [Pirozelli 等人，2024] 來(lái)識(shí)別推理特征。這些方法主要用于評(píng)估訓(xùn)練后模型，而我們的興趣在于診斷技術(shù)，以在整個(gè)訓(xùn)練階段引發(fā)推理，其精神類(lèi)似于通過(guò)參數(shù)和訓(xùn)練數(shù)據(jù)規(guī)模來(lái)研究模型性能 [Kaplan 等人，2020]。在這項(xiàng)工作中，我們通過(guò)對(duì)抗性數(shù)據(jù)集評(píng)估反思能力的涌現(xiàn)來(lái)研究推理。這些數(shù)據(jù)集要求模型通過(guò)推理多步提示（其中包含細(xì)微錯(cuò)誤）來(lái)成功完成任務(wù)。

對(duì)大語(yǔ)言模型的對(duì)抗性攻擊長(zhǎng)期以來(lái)，對(duì)抗性輸入一直被用來(lái)揭示神經(jīng)網(wǎng)絡(luò)的脆弱性 [Szegedy 等人，2014；Biggio 等人，2013；Huang 等人，2017]。最近，類(lèi)似的技術(shù)已被應(yīng)用于大語(yǔ)言模型，證明了它們易受精心設(shè)計(jì)的提示的攻擊 [Schwinn 等人，2023]。這些攻擊已成功針對(duì)模型的政策對(duì)齊 [Deng 等人，2022；Wei 等人，2023]、安全性 [Schuster 等人，2020；Carlini 等人，2021；Kang 等人，2024] 和魯棒性 [Zou 等人，2023；Shen 等人，2024；Xu 等人，2024]，突顯了巨大的漏洞。已有幾種方法提出使用對(duì)抗性訓(xùn)練來(lái)改進(jìn)模型對(duì)此類(lèi)攻擊的防御 [Zhu 等人，2019；Jiang 等人，2020；

Xhonneux 等人，2024]。然而，我們工作的主要目的不是展示模型對(duì)對(duì)抗性攻擊的脆弱性，而是強(qiáng)調(diào)如何利用此類(lèi)數(shù)據(jù)集來(lái)持續(xù)且全面地評(píng)估其推理能力。我們通過(guò)引入思維鏈 [Kojima 等人，2022] 來(lái)實(shí)現(xiàn)這一點(diǎn)，其中步驟 [Lightman 等人，2023] 大部分正確，但包含需要反思的錯(cuò)誤 [Lightman 等人，2023；Fu 等人，2023b]。

訓(xùn)練時(shí)與測(cè)試時(shí)的權(quán)衡在先進(jìn)推理模型中，例如 OpenAI 的 o1 [OpenAI, 2024b] 和 DeepSeek-R1 [DeepSeek-AI, 2025a]，對(duì)測(cè)試時(shí)計(jì)算的依賴(lài)日益增加，這重新引發(fā)了關(guān)于計(jì)算資源最優(yōu)分配的討論 [Kaplan 等人，2020；Hoffmann 等人，2022]。先前的工作研究了訓(xùn)練時(shí)計(jì)算與測(cè)試時(shí)計(jì)算之間的權(quán)衡 [Snell 等人，2024]，以及監(jiān)督微調(diào) [Li 等人，2025；Chen 等人，2025] 和強(qiáng)化學(xué)習(xí) [DeepSeek-AI, 2025a；Wang 等人，2024] 等訓(xùn)練后技術(shù)對(duì)推理性能的影響 [Liu 等人，2025]。推理時(shí)范式——如樹(shù)搜索 [Yao 等人，2023]、思維鏈提示 [Wei 等人，2022] 和預(yù)算強(qiáng)制 [Muennighoff 等人，2025]——與模型的預(yù)訓(xùn)練表示相互作用 [Yeo 等人，2025；Ruis 等人，2025；Gandhi 等人，2025]。然而，在我們的工作中，我們提供了一個(gè)互補(bǔ)的視角，證明某些推理能力可以在預(yù)訓(xùn)練階段本身逐漸涌現(xiàn)，即使在沒(méi)有微調(diào)、強(qiáng)化學(xué)習(xí)或?qū)ｉT(mén)的測(cè)試時(shí)推理技術(shù)的情況下也是如此。我們的發(fā)現(xiàn)表明，推理的關(guān)鍵方面可以?xún)H通過(guò)預(yù)訓(xùn)練來(lái)灌輸，這可能會(huì)改變訓(xùn)練和推理過(guò)程中計(jì)算最優(yōu)使用的考量。

3 方法
我們的目標(biāo)是全面且大規(guī)模地衡量反思能力。為此，我們首先給出反思的定義（3.1），然后通過(guò)程序化方式創(chuàng)建任務(wù)來(lái)引發(fā)反思（3.2），并最終嚴(yán)謹(jǐn)?shù)睾饬糠此嫉拇嬖冢?.3）。

3.1 定義反思
反思是元認(rèn)知的一種形式，涉及審視信息、評(píng)估其背后的推理，并基于該評(píng)估調(diào)整后續(xù)行為。在語(yǔ)言模型的語(yǔ)境中，此過(guò)程可應(yīng)用于源自外部或由模型自身生成的信息。在本工作中，我們創(chuàng)設(shè)了兩種情境來(lái)引發(fā)和衡量反思：

情境性反思：指模型對(duì)由另一來(lái)源（如另一個(gè)模型）創(chuàng)建的信息進(jìn)行反思。
自我反思：指模型對(duì)其自身生成的輸出進(jìn)行反思。
我們還通過(guò)兩種形式來(lái)全面描述反思的特征：
顯式反思：指模型生成的詞元在語(yǔ)義上識(shí)別并處理了對(duì)抗性語(yǔ)境中的錯(cuò)誤。顯式反思可能出現(xiàn)在正確的模型輸出中（即，那些對(duì)我們對(duì)抗性任務(wù)給出正確答案的輸出），也可能出現(xiàn)在錯(cuò)誤的模型輸出中。
隱式反思：指模型在處理對(duì)抗性語(yǔ)境時(shí)，能夠正確解決任務(wù)，但并未生成明確識(shí)別先前推理中存在錯(cuò)誤的詞元。根據(jù)我們的定義，這意味著隱式反思的結(jié)果不可能是對(duì)我們對(duì)抗性任務(wù)的錯(cuò)誤答案。這使我們能夠區(qū)分以下兩種情況：一種是未出現(xiàn)顯式反思但可推斷發(fā)生了隱式反思的情況；另一種則是根本未發(fā)生任何反思的情況。

3.2 使用對(duì)抗性反思數(shù)據(jù)集引發(fā)反思
我們提出了一種算法，用于生成能夠引發(fā)語(yǔ)言模型反思行為的對(duì)抗性數(shù)據(jù)集。該算法創(chuàng)建會(huì)導(dǎo)致錯(cuò)誤解決方案的對(duì)抗性思維鏈（CoT）。與自我反思（我們可以利用模型自身的錯(cuò)誤）不同，對(duì)于情境性反思，我們必須設(shè)計(jì)人工的對(duì)抗性CoT。在高層面上，這些對(duì)抗性CoT是通過(guò)以模仿人類(lèi)推理錯(cuò)誤（如邏輯失誤和算術(shù)計(jì)算錯(cuò)誤）的方式破壞正確的CoT而創(chuàng)建的。在這兩種情況下，當(dāng)我們?cè)谏舷挛闹刑峁┻@些CoT時(shí)，模型必須反思其中的錯(cuò)誤并加以修正，才能得出正確的解決方案。我們相信，這些設(shè)定對(duì)于全面研究反思能力是必要的。
任務(wù)設(shè)計(jì)包括附加一個(gè)觸發(fā)詞元，例如“Wait,”，以促進(jìn)在整個(gè)任務(wù)解決過(guò)程中進(jìn)行持續(xù)的推理。
該算法有兩個(gè)變體。算法1和算法2分別用于創(chuàng)建情境性反思數(shù)據(jù)集和自我反思數(shù)據(jù)集。

3.3 衡量反思
我們基于先前對(duì)反思的分類(lèi)（見(jiàn)3.1），提出了一種使用對(duì)抗性數(shù)據(jù)集來(lái)自動(dòng)衡量模型反思能力的方法：

衡量顯式反思：為了識(shí)別顯式反思的實(shí)例，我們開(kāi)發(fā)了一個(gè)基于提示的大語(yǔ)言模型分類(lèi)器。該分類(lèi)器用于檢測(cè)模型的輸出是否在給定的對(duì)抗性語(yǔ)境中明確承認(rèn)并處理了錯(cuò)誤，無(wú)論模型最終是否得出了正確答案。該分類(lèi)器將在下文4.3節(jié)中描述。
衡量隱式反思：我們規(guī)定，在存在對(duì)抗性語(yǔ)境的情況下，所有導(dǎo)致正確答案的模型生成內(nèi)容都可歸因于反思，即使輸出中沒(méi)有生成任何與反思相關(guān)的詞元。我們認(rèn)為，這符合描述人類(lèi)元認(rèn)知時(shí)對(duì)“反思”的日常理解。我們這種方法的一個(gè)含義是，根據(jù)設(shè)計(jì)，那些產(chǎn)生了正確答案但未被顯式分類(lèi)器識(shí)別出的生成內(nèi)容，將被歸類(lèi)為隱式反思的實(shí)例。

關(guān)于我們使用的具體反思指標(biāo)的更多細(xì)節(jié)，請(qǐng)參見(jiàn)第4.3節(jié)。

4 實(shí)驗(yàn)設(shè)置
為了全面研究反思能力，我們?cè)u(píng)估了涵蓋不同計(jì)算預(yù)算的部分預(yù)訓(xùn)練模型，這些模型在參數(shù)量和訓(xùn)練詞元數(shù)量上均有變化（4.1）。
我們的研究包括兩種類(lèi)型的對(duì)抗性任務(wù)（4.2）：(1) 情境性反思，其中對(duì)抗性思維鏈?zhǔn)鞘褂们把啬Ｐ蛷默F(xiàn)有數(shù)據(jù)集中系統(tǒng)生成的；(2) 自我反思，其中對(duì)抗性思維鏈源自模型自身對(duì)原始任務(wù)實(shí)例的先前錯(cuò)誤回答。
我們的評(píng)估還檢驗(yàn)了模型輸出是否展現(xiàn)出顯式的反思性推理（4.3）。
我們?cè)诘?.4節(jié)詳細(xì)說(shuō)明了我們的基礎(chǔ)設(shè)施設(shè)置。

4.1 模型系列

OLMo-2
OLMo-2 [OLMo 等人，2025] 是一個(gè)完全開(kāi)源、開(kāi)放權(quán)重的大語(yǔ)言模型項(xiàng)目，提供了7B、13B和32B參數(shù)變體的訓(xùn)練檢查點(diǎn)。我們總共評(píng)估了40個(gè)檢查點(diǎn)（詳情見(jiàn)附錄B）。我們力求選擇間隔均勻的檢查點(diǎn)，并在無(wú)法獲得時(shí)使用最接近的替代檢查點(diǎn)。

Qwen2.5
我們?cè)u(píng)估了Qwen2.5的0.5B、3B、7B、14B、32B和72B參數(shù)變體 [Qwen 等人，2025]。詳情見(jiàn)附錄B。

4.2 數(shù)據(jù)集
我們?cè)趶V泛的任務(wù)集上評(píng)估反思現(xiàn)象，基于BIG-Bench Hard (BBH) [bench authors, 2023]、CruxEval [Gu 等人，2024]、GSM8K [Cobbe 等人，2021]、GSM8K-Platinum [Vendrow 等人，2025] 和 TriviaQA [Joshi 等人，2017] 創(chuàng)建了六個(gè)對(duì)抗性數(shù)據(jù)集。我們的對(duì)抗性數(shù)據(jù)集概覽見(jiàn)表1和表2。
我們?cè)诹鞒讨欣肈eepSeek-V3（簡(jiǎn)稱(chēng)DS-V3）[DeepSeek-AI, 2025b]、GPT-4o2 [OpenAI, 2024a] 和 SentenceTransformers [Reimers and Gurevych, 2020] 模型，以及多次自動(dòng)檢查和人工審核，以確保我們數(shù)據(jù)集的質(zhì)量和魯棒性。

情境性反思數(shù)據(jù)集：這些數(shù)據(jù)集的創(chuàng)建涉及一個(gè)多步驟流程，我們會(huì)提示大語(yǔ)言模型創(chuàng)建對(duì)抗性思維鏈（另見(jiàn)算法1）。對(duì)于推理任務(wù)，原始任務(wù)可能已將思維鏈作為數(shù)據(jù)集工件包含在內(nèi)；如果沒(méi)有，我們使用前沿模型（如GPT-4o或DS-V3）創(chuàng)建它們。隨后，通過(guò)引入會(huì)導(dǎo)致錯(cuò)誤答案的故意錯(cuò)誤，利用正確的思維鏈來(lái)開(kāi)發(fā)對(duì)抗性思維鏈。此外，最后還會(huì)進(jìn)行檢查，以確保思維鏈不會(huì)透露其誤導(dǎo)意圖。這些流程和提示都經(jīng)過(guò)精心設(shè)計(jì)以最小化錯(cuò)誤，并且是針對(duì)特定數(shù)據(jù)集的，但整體框架可以推廣到任何領(lǐng)域和數(shù)據(jù)集。
自我反思數(shù)據(jù)集：這些數(shù)據(jù)集是通過(guò)執(zhí)行我們想要評(píng)估的大語(yǔ)言模型在基礎(chǔ)任務(wù)上的表現(xiàn)，并收集模型未能答對(duì)的問(wèn)題所對(duì)應(yīng)的思維鏈來(lái)創(chuàng)建的（另見(jiàn)算法2）。由于我們對(duì)模型隨著預(yù)訓(xùn)練進(jìn)程的反思能力感興趣，在自我反思數(shù)據(jù)集中，我們只保留每個(gè)參數(shù)規(guī)模下所有檢查點(diǎn)都回答錯(cuò)誤的問(wèn)題，以確保在預(yù)訓(xùn)練檢查點(diǎn)之間進(jìn)行一致的比較。

關(guān)于我們特定于數(shù)據(jù)集的流程、檢查和過(guò)濾器的詳細(xì)說(shuō)明，請(qǐng)參見(jiàn)附錄F。

4.3 Evaluation 評(píng)估

指標(biāo)
如表3所示，對(duì)于情境性反思和自我反思兩種設(shè)定，準(zhǔn)確率是指模型正確解決的任務(wù)實(shí)例所占的比例。獨(dú)立于準(zhǔn)確率，我們利用顯式反思分類(lèi)器來(lái)衡量顯式反思率，即模型輸出展現(xiàn)顯式反思（無(wú)論正確與否）的任務(wù)實(shí)例所占的比例。我們還報(bào)告了顯式反思準(zhǔn)確率，即模型既正確解決又展現(xiàn)了顯式反思的任務(wù)實(shí)例所占的比例。最后，隱式反思準(zhǔn)確率是指模型輸出正確但未展現(xiàn)顯式反思的任務(wù)實(shí)例所占的比例。關(guān)于每個(gè)數(shù)據(jù)集準(zhǔn)確率指標(biāo)的詳細(xì)信息，請(qǐng)參見(jiàn)附錄H。

此外，對(duì)于每個(gè)數(shù)據(jù)點(diǎn)，我們將預(yù)訓(xùn)練計(jì)算量報(bào)告為 6nt，其中 n 和 t 分別是參數(shù)量和訓(xùn)練詞元數(shù)量。關(guān)于我們訓(xùn)練時(shí)和測(cè)試時(shí)計(jì)算量公式的更多細(xì)節(jié)，請(qǐng)參見(jiàn)第5.4節(jié)。

顯式反思分類(lèi)器
我們開(kāi)發(fā)了一個(gè)基于提示的分類(lèi)器，用于判斷模型輸出是否展現(xiàn)了顯式反思。我們向 DeepSeek-V3 [DeepSeek-AI, 2025b] 提供“反思”的含義描述以及兩到四個(gè)顯式反思示例作為提示。該分類(lèi)器旨在檢測(cè)的顯式反思短語(yǔ)示例見(jiàn)表5。我們根據(jù) GSM8K、cruxeval-o 和 TriviaQA 上的人工標(biāo)注黃金標(biāo)簽（每個(gè)基準(zhǔn)120個(gè)問(wèn)題；標(biāo)注過(guò)程詳見(jiàn)附錄G）對(duì)分類(lèi)器進(jìn)行了驗(yàn)證。盡管我們的分類(lèi)器召回率較低（見(jiàn)表4），但其精確度足夠高，足以驗(yàn)證其有效性。在最壞的情況下，我們會(huì)少報(bào)反思行為，但在報(bào)告時(shí)會(huì)更有信心。

4.4 基礎(chǔ)設(shè)施
我們的實(shí)驗(yàn)設(shè)置使用 vLLM 推理框架 [Kwon 等人，2023] 來(lái)托管 OLMo-2 和 Qwen 模型。我們使用 SGLang [Zheng 等人，2024] 托管 DeepSeek-V3。我們使用一個(gè)由 AMD MI300x 加速器組成的集群，并通過(guò) Kubernetes 將任務(wù)調(diào)度到該集群中。

5 結(jié)果

為了全面衡量跨領(lǐng)域的反思性推理，我們的分類(lèi)器在情境性反思（5.1）和自我反思（5.3）設(shè)定中，分別針對(duì)BBH、cruxeval-i、cruxeval-o、GSM8K、GSM8K-Platinum和TriviaQA數(shù)據(jù)集，區(qū)分了顯式反思和隱式反思。令我們驚訝的是，我們發(fā)現(xiàn)了反思能力的強(qiáng)烈存在，并且這種能力隨著訓(xùn)練計(jì)算量的增加而增強(qiáng)。此外，隨著預(yù)訓(xùn)練的推進(jìn)，模型從混淆因素中恢復(fù)的能力不斷增強(qiáng)，顯式反思的頻率增加，并且顯式反思對(duì)從混淆因素中恢復(fù)的貢獻(xiàn)也越來(lái)越大（示例見(jiàn)表5）。這些結(jié)果突顯了預(yù)訓(xùn)練在發(fā)展反思能力中的作用。

5.1顯性情境反射在所有模型中都很突出

從表6可以看出，令人鼓舞的是，除了cruxeval-i任務(wù)之外，對(duì)于所有其他任務(wù)，每一個(gè)OLMo-2預(yù)訓(xùn)練檢查點(diǎn)都顯示出能夠通過(guò)隱式或顯式方式從情境性混淆因素中恢復(fù)的跡象?。這使得240個(gè)數(shù)據(jù)集-檢查點(diǎn)配對(duì)中，有231個(gè)展示了至少一次情境性反思實(shí)例。然而，為了證實(shí)我們的假設(shè)，即模型逐步發(fā)展并運(yùn)用顯式反思，大多數(shù)恢復(fù)情況應(yīng)歸因于顯式情境性反思。本質(zhì)上，我們期望隨著預(yù)訓(xùn)練計(jì)算量的增加，觀(guān)察到以下現(xiàn)象的頻率增加：(a) 從情境性混淆因素中恢復(fù)，(b) 對(duì)情境性混淆因素進(jìn)行顯式反思，以及 (c) 通過(guò)顯式反思從情境性混淆因素中恢復(fù)。

各項(xiàng)指標(biāo)與預(yù)訓(xùn)練計(jì)算量對(duì)數(shù)之間的高度正皮爾遜相關(guān)性 [Cohen 等人，2009] 證實(shí)了 (a)、(b) 和 (c) 點(diǎn)。我們還觀(guān)察到隱式反思準(zhǔn)確率與預(yù)訓(xùn)練計(jì)算量對(duì)數(shù)之間的相關(guān)性普遍較低?？傊@些結(jié)果強(qiáng)調(diào)，隨著預(yù)訓(xùn)練的增加，模型傾向于成功解決更多的對(duì)抗性實(shí)例，并在此過(guò)程中日益傾向于使用顯式反思。例如，GSM8K-Platinum 在圖3中顯示，隨著預(yù)訓(xùn)練的深入，不同參數(shù)規(guī)模的模型通過(guò)顯式反思錯(cuò)誤解決了大部分任務(wù)實(shí)例。TriviaQA 是一個(gè)例外，其顯著改進(jìn)可歸因于隱式反思，這是因?yàn)樵撊蝿?wù)主要衡量知識(shí)獲取，其中許多實(shí)例可以在沒(méi)有顯式推理的情況下解決。所有六項(xiàng)任務(wù)的詳細(xì)結(jié)果見(jiàn)附錄C。

5.2 無(wú)觸發(fā)詞時(shí)模型也能反思；‘Wait,’增強(qiáng)顯式性和準(zhǔn)確性

為了理解“Wait,”觸發(fā)詞的因果作用，我們研究了在GSM8K-Platinum任務(wù)上，使用兩個(gè)極端觸發(fā)詞設(shè)置時(shí)的模型表現(xiàn)。具體來(lái)說(shuō)，我們研究了無(wú)觸發(fā)詞（ A ）和帶有包含明確承認(rèn)“Wait, I made a mistake”（等等，我犯了個(gè)錯(cuò)）的觸發(fā)詞（ B ）時(shí)的模型表現(xiàn)。我們選擇 A 作為一種將對(duì)抗性思維鏈中錯(cuò)誤的注意力降至最低的模式。相比之下，我們選擇 B 作為一種強(qiáng)調(diào)思維鏈中存在錯(cuò)誤的模式。圖4繪制了這些結(jié)果。

這些結(jié)果首先證實(shí)了我們的假設(shè)：即使沒(méi)有觸發(fā)詞，隨著預(yù)訓(xùn)練的推進(jìn)，模型也能越來(lái)越成功地從情境性混淆因素中恢復(fù)。上文5.1節(jié)結(jié)果中“Wait,”的作用在此處得到進(jìn)一步闡明。我們看到模型在此任務(wù)上的表現(xiàn)受限于 A 和 B 這兩個(gè)極端情況。在情景 A 中，模型通過(guò)隱式反思來(lái)提高準(zhǔn)確率；在情景 B 中，模型則通過(guò)設(shè)計(jì)進(jìn)行顯式反思，從而大幅提升性能。帶有“Wait,”的設(shè)置，在隱式反思時(shí)表現(xiàn)類(lèi)似 A ，在顯式反思時(shí)表現(xiàn)類(lèi)似 B 。有趣的是，如圖4所示，其性能可以分解為：

此外，我們看到性能的顯著提升可歸因于“Wait,”觸發(fā)詞。這是因?yàn)樵撚|發(fā)詞能以隨預(yù)訓(xùn)練增加的比例引發(fā)顯式反思，并且能達(dá)到相應(yīng)的由 B 觸發(fā)的模型所實(shí)現(xiàn)的性能——如上所述，我們選擇 B 作為一種強(qiáng)調(diào)思維鏈中存在錯(cuò)誤的模式。換句話(huà)說(shuō)，當(dāng)模型在帶有“Wait,”的對(duì)抗性思維鏈條件下展現(xiàn)出顯式反思時(shí)，其表現(xiàn)與模型被明確告知思維鏈包含錯(cuò)誤時(shí)的表現(xiàn)相當(dāng)。相反，當(dāng)模型在帶有“Wait,”的對(duì)抗性思維鏈條件下但未展現(xiàn)出顯式反思時(shí)，其表現(xiàn)則與模型僅基于對(duì)抗性思維鏈的模式一致。這確立了“Wait,”通過(guò)引發(fā)顯式反思來(lái)提高準(zhǔn)確率的因果聯(lián)系。

5.3 顯式自我反思更難，但隨著計(jì)算量增加而進(jìn)步

初看之下，表7中自我反思的稀少可能被視為一個(gè)負(fù)面結(jié)果。然而，這可以通過(guò)以下事實(shí)解釋?zhuān)涸诖嗽O(shè)定中，模型被評(píng)估的任務(wù)實(shí)例都是它們之前回答錯(cuò)誤的——因此，根據(jù)設(shè)計(jì)，這些任務(wù)特別困難（見(jiàn)附錄F第2點(diǎn)）。盡管如此，在大約64.2%的任務(wù)嘗試中，模型確實(shí)展現(xiàn)了至少一定的自我修正能力。

為了區(qū)分自我反思和自我修正，我們?cè)趫D5中繪制了模型生成的反思率（與任務(wù)是否解決無(wú)關(guān)）。這些結(jié)果表明一個(gè)強(qiáng)勁趨勢(shì)：隨著預(yù)訓(xùn)練的推進(jìn)，模型在明確指出的自身錯(cuò)誤方面變得更好。對(duì)于cruxeval-i，我們注意到隨著預(yù)訓(xùn)練的增加，模型傾向于學(xué)會(huì)自我修正。然而，它們能夠進(jìn)行自我反思的時(shí)間要早得多。這表明在自我修正能力形成之前，自我反思能力有一個(gè)自然的發(fā)展過(guò)程。

這些自我反思的萌芽如何通過(guò)訓(xùn)練后階段演變?yōu)閺?fù)雜的自主推理能力，是一個(gè)有待未來(lái)工作探討的開(kāi)放性問(wèn)題。我們假設(shè)，必須存在一個(gè)預(yù)訓(xùn)練自我反思能力的臨界閾值，超過(guò)該閾值，模型發(fā)展成測(cè)試時(shí)推理器的可能性將非常高。令我們驚訝的是，從有機(jī)的網(wǎng)絡(luò)數(shù)據(jù)集 [Li 等人，2024] 中學(xué)習(xí)時(shí)，我們竟然觀(guān)察到了如此程度的顯式自我反思。精準(zhǔn)定位在預(yù)訓(xùn)練期間促進(jìn)顯式自我反思的數(shù)據(jù)分布，是我們工作后續(xù)自然的下一步。所有六項(xiàng)任務(wù)的詳細(xì)結(jié)果見(jiàn)附錄D。

5.4 訓(xùn)練時(shí)計(jì)算與測(cè)試時(shí)計(jì)算可以相互權(quán)衡
我們研究了增加訓(xùn)練時(shí)計(jì)算的投入與在測(cè)試時(shí)達(dá)到下游任務(wù)可比準(zhǔn)確率所需相應(yīng)開(kāi)銷(xiāo)之間的權(quán)衡關(guān)系。我們通過(guò)以下方式估算：訓(xùn)練時(shí)計(jì)算量估算為 6nt，其中 n 和 t 分別是參數(shù)量和訓(xùn)練詞元數(shù)量；測(cè)試時(shí)計(jì)算量估算為 2nw，其中 w 表示為解決一定數(shù)量的對(duì)抗性問(wèn)題而生成的詞元數(shù)量?。

我們首先指定一組需要正確回答的對(duì)抗性問(wèn)題的目標(biāo)數(shù)量。然后，為每個(gè)目標(biāo)繪制一條曲線(xiàn)。我們針對(duì)之前介紹的 GSM8K-Platinum 對(duì)抗性數(shù)據(jù)集進(jìn)行此項(xiàng)研究。我們采用一種順序的測(cè)試時(shí)擴(kuò)展方法，即在模型生成內(nèi)容后附加觸發(fā)詞“Wait,”。實(shí)際上，我們引入了兩個(gè)“Wait,”觸發(fā)詞，以使較弱的模型能夠達(dá)到與較強(qiáng)模型相同的指標(biāo)水平。這模仿了 [Muennighoff 等人，2025] 中順序擴(kuò)展測(cè)試時(shí)計(jì)算的方法。

如圖6所示，隨著 OLMo-2-32B 檢查點(diǎn)的訓(xùn)練時(shí)計(jì)算量增加，測(cè)試時(shí)計(jì)算需求減少。這一結(jié)果進(jìn)一步支持了我們的假設(shè)，即隨著預(yù)訓(xùn)練的推進(jìn)，模型的反思能力變得更強(qiáng)，這意味著在達(dá)到給定準(zhǔn)確率水平時(shí)所需的測(cè)試時(shí)計(jì)算量更少。

5.5 在更強(qiáng)的模型系列中是否能觀(guān)察到類(lèi)似結(jié)果？
為了研究這些現(xiàn)象在不同模型系列中的表現(xiàn)，我們?cè)趫D7中報(bào)告了Qwen2.5在我們對(duì)抗性任務(wù)上的結(jié)果。與我們針對(duì)OLMo-2的結(jié)果一致，我們發(fā)現(xiàn)隨著預(yù)訓(xùn)練計(jì)算量的增加——在此情況下即參數(shù)數(shù)量的增加——模型在對(duì)抗性任務(wù)上的表現(xiàn)持續(xù)提升。這再次證明，僅憑預(yù)訓(xùn)練計(jì)算量的增加，模型就能在面對(duì)先前推理中的錯(cuò)誤時(shí)，日益有效地解決任務(wù)。

6 結(jié)論
本研究旨在解答“反思性推理在預(yù)訓(xùn)練期間是如何發(fā)展的？”這一問(wèn)題，這與普遍認(rèn)為反思能力是在訓(xùn)練后通過(guò)強(qiáng)化學(xué)習(xí)涌現(xiàn)的觀(guān)點(diǎn)形成對(duì)比。我們提出并實(shí)施了一個(gè)全面的框架，用以在整個(gè)預(yù)訓(xùn)練階段衡量反思能力。通過(guò)我們構(gòu)建的對(duì)抗性數(shù)據(jù)集，無(wú)論是在情境性反思還是自我反思設(shè)定下，我們都能夠廣泛地校準(zhǔn)這些能力。我們發(fā)現(xiàn)，僅使用極少訓(xùn)練計(jì)算量（例如，使用1980億詞元訓(xùn)練的OLMo-2-7B）的模型，也能在數(shù)學(xué)、代碼、語(yǔ)言理解和邏輯推理領(lǐng)域展現(xiàn)出反思能力。此外，隨著投入預(yù)訓(xùn)練的計(jì)算量增加，這些能力會(huì)進(jìn)一步增強(qiáng)。

原文：https://arxiv.org/pdf/2504.04022

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.