国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

反思預(yù)訓(xùn)練中的再思考

0
分享至

反思預(yù)訓(xùn)練中的再思考

Rethinking Reflection in Pre-Training

https://arxiv.org/pdf/2504.04022


摘要
語(yǔ)言模型對(duì)其自身推理過(guò)程進(jìn)行反思的能力,為解決復(fù)雜問(wèn)題提供了一項(xiàng)關(guān)鍵優(yōu)勢(shì)。盡管近期研究大多聚焦于這種能力在強(qiáng)化學(xué)習(xí)階段如何發(fā)展,但我們的研究表明,它實(shí)際上在更早的階段——即模型的預(yù)訓(xùn)練階段——就已開(kāi)始顯現(xiàn)。為探究此現(xiàn)象,我們有意在思維鏈中引入錯(cuò)誤,并測(cè)試模型是否能通過(guò)識(shí)別并修正這些錯(cuò)誤,最終得出正確答案。通過(guò)追蹤模型在不同預(yù)訓(xùn)練階段的表現(xiàn),我們觀(guān)察到這種自我修正能力出現(xiàn)得較早,并隨著時(shí)間的推移穩(wěn)步提升。例如,一個(gè)經(jīng)過(guò)4萬(wàn)億詞元預(yù)訓(xùn)練的OLMo-2-7B模型,在我們?cè)O(shè)計(jì)的六項(xiàng)自我反思任務(wù)中均展現(xiàn)出了自我修正能力。


1 引言
反思能力增強(qiáng)了模型根據(jù)先前的推理調(diào)整其回答的能力,從而提高了輸出的準(zhǔn)確性。近期研究指出,“諸如反思之類(lèi)的行為……是模型與強(qiáng)化學(xué)習(xí)環(huán)境相互作用的結(jié)果” [DeepSeek-AI, 2025a]。要驗(yàn)證此類(lèi)論斷,需要在整個(gè)訓(xùn)練階段對(duì)能力的發(fā)展進(jìn)行全面的評(píng)估。在這項(xiàng)工作中,我們提出了一個(gè)詳盡的框架來(lái)衡量反思能力,并觀(guān)察到該現(xiàn)象在預(yù)訓(xùn)練階段始終如一地出現(xiàn)。

利用現(xiàn)有的推理數(shù)據(jù)集來(lái)對(duì)反思能力進(jìn)行基準(zhǔn)測(cè)試一直頗具挑戰(zhàn)性 [Mondorf and Plank, 2024]。在這些任務(wù)中,反思行為往往很少見(jiàn),并且每個(gè)模型都表現(xiàn)出不同的錯(cuò)誤模式,從而產(chǎn)生獨(dú)特的反思行為表現(xiàn) [Madaan et al., 2023, Liu et al., 2025]。我們通過(guò)區(qū)分情境性反思和自我反思來(lái)應(yīng)對(duì)這一挑戰(zhàn)。在情境性反思設(shè)定中,模型審視由另一個(gè)來(lái)源(例如,另一個(gè)前沿模型)生成的推理鏈條。在自我反思設(shè)定中,模型則思考其自身的推理過(guò)程。我們通過(guò)衡量模型在遇到導(dǎo)致錯(cuò)誤答案的混淆性推理時(shí)解決問(wèn)題的能力,來(lái)校準(zhǔn)模型的能力,并由此在整個(gè)預(yù)訓(xùn)練過(guò)程中測(cè)量其反思能力。

圖2展示了一個(gè)部分預(yù)訓(xùn)練的OLMo-2檢查點(diǎn) [OLMo et al., 2025] 嘗試解決一項(xiàng)編程任務(wù) [Gu et al., 2024] 的例子。在此案例中,模型被問(wèn)及一個(gè)問(wèn)題:確定導(dǎo)致Python函數(shù)f輸出為‘a(chǎn)vdropj gsd ’的輸入是什么。在其首次嘗試中,這個(gè)擁有320億參數(shù)、經(jīng)過(guò)4.8萬(wàn)億詞元預(yù)訓(xùn)練的模型,直接將輸出‘a(chǎn)dvdropj gsd ’重復(fù)作為了答案。當(dāng)使用其錯(cuò)誤的思考過(guò)程加上后綴“Wait,”進(jìn)行提示后,模型能夠成功地進(jìn)行自我反思,并生成:“我想我可能錯(cuò)了……??的值應(yīng)該是['gsd', 'avdropj']”。


通過(guò)程序化地引入包含算術(shù)擾動(dòng)和邏輯不一致性等元素的錯(cuò)誤思維鏈(CoT),我們能夠控制和擴(kuò)展正確完成這些任務(wù)所需的反思程度。這種方法同時(shí)也保留了既定的CoT格式[Wei等人,2022]。此外,我們的算法方法允許通過(guò)改編現(xiàn)有的推理基準(zhǔn),以相對(duì)快速和經(jīng)濟(jì)的方式創(chuàng)建這些數(shù)據(jù)集,從而得以在跨越多領(lǐng)域的范圍內(nèi)全面研究模型的反思能力。我們構(gòu)建的六個(gè)數(shù)據(jù)集涵蓋了數(shù)學(xué)、編程、邏輯推理和知識(shí)獲取等領(lǐng)域,旨在評(píng)估模型在情境性反思和自我反思兩方面的能力。1

在OLMo-2系列模型的不同預(yù)訓(xùn)練檢查點(diǎn)上,使用我們六個(gè)多樣化數(shù)據(jù)集評(píng)估的結(jié)果表明,反思能力在各個(gè)領(lǐng)域中普遍存在。即使像“Wait,”[Muennighoff等人,2025]這樣簡(jiǎn)單的觸發(fā)短語(yǔ),也能使部分預(yù)訓(xùn)練的模型始終如一地識(shí)別出引入的錯(cuò)誤以及自身生成的錯(cuò)誤。具體來(lái)說(shuō),240個(gè)數(shù)據(jù)集-檢查點(diǎn)配對(duì)中,有231個(gè)展示了至少一次情境性反思實(shí)例,240個(gè)中有154個(gè)展示了至少一次自我反思實(shí)例。隨著預(yù)訓(xùn)練的深入,模型能夠糾正更多的對(duì)抗性示例,導(dǎo)致任務(wù)準(zhǔn)確率與預(yù)訓(xùn)練計(jì)算量對(duì)數(shù)之間的平均皮爾遜相關(guān)系數(shù)達(dá)到0.76。此外,隨著預(yù)訓(xùn)練的推進(jìn),模型從先前錯(cuò)誤推理中恢復(fù)的能力不斷增強(qiáng),模型生成內(nèi)容中顯式反思的頻率增加,并且顯式反思對(duì)從混淆性CoT中恢復(fù)的貢獻(xiàn)也越來(lái)越大。

本文的貢獻(xiàn)主要有三方面:
? 我們引入了一種系統(tǒng)性的方法,創(chuàng)建了涵蓋代碼、知識(shí)獲取、邏輯推理和數(shù)學(xué)領(lǐng)域的六個(gè)數(shù)據(jù)集,用以研究模型的反思能力。
? 我們證明了不同能力水平和訓(xùn)練計(jì)算量的預(yù)訓(xùn)練模型,能夠在廣泛領(lǐng)域內(nèi),通過(guò)使用簡(jiǎn)單的插入語(yǔ),激發(fā)反思能力以糾正先前不準(zhǔn)確的推理。
? 我們觀(guān)察到,持續(xù)改進(jìn)的預(yù)訓(xùn)練能夠帶來(lái)更好的反思能力,使得解決相同數(shù)量任務(wù)所需的測(cè)試時(shí)詞元更少。

2 相關(guān)工作
評(píng)估大語(yǔ)言模型的推理能力自然語(yǔ)言系統(tǒng)的實(shí)際應(yīng)用性取決于其推理能力 [Wos 等人,1992;Schuster 等人,2019;Mondorf 和 Plank,2024]。大語(yǔ)言模型結(jié)合諸如思維鏈 [Wei 等人,2022]、思維樹(shù) [Yao 等人,2023] 和自洽性 [Wang 等人,2023b] 等提示技術(shù),已被成功用于解決各種推理任務(wù) [Kojima 等人,2022;Bubeck 等人,2023]。推理能力通常通過(guò)觀(guān)察模型輸出 [Fu 等人,2023a;Liu 等人,2023]、分析生成軌跡 [Saparov 和 He,2023;Dziri 等人,2023;Willig 等人,2022] 以及交互式參與 [Zhuang 等人,2024;Wang 等人,2023a;Bertolazzi 等人,2023] 來(lái)衡量。先前的研究還通過(guò)對(duì)模型內(nèi)部網(wǎng)絡(luò)進(jìn)行參數(shù)歸因,通過(guò)研究注意力模式 [Hou 等人,2023]、激活流 [Dutta 等人,2024] 和各個(gè)層 [Pirozelli 等人,2024] 來(lái)識(shí)別推理特征。這些方法主要用于評(píng)估訓(xùn)練后模型,而我們的興趣在于診斷技術(shù),以在整個(gè)訓(xùn)練階段引發(fā)推理,其精神類(lèi)似于通過(guò)參數(shù)和訓(xùn)練數(shù)據(jù)規(guī)模來(lái)研究模型性能 [Kaplan 等人,2020]。在這項(xiàng)工作中,我們通過(guò)對(duì)抗性數(shù)據(jù)集評(píng)估反思能力的涌現(xiàn)來(lái)研究推理。這些數(shù)據(jù)集要求模型通過(guò)推理多步提示(其中包含細(xì)微錯(cuò)誤)來(lái)成功完成任務(wù)。

對(duì)大語(yǔ)言模型的對(duì)抗性攻擊長(zhǎng)期以來(lái),對(duì)抗性輸入一直被用來(lái)揭示神經(jīng)網(wǎng)絡(luò)的脆弱性 [Szegedy 等人,2014;Biggio 等人,2013;Huang 等人,2017]。最近,類(lèi)似的技術(shù)已被應(yīng)用于大語(yǔ)言模型,證明了它們易受精心設(shè)計(jì)的提示的攻擊 [Schwinn 等人,2023]。這些攻擊已成功針對(duì)模型的政策對(duì)齊 [Deng 等人,2022;Wei 等人,2023]、安全性 [Schuster 等人,2020;Carlini 等人,2021;Kang 等人,2024] 和魯棒性 [Zou 等人,2023;Shen 等人,2024;Xu 等人,2024],突顯了巨大的漏洞。已有幾種方法提出使用對(duì)抗性訓(xùn)練來(lái)改進(jìn)模型對(duì)此類(lèi)攻擊的防御 [Zhu 等人,2019;Jiang 等人,2020;

Xhonneux 等人,2024]。然而,我們工作的主要目的不是展示模型對(duì)對(duì)抗性攻擊的脆弱性,而是強(qiáng)調(diào)如何利用此類(lèi)數(shù)據(jù)集來(lái)持續(xù)且全面地評(píng)估其推理能力。我們通過(guò)引入思維鏈 [Kojima 等人,2022] 來(lái)實(shí)現(xiàn)這一點(diǎn),其中步驟 [Lightman 等人,2023] 大部分正確,但包含需要反思的錯(cuò)誤 [Lightman 等人,2023;Fu 等人,2023b]。

訓(xùn)練時(shí)與測(cè)試時(shí)的權(quán)衡在先進(jìn)推理模型中,例如 OpenAI 的 o1 [OpenAI, 2024b] 和 DeepSeek-R1 [DeepSeek-AI, 2025a],對(duì)測(cè)試時(shí)計(jì)算的依賴(lài)日益增加,這重新引發(fā)了關(guān)于計(jì)算資源最優(yōu)分配的討論 [Kaplan 等人,2020;Hoffmann 等人,2022]。先前的工作研究了訓(xùn)練時(shí)計(jì)算與測(cè)試時(shí)計(jì)算之間的權(quán)衡 [Snell 等人,2024],以及監(jiān)督微調(diào) [Li 等人,2025;Chen 等人,2025] 和強(qiáng)化學(xué)習(xí) [DeepSeek-AI, 2025a;Wang 等人,2024] 等訓(xùn)練后技術(shù)對(duì)推理性能的影響 [Liu 等人,2025]。推理時(shí)范式——如樹(shù)搜索 [Yao 等人,2023]、思維鏈提示 [Wei 等人,2022] 和預(yù)算強(qiáng)制 [Muennighoff 等人,2025]——與模型的預(yù)訓(xùn)練表示相互作用 [Yeo 等人,2025;Ruis 等人,2025;Gandhi 等人,2025]。然而,在我們的工作中,我們提供了一個(gè)互補(bǔ)的視角,證明某些推理能力可以在預(yù)訓(xùn)練階段本身逐漸涌現(xiàn),即使在沒(méi)有微調(diào)、強(qiáng)化學(xué)習(xí)或?qū)iT(mén)的測(cè)試時(shí)推理技術(shù)的情況下也是如此。我們的發(fā)現(xiàn)表明,推理的關(guān)鍵方面可以?xún)H通過(guò)預(yù)訓(xùn)練來(lái)灌輸,這可能會(huì)改變訓(xùn)練和推理過(guò)程中計(jì)算最優(yōu)使用的考量。

3 方法
我們的目標(biāo)是全面且大規(guī)模地衡量反思能力。為此,我們首先給出反思的定義(3.1),然后通過(guò)程序化方式創(chuàng)建任務(wù)來(lái)引發(fā)反思(3.2),并最終嚴(yán)謹(jǐn)?shù)睾饬糠此嫉拇嬖冢?.3)。

3.1 定義反思
反思是元認(rèn)知的一種形式,涉及審視信息、評(píng)估其背后的推理,并基于該評(píng)估調(diào)整后續(xù)行為。在語(yǔ)言模型的語(yǔ)境中,此過(guò)程可應(yīng)用于源自外部或由模型自身生成的信息。在本工作中,我們創(chuàng)設(shè)了兩種情境來(lái)引發(fā)和衡量反思:

  • 情境性反思:指模型對(duì)由另一來(lái)源(如另一個(gè)模型)創(chuàng)建的信息進(jìn)行反思。

  • 自我反思:指模型對(duì)其自身生成的輸出進(jìn)行反思。
    我們還通過(guò)兩種形式來(lái)全面描述反思的特征:

  • 顯式反思:指模型生成的詞元在語(yǔ)義上識(shí)別并處理了對(duì)抗性語(yǔ)境中的錯(cuò)誤。顯式反思可能出現(xiàn)在正確的模型輸出中(即,那些對(duì)我們對(duì)抗性任務(wù)給出正確答案的輸出),也可能出現(xiàn)在錯(cuò)誤的模型輸出中。

  • 隱式反思:指模型在處理對(duì)抗性語(yǔ)境時(shí),能夠正確解決任務(wù),但并未生成明確識(shí)別先前推理中存在錯(cuò)誤的詞元。根據(jù)我們的定義,這意味著隱式反思的結(jié)果不可能是對(duì)我們對(duì)抗性任務(wù)的錯(cuò)誤答案。這使我們能夠區(qū)分以下兩種情況:一種是未出現(xiàn)顯式反思但可推斷發(fā)生了隱式反思的情況;另一種則是根本未發(fā)生任何反思的情況。

3.2 使用對(duì)抗性反思數(shù)據(jù)集引發(fā)反思
我們提出了一種算法,用于生成能夠引發(fā)語(yǔ)言模型反思行為的對(duì)抗性數(shù)據(jù)集。該算法創(chuàng)建會(huì)導(dǎo)致錯(cuò)誤解決方案的對(duì)抗性思維鏈(CoT)。與自我反思(我們可以利用模型自身的錯(cuò)誤)不同,對(duì)于情境性反思,我們必須設(shè)計(jì)人工的對(duì)抗性CoT。在高層面上,這些對(duì)抗性CoT是通過(guò)以模仿人類(lèi)推理錯(cuò)誤(如邏輯失誤和算術(shù)計(jì)算錯(cuò)誤)的方式破壞正確的CoT而創(chuàng)建的。在這兩種情況下,當(dāng)我們?cè)谏舷挛闹刑峁┻@些CoT時(shí),模型必須反思其中的錯(cuò)誤并加以修正,才能得出正確的解決方案。我們相信,這些設(shè)定對(duì)于全面研究反思能力是必要的。
任務(wù)設(shè)計(jì)包括附加一個(gè)觸發(fā)詞元,例如“Wait,”,以促進(jìn)在整個(gè)任務(wù)解決過(guò)程中進(jìn)行持續(xù)的推理。
該算法有兩個(gè)變體。算法1和算法2分別用于創(chuàng)建情境性反思數(shù)據(jù)集和自我反思數(shù)據(jù)集。


3.3 衡量反思
我們基于先前對(duì)反思的分類(lèi)(見(jiàn)3.1),提出了一種使用對(duì)抗性數(shù)據(jù)集來(lái)自動(dòng)衡量模型反思能力的方法:

  • 衡量顯式反思:為了識(shí)別顯式反思的實(shí)例,我們開(kāi)發(fā)了一個(gè)基于提示的大語(yǔ)言模型分類(lèi)器。該分類(lèi)器用于檢測(cè)模型的輸出是否在給定的對(duì)抗性語(yǔ)境中明確承認(rèn)并處理了錯(cuò)誤,無(wú)論模型最終是否得出了正確答案。該分類(lèi)器將在下文4.3節(jié)中描述。

  • 衡量隱式反思:我們規(guī)定,在存在對(duì)抗性語(yǔ)境的情況下,所有導(dǎo)致正確答案的模型生成內(nèi)容都可歸因于反思,即使輸出中沒(méi)有生成任何與反思相關(guān)的詞元。我們認(rèn)為,這符合描述人類(lèi)元認(rèn)知時(shí)對(duì)“反思”的日常理解。我們這種方法的一個(gè)含義是,根據(jù)設(shè)計(jì),那些產(chǎn)生了正確答案但未被顯式分類(lèi)器識(shí)別出的生成內(nèi)容,將被歸類(lèi)為隱式反思的實(shí)例。

關(guān)于我們使用的具體反思指標(biāo)的更多細(xì)節(jié),請(qǐng)參見(jiàn)第4.3節(jié)。

4 實(shí)驗(yàn)設(shè)置
為了全面研究反思能力,我們?cè)u(píng)估了涵蓋不同計(jì)算預(yù)算的部分預(yù)訓(xùn)練模型,這些模型在參數(shù)量和訓(xùn)練詞元數(shù)量上均有變化(4.1)。
我們的研究包括兩種類(lèi)型的對(duì)抗性任務(wù)(4.2):(1) 情境性反思,其中對(duì)抗性思維鏈?zhǔn)鞘褂们把啬P蛷默F(xiàn)有數(shù)據(jù)集中系統(tǒng)生成的;(2) 自我反思,其中對(duì)抗性思維鏈源自模型自身對(duì)原始任務(wù)實(shí)例的先前錯(cuò)誤回答。
我們的評(píng)估還檢驗(yàn)了模型輸出是否展現(xiàn)出顯式的反思性推理(4.3)。
我們?cè)诘?.4節(jié)詳細(xì)說(shuō)明了我們的基礎(chǔ)設(shè)施設(shè)置。

4.1 模型系列

  • OLMo-2
    OLMo-2 [OLMo 等人,2025] 是一個(gè)完全開(kāi)源、開(kāi)放權(quán)重的大語(yǔ)言模型項(xiàng)目,提供了7B、13B和32B參數(shù)變體的訓(xùn)練檢查點(diǎn)。我們總共評(píng)估了40個(gè)檢查點(diǎn)(詳情見(jiàn)附錄B)。我們力求選擇間隔均勻的檢查點(diǎn),并在無(wú)法獲得時(shí)使用最接近的替代檢查點(diǎn)。

Qwen2.5
我們?cè)u(píng)估了Qwen2.5的0.5B、3B、7B、14B、32B和72B參數(shù)變體 [Qwen 等人,2025]。詳情見(jiàn)附錄B。

4.2 數(shù)據(jù)集
我們?cè)趶V泛的任務(wù)集上評(píng)估反思現(xiàn)象,基于BIG-Bench Hard (BBH) [bench authors, 2023]、CruxEval [Gu 等人,2024]、GSM8K [Cobbe 等人,2021]、GSM8K-Platinum [Vendrow 等人,2025] 和 TriviaQA [Joshi 等人,2017] 創(chuàng)建了六個(gè)對(duì)抗性數(shù)據(jù)集。我們的對(duì)抗性數(shù)據(jù)集概覽見(jiàn)表1和表2。
我們?cè)诹鞒讨欣肈eepSeek-V3(簡(jiǎn)稱(chēng)DS-V3)[DeepSeek-AI, 2025b]、GPT-4o2 [OpenAI, 2024a] 和 SentenceTransformers [Reimers and Gurevych, 2020] 模型,以及多次自動(dòng)檢查和人工審核,以確保我們數(shù)據(jù)集的質(zhì)量和魯棒性。

  • 情境性反思數(shù)據(jù)集:這些數(shù)據(jù)集的創(chuàng)建涉及一個(gè)多步驟流程,我們會(huì)提示大語(yǔ)言模型創(chuàng)建對(duì)抗性思維鏈(另見(jiàn)算法1)。對(duì)于推理任務(wù),原始任務(wù)可能已將思維鏈作為數(shù)據(jù)集工件包含在內(nèi);如果沒(méi)有,我們使用前沿模型(如GPT-4o或DS-V3)創(chuàng)建它們。隨后,通過(guò)引入會(huì)導(dǎo)致錯(cuò)誤答案的故意錯(cuò)誤,利用正確的思維鏈來(lái)開(kāi)發(fā)對(duì)抗性思維鏈。此外,最后還會(huì)進(jìn)行檢查,以確保思維鏈不會(huì)透露其誤導(dǎo)意圖。這些流程和提示都經(jīng)過(guò)精心設(shè)計(jì)以最小化錯(cuò)誤,并且是針對(duì)特定數(shù)據(jù)集的,但整體框架可以推廣到任何領(lǐng)域和數(shù)據(jù)集。

  • 自我反思數(shù)據(jù)集:這些數(shù)據(jù)集是通過(guò)執(zhí)行我們想要評(píng)估的大語(yǔ)言模型在基礎(chǔ)任務(wù)上的表現(xiàn),并收集模型未能答對(duì)的問(wèn)題所對(duì)應(yīng)的思維鏈來(lái)創(chuàng)建的(另見(jiàn)算法2)。由于我們對(duì)模型隨著預(yù)訓(xùn)練進(jìn)程的反思能力感興趣,在自我反思數(shù)據(jù)集中,我們只保留每個(gè)參數(shù)規(guī)模下所有檢查點(diǎn)都回答錯(cuò)誤的問(wèn)題,以確保在預(yù)訓(xùn)練檢查點(diǎn)之間進(jìn)行一致的比較。

關(guān)于我們特定于數(shù)據(jù)集的流程、檢查和過(guò)濾器的詳細(xì)說(shuō)明,請(qǐng)參見(jiàn)附錄F。


4.3 Evaluation 評(píng)估

指標(biāo)
如表3所示,對(duì)于情境性反思和自我反思兩種設(shè)定,準(zhǔn)確率是指模型正確解決的任務(wù)實(shí)例所占的比例。獨(dú)立于準(zhǔn)確率,我們利用顯式反思分類(lèi)器來(lái)衡量顯式反思率,即模型輸出展現(xiàn)顯式反思(無(wú)論正確與否)的任務(wù)實(shí)例所占的比例。我們還報(bào)告了顯式反思準(zhǔn)確率,即模型既正確解決又展現(xiàn)了顯式反思的任務(wù)實(shí)例所占的比例。最后,隱式反思準(zhǔn)確率是指模型輸出正確但未展現(xiàn)顯式反思的任務(wù)實(shí)例所占的比例。關(guān)于每個(gè)數(shù)據(jù)集準(zhǔn)確率指標(biāo)的詳細(xì)信息,請(qǐng)參見(jiàn)附錄H。


此外,對(duì)于每個(gè)數(shù)據(jù)點(diǎn),我們將預(yù)訓(xùn)練計(jì)算量報(bào)告為 6nt,其中 n 和 t 分別是參數(shù)量和訓(xùn)練詞元數(shù)量。關(guān)于我們訓(xùn)練時(shí)和測(cè)試時(shí)計(jì)算量公式的更多細(xì)節(jié),請(qǐng)參見(jiàn)第5.4節(jié)。

顯式反思分類(lèi)器
我們開(kāi)發(fā)了一個(gè)基于提示的分類(lèi)器,用于判斷模型輸出是否展現(xiàn)了顯式反思。我們向 DeepSeek-V3 [DeepSeek-AI, 2025b] 提供“反思”的含義描述以及兩到四個(gè)顯式反思示例作為提示。該分類(lèi)器旨在檢測(cè)的顯式反思短語(yǔ)示例見(jiàn)表5。我們根據(jù) GSM8K、cruxeval-o 和 TriviaQA 上的人工標(biāo)注黃金標(biāo)簽(每個(gè)基準(zhǔn)120個(gè)問(wèn)題;標(biāo)注過(guò)程詳見(jiàn)附錄G)對(duì)分類(lèi)器進(jìn)行了驗(yàn)證。盡管我們的分類(lèi)器召回率較低(見(jiàn)表4),但其精確度足夠高,足以驗(yàn)證其有效性。在最壞的情況下,我們會(huì)少報(bào)反思行為,但在報(bào)告時(shí)會(huì)更有信心。

4.4 基礎(chǔ)設(shè)施
我們的實(shí)驗(yàn)設(shè)置使用 vLLM 推理框架 [Kwon 等人,2023] 來(lái)托管 OLMo-2 和 Qwen 模型。我們使用 SGLang [Zheng 等人,2024] 托管 DeepSeek-V3。我們使用一個(gè)由 AMD MI300x 加速器組成的集群,并通過(guò) Kubernetes 將任務(wù)調(diào)度到該集群中。

5 結(jié)果

為了全面衡量跨領(lǐng)域的反思性推理,我們的分類(lèi)器在情境性反思(5.1)和自我反思(5.3)設(shè)定中,分別針對(duì)BBH、cruxeval-i、cruxeval-o、GSM8K、GSM8K-Platinum和TriviaQA數(shù)據(jù)集,區(qū)分了顯式反思和隱式反思。令我們驚訝的是,我們發(fā)現(xiàn)了反思能力的強(qiáng)烈存在,并且這種能力隨著訓(xùn)練計(jì)算量的增加而增強(qiáng)。此外,隨著預(yù)訓(xùn)練的推進(jìn),模型從混淆因素中恢復(fù)的能力不斷增強(qiáng),顯式反思的頻率增加,并且顯式反思對(duì)從混淆因素中恢復(fù)的貢獻(xiàn)也越來(lái)越大(示例見(jiàn)表5)。這些結(jié)果突顯了預(yù)訓(xùn)練在發(fā)展反思能力中的作用。


5.1顯性情境反射在所有模型中都很突出

從表6可以看出,令人鼓舞的是,除了cruxeval-i任務(wù)之外,對(duì)于所有其他任務(wù),每一個(gè)OLMo-2預(yù)訓(xùn)練檢查點(diǎn)都顯示出能夠通過(guò)隱式或顯式方式從情境性混淆因素中恢復(fù)的跡象?。這使得240個(gè)數(shù)據(jù)集-檢查點(diǎn)配對(duì)中,有231個(gè)展示了至少一次情境性反思實(shí)例。然而,為了證實(shí)我們的假設(shè),即模型逐步發(fā)展并運(yùn)用顯式反思,大多數(shù)恢復(fù)情況應(yīng)歸因于顯式情境性反思。本質(zhì)上,我們期望隨著預(yù)訓(xùn)練計(jì)算量的增加,觀(guān)察到以下現(xiàn)象的頻率增加:(a) 從情境性混淆因素中恢復(fù),(b) 對(duì)情境性混淆因素進(jìn)行顯式反思,以及 (c) 通過(guò)顯式反思從情境性混淆因素中恢復(fù)。


各項(xiàng)指標(biāo)與預(yù)訓(xùn)練計(jì)算量對(duì)數(shù)之間的高度正皮爾遜相關(guān)性 [Cohen 等人,2009] 證實(shí)了 (a)、(b) 和 (c) 點(diǎn)。我們還觀(guān)察到隱式反思準(zhǔn)確率與預(yù)訓(xùn)練計(jì)算量對(duì)數(shù)之間的相關(guān)性普遍較低??傊@些結(jié)果強(qiáng)調(diào),隨著預(yù)訓(xùn)練的增加,模型傾向于成功解決更多的對(duì)抗性實(shí)例,并在此過(guò)程中日益傾向于使用顯式反思。例如,GSM8K-Platinum 在圖3中顯示,隨著預(yù)訓(xùn)練的深入,不同參數(shù)規(guī)模的模型通過(guò)顯式反思錯(cuò)誤解決了大部分任務(wù)實(shí)例。TriviaQA 是一個(gè)例外,其顯著改進(jìn)可歸因于隱式反思,這是因?yàn)樵撊蝿?wù)主要衡量知識(shí)獲取,其中許多實(shí)例可以在沒(méi)有顯式推理的情況下解決。所有六項(xiàng)任務(wù)的詳細(xì)結(jié)果見(jiàn)附錄C。


5.2 無(wú)觸發(fā)詞時(shí)模型也能反思;‘Wait,’增強(qiáng)顯式性和準(zhǔn)確性

為了理解“Wait,”觸發(fā)詞的因果作用,我們研究了在GSM8K-Platinum任務(wù)上,使用兩個(gè)極端觸發(fā)詞設(shè)置時(shí)的模型表現(xiàn)。具體來(lái)說(shuō),我們研究了無(wú)觸發(fā)詞( A )和帶有包含明確承認(rèn)“Wait, I made a mistake”(等等,我犯了個(gè)錯(cuò))的觸發(fā)詞( B )時(shí)的模型表現(xiàn)。我們選擇 A 作為一種將對(duì)抗性思維鏈中錯(cuò)誤的注意力降至最低的模式。相比之下,我們選擇 B 作為一種強(qiáng)調(diào)思維鏈中存在錯(cuò)誤的模式。圖4繪制了這些結(jié)果。


這些結(jié)果首先證實(shí)了我們的假設(shè):即使沒(méi)有觸發(fā)詞,隨著預(yù)訓(xùn)練的推進(jìn),模型也能越來(lái)越成功地從情境性混淆因素中恢復(fù)。上文5.1節(jié)結(jié)果中“Wait,”的作用在此處得到進(jìn)一步闡明。我們看到模型在此任務(wù)上的表現(xiàn)受限于 A 和 B 這兩個(gè)極端情況。在情景 A 中,模型通過(guò)隱式反思來(lái)提高準(zhǔn)確率;在情景 B 中,模型則通過(guò)設(shè)計(jì)進(jìn)行顯式反思,從而大幅提升性能。帶有“Wait,”的設(shè)置,在隱式反思時(shí)表現(xiàn)類(lèi)似 A ,在顯式反思時(shí)表現(xiàn)類(lèi)似 B 。有趣的是,如圖4所示,其性能可以分解為:


此外,我們看到性能的顯著提升可歸因于“Wait,”觸發(fā)詞。這是因?yàn)樵撚|發(fā)詞能以隨預(yù)訓(xùn)練增加的比例引發(fā)顯式反思,并且能達(dá)到相應(yīng)的由 B 觸發(fā)的模型所實(shí)現(xiàn)的性能——如上所述,我們選擇 B 作為一種強(qiáng)調(diào)思維鏈中存在錯(cuò)誤的模式。換句話(huà)說(shuō),當(dāng)模型在帶有“Wait,”的對(duì)抗性思維鏈條件下展現(xiàn)出顯式反思時(shí),其表現(xiàn)與模型被明確告知思維鏈包含錯(cuò)誤時(shí)的表現(xiàn)相當(dāng)。相反,當(dāng)模型在帶有“Wait,”的對(duì)抗性思維鏈條件下但未展現(xiàn)出顯式反思時(shí),其表現(xiàn)則與模型僅基于對(duì)抗性思維鏈的模式一致。這確立了“Wait,”通過(guò)引發(fā)顯式反思來(lái)提高準(zhǔn)確率的因果聯(lián)系。

5.3 顯式自我反思更難,但隨著計(jì)算量增加而進(jìn)步

初看之下,表7中自我反思的稀少可能被視為一個(gè)負(fù)面結(jié)果。然而,這可以通過(guò)以下事實(shí)解釋?zhuān)涸诖嗽O(shè)定中,模型被評(píng)估的任務(wù)實(shí)例都是它們之前回答錯(cuò)誤的——因此,根據(jù)設(shè)計(jì),這些任務(wù)特別困難(見(jiàn)附錄F第2點(diǎn))。盡管如此,在大約64.2%的任務(wù)嘗試中,模型確實(shí)展現(xiàn)了至少一定的自我修正能力。

為了區(qū)分自我反思和自我修正,我們?cè)趫D5中繪制了模型生成的反思率(與任務(wù)是否解決無(wú)關(guān))。這些結(jié)果表明一個(gè)強(qiáng)勁趨勢(shì):隨著預(yù)訓(xùn)練的推進(jìn),模型在明確指出的自身錯(cuò)誤方面變得更好。對(duì)于cruxeval-i,我們注意到隨著預(yù)訓(xùn)練的增加,模型傾向于學(xué)會(huì)自我修正。然而,它們能夠進(jìn)行自我反思的時(shí)間要早得多。這表明在自我修正能力形成之前,自我反思能力有一個(gè)自然的發(fā)展過(guò)程。


這些自我反思的萌芽如何通過(guò)訓(xùn)練后階段演變?yōu)閺?fù)雜的自主推理能力,是一個(gè)有待未來(lái)工作探討的開(kāi)放性問(wèn)題。我們假設(shè),必須存在一個(gè)預(yù)訓(xùn)練自我反思能力的臨界閾值,超過(guò)該閾值,模型發(fā)展成測(cè)試時(shí)推理器的可能性將非常高。令我們驚訝的是,從有機(jī)的網(wǎng)絡(luò)數(shù)據(jù)集 [Li 等人,2024] 中學(xué)習(xí)時(shí),我們竟然觀(guān)察到了如此程度的顯式自我反思。精準(zhǔn)定位在預(yù)訓(xùn)練期間促進(jìn)顯式自我反思的數(shù)據(jù)分布,是我們工作后續(xù)自然的下一步。所有六項(xiàng)任務(wù)的詳細(xì)結(jié)果見(jiàn)附錄D。

5.4 訓(xùn)練時(shí)計(jì)算與測(cè)試時(shí)計(jì)算可以相互權(quán)衡
我們研究了增加訓(xùn)練時(shí)計(jì)算的投入與在測(cè)試時(shí)達(dá)到下游任務(wù)可比準(zhǔn)確率所需相應(yīng)開(kāi)銷(xiāo)之間的權(quán)衡關(guān)系。我們通過(guò)以下方式估算:訓(xùn)練時(shí)計(jì)算量估算為 6nt,其中 n 和 t 分別是參數(shù)量和訓(xùn)練詞元數(shù)量;測(cè)試時(shí)計(jì)算量估算為 2nw,其中 w 表示為解決一定數(shù)量的對(duì)抗性問(wèn)題而生成的詞元數(shù)量?。

我們首先指定一組需要正確回答的對(duì)抗性問(wèn)題的目標(biāo)數(shù)量。然后,為每個(gè)目標(biāo)繪制一條曲線(xiàn)。我們針對(duì)之前介紹的 GSM8K-Platinum 對(duì)抗性數(shù)據(jù)集進(jìn)行此項(xiàng)研究。我們采用一種順序的測(cè)試時(shí)擴(kuò)展方法,即在模型生成內(nèi)容后附加觸發(fā)詞“Wait,”。實(shí)際上,我們引入了兩個(gè)“Wait,”觸發(fā)詞,以使較弱的模型能夠達(dá)到與較強(qiáng)模型相同的指標(biāo)水平。這模仿了 [Muennighoff 等人,2025] 中順序擴(kuò)展測(cè)試時(shí)計(jì)算的方法。

如圖6所示,隨著 OLMo-2-32B 檢查點(diǎn)的訓(xùn)練時(shí)計(jì)算量增加,測(cè)試時(shí)計(jì)算需求減少。這一結(jié)果進(jìn)一步支持了我們的假設(shè),即隨著預(yù)訓(xùn)練的推進(jìn),模型的反思能力變得更強(qiáng),這意味著在達(dá)到給定準(zhǔn)確率水平時(shí)所需的測(cè)試時(shí)計(jì)算量更少。


5.5 在更強(qiáng)的模型系列中是否能觀(guān)察到類(lèi)似結(jié)果?
為了研究這些現(xiàn)象在不同模型系列中的表現(xiàn),我們?cè)趫D7中報(bào)告了Qwen2.5在我們對(duì)抗性任務(wù)上的結(jié)果。與我們針對(duì)OLMo-2的結(jié)果一致,我們發(fā)現(xiàn)隨著預(yù)訓(xùn)練計(jì)算量的增加——在此情況下即參數(shù)數(shù)量的增加——模型在對(duì)抗性任務(wù)上的表現(xiàn)持續(xù)提升。這再次證明,僅憑預(yù)訓(xùn)練計(jì)算量的增加,模型就能在面對(duì)先前推理中的錯(cuò)誤時(shí),日益有效地解決任務(wù)。


6 結(jié)論
本研究旨在解答“反思性推理在預(yù)訓(xùn)練期間是如何發(fā)展的?”這一問(wèn)題,這與普遍認(rèn)為反思能力是在訓(xùn)練后通過(guò)強(qiáng)化學(xué)習(xí)涌現(xiàn)的觀(guān)點(diǎn)形成對(duì)比。我們提出并實(shí)施了一個(gè)全面的框架,用以在整個(gè)預(yù)訓(xùn)練階段衡量反思能力。通過(guò)我們構(gòu)建的對(duì)抗性數(shù)據(jù)集,無(wú)論是在情境性反思還是自我反思設(shè)定下,我們都能夠廣泛地校準(zhǔn)這些能力。我們發(fā)現(xiàn),僅使用極少訓(xùn)練計(jì)算量(例如,使用1980億詞元訓(xùn)練的OLMo-2-7B)的模型,也能在數(shù)學(xué)、代碼、語(yǔ)言理解和邏輯推理領(lǐng)域展現(xiàn)出反思能力。此外,隨著投入預(yù)訓(xùn)練的計(jì)算量增加,這些能力會(huì)進(jìn)一步增強(qiáng)。

原文:https://arxiv.org/pdf/2504.04022

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
25歲“天后”單依純終于走到今天這步,李健6年前的預(yù)言應(yīng)驗(yàn)了!

25歲“天后”單依純終于走到今天這步,李健6年前的預(yù)言應(yīng)驗(yàn)了!

八卦南風(fēng)
2026-03-30 10:40:29
重磅!我國(guó)臺(tái)辦正式宣布,鄭麗文訪(fǎng)問(wèn)大陸行程確定,盧秀燕不裝了

重磅!我國(guó)臺(tái)辦正式宣布,鄭麗文訪(fǎng)問(wèn)大陸行程確定,盧秀燕不裝了

DS北風(fēng)
2026-03-30 11:58:08
賈躍亭曬喜訊:兒子圓夢(mèng)斯坦福大學(xué)研究生 為他驕傲

賈躍亭曬喜訊:兒子圓夢(mèng)斯坦福大學(xué)研究生 為他驕傲

快科技
2026-03-30 09:40:20
周杰倫: 鬼火少年老了

周杰倫: 鬼火少年老了

爆角追蹤
2026-03-29 21:26:58
楊瀚森復(fù)出6+4+1帽吃生涯首T!開(kāi)拓者3人20+大勝奇才 阿夫20+7

楊瀚森復(fù)出6+4+1帽吃生涯首T!開(kāi)拓者3人20+大勝奇才 阿夫20+7

醉臥浮生
2026-03-30 08:30:08
比亞迪:比利潤(rùn)下滑19%更可怕的,是裁員10萬(wàn)人

比亞迪:比利潤(rùn)下滑19%更可怕的,是裁員10萬(wàn)人

詩(shī)與星空
2026-03-30 08:00:11
重慶一高校多名貧困生兼職送外賣(mài)被處分,最新進(jìn)展:校方中止處分流程,未實(shí)際處罰

重慶一高校多名貧困生兼職送外賣(mài)被處分,最新進(jìn)展:校方中止處分流程,未實(shí)際處罰

湖南法治報(bào)
2026-03-30 14:47:57
重磅!我國(guó)臺(tái)辦正式宣布,鄭麗文訪(fǎng)問(wèn)大陸行程確定,盧秀燕不裝了

重磅!我國(guó)臺(tái)辦正式宣布,鄭麗文訪(fǎng)問(wèn)大陸行程確定,盧秀燕不裝了

奇思妙想生活家
2026-03-30 13:48:00
2500名美海軍陸戰(zhàn)隊(duì)抵近,德黑蘭為何威脅炸掉自己的“錢(qián)袋子”?

2500名美海軍陸戰(zhàn)隊(duì)抵近,德黑蘭為何威脅炸掉自己的“錢(qián)袋子”?

楓葉君評(píng)
2026-03-30 10:54:48
1斤低至4.9元!豬肉價(jià)格持續(xù)“跳水”,養(yǎng)一頭要虧225元,行業(yè)預(yù)計(jì)下半年回暖

1斤低至4.9元!豬肉價(jià)格持續(xù)“跳水”,養(yǎng)一頭要虧225元,行業(yè)預(yù)計(jì)下半年回暖

紅星資本局
2026-03-29 20:10:11
接陌生電話(huà)不要先出聲

接陌生電話(huà)不要先出聲

大象新聞
2026-03-29 07:29:10
剛送別張雪峰,11歲女兒收到第一張江湖令!

剛送別張雪峰,11歲女兒收到第一張江湖令!

職場(chǎng)火鍋
2026-03-30 15:42:03
全美900萬(wàn)人抗議,ICE代局長(zhǎng)焦慮到兩度入院,伊朗戰(zhàn)事成萬(wàn)斯與魯比奧“試金石”?

全美900萬(wàn)人抗議,ICE代局長(zhǎng)焦慮到兩度入院,伊朗戰(zhàn)事成萬(wàn)斯與魯比奧“試金石”?

紅星新聞
2026-03-30 17:15:13
張雪峰搶救細(xì)節(jié)曝光:副院長(zhǎng)參與搶救,心血管狹窄90%,太可惜

張雪峰搶救細(xì)節(jié)曝光:副院長(zhǎng)參與搶救,心血管狹窄90%,太可惜

談史論天地
2026-03-30 13:43:18
涉嫌嚴(yán)重違紀(jì)違法 趙福增、張秀成接受審查調(diào)查

涉嫌嚴(yán)重違紀(jì)違法 趙福增、張秀成接受審查調(diào)查

中國(guó)網(wǎng)
2026-03-30 15:59:04
偉偉道來(lái)|有奪島作戰(zhàn),才有實(shí)質(zhì)性談判

偉偉道來(lái)|有奪島作戰(zhàn),才有實(shí)質(zhì)性談判

經(jīng)濟(jì)觀(guān)察報(bào)
2026-03-30 11:58:18
單依純的尷尬不在于翻唱,而是無(wú)歌可唱

單依純的尷尬不在于翻唱,而是無(wú)歌可唱

牛角說(shuō)
2026-03-30 12:41:23
山東連續(xù)4天有雨:雷雨或陣雨+7~8級(jí)大風(fēng)來(lái)襲

山東連續(xù)4天有雨:雷雨或陣雨+7~8級(jí)大風(fēng)來(lái)襲

魯中晨報(bào)
2026-03-30 15:46:06
2天2連冠 張雪機(jī)車(chē)讓對(duì)手們集體抱頭:為中國(guó)制造代言 舉國(guó)旗落淚

2天2連冠 張雪機(jī)車(chē)讓對(duì)手們集體抱頭:為中國(guó)制造代言 舉國(guó)旗落淚

風(fēng)過(guò)鄉(xiāng)
2026-03-30 07:52:28
被驅(qū)逐的伊朗大使拒離境后被強(qiáng)行從館內(nèi)拖出,頭部疑被打

被驅(qū)逐的伊朗大使拒離境后被強(qiáng)行從館內(nèi)拖出,頭部疑被打

桂系007
2026-03-30 04:00:12
2026-03-30 18:27:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1313文章數(shù) 18關(guān)注度
往期回顧 全部

教育要聞

26屆高考生“撞大運(yùn)了”!截至目前,今年高考已有4個(gè)好消息!

頭條要聞

尹正發(fā)文恭喜張雪奪冠 張雪:沒(méi)錢(qián)請(qǐng)您做代言人 送臺(tái)車(chē)

頭條要聞

尹正發(fā)文恭喜張雪奪冠 張雪:沒(méi)錢(qián)請(qǐng)您做代言人 送臺(tái)車(chē)

體育要聞

想進(jìn)世界杯,意大利還要過(guò)他這一關(guān)

娛樂(lè)要聞

單依純凌晨發(fā)長(zhǎng)文道歉!李榮浩再回應(yīng)

財(cái)經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨(dú)立行情

科技要聞

一句謊言引發(fā)的硅谷血案

汽車(chē)要聞

理想i9要來(lái)了!外形似小號(hào)MEGA 能沖擊高端純電市場(chǎng)?

態(tài)度原創(chuàng)

教育
數(shù)碼
手機(jī)
公開(kāi)課
軍事航空

教育要聞

五年級(jí)狀元題,求面積,會(huì)的不多

數(shù)碼要聞

雙塔合一,酷凜推出FROZN A620 SLK風(fēng)冷散熱器

手機(jī)要聞

小米澎湃OS 3上新密碼App!自動(dòng)抓取、一鍵填充:跨設(shè)備加密同步

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

第三艘航母出動(dòng)數(shù)千名士兵抵達(dá) 美軍大舉增兵中東戰(zhàn)場(chǎng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版