網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

告別純獎(jiǎng)勵(lì)試錯(cuò)！二次嘗試+反思蒸餾，復(fù)雜任務(wù)提升81%

2026-03-03 13:30:18　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：LRST

【新智元導(dǎo)讀】強(qiáng)化學(xué)習(xí)已經(jīng)成為大模型后訓(xùn)練階段的核心方法之一，但一個(gè)長(zhǎng)期存在的難題始終沒有真正解決：現(xiàn)實(shí)環(huán)境中的反饋往往稀疏且延遲，模型很難從簡(jiǎn)單的獎(jiǎng)勵(lì)信號(hào)中推斷出應(yīng)該如何調(diào)整行為。

從更宏觀的視角來看，大模型的學(xué)習(xí)方式正在經(jīng)歷一條清晰的演進(jìn)路徑。

早期的監(jiān)督微調(diào)（SFT）主要依賴固定示例進(jìn)行模仿學(xué)習(xí)，能夠幫助模型學(xué)習(xí)并復(fù)現(xiàn)示例中的規(guī)律，但這種方法高度依賴人工數(shù)據(jù)，不僅難以覆蓋復(fù)雜環(huán)境中的各種情況，也難以支持模型持續(xù)自我演進(jìn)。

隨后出現(xiàn)的基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）將模型帶入交互環(huán)境，通過獎(jiǎng)勵(lì)信號(hào)進(jìn)行試錯(cuò)優(yōu)化，使模型能夠在動(dòng)態(tài)任務(wù)中逐步改進(jìn)策略。然而，這種方法仍然主要依賴標(biāo)量獎(jiǎng)勵(lì)，模型需要從稀疏或延遲反饋中隱式推斷如何修正行為，往往導(dǎo)致探索效率低、訓(xùn)練過程不穩(wěn)定。

相比之下，人類在面對(duì)復(fù)雜任務(wù)時(shí)往往會(huì)經(jīng)歷一個(gè)「體驗(yàn)—反思—再嘗試」的循環(huán)。個(gè)體在獲得反饋后會(huì)主動(dòng)分析失敗原因，總結(jié)經(jīng)驗(yàn)，并在下一次嘗試中應(yīng)用修正策略，而不是只根據(jù)結(jié)果好壞不斷重復(fù)試錯(cuò)，直到成功。

近日，美國(guó)南加州大學(xué)和賓夕法尼亞大學(xué)的研究團(tuán)隊(duì)聯(lián)合提出了一種新的訓(xùn)練范式——Experiential Reinforcement Learning（ERL），試圖將「經(jīng)驗(yàn)學(xué)習(xí)」的思想引入強(qiáng)化學(xué)習(xí)流程，使模型不再只是通過試錯(cuò)優(yōu)化行為，而能夠進(jìn)行反思并將經(jīng)驗(yàn)內(nèi)化到策略中。

論文鏈接：https://arxiv.org/abs/2602.13949

ERL正是試圖在訓(xùn)練過程中顯式引入這一經(jīng)驗(yàn)學(xué)習(xí)循環(huán)。模型在接收到任務(wù)后首先進(jìn)行一次嘗試，隨后根據(jù)環(huán)境反饋生成自我反思，再基于反思進(jìn)行第二次嘗試，并將成功的行為內(nèi)化進(jìn)基礎(chǔ)策略中。

圖1：ERL通過引入「經(jīng)驗(yàn)—反思—內(nèi)化」循環(huán)，將強(qiáng)化學(xué)習(xí)從單純依賴獎(jiǎng)勵(lì)信號(hào)推進(jìn)到基于經(jīng)驗(yàn)的學(xué)習(xí)方式，相比監(jiān)督微調(diào)和傳統(tǒng)強(qiáng)化學(xué)習(xí)能夠?qū)崿F(xiàn)更直接的行為修正。

從機(jī)制層面來看，傳統(tǒng)強(qiáng)化學(xué)習(xí)主要依賴試錯(cuò)過程和標(biāo)量獎(jiǎng)勵(lì)信號(hào)進(jìn)行優(yōu)化。

在這一過程中，環(huán)境中原本包含的大量反饋信息往往被壓縮為一個(gè)簡(jiǎn)單的獎(jiǎng)勵(lì)數(shù)值，例如成功或失敗，許多能夠幫助理解錯(cuò)誤原因的細(xì)節(jié)難以被利用。

同時(shí)，傳統(tǒng)方法通常缺乏跨回合積累經(jīng)驗(yàn)的機(jī)制，每一次交互都更像是相對(duì)獨(dú)立的探索過程，模型只能通過不斷試錯(cuò)逐步逼近正確策略，這也使得學(xué)習(xí)過程往往效率較低且不夠穩(wěn)定。

相比之下，ERL嘗試直接利用反饋中的信息生成反思，并通過經(jīng)驗(yàn)內(nèi)化機(jī)制將有效策略持續(xù)保留，使行為改進(jìn)能夠在后續(xù)任務(wù)中不斷積累，從而形成更加穩(wěn)定的學(xué)習(xí)過程。

圖2：傳統(tǒng)強(qiáng)化學(xué)習(xí)主要依賴反復(fù)試錯(cuò)進(jìn)行探索，而ERL通過反思機(jī)制對(duì)失敗進(jìn)行分析并修正策略，使行為改進(jìn)能夠持續(xù)積累。

二次嘗試機(jī)制與經(jīng)驗(yàn)內(nèi)化

在ERL框架下，每個(gè)訓(xùn)練回合都包含三個(gè)關(guān)鍵生成步驟：第一次嘗試、反思以及第二次嘗試。

模型首先根據(jù)輸入任務(wù)生成第一次回答并與環(huán)境交互獲得反饋，得到對(duì)應(yīng)的獎(jiǎng)勵(lì)信號(hào)；隨后基于這次嘗試及其反饋生成一段反思，用于總結(jié)可能的改進(jìn)方向；最后模型再根據(jù)反思進(jìn)行第二次嘗試，得到新的結(jié)果和獎(jiǎng)勵(lì)（圖3）。

在訓(xùn)練過程中，這三個(gè)步驟產(chǎn)生的輸出都會(huì)參與常規(guī)的強(qiáng)化學(xué)習(xí)策略更新，但它們對(duì)應(yīng)的獎(jiǎng)勵(lì)來源有所不同。第一、二次嘗試直接使用其與環(huán)境交互得到的獎(jiǎng)勵(lì)信號(hào)；而反思本身的獎(jiǎng)勵(lì)則與第二次嘗試綁定——如果反思能夠幫助產(chǎn)生更好的結(jié)果，它就會(huì)獲得更高的獎(jiǎng)勵(lì)。

這種設(shè)計(jì)本質(zhì)上將「反思是否有效」轉(zhuǎn)化為可學(xué)習(xí)信號(hào)，使模型逐漸學(xué)會(huì)生成更有幫助的反思內(nèi)容。

與此同時(shí)，ERL還引入了一個(gè)額外的「經(jīng)驗(yàn)內(nèi)化」步驟，用于將反思帶來的改進(jìn)轉(zhuǎn)化為模型在推理時(shí)可以直接使用的能力。

具體做法是：當(dāng)?shù)诙螄L試獲得較高獎(jiǎng)勵(lì)時(shí)，訓(xùn)練會(huì)額外加入一個(gè)蒸餾目標(biāo)，讓模型在不提供反思上下文的情況下直接從原始輸入生成改進(jìn)后的答案。

這一過程本質(zhì)上是一種上下文蒸餾（context distillation），其作用是將依賴反思才能得到的行為修正「寫入」基礎(chǔ)策略，使模型在部署時(shí)無需顯式反思也能復(fù)現(xiàn)改進(jìn)效果。

圖3：ERL訓(xùn)練流程示意圖

從整體來看，這一機(jī)制將反思引入強(qiáng)化學(xué)習(xí)軌跡內(nèi)部，使模型能夠在同一回合內(nèi)完成局部行為修正，同時(shí)通過蒸餾將有效經(jīng)驗(yàn)沉淀為長(zhǎng)期能力，從而形成「生成—反思—改進(jìn)—內(nèi)化」的閉環(huán)學(xué)習(xí)過程。

在復(fù)雜環(huán)境中顯著提升性能

論文在三類經(jīng)典任務(wù)上驗(yàn)證了ERL的效果，包括兩個(gè)稀疏獎(jiǎng)勵(lì)環(huán)境Frozen Lake和Sokoban（推箱子），以及多跳問答任務(wù)HotpotQA

需要注意的是，論文中的Frozen Lake和Sokoban環(huán)境并不是傳統(tǒng)語言模型評(píng)測(cè)中常見的文本版本。在許多既有設(shè)置中，模型通常會(huì)被明確告知環(huán)境符號(hào)含義、規(guī)則或任務(wù)結(jié)構(gòu)，而該研究刻意不提供這些先驗(yàn)信息。

模型只能通過與環(huán)境交互獲得觀察結(jié)果和獎(jiǎng)勵(lì)信號(hào)，自行推斷符號(hào)語義、行動(dòng)后果以及任務(wù)目標(biāo)，從而逐步形成策略。

這一設(shè)計(jì)更接近真實(shí)未知環(huán)境，旨在評(píng)估模型在缺乏先驗(yàn)知識(shí)情況下通過經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)和自我改進(jìn)的能力。結(jié)果顯示，ERL在所有任務(wù)上都優(yōu)于傳統(tǒng)RLVR方法（圖4）。

圖4：ERL與RLVR的最終性能對(duì)比

其中，在需要長(zhǎng)時(shí)間規(guī)劃和策略推理的Sokoban環(huán)境中，性能提升最為明顯，最高提升達(dá)到81%。FrozenLake也取得約27%的提升，而在HotpotQA這類反饋相對(duì)更密集、環(huán)境更簡(jiǎn)單的任務(wù)中，提升約為11%。

研究人員指出，這一結(jié)果表明ERL在需要推斷環(huán)境動(dòng)態(tài)和長(zhǎng)期決策的場(chǎng)景中優(yōu)勢(shì)更加突出。

更快收斂的訓(xùn)練動(dòng)態(tài)

從訓(xùn)練曲線來看，ERL在整個(gè)訓(xùn)練過程中都保持了更高的獎(jiǎng)勵(lì)水平，并且在相同訓(xùn)練預(yù)算下整體收斂速度更快，與傳統(tǒng)RLVR方法持續(xù)拉開差距（圖5）。

這一點(diǎn)在稀疏獎(jiǎng)勵(lì)、長(zhǎng)規(guī)劃的環(huán)境中尤為明顯：當(dāng)獎(jiǎng)勵(lì)只在終局給出時(shí)，純粹依賴標(biāo)量獎(jiǎng)勵(lì)的策略梯度更新往往需要大量有效軌跡才能產(chǎn)生穩(wěn)定改進(jìn)，而ERL通過在同一回合內(nèi)引入「失敗—反思—再嘗試」的結(jié)構(gòu)，將一次交互中的反饋信息轉(zhuǎn)化為可執(zhí)行的修正方向。

論文認(rèn)為，反思在訓(xùn)練中提供了一種額外的中間糾錯(cuò)通道，使模型不必完全依賴稀疏的最終獎(jiǎng)勵(lì)去推斷行為改進(jìn)方向，而是能夠在獲得反饋后生成更明確的修正線索，并用于后續(xù)嘗試，使得訓(xùn)練更新更集中在接近成功的軌跡上，減少了在無效策略空間中的探索，從而表現(xiàn)為整體收斂更快且曲線更穩(wěn)定。

圖5：ERL與RLVR的訓(xùn)練效率對(duì)比

消融實(shí)驗(yàn)

記憶與反思步驟對(duì)訓(xùn)練表現(xiàn)的影響

為了更清楚地理解性能提升來自哪些機(jī)制，論文對(duì)ERL的關(guān)鍵組件進(jìn)行了消融分析。

研究分別構(gòu)造了兩個(gè)變體：一是移除結(jié)構(gòu)化反思步驟，模型不再根據(jù)第一次嘗試生成反思，而只是基于已有上下文進(jìn)行再次嘗試；二是移除跨回合記憶機(jī)制，雖然仍然生成反思并用于當(dāng)前回合的改進(jìn)，但這些反思不會(huì)被保存用于后續(xù)任務(wù)。

結(jié)果顯示，當(dāng)移除反思機(jī)制時(shí)，模型性能下降最為明顯（表1）。由于缺少對(duì)失敗原因的結(jié)構(gòu)化總結(jié)，第二次嘗試更接近于簡(jiǎn)單的「再試一次」，難以形成有效糾錯(cuò)，因此整體獎(jiǎng)勵(lì)顯著降低，表明反思是ERL產(chǎn)生即時(shí)改進(jìn)效果的核心來源，它為模型提供了可操作的行為修正線索，使同一回合內(nèi)的嘗試更有針對(duì)性。

相比之下，移除記憶機(jī)制主要影響收斂速度。雖然模型仍然能夠在單個(gè)回合中通過反思實(shí)現(xiàn)改進(jìn)，但由于無法跨任務(wù)積累有效的糾錯(cuò)經(jīng)驗(yàn)，每一次交互都更接近從零開始推斷，導(dǎo)致整體學(xué)習(xí)過程變慢。這說明記憶機(jī)制的作用在于將有效策略持續(xù)保留下來，使改進(jìn)能夠在訓(xùn)練過程中逐步積累，從而形成更加穩(wěn)定的策略提升。

表1：消融實(shí)驗(yàn)的最終表現(xiàn)

從模仿學(xué)習(xí)到經(jīng)驗(yàn)學(xué)習(xí)的范式演進(jìn)

作者將當(dāng)前大模型訓(xùn)練方式概括為一條逐步演進(jìn)的路徑：從監(jiān)督微調(diào)依賴示例模仿，到強(qiáng)化學(xué)習(xí)依賴獎(jiǎng)勵(lì)信號(hào)進(jìn)行優(yōu)化，再到經(jīng)驗(yàn)強(qiáng)化學(xué)習(xí)（ERL）強(qiáng)調(diào)從經(jīng)驗(yàn)中學(xué)習(xí)。

相比前兩者，ERL通過引入反思與內(nèi)化機(jī)制，提供了一種將失敗轉(zhuǎn)化為可利用學(xué)習(xí)信號(hào)的顯式路徑，使模型能夠在交互過程中持續(xù)積累行為修正經(jīng)驗(yàn)。這一視角也與近年來「經(jīng)驗(yàn)數(shù)據(jù)將成為下一代AI主要訓(xùn)練來源」的觀點(diǎn)相呼應(yīng)。

論文指出，ERL展示了一種構(gòu)建經(jīng)驗(yàn)驅(qū)動(dòng)AI系統(tǒng)的可能路徑，通過反思和經(jīng)驗(yàn)內(nèi)化，模型能夠在訓(xùn)練過程中不斷沉淀糾錯(cuò)策略，并在部署時(shí)直接應(yīng)用這些經(jīng)驗(yàn)，而無需額外推理成本。

如果這一方向得到進(jìn)一步驗(yàn)證，它可能成為構(gòu)建長(zhǎng)期自主智能體的重要基礎(chǔ)，使強(qiáng)化學(xué)習(xí)從單純的優(yōu)化方法逐步演變?yōu)楦咏祟悓W(xué)習(xí)過程的訓(xùn)練范式。

結(jié)語

強(qiáng)化學(xué)習(xí)的發(fā)展正在經(jīng)歷一次微妙但重要的轉(zhuǎn)變。從依賴獎(jiǎng)勵(lì)信號(hào)的試錯(cuò)優(yōu)化，到強(qiáng)調(diào)經(jīng)驗(yàn)轉(zhuǎn)化與行為修正，研究者正在嘗試讓模型具備更接近人類的學(xué)習(xí)能力。

經(jīng)驗(yàn)強(qiáng)化學(xué)習(xí)（ERL）所提出的經(jīng)驗(yàn)—反思—內(nèi)化框架，展示了一種將交互過程轉(zhuǎn)化為持續(xù)學(xué)習(xí)能力的可能路徑，也為構(gòu)建能夠長(zhǎng)期自我改進(jìn)的智能體提供了新的思路。

參考資料：

https://arxiv.org/abs/2602.13949

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.