国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

告別純獎(jiǎng)勵(lì)試錯(cuò)!二次嘗試+反思蒸餾,復(fù)雜任務(wù)提升81%

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】強(qiáng)化學(xué)習(xí)已經(jīng)成為大模型后訓(xùn)練階段的核心方法之一,但一個(gè)長(zhǎng)期存在的難題始終沒有真正解決:現(xiàn)實(shí)環(huán)境中的反饋往往稀疏且延遲,模型很難從簡(jiǎn)單的獎(jiǎng)勵(lì)信號(hào)中推斷出應(yīng)該如何調(diào)整行為。

從更宏觀的視角來看,大模型的學(xué)習(xí)方式正在經(jīng)歷一條清晰的演進(jìn)路徑。

早期的監(jiān)督微調(diào)(SFT)主要依賴固定示例進(jìn)行模仿學(xué)習(xí),能夠幫助模型學(xué)習(xí)并復(fù)現(xiàn)示例中的規(guī)律,但這種方法高度依賴人工數(shù)據(jù),不僅難以覆蓋復(fù)雜環(huán)境中的各種情況,也難以支持模型持續(xù)自我演進(jìn)。

隨后出現(xiàn)的基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)將模型帶入交互環(huán)境,通過獎(jiǎng)勵(lì)信號(hào)進(jìn)行試錯(cuò)優(yōu)化,使模型能夠在動(dòng)態(tài)任務(wù)中逐步改進(jìn)策略。然而,這種方法仍然主要依賴標(biāo)量獎(jiǎng)勵(lì),模型需要從稀疏或延遲反饋中隱式推斷如何修正行為,往往導(dǎo)致探索效率低、訓(xùn)練過程不穩(wěn)定。

相比之下,人類在面對(duì)復(fù)雜任務(wù)時(shí)往往會(huì)經(jīng)歷一個(gè)「體驗(yàn)—反思—再嘗試」的循環(huán)。個(gè)體在獲得反饋后會(huì)主動(dòng)分析失敗原因,總結(jié)經(jīng)驗(yàn),并在下一次嘗試中應(yīng)用修正策略,而不是只根據(jù)結(jié)果好壞不斷重復(fù)試錯(cuò),直到成功。

近日,美國(guó)南加州大學(xué)和賓夕法尼亞大學(xué)的研究團(tuán)隊(duì)聯(lián)合提出了一種新的訓(xùn)練范式——Experiential Reinforcement Learning(ERL),試圖將「經(jīng)驗(yàn)學(xué)習(xí)」的思想引入強(qiáng)化學(xué)習(xí)流程,使模型不再只是通過試錯(cuò)優(yōu)化行為,而能夠進(jìn)行反思并將經(jīng)驗(yàn)內(nèi)化到策略中。


論文鏈接:https://arxiv.org/abs/2602.13949

ERL正是試圖在訓(xùn)練過程中顯式引入這一經(jīng)驗(yàn)學(xué)習(xí)循環(huán)。模型在接收到任務(wù)后首先進(jìn)行一次嘗試,隨后根據(jù)環(huán)境反饋生成自我反思,再基于反思進(jìn)行第二次嘗試,并將成功的行為內(nèi)化進(jìn)基礎(chǔ)策略中。


圖1:ERL通過引入「經(jīng)驗(yàn)—反思—內(nèi)化」循環(huán),將強(qiáng)化學(xué)習(xí)從單純依賴獎(jiǎng)勵(lì)信號(hào)推進(jìn)到基于經(jīng)驗(yàn)的學(xué)習(xí)方式,相比監(jiān)督微調(diào)和傳統(tǒng)強(qiáng)化學(xué)習(xí)能夠?qū)崿F(xiàn)更直接的行為修正。

從機(jī)制層面來看,傳統(tǒng)強(qiáng)化學(xué)習(xí)主要依賴試錯(cuò)過程和標(biāo)量獎(jiǎng)勵(lì)信號(hào)進(jìn)行優(yōu)化。

在這一過程中,環(huán)境中原本包含的大量反饋信息往往被壓縮為一個(gè)簡(jiǎn)單的獎(jiǎng)勵(lì)數(shù)值,例如成功或失敗,許多能夠幫助理解錯(cuò)誤原因的細(xì)節(jié)難以被利用。

同時(shí),傳統(tǒng)方法通常缺乏跨回合積累經(jīng)驗(yàn)的機(jī)制,每一次交互都更像是相對(duì)獨(dú)立的探索過程,模型只能通過不斷試錯(cuò)逐步逼近正確策略,這也使得學(xué)習(xí)過程往往效率較低且不夠穩(wěn)定。

相比之下,ERL嘗試直接利用反饋中的信息生成反思,并通過經(jīng)驗(yàn)內(nèi)化機(jī)制將有效策略持續(xù)保留,使行為改進(jìn)能夠在后續(xù)任務(wù)中不斷積累,從而形成更加穩(wěn)定的學(xué)習(xí)過程。


圖2:傳統(tǒng)強(qiáng)化學(xué)習(xí)主要依賴反復(fù)試錯(cuò)進(jìn)行探索,而ERL通過反思機(jī)制對(duì)失敗進(jìn)行分析并修正策略,使行為改進(jìn)能夠持續(xù)積累。

二次嘗試機(jī)制與經(jīng)驗(yàn)內(nèi)化

在ERL框架下,每個(gè)訓(xùn)練回合都包含三個(gè)關(guān)鍵生成步驟:第一次嘗試、反思以及第二次嘗試。

模型首先根據(jù)輸入任務(wù)生成第一次回答并與環(huán)境交互獲得反饋,得到對(duì)應(yīng)的獎(jiǎng)勵(lì)信號(hào);隨后基于這次嘗試及其反饋生成一段反思,用于總結(jié)可能的改進(jìn)方向;最后模型再根據(jù)反思進(jìn)行第二次嘗試,得到新的結(jié)果和獎(jiǎng)勵(lì)(圖3)。

在訓(xùn)練過程中,這三個(gè)步驟產(chǎn)生的輸出都會(huì)參與常規(guī)的強(qiáng)化學(xué)習(xí)策略更新,但它們對(duì)應(yīng)的獎(jiǎng)勵(lì)來源有所不同。第一、二次嘗試直接使用其與環(huán)境交互得到的獎(jiǎng)勵(lì)信號(hào);而反思本身的獎(jiǎng)勵(lì)則與第二次嘗試綁定——如果反思能夠幫助產(chǎn)生更好的結(jié)果,它就會(huì)獲得更高的獎(jiǎng)勵(lì)。

這種設(shè)計(jì)本質(zhì)上將「反思是否有效」轉(zhuǎn)化為可學(xué)習(xí)信號(hào),使模型逐漸學(xué)會(huì)生成更有幫助的反思內(nèi)容。

與此同時(shí),ERL還引入了一個(gè)額外的「經(jīng)驗(yàn)內(nèi)化」步驟,用于將反思帶來的改進(jìn)轉(zhuǎn)化為模型在推理時(shí)可以直接使用的能力。

具體做法是:當(dāng)?shù)诙螄L試獲得較高獎(jiǎng)勵(lì)時(shí),訓(xùn)練會(huì)額外加入一個(gè)蒸餾目標(biāo),讓模型在不提供反思上下文的情況下直接從原始輸入生成改進(jìn)后的答案。

這一過程本質(zhì)上是一種上下文蒸餾(context distillation),其作用是將依賴反思才能得到的行為修正「寫入」基礎(chǔ)策略,使模型在部署時(shí)無需顯式反思也能復(fù)現(xiàn)改進(jìn)效果。


圖3:ERL訓(xùn)練流程示意圖

從整體來看,這一機(jī)制將反思引入強(qiáng)化學(xué)習(xí)軌跡內(nèi)部,使模型能夠在同一回合內(nèi)完成局部行為修正,同時(shí)通過蒸餾將有效經(jīng)驗(yàn)沉淀為長(zhǎng)期能力,從而形成「生成—反思—改進(jìn)—內(nèi)化」的閉環(huán)學(xué)習(xí)過程。

在復(fù)雜環(huán)境中顯著提升性能

論文在三類經(jīng)典任務(wù)上驗(yàn)證了ERL的效果,包括兩個(gè)稀疏獎(jiǎng)勵(lì)環(huán)境Frozen Lake和Sokoban(推箱子),以及多跳問答任務(wù)HotpotQA

需要注意的是,論文中的Frozen Lake和Sokoban環(huán)境并不是傳統(tǒng)語言模型評(píng)測(cè)中常見的文本版本。在許多既有設(shè)置中,模型通常會(huì)被明確告知環(huán)境符號(hào)含義、規(guī)則或任務(wù)結(jié)構(gòu),而該研究刻意不提供這些先驗(yàn)信息。

模型只能通過與環(huán)境交互獲得觀察結(jié)果和獎(jiǎng)勵(lì)信號(hào),自行推斷符號(hào)語義、行動(dòng)后果以及任務(wù)目標(biāo),從而逐步形成策略。

這一設(shè)計(jì)更接近真實(shí)未知環(huán)境,旨在評(píng)估模型在缺乏先驗(yàn)知識(shí)情況下通過經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)和自我改進(jìn)的能力。結(jié)果顯示,ERL在所有任務(wù)上都優(yōu)于傳統(tǒng)RLVR方法(圖4)。


圖4:ERL與RLVR的最終性能對(duì)比

其中,在需要長(zhǎng)時(shí)間規(guī)劃和策略推理的Sokoban環(huán)境中,性能提升最為明顯,最高提升達(dá)到81%。FrozenLake也取得約27%的提升,而在HotpotQA這類反饋相對(duì)更密集、環(huán)境更簡(jiǎn)單的任務(wù)中,提升約為11%。

研究人員指出,這一結(jié)果表明ERL在需要推斷環(huán)境動(dòng)態(tài)和長(zhǎng)期決策的場(chǎng)景中優(yōu)勢(shì)更加突出。

更快收斂的訓(xùn)練動(dòng)態(tài)

從訓(xùn)練曲線來看,ERL在整個(gè)訓(xùn)練過程中都保持了更高的獎(jiǎng)勵(lì)水平,并且在相同訓(xùn)練預(yù)算下整體收斂速度更快,與傳統(tǒng)RLVR方法持續(xù)拉開差距(圖5)。

這一點(diǎn)在稀疏獎(jiǎng)勵(lì)、長(zhǎng)規(guī)劃的環(huán)境中尤為明顯:當(dāng)獎(jiǎng)勵(lì)只在終局給出時(shí),純粹依賴標(biāo)量獎(jiǎng)勵(lì)的策略梯度更新往往需要大量有效軌跡才能產(chǎn)生穩(wěn)定改進(jìn),而ERL通過在同一回合內(nèi)引入「失敗—反思—再嘗試」的結(jié)構(gòu),將一次交互中的反饋信息轉(zhuǎn)化為可執(zhí)行的修正方向。

論文認(rèn)為,反思在訓(xùn)練中提供了一種額外的中間糾錯(cuò)通道,使模型不必完全依賴稀疏的最終獎(jiǎng)勵(lì)去推斷行為改進(jìn)方向,而是能夠在獲得反饋后生成更明確的修正線索,并用于后續(xù)嘗試,使得訓(xùn)練更新更集中在接近成功的軌跡上,減少了在無效策略空間中的探索,從而表現(xiàn)為整體收斂更快且曲線更穩(wěn)定。


圖5:ERL與RLVR的訓(xùn)練效率對(duì)比

消融實(shí)驗(yàn)

記憶與反思步驟對(duì)訓(xùn)練表現(xiàn)的影響

為了更清楚地理解性能提升來自哪些機(jī)制,論文對(duì)ERL的關(guān)鍵組件進(jìn)行了消融分析。

研究分別構(gòu)造了兩個(gè)變體:一是移除結(jié)構(gòu)化反思步驟,模型不再根據(jù)第一次嘗試生成反思,而只是基于已有上下文進(jìn)行再次嘗試;二是移除跨回合記憶機(jī)制,雖然仍然生成反思并用于當(dāng)前回合的改進(jìn),但這些反思不會(huì)被保存用于后續(xù)任務(wù)。

結(jié)果顯示,當(dāng)移除反思機(jī)制時(shí),模型性能下降最為明顯(表1)。由于缺少對(duì)失敗原因的結(jié)構(gòu)化總結(jié),第二次嘗試更接近于簡(jiǎn)單的「再試一次」,難以形成有效糾錯(cuò),因此整體獎(jiǎng)勵(lì)顯著降低,表明反思是ERL產(chǎn)生即時(shí)改進(jìn)效果的核心來源,它為模型提供了可操作的行為修正線索,使同一回合內(nèi)的嘗試更有針對(duì)性。

相比之下,移除記憶機(jī)制主要影響收斂速度。雖然模型仍然能夠在單個(gè)回合中通過反思實(shí)現(xiàn)改進(jìn),但由于無法跨任務(wù)積累有效的糾錯(cuò)經(jīng)驗(yàn),每一次交互都更接近從零開始推斷,導(dǎo)致整體學(xué)習(xí)過程變慢。這說明記憶機(jī)制的作用在于將有效策略持續(xù)保留下來,使改進(jìn)能夠在訓(xùn)練過程中逐步積累,從而形成更加穩(wěn)定的策略提升。


表1:消融實(shí)驗(yàn)的最終表現(xiàn)

從模仿學(xué)習(xí)到經(jīng)驗(yàn)學(xué)習(xí)的范式演進(jìn)

作者將當(dāng)前大模型訓(xùn)練方式概括為一條逐步演進(jìn)的路徑:從監(jiān)督微調(diào)依賴示例模仿,到強(qiáng)化學(xué)習(xí)依賴獎(jiǎng)勵(lì)信號(hào)進(jìn)行優(yōu)化,再到經(jīng)驗(yàn)強(qiáng)化學(xué)習(xí)(ERL)強(qiáng)調(diào)從經(jīng)驗(yàn)中學(xué)習(xí)。

相比前兩者,ERL通過引入反思與內(nèi)化機(jī)制,提供了一種將失敗轉(zhuǎn)化為可利用學(xué)習(xí)信號(hào)的顯式路徑,使模型能夠在交互過程中持續(xù)積累行為修正經(jīng)驗(yàn)。這一視角也與近年來「經(jīng)驗(yàn)數(shù)據(jù)將成為下一代AI主要訓(xùn)練來源」的觀點(diǎn)相呼應(yīng)。

論文指出,ERL展示了一種構(gòu)建經(jīng)驗(yàn)驅(qū)動(dòng)AI系統(tǒng)的可能路徑,通過反思和經(jīng)驗(yàn)內(nèi)化,模型能夠在訓(xùn)練過程中不斷沉淀糾錯(cuò)策略,并在部署時(shí)直接應(yīng)用這些經(jīng)驗(yàn),而無需額外推理成本。

如果這一方向得到進(jìn)一步驗(yàn)證,它可能成為構(gòu)建長(zhǎng)期自主智能體的重要基礎(chǔ),使強(qiáng)化學(xué)習(xí)從單純的優(yōu)化方法逐步演變?yōu)楦咏祟悓W(xué)習(xí)過程的訓(xùn)練范式。

結(jié)語

強(qiáng)化學(xué)習(xí)的發(fā)展正在經(jīng)歷一次微妙但重要的轉(zhuǎn)變。從依賴獎(jiǎng)勵(lì)信號(hào)的試錯(cuò)優(yōu)化,到強(qiáng)調(diào)經(jīng)驗(yàn)轉(zhuǎn)化與行為修正,研究者正在嘗試讓模型具備更接近人類的學(xué)習(xí)能力。

經(jīng)驗(yàn)強(qiáng)化學(xué)習(xí)(ERL)所提出的經(jīng)驗(yàn)—反思—內(nèi)化框架,展示了一種將交互過程轉(zhuǎn)化為持續(xù)學(xué)習(xí)能力的可能路徑,也為構(gòu)建能夠長(zhǎng)期自我改進(jìn)的智能體提供了新的思路。

參考資料:

https://arxiv.org/abs/2602.13949

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
A股:突然跳水,對(duì)于砸盤,主力總是遙遙領(lǐng)先!明天很可能這樣走

A股:突然跳水,對(duì)于砸盤,主力總是遙遙領(lǐng)先!明天很可能這樣走

虎哥閑聊
2026-03-03 15:42:19
特朗普妻子安理會(huì)上遭怒斥:你丈夫下令轟炸小學(xué)

特朗普妻子安理會(huì)上遭怒斥:你丈夫下令轟炸小學(xué)

大風(fēng)新聞
2026-03-03 11:24:13
剛剛,歐洲也崩了

剛剛,歐洲也崩了

中國(guó)基金報(bào)
2026-03-03 17:27:40
3月1日俄烏最新:恐怖的場(chǎng)景

3月1日俄烏最新:恐怖的場(chǎng)景

西樓飲月
2026-03-01 20:55:56
女護(hù)士處理男患者隱私部位,會(huì)感覺難為情嗎?美女護(hù)士說出大實(shí)話

女護(hù)士處理男患者隱私部位,會(huì)感覺難為情嗎?美女護(hù)士說出大實(shí)話

第7情感
2025-09-17 12:12:15
貝嫂巴黎時(shí)裝周亮相!紅毛衣+牛仔颯氣拉滿

貝嫂巴黎時(shí)裝周亮相!紅毛衣+牛仔颯氣拉滿

述家娛記
2026-03-03 08:13:56
國(guó)色天香李一桐:蕙質(zhì)蘭心,顧盼生姿。人間絕色,美不勝收!

國(guó)色天香李一桐:蕙質(zhì)蘭心,顧盼生姿。人間絕色,美不勝收!

十為先生
2026-03-02 16:00:56
恐怖的15-0,亞足聯(lián)認(rèn)證!下午4點(diǎn),中國(guó)女足亞洲杯首秀,最低5-0

恐怖的15-0,亞足聯(lián)認(rèn)證!下午4點(diǎn),中國(guó)女足亞洲杯首秀,最低5-0

大秦壁虎白話體育
2026-03-03 09:19:16
迪麗熱巴滯留迪拜超24小時(shí),工作室發(fā)文報(bào)平安,卻被粉絲瘋狂吐槽

迪麗熱巴滯留迪拜超24小時(shí),工作室發(fā)文報(bào)平安,卻被粉絲瘋狂吐槽

晴晴的娛樂日記
2026-03-03 16:22:29
不要撿!不要撿!最近深圳街頭大量出現(xiàn)

不要撿!不要撿!最近深圳街頭大量出現(xiàn)

深圳晚報(bào)
2026-03-03 08:26:09
菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少?

菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少?

傲傲講歷史
2025-09-27 16:59:25
美國(guó)沒想到,俄羅斯也沒想到!中國(guó)石油,如今會(huì)成為“遙遙領(lǐng)先”

美國(guó)沒想到,俄羅斯也沒想到!中國(guó)石油,如今會(huì)成為“遙遙領(lǐng)先”

來科點(diǎn)譜
2026-02-20 07:16:30
特朗普,還有一仗?

特朗普,還有一仗?

中國(guó)新聞周刊
2026-03-02 18:30:18
迪拜機(jī)場(chǎng)再次被炸!被困女星已失聯(lián),工作室一言不發(fā),后果不敢想

迪拜機(jī)場(chǎng)再次被炸!被困女星已失聯(lián),工作室一言不發(fā),后果不敢想

潮鹿逐夢(mèng)
2026-03-02 20:55:29
拿下伊朗后,除過俄羅斯其它主要能源基本都被美國(guó)直接或間接掌控

拿下伊朗后,除過俄羅斯其它主要能源基本都被美國(guó)直接或間接掌控

邵旭峰域
2026-03-03 11:57:02
可打擊美航母!英美爆料,中國(guó)或違反國(guó)際規(guī)定,賣伊朗超音速導(dǎo)彈

可打擊美航母!英美爆料,中國(guó)或違反國(guó)際規(guī)定,賣伊朗超音速導(dǎo)彈

小濤叨叨
2026-03-03 01:04:33
中方要求伊朗不要封鎖霍爾木茲海峽?外交部回應(yīng)~!

中方要求伊朗不要封鎖霍爾木茲海峽?外交部回應(yīng)~!

占豪
2026-03-03 17:58:19
《夜王》在香港賣瘋了?看完全片,我極其冷靜地,寫下這篇文章

《夜王》在香港賣瘋了?看完全片,我極其冷靜地,寫下這篇文章

皮皮電影
2026-03-03 15:33:36
海倫堡地產(chǎn)集團(tuán)創(chuàng)始人黃熾恒滯留香港

海倫堡地產(chǎn)集團(tuán)創(chuàng)始人黃熾恒滯留香港

地產(chǎn)微資訊
2026-03-02 21:10:48
《求是》暗示不再盲目追求增長(zhǎng)數(shù)字

《求是》暗示不再盲目追求增長(zhǎng)數(shù)字

凱利經(jīng)濟(jì)觀察
2026-03-03 11:43:31
2026-03-03 18:55:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14632文章數(shù) 66648關(guān)注度
往期回顧 全部

科技要聞

擁抱AI的"牛馬":邊提效邊自嘲"自費(fèi)"上班

頭條要聞

襲擊伊朗后 特朗普首次發(fā)表白宮講話:將不惜一切代價(jià)

頭條要聞

襲擊伊朗后 特朗普首次發(fā)表白宮講話:將不惜一切代價(jià)

體育要聞

35輪后積分-7,他們?cè)庥鍪飞献钤绲慕导?jí)

娛樂要聞

謝娜霸氣護(hù)夫:喊話薛之謙給張杰道歉

財(cái)經(jīng)要聞

特朗普“不惜一切”!全球股債齊崩

汽車要聞

第一梯隊(duì)輔助駕駛加持 iCAR V27定檔3月13日上市

態(tài)度原創(chuàng)

時(shí)尚
教育
健康
手機(jī)
本地

普通人穿衣真的很簡(jiǎn)單!單品選對(duì)、搭配合理,大方舒適又得體

教育要聞

氣象系統(tǒng)2025錄用1100多,研究生占50%,南信大294人成信大113人

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機(jī)要聞

4499元買iPhone 17e到底值不值:屏幕刷新率仍用60Hz

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

無障礙瀏覽 進(jìn)入關(guān)懷版