国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

SFT遠(yuǎn)不如RL?永不過時(shí)的剃刀原則打開終身學(xué)習(xí)大模型訓(xùn)練的大門

0
分享至



機(jī)器之心報(bào)道

編輯:冷貓

我們已經(jīng)進(jìn)入了大模型時(shí)代,越來越多的應(yīng)用依賴大模型的能力,可以說大模型已經(jīng)成為智能化基礎(chǔ)設(shè)施的核心組成部分,支撐著語言,視覺分析,智能駕駛,機(jī)器人等各種下游應(yīng)用。

在大模型的實(shí)際使用中我們發(fā)現(xiàn),大部分的模型還只是某個(gè)細(xì)分領(lǐng)域任務(wù)的大牛,離我們理想中的 AGI 仍然遙遙無期。

準(zhǔn)確的說,這些投入部署的大模型大多是「靜態(tài)」模型,對(duì)于其預(yù)訓(xùn)練或微調(diào)時(shí)優(yōu)化的系列任務(wù)表現(xiàn)良好,但是在動(dòng)態(tài)學(xué)習(xí),自我提升這部分能力是缺位的。

如果我們希望實(shí)現(xiàn)更加通用的大模型,使其能像長期的智能助手一樣,隨時(shí)間不斷適應(yīng)新的任務(wù)與需求,很多技術(shù)瓶頸亟待突破。而最大的挑戰(zhàn)之一就是「災(zāi)難性遺忘」。

相信大家對(duì)這個(gè)概念已經(jīng)非常熟悉了,災(zāi)難性遺忘指的是模型在學(xué)習(xí)新任務(wù)時(shí),會(huì)丟掉之前學(xué)到的技能。擴(kuò)大模型規(guī)模、增加預(yù)訓(xùn)練數(shù)據(jù)確實(shí)能稍微緩解遺忘現(xiàn)象,但始終不能徹底解決。



圖源:小紅書 @機(jī)器壞人(AI 版)

針對(duì)災(zāi)難性遺忘的問題,研究者們提出了各種各樣的改進(jìn)方法,包括正則化、經(jīng)驗(yàn)回放、參數(shù)微調(diào)等等。

但有沒有一種可能,我們對(duì)大模型遺忘的研究想的有些太復(fù)雜了,如無必要勿增實(shí)體的剃刀原則才是根治問題的最佳手段。

幾天前,來自麻省理工學(xué)院(MIT)Improbable AI Lab 的研究者針對(duì)該問題發(fā)表了一篇研究論文,將奧卡姆的剃刀伸向了大模型后訓(xùn)練,揭示了大模型遺忘現(xiàn)象的基本規(guī)律和訓(xùn)練策略,目前已在 Alphaxiv 上熱度排名第一。



  • 論文標(biāo)題:RL's Razor: Why Online Reinforcement Learning Forgets Less
  • 論文鏈接:https://www.arxiv.org/abs/2509.04259v1

現(xiàn)代 AI 系統(tǒng)面臨一個(gè)根本性挑戰(zhàn):在學(xué)習(xí)新任務(wù)時(shí),它們常常災(zāi)難性地遺忘先前獲得的知識(shí)。這種現(xiàn)象嚴(yán)重限制了基礎(chǔ)模型作為長期、持續(xù)學(xué)習(xí)代理的能力。

這項(xiàng)研究集中在一個(gè)驚人的實(shí)證觀察上:

研究者比較了兩種常見的后訓(xùn)練方式:監(jiān)督微調(diào)(SFT) 和 強(qiáng)化學(xué)習(xí)(RL)。結(jié)果很出乎意料:

  • 即便 SFT 和 RL 在新任務(wù)上表現(xiàn)一樣好,SFT 往往是通過 「犧牲舊知識(shí)」 來換取新任務(wù)的提升;
  • RL 卻能在學(xué)習(xí)新技能的同時(shí),更多地保留原有能力。

那么問題來了:為什么 RL 不容易遺忘?

遺忘定律

研究揭示了一個(gè)新的規(guī)律,稱為 「遺忘定律」:

當(dāng)模型 π 在新任務(wù) τ 上進(jìn)行微調(diào)時(shí),遺忘程度可以通過 精確預(yù)測(cè),即在新任務(wù)上評(píng)估的微調(diào)策略和基線策略之間的KL散度



這條定律在實(shí)踐中非常有用,因?yàn)樗梢栽谖⒄{(diào)過程中進(jìn)行測(cè)量甚至影響,而無需訪問舊任務(wù)數(shù)據(jù)。盡管其機(jī)制仍有待充分理解,但這條定律在不同模型和領(lǐng)域之間的一致性表明它反映了遺忘的一個(gè)基本屬性。

也就是說,微調(diào)后模型與原始模型在新任務(wù)分布上的差異越大,遺忘就越嚴(yán)重。



偏向 KL - 最小解減少了遺忘。左圖顯示,在能夠解決新任務(wù)的策略中,RL 收斂到 KL 散度上最接近基模型的那些策略。右圖顯示,在相同的新任務(wù)性能下,這種 KL 偏向使得 RL 相比 SFT 能更好地保留先驗(yàn)任務(wù)的知識(shí)。

研究者進(jìn)行了廣泛的實(shí)驗(yàn),以確定什么因素預(yù)示著災(zāi)難性遺忘。他們測(cè)試了各種假設(shè),包括權(quán)重級(jí)變化、表示偏移和分布差異。通過對(duì)多個(gè)領(lǐng)域和模型架構(gòu)進(jìn)行系統(tǒng)性消融研究,他們發(fā)現(xiàn)微調(diào)策略和基礎(chǔ)策略之間的前向 KL 散度是遺忘的一個(gè)驚人一致的預(yù)測(cè)指標(biāo)

前向 KL 散度定義為:



其中代表微調(diào)策略,代表原始模型。





這種關(guān)系適用于不同的訓(xùn)練算法和超參數(shù),形成了作者所稱的「經(jīng)驗(yàn)性遺忘定律」。在使用簡化 ParityMNIST 任務(wù)的對(duì)照實(shí)驗(yàn)中,這種關(guān)系實(shí)現(xiàn)了 0.96 的 R2,證明了其預(yù)測(cè)能力。



該圖顯示,在帕累托前沿上,RL 始終優(yōu)于 SFT,在語言模型(數(shù)學(xué)、科學(xué)問答、工具使用)和機(jī)器人任務(wù)中,RL 在新任務(wù)性能和先驗(yàn)知識(shí)保留之間實(shí)現(xiàn)了更好的權(quán)衡。

RL 的剃刀:KL 最小路徑原理

更有意思的是,RL 的優(yōu)勢(shì)正來自于它的 「KL 偏好」。

  • 在新任務(wù)上,存在許多能達(dá)到高表現(xiàn)的解。
  • RL 天然偏向選擇那些 離原始模型更近(KL 更?。?的解;
  • 而 SFT 則可能收斂到距離原始模型很遠(yuǎn)的解,從而帶來嚴(yán)重遺忘。

核心理論貢獻(xiàn)是「RL 的剃刀」—— 即在解決新任務(wù)的所有方法中,RL 偏好與原始模型在 KL 散度上最接近的解決方案。這種偏向 KL 最小解的偏好解釋了為什么 RL 比 SFT 遺忘得少。

為了驗(yàn)證 KL 假設(shè),研究者構(gòu)造了一個(gè)理想的 「oracle SFT」 分布:它在保證新任務(wù)完美準(zhǔn)確的同時(shí),也做到 KL 最小化。結(jié)果顯示,在這個(gè)分布上訓(xùn)練,遺忘比 RL 還少。這說明 RL 的優(yōu)勢(shì)并不是來自某種「本質(zhì)上的不同」,而是源于它 隱式地執(zhí)行了 KL 最小化。只要訓(xùn)練過程偏向 KL 最小解,模型遺忘就會(huì)隨之減少。



左圖通過使用一個(gè)「Oracle SFT」分布來證明這一原理,該分布在實(shí)現(xiàn)完美新任務(wù)準(zhǔn)確性的同時(shí),解析地最小化了 KL 散度。使用這種 Oracle 分布進(jìn)行訓(xùn)練產(chǎn)生的遺忘比標(biāo)準(zhǔn) RL 更少,證實(shí)了 KL 最小化是關(guān)鍵機(jī)制。中圖展示了 KL 散度與遺忘之間的強(qiáng)關(guān)聯(lián)(R2 = 0.961),而右圖則說明了與 SFT 相比,RL 如何通過較小的 KL 偏移實(shí)現(xiàn)高準(zhǔn)確性。

機(jī)制分析:在線策略學(xué)習(xí)與離線策略學(xué)習(xí)

為了理解 RL 何種機(jī)制驅(qū)動(dòng)了其 KL 保守行為,研究人員比較了四種不同的訓(xùn)練范式:

分析揭示,數(shù)據(jù)收集的在線策略性質(zhì)是關(guān)鍵因素,而不是負(fù)面示例的使用。在線策略方法(GRPO 和 1-0 Reinforce)保持較小的 KL 偏移和更好的先驗(yàn)任務(wù)保留,而離線方法(SFT 和 SimPO)無論是否使用負(fù)面示例,其行為都相似。

理論基礎(chǔ)

作者通過信息幾何的視角,為強(qiáng)化學(xué)習(xí)的 KL - 最小收斂提供了理論基礎(chǔ)。他們表明,帶有二元獎(jiǎng)勵(lì)的策略梯度方法可以被理解為在概率空間中執(zhí)行交替的信息(I-)投影和期望(M-)投影:



這種迭代過程收斂到可表示策略類中的 KL - 最小最優(yōu)策略,為「RL 的剃刀」提供了形式化解釋。I - 投影步驟在滿足獎(jiǎng)勵(lì)約束的同時(shí)最小化 KL 散度,而 M - 投影步驟則朝著更高獎(jiǎng)勵(lì)的動(dòng)作更新。

更多數(shù)據(jù)

這項(xiàng)研究表明,這一原理超越了簡單的實(shí)驗(yàn)環(huán)境。使用中心核對(duì)齊(Centered Kernel Alignment)進(jìn)行的表示保留分析表明,與 SFT 相比,RL 保持與基礎(chǔ)模型更高的相似性:



此外,對(duì)更大模型(70 億和 140 億參數(shù))的實(shí)驗(yàn)證實(shí),僅僅擴(kuò)大規(guī)模并不能消除 SFT 中固有的遺忘權(quán)衡:



總結(jié)

本篇論文的核心貢獻(xiàn)有三點(diǎn):

1. 實(shí)驗(yàn)證明:在相同性能下,RL 比 SFT 更不容易遺忘

2. 提出遺忘定律:新任務(wù)上的KL 散度是預(yù)測(cè)遺忘的關(guān)鍵指標(biāo)。

3. 理論與實(shí)證結(jié)合,解釋了RL 的優(yōu)勢(shì)來自其 on-policy 特性

這項(xiàng)研究為后訓(xùn)練提供了新的視角:為了實(shí)現(xiàn)無遺忘的持續(xù)適應(yīng),算法應(yīng)該明確地旨在最小化與基模型之間的 KL 散度,確立了 KL 散度作為持續(xù)學(xué)習(xí)系統(tǒng)的基本設(shè)計(jì)原則。

這一原則為設(shè)計(jì)未來的訓(xùn)練方法打開了大門,這些方法將 RL 保留先驗(yàn)知識(shí)的能力與 SFT 的效率相結(jié)合,使基礎(chǔ)模型能夠真正地「終身學(xué)習(xí)」。

對(duì)于使用基礎(chǔ)模型的實(shí)踐者來說,這項(xiàng)研究提供了明確的指導(dǎo):當(dāng)持續(xù)適應(yīng)很重要時(shí),在線策略 RL 方法比標(biāo)準(zhǔn)微調(diào)方法具有顯著優(yōu)勢(shì)。KL 散度指標(biāo)還為模型適應(yīng)期間的遺忘監(jiān)測(cè)和預(yù)測(cè)提供了一個(gè)實(shí)用工具。

這項(xiàng)工作有助于我們理解為什么像 RLHF 中的 KL 正則化這樣的常見實(shí)踐是有效的,將經(jīng)驗(yàn)觀察提升到理論基礎(chǔ)。這種原則性理解為開發(fā)真正長壽、能夠持續(xù)學(xué)習(xí)而不會(huì)災(zāi)難性遺忘的 AI 代理開辟了新方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
醫(yī)生調(diào)查發(fā)現(xiàn):每天堅(jiān)持走路的老人,過不了多久,身體或有4變化

醫(yī)生調(diào)查發(fā)現(xiàn):每天堅(jiān)持走路的老人,過不了多久,身體或有4變化

蜉蝣說
2025-12-20 17:08:05
小法:因?yàn)閴毫?,我在拉瑪西亞做過一些至今仍深感慚愧的事情

小法:因?yàn)閴毫?,我在拉瑪西亞做過一些至今仍深感慚愧的事情

懂球帝
2025-12-20 09:09:06
鹽城2名干部遭人舉報(bào)!經(jīng)紀(jì)委調(diào)查......

鹽城2名干部遭人舉報(bào)!經(jīng)紀(jì)委調(diào)查......

俯瞰江蘇
2025-12-20 15:07:33
公開支持日本之后,美國人發(fā)現(xiàn)上當(dāng)了,中方等待的時(shí)機(jī)已經(jīng)到來

公開支持日本之后,美國人發(fā)現(xiàn)上當(dāng)了,中方等待的時(shí)機(jī)已經(jīng)到來

歷史求知所
2025-12-19 20:30:04
俄美即將“對(duì)接”?俄方喊話美國:柏林談完了,該告訴我們了

俄美即將“對(duì)接”?俄方喊話美國:柏林談完了,該告訴我們了

花凌若別離開
2025-12-19 16:33:42
大量浙江游客涌入沈陽,打著旅游幌子不去旅游不吃美食,為啥來

大量浙江游客涌入沈陽,打著旅游幌子不去旅游不吃美食,為啥來

另子維愛讀史
2025-11-29 07:53:16
不了解奢侈品有啥嚴(yán)重后果?網(wǎng)友:豪車我只認(rèn)識(shí)四個(gè)圈圈

不了解奢侈品有啥嚴(yán)重后果?網(wǎng)友:豪車我只認(rèn)識(shí)四個(gè)圈圈

帶你感受人間冷暖
2025-12-01 00:20:03
深圳16歲“烤雞少年”火出圈,每天能賣兩三百只烤雞,靠努力實(shí)現(xiàn)逆襲人生

深圳16歲“烤雞少年”火出圈,每天能賣兩三百只烤雞,靠努力實(shí)現(xiàn)逆襲人生

瀟湘晨報(bào)
2025-12-17 22:00:17
江西發(fā)生一級(jí)甲等醫(yī)療事故,賠償146萬,首診醫(yī)生被刑拘!

江西發(fā)生一級(jí)甲等醫(yī)療事故,賠償146萬,首診醫(yī)生被刑拘!

醫(yī)客
2025-12-20 12:07:23
房地產(chǎn),要破大防了?

房地產(chǎn),要破大防了?

地產(chǎn)觀點(diǎn)
2025-12-18 08:30:04
水均益到泉州女婿家做客,和前妻同框還抱外孫女,對(duì)女婿稱呼疏離

水均益到泉州女婿家做客,和前妻同框還抱外孫女,對(duì)女婿稱呼疏離

李佳康
2025-12-18 01:35:59
遼寧省營口市政協(xié)原副主席段緒華被開除黨籍和公職

遼寧省營口市政協(xié)原副主席段緒華被開除黨籍和公職

界面新聞
2025-12-19 21:43:00
62歲主持人水均益退休生活曝光,住老破小墻磚掉落,插座膠帶固定

62歲主持人水均益退休生活曝光,住老破小墻磚掉落,插座膠帶固定

TVB的四小花
2025-12-15 00:24:24
告密者一般都沒有好下場(chǎng)!當(dāng)年舉報(bào)畢福劍的告密者張清,后來……

告密者一般都沒有好下場(chǎng)!當(dāng)年舉報(bào)畢福劍的告密者張清,后來……

翻開歷史和現(xiàn)實(shí)
2025-12-20 12:20:04
10人逃單后續(xù):堂哥張先生作為組局人最終付款卻面子里子全無

10人逃單后續(xù):堂哥張先生作為組局人最終付款卻面子里子全無

沒有偏旁的常慶
2025-12-19 06:30:04
自食惡果!洪森父子背刺多年好友,大難臨頭之際,中方一錘定音

自食惡果!洪森父子背刺多年好友,大難臨頭之際,中方一錘定音

君君文談
2025-12-19 18:56:23
蘇聯(lián)不要的裝備,70萬武器被八路軍拉3天3夜,撿出“半個(gè)軍械庫”

蘇聯(lián)不要的裝備,70萬武器被八路軍拉3天3夜,撿出“半個(gè)軍械庫”

古書記史
2025-12-15 23:29:05
海南剛封關(guān),越南就坐不住了?面對(duì)無解“陽謀”,連夜抄作業(yè)!

海南剛封關(guān),越南就坐不住了?面對(duì)無解“陽謀”,連夜抄作業(yè)!

知法而形
2025-12-19 23:34:51
意大利自2026年起將減少對(duì)烏援助,馬克龍呼吁與俄羅斯增加對(duì)話

意大利自2026年起將減少對(duì)烏援助,馬克龍呼吁與俄羅斯增加對(duì)話

山河路口
2025-12-19 19:21:19
《老舅》直到郭大雷認(rèn)罪,崔國明才知道,命案竟是二美設(shè)的局

《老舅》直到郭大雷認(rèn)罪,崔國明才知道,命案竟是二美設(shè)的局

小兔子的快樂
2025-12-19 17:16:47
2025-12-20 21:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142514關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

網(wǎng)友稱"燒傷超人阿寶"補(bǔ)繳稅款84萬余元 當(dāng)事人發(fā)聲

頭條要聞

網(wǎng)友稱"燒傷超人阿寶"補(bǔ)繳稅款84萬余元 當(dāng)事人發(fā)聲

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

數(shù)碼
健康
藝術(shù)
手機(jī)
公開課

數(shù)碼要聞

過氣主板“煥新生”,這才是當(dāng)下裝機(jī)回血神器!

這些新療法,讓化療不再那么痛苦

藝術(shù)要聞

新地標(biāo)!溫州豎起一座“五指山”

手機(jī)要聞

銷量破260萬登頂國產(chǎn)!小米17系列:Pro Max占比50%的旗艦勝利

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版