国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

RL特訓出「押題大師」?破解模型微調中的多樣性危機與災難性遺忘

0
分享至


新智元報道

編輯:YHluck

【新智元導讀】RL之后,大模型為什么更容易「越訓越單一」?面對五花八門的改進思路,也許答案并不復雜:先試著改一改KL項。

近年來,基于可驗證獎勵的強化學習(Reinforcement Learning with Verifiable Reward, RLVR)已成為提升大語言模型推理能力的重要路徑。

從數(shù)學求解到代碼生成,再到SQL推斷,大量研究表明,RL能顯著提升模型在單次作答場景下的成功率。

然而,一個關鍵現(xiàn)象始終未得到充分解釋:為什么許多經過RL微調的模型,雖然 Pass@1提升了,但在允許多次嘗試時,Pass@k反而下降了?

這表明,模型或許更擅長「押中一次正確答案」,卻喪失了原本豐富的解題路徑與候選解空間。更進一步,這種現(xiàn)象往往伴隨著災難性遺忘(Catastrophic Forgetting)和跨領域泛化能力的下降。

現(xiàn)有方法通常將注意力集中于獎勵設計、采樣策略或熵調控,但研究團隊發(fā)現(xiàn),一個更基礎、更關鍵的問題長期被忽視:RL目標中的divergence項,究竟應如何選擇?

針對這一問題,復旦大學、無限光年、上海科學智能研究院(下稱上智院)、上海創(chuàng)智學院的聯(lián)合研究團隊聚焦于長期被忽視的KL散度項,從divergence選擇的角度破解這一難題相關研究成果已被ICLR2026接收。


論文標題:The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

論文鏈接:https://arxiv.org/abs/2509.07430

代碼鏈接:https://github.com/seamoke/DPH-RL

復旦大學博士生、無限光年實習生李龍,復旦大學及上海創(chuàng)智學院博士生周潪劍,為共同一作。復旦大學研究員、上海科學智能研究院AI科學家屈超,為通訊作者。

divergence 選擇困境:

反向KL與約束缺失的代價

在大多數(shù)RL后訓練方法中,常見做法是采用reverse-KL,或直接移除 divergence 約束。然而,這兩種選擇均存在明顯缺陷:


  • Reverse-KL本質上是mode-seeking的,會鼓勵策略向少數(shù)高概率模式收縮;

  • 缺失divergence項意味著模型在訓練過程中缺乏對原始知識分布的顯式保護機制。


這兩種設定都會導致模型日益集中于少量「熟悉答案」,進而引發(fā)Pass@k下降、既有能力遺忘以及跨任務泛化能力減弱。若以更形式化的方式表述,傳統(tǒng) RLVR 可概括為:


其中,πθ為當前策略,πref為參考策略(通常為初始模型或SFT模型)。問題的關鍵在于:若此處的divergence選擇不當,后半部分將不再是「保護機制」,反而會淪為「多樣性壓縮器」。


若將基礎模型視為已掌握大量知識與多樣解法的「知識分布」,那么RL微調的目標本應是在保留既有能力的前提下進一步提升任務表現(xiàn)。

然而現(xiàn)實中,許多RL方法更像是在不斷強化少數(shù)高回報軌跡——模型逐漸偏向一兩種最易獲得獎勵的解法,而舍棄了原本同樣有效但出現(xiàn)頻率較低的其他路徑。

研究團隊進行了一項有趣的實驗:通過SFT讓模型學習到多種不同風格的回答方式,僅憑前綴即可判斷模型采用了哪種風格;然而經過標準GRPO訓練后,模型幾乎只保留了一種風格。

因此,研究團隊認為,RLVR中真正需要解決的,不僅是「如何學得更強」,更包括:如何在優(yōu)化獎勵的同時,保全模型原本擁有的多樣性。

方法:

將divergence從「約束項」重塑為「保多樣性機制」


基于上述觀察,團隊提出了DPH-RL(Diversity-Preserving Hybrid RL)。這項工作的核心思想是:

divergence不應僅是訓練時的附帶正則項,而應被重新設計為主動保護模型多樣性的機制。

具體而言,不再沿用傳統(tǒng)的reverse-KL,而是引入更具mass-covering性質的 ,例如:


與傾向于收縮至單一模式的reverse-KL不同,這類divergence會鼓勵新策略繼續(xù)覆蓋參考策略中原本存在的多種解法。換言之,它并非強迫模型「只記住最優(yōu)路徑」,而是在提醒模型:「你可以繼續(xù)變強,但不要忘記原本掌握的東西?!?/p>

從機制上看,該研究的方法可理解為一種rehearsal mechanism(復現(xiàn)機制):模型在訓練過程中持續(xù)參考初始策略的分布,從而保留原有的知識覆蓋范圍,避免在強化學習過程中發(fā)生過度收縮。

以提到的forward-KL為例:

此處的期望是對參考策略πref取的。只要參考策略曾覆蓋過某些合理解法,新策略πθ便不能輕易將其概率壓至接近零。正因如此,forward-KL更具mass-covering傾向,更適合作為「保多樣性」的工具。

進一步地,論文還引入了JS divergence作為更穩(wěn)定、對稱的替代方案。若記:, 則對應的生成函數(shù)可寫為:。由此得到一類更加平滑的分布約束方式。

此外,DPH-RL在實現(xiàn)上也更為高效。作者采用基于generator function的方式計算f-divergence,僅需從初始πref預采樣,無需在訓練過程中維護在線reference model。

這使得方法在訓練成本上更加友好,更適合實際大規(guī)模后訓練場景。在具體訓練時,DPH-RL 并非對所有樣本「一刀切」地施加同一種約束,而是先將數(shù)據(jù)劃分為兩部分:

  • 探索集合Dexp:針對模型尚未掌握的困難樣本,不加入任何KL penalty,

讓模型在困難樣本上更激進地探索高獎勵解法。此處采用標準 PPO-clip 目標:


  • 完美集合Dpef:針對模型已基本掌握的樣本,πref從Dpef采樣,依靠f-divergence保持在正確樣本上的多樣性。更直觀地說,模型在這部分樣本上不再追求「獲取更高獎勵」,而是盡量不偏離原本已表現(xiàn)良好的行為分布,其一般形式為:


因此,整體訓練過程更適合表述為「分情況計算」的形式:


換言之,并非對每個樣本同時疊加「探索項 + 保持項」,而是先判斷樣本屬于Dexp還是Dpef,再計算對應的loss。

更優(yōu)的divergence選擇

可同時兼顧性能提升、多樣性保留與泛化能力

實驗設置

論文采用Llama3.1-8b作為實驗模型,僅在BIRD數(shù)據(jù)集上訓練,并在BIRD、Spider 及數(shù)學任務數(shù)據(jù)集上測試OOD泛化能力。


In-Domain性能:Pass@k的恢復

在BIRD數(shù)據(jù)集上,結果清晰表明:

  • GRPO與DAPO雖可能提升了Greedy(相當于Pass@1)表現(xiàn),但其Pass@8Pass@16分數(shù)均顯著低于Base Model,證實了多樣性坍塌的存在;

  • RKL(反向KL)表現(xiàn)同樣不佳,Pass@k出現(xiàn)下降;

  • DPH-F與DPH-JS不僅Greedy分數(shù)最高,其Pass@8分數(shù)也超越了Base Model。其中,DPH-JS的Pass@8分數(shù)較GRPO高出4.3%。在更大的k設置下,DPH-RL更接近base model,緩解了Pass@k的崩塌。



Cross-Domain與OOD性能:

泛化能力的保持


我們將SQL任務上的Spider數(shù)據(jù)集視為cross-domain,將數(shù)學數(shù)據(jù)集視為out-of-domain??梢钥吹剑袃H在SQL數(shù)據(jù)集Bird上訓練得到的RL模型,在分布發(fā)生偏移時都會出現(xiàn)不同程度的性能下降。

正如圖中所示,隨著任務與訓練分布的差異逐步增大,Pass@k整體呈現(xiàn)明顯下降趨勢,這也是OOD場景中的普遍挑戰(zhàn)。

不過,更值得關注的是各方法的相對表現(xiàn)


  • DPH-F與DPH-JSPass@k分數(shù)顯著高于其他所有RL方法,最接近Base Model的原始水平;

  • DAPO在OOD任務上表現(xiàn)不穩(wěn)定、性能保留能力不如DPH-F,DPH-F的Pass@16分數(shù)較DAPO高出9.0%;

  • Reverse-KL在OOD場景下表現(xiàn)嚴重下滑。


這表明,通過保留解決方案的多樣性,DPH-RL能夠更有效地防止災難性遺忘,從而在面對新領域問題時保持更強的泛化能力。

保留 (Keep)與探索 (Exploration)的顯式平衡


為了揭示DPH-RL的核心機制,論文通過解構模型在Pass@8上的表現(xiàn),分析了 RL 微調前后的知識動態(tài):


  • 保留率 (Keep Rate):衡量知識穩(wěn)固度。指基礎模型原先能做對的樣本在微調后依然保持正確的比例。

  • 額外探索率 (Additional Exploration Rate):衡量能力增量。指基礎模型原先做錯的樣本在微調后轉而做對的比例。


實驗結果揭示了DPH-RL與GRPO之間的核心區(qū)別:


  1. 高保全性DPH-RL擁有極高的保留率,能有效留存模型已有的穩(wěn)固知識,從根本上避免了「災難性遺忘」。

  2. 凈增益優(yōu)勢相比之下,GRPO雖然具有一定的探索能力,但在獲取新知識的同時,往往伴隨著對原有能力的劇烈侵蝕——即典型的「學新忘舊」。


由此可見,DPH-RL通過對強化學習組件的功能解耦,實現(xiàn)了保留探索的顯式平衡。它證明了在通過 RL 提升模型能力上限的同時,穩(wěn)固已有的知識底座是取得最終勝出的關鍵。

總結

本文系統(tǒng)分析了RLVR中普遍存在的diversity collapse現(xiàn)象,指出常用的reverse-KL 及無divergence設定均缺乏有效的知識保留機制。 為此,作者提出DPH-RL,將mass-coveringf-divergence作為保護模型多樣性與緩解遺忘的核心工具。

實驗表明,DPH-RL不僅能緩解Pass@k下降問題,還可同時提升Pass@1,并在跨域任務上展現(xiàn)出更優(yōu)的穩(wěn)定性與泛化能力。更重要的是,這一結果啟示我們:在RL后訓練時代,保住多樣性與提高獎勵同等重要。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國開始“清理”霍爾木茲海峽

美國開始“清理”霍爾木茲海峽

中國日報網
2026-04-12 00:04:12
4000+萬年薪的合同還有兩年!快船的好日子還在后頭呢?

4000+萬年薪的合同還有兩年!快船的好日子還在后頭呢?

稻谷與小麥
2026-04-12 01:06:03
中國第三任國家主席,墓碑上不留姓名,碑文僅有二十四個字!

中國第三任國家主席,墓碑上不留姓名,碑文僅有二十四個字!

年代回憶
2026-03-24 20:23:00
剛從日本回來,說點不中聽的:日本的真實面目,可能讓你很意外

剛從日本回來,說點不中聽的:日本的真實面目,可能讓你很意外

復轉這些年
2026-04-01 09:17:19
本·阿弗萊克豪擲分手禮!直接放棄6000萬豪宅,詹妮弗·洛佩茲零成本拿下婚房

本·阿弗萊克豪擲分手禮!直接放棄6000萬豪宅,詹妮弗·洛佩茲零成本拿下婚房

手工制作阿殲
2026-04-11 17:18:21
我媽拿我彩禮給弟弟買車,我遠嫁外地后再沒回家,3年后弟弟來電

我媽拿我彩禮給弟弟買車,我遠嫁外地后再沒回家,3年后弟弟來電

五元講堂
2026-03-12 14:27:11
后坐力太大!全紅嬋提交證據(jù),陳芋汐做法高明,連陳都靈都遭殃

后坐力太大!全紅嬋提交證據(jù),陳芋汐做法高明,連陳都靈都遭殃

往史過眼云煙
2026-04-11 10:27:11
“只是為了取樂”,以色列又大開殺戒

“只是為了取樂”,以色列又大開殺戒

南風窗
2026-04-10 17:21:14
我調到了縣委,舅舅被欺負,干部們不知我是誰!

我調到了縣委,舅舅被欺負,干部們不知我是誰!

霧島夜話
2025-05-21 15:11:06
陳皮是個寶,春天喝最好,6款搭配氣順濕消人精神

陳皮是個寶,春天喝最好,6款搭配氣順濕消人精神

開心美食白科
2026-04-11 16:29:13
新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

南權先生
2026-01-26 15:41:26
茶葉是高血壓的“催化劑”?醫(yī)生勸告:不想血壓飆升,少喝5種茶

茶葉是高血壓的“催化劑”?醫(yī)生勸告:不想血壓飆升,少喝5種茶

岐黃傳人孫大夫
2026-04-10 13:35:03
程瀟不愧是“奶瀟”

程瀟不愧是“奶瀟”

情感大頭說說
2026-03-16 00:19:50
《中年覺醒》:45歲以后,做好中年向老年的過渡

《中年覺醒》:45歲以后,做好中年向老年的過渡

洞見
2026-04-11 15:05:28
美國繞月飛船返回:遭受2800℃灼燒,隔熱罩最厚僅7.6厘米!

美國繞月飛船返回:遭受2800℃灼燒,隔熱罩最厚僅7.6厘米!

火星一號
2026-04-11 00:58:23
三局逆轉勝出!王祉怡2-1山口茜,躋身亞錦賽決賽再戰(zhàn)安洗瑩

三局逆轉勝出!王祉怡2-1山口茜,躋身亞錦賽決賽再戰(zhàn)安洗瑩

全景體育V
2026-04-11 18:09:16
張雪奪冠賽車復刻版1分鐘拍出!500萬元將捐給嫣然天使基金,張雪:標哥捐了,我不捐不好意思

張雪奪冠賽車復刻版1分鐘拍出!500萬元將捐給嫣然天使基金,張雪:標哥捐了,我不捐不好意思

極目新聞
2026-04-10 20:58:02
10投狂砍21分11板4帽!這才是CBA頂級大中鋒,廣州靠他沖擊季后賽

10投狂砍21分11板4帽!這才是CBA頂級大中鋒,廣州靠他沖擊季后賽

老葉評球
2026-04-11 22:58:29
王思聰韓國吃飯被偶遇,頭發(fā)快禿了,身邊坐著三個美女,沒有懶懶

王思聰韓國吃飯被偶遇,頭發(fā)快禿了,身邊坐著三個美女,沒有懶懶

科學發(fā)掘
2026-04-11 20:28:37
美國終于開始害怕?比稀土更致命王牌出手了,萬斯:中國要冷靜

美國終于開始害怕?比稀土更致命王牌出手了,萬斯:中國要冷靜

混沌錄
2026-04-10 22:53:19
2026-04-12 03:27:00
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
14947文章數(shù) 66765關注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

事關霍爾木茲海峽通行安排 伊美各執(zhí)一詞

頭條要聞

事關霍爾木茲海峽通行安排 伊美各執(zhí)一詞

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

鄭鈞回應兒子走路:會監(jiān)督他挺直腰板

財經要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

手機
數(shù)碼
藝術
健康
游戲

手機要聞

全球首款闊折疊賣爆!華為Pura X一年出貨量超150萬臺

數(shù)碼要聞

榮耀MagicPad3 Pro 12.3官宣 機身厚度僅4.8mm

藝術要聞

你絕對想不到,這個國家美女竟如此多!

干細胞抗衰4大誤區(qū),90%的人都中招

排面拉滿!《影之刃零》入選國家級藝術雜志

無障礙瀏覽 進入關懷版