網易首頁 > 網易號 > 正文申請入駐

RL特訓出「押題大師」？破解模型微調中的多樣性危機與災難性遺忘

2026-04-09 09:06:44　來源: 新智元

北京舉報

分享至

新智元報道

編輯：YHluck

【新智元導讀】RL之后，大模型為什么更容易「越訓越單一」？面對五花八門的改進思路，也許答案并不復雜：先試著改一改KL項。

近年來，基于可驗證獎勵的強化學習（Reinforcement Learning with Verifiable Reward, RLVR）已成為提升大語言模型推理能力的重要路徑。

從數(shù)學求解到代碼生成，再到SQL推斷，大量研究表明，RL能顯著提升模型在單次作答場景下的成功率。

然而，一個關鍵現(xiàn)象始終未得到充分解釋：為什么許多經過RL微調的模型，雖然 Pass@1提升了，但在允許多次嘗試時，Pass@k反而下降了？

這表明，模型或許更擅長「押中一次正確答案」，卻喪失了原本豐富的解題路徑與候選解空間。更進一步，這種現(xiàn)象往往伴隨著災難性遺忘（Catastrophic Forgetting）和跨領域泛化能力的下降。

現(xiàn)有方法通常將注意力集中于獎勵設計、采樣策略或熵調控，但研究團隊發(fā)現(xiàn)，一個更基礎、更關鍵的問題長期被忽視：RL目標中的divergence項，究竟應如何選擇？

針對這一問題，復旦大學、無限光年、上海科學智能研究院（下稱上智院）、上海創(chuàng)智學院的聯(lián)合研究團隊聚焦于長期被忽視的KL散度項，從divergence選擇的角度破解這一難題。相關研究成果已被ICLR2026接收。

論文標題：The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

論文鏈接：https://arxiv.org/abs/2509.07430

代碼鏈接：https://github.com/seamoke/DPH-RL

復旦大學博士生、無限光年實習生李龍，復旦大學及上海創(chuàng)智學院博士生周潪劍，為共同一作。復旦大學研究員、上海科學智能研究院AI科學家屈超，為通訊作者。

divergence 選擇困境：

反向KL與約束缺失的代價

在大多數(shù)RL后訓練方法中，常見做法是采用reverse-KL，或直接移除 divergence 約束。然而，這兩種選擇均存在明顯缺陷：

Reverse-KL本質上是mode-seeking的，會鼓勵策略向少數(shù)高概率模式收縮；
缺失divergence項意味著模型在訓練過程中缺乏對原始知識分布的顯式保護機制。

這兩種設定都會導致模型日益集中于少量「熟悉答案」，進而引發(fā)Pass@k下降、既有能力遺忘以及跨任務泛化能力減弱。若以更形式化的方式表述，傳統(tǒng) RLVR 可概括為：

其中，πθ為當前策略，πref為參考策略（通常為初始模型或SFT模型）。問題的關鍵在于：若此處的divergence選擇不當，后半部分將不再是「保護機制」，反而會淪為「多樣性壓縮器」。

若將基礎模型視為已掌握大量知識與多樣解法的「知識分布」，那么RL微調的目標本應是在保留既有能力的前提下進一步提升任務表現(xiàn)。

然而現(xiàn)實中，許多RL方法更像是在不斷強化少數(shù)高回報軌跡——模型逐漸偏向一兩種最易獲得獎勵的解法，而舍棄了原本同樣有效但出現(xiàn)頻率較低的其他路徑。

研究團隊進行了一項有趣的實驗：通過SFT讓模型學習到多種不同風格的回答方式，僅憑前綴即可判斷模型采用了哪種風格；然而經過標準GRPO訓練后，模型幾乎只保留了一種風格。

因此，研究團隊認為，RLVR中真正需要解決的，不僅是「如何學得更強」，更包括：如何在優(yōu)化獎勵的同時，保全模型原本擁有的多樣性。

方法：

將divergence從「約束項」重塑為「保多樣性機制」

基于上述觀察，團隊提出了DPH-RL（Diversity-Preserving Hybrid RL）。這項工作的核心思想是：

divergence不應僅是訓練時的附帶正則項，而應被重新設計為主動保護模型多樣性的機制。

具體而言，不再沿用傳統(tǒng)的reverse-KL，而是引入更具mass-covering性質的，例如：

與傾向于收縮至單一模式的reverse-KL不同，這類divergence會鼓勵新策略繼續(xù)覆蓋參考策略中原本存在的多種解法。換言之，它并非強迫模型「只記住最優(yōu)路徑」，而是在提醒模型：「你可以繼續(xù)變強，但不要忘記原本掌握的東西?！?/p>

從機制上看，該研究的方法可理解為一種rehearsal mechanism（復現(xiàn)機制）：模型在訓練過程中持續(xù)參考初始策略的分布，從而保留原有的知識覆蓋范圍，避免在強化學習過程中發(fā)生過度收縮。

以提到的forward-KL為例：

此處的期望是對參考策略πref取的。只要參考策略曾覆蓋過某些合理解法，新策略πθ便不能輕易將其概率壓至接近零。正因如此,forward-KL更具mass-covering傾向，更適合作為「保多樣性」的工具。

進一步地，論文還引入了JS divergence作為更穩(wěn)定、對稱的替代方案。若記：, 則對應的生成函數(shù)可寫為：。由此得到一類更加平滑的分布約束方式。

此外，DPH-RL在實現(xiàn)上也更為高效。作者采用基于generator function的方式計算f-divergence，僅需從初始πref預采樣，無需在訓練過程中維護在線reference model。

這使得方法在訓練成本上更加友好，更適合實際大規(guī)模后訓練場景。在具體訓練時，DPH-RL 并非對所有樣本「一刀切」地施加同一種約束，而是先將數(shù)據(jù)劃分為兩部分：

探索集合Dexp：針對模型尚未掌握的困難樣本，不加入任何KL penalty，

讓模型在困難樣本上更激進地探索高獎勵解法。此處采用標準 PPO-clip 目標：

近完美集合Dpef：針對模型已基本掌握的樣本，πref從Dpef采樣，依靠f-divergence保持在正確樣本上的多樣性。更直觀地說，模型在這部分樣本上不再追求「獲取更高獎勵」，而是盡量不偏離原本已表現(xiàn)良好的行為分布，其一般形式為：

因此，整體訓練過程更適合表述為「分情況計算」的形式：

換言之，并非對每個樣本同時疊加「探索項 + 保持項」，而是先判斷樣本屬于Dexp還是Dpef，再計算對應的loss。

更優(yōu)的divergence選擇

可同時兼顧性能提升、多樣性保留與泛化能力

實驗設置

論文采用Llama3.1-8b作為實驗模型，僅在BIRD數(shù)據(jù)集上訓練，并在BIRD、Spider 及數(shù)學任務數(shù)據(jù)集上測試OOD泛化能力。

In-Domain性能：Pass@k的恢復

在BIRD數(shù)據(jù)集上，結果清晰表明：

GRPO與DAPO雖可能提升了Greedy（相當于Pass@1）表現(xiàn)，但其Pass@8和Pass@16分數(shù)均顯著低于Base Model，證實了多樣性坍塌的存在；
RKL（反向KL）表現(xiàn)同樣不佳，Pass@k出現(xiàn)下降；
DPH-F與DPH-JS不僅Greedy分數(shù)最高，其Pass@8分數(shù)也超越了Base Model。其中，DPH-JS的Pass@8分數(shù)較GRPO高出4.3%。在更大的k設置下，DPH-RL更接近base model，緩解了Pass@k的崩塌。

Cross-Domain與OOD性能：

泛化能力的保持

我們將SQL任務上的Spider數(shù)據(jù)集視為cross-domain，將數(shù)學數(shù)據(jù)集視為out-of-domain?？梢钥吹剑袃H在SQL數(shù)據(jù)集Bird上訓練得到的RL模型，在分布發(fā)生偏移時都會出現(xiàn)不同程度的性能下降。

正如圖中所示，隨著任務與訓練分布的差異逐步增大，Pass@k整體呈現(xiàn)明顯下降趨勢，這也是OOD場景中的普遍挑戰(zhàn)。

不過，更值得關注的是各方法的相對表現(xiàn)：

DPH-F與DPH-JS的Pass@k分數(shù)顯著高于其他所有RL方法，最接近Base Model的原始水平；
DAPO在OOD任務上表現(xiàn)不穩(wěn)定、性能保留能力不如DPH-F，DPH-F的Pass@16分數(shù)較DAPO高出9.0%；
Reverse-KL在OOD場景下表現(xiàn)嚴重下滑。

這表明，通過保留解決方案的多樣性，DPH-RL能夠更有效地防止災難性遺忘，從而在面對新領域問題時保持更強的泛化能力。

保留 (Keep)與探索 (Exploration)的顯式平衡

為了揭示DPH-RL的核心機制，論文通過解構模型在Pass@8上的表現(xiàn)，分析了 RL 微調前后的知識動態(tài)：

保留率 (Keep Rate)：衡量知識穩(wěn)固度。指基礎模型原先能做對的樣本在微調后依然保持正確的比例。
額外探索率 (Additional Exploration Rate)：衡量能力增量。指基礎模型原先做錯的樣本在微調后轉而做對的比例。

實驗結果揭示了DPH-RL與GRPO之間的核心區(qū)別：

高保全性：DPH-RL擁有極高的保留率，能有效留存模型已有的穩(wěn)固知識，從根本上避免了「災難性遺忘」。
凈增益優(yōu)勢：相比之下，GRPO雖然具有一定的探索能力，但在獲取新知識的同時，往往伴隨著對原有能力的劇烈侵蝕——即典型的「學新忘舊」。

由此可見，DPH-RL通過對強化學習組件的功能解耦，實現(xiàn)了保留與探索的顯式平衡。它證明了在通過 RL 提升模型能力上限的同時，穩(wěn)固已有的知識底座是取得最終勝出的關鍵。

總結

本文系統(tǒng)分析了RLVR中普遍存在的diversity collapse現(xiàn)象，指出常用的reverse-KL 及無divergence設定均缺乏有效的知識保留機制。為此，作者提出DPH-RL，將mass-coveringf-divergence作為保護模型多樣性與緩解遺忘的核心工具。

實驗表明，DPH-RL不僅能緩解Pass@k下降問題，還可同時提升Pass@1，并在跨域任務上展現(xiàn)出更優(yōu)的穩(wěn)定性與泛化能力。更重要的是，這一結果啟示我們：在RL后訓練時代，保住多樣性與提高獎勵同等重要。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.