国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

強(qiáng)化學(xué)習(xí)的進(jìn)化:從PPO到MaxRL,LLM推理訓(xùn)練的算法演進(jìn)史

0
分享至

機(jī)器之心編譯

強(qiáng)化學(xué)習(xí)已成為 LLM 后訓(xùn)練技術(shù)棧中最重要的技術(shù)之一。它是促成 GPT-3 向 InstructGPT 轉(zhuǎn)變的關(guān)鍵要素。此后,它也成為當(dāng)前這波推理能力提升浪潮的核心。

第一代針對(duì) LLM 的強(qiáng)化學(xué)習(xí)以 PPO為主導(dǎo)。該方法最初為雅達(dá)利游戲和機(jī)器人等傳統(tǒng)強(qiáng)化學(xué)習(xí)場(chǎng)景開(kāi)發(fā),后來(lái)極其成功地適配到了 RLHF 中。

在提升推理能力這一目標(biāo)的驅(qū)動(dòng)下,第二代方法帶來(lái)了新一輪的算法演進(jìn)。短時(shí)間內(nèi)涌現(xiàn)了大量變體。多數(shù)變體與前代方法只有微小差異,但這些差異卻產(chǎn)生了深遠(yuǎn)的影響。

本文簡(jiǎn)明扼要地概述了用于推理 LLM 的強(qiáng)化學(xué)習(xí)(2024 至 2026 年)的主要進(jìn)展。文章將從基礎(chǔ)知識(shí)(REINFORCE 和 PPO)講起,隨后探討 GRPO 及其后續(xù)的改進(jìn)與優(yōu)化方法。



  • 原文地址:aweers.de/blog/2026/rl-for-llms/
  • 作者:Alexander Weers

強(qiáng)化學(xué)習(xí)簡(jiǎn)介



舉個(gè)具體的例子,機(jī)器人在房間內(nèi)導(dǎo)航:狀態(tài)是其當(dāng)前位置和傳感器讀數(shù),動(dòng)作是移動(dòng)指令,狀態(tài)轉(zhuǎn)移的動(dòng)力學(xué)由物理規(guī)律決定(如車輪可能會(huì)打滑),而獎(jiǎng)勵(lì)則反映了其向目標(biāo)推進(jìn)的程度。

這個(gè)循環(huán)會(huì)持續(xù) T 個(gè)時(shí)間步。智能體的目標(biāo)是最大化期望的折扣回報(bào)





其策略通常由參數(shù) θ 表示。許多強(qiáng)化學(xué)習(xí)算法中的一個(gè)核心概念是價(jià)值函數(shù)



它衡量了在策略 π 下處于狀態(tài) s 的好壞程度。由此,我們可以推導(dǎo)出優(yōu)勢(shì),用于評(píng)估某個(gè)具體動(dòng)作比預(yù)期更好還是更差。



人們依然可以對(duì)該環(huán)境進(jìn)行建模。其中狀態(tài)為「提示詞加上之前生成的 token」,動(dòng)作為下一個(gè) token。但在實(shí)際操作中,通常無(wú)法為單個(gè) token 分配有意義的獎(jiǎng)勵(lì)。我們只能在給定提示詞的情況下,為完整的回復(fù)提供一個(gè)整體獎(jiǎng)勵(lì)。如果強(qiáng)行分配,除最后一個(gè) token 外,所有 token 的獎(jiǎng)勵(lì)都將為零。這會(huì)讓問(wèn)題設(shè)定變得不必要地復(fù)雜。

REINFORCE

我們從 REINFORCE 開(kāi)始講起。它不僅在概念上很簡(jiǎn)單,同時(shí)也是所有策略梯度方法的基礎(chǔ)。



在最簡(jiǎn)單的形式下,REINFORCE 的目標(biāo)函數(shù)是:



該目標(biāo)函數(shù)的梯度具有一種簡(jiǎn)單且易于解釋的形式:



作為對(duì)比,監(jiān)督微調(diào)的梯度為



(請(qǐng)注意,SFT 損失是最小化的,而強(qiáng)化學(xué)習(xí)目標(biāo)是最大化的)。

這一對(duì)比表明,REINFORCE 本質(zhì)上是一種帶有權(quán)重的 SFT 形式。我們不再?gòu)?qiáng)化外部提供的異策略答案 y^*。相反,我們根據(jù)獎(jiǎng)勵(lì)對(duì)采樣的同策略答案 y 進(jìn)行加權(quán),以此來(lái)強(qiáng)化或懲罰它們。

REINFORCE 的主要缺點(diǎn)是方差較大。即使獎(jiǎng)勵(lì)結(jié)構(gòu)相對(duì)明確(例如一個(gè)大型測(cè)試套件中,每個(gè)測(cè)試項(xiàng)貢獻(xiàn)部分獎(jiǎng)勵(lì)),不同樣本之間的梯度估計(jì)值也可能存在巨大差異。

為了減小方差,REINFORCE 會(huì)減去一個(gè)與采樣動(dòng)作(回復(fù))無(wú)關(guān)的基線 b(x)。這使得期望梯度保持不變,因?yàn)?/p>



同時(shí)這通常能大幅降低方差。此時(shí)梯度變?yōu)?/p>



數(shù)量 r(x,y)-b(x) 便是優(yōu)勢(shì)估計(jì)的最簡(jiǎn)單形式。

PPO

PPO (近端策略優(yōu)化) 曾是占據(jù)主導(dǎo)地位的通用策略梯度算法。在過(guò)去幾年里,它也是 RLHF 的默認(rèn)選擇。

PPO 的目標(biāo)函數(shù)通常以一種看起來(lái)很復(fù)雜的形式呈現(xiàn):



其中





有人可能會(huì)問(wèn):「對(duì)于同策略強(qiáng)化學(xué)習(xí),這個(gè)值不應(yīng)該始終為 1 嗎?」答案是肯定的,但這僅限于生成推演數(shù)據(jù)后的第一個(gè)優(yōu)化器步驟。

引入這個(gè)比例是因?yàn)橥蒲輸?shù)據(jù)的生成成本很高。在實(shí)際應(yīng)用中,人們通常會(huì)將生成的一批數(shù)據(jù)重復(fù)用于多個(gè)微批次更新或多個(gè)輪次的訓(xùn)練。在第一個(gè)優(yōu)化器步驟之后,訓(xùn)練策略就不再與生成策略完全一致了。因此,PPO 變得略微帶有一些異策略的性質(zhì)。該比例糾正了這種不匹配。同時(shí),裁剪操作限制了優(yōu)化過(guò)程偏離生成策略的程度。這是 PPO 對(duì)信任域的一種近似計(jì)算。

需要注意的是,裁剪不僅會(huì)影響目標(biāo)函數(shù)的值,更重要的是會(huì)影響其對(duì) θ 的依賴關(guān)系。由于我們通過(guò)優(yōu)化 θ 來(lái)最大化 J,被裁剪的情況會(huì)產(chǎn)生零梯度,這是因?yàn)閷W(xué)習(xí)到的策略已不再是等式的一部分。由于此時(shí)已經(jīng)超出了信任域,針對(duì)這些情況的更新將被跳過(guò)。

裁剪操作處理以下四種場(chǎng)景:



我們也可以將這種裁剪表達(dá)為一個(gè)掩碼:



采用這種表達(dá)方式后,目標(biāo)函數(shù)可簡(jiǎn)化為:



因此,PPO 本質(zhì)上是一個(gè)帶有信任域掩碼、經(jīng)過(guò)重要性加權(quán)的策略梯度方法。

對(duì)于優(yōu)勢(shì)估計(jì),PPO 使用了廣義優(yōu)勢(shì)估計(jì)器(GAE):



計(jì)算 δ 需要一個(gè)學(xué)習(xí)到的價(jià)值函數(shù)。在 LLM 的設(shè)定中,這通常需要一個(gè)額外的價(jià)值模型。其參數(shù)規(guī)模往往與策略模型相當(dāng)。這會(huì)消耗大量?jī)?nèi)存,并增加訓(xùn)練的復(fù)雜性。由于移除這一組件正是 GRPO 的主要實(shí)際貢獻(xiàn),本文將不深入探討 GAE 細(xì)節(jié)。關(guān)于 PPO 及其所有組件的深度解析,請(qǐng)參閱這篇詳盡的文章。

最后,PPO 目標(biāo)函數(shù)通常會(huì)結(jié)合 KL 正則化:



這里的 π_ref 通常是強(qiáng)化學(xué)習(xí)訓(xùn)練前的模型。在 RLHF 中,這一項(xiàng)尤為重要。它保留了模型的通用能力,并有助于控制相對(duì)于獎(jiǎng)勵(lì)模型的分布偏移(獎(jiǎng)勵(lì)模型是在參考策略 π_ref 上訓(xùn)練的)。在推理強(qiáng)化學(xué)習(xí)中,KL 懲罰項(xiàng)通常設(shè)置得非常小,甚至完全省略。

在其完整形式下,PPO 需要在內(nèi)存中駐留四個(gè)龐大的組件:可訓(xùn)練策略、推演策略、參考策略以及價(jià)值模型。

GRPO

GRPO (組相對(duì)策略優(yōu)化)最初在 DeepSeekMath 中提出,隨后被 DeepSeek-R1 發(fā)揚(yáng)光大。它移除了 PPO 的價(jià)值模型,取而代之的是一個(gè)相對(duì)組內(nèi)的基線。





直觀上來(lái)說(shuō),一條推演數(shù)據(jù)的基線不再是一個(gè)學(xué)習(xí)到的價(jià)值函數(shù)。相反,它是同一提示詞下其他推演數(shù)據(jù)的表現(xiàn)。當(dāng)獎(jiǎng)勵(lì)稀疏但在每個(gè)提示詞下可以獲得多個(gè)樣本時(shí),這種方法效果尤為顯著。

GRPO 目標(biāo)函數(shù)保留了 PPO 風(fēng)格的裁剪重要性采樣。在其最初的公式中,也包含了一個(gè) KL 項(xiàng):





組內(nèi)歸一化帶來(lái)兩個(gè)有用的效果。減去均值使得學(xué)習(xí)信號(hào)變?yōu)橄鄬?duì)于當(dāng)前提示詞的信號(hào)。如果某個(gè)提示詞的所有樣本獎(jiǎng)勵(lì)都在 [0.8, 1.0] 之間,那么 0.8 的獎(jiǎng)勵(lì)含義,與所有樣本獎(jiǎng)勵(lì)都在 [0.2, 0.8] 之間時(shí)截然不同。除以標(biāo)準(zhǔn)差則降低了對(duì)獎(jiǎng)勵(lì)尺度的敏感度。當(dāng)組合具有不同獎(jiǎng)勵(lì)范圍的任務(wù)時(shí),這一點(diǎn)非常有用。

然而,GRPO 成功的更重要原因非常簡(jiǎn)單:它移除了 critic 模型。這大幅減少了內(nèi)存占用,使得面向推理模型的大規(guī)模強(qiáng)化學(xué)習(xí)更容易運(yùn)行。

RLOO

RLOO 從不同的方向得出了類似的結(jié)論:對(duì)于 LLM 微調(diào)場(chǎng)景,PPO 可能比實(shí)際需要的更復(fù)雜。

對(duì)于每個(gè)提示詞,RLOO 會(huì)采樣 K 個(gè)回復(fù) {y_1, ..., y_K}?;貜?fù) y_i 的優(yōu)勢(shì)等于其獎(jiǎng)勵(lì)減去其他 K-1 個(gè)回復(fù)的平均獎(jiǎng)勵(lì):



這個(gè)基線是無(wú)偏的,并且不需要學(xué)習(xí)額外的價(jià)值模型。與 GRPO 不同,RLOO 不會(huì)除以組內(nèi)的標(biāo)準(zhǔn)差。

更重要的是,RLOO 放棄了 PPO 風(fēng)格的裁剪,轉(zhuǎn)而回到純粹的 REINFORCE 風(fēng)格更新。

RLOO 的目標(biāo)函數(shù)為:



作者提出,在他們的實(shí)驗(yàn)中,這種裁剪機(jī)制僅在不到 5% 的情況下被激活。在這個(gè)場(chǎng)景下,它可能是不必要的。我們接下來(lái)會(huì)看到,后續(xù)的研究得出了不同的結(jié)論。

Dr. GRPO

DeepSeek 在其 DeepSeek-Math 和 R1 的論文中指出,隨著強(qiáng)化學(xué)習(xí)訓(xùn)練的推進(jìn),回復(fù)長(zhǎng)度大幅增加。他們將此歸因于推理和反思能力的提升(即著名的「頓悟」時(shí)刻)。

盡管這可能是一個(gè)驅(qū)動(dòng)因素,Dr. GRPO (意為「做對(duì)的 GRPO/GRPO Done Right」) 的作者們發(fā)現(xiàn)了另一個(gè)更重要的原因。標(biāo)準(zhǔn)的樣本級(jí)損失歸一化引入了一種偏置。這種偏置傾向于支持簡(jiǎn)短的正確回復(fù)以及冗長(zhǎng)的錯(cuò)誤回復(fù)。

在常見(jiàn)的 GRPO 實(shí)現(xiàn)中,token 損失首先在每個(gè)序列內(nèi)取平均值,然后再跨序列取平均值。這意味著一個(gè)固定的序列級(jí)獎(jiǎng)勵(lì)會(huì)被均攤到序列中的所有 token 上。因此,如果回復(fù)正確,較長(zhǎng)回復(fù)在每個(gè) token 上受到的強(qiáng)化力度會(huì)更弱。如果回復(fù)錯(cuò)誤,較長(zhǎng)回復(fù)在每個(gè) token 上受到的懲罰力度也會(huì)更弱。這可能會(huì)帶來(lái)過(guò)度冗長(zhǎng)的傾向。

修復(fù)方法很簡(jiǎn)單。Dr. GRPO 不再先除以序列長(zhǎng)度再除以批次大小,而是除以一個(gè)固定常量(即最大 token 數(shù))。這有效地消除了使得錯(cuò)誤答案變得不必要冗長(zhǎng)的激勵(lì)因素。

Dr. GRPO 還移除了另一種會(huì)引入有害偏置的歸一化操作。當(dāng)每個(gè)提示詞的獎(jiǎng)勵(lì)通過(guò)其標(biāo)準(zhǔn)差進(jìn)行歸一化時(shí),如果某個(gè)提示詞的所有答案都具有相似的獎(jiǎng)勵(lì)(例如,除了一個(gè)答案外其他全都正確,獎(jiǎng)勵(lì)方差很低),哪怕極其微小的獎(jiǎng)勵(lì)差異也會(huì)放大成巨大的歸一化優(yōu)勢(shì)。結(jié)果就是,模型在那些已經(jīng)基本回答正確的提示詞上,可能會(huì)接收到極不相稱的巨大更新。

Dr. GRPO 的優(yōu)勢(shì)估計(jì)簡(jiǎn)化為:



這里沒(méi)有除以標(biāo)準(zhǔn)差。而且損失是在 token 級(jí)別通過(guò)固定歸一化進(jìn)行聚合,而不是先根據(jù)序列長(zhǎng)度取平均值。

這里傳達(dá)的實(shí)踐意義在于,GRPO 在根本上并沒(méi)有什么問(wèn)題。只是其中一些看似無(wú)害的歸一化操作并非中立。在長(zhǎng)文本推理任務(wù)中,它們改變了哪些提示詞和 token 會(huì)接收到梯度信號(hào)。

DAPO

DAPO (解耦優(yōu)勢(shì)策略優(yōu)化) 對(duì) GRPO 的多個(gè)組件進(jìn)行了另一種深入分析,并提出了四項(xiàng)改進(jìn):

首先,DAPO 將樣本級(jí)的均值計(jì)算替換為了基于 token 級(jí)別的聚合計(jì)算(這與 Dr. GRPO 類似。不過(guò) DAPO 除以的是實(shí)際 token 數(shù)量,而 Dr. GRPO 使用的是常量)。

第二項(xiàng)改進(jìn)針對(duì)的是裁剪機(jī)制。PPO 的對(duì)稱比例裁剪對(duì)低概率 token 的限制尤為嚴(yán)格,甚至有些過(guò)度。例如,如果一個(gè) token 的概率為 0.01,在 ε = 0.2 的情況下,其概率只能上升到 0.012 就會(huì)被裁剪。這幾乎無(wú)法改變其被采樣的可能性。這種機(jī)制會(huì)抑制模型學(xué)習(xí)那些罕見(jiàn)但有用的推理延續(xù)過(guò)程。

因此,DAPO 解耦了裁剪邊界。它采用了一個(gè)更大的上界 ε_(tái)high = 0.28,同時(shí)保留了原有的下界 ε_(tái)low = 0.2(即非對(duì)稱裁剪)。

結(jié)合 token 級(jí)別的聚合和非對(duì)稱裁剪,DAPO 的目標(biāo)函數(shù)變?yōu)椋?/p>



另外兩項(xiàng)改進(jìn)并未修改目標(biāo)方程,它們的作用在于提升單步訓(xùn)練效率。

第三項(xiàng)改變是超長(zhǎng)獎(jiǎng)勵(lì)塑形。在許多設(shè)定中,被截?cái)嗟幕貜?fù)與完全錯(cuò)誤的回復(fù)會(huì)獲得相同的獎(jiǎng)勵(lì)。這種做法充滿了噪聲。一條回復(fù)可能包含了主要正確的推理過(guò)程,但仍然因?yàn)殚L(zhǎng)度限制而被截?cái)?。DAPO 在硬性截?cái)嘀霸黾恿艘粋€(gè)軟性懲罰區(qū)域:



這創(chuàng)造了一個(gè)更明確的學(xué)習(xí)信號(hào)。因?yàn)槁晕⒊L(zhǎng)的回復(fù)只會(huì)受到輕微的懲罰,而過(guò)度冗長(zhǎng)的回復(fù)則會(huì)收到強(qiáng)烈的負(fù)面反饋。由此,模型能夠?qū)W習(xí)到問(wèn)題出在回復(fù)長(zhǎng)度上。模型避免了將截?cái)嗯c徹底的任務(wù)失敗混為一談。

第四項(xiàng)改變是動(dòng)態(tài)采樣。如果某個(gè)提示詞下采樣的所有回復(fù)全部正確,或者全部錯(cuò)誤,那么組內(nèi)相對(duì)優(yōu)勢(shì)將全為零。該提示詞將無(wú)法提供任何梯度貢獻(xiàn)。在這種情況下,DAPO 會(huì)持續(xù)采樣,直到每個(gè)提示詞都出現(xiàn)了正負(fù)混合的結(jié)果。這確保了優(yōu)化批次中的每個(gè)提示詞都能提供學(xué)習(xí)信號(hào)。這種方法提升了單步效率。由于較難的批次可能需要更多的生成操作,它也可能會(huì)增加實(shí)際運(yùn)行時(shí)間。

CISPO

CISPO (裁剪重要性采樣策略優(yōu)化)在 MiniMax-M1 報(bào)告中首次提出。它針對(duì)的是 PPO 風(fēng)格裁剪的一個(gè)特定弱點(diǎn):當(dāng)一個(gè) token 落在裁剪范圍之外時(shí),PPO 會(huì)完全阻斷其梯度。

這種行為非常保守,有時(shí)甚至可以說(shuō)是過(guò)度謹(jǐn)慎。那些經(jīng)歷了大幅概率波動(dòng)的 token 往往正是對(duì)于學(xué)習(xí)推理行為最關(guān)鍵的 token。報(bào)告中提到,像「However」(然而)、「Recheck」(復(fù)核)、「Wait」(等等)和「Aha」(啊哈)這類詞匯在基座模型中的概率很低,但它們卻可以作為推理軌跡中的分叉點(diǎn)。

如果每當(dāng)比例變得過(guò)大時(shí),這些 token 就會(huì)被屏蔽,那么這種丟棄富含信息的梯度的做法將大大延緩學(xué)習(xí)進(jìn)程。

因此,CISPO 將裁剪與梯度流進(jìn)行了解耦。它不再以一種產(chǎn)生硬性掩碼的方式來(lái)裁剪目標(biāo)函數(shù)。相反,它僅裁剪重要性采樣的權(quán)重,并對(duì)該權(quán)重應(yīng)用停止梯度(stop-gradient)操作:



其中 sg(·) 表示停止梯度。

有趣的是,他們報(bào)告稱只需使用并調(diào)節(jié)上邊界裁剪項(xiàng) ε_(tái)h。下邊界 ε_(tái)l 則被設(shè)置為一個(gè)足夠大的值,使其在實(shí)際中處于未激活狀態(tài)。

這種公式化的表達(dá)既保留了重要性采樣權(quán)重裁剪帶來(lái)的降低方差的優(yōu)勢(shì),同時(shí)又允許所有 token 的梯度正常反向傳播。結(jié)果是帶來(lái)了更穩(wěn)定的訓(xùn)練過(guò)程,并且不會(huì)抑制對(duì)高信息量 token 的學(xué)習(xí)。在 MiniMax 的實(shí)驗(yàn)中,與 DAPO 相比,其單步訓(xùn)練效率實(shí)現(xiàn)了兩倍的提速。

CISPO 可以看作是 PPO 風(fēng)格掩碼的一種軟性替代方案。它保留了信任域的直覺(jué)理念,同時(shí)僅僅裁剪權(quán)重,從而避免了刪掉整個(gè)更新的情況。

MaxRL



這一點(diǎn)非常重要。作者團(tuán)隊(duì)證明了



因此,最大似然的梯度實(shí)際上是 pass@k 梯度的無(wú)限調(diào)和混合,而不僅僅是 pass@1 的梯度。標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)僅僅保留了該展開(kāi)式的第一階項(xiàng)。

基于此,MaxRL 定義了一個(gè)受計(jì)算量索引截?cái)嗟哪繕?biāo)函數(shù)家族:





期望梯度與此目標(biāo)相匹配的同策略估計(jì)器非常簡(jiǎn)單。給定某個(gè)提示詞的 N 個(gè)推演結(jié)果,設(shè) K 為成功推演的數(shù)量。接著,MaxRL 僅對(duì)這些成功軌跡的得分函數(shù)求均值:



對(duì)于截?cái)嘀?T=N 的 MaxRL 目標(biāo)函數(shù),這個(gè)估計(jì)器是無(wú)偏的。它與 REINFORCE 的關(guān)鍵區(qū)別在于,在這種情況下,增加推演次數(shù)不僅能降低估計(jì)器的方差,同時(shí)也能使優(yōu)化目標(biāo)本身更好地逼近最大似然估計(jì)。







實(shí)證結(jié)果表明,MaxRL 提升了 pass@k 性能。與 GRPO 相比,它能更好地保留輸出多樣性,并在測(cè)試時(shí)算力擴(kuò)展的效率上帶來(lái)了巨大的收益。

在概念層面,這種方法同樣頗具趣味。它將面向可驗(yàn)證任務(wù)的強(qiáng)化學(xué)習(xí),重新構(gòu)建為在不可微采樣條件下的近似最大似然訓(xùn)練。

DPPO

相比于 DAPO 或 CISPO,DPPO (散度 PPO) 更加直接地重新審視了信任域問(wèn)題。

它的核心批判點(diǎn)在于,PPO 僅僅基于采樣 token 的概率比例進(jìn)行裁剪。這種方式可能并不能很好地代表實(shí)際策略散度,對(duì)于那些罕見(jiàn) token 尤其如此。這些 token 的概率可能發(fā)生了一個(gè)數(shù)量級(jí)的改變,但對(duì)全局分布的影響仍然微乎其微。

這種問(wèn)題在訓(xùn)練與推理框架存在差異的情況下會(huì)被進(jìn)一步放大。即使參數(shù)完全一致,在不同框架間,低概率 token 的概率比例也可能出現(xiàn)劇烈波動(dòng)。反觀總變差等散度度量指標(biāo),則要穩(wěn)定得多。

因此,DPPO 用基于預(yù)估策略散度定義的信任域(TV 或 KL 散度)取代了基于比例的掩碼。在整個(gè)詞表上計(jì)算精確的完整散度代價(jià)極其高昂。不過(guò)實(shí)證研究表明,采用二元近似(僅比較采樣的 token 在兩種策略下的概率)或者 Top-K 近似方法都能取得不錯(cuò)的效果。

DPPO 的更新公式變?yōu)?/p>



其中 M_div 充當(dāng)一個(gè)掩碼,用于屏蔽那些預(yù)估散度超過(guò)閾值 τ 的更新。

從他們的實(shí)驗(yàn)中可以得出一個(gè)有趣的洞察:絕大部分的不穩(wěn)定性僅由一小部分(不足 0.5%)的更新引起。這種情況發(fā)生在負(fù)樣本將策略推得過(guò)遠(yuǎn)時(shí)。在他們的實(shí)驗(yàn)設(shè)定下,只要屏蔽這部分更新,就足以讓訓(xùn)練變得穩(wěn)定。

總而言之,DPPO 引出了一個(gè)關(guān)鍵問(wèn)題,即我們?cè)?LLM 領(lǐng)域究竟應(yīng)該如何定義信任域。同時(shí)它也為這個(gè)問(wèn)題提供了一種解答方案。

ScaleRL

ScaleRL 的重點(diǎn)并非在于發(fā)明一種全新的目標(biāo)函數(shù)。它更側(cè)重于探索在算力規(guī)模大幅擴(kuò)張后,哪些設(shè)計(jì)選擇依然至關(guān)重要。

該論文報(bào)告了超過(guò) 40 萬(wàn) GPU 小時(shí)的消融實(shí)驗(yàn)。更重要的是,在評(píng)估不同方法時(shí),他們通過(guò)擬合出類似 S 型的「性能與算力」曲線來(lái)進(jìn)行分析。這完全不同于僅僅對(duì)比某一個(gè)單獨(dú)的訓(xùn)練檢查點(diǎn)。

這種分析框架非常有用,因?yàn)樗褍蓚€(gè)經(jīng)常被混為一談的變量分離開(kāi)了:第一是方法在給定算力預(yù)算下性能提升的速度,第二是它最終達(dá)到瓶頸的位置。一種方法可能在低算力下表現(xiàn)強(qiáng)勁,但很快就進(jìn)入了平臺(tái)期;另一種方法可能上升緩慢,但最終能達(dá)到更好的漸近性能上限。

他們的主要發(fā)現(xiàn)包括:

  • 異步強(qiáng)化學(xué)習(xí)。與常見(jiàn)的「先生成后更新」循環(huán)相比,ScaleRL 更傾向于一種流水線式的異步設(shè)置。在這種設(shè)置中,推演結(jié)果會(huì)持續(xù)生成,權(quán)重更新也會(huì)立刻被推送。這主要通過(guò)減少空閑時(shí)間來(lái)提升計(jì)算效率,同時(shí)保持最終性能處于同等水平甚至更好。
  • 損失類型。在他們比較的眾多異策略損失函數(shù)中,CISPO 和 GSPO 在漸近性能上優(yōu)于 DAPO。由于 CISPO 結(jié)合了強(qiáng)勁的性能表現(xiàn)以及相對(duì)出色的魯棒性,它被選為默認(rèn)配置。
  • FP32 logits。生成內(nèi)核和訓(xùn)練內(nèi)核之間微小的數(shù)值不匹配,可能會(huì)嚴(yán)重扭曲重要性采樣的比例。正如 MiniMax 報(bào)告 中提出的那樣,在 FP32 精度下計(jì)算語(yǔ)言模型頭可以大幅緩解這一問(wèn)題。在他們的消融實(shí)驗(yàn)中,該做法顯著提升了漸近性能。
  • 損失聚合。在損失聚合方面,他們展示了與 Dr. GRPO 和 DAPO 相同的偏置問(wèn)題,即樣本平均化是次優(yōu)選擇。他們觀察到,提示詞級(jí)別的平均化能帶來(lái)最佳性能。
  • 零方差過(guò)濾。如果某個(gè)提示詞的所有答案全對(duì)或全錯(cuò),就不會(huì)有任何學(xué)習(xí)信號(hào)。DAPO 會(huì)選擇繼續(xù)采樣更多數(shù)據(jù)(這在步數(shù)優(yōu)化上可能是最優(yōu)的)。但 ScaleRL 采用了不同的策略,將這些提示詞從優(yōu)化過(guò)程中排除,以此來(lái)加速訓(xùn)練。
  • 無(wú)正向重采樣。如果某個(gè)提示詞產(chǎn)生的正確答案超過(guò) 90%,那么它將被排除在未來(lái)的訓(xùn)練輪次之外。這稍微拖慢了訓(xùn)練速度,但能實(shí)現(xiàn)更高的漸近性能。

ScaleRL 的價(jià)值體現(xiàn)于兩個(gè)方面。其一是它進(jìn)行了大規(guī)模的實(shí)證驗(yàn)證;其二是它厘清了性能提升曲線的形態(tài),這涵蓋了早期學(xué)習(xí)速度和漸近性能表現(xiàn)。

總結(jié)

下表總結(jié)了各方法之間的主要區(qū)別:



其中



縱觀這些方法,我們可以發(fā)現(xiàn)幾個(gè)反復(fù)出現(xiàn)的模式:

對(duì)于 LLM 訓(xùn)練而言,critic 模型似乎不再是必需項(xiàng)。自 PPO 之后,每一種方法都發(fā)現(xiàn),諸如組均值、留一法或貪婪推演等更為簡(jiǎn)單的基線設(shè)定,不僅能夠達(dá)到甚至超越學(xué)習(xí)到的價(jià)值函數(shù)效果,還能節(jié)省約 50% 的內(nèi)存。在 LLM 的微調(diào)設(shè)定下,模型是從強(qiáng)大的預(yù)訓(xùn)練檢查點(diǎn)起步,而非隨機(jī)初始化。這似乎使得 PPO 的方差削減機(jī)制顯得頗為多余。這并不意味著我們永遠(yuǎn)不會(huì)再見(jiàn)到價(jià)值模型。只不過(guò),目前將其用作方差削減工具所付出的內(nèi)存代價(jià)是不劃算的。

標(biāo)準(zhǔn)差歸一化往往會(huì)產(chǎn)生副作用。Dr. GRPO 和 MaxRL 都表明,將優(yōu)勢(shì)除以 σ 會(huì)使得模型過(guò)度關(guān)注那些幾乎已經(jīng)解決的問(wèn)題。ScaleRL 的消融實(shí)驗(yàn)也證實(shí)了這一點(diǎn)。與 CISPO 和 GSPO (本文未涵蓋,可能會(huì)在擴(kuò)展閱讀中介紹)相比,采用標(biāo)準(zhǔn)差歸一化的 DAPO 在漸近性能上明顯更低。

損失聚合絕非無(wú)關(guān)緊要的細(xì)節(jié)。Dr. GRPO 和 DAPO 指出,序列級(jí)獎(jiǎng)勵(lì)結(jié)合樣本級(jí)均值的做法會(huì)扭曲每個(gè) token 的學(xué)習(xí)信號(hào)。損失函數(shù)的規(guī)約是一個(gè)關(guān)鍵環(huán)節(jié)。不當(dāng)?shù)倪x擇可能會(huì)引入不易察覺(jué)的偏置。

信任域是一個(gè)極佳的優(yōu)化切入點(diǎn)。PPO 對(duì)信任域的定義(ε = 0.2)似乎恰到好處,它在各種模型和任務(wù)上都有良好的表現(xiàn)。然而,最近許多新方法將目光對(duì)準(zhǔn)了信任域,并展示了更優(yōu)的性能。DAPO 放寬了非對(duì)稱限制。CISPO 選擇裁剪權(quán)重,從而避免對(duì)梯度設(shè)置硬掩碼。DPPO 則提出,采樣 token 概率比值一開(kāi)始就不是應(yīng)當(dāng)約束的正確對(duì)象。目前學(xué)術(shù)界尚未對(duì)信任域得出一個(gè)普遍認(rèn)可的優(yōu)秀定義,而且可能根本不存在適用于所有任務(wù)和模型的統(tǒng)一標(biāo)準(zhǔn)。該領(lǐng)域的深入研究有望帶來(lái)持續(xù)的突破。

一份初步的最佳實(shí)踐正在成型。目前最有說(shuō)服力的大規(guī)模證據(jù)指向了一些共同的特征:無(wú) critic 模型訓(xùn)練、感知 token 或感知提示詞的損失聚合、更柔性或更具原則性的信任域處理機(jī)制,以及對(duì)課程學(xué)習(xí)和算力分配日益明確的關(guān)注。盡管這是實(shí)打?qū)嵉倪M(jìn)步,但隨著新方法或新細(xì)節(jié)的引入,這一現(xiàn)狀隨時(shí)可能被顛覆。

開(kāi)放挑戰(zhàn)

盡管進(jìn)展神速,但仍有幾個(gè)根本性挑戰(zhàn)尚未解決。本節(jié)的參考文獻(xiàn)可能并不完整,如果您認(rèn)為我有遺漏,請(qǐng)隨時(shí)與我聯(lián)系。

信用分配機(jī)制。現(xiàn)有的基于結(jié)果的方法本質(zhì)上是將相同的獎(jiǎng)勵(lì)分配給回復(fù)中的所有 token。這種方式出人意料地有效,且易于實(shí)現(xiàn),但效率顯然很低。導(dǎo)致推理失敗的那個(gè)關(guān)鍵 token 接收到的信號(hào),與其周圍無(wú)關(guān)緊要的模板化詞匯完全相同。目前,過(guò)程獎(jiǎng)勵(lì)模型、步驟級(jí)驗(yàn)證器、基于搜索的方法以及對(duì)分支敏感的訓(xùn)練目標(biāo)都在試圖解決這個(gè)問(wèn)題。由于技術(shù)尚未收斂,還沒(méi)有任何一種方案成為標(biāo)準(zhǔn)的解決之道。

樣本效率。眾所周知,強(qiáng)化學(xué)習(xí)中的信息增益僅僅只有一個(gè)比特(對(duì)或錯(cuò))。當(dāng)前大多數(shù)訓(xùn)練配方依賴于為每個(gè)提示詞生成多個(gè)推演結(jié)果(通常是 8 到 64 個(gè))來(lái)構(gòu)建有效的相對(duì)基線。即便擁有自動(dòng)驗(yàn)證器,這種做法的代價(jià)依然高昂。而在驗(yàn)證成本很高或需要部分人工介入的情況下,情況則會(huì)進(jìn)一步惡化。更好地重復(fù)利用失敗樣本、優(yōu)化離線與在線數(shù)據(jù)的混合比例,或是改進(jìn)提示詞選擇策略,都有望大幅降低這一成本。

極具挑戰(zhàn)的難題。如果模型始終無(wú)法對(duì)某個(gè)提示詞生成正確的推演結(jié)果,那么本文提到的所有方法都無(wú)法提供任何梯度。課程學(xué)習(xí)在實(shí)踐中有所幫助,但這僅僅是權(quán)宜之計(jì)。從部分正確的軌跡中提取信號(hào)的更強(qiáng)方法,或者將搜索與強(qiáng)化學(xué)習(xí)相結(jié)合的機(jī)制,依然是重要的研究方向(這與信用分配機(jī)制息息相關(guān))。

向數(shù)學(xué)與代碼領(lǐng)域之外的拓展。最近幾乎所有的突破都源于那些驗(yàn)證成本低廉且對(duì)錯(cuò)分明的領(lǐng)域(即數(shù)學(xué)和代碼)。將這些方法擴(kuò)展到伴隨噪聲獎(jiǎng)勵(lì)、延遲獎(jiǎng)勵(lì)、主觀評(píng)估或是多輪交互的場(chǎng)景,依然是一項(xiàng)艱巨的任務(wù)。

實(shí)證結(jié)果的可靠性。在這些開(kāi)放性挑戰(zhàn)中,也許最容易被低估的一個(gè)問(wèn)題在于,該領(lǐng)域的大部分證據(jù)仍停留在實(shí)證層面,適用范圍相對(duì)狹窄,且復(fù)現(xiàn)成本高昂。許多論文僅僅測(cè)試了單一模型家族、單一驗(yàn)證器設(shè)定、單一數(shù)據(jù)集組合以及固定的算力預(yù)算。正如 ScaleRL 所指出的,一種人為干預(yù)措施可能會(huì)改變?cè)缙趯W(xué)習(xí)速度,也可能會(huì)影響漸近性能,或者對(duì)兩者都有影響。但這兩種提升指標(biāo)不可互相替代。因此,我們對(duì)該領(lǐng)域的實(shí)際了解,或許遠(yuǎn)少于表面上看起來(lái)的程度。部分方法可能是穩(wěn)健的算法層面改進(jìn);另一部分方法或許只適用于特定的模型、獎(jiǎng)勵(lì)設(shè)計(jì)或訓(xùn)練機(jī)制。它們都有其價(jià)值所在。問(wèn)題在于,我們必須清楚其各自的局限性。

這些挑戰(zhàn)引出了一個(gè)更宏觀的結(jié)論。缺乏可用的算法,已經(jīng)不再是阻礙大語(yǔ)言模型強(qiáng)化學(xué)習(xí)發(fā)展的瓶頸所在。目前我們已經(jīng)掌握了好幾種優(yōu)秀的算法。更為棘手的問(wèn)題在于效率、魯棒性以及泛化能力。與此同時(shí),我們需要弄清楚,在模型規(guī)模擴(kuò)展和跨任務(wù)遷移的過(guò)程中,哪些實(shí)證改進(jìn)是真正能夠留存下來(lái)的。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點(diǎn)
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來(lái) | 伊朗的反應(yīng)為何如此激烈

偉偉道來(lái) | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報(bào)
2026-05-06 11:40:46
吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國(guó)買房,50萬(wàn)英鎊獎(jiǎng)金需交稅超23萬(wàn)鎊,實(shí)際到手約26.5萬(wàn)鎊

吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國(guó)買房,50萬(wàn)英鎊獎(jiǎng)金需交稅超23萬(wàn)鎊,實(shí)際到手約26.5萬(wàn)鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請(qǐng)賽5月9日開(kāi)桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請(qǐng)賽5月9日開(kāi)桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個(gè)隱私,是性感嗎?

女性跑步:暴露這個(gè)隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國(guó)人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒(méi)一個(gè)在出現(xiàn)場(chǎng)

在中國(guó)人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒(méi)一個(gè)在出現(xiàn)場(chǎng)

侃故事的阿慶
2026-05-06 09:21:32
被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

新京報(bào)
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說(shuō)她索取無(wú)度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說(shuō)她索取無(wú)度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來(lái),誰(shuí)敢動(dòng)筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來(lái),誰(shuí)敢動(dòng)筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說(shuō)故事的阿襲
2026-05-05 20:20:30
8.84億的美國(guó)工廠說(shuō)關(guān)就關(guān)?曹德旺:美國(guó)不講理,我就不陪玩了

8.84億的美國(guó)工廠說(shuō)關(guān)就關(guān)?曹德旺:美國(guó)不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報(bào)
2026-05-06 12:38:05
中美同時(shí)向全球下達(dá)禁令,各國(guó)都傻眼了!美媒:中國(guó)此舉史無(wú)前例

中美同時(shí)向全球下達(dá)禁令,各國(guó)都傻眼了!美媒:中國(guó)此舉史無(wú)前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽(tīng)到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽(tīng)到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬(wàn)買"熊膽"心虛

頭條要聞

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬(wàn)買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂(lè)要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰(shuí)真能賣 誰(shuí)在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無(wú)論能源形式 領(lǐng)克都要快樂(lè)

態(tài)度原創(chuàng)

家居
房產(chǎn)
手機(jī)
教育
公開(kāi)課

家居要聞

大膽前衛(wèi) 時(shí)尚大宅

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉(cāng)凱旋新世界

手機(jī)要聞

谷歌推送5月Pixel手機(jī)更新,修復(fù)無(wú)線充電慢、相機(jī)卡死等問(wèn)題

教育要聞

六條邏輯主線替代四個(gè)大概念,反映了怎樣的理念? | 高中課標(biāo)修訂解讀⑥

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版