国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

快手提出熵比裁剪方法,從局部約束到全局穩(wěn)定的關(guān)鍵一躍

0
分享至



本研究由快手科技語(yǔ)言大模型團(tuán)隊(duì)完成,核心作者蘇振鵬,潘雷宇等??焓终Z(yǔ)言大模型團(tuán)隊(duì)聚焦在基礎(chǔ)語(yǔ)言大模型研發(fā)、Agent RL 等前沿技術(shù)創(chuàng)新等方向,積累務(wù)實(shí)的探索 AGI 的能力邊界,并不斷推進(jìn) AI 領(lǐng)域新技術(shù)和新產(chǎn)品的發(fā)展。此前,該團(tuán)隊(duì)已開(kāi)源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在數(shù)學(xué)和代碼的基準(zhǔn)測(cè)試上達(dá)到了同參數(shù)級(jí)別模型的 SOTA 效果。

在大語(yǔ)言模型的后訓(xùn)練階段,強(qiáng)化學(xué)習(xí)已成為提升模型能力和對(duì)齊質(zhì)量的核心范式。然而,在廣泛采用的 off-policy 的訓(xùn)練范式中,更新當(dāng)前策略的數(shù)據(jù)由舊的行為策略生成,導(dǎo)致分布漂移的問(wèn)題的發(fā)生,這通常會(huì)將策略推至信任域之外,使強(qiáng)化學(xué)習(xí)的訓(xùn)練變得不穩(wěn)定。

盡管 PPO 通過(guò)重要性采樣的裁剪機(jī)制緩解了部分問(wèn)題,但它僅能約束已采樣動(dòng)作的概率變化,忽略了未采樣動(dòng)作的全局分布漂移。為了應(yīng)對(duì)這些挑戰(zhàn),快手研究團(tuán)隊(duì)提出了一種創(chuàng)新的熵比裁剪方法。該方法從全新的視角切入,通過(guò)約束策略熵的相對(duì)變化來(lái)穩(wěn)定全局分布,為強(qiáng)化學(xué)習(xí)訓(xùn)練提供了更加可靠的控制手段。



  • 論文標(biāo)題:Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning
  • 論文地址:https://arxiv.org/pdf/2512.05591

研究背景

強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中長(zhǎng)期面臨信任域偏離的挑戰(zhàn)。目前,業(yè)界用于大模型的強(qiáng)化學(xué)習(xí)常采用 off-policy 訓(xùn)練范式,用于更新當(dāng)前策略的數(shù)據(jù)由舊的行為策略生成,導(dǎo)致新舊策略之間存在分布漂移。主流方法通常采用重要性采樣來(lái)糾正此類偏差,但其固有的高方差可能導(dǎo)致更新步長(zhǎng)不穩(wěn)定,仍存在信任域偏離的風(fēng)險(xiǎn)。這種偏離具體表現(xiàn)為訓(xùn)練過(guò)程中梯度范數(shù)和策略熵的劇烈波動(dòng)。

PPO 算法是解決信任域偏離問(wèn)題的主流方案,主要有兩種形式:

  • PPO-penalty:在目標(biāo)函數(shù)中加入 KL 散度懲罰項(xiàng),對(duì)新舊策略的分布差異進(jìn)行全局約束。但是懲罰系數(shù)非常敏感,且對(duì)每個(gè)動(dòng)作概率施加逐點(diǎn)約束可能會(huì)抑制探索。
  • PPO-Clip:通過(guò)將重要性采樣比率限制在固定區(qū)間內(nèi),形成局部信任域,裁剪過(guò)大的更新以降低方差。該方法更魯棒且易于調(diào)參,但其約束僅作用于已采樣的動(dòng)作,未采樣的動(dòng)作則完全不受約束。

隨著訓(xùn)練迭代的不斷進(jìn)行,這部分未受約束的動(dòng)作分布會(huì)持續(xù)漂移,最終威脅策略的穩(wěn)定性。例如,假設(shè)動(dòng)作空間為 {a, b, c, d},舊策略的概率分布為 {0.85, 0, 0.15, 0},經(jīng)過(guò)多次迭代后,新策略的概率分布變?yōu)?{0.82, 0.064, 0.07, 0.046}。盡管采樣動(dòng)作 a 的概率變化微小,PPO-Clip 不會(huì)觸發(fā)裁剪,但其余動(dòng)作的分布已發(fā)生顯著偏移。

ERC 機(jī)制:從全局視角穩(wěn)定策略分布

受 PPO-clip 啟發(fā),論文提出了熵比裁剪(ERC)機(jī)制,當(dāng)新舊策略間的熵變化超出允許范圍時(shí),ERC 直接對(duì)樣本梯度進(jìn)行截?cái)?。ERC 并非取代 PPO-Clip,而是對(duì)其形成補(bǔ)充:PPO-Clip 僅約束采樣動(dòng)作的局部更新幅度,而 ERC 將熵比限制在一個(gè)適中的區(qū)間內(nèi),從而緩解整體策略分布的漂移。

首先,論文提出了熵比指標(biāo),其被定義為新舊策略在同一 token 上熵的相對(duì)變化。具體的,它被形式化定義為下式:



不同于重要性采樣比率,熵比可以測(cè)量整個(gè)動(dòng)作分布(包括未采樣動(dòng)作)的變化,提供了對(duì)策略全局漂移的度量。另外,論文還對(duì)采樣動(dòng)作概率與熵比的關(guān)系進(jìn)行可視化,如下圖所示:



當(dāng)采樣動(dòng)作較低或者較高時(shí),全局分布偏移變得更加明顯。

在將熵比作為策略分布的全局變化指標(biāo)引入后,論文進(jìn)一步將其集成到現(xiàn)有強(qiáng)化學(xué)習(xí)目標(biāo)中,旨在約束新舊策略之間全局分布的變化。以 DAPO 為例,其 ERC 目標(biāo)可形式化如下:



如果某個(gè) token 的更新導(dǎo)致熵比超出預(yù)設(shè)范圍,ERC 會(huì)直接截?cái)嗥鋵?duì)應(yīng)的梯度,以防止全局分布和策略熵的劇烈波動(dòng)。與在整個(gè)訓(xùn)練過(guò)程中持續(xù)限制策略的 KL 約束不同,熵比僅在新策略的熵發(fā)生顯著偏離時(shí)才被激活。這種方法既能防止策略分布的突然崩潰,又保留了足夠的探索能力。

實(shí)驗(yàn)結(jié)果

為驗(yàn)證 ERC 方法的穩(wěn)定性和性能上的有效性,論文在多個(gè)數(shù)學(xué)推理基準(zhǔn)上進(jìn)行了系統(tǒng)實(shí)驗(yàn),包括 AIME24、AIME25、HMMT25、MATH500 、AMC23 和 Olympiad。所有實(shí)驗(yàn)均基于 DeepSeek-R1-Distill-Qwen 模型(1.5B 與 7B)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果如下表所示。



與現(xiàn)有的 RL 基線方法相比,集成 ERC 后,模型幾乎在所有基準(zhǔn)測(cè)試上的性能都得到了一致提升。值得注意的是,在 AIME25 和 HMMT25 等更具挑戰(zhàn)性的基準(zhǔn)上,性能增益更為顯著,凸顯了 ERC 在復(fù)雜推理場(chǎng)景中的強(qiáng)大潛力。此外,該方法在 1.5B 和 7B 兩種參數(shù)規(guī)模上均取得了一致的改進(jìn),進(jìn)一步證明了其在不同模型容量下的魯棒性和可擴(kuò)展性。



為了進(jìn)一步驗(yàn)證 ERC 對(duì)訓(xùn)練動(dòng)態(tài)的影響,論文比較了不同方法下熵和梯度范數(shù)的演化過(guò)程,如上圖所示。傳統(tǒng)的裁剪方法在訓(xùn)練過(guò)程中常表現(xiàn)出較大的熵值波動(dòng)和不穩(wěn)定的梯度。相比之下,ERC 引入了全局熵比約束,熵值軌跡和梯度范數(shù)更加穩(wěn)定,在基準(zhǔn)上的評(píng)測(cè)結(jié)果也不斷提升。

深入分析:ERC 如何工作?

增強(qiáng)信任域約束

如下圖所示,ERC 的裁剪機(jī)制有效地強(qiáng)化了信任域約束。具體而言,被熵比邊界裁剪的 token 主要位于信任域的邊界附近。這表明,ERC 從全局分布的視角出發(fā),能夠識(shí)別并限制可能導(dǎo)致策略偏離的更新,而這些更新正是 PPO-Clip 的局部約束所忽略的。因此,ERC 與 PPO-Clip 以互補(bǔ)的方式協(xié)同工作,共同減輕信任域偏離,增強(qiáng)訓(xùn)練穩(wěn)定性。



通過(guò) ERC 保持探索

為了理解 ERC 對(duì)模型探索行為的影響,論文分析了在訓(xùn)練中被熵比約束裁剪的 token 的熵分布,如下圖所示,大多數(shù)被 ERC 裁剪的 token 集中在低熵區(qū)域,而高熵 token 在優(yōu)化過(guò)程中通常被保留。這表明 ERC 優(yōu)先抑制那些過(guò)于確定性、信息增益有限的 token 的更新,而不會(huì)過(guò)度約束模型的探索動(dòng)態(tài)。



裁剪比例分析

實(shí)驗(yàn)結(jié)果顯示,ERC 引入的全局分布約束顯著提高了裁剪比例。PPO-Clip 下的裁剪比例通常保持在 0.02% 左右,而 ERC 將此數(shù)值提高了近三個(gè)數(shù)量級(jí),達(dá)到約 20%。這種顯著差異源于兩種約束機(jī)制的根本不同:PPO-Clip 僅調(diào)控局部采樣動(dòng)作的重要性比率,越界情況本就罕見(jiàn);而 ERC 超越了這種局部約束,通過(guò)熵比融入了全局分布信號(hào),使其能夠識(shí)別并裁剪大量在全局分布層面偏離信任區(qū)域的 token 更新。

盡管 ERC 的裁剪比例顯著更高,但其在最終性能和訓(xùn)練穩(wěn)定性上均持續(xù)超越 PPO-Clip 基線。這個(gè)看似違反直覺(jué)的結(jié)果揭示了一個(gè)關(guān)鍵見(jiàn)解:ERC 主要移除了那些會(huì)使訓(xùn)練不穩(wěn)定的噪聲更新。被 ERC 裁剪的 token 大多集中在低熵區(qū)域,這表明 ERC 抑制了過(guò)于確定性且可能有害的更新,同時(shí)保留了模型在其他地方的探索行為。

對(duì)比與泛化能力

論文還將 ERC 與其他穩(wěn)定方法進(jìn)行了對(duì)比,并驗(yàn)證了其在其他強(qiáng)化學(xué)習(xí)算法中的泛化能力。

  • 與 KL 正則化的對(duì)比:ERC 在 AIME24 和 AIME25 基準(zhǔn)上均優(yōu)于 PPO-penalty(即 KL 正則化方法)。KL 散度施加的是逐點(diǎn)約束,要求新舊策略對(duì)每個(gè)動(dòng)作的概率分布都保持接近,這種嚴(yán)格的局部調(diào)控雖然可以穩(wěn)定訓(xùn)練,但不可避免地限制了有效的策略探索。而 ERC 實(shí)現(xiàn)了分布層面的軟約束,通過(guò)監(jiān)控熵比來(lái)關(guān)注整體策略分布的演變,在維持訓(xùn)練穩(wěn)定性的同時(shí)鼓勵(lì)更高效的探索。
  • 與熵正則化的對(duì)比:ERC 的表現(xiàn)顯著優(yōu)于在強(qiáng)化學(xué)習(xí)訓(xùn)練中直接加入熵懲罰項(xiàng)的方法。熵正則化只能緩解單向的不穩(wěn)定性(熵崩塌),而 ERC 的雙向裁剪機(jī)制能有效應(yīng)對(duì)策略演化中熵值波動(dòng)的兩個(gè)方向,確保策略的探索行為在合理可控的范圍內(nèi)平穩(wěn)演變。
  • 與序列級(jí)裁剪(GSPO)的對(duì)比:在 DeepSeek-R1-Distill-Qwen-7B 上的實(shí)驗(yàn)表明,結(jié)合了 PPO-Clip 和 ERC 的 token 級(jí)裁剪方法相較于序列級(jí)裁剪方法(如 GSPO)仍具有明顯優(yōu)勢(shì)。值得注意的是,ERC 與序列級(jí)裁剪是正交的,可以同時(shí)使用。
  • 更廣泛的適用性:除了 DAPO,論文還將 ERC 與 GPPO 方法結(jié)合。實(shí)驗(yàn)表明,將 ERC 集成到 GPPO 中同樣能帶來(lái)一致的性能提升,為 ERC 在不同 RL 算法中的普遍有效性提供了有力證據(jù)。這表明 ERC 不僅是現(xiàn)有重要性比率裁剪技術(shù)的補(bǔ)充組件,也有潛力作為一個(gè)獨(dú)立且魯棒的約束機(jī)制來(lái)穩(wěn)定策略優(yōu)化。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
追趕世界第一,中國(guó)096型戰(zhàn)略核潛艇,到底需要達(dá)到什么水平?

追趕世界第一,中國(guó)096型戰(zhàn)略核潛艇,到底需要達(dá)到什么水平?

策略述
2025-12-21 14:41:21
女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號(hào)快回來(lái)上班

女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號(hào)快回來(lái)上班

梅子的小情緒
2025-12-19 14:04:18
“牡丹花下死,做鬼也風(fēng)流”,這一次,74歲的張紀(jì)中徹底成了笑話

“牡丹花下死,做鬼也風(fēng)流”,這一次,74歲的張紀(jì)中徹底成了笑話

洲洲影視娛評(píng)
2025-12-08 19:52:00
王勵(lì)勤向現(xiàn)實(shí)妥協(xié)!公布選聘國(guó)乒領(lǐng)導(dǎo)崗位條件,排除一類特殊人才

王勵(lì)勤向現(xiàn)實(shí)妥協(xié)!公布選聘國(guó)乒領(lǐng)導(dǎo)崗位條件,排除一類特殊人才

三十年萊斯特城球迷
2025-12-20 20:37:47
93年廠里女同事摔傷了腿,我主動(dòng)背她回宿舍,誰(shuí)知她在我耳邊開(kāi)口

93年廠里女同事摔傷了腿,我主動(dòng)背她回宿舍,誰(shuí)知她在我耳邊開(kāi)口

卡西莫多的故事
2025-12-19 11:02:07
成都私人影院被曝暗藏“異性陪侍服務(wù)”!記者探訪:涉事門(mén)店已停業(yè),警方介入

成都私人影院被曝暗藏“異性陪侍服務(wù)”!記者探訪:涉事門(mén)店已停業(yè),警方介入

封面新聞
2025-12-21 13:27:08
至今健在的開(kāi)國(guó)將帥只剩一位,已經(jīng)102歲高齡,身體依舊健朗

至今健在的開(kāi)國(guó)將帥只剩一位,已經(jīng)102歲高齡,身體依舊健朗

興趣知識(shí)
2025-12-21 01:51:04
以色列擬邀請(qǐng)美國(guó)參戰(zhàn)

以色列擬邀請(qǐng)美國(guó)參戰(zhàn)

極目新聞
2025-12-21 14:21:48
國(guó)民黨告五個(gè)親綠“大法官”瀆職,黃國(guó)昌:民眾黨全力支持聲援

國(guó)民黨告五個(gè)親綠“大法官”瀆職,黃國(guó)昌:民眾黨全力支持聲援

海峽導(dǎo)報(bào)社
2025-12-21 16:32:07
喜歡被捆綁不是變態(tài),而是在追尋活著的意義,業(yè)界十大抖M女神

喜歡被捆綁不是變態(tài),而是在追尋活著的意義,業(yè)界十大抖M女神

吃瓜黨二號(hào)頭目
2025-12-20 12:14:54
海南封關(guān),新加坡派人訪華,他們還有一大優(yōu)勢(shì),已經(jīng)作出選擇

海南封關(guān),新加坡派人訪華,他們還有一大優(yōu)勢(shì),已經(jīng)作出選擇

小影的娛樂(lè)
2025-12-21 03:48:24
浙江多個(gè)縣(市、區(qū))委書(shū)記調(diào)整

浙江多個(gè)縣(市、區(qū))委書(shū)記調(diào)整

梗社
2025-12-21 07:16:39
泰國(guó)為何要攻打柬埔寨,你了解這個(gè)緣由的話,換你你也打

泰國(guó)為何要攻打柬埔寨,你了解這個(gè)緣由的話,換你你也打

沒(méi)有偏旁的常慶
2025-12-20 13:30:42
裝到了,愛(ài)德華茲未接亞歷山大視頻通話,并稱上傳完集錦再聯(lián)系

裝到了,愛(ài)德華茲未接亞歷山大視頻通話,并稱上傳完集錦再聯(lián)系

懂球帝
2025-12-21 13:07:15
臺(tái)灣網(wǎng)友:大陸若是國(guó)民黨掌握政權(quán),中國(guó)肯定不是今天這么強(qiáng)大。

臺(tái)灣網(wǎng)友:大陸若是國(guó)民黨掌握政權(quán),中國(guó)肯定不是今天這么強(qiáng)大。

百態(tài)人間
2025-12-20 05:20:05
和王思雨傳緋聞?帥哥曝光,29歲,也是籃球運(yùn)動(dòng)員,年薪超500萬(wàn)

和王思雨傳緋聞?帥哥曝光,29歲,也是籃球運(yùn)動(dòng)員,年薪超500萬(wàn)

體育有點(diǎn)水
2025-12-21 15:30:56
內(nèi)馬爾:我們會(huì)盡全力把世界杯帶回巴西,若進(jìn)決賽我保證會(huì)進(jìn)球

內(nèi)馬爾:我們會(huì)盡全力把世界杯帶回巴西,若進(jìn)決賽我保證會(huì)進(jìn)球

懂球帝
2025-12-21 11:11:09
技師上線了空姐版本

技師上線了空姐版本

微微熱評(píng)
2025-12-20 15:16:51
龐家后人對(duì)《新華社》報(bào)道的聲明:不公正、不理解、不接受

龐家后人對(duì)《新華社》報(bào)道的聲明:不公正、不理解、不接受

每日一見(jiàn)
2025-12-21 14:31:46
民進(jìn)黨支持者竟造謠“嫌犯是大陸籍” 蔣萬(wàn)安駁斥

民進(jìn)黨支持者竟造謠“嫌犯是大陸籍” 蔣萬(wàn)安駁斥

看看新聞Knews
2025-12-21 00:07:04
2025-12-21 17:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬(wàn)個(gè)應(yīng)用

頭條要聞

以色列準(zhǔn)備再次打擊伊朗 擬邀請(qǐng)美國(guó)參戰(zhàn)

頭條要聞

以色列準(zhǔn)備再次打擊伊朗 擬邀請(qǐng)美國(guó)參戰(zhàn)

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂(lè)要聞

鹿晗關(guān)曉彤戀愛(ài)期間毫不避諱?

財(cái)經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

手機(jī)
親子
時(shí)尚
游戲
藝術(shù)

手機(jī)要聞

小米手機(jī)相冊(cè)編輯煥新版本月底升級(jí),將上線保存原圖等高呼聲功能

親子要聞

撕破臉了?53歲寧?kù)o毫不掩飾,罵張柏芝的三胎全是“賠錢(qián)貨”

中年女人,冬天這么穿羽絨服、大衣,優(yōu)雅都藏在這3個(gè)細(xì)節(jié)里

夢(mèng)幻西游秦風(fēng)最大敵人竟是老板旭旭寶寶,爆總獲齊天第一憤怒腰帶

藝術(shù)要聞

河北美術(shù)學(xué)院教授,黃勝賢人物油畫(huà)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版