国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

揭秘!RLVR/GRPO中那些長期被忽略的關(guān)鍵缺陷

0
分享至



近年來,大模型在數(shù)學(xué)推理、代碼生成等任務(wù)上的突破,背后一個(gè)關(guān)鍵技術(shù)是RLVR(Reinforcement Learning with Verifiable Rewards)。

簡單來說,RLVR 不是讓模型「聽人打分」,而是讓模型自己嘗試多種解法,然后用可驗(yàn)證的規(guī)則(如答案是否正確)來反向改進(jìn)自己。這使得模型能夠通過反復(fù)試錯(cuò)不斷變強(qiáng),被廣泛應(yīng)用于當(dāng)前最先進(jìn)的推理模型中。

在實(shí)際訓(xùn)練中,為了讓學(xué)習(xí)過程更穩(wěn)定、避免引入額外的價(jià)值網(wǎng)絡(luò),許多 RLVR 方法(如 GRPO)都會(huì)對(duì)同一個(gè)問題生成一組回答,并在組內(nèi)進(jìn)行相對(duì)比較。模型不是直接看「這個(gè)回答好不好」,而是看「它在這一組回答中相對(duì)好不好」,這就是所謂的組內(nèi)優(yōu)勢(shì)估計(jì)(group-relative advantage),也是目前幾乎所有 group-based 強(qiáng)化學(xué)習(xí)方法的核心設(shè)計(jì)。優(yōu)勢(shì)估計(jì)并不僅僅是一個(gè)「評(píng)估指標(biāo)」,而是直接決定策略梯度更新方向的核心信號(hào)。

然而,一個(gè)長期被忽視的關(guān)鍵問題在于:組內(nèi)優(yōu)勢(shì)估計(jì)并不像人們通常直覺認(rèn)為的那樣是「近似無偏」的。

相反,北航、北大、UCB、美團(tuán)最新的工作揭示了,這種組內(nèi)優(yōu)勢(shì)估計(jì)在統(tǒng)計(jì)意義上存在明確且系統(tǒng)性的方向性偏差:困難題的優(yōu)勢(shì)會(huì)被持續(xù)低估,而簡單題的優(yōu)勢(shì)則被不斷高估。



  • 論文地址:https://arxiv.org/pdf/2601.08521

這一偏差帶來的后果往往十分隱蔽,卻極具破壞性。訓(xùn)練過程中,曲線表面上看似「穩(wěn)定收斂」,但模型實(shí)際上正在逐漸回避困難問題、轉(zhuǎn)而偏好簡單樣本。隨著訓(xùn)練的推進(jìn),探索與利用之間的平衡被悄然打破,模型的泛化能力與長期訓(xùn)練穩(wěn)定性也隨之下降。

更關(guān)鍵的是,這并非一個(gè)可以通過簡單調(diào)整超參數(shù)來緩解的問題,而是組內(nèi)優(yōu)勢(shì)估計(jì)這一設(shè)計(jì)在統(tǒng)計(jì)結(jié)構(gòu)層面本身就存在的內(nèi)在缺陷。

定義

接下來,我們先引入若干必要的定義,以便于清晰表述后續(xù)的核心發(fā)現(xiàn)。我們首先給出最常用的組內(nèi)相對(duì)優(yōu)勢(shì)估計(jì)的數(shù)學(xué)定義。

組內(nèi)相對(duì)優(yōu)勢(shì)估計(jì)(Group-relative Advantage) :







為便于闡述理論結(jié)論,下文中我們忽略標(biāo)準(zhǔn)化項(xiàng)。為了分析組內(nèi)優(yōu)勢(shì)估計(jì)的統(tǒng)計(jì)性質(zhì),我們需要引入策略在給定提示下的真實(shí)期望表現(xiàn)和優(yōu)勢(shì),并將其作為后續(xù)討論的參照基準(zhǔn)。

期望獎(jiǎng)勵(lì):



期望優(yōu)勢(shì):



為了刻畫不同提示在訓(xùn)練中所處的難易程度,并分析偏差在不同難度區(qū)域的行為差異,我們引入如下基于期望獎(jiǎng)勵(lì)的題目難度定義。

題目難度:



最后,在基于組的策略優(yōu)化方法中,并非所有采樣組都會(huì)對(duì)參數(shù)更新產(chǎn)生有效貢獻(xiàn)。為聚焦于真正驅(qū)動(dòng)學(xué)習(xí)的情形,我們需要顯式排除那些導(dǎo)致梯度消失的退化情況。

非退化梯度事件:

R 表示獎(jiǎng)勵(lì)總和:







從而導(dǎo)致梯度消失,參數(shù)不發(fā)生更新。實(shí)踐中,這類退化組不提供有效學(xué)習(xí)信號(hào),通常被 GRPO 及其變體顯式或隱式地忽略。因此,我們將分析聚焦于實(shí)際驅(qū)動(dòng)學(xué)習(xí)的有效更新區(qū)間,即至少存在一個(gè)非零優(yōu)勢(shì)的情形。形式化地,定義非退化事件:



對(duì) S 進(jìn)行條件化并不會(huì)改變優(yōu)化目標(biāo)或訓(xùn)練軌跡,而僅刻畫那些真正參與參數(shù)更新的樣本子集,使我們能夠精確分析組相對(duì)優(yōu)勢(shì)估計(jì)中的系統(tǒng)性偏差。

核心發(fā)現(xiàn)

重要發(fā)現(xiàn) 1:





這一結(jié)論表明,組相對(duì)優(yōu)勢(shì)的偏差并非由有限采樣噪聲引起,而是源自其相對(duì)優(yōu)勢(shì)估計(jì)機(jī)制本身,且與提示難度密切相關(guān)。





在相同的提示難度下,G 越小,優(yōu)勢(shì)估計(jì)偏差越大;隨著 G 的增加,偏差雖有所緩解,但在有限采樣范圍內(nèi)仍然不可忽略。

舉例 1:



舉例 2:



該圖展示了在 MATH 數(shù)據(jù)集上,對(duì)于同一道困難題目,組相對(duì)優(yōu)勢(shì)估計(jì)在不同回答采樣數(shù)量下的表現(xiàn)差異。當(dāng)采用 8 次采樣時(shí),對(duì)正確回答所計(jì)算得到的優(yōu)勢(shì)為 A=2.65;而當(dāng)采樣數(shù)量提升至 128 次時(shí),所估計(jì)的優(yōu)勢(shì)增大至 A=3.64,更接近其真實(shí)優(yōu)勢(shì)值。

重要發(fā)現(xiàn) 2:





論文也提供具體偏差量估計(jì):



總結(jié)



具體而言,該估計(jì)方法會(huì)對(duì)困難提示系統(tǒng)性地低估真實(shí)優(yōu)勢(shì),而對(duì)簡單提示系統(tǒng)性地高估真實(shí)優(yōu)勢(shì)。進(jìn)一步地,對(duì)于極其困難的提示,優(yōu)勢(shì)估計(jì)必然被低估;而對(duì)于極其簡單的提示,則必然被高估。

盡管上述分析主要基于0–1 二值獎(jiǎng)勵(lì)的設(shè)定,該假設(shè)覆蓋了大量 RLVR 場景,尤其是依賴硬判別 verifier 的推理任務(wù),但真實(shí)應(yīng)用中的獎(jiǎng)勵(lì)信號(hào)往往更加一般。

為此,論文在附錄 D.5 中將分析推廣至連續(xù)且有界的獎(jiǎng)勵(lì)分布。

結(jié)果表明,組相對(duì)優(yōu)勢(shì)估計(jì)中的核心偏差現(xiàn)象并非 Bernoulli 獎(jiǎng)勵(lì)假設(shè)的偶然產(chǎn)物,而是在更廣泛的有界獎(jiǎng)勵(lì)模型中同樣普遍存在。

這個(gè)發(fā)現(xiàn)告訴我們什么

該發(fā)現(xiàn)對(duì) RLVR 訓(xùn)練具有直接而深遠(yuǎn)的影響。

具體而言,組相對(duì)優(yōu)勢(shì)估計(jì)的系統(tǒng)性偏差會(huì)導(dǎo)致不同難度提示在學(xué)習(xí)過程中受到不平衡的梯度信號(hào):對(duì)于困難提示,其真實(shí)優(yōu)勢(shì)被低估,從而產(chǎn)生較小的梯度更新,導(dǎo)致學(xué)習(xí)進(jìn)展緩慢;而對(duì)于簡單提示,其優(yōu)勢(shì)被高估,模型則容易對(duì)其過度強(qiáng)化。最終,這種不對(duì)稱的優(yōu)勢(shì)估計(jì)會(huì)抑制有效探索,使訓(xùn)練過程偏向于反復(fù)強(qiáng)化簡單樣本,而忽視真正具有挑戰(zhàn)性的提示。

基于上述分析,我們認(rèn)為優(yōu)勢(shì)估計(jì)應(yīng)當(dāng)根據(jù)提示難度進(jìn)行自適應(yīng)調(diào)整:對(duì)于困難提示,應(yīng)適當(dāng)放大其估計(jì)優(yōu)勢(shì)以鼓勵(lì)探索;而對(duì)于簡單提示,則應(yīng)抑制其優(yōu)勢(shì)以防止過度利用。

為在實(shí)踐中判定提示難度,論文提出算法HA-DW,引入短期歷史平均獎(jiǎng)勵(lì)作為動(dòng)態(tài)錨點(diǎn),將新提示與該錨點(diǎn)進(jìn)行對(duì)比,從而判斷其相對(duì)難度,并據(jù)此對(duì)優(yōu)勢(shì)估計(jì)進(jìn)行自適應(yīng)重加權(quán)。



該圖展示了在對(duì)組相對(duì)優(yōu)勢(shì)估計(jì)進(jìn)行校正之后,不同難度提示上的性能變化??梢杂^察到,引入優(yōu)勢(shì)校正機(jī)制后(GRPO+HA-DW),模型在困難提示(Hard)上的性能提升最為顯著,相比原始 GRPO 提升了 3.4%。

GRPO/Group-based PO 的問題不只是 variance,而是 bias。這項(xiàng)工作也釋放了一個(gè)很強(qiáng)的信號(hào):LLM 強(qiáng)化學(xué)習(xí)正在從「工程上能跑出效果就行」,回到「估計(jì)是不是準(zhǔn)確」的根本問題和可解釋性。以后 RLVR 里,bias analysis /estimator correctness 很可能會(huì)成為標(biāo)配。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
北汽中層干部景平利退休六年多被查!早年曾是縫紉機(jī)廠技術(shù)員

北汽中層干部景平利退休六年多被查!早年曾是縫紉機(jī)廠技術(shù)員

運(yùn)營商財(cái)經(jīng)網(wǎng)
2026-01-30 09:51:00
官方確認(rèn):不續(xù)約今夏自由身離隊(duì) 格雷茨卡將結(jié)束8年拜仁生涯

官方確認(rèn):不續(xù)約今夏自由身離隊(duì) 格雷茨卡將結(jié)束8年拜仁生涯

智道足球
2026-01-30 17:50:08
掘金再遭重創(chuàng)!戈登因右腿筋拉傷至少缺席4-6周 曾因此連歇19場

掘金再遭重創(chuàng)!戈登因右腿筋拉傷至少缺席4-6周 曾因此連歇19場

羅說NBA
2026-01-30 06:48:13
遼寧省人民代表大會(huì)公告(第一號(hào))

遼寧省人民代表大會(huì)公告(第一號(hào))

遼寧高院
2026-01-30 18:40:59
笑噴!語文11.5分、數(shù)學(xué)9.5分的成績發(fā)布,家長回復(fù)“老師辛苦”

笑噴!語文11.5分、數(shù)學(xué)9.5分的成績發(fā)布,家長回復(fù)“老師辛苦”

云中浮生
2026-01-30 17:08:50
馬斯克拉響警報(bào):舊世界只剩5年,中國手握的唯一王牌,不是芯片

馬斯克拉響警報(bào):舊世界只剩5年,中國手握的唯一王牌,不是芯片

郭蛹包工頭
2026-01-30 11:33:20
外賣員送餐發(fā)現(xiàn)是自己地址,接下單:我倒要看看誰在我家!

外賣員送餐發(fā)現(xiàn)是自己地址,接下單:我倒要看看誰在我家!

曉艾故事匯
2025-07-14 17:13:00
牢A反駁羅翔,算是踢到鋼板了

牢A反駁羅翔,算是踢到鋼板了

大張的自留地
2026-01-30 15:10:44
自取滅亡的立陶宛總統(tǒng)瑙塞達(dá),這次中國沒有遷就他!

自取滅亡的立陶宛總統(tǒng)瑙塞達(dá),這次中國沒有遷就他!

百態(tài)人間
2026-01-29 15:43:09
特朗普聽取多種打擊伊朗方案

特朗普聽取多種打擊伊朗方案

每日經(jīng)濟(jì)新聞
2026-01-30 12:56:54
整壺滾燙咖啡潑向9個(gè)月嬰兒! 中國留學(xué)生作案后逃回國難脫罪責(zé)!

整壺滾燙咖啡潑向9個(gè)月嬰兒! 中國留學(xué)生作案后逃回國難脫罪責(zé)!

北國向錫安
2026-01-30 11:18:50
太痛了!極端天氣奪命,華人老人與10歲外孫不幸遇難

太痛了!極端天氣奪命,華人老人與10歲外孫不幸遇難

華人生活網(wǎng)
2026-01-29 05:04:00
官宣登陸英超!U23國足隊(duì)長首秀時(shí)間曝光 或外租英甲老牌勁旅鍛煉

官宣登陸英超!U23國足隊(duì)長首秀時(shí)間曝光 或外租英甲老牌勁旅鍛煉

我愛英超
2026-01-30 18:41:23
牢A命中,被一窩端16人都是女留學(xué)生

牢A命中,被一窩端16人都是女留學(xué)生

雪中風(fēng)車
2026-01-28 13:23:54
TVB前花旦激罕復(fù)出64歲狀態(tài)曝光,圈中老公曾戀梅艷芳終情歸太太

TVB前花旦激罕復(fù)出64歲狀態(tài)曝光,圈中老公曾戀梅艷芳終情歸太太

粵睇先生
2026-01-30 15:42:48
英國首相斯塔默:與中國接觸符合國家利益

英國首相斯塔默:與中國接觸符合國家利益

參考消息
2026-01-29 11:28:59
英國首相訪華:當(dāng)“5眼”跪了4眼,黃金的狂歡要到頭了

英國首相訪華:當(dāng)“5眼”跪了4眼,黃金的狂歡要到頭了

百味朱砂
2026-01-30 06:57:06
申花被足協(xié)官宣扣分第二天!馬納法就發(fā)聲做出重要決定,贏得點(diǎn)贊

申花被足協(xié)官宣扣分第二天!馬納法就發(fā)聲做出重要決定,贏得點(diǎn)贊

張麗說足球
2026-01-30 16:11:04
陪讀媽媽怒懟牢A,脖子上的“認(rèn)主項(xiàng)鏈”被滬爺認(rèn)出,暴露真相

陪讀媽媽怒懟牢A,脖子上的“認(rèn)主項(xiàng)鏈”被滬爺認(rèn)出,暴露真相

妍妍教育日記
2026-01-27 20:19:13
76歲上海知青回江西訪友,竟發(fā)現(xiàn)當(dāng)年的女友終生未嫁:我對(duì)不住你

76歲上海知青回江西訪友,竟發(fā)現(xiàn)當(dāng)年的女友終生未嫁:我對(duì)不住你

五元講堂
2026-01-19 11:13:16
2026-01-30 19:28:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12225文章數(shù) 142555關(guān)注度
往期回顧 全部

科技要聞

意念控制機(jī)器人不是科幻 1-2年就落地

頭條要聞

特朗普警告稱中英、中加合作是"危險(xiǎn)的" 外交部回應(yīng)

頭條要聞

特朗普警告稱中英、中加合作是"危險(xiǎn)的" 外交部回應(yīng)

體育要聞

敢揍多爾特,此子必成大器?

娛樂要聞

金晨出事前 曾靈魂發(fā)問未收到春晚邀請(qǐng)

財(cái)經(jīng)要聞

金銀閃崩,是調(diào)整還是趨勢(shì)反轉(zhuǎn)的開始?

汽車要聞

合資品牌首搭800V/5C快充 東風(fēng)日產(chǎn)NX8將于3、4月上市

態(tài)度原創(chuàng)

旅游
藝術(shù)
游戲
教育
時(shí)尚

旅游要聞

文旅煥新+冰雪燃情,日照新春文旅體育活動(dòng)豐富多彩

藝術(shù)要聞

風(fēng)景畫選刊 | 中國油畫學(xué)會(huì)三十年藝術(shù)展

在上海,我們將與“索尼克”開展最終的速度對(duì)決

教育要聞

五年級(jí)求面積,重難點(diǎn)題型

推廣|| 冬天利用率超高的裙子,怎么搭都對(duì)!

無障礙瀏覽 進(jìn)入關(guān)懷版