網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

挑戰(zhàn)GRPO，英偉達(dá)提出GDPO，專攻多獎(jiǎng)勵(lì)優(yōu)化

2026-01-12 13:58:37　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心編輯部

GRPO 是促使 DeepSeek-R1 成功的基礎(chǔ)技術(shù)之一。最近一兩年，GRPO 及其變體因其高效性和簡(jiǎn)潔性，已成為業(yè)內(nèi)廣泛采用的強(qiáng)化學(xué)習(xí)算法。

但隨著語(yǔ)言模型能力的不斷提升，用戶對(duì)它們的期待也在發(fā)生變化：不僅要回答正確，還要在各種不同場(chǎng)景下表現(xiàn)出符合多樣化人類偏好的行為。為此，強(qiáng)化學(xué)習(xí)訓(xùn)練流程開始引入多種獎(jiǎng)勵(lì)信號(hào)，每一種獎(jiǎng)勵(lì)對(duì)應(yīng)一種不同的偏好，用來(lái)共同引導(dǎo)模型走向理想的行為模式。

但英偉達(dá)的一篇新論文卻指出，在進(jìn)行多獎(jiǎng)勵(lì)優(yōu)化時(shí)，GRPO 可能不是最佳選擇。

具體來(lái)說(shuō)，在多獎(jiǎng)勵(lì)優(yōu)化場(chǎng)景中，GRPO 會(huì)將不同的獎(jiǎng)勵(lì)組合歸一化為相同的優(yōu)勢(shì)值。這會(huì)削弱訓(xùn)練信號(hào)，降低獎(jiǎng)勵(lì)水平。

為了解決這一問(wèn)題，他們提出了一種新的策略優(yōu)化方法 —— 組獎(jiǎng)勵(lì)解耦歸一化策略優(yōu)化（GDPO）。該方法通過(guò)對(duì)各個(gè)獎(jiǎng)勵(lì)信號(hào)分別進(jìn)行歸一化，避免了不同獎(jiǎng)勵(lì)之間被混合「抹平」，從而更真實(shí)地保留它們的相對(duì)差異，使多獎(jiǎng)勵(lì)優(yōu)化更加準(zhǔn)確，同時(shí)顯著提升了訓(xùn)練過(guò)程的穩(wěn)定性。

論文標(biāo)題：GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
論文鏈接：https://arxiv.org/pdf/2601.05242
代碼鏈接：https://github.com/NVlabs/GDPO
項(xiàng)目鏈接：https://nvlabs.github.io/GDPO/
HuggingFace 鏈接：https://huggingface.co/papers/2601.05242

在工具調(diào)用、數(shù)學(xué)推理和代碼推理這三類任務(wù)上，論文將 GDPO 與 GRPO 進(jìn)行了對(duì)比評(píng)測(cè)，既考察了正確性指標(biāo)（如準(zhǔn)確率、缺陷比例），也評(píng)估了對(duì)約束條件的遵守情況（如格式、長(zhǎng)度）。結(jié)果顯示，在所有設(shè)置中，GDPO 都穩(wěn)定地優(yōu)于 GRPO，驗(yàn)證了其在多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)優(yōu)化中的有效性和良好泛化能力。

GRPO 有什么問(wèn)題？

目前，GRPO 主要被用于優(yōu)化單一目標(biāo)的獎(jiǎng)勵(lì)，通常聚焦于準(zhǔn)確率。然而，隨著模型能力的持續(xù)提升，近期研究越來(lái)越傾向于同時(shí)優(yōu)化多個(gè)獎(jiǎng)勵(lì) —— 例如在準(zhǔn)確率之外，還考慮響應(yīng)長(zhǎng)度限制和格式質(zhì)量，以更好地與人類偏好保持一致?，F(xiàn)有的多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)方法通常采用一種直接的策略：將所有獎(jiǎng)勵(lì)分量相加，然后直接應(yīng)用 GRPO 進(jìn)行優(yōu)化。

具體而言，對(duì)于給定的問(wèn)答對(duì)，行為策略會(huì)為每個(gè)問(wèn)題采樣一組響應(yīng)。假設(shè)存在 n 個(gè)優(yōu)化目標(biāo)，則第 j 個(gè)響應(yīng)的聚合獎(jiǎng)勵(lì)被計(jì)算為各目標(biāo)獎(jiǎng)勵(lì)之和。隨后，通過(guò)對(duì)群組級(jí)別的聚合獎(jiǎng)勵(lì)進(jìn)行歸一化，得到第 j 個(gè)響應(yīng)的群組相對(duì)優(yōu)勢(shì)。

作者首先重新審視了這種將 GRPO 直接應(yīng)用于多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)優(yōu)化的常見做法，并發(fā)現(xiàn)了一個(gè)此前被忽視的問(wèn)題：GRPO 本質(zhì)上會(huì)壓縮獎(jiǎng)勵(lì)信號(hào)，導(dǎo)致優(yōu)勢(shì)估計(jì)中的信息損失。

為了說(shuō)明這一點(diǎn)，他們從一個(gè)簡(jiǎn)單的訓(xùn)練場(chǎng)景開始，然后推廣到更一般的情況。假設(shè)為每個(gè)問(wèn)題生成兩個(gè) rollout 來(lái)計(jì)算群組相對(duì)優(yōu)勢(shì)，且任務(wù)涉及兩個(gè)二值獎(jiǎng)勵(lì)（取值為 0 或 1）。因此，每個(gè) rollout 的總獎(jiǎng)勵(lì)可取 {0, 1, 2} 中的值。

如圖 2 所示，作者列舉了一個(gè)群組內(nèi)所有可能的 rollout 獎(jiǎng)勵(lì)組合。盡管在忽略順序的情況下存在六種不同的組合，但在應(yīng)用群組級(jí)獎(jiǎng)勵(lì)歸一化后，只會(huì)產(chǎn)生兩個(gè)唯一的優(yōu)勢(shì)組。具體來(lái)說(shuō)，(0,1)、(0,2) 和 (1,2) 會(huì)產(chǎn)生相同的歸一化優(yōu)勢(shì)值 (-0.7071, 0.7071)，而 (0,0)、(1,1) 和 (2,2) 則全部歸一化為 (0, 0)。

這揭示了 GRPO 優(yōu)勢(shì)計(jì)算在多獎(jiǎng)勵(lì)優(yōu)化中的一個(gè)根本性局限：它過(guò)度壓縮了豐富的群組級(jí)獎(jiǎng)勵(lì)信號(hào)。

從直覺上講，(0,2) 應(yīng)該比 (0,1) 產(chǎn)生更強(qiáng)的學(xué)習(xí)信號(hào)，因?yàn)榭偑?jiǎng)勵(lì)為 2 意味著同時(shí)滿足了兩個(gè)獎(jiǎng)勵(lì)條件，而獎(jiǎng)勵(lì)為 1 僅對(duì)應(yīng)達(dá)成一個(gè)。因此，當(dāng)另一個(gè) rollout 只獲得零獎(jiǎng)勵(lì)時(shí)，(0,2) 應(yīng)該產(chǎn)生比 (0,1) 更大的相對(duì)優(yōu)勢(shì)。這種局限性還可能因優(yōu)勢(shì)估計(jì)不準(zhǔn)確而引入訓(xùn)練不穩(wěn)定的風(fēng)險(xiǎn)。如圖 5 所示，當(dāng)使用 GRPO 訓(xùn)練時(shí)，正確率獎(jiǎng)勵(lì)分?jǐn)?shù)在約 400 個(gè)訓(xùn)練步后開始下降，表明出現(xiàn)了部分訓(xùn)練坍塌。

近期，Dr.GRPO 和 DeepSeek-v3.2 采用了 GRPO 的一個(gè)變體，移除了標(biāo)準(zhǔn)差歸一化項(xiàng)，使得優(yōu)勢(shì)直接等于原始獎(jiǎng)勵(lì)減去均值。盡管這些工作引入此修改是為了緩解問(wèn)題級(jí)別的難度偏差，但乍看之下，這一改變似乎也能解決上述問(wèn)題。具體而言，移除標(biāo)準(zhǔn)差歸一化確實(shí)在一定程度上緩解了問(wèn)題：(0,1) 和 (0,2) 現(xiàn)在分別產(chǎn)生 (-0.5, 0.5) 和 (-1.0, 1.0) 的不同優(yōu)勢(shì)值。

然而，當(dāng)將此設(shè)置推廣到更多 rollout（保持獎(jiǎng)勵(lì)數(shù)量固定）時(shí)，如圖 3 所示，作者觀察到這種修復(fù)方法相比標(biāo)準(zhǔn) GRPO 僅略微增加了不同優(yōu)勢(shì)組的數(shù)量。在固定 rollout 數(shù)量為 4、逐步增加獎(jiǎng)勵(lì)數(shù)量的設(shè)置下，也觀察到類似趨勢(shì) —— 不同優(yōu)勢(shì)組的數(shù)量?jī)H有適度改善。作者還在第 4.1.1 節(jié)中實(shí)證檢驗(yàn)了移除標(biāo)準(zhǔn)差歸一化項(xiàng)的效果，發(fā)現(xiàn)這一修改并未帶來(lái)更好的收斂性或更優(yōu)的下游評(píng)估表現(xiàn)。

GDPO是怎么做的？

為了克服上述挑戰(zhàn)，作者提出了群組獎(jiǎng)勵(lì)解耦歸一化策略優(yōu)化（GDPO），這是一種旨在更好地保持不同獎(jiǎng)勵(lì)組合之間區(qū)分度、并更準(zhǔn)確地在最終優(yōu)勢(shì)中捕捉其相對(duì)差異的方法。

與 GRPO 直接對(duì)聚合獎(jiǎng)勵(lì)和進(jìn)行群組級(jí)歸一化不同，GDPO 通過(guò)在聚合之前對(duì)每個(gè)獎(jiǎng)勵(lì)分別進(jìn)行群組級(jí)歸一化來(lái)解耦這一過(guò)程。具體而言，GDPO 不是先將所有 n 個(gè)獎(jiǎng)勵(lì)相加再進(jìn)行群組級(jí)歸一化得到總優(yōu)勢(shì)，而是為第 i 個(gè)問(wèn)題的第 j 個(gè) rollout 的每個(gè)獎(jiǎng)勵(lì)分別計(jì)算歸一化優(yōu)勢(shì)，如下所示：

用于策略更新的總體優(yōu)勢(shì)通過(guò)以下方式獲得：首先將所有目標(biāo)的歸一化優(yōu)勢(shì)相加，然后對(duì)多獎(jiǎng)勵(lì)優(yōu)勢(shì)之和應(yīng)用批次級(jí)優(yōu)勢(shì)歸一化。這確保了最終優(yōu)勢(shì)的數(shù)值范圍保持穩(wěn)定，不會(huì)隨著額外獎(jiǎng)勵(lì)的引入而增長(zhǎng)。從實(shí)證角度，作者還發(fā)現(xiàn)這一歸一化步驟能夠改善訓(xùn)練穩(wěn)定性。

通過(guò)分離每個(gè)獎(jiǎng)勵(lì)的歸一化，GDPO 緩解了 GRPO 優(yōu)勢(shì)估計(jì)中存在的信息損失問(wèn)題，如圖 2 所示。從圖中可以看到，當(dāng)采用 GRPO 時(shí)，不同的獎(jiǎng)勵(lì)組合（如 (0,2) 和 (0,1)）會(huì)導(dǎo)致相同的歸一化優(yōu)勢(shì)，從而掩蓋了它們之間的細(xì)微差異。相比之下，GDPO 通過(guò)為每種組合分配不同的優(yōu)勢(shì)值來(lái)保留這些細(xì)粒度差異。

作者通過(guò)在兩種實(shí)驗(yàn)設(shè)置下比較 GDPO、GRPO 和「無(wú)標(biāo)準(zhǔn)差 GRPO」產(chǎn)生的不同優(yōu)勢(shì)組數(shù)量，進(jìn)一步量化了 GDPO 的有效性，如圖 3 所示。在兩個(gè)獎(jiǎng)勵(lì)、rollout 數(shù)量變化的場(chǎng)景中，GDPO 始終產(chǎn)生顯著更多的不同優(yōu)勢(shì)組，且隨著 rollout 數(shù)量增加，差距不斷擴(kuò)大。另一方面，當(dāng)固定 rollout 數(shù)量為 4 并增加獎(jiǎng)勵(lì)數(shù)量時(shí)，也呈現(xiàn)出類似的模式 ——GDPO 隨著目標(biāo)數(shù)量增長(zhǎng)表現(xiàn)出逐步增大的優(yōu)勢(shì)粒度。這表明論文所提出的解耦歸一化方法在所有強(qiáng)化學(xué)習(xí)設(shè)置中都能有效增加不同優(yōu)勢(shì)組的數(shù)量，從而實(shí)現(xiàn)更精確的優(yōu)勢(shì)估計(jì)。

除了這些理論改進(jìn)之外，作者還觀察到使用 GDPO 能夠持續(xù)產(chǎn)生更穩(wěn)定的訓(xùn)練曲線和更好的收斂性。例如，在工具調(diào)用任務(wù)中，GDPO 在格式獎(jiǎng)勵(lì)和正確率獎(jiǎng)勵(lì)上都實(shí)現(xiàn)了更好的收斂，如圖 4（見實(shí)驗(yàn)部分）所示。GDPO 還消除了 GRPO 在數(shù)學(xué)推理任務(wù)中觀察到的訓(xùn)練坍塌問(wèn)題，如圖 5（見實(shí)驗(yàn)部分）所示，使用 GDPO 訓(xùn)練的模型在整個(gè)訓(xùn)練過(guò)程中持續(xù)改善正確率獎(jiǎng)勵(lì)分?jǐn)?shù)。實(shí)驗(yàn)部分的更多實(shí)證結(jié)果進(jìn)一步證實(shí)了 GDPO 在廣泛的下游任務(wù)上實(shí)現(xiàn)更強(qiáng)目標(biāo)偏好對(duì)齊的能力。

到目前為止，論文假設(shè)所有目標(biāo)具有同等重要性。然而在實(shí)際應(yīng)用中，這一假設(shè)并不總是成立。在論文中，作者系統(tǒng)地概述了如何調(diào)整與不同目標(biāo)相關(guān)的獎(jiǎng)勵(lì)權(quán)重，或修改獎(jiǎng)勵(lì)函數(shù)以強(qiáng)制優(yōu)先考慮更重要的目標(biāo)。論文還討論了當(dāng)?shù)讓营?jiǎng)勵(lì)在難度上存在顯著差異時(shí)，這兩種設(shè)計(jì)選擇的不同行為表現(xiàn)。具體內(nèi)容可參見論文第三章。

實(shí)驗(yàn)結(jié)果如何？

在實(shí)驗(yàn)部分，作者首先在工具調(diào)用任務(wù)上評(píng)估 GDPO 與 GRPO 的效果，然后在數(shù)學(xué)推理任務(wù)上進(jìn)行比較，最后將優(yōu)化獎(jiǎng)勵(lì)數(shù)量擴(kuò)展到三個(gè)，在代碼推理任務(wù)上進(jìn)行對(duì)比。

工具調(diào)用

從圖 4 的訓(xùn)練曲線可以看到，GDPO 在所有運(yùn)行中都能在格式獎(jiǎng)勵(lì)和正確率獎(jiǎng)勵(lì)上收斂到更高的值。盡管 GDPO 在格式獎(jiǎng)勵(lì)收斂所需步數(shù)上表現(xiàn)出更大的方差，但最終達(dá)到的格式合規(guī)性優(yōu)于 GRPO。對(duì)于正確率獎(jiǎng)勵(lì)，GDPO 在早期階段表現(xiàn)出更快的改善，并在后期達(dá)到比 GRPO 基線更高的獎(jiǎng)勵(lì)分?jǐn)?shù)。

在表 1 的 BFCL-v3 評(píng)估中，GDPO 也持續(xù)提升了平均工具調(diào)用準(zhǔn)確率和格式正確率。對(duì)于 Qwen2.5-Instruct-1.5B 的訓(xùn)練，GDPO 在 Live/non-Live 任務(wù)上分別取得了近 5% 和 3% 的提升，在整體平均準(zhǔn)確率上提高了約 2.7%，在正確格式比例上提高了 4% 以上。3B 模型上也觀察到類似的改進(jìn)。

關(guān)于移除標(biāo)準(zhǔn)差歸一化項(xiàng)的效果：從圖 4 可以觀察到，雖然「無(wú)標(biāo)準(zhǔn)差 GRPO」收斂到與 GDPO 相似且高于標(biāo)準(zhǔn) GRPO 的正確率獎(jiǎng)勵(lì)，但它在格式獎(jiǎng)勵(lì)上完全失敗。這導(dǎo)致在 BFCL-v3 上的正確格式比例為 0%（見表 2），表明模型未能學(xué)習(xí)所需的輸出結(jié)構(gòu)。這說(shuō)明簡(jiǎn)單地移除標(biāo)準(zhǔn)差歸一化項(xiàng)以增加優(yōu)勢(shì)多樣性可能會(huì)給訓(xùn)練引入不穩(wěn)定性。

數(shù)學(xué)推理

從圖 5 中 DeepSeek-R1-1.5B 的訓(xùn)練曲線可以看到，模型傾向于最大化更容易的獎(jiǎng)勵(lì)。在本例中，長(zhǎng)度獎(jiǎng)勵(lì)更容易優(yōu)化，GRPO 和 GDPO 都在大約前 100 個(gè)訓(xùn)練步內(nèi)達(dá)到滿分長(zhǎng)度獎(jiǎng)勵(lì)。長(zhǎng)度獎(jiǎng)勵(lì)的快速上升伴隨著正確率獎(jiǎng)勵(lì)的早期下降，表明這兩個(gè)獎(jiǎng)勵(lì)存在競(jìng)爭(zhēng)關(guān)系。

然而，從正確率獎(jiǎng)勵(lì)軌跡來(lái)看，GDPO 比 GRPO 更有效地恢復(fù)了正確率獎(jiǎng)勵(lì)。作者還觀察到 GRPO 訓(xùn)練在 400 步后開始不穩(wěn)定，正確率獎(jiǎng)勵(lì)分?jǐn)?shù)逐漸下降，而 GDPO 則繼續(xù)改善。此外，盡管兩者都保持了近乎完美的長(zhǎng)度分?jǐn)?shù)，但 GRPO 的最大響應(yīng)長(zhǎng)度在約 400 步后開始急劇增加，而 GDPO 的最大響應(yīng)長(zhǎng)度則持續(xù)下降。圖 9 和圖 10 中 DeepSeek-R1-7B 和 Qwen3-4B-Instruct 的訓(xùn)練曲線也顯示出類似的觀察結(jié)果。

表 3 的基準(zhǔn)測(cè)試結(jié)果表明，GDPO 訓(xùn)練的模型不僅在推理效率上比原始模型取得顯著提升（AIME 上超長(zhǎng)比例降低高達(dá) 80%），而且在大多數(shù)任務(wù)上也取得了更高的準(zhǔn)確率。對(duì)于 DeepSeek-R1-1.5B，GDPO 在所有基準(zhǔn)測(cè)試上都優(yōu)于 GRPO，在 MATH、AIME 和 Olympiad 上分別取得了 2.6%/6.7%/2.3% 的準(zhǔn)確率提升。DeepSeek-R1-7B 和 Qwen3-4B-Instruct 也呈現(xiàn)類似趨勢(shì)，GDPO 在更具挑戰(zhàn)性的 AIME 基準(zhǔn)測(cè)試上將準(zhǔn)確率提高了近 3%，同時(shí)將超長(zhǎng)率分別降低至 0.2% 和 0.1%。

代碼推理

作者在代碼推理任務(wù)上檢驗(yàn) GDPO 在優(yōu)化兩個(gè)以上獎(jiǎng)勵(lì)時(shí)是否仍然優(yōu)于 GRPO。如表 5 所示，在雙獎(jiǎng)勵(lì)設(shè)置下，GDPO 在所有任務(wù)上都提升了通過(guò)率，同時(shí)保持相似的超長(zhǎng)比例。例如，GDPO 在 Codecontests 上將通過(guò)率提高了 2.6%，而超長(zhǎng)比例僅增加 0.1%；在 Taco 上取得了 3.3% 的通過(guò)率提升，同時(shí)將超長(zhǎng)違規(guī)降低了 1%。

在三獎(jiǎng)勵(lì)設(shè)置下也呈現(xiàn)類似模式，GDPO 在所有目標(biāo)上都實(shí)現(xiàn)了更有利的平衡，在保持與 GRPO 相似通過(guò)率的同時(shí)，顯著降低了超長(zhǎng)比例和 bug 比例。

總體而言，這些結(jié)果表明 GDPO 在獎(jiǎng)勵(lì)信號(hào)數(shù)量增加時(shí)仍然有效，在雙獎(jiǎng)勵(lì)和三獎(jiǎng)勵(lì)配置中都始終比 GRPO 實(shí)現(xiàn)更優(yōu)的跨目標(biāo)權(quán)衡。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.