多獎勵場景全面領(lǐng)先！清華新作高熵驅(qū)動，強化學(xué)習(xí)效率飆升

2026-01-24 13:12:01　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導(dǎo)讀】面對流模型強化學(xué)習(xí)中獎勵信號稀疏、歸因模糊的核心痛點，清華大學(xué)團隊提出熵感知的E-GRPO框架，通過合并低熵步驟、聚焦高熵探索，在單獎勵與多獎勵場景下均實現(xiàn)性能突破，相比主流方法HPS指標提升10.8%，ImageReward指標最高提升32.4%，為視覺生成的人類偏好對齊提供了更高效的解決方案。

近年來，擴散模型與流匹配模型等生成式 AI 技術(shù)在視覺內(nèi)容創(chuàng)作領(lǐng)域取得突破性進展，從藝術(shù)設(shè)計到醫(yī)療成像，應(yīng)用場景不斷拓展。而強化學(xué)習(xí)從人類反饋（RLHF）技術(shù)的引入，更是讓生成模型能夠精準對齊人類偏好，大幅提升內(nèi)容質(zhì)量。

然而，當前基于分組相對策略優(yōu)化（GRPO）的流模型強化學(xué)習(xí)方法，在多步去噪過程中面臨嚴重的獎勵信號稀疏與歸因模糊問題，低熵步驟的探索價值有限，卻占用大量計算資源，導(dǎo)致模型優(yōu)化效率低下、偏好對齊效果不佳。

近日，清華大學(xué)團隊提出熵感知分組相對策略優(yōu)化（E-GRPO）框架，通過深入分析去噪步驟的熵特性，創(chuàng)新性地將連續(xù)低熵步驟合并為高熵有效步驟，同時保留確定性O(shè)DE采樣的穩(wěn)定性，成功解決了獎勵歸因模糊難題，實現(xiàn)了更高效的探索與更精準的偏好對齊。

論文地址：https://arxiv.org/abs/2601.00423v1

代碼地址：https://github.com/shengjun-zhang/VisualGRPO

模型地址：https://huggingface.co/studyOverflow/E-GRPO

E-GRPO研究背景

主流GRPO-based方法在流模型訓(xùn)練中，會對所有去噪時間步進行均勻優(yōu)化，但清華大學(xué)團隊通過實驗發(fā)現(xiàn)，不同去噪步驟的探索價值存在顯著差異：

高熵步驟具有更大的探索空間，能夠生成多樣性豐富、獎勵差異明顯的樣本，是模型優(yōu)化的核心驅(qū)動力；

低熵步驟的樣本差異極小，獎勵信號區(qū)分度低，類似給最終圖像添加10%隨機噪聲的效果，不僅難以引導(dǎo)有效優(yōu)化，還會因累積隨機性導(dǎo)致獎勵歸因模糊 —— 某一步的有效探索可能被后續(xù)軌跡偏差「懲罰」，使模型優(yōu)化方向跑偏。

實驗數(shù)據(jù)顯示，僅優(yōu)化前8個高熵步驟的模型性能，顯著優(yōu)于優(yōu)化全部16個步驟的模型，證實了低熵步驟的「無效性」。如何充分利用高熵步驟的探索價值，同時避免低熵步驟帶來的干擾，成為提升流模型強化學(xué)習(xí)效率的關(guān)鍵。

熵對采樣步驟的影響

E-GRPO框架通過熵驅(qū)動的步驟合并策略與多步分組歸一化優(yōu)勢估計兩大核心創(chuàng)新。

1. 熵驅(qū)動自適應(yīng)步驟合并：低熵「打包」，高熵聚焦

團隊設(shè)計了自適應(yīng)熵閾值，將所有去噪步驟劃分為高熵組與低熵組。對于連續(xù)的低熵步驟，通過合并形成單一高熵有效步驟，在保留總擴散效果的前提下，將多個低熵 SDE 步驟轉(zhuǎn)化為一個高熵 SDE 步驟，其余步驟則采用確定性 ODE 采樣。

這種合并策略不僅大幅減少了無效計算，還通過擴大單一步驟的探索范圍提升了熵值，同時避免了多步 SDE 采樣帶來的累積隨機性，讓獎勵信號能夠精準歸因到有價值的探索步驟上。

2. 多步分組歸一化優(yōu)勢：獎勵信號更密集、更可靠

針對合并后的高熵步驟，E-GRPO引入多步分組歸一化優(yōu)勢估計方法。在每個合并步驟對應(yīng)的樣本組內(nèi)，直接計算組內(nèi)相對優(yōu)勢，確保獎勵信號能夠一致歸因到合并步驟，避免了跨步驟的獎勵混淆。這種設(shè)計讓模型獲得了更密集、更可靠的反饋信號，能夠快速鎖定優(yōu)化方向，提升訓(xùn)練效率與穩(wěn)定性。

E-GRPO采樣策略

性能亮點

在HPD數(shù)據(jù)集上，以FLUX.1-dev為骨干模型，在單獎勵和多獎勵兩種設(shè)置下，對E-GRPO進行了全面評估，結(jié)果顯示其性能超越現(xiàn)有主流方法。

E-GRPO數(shù)值結(jié)果測評

單獎勵設(shè)置下，E-GRPO的HPS指標達到0.391，相比DanceGRPO提升10.8%，ImageScore指標達到1.324，穩(wěn)居同類方法第一；多獎勵設(shè)置下（有效避免獎勵作弊），E-GRPO不僅保持HPS指標領(lǐng)先，還在跨域指標上實現(xiàn)突破：ImageReward提升32.4%，PickScore提升4.4%，展現(xiàn)出更強的泛化能力。

訓(xùn)練獎勵曲線

E-GRPO的訓(xùn)練獎勵曲線呈現(xiàn)更快的早期增長與更平滑的收斂趨勢，相比基線方法能夠更快達到穩(wěn)定性能，同時因減少了無效步驟的計算，降低了訓(xùn)練成本。

可視化結(jié)果

在定性對比中，E-GRPO生成的內(nèi)容更精準貼合文本提示，兼具語義一致性與細節(jié)豐富度：

對于「裝扮成水手的木瓜」提示，E-GRPO成功將木瓜結(jié)構(gòu)與人形服飾自然融合，而基線方法或生成「手持木瓜的人」，或出現(xiàn)視覺邏輯混亂；對于「帶眼睛和微笑的勺子」提示，E-GRPO在保留勺子金屬質(zhì)感的同時，生成了表情生動、視覺協(xié)調(diào)的擬人化效果，其他方法則存在面部融合不自然或材質(zhì)失真問題。

總結(jié)與展望

E-GRPO通過深入挖掘去噪步驟的熵特性，創(chuàng)新性地提出步驟合并與分組優(yōu)勢估計方法，成功解決了流模型強化學(xué)習(xí)中獎勵稀疏與歸因模糊的核心痛點，為視覺生成模型的人類偏好對齊提供了更高效、更穩(wěn)定的解決方案。

未來研究將聚焦于更魯棒的獎勵模型設(shè)計。當前獎勵模型仍存在「獎勵作弊」風(fēng)險，模型可能通過獎勵函數(shù)漏洞獲取高分，而非真正滿足人類偏好。開發(fā)能夠精準捕捉審美、語義一致性、上下文適配性等復(fù)雜人類偏好的獎勵模型，將是視覺生成強化學(xué)習(xí)的重要發(fā)展方向。

E-GRPO的提出，不僅為流模型的優(yōu)化提供了新范式，也為其他生成模型的強化學(xué)習(xí)訓(xùn)練提供了重要啟發(fā)：基于熵等物理特性引導(dǎo)探索，或許是提升AI模型效率的關(guān)鍵路徑。

參考資料：

https://arxiv.org/abs/2601.00423v1

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.