国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

多獎(jiǎng)勵(lì)場景全面領(lǐng)先!清華新作高熵驅(qū)動,強(qiáng)化學(xué)習(xí)效率飆升

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】面對流模型強(qiáng)化學(xué)習(xí)中獎(jiǎng)勵(lì)信號稀疏、歸因模糊的核心痛點(diǎn),清華大學(xué)團(tuán)隊(duì)提出熵感知的E-GRPO框架,通過合并低熵步驟、聚焦高熵探索,在單獎(jiǎng)勵(lì)與多獎(jiǎng)勵(lì)場景下均實(shí)現(xiàn)性能突破,相比主流方法HPS指標(biāo)提升10.8%,ImageReward指標(biāo)最高提升32.4%,為視覺生成的人類偏好對齊提供了更高效的解決方案。

近年來,擴(kuò)散模型與流匹配模型等生成式 AI 技術(shù)在視覺內(nèi)容創(chuàng)作領(lǐng)域取得突破性進(jìn)展,從藝術(shù)設(shè)計(jì)到醫(yī)療成像,應(yīng)用場景不斷拓展。而強(qiáng)化學(xué)習(xí)從人類反饋(RLHF)技術(shù)的引入,更是讓生成模型能夠精準(zhǔn)對齊人類偏好,大幅提升內(nèi)容質(zhì)量。

然而,當(dāng)前基于分組相對策略優(yōu)化(GRPO)的流模型強(qiáng)化學(xué)習(xí)方法,在多步去噪過程中面臨嚴(yán)重的獎(jiǎng)勵(lì)信號稀疏與歸因模糊問題,低熵步驟的探索價(jià)值有限,卻占用大量計(jì)算資源,導(dǎo)致模型優(yōu)化效率低下、偏好對齊效果不佳。

近日,清華大學(xué)團(tuán)隊(duì)提出熵感知分組相對策略優(yōu)化(E-GRPO)框架,通過深入分析去噪步驟的熵特性,創(chuàng)新性地將連續(xù)低熵步驟合并為高熵有效步驟,同時(shí)保留確定性O(shè)DE采樣的穩(wěn)定性,成功解決了獎(jiǎng)勵(lì)歸因模糊難題,實(shí)現(xiàn)了更高效的探索與更精準(zhǔn)的偏好對齊。


論文地址:https://arxiv.org/abs/2601.00423v1

代碼地址:https://github.com/shengjun-zhang/VisualGRPO

模型地址:https://huggingface.co/studyOverflow/E-GRPO

E-GRPO研究背景

主流GRPO-based方法在流模型訓(xùn)練中,會對所有去噪時(shí)間步進(jìn)行均勻優(yōu)化,但清華大學(xué)團(tuán)隊(duì)通過實(shí)驗(yàn)發(fā)現(xiàn),不同去噪步驟的探索價(jià)值存在顯著差異:

高熵步驟具有更大的探索空間,能夠生成多樣性豐富、獎(jiǎng)勵(lì)差異明顯的樣本,是模型優(yōu)化的核心驅(qū)動力;

低熵步驟的樣本差異極小,獎(jiǎng)勵(lì)信號區(qū)分度低,類似給最終圖像添加10%隨機(jī)噪聲的效果,不僅難以引導(dǎo)有效優(yōu)化,還會因累積隨機(jī)性導(dǎo)致獎(jiǎng)勵(lì)歸因模糊 —— 某一步的有效探索可能被后續(xù)軌跡偏差「懲罰」,使模型優(yōu)化方向跑偏。

實(shí)驗(yàn)數(shù)據(jù)顯示,僅優(yōu)化前8個(gè)高熵步驟的模型性能,顯著優(yōu)于優(yōu)化全部16個(gè)步驟的模型,證實(shí)了低熵步驟的「無效性」。如何充分利用高熵步驟的探索價(jià)值,同時(shí)避免低熵步驟帶來的干擾,成為提升流模型強(qiáng)化學(xué)習(xí)效率的關(guān)鍵。


熵對采樣步驟的影響

E-GRPO框架通過熵驅(qū)動的步驟合并策略與多步分組歸一化優(yōu)勢估計(jì)兩大核心創(chuàng)新。

1. 熵驅(qū)動自適應(yīng)步驟合并:低熵「打包」,高熵聚焦

團(tuán)隊(duì)設(shè)計(jì)了自適應(yīng)熵閾值,將所有去噪步驟劃分為高熵組與低熵組。對于連續(xù)的低熵步驟,通過合并形成單一高熵有效步驟,在保留總擴(kuò)散效果的前提下,將多個(gè)低熵 SDE 步驟轉(zhuǎn)化為一個(gè)高熵 SDE 步驟,其余步驟則采用確定性 ODE 采樣。

這種合并策略不僅大幅減少了無效計(jì)算,還通過擴(kuò)大單一步驟的探索范圍提升了熵值,同時(shí)避免了多步 SDE 采樣帶來的累積隨機(jī)性,讓獎(jiǎng)勵(lì)信號能夠精準(zhǔn)歸因到有價(jià)值的探索步驟上。

2. 多步分組歸一化優(yōu)勢:獎(jiǎng)勵(lì)信號更密集、更可靠

針對合并后的高熵步驟,E-GRPO引入多步分組歸一化優(yōu)勢估計(jì)方法。在每個(gè)合并步驟對應(yīng)的樣本組內(nèi),直接計(jì)算組內(nèi)相對優(yōu)勢,確保獎(jiǎng)勵(lì)信號能夠一致歸因到合并步驟,避免了跨步驟的獎(jiǎng)勵(lì)混淆。這種設(shè)計(jì)讓模型獲得了更密集、更可靠的反饋信號,能夠快速鎖定優(yōu)化方向,提升訓(xùn)練效率與穩(wěn)定性。


E-GRPO采樣策略

性能亮點(diǎn)

在HPD數(shù)據(jù)集上,以FLUX.1-dev為骨干模型,在單獎(jiǎng)勵(lì)和多獎(jiǎng)勵(lì)兩種設(shè)置下,對E-GRPO進(jìn)行了全面評估,結(jié)果顯示其性能超越現(xiàn)有主流方法。


E-GRPO數(shù)值結(jié)果測評

單獎(jiǎng)勵(lì)設(shè)置下,E-GRPO的HPS指標(biāo)達(dá)到0.391,相比DanceGRPO提升10.8%,ImageScore指標(biāo)達(dá)到1.324,穩(wěn)居同類方法第一;多獎(jiǎng)勵(lì)設(shè)置下(有效避免獎(jiǎng)勵(lì)作弊),E-GRPO不僅保持HPS指標(biāo)領(lǐng)先,還在跨域指標(biāo)上實(shí)現(xiàn)突破:ImageReward提升32.4%,PickScore提升4.4%,展現(xiàn)出更強(qiáng)的泛化能力。


訓(xùn)練獎(jiǎng)勵(lì)曲線

E-GRPO的訓(xùn)練獎(jiǎng)勵(lì)曲線呈現(xiàn)更快的早期增長與更平滑的收斂趨勢,相比基線方法能夠更快達(dá)到穩(wěn)定性能,同時(shí)因減少了無效步驟的計(jì)算,降低了訓(xùn)練成本。


可視化結(jié)果

在定性對比中,E-GRPO生成的內(nèi)容更精準(zhǔn)貼合文本提示,兼具語義一致性與細(xì)節(jié)豐富度:

對于「裝扮成水手的木瓜」提示,E-GRPO成功將木瓜結(jié)構(gòu)與人形服飾自然融合,而基線方法或生成「手持木瓜的人」,或出現(xiàn)視覺邏輯混亂;對于「帶眼睛和微笑的勺子」提示,E-GRPO在保留勺子金屬質(zhì)感的同時(shí),生成了表情生動、視覺協(xié)調(diào)的擬人化效果,其他方法則存在面部融合不自然或材質(zhì)失真問題。

總結(jié)與展望

E-GRPO通過深入挖掘去噪步驟的熵特性,創(chuàng)新性地提出步驟合并與分組優(yōu)勢估計(jì)方法,成功解決了流模型強(qiáng)化學(xué)習(xí)中獎(jiǎng)勵(lì)稀疏與歸因模糊的核心痛點(diǎn),為視覺生成模型的人類偏好對齊提供了更高效、更穩(wěn)定的解決方案。

未來研究將聚焦于更魯棒的獎(jiǎng)勵(lì)模型設(shè)計(jì)。當(dāng)前獎(jiǎng)勵(lì)模型仍存在「獎(jiǎng)勵(lì)作弊」風(fēng)險(xiǎn),模型可能通過獎(jiǎng)勵(lì)函數(shù)漏洞獲取高分,而非真正滿足人類偏好。開發(fā)能夠精準(zhǔn)捕捉審美、語義一致性、上下文適配性等復(fù)雜人類偏好的獎(jiǎng)勵(lì)模型,將是視覺生成強(qiáng)化學(xué)習(xí)的重要發(fā)展方向。

E-GRPO的提出,不僅為流模型的優(yōu)化提供了新范式,也為其他生成模型的強(qiáng)化學(xué)習(xí)訓(xùn)練提供了重要啟發(fā):基于熵等物理特性引導(dǎo)探索,或許是提升AI模型效率的關(guān)鍵路徑。

參考資料:

https://arxiv.org/abs/2601.00423v1


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
萬萬沒想到,丁克大半輩子的張鐸,如今在46歲迎來了人生高光時(shí)刻

萬萬沒想到,丁克大半輩子的張鐸,如今在46歲迎來了人生高光時(shí)刻

胡一舸南游y
2026-01-14 13:20:09
福建金店被搶后續(xù):已抓獲是夫妻,曾搜過熔金步驟,更多細(xì)節(jié)曝光

福建金店被搶后續(xù):已抓獲是夫妻,曾搜過熔金步驟,更多細(xì)節(jié)曝光

小李子體育
2026-01-24 12:20:11
秋季發(fā)布!蘋果iPhone Fold售價(jià)或?qū)?.5萬元

秋季發(fā)布!蘋果iPhone Fold售價(jià)或?qū)?.5萬元

泡泡網(wǎng)
2026-01-22 17:22:07
“一坐高鐵就犯困”,12306回應(yīng)車廂二氧化碳濃度超標(biāo)

“一坐高鐵就犯困”,12306回應(yīng)車廂二氧化碳濃度超標(biāo)

中國新聞周刊
2026-01-23 15:54:20
未婚先孕?曝范冰冰現(xiàn)身婦產(chǎn)醫(yī)院,小心翼翼穿著寬松,腹部疑似隆起

未婚先孕?曝范冰冰現(xiàn)身婦產(chǎn)醫(yī)院,小心翼翼穿著寬松,腹部疑似隆起

八卦王者
2026-01-23 15:47:04
一群外國人曾到中國避難,于2003年正式加入中國國籍,他們直言:我是中國人,我為此感到自豪

一群外國人曾到中國避難,于2003年正式加入中國國籍,他們直言:我是中國人,我為此感到自豪

寄史言志
2026-01-09 17:55:10
“和平委員會”名單公布,19國已簽署,讓中方意外的是普京和巴鐵

“和平委員會”名單公布,19國已簽署,讓中方意外的是普京和巴鐵

尋途
2026-01-23 05:34:38
胡春華同志出席座談會!

胡春華同志出席座談會!

社評
2026-01-23 09:57:12
自民黨議員高呼“萬歲”,石破茂面色嚴(yán)肅、保持沉默

自民黨議員高呼“萬歲”,石破茂面色嚴(yán)肅、保持沉默

觀察者網(wǎng)
2026-01-24 11:12:24
黃金大漲,白銀狂飆!特朗普警告:歐洲若拋售美資產(chǎn),將遭重大報(bào)復(fù)

黃金大漲,白銀狂飆!特朗普警告:歐洲若拋售美資產(chǎn),將遭重大報(bào)復(fù)

證券時(shí)報(bào)e公司
2026-01-24 07:58:32
賽力斯拿下車企第一,華為贏麻了!

賽力斯拿下車企第一,華為贏麻了!

互聯(lián)網(wǎng)品牌官
2026-01-21 18:36:41
1950年,師級首長在成都遭活剝?毛主席拍案而起:116萬土匪,一個(gè)不留!

1950年,師級首長在成都遭活剝?毛主席拍案而起:116萬土匪,一個(gè)不留!

寄史言志
2026-01-07 20:37:09
向太曝馬伊琍已再婚:當(dāng)年文章過不了心理那關(guān)

向太曝馬伊琍已再婚:當(dāng)年文章過不了心理那關(guān)

娛樂看阿敞
2025-12-12 15:50:00
重磅官宣!人民日報(bào)預(yù)熱+足協(xié)聘任,國足主帥坦言與日本差距懸殊

重磅官宣!人民日報(bào)預(yù)熱+足協(xié)聘任,國足主帥坦言與日本差距懸殊

十點(diǎn)街球體育
2026-01-23 22:15:01
沈佳潤用力過猛,為可口可樂拍春節(jié)廣告臉比老爸大,粉底厚像虎妞

沈佳潤用力過猛,為可口可樂拍春節(jié)廣告臉比老爸大,粉底厚像虎妞

鋒哥與八卦哥
2026-01-24 11:42:24
“女碩士患精神疾病走失十余年被找回”案:兩人涉嫌強(qiáng)奸罪被起訴

“女碩士患精神疾病走失十余年被找回”案:兩人涉嫌強(qiáng)奸罪被起訴

大風(fēng)新聞
2026-01-22 22:16:16
故事:左宗棠收復(fù)新疆后,慈禧單獨(dú)召見他:你比曾國藩強(qiáng)在哪?

故事:左宗棠收復(fù)新疆后,慈禧單獨(dú)召見他:你比曾國藩強(qiáng)在哪?

飯小妹說歷史
2026-01-20 09:12:31
越共中央選出新一屆政治局成員,共19人

越共中央選出新一屆政治局成員,共19人

觀察者網(wǎng)
2026-01-23 18:36:08
種種跡象表明,特朗普賭輸了,馬斯克回歸政壇,中國發(fā)布4號公告

種種跡象表明,特朗普賭輸了,馬斯克回歸政壇,中國發(fā)布4號公告

風(fēng)雨與陽光
2026-01-24 14:44:27
91年,林立果未婚妻張寧,看望林豆豆夫婦,合影中張寧漂亮又時(shí)髦

91年,林立果未婚妻張寧,看望林豆豆夫婦,合影中張寧漂亮又時(shí)髦

歷史偉人錄
2024-11-28 12:02:20
2026-01-24 15:20:50
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
14398文章數(shù) 66527關(guān)注度
往期回顧 全部

科技要聞

特斯拉Cybercrab即將落地 每公里不到1塊錢

頭條要聞

專家:特朗普或在春天訪問中國 其被認(rèn)為是"對華鴿派"

頭條要聞

專家:特朗普或在春天訪問中國 其被認(rèn)為是"對華鴿派"

體育要聞

當(dāng)家球星打替補(bǔ),他們在故意擺爛?

娛樂要聞

李微漪更新:狼王格林去世,3字淚目

財(cái)經(jīng)要聞

“百年老字號”張小泉遭60億債務(wù)壓頂

汽車要聞

有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

態(tài)度原創(chuàng)

教育
時(shí)尚
健康
手機(jī)
本地

教育要聞

難住大學(xué)生,如何求正方形面積

不一定能掀桌男主,但一定是個(gè)好演員!

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

手機(jī)要聞

小米17被曝將支持eSIM、vivo X300 Ultra第一季度發(fā)布

本地新聞

云游中國|格爾木的四季朋友圈,張張值得你點(diǎn)贊

無障礙瀏覽 進(jìn)入關(guān)懷版