国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

多獎勵場景全面領(lǐng)先!清華新作高熵驅(qū)動,強化學(xué)習(xí)效率飆升

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】面對流模型強化學(xué)習(xí)中獎勵信號稀疏、歸因模糊的核心痛點,清華大學(xué)團隊提出熵感知的E-GRPO框架,通過合并低熵步驟、聚焦高熵探索,在單獎勵與多獎勵場景下均實現(xiàn)性能突破,相比主流方法HPS指標提升10.8%,ImageReward指標最高提升32.4%,為視覺生成的人類偏好對齊提供了更高效的解決方案。

近年來,擴散模型與流匹配模型等生成式 AI 技術(shù)在視覺內(nèi)容創(chuàng)作領(lǐng)域取得突破性進展,從藝術(shù)設(shè)計到醫(yī)療成像,應(yīng)用場景不斷拓展。而強化學(xué)習(xí)從人類反饋(RLHF)技術(shù)的引入,更是讓生成模型能夠精準對齊人類偏好,大幅提升內(nèi)容質(zhì)量。

然而,當前基于分組相對策略優(yōu)化(GRPO)的流模型強化學(xué)習(xí)方法,在多步去噪過程中面臨嚴重的獎勵信號稀疏與歸因模糊問題,低熵步驟的探索價值有限,卻占用大量計算資源,導(dǎo)致模型優(yōu)化效率低下、偏好對齊效果不佳。

近日,清華大學(xué)團隊提出熵感知分組相對策略優(yōu)化(E-GRPO)框架,通過深入分析去噪步驟的熵特性,創(chuàng)新性地將連續(xù)低熵步驟合并為高熵有效步驟,同時保留確定性O(shè)DE采樣的穩(wěn)定性,成功解決了獎勵歸因模糊難題,實現(xiàn)了更高效的探索與更精準的偏好對齊。


論文地址:https://arxiv.org/abs/2601.00423v1

代碼地址:https://github.com/shengjun-zhang/VisualGRPO

模型地址:https://huggingface.co/studyOverflow/E-GRPO

E-GRPO研究背景

主流GRPO-based方法在流模型訓(xùn)練中,會對所有去噪時間步進行均勻優(yōu)化,但清華大學(xué)團隊通過實驗發(fā)現(xiàn),不同去噪步驟的探索價值存在顯著差異:

高熵步驟具有更大的探索空間,能夠生成多樣性豐富、獎勵差異明顯的樣本,是模型優(yōu)化的核心驅(qū)動力;

低熵步驟的樣本差異極小,獎勵信號區(qū)分度低,類似給最終圖像添加10%隨機噪聲的效果,不僅難以引導(dǎo)有效優(yōu)化,還會因累積隨機性導(dǎo)致獎勵歸因模糊 —— 某一步的有效探索可能被后續(xù)軌跡偏差「懲罰」,使模型優(yōu)化方向跑偏。

實驗數(shù)據(jù)顯示,僅優(yōu)化前8個高熵步驟的模型性能,顯著優(yōu)于優(yōu)化全部16個步驟的模型,證實了低熵步驟的「無效性」。如何充分利用高熵步驟的探索價值,同時避免低熵步驟帶來的干擾,成為提升流模型強化學(xué)習(xí)效率的關(guān)鍵。


熵對采樣步驟的影響

E-GRPO框架通過熵驅(qū)動的步驟合并策略與多步分組歸一化優(yōu)勢估計兩大核心創(chuàng)新。

1. 熵驅(qū)動自適應(yīng)步驟合并:低熵「打包」,高熵聚焦

團隊設(shè)計了自適應(yīng)熵閾值,將所有去噪步驟劃分為高熵組與低熵組。對于連續(xù)的低熵步驟,通過合并形成單一高熵有效步驟,在保留總擴散效果的前提下,將多個低熵 SDE 步驟轉(zhuǎn)化為一個高熵 SDE 步驟,其余步驟則采用確定性 ODE 采樣。

這種合并策略不僅大幅減少了無效計算,還通過擴大單一步驟的探索范圍提升了熵值,同時避免了多步 SDE 采樣帶來的累積隨機性,讓獎勵信號能夠精準歸因到有價值的探索步驟上。

2. 多步分組歸一化優(yōu)勢:獎勵信號更密集、更可靠

針對合并后的高熵步驟,E-GRPO引入多步分組歸一化優(yōu)勢估計方法。在每個合并步驟對應(yīng)的樣本組內(nèi),直接計算組內(nèi)相對優(yōu)勢,確保獎勵信號能夠一致歸因到合并步驟,避免了跨步驟的獎勵混淆。這種設(shè)計讓模型獲得了更密集、更可靠的反饋信號,能夠快速鎖定優(yōu)化方向,提升訓(xùn)練效率與穩(wěn)定性。


E-GRPO采樣策略

性能亮點

在HPD數(shù)據(jù)集上,以FLUX.1-dev為骨干模型,在單獎勵和多獎勵兩種設(shè)置下,對E-GRPO進行了全面評估,結(jié)果顯示其性能超越現(xiàn)有主流方法。


E-GRPO數(shù)值結(jié)果測評

單獎勵設(shè)置下,E-GRPO的HPS指標達到0.391,相比DanceGRPO提升10.8%,ImageScore指標達到1.324,穩(wěn)居同類方法第一;多獎勵設(shè)置下(有效避免獎勵作弊),E-GRPO不僅保持HPS指標領(lǐng)先,還在跨域指標上實現(xiàn)突破:ImageReward提升32.4%,PickScore提升4.4%,展現(xiàn)出更強的泛化能力。


訓(xùn)練獎勵曲線

E-GRPO的訓(xùn)練獎勵曲線呈現(xiàn)更快的早期增長與更平滑的收斂趨勢,相比基線方法能夠更快達到穩(wěn)定性能,同時因減少了無效步驟的計算,降低了訓(xùn)練成本。


可視化結(jié)果

在定性對比中,E-GRPO生成的內(nèi)容更精準貼合文本提示,兼具語義一致性與細節(jié)豐富度:

對于「裝扮成水手的木瓜」提示,E-GRPO成功將木瓜結(jié)構(gòu)與人形服飾自然融合,而基線方法或生成「手持木瓜的人」,或出現(xiàn)視覺邏輯混亂;對于「帶眼睛和微笑的勺子」提示,E-GRPO在保留勺子金屬質(zhì)感的同時,生成了表情生動、視覺協(xié)調(diào)的擬人化效果,其他方法則存在面部融合不自然或材質(zhì)失真問題。

總結(jié)與展望

E-GRPO通過深入挖掘去噪步驟的熵特性,創(chuàng)新性地提出步驟合并與分組優(yōu)勢估計方法,成功解決了流模型強化學(xué)習(xí)中獎勵稀疏與歸因模糊的核心痛點,為視覺生成模型的人類偏好對齊提供了更高效、更穩(wěn)定的解決方案。

未來研究將聚焦于更魯棒的獎勵模型設(shè)計。當前獎勵模型仍存在「獎勵作弊」風(fēng)險,模型可能通過獎勵函數(shù)漏洞獲取高分,而非真正滿足人類偏好。開發(fā)能夠精準捕捉審美、語義一致性、上下文適配性等復(fù)雜人類偏好的獎勵模型,將是視覺生成強化學(xué)習(xí)的重要發(fā)展方向。

E-GRPO的提出,不僅為流模型的優(yōu)化提供了新范式,也為其他生成模型的強化學(xué)習(xí)訓(xùn)練提供了重要啟發(fā):基于熵等物理特性引導(dǎo)探索,或許是提升AI模型效率的關(guān)鍵路徑。

參考資料:

https://arxiv.org/abs/2601.00423v1


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
牢A能這么火,是有原因的!

牢A能這么火,是有原因的!

走讀新生
2026-01-23 14:09:59
退休夫婦花10萬“郵輪養(yǎng)老”:船上住15年,包吃包打掃,環(huán)游世界4圈,比房租便宜得多!

退休夫婦花10萬“郵輪養(yǎng)老”:船上住15年,包吃包打掃,環(huán)游世界4圈,比房租便宜得多!

背包旅行
2026-01-23 10:33:42
拿下特斯拉大單,手握2家上市公司!“中國最大忽悠”要翻身了?

拿下特斯拉大單,手握2家上市公司!“中國最大忽悠”要翻身了?

品牌觀察官
2025-12-07 20:49:20
中美GDP差距再次縮!25年中國GDP達20萬億美元,占美國GDP的64%

中美GDP差距再次縮小!25年中國GDP達20萬億美元,占美國GDP的64%

顧史
2026-01-25 20:38:14
外賣騎手自發(fā)捐款嫣然醫(yī)院,感恩于嫣然對他們免費處理日常磕碰傷

外賣騎手自發(fā)捐款嫣然醫(yī)院,感恩于嫣然對他們免費處理日?呐鰝

玖宇維
2026-01-24 15:32:50
香奈兒2026翻車!周迅穿出新姨味,模特也難救質(zhì)感短板

香奈兒2026翻車!周迅穿出新姨味,模特也難救質(zhì)感短板

探索新高度
2026-01-25 14:24:48
哈梅內(nèi)伊進入超級防護掩體,權(quán)力轉(zhuǎn)交兒子!

哈梅內(nèi)伊進入超級防護掩體,權(quán)力轉(zhuǎn)交兒子!

桂系007
2026-01-24 23:29:23
大S年輕時房間曝光,太過詭異引人不適,難怪有人曾說活不過50歲

大S年輕時房間曝光,太過詭異引人不適,難怪有人曾說活不過50歲

白馬驚天劍
2026-01-24 12:32:30
日本性感女優(yōu)-瀨戶環(huán)奈公開大膽現(xiàn)場照,粉絲狂歡

日本性感女優(yōu)-瀨戶環(huán)奈公開大膽現(xiàn)場照,粉絲狂歡

隨波蕩漾的漂流瓶
2026-01-24 19:10:08
男單上半?yún)^(qū)四強產(chǎn)生,皆是三盤直落!

男單上半?yún)^(qū)四強產(chǎn)生,皆是三盤直落!

網(wǎng)球之家
2026-01-25 22:09:31
三星S25+充電時爆炸家人送醫(yī)!官方承認問題:用戶不滿賠償

三星S25+充電時爆炸家人送醫(yī)!官方承認問題:用戶不滿賠償

快科技
2026-01-25 23:16:04
為何國家隊連續(xù)8天放量減持寬基ETF?下周會創(chuàng)4190點新高嗎?

為何國家隊連續(xù)8天放量減持寬基ETF?下周會創(chuàng)4190點新高嗎?

李志林
2026-01-25 06:40:03
為什么說“高饒事件”給劉少奇埋下了嚴重隱患?

為什么說“高饒事件”給劉少奇埋下了嚴重隱患?

斜杠歷史
2024-02-15 15:47:45
經(jīng)濟下行,2026年、2027年、2028年這三年,六大忠告要記牢!

經(jīng)濟下行,2026年、2027年、2028年這三年,六大忠告要記牢!

深度報
2026-01-20 22:16:48
美媒爆料:白宮請求內(nèi)塔尼亞胡允許以總統(tǒng)出席“和平委員會”啟動儀式,但遭拒絕

美媒爆料:白宮請求內(nèi)塔尼亞胡允許以總統(tǒng)出席“和平委員會”啟動儀式,但遭拒絕

環(huán)球網(wǎng)資訊
2026-01-25 11:01:57
6場23分鐘!槍手7000萬先生踢世界杯有點懸 若無改觀將成3輸交易

6場23分鐘!槍手7000萬先生踢世界杯有點懸 若無改觀將成3輸交易

雪狼侃體育
2026-01-25 22:44:35
您有洗屁股的習(xí)慣嗎?提醒:天天洗肛門的人,能收獲4個驚人好處

您有洗屁股的習(xí)慣嗎?提醒:天天洗肛門的人,能收獲4個驚人好處

39健康網(wǎng)
2025-12-13 20:50:34
1958年,李達和毛澤東吵架,李達怒言:你腦子發(fā)熱,高燒到39度了

1958年,李達和毛澤東吵架,李達怒言:你腦子發(fā)熱,高燒到39度了

元哥說歷史
2026-01-23 09:30:03
不查不知道一查嚇一跳,69歲"反派專業(yè)戶"程煜,私下玩得這么壕

不查不知道一查嚇一跳,69歲"反派專業(yè)戶"程煜,私下玩得這么壕

冷紫葉
2026-01-26 00:35:15
iPhone 天氣App預(yù)報被批離譜 95%從業(yè)者盼它消失

iPhone 天氣App預(yù)報被批離譜 95%從業(yè)者盼它消失

3DM游戲
2026-01-23 11:28:49
2026-01-26 01:35:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14411文章數(shù) 66530關(guān)注度
往期回顧 全部

科技要聞

黃仁勛在上海逛菜市場,可能惦記著三件事

頭條要聞

男孩打碎電視屏為"還債"在小區(qū)創(chuàng)業(yè) 不到2個月賺了6千

頭條要聞

男孩打碎電視屏為"還債"在小區(qū)創(chuàng)業(yè) 不到2個月賺了6千

體育要聞

中國足球不會一夜變強,但他們已經(jīng)創(chuàng)造歷史

娛樂要聞

央八開播 楊紫胡歌主演的40集大劇來了

財經(jīng)要聞

隋廣義等80人被公訴 千億騙局進入末路

汽車要聞

別克至境E7內(nèi)飾圖曝光 新車將于一季度正式發(fā)布

態(tài)度原創(chuàng)

健康
游戲
旅游
時尚
軍事航空

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

LCK春季賽:道心沒有破碎,KT找回狀態(tài),三局戰(zhàn)勝BRO

旅游要聞

鋼城“后花園”開出振興之花,看聚源橋村如何玩轉(zhuǎn)“三村聯(lián)動”

看了魯豫對章小蕙的采訪,最大感觸是這一點

軍事要聞

俄美烏三方首輪會談細節(jié)披露

無障礙瀏覽 進入關(guān)懷版