国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICCV 2025 | 獎勵模型新突破:ICT-HP讓文生圖更懂人類審美

0
分享至

在文本到圖像生成的革命性浪潮中,我們見證了從模糊到高清,從單一到細(xì)節(jié)豐富的飛躍。

然而,一個令人困惑的挑戰(zhàn)也隨之浮現(xiàn):當(dāng)我們生成越來越精美的圖像時,現(xiàn)有的評估模型,例如那些基于 CLIP 或 BLIP 的模型,似乎開始“不買賬”了。它們可能會給細(xì)節(jié)豐富的藝術(shù)大作打低分,反而青睞那些僅僅忠實于文本描述的簡單圖像。

這種與人類實際審美偏好相悖的“評分悖論”,迫使我們重新審視當(dāng)前的評估框架。

為此,作者提出了一套全新的 ICT-HP 評估框架,讓獎勵模型能夠更精準(zhǔn)地捕捉和理解人類的審美偏好,從而生成真正高品質(zhì)、高細(xì)節(jié)的符合人類審美標(biāo)準(zhǔn)的視覺藝術(shù)。

論文標(biāo)題: Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment 論文地址: https://www.arxiv.org/abs/2507.19002 項目代碼地址: https://github.com/BarretBa/ICTHPPick-High

數(shù)據(jù)集鏈接: https://huggingface.co/datasets/8y/Pick-High-Dataset 公開模型權(quán)重: https://huggingface.co/8y/ICT https://huggingface.co/8y/HP

一、核心挑戰(zhàn):為何現(xiàn)有獎勵模型“失靈”?

隨著先進(jìn)的文生圖模型不斷涌現(xiàn),我們對生成圖像的期待早已超越了簡單的“圖文對齊”。我們渴望的是細(xì)節(jié)更豐富、美學(xué)質(zhì)量更高、更符合人類偏好的藝術(shù)作品。然而,現(xiàn)有獎勵模型存在三大根本缺陷:

“對齊陷阱”:錯誤的等價假設(shè):現(xiàn)有的獎勵模型在評估文本-圖像對齊時,錯誤地假設(shè)圖像中的信息內(nèi)容與文本描述存在潛在的等價關(guān)系 。但實際上,語言的表達(dá)邊界遠(yuǎn)無法涵蓋視覺的無限可能——一幅畫中的光影變化、質(zhì)感細(xì)節(jié)、情感氛圍,往往是文字難以完全描述的。

“評分悖論”:簡單勝過精美:這種對齊陷阱造成了與人類審美矛盾的結(jié)果,對于同一個提示詞,一個只包含基本描述的簡單圖像往往會獲得比擁有更豐富細(xì)節(jié)和美學(xué)元素的高質(zhì)量圖像更高的分?jǐn)?shù)。

優(yōu)化困境:先進(jìn)模型被誤導(dǎo):這個現(xiàn)象不僅存在于 CLIP 和 BLIP 等基礎(chǔ)模型中,也影響了像 ImageReward 和 PickScore 這樣經(jīng)過人類偏好微調(diào)的模型 。這使得它們在優(yōu)化像 Stable Diffusion-3.5 這樣的先進(jìn)大型模型時,可能會導(dǎo)致生成的圖像視覺稀疏、美學(xué)不足。

上圖直觀地展示了這種“評分悖論”,在 CLIP/BLIP 和基于此繼續(xù)微調(diào)的獎勵模型,在面對經(jīng)過大型語言模型 CoT 優(yōu)化后的更豐富的提示詞生成的圖像時,現(xiàn)有獎勵模型會給出更低的不合理評分。

二、本文方法:ICT-HP框架如何突破局限?

為了解決這一挑戰(zhàn),作者們提出了一個超越傳統(tǒng)文本-圖像對齊的全新優(yōu)化目標(biāo),包括兩個核心組成部分:ICT 評分模型和 HP 評分模型5。

2.1 ICT 評分(Image-Contained-Text Score)

多模態(tài)模型如 CLIP 在預(yù)訓(xùn)練時,旨在最大化圖像與文本之間的互信息。這種“評分悖論”的產(chǎn)生源于當(dāng)圖像信息量增加時,圖像中超出文本描述的額外信息增長得更快,導(dǎo)致模型傾向于給忠實反映文本內(nèi)容的簡單圖像高分,卻給富含細(xì)節(jié)的高質(zhì)量圖像打低分。

ICT 不再強(qiáng)求圖像與文本的雙向等價,而是專注評估“圖像包含了多少文本信息”。具體地:

  • 通過閾值機(jī)制量化圖像對文本內(nèi)容的表達(dá)程度

  • 當(dāng)圖像完美體現(xiàn)文本內(nèi)容時,ICT 評分達(dá)到上限

  • 關(guān)鍵突破:不會因圖像包含超出提示詞的豐富細(xì)節(jié)而進(jìn)行“懲罰”

原文中給出關(guān)于 ICT 的詳細(xì)訓(xùn)練方法:ICT 模型通過對 CLIP 模型進(jìn)行微調(diào),利用精心構(gòu)建的 Pick-High 數(shù)據(jù)集進(jìn)行訓(xùn)練。該數(shù)據(jù)集包含了由大語言模型(LLM)“思維鏈”(chain-of-thought)方法生成的,經(jīng)過精煉提示詞生成的高質(zhì)量圖像,從而解決了現(xiàn)有數(shù)據(jù)集中高質(zhì)量圖像不足的問題。

2.2 HP 評分(High-Preference Score)

當(dāng) ICT 評分達(dá)到上限,即文圖對齊任務(wù)完成后,HP 評分模型開始發(fā)揮作用。它是一個純粹基于圖像模態(tài)的評分模型,只評估圖像本身的視覺美學(xué)和細(xì)節(jié)質(zhì)量。HP 模型使用邊際排序損失(margin ranking loss)進(jìn)行微調(diào),通過比較同一提示詞生成的不同質(zhì)量圖像,來學(xué)習(xí)并量化圖像的美學(xué)偏好 12。

2.3 ICT-HP 組合模型

兩個模型的輸出通過乘積運(yùn)算形成綜合評估函數(shù),確保在保證完整文本表達(dá)的基礎(chǔ)上,持續(xù)提升圖像的美學(xué)品質(zhì)。

實驗結(jié)果:

該研究通過多項實驗,有力地驗證了 ICT-HP 框架的優(yōu)越性:

  • 評分準(zhǔn)確率:在 Pick-High 和 Pickapic_v2 測試集上,ICT-HP 模型的平均準(zhǔn)確率比現(xiàn)有最佳模型 PickScore 高出近 10% 16 。

  • 優(yōu)化效果:當(dāng)使用 ICT-HP 模型優(yōu)化 Stable Diffusion-3.5-turbo 時,它在紋理細(xì)節(jié)和色彩美學(xué)上均實現(xiàn)了顯著提升。相比之下,HPS_v2 僅微調(diào)了圖像色調(diào),PickScore 增加了細(xì)節(jié)但引入了風(fēng)格和色彩失真,而 ImageReward 幾乎沒有帶來實質(zhì)性改進(jìn) 17 。

  • 用戶研究:在一項對 300 個隨機(jī)樣本的人類評估中,與 Base 模型 SD3.5-turbo 以及 PickScore 優(yōu)化過的 SD3.5-turbo 模型相比,ICT-HP 優(yōu)化過的生圖模型勝率更高,證實了該方法在實際人類偏好上的有效性 18 。

三、論文貢獻(xiàn)與價值:重塑AI美學(xué)標(biāo)準(zhǔn)的突破性成果

這項研究為圖像生成領(lǐng)域帶來了四個層面的重要突破:

  1. 發(fā)現(xiàn)了評估模型的根本缺陷:首次揭示了現(xiàn)有獎勵模型的核心缺陷——錯誤地懲罰高質(zhì)量圖像,越精美的圖像反而獲得越低的評分,從根本上阻礙了生圖模型藝術(shù)創(chuàng)作的進(jìn)步。

  2. 提出了新的雙重評估方法:提出 ICT-HP 雙重評估框架,巧妙解耦圖文包含文本程度與美學(xué)品質(zhì),讓獎勵模型不再拘泥于文本的字面對齊,而是真正學(xué)會了欣賞超越文字描述的視覺美感

  3. 顯著效果提升:實驗數(shù)據(jù)證實:評估準(zhǔn)確率提升 10%,成功優(yōu)化先進(jìn)文生圖模型 Stable-Diffusion-3.5-Turbo,生成圖像在美學(xué)質(zhì)量和細(xì)節(jié)表現(xiàn)上實現(xiàn)質(zhì)的飛躍。

  4. 社區(qū)貢獻(xiàn):秉承推動 AI 技術(shù)共同進(jìn)步的理念,研究團(tuán)隊將所有核心資源完全開放:

    600GB 高質(zhì)量 Pick-High 數(shù)據(jù)集,包含 360,000 個通過大語言模型鏈?zhǔn)剿季S優(yōu)化的圖像-文本對:

    https://huggingface.co/datasets/8y/Pick-High-Dataset

    開源了 ICT 和 HP 模型的完整權(quán)重:

    https://huggingface.co/8y/ICT

    https://huggingface.co/8y/HP

    提供了從訓(xùn)練到推理的全套代碼實現(xiàn):

    https://github.com/BarretBa/ICTHP

來源:公眾號【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團(tuán)隊由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
雨雪又要來了,鄭州暖氣會延期嗎?官方回應(yīng)

雨雪又要來了,鄭州暖氣會延期嗎?官方回應(yīng)

大象新聞
2026-03-12 21:25:02
假貨率高達(dá)70%!不銹鋼餐具造假黑幕,消費(fèi)者被坑慘,家長要警惕

假貨率高達(dá)70%!不銹鋼餐具造假黑幕,消費(fèi)者被坑慘,家長要警惕

趣文說娛
2026-03-10 16:47:22
綠聯(lián)NAS私有云與MiniMax深度合作,首發(fā)開箱即用的OpenClaw龍蝦

綠聯(lián)NAS私有云與MiniMax深度合作,首發(fā)開箱即用的OpenClaw龍蝦

IT之家
2026-03-13 15:06:15
江西一女子稱姐姐誤將價值150萬元黃金當(dāng)垃圾扔掉,全家人連夜翻10噸垃圾找回!當(dāng)?shù)鼗貞?yīng):確有此事

江西一女子稱姐姐誤將價值150萬元黃金當(dāng)垃圾扔掉,全家人連夜翻10噸垃圾找回!當(dāng)?shù)鼗貞?yīng):確有此事

深圳晚報
2026-03-13 15:02:37
請注意:以色列已開始派大量無人機(jī)在伊朗超低空狙殺和攻擊

請注意:以色列已開始派大量無人機(jī)在伊朗超低空狙殺和攻擊

邵旭峰域
2026-03-13 15:25:35
姑姑借我15萬買車從不提還,我張口要時她卻說:別總想占親戚便宜

姑姑借我15萬買車從不提還,我張口要時她卻說:別總想占親戚便宜

楓紅染山徑
2026-03-13 11:40:44
初春和仲春野釣鯽魚的4條規(guī)律

初春和仲春野釣鯽魚的4條規(guī)律

釣魚技巧和知識
2026-03-12 09:41:53
“12人吃燒烤花78元”,為拼兒子連生10胎,家長買燒烤都沒人敢吃

“12人吃燒烤花78元”,為拼兒子連生10胎,家長買燒烤都沒人敢吃

妍妍教育日記
2026-03-12 22:38:02
輸比利時采訪!楊舒予韓旭直指檢驗學(xué)習(xí),李月汝不滿防守與自責(zé)!

輸比利時采訪!楊舒予韓旭直指檢驗學(xué)習(xí),李月汝不滿防守與自責(zé)!

籃球資訊達(dá)人
2026-03-12 23:31:49
78年我值夜班,偷偷放走個發(fā)高燒的女囚,32年后她開紅旗車來報恩

78年我值夜班,偷偷放走個發(fā)高燒的女囚,32年后她開紅旗車來報恩

奶茶麥子
2026-03-11 22:09:03
開戰(zhàn)來首次!美國損失慘重

開戰(zhàn)來首次!美國損失慘重

亞太觀瀾
2026-03-12 20:50:06
華為養(yǎng)了十年的狼,帶著一群崽子把家偷了

華為養(yǎng)了十年的狼,帶著一群崽子把家偷了

老鷹哥
2026-03-13 11:31:52
喬冠華后人現(xiàn)狀:兒子子承父業(yè),女兒成軍醫(yī),繼女名字家喻戶曉

喬冠華后人現(xiàn)狀:兒子子承父業(yè),女兒成軍醫(yī),繼女名字家喻戶曉

林雁飛
2026-02-14 18:52:26
男子大鬧上海地鐵,在車廂內(nèi)放火!人被刑拘身份曝光,恐難受懲罰

男子大鬧上海地鐵,在車廂內(nèi)放火!人被刑拘身份曝光,恐難受懲罰

青梅侃史啊
2026-03-12 19:34:22
楊瀚森狂轟16+13+2,又創(chuàng)生涯新高!登陸NBA持續(xù)進(jìn)化,開拓者欣慰

楊瀚森狂轟16+13+2,又創(chuàng)生涯新高!登陸NBA持續(xù)進(jìn)化,開拓者欣慰

小火箭愛體育
2026-03-13 13:05:12
樓市大局已定:不出意外的話,2026年起中國房價或迎來3大變化

樓市大局已定:不出意外的話,2026年起中國房價或迎來3大變化

現(xiàn)代小青青慕慕
2026-03-12 11:13:37
WTT重慶冠軍賽-孫穎莎3-0完勝好姐妹 晉級女單八強(qiáng) 下輪迎來隊內(nèi)PK

WTT重慶冠軍賽-孫穎莎3-0完勝好姐妹 晉級女單八強(qiáng) 下輪迎來隊內(nèi)PK

云隱南山
2026-03-13 15:34:29
新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

南權(quán)先生
2026-01-26 15:41:26
五糧液首款光瓶酒上市,100%純糧定價399,樹立市場“新標(biāo)桿”

五糧液首款光瓶酒上市,100%純糧定價399,樹立市場“新標(biāo)桿”

影像渭南
2026-03-13 12:05:06
會如何?川普說沒啥可打了但會繼續(xù)、以攻擊伊全境稱直到實現(xiàn)目標(biāo)

會如何?川普說沒啥可打了但會繼續(xù)、以攻擊伊全境稱直到實現(xiàn)目標(biāo)

邵旭峰域
2026-03-12 15:00:07
2026-03-13 16:16:49
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

《后廠村AI派》:帶你玩轉(zhuǎn)OpenClaw龍蝦

頭條要聞

民主黨連勝 特朗普鐵粉退場讓"最保守"選區(qū)現(xiàn)兩黨決選

頭條要聞

民主黨連勝 特朗普鐵粉退場讓"最保守"選區(qū)現(xiàn)兩黨決選

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財經(jīng)要聞

"短劇"苦抄襲

汽車要聞

本田汽車全年業(yè)績由盈轉(zhuǎn)虧 高管們降薪3個月以擔(dān)責(zé)

態(tài)度原創(chuàng)

旅游
本地
親子
公開課
軍事航空

旅游要聞

“影視IP+文旅破圈”激發(fā)消費(fèi)新活力 “新場景+新業(yè)態(tài)”正成為文化消費(fèi)新引擎

本地新聞

坐標(biāo)北京,過敏季反向遷徒

親子要聞

孩子大了,不好騙了

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗稱襲擊"林肯"號航母致其撤走

無障礙瀏覽 進(jìn)入關(guān)懷版