国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

對(duì)標(biāo)GPT-4o和香蕉!浙大開源ContextGen:布局身份協(xié)同新SOTA

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】浙江大學(xué)ReLER團(tuán)隊(duì)開源ContextGen框架,攻克多實(shí)例圖像生成中布局與身份協(xié)同控制難題?;贒iffusion Transformer架構(gòu),通過雙重注意力機(jī)制,實(shí)現(xiàn)布局精準(zhǔn)錨定與身份高保真隔離,在基準(zhǔn)測(cè)試中超越開源SOTA模型,對(duì)標(biāo)GPT-4o等閉源系統(tǒng),為定制化AI圖像生成帶來新突破。

在定制化AI圖像生成領(lǐng)域,多實(shí)例圖像生成(MIG)面臨一個(gè)關(guān)鍵的協(xié)同控制挑戰(zhàn):精確布局控制多主體身份保真的同步實(shí)現(xiàn)。

現(xiàn)有方法往往只能達(dá)成二者之一,少數(shù)能兼顧的方法在性能上也存在顯著不足。

為解決這一布局與身份的協(xié)同控制瓶頸,浙江大學(xué)ReLER團(tuán)隊(duì)提出了ContextGen框架,首次在Diffusion Transformer (DiT) 架構(gòu)內(nèi)部,通過雙重上下文注意力機(jī)制實(shí)現(xiàn)了架構(gòu)級(jí)的分層解耦控制。

ContextGen在基準(zhǔn)測(cè)試上,身份保持能力超越SOTA開源模型,并成功對(duì)標(biāo)了GPT-4o和Nano-Banana等強(qiáng)大的閉源系統(tǒng),實(shí)現(xiàn)了在復(fù)雜定制化控制方面實(shí)現(xiàn)了關(guān)鍵突破。


論文地址:https://arxiv.org/abs/2510.11000

代碼地址:https://github.com/nenhang/ContextGen

行業(yè)痛點(diǎn)

多實(shí)例生成中的「協(xié)同控制挑戰(zhàn)」


當(dāng)前MIG模型在實(shí)際應(yīng)用中,主要表現(xiàn)出在布局精準(zhǔn)度與身份保真度協(xié)同控制上的挑戰(zhàn):

  1. 宏觀布局難以固化即使模型顯式提供了布局控制功能,生成的多個(gè)實(shí)例也難以精確地錨定到用戶指定的空間位置,屬性泄露和實(shí)例遺失現(xiàn)象頻發(fā),導(dǎo)致生成圖像的構(gòu)圖混亂且不符合預(yù)期。

  2. 身份細(xì)節(jié)極易丟失目前很多模型都支持多主體定制化,但主體數(shù)量增加時(shí),身份細(xì)節(jié)丟失的概率會(huì)顯著上升,生成結(jié)果往往無法忠實(shí)還原每個(gè)實(shí)例的獨(dú)特身份特征。

ContextGen的核心突破在于:它利用注意力機(jī)制控制的上下文學(xué)習(xí),實(shí)現(xiàn)了對(duì)這兩個(gè)問題的協(xié)同解決,并在多個(gè)關(guān)鍵基準(zhǔn)上達(dá)到了新的SOTA水平。

核心機(jī)制

布局錨定與身份隔離


ContextGen框架基于DiT架構(gòu)構(gòu)建,將所有輸入整合成一個(gè)統(tǒng)一的Token序列T,創(chuàng)新在于在DiT模塊中嵌入了兩個(gè)功能不同的「注意力核」。

宏觀布局控制模塊

上下文布局錨定 (Contextual Layout Anchoring, CLA)機(jī)制是DiT網(wǎng)絡(luò)的「布局控制器」,負(fù)責(zé)全局結(jié)構(gòu)和構(gòu)圖:

機(jī)制:該模塊采用的注意力掩碼MCLA允許查詢Token q與所有文本、圖像和布局Token進(jìn)行廣泛通信。

效果:通過在DiT模塊的前置和后置層建立宏觀約束,確保生成的實(shí)例能夠魯棒且精確地遵循用戶指定的布局要求。這種圖像層面的宏觀布局引導(dǎo)更適配于現(xiàn)有的DiT上下文學(xué)習(xí)機(jī)制,簡(jiǎn)單而有效地提升了布局控制的準(zhǔn)確性。

微觀身份隔離模塊

身份一致性注意力 (Instance Consistency Attention, ICA)機(jī)制是解決多主體身份混淆與丟失的「身份隔離器」:

機(jī)制:采用隔離式的注意力掩碼MICA,強(qiáng)制限制位于實(shí)例n邊界框Bn內(nèi)的查詢Token q,只能關(guān)注其自身區(qū)域Bn、文本T以及對(duì)應(yīng)的參考圖像Rn

效果:這一設(shè)計(jì)在DiT模塊的中間層,切斷了不同實(shí)例身份Token之間的交叉通信,它為每個(gè)實(shí)例創(chuàng)造了一個(gè)「注意力孤島」,從機(jī)制上保障了多主體身份信息的高保真隔離注入,這一機(jī)制在應(yīng)對(duì)實(shí)例重疊、壓縮等復(fù)雜場(chǎng)景時(shí),能有效緩解身份信息丟失問題,同時(shí)在上下文變長時(shí),也能維持魯棒的身份保真度。

輔助優(yōu)化與數(shù)據(jù)基石


DPO強(qiáng)化學(xué)習(xí)引入直接偏好優(yōu)化 (DPO),解決了監(jiān)督微調(diào)可能導(dǎo)致的布局僵硬復(fù)制問題,從而增強(qiáng)了生成圖像的多樣性和自然度。


IMIG-100K數(shù)據(jù)集團(tuán)隊(duì)同步發(fā)布了IMIG-100K,首個(gè)包含詳細(xì)布局與身份標(biāo)注的、含有不同難度層級(jí)的、大規(guī)模高質(zhì)量多實(shí)例合成數(shù)據(jù)集。

實(shí)驗(yàn)結(jié)果

開源SOTA,對(duì)標(biāo)閉源巨頭

ContextGen的性能突破,體現(xiàn)在布局精度和身份保持兩個(gè)維度:

布局精度提升:在COCO-MIG基準(zhǔn)上,空間準(zhǔn)確性(mIoU) 實(shí)現(xiàn)了+5.9%提升,驗(yàn)證了ContextGen在精確構(gòu)圖上的領(lǐng)先性。


身份保持的突破:在LAMICBench++身份保持測(cè)試中,ContextGen的在較多主體下的身份保真度(IDS) 比肩甚至超越了GPT-4o和Nano-Banana等閉源模型。這一關(guān)鍵結(jié)果證明了ContextGen在復(fù)雜多主體場(chǎng)景中,對(duì)細(xì)節(jié)的保真還原能力。


定性結(jié)果清晰顯示,ContextGen也能還原細(xì)粒度的面部特征,也能靈活融合不同風(fēng)格的參考圖像,同時(shí)還能遵循用戶的布局設(shè)計(jì)要求。




前端支持

用戶友好界面

團(tuán)隊(duì)還開發(fā)了一個(gè)簡(jiǎn)單的前端界面,用戶可以上傳自己的參考圖像,方便地設(shè)計(jì)布局,從而定制化生成多實(shí)例圖像。


結(jié)語

ContextGen框架通過在DiT架構(gòu)中引入CLA和ICA雙核注意力機(jī)制,創(chuàng)新性地實(shí)現(xiàn)了宏觀布局和微觀身份信息的架構(gòu)級(jí)分層解耦。

這一工作不僅為多實(shí)例生成提供了SOTA解決方案,成功突破了布局與身份的協(xié)同控制瓶頸,也為DiT等基礎(chǔ)擴(kuò)散模型在高度定制化AIGC任務(wù)中的應(yīng)用開辟了新的技術(shù)路徑。

作者簡(jiǎn)介

本工作由浙江大學(xué)ReLER團(tuán)隊(duì)完成,其中第一作者是浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院本科生許瑞航,通訊作者為浙江大學(xué)求是講席教授楊易老師。ReLER團(tuán)隊(duì)長期致力于人工智能領(lǐng)域的前沿研究,包括但不限于生成模型、多模態(tài)學(xué)習(xí)、AI+X等方向。

參考資料:

https://arxiv.org/abs/2510.11000

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
聶磊栽在一個(gè)女人手上,聶磊被抓,為什么大領(lǐng)導(dǎo)出面都不好使?

聶磊栽在一個(gè)女人手上,聶磊被抓,為什么大領(lǐng)導(dǎo)出面都不好使?

千年人參它會(huì)跑
2024-11-18 21:18:41
委內(nèi)瑞拉突圍成功,中國偵察船全程盯梢,美軍航母只能干瞪眼?

委內(nèi)瑞拉突圍成功,中國偵察船全程盯梢,美軍航母只能干瞪眼?

書中自有顏如玉
2025-12-23 03:48:44
3名女子吃飯沒錢買單,打了多個(gè)電話也沒人當(dāng)大冤種:男生清醒了

3名女子吃飯沒錢買單,打了多個(gè)電話也沒人當(dāng)大冤種:男生清醒了

唐小糖說情感
2025-08-04 11:19:28
全長30公里!南湛高速廣東段開工

全長30公里!南湛高速廣東段開工

嶺南美玉
2025-12-25 00:22:17
日本徹底目瞪口呆,美國也完全難以置信,遼寧已成全球矚目中心

日本徹底目瞪口呆,美國也完全難以置信,遼寧已成全球矚目中心

文雅筆墨
2025-12-20 10:57:51
海賊王1170話:卡普激戰(zhàn)黑胡子,十字公會(huì)招募七武海

海賊王1170話:卡普激戰(zhàn)黑胡子,十字公會(huì)招募七武海

山治談動(dòng)漫
2025-12-25 00:02:35
公積金利率降至2.1%,1月1日開始!

公積金利率降至2.1%,1月1日開始!

東莞房視
2025-12-24 14:16:41
取消腳蹬、增加續(xù)航,新國標(biāo)電動(dòng)車進(jìn)步了,為何車主還是不買賬?

取消腳蹬、增加續(xù)航,新國標(biāo)電動(dòng)車進(jìn)步了,為何車主還是不買賬?

生活魔術(shù)專家
2025-12-24 12:34:20
“新冠疫苗之父”落馬,榮譽(yù)清零!打過三針的網(wǎng)友慌了

“新冠疫苗之父”落馬,榮譽(yù)清零!打過三針的網(wǎng)友慌了

胡嚴(yán)亂語
2025-12-07 15:51:07
老人在養(yǎng)老院看電視要求換臺(tái)遭拒,要求回家遭兒子拒絕后跳樓身亡,兒子起訴養(yǎng)老院索賠11萬元,法院:駁回!

老人在養(yǎng)老院看電視要求換臺(tái)遭拒,要求回家遭兒子拒絕后跳樓身亡,兒子起訴養(yǎng)老院索賠11萬元,法院:駁回!

觀威海
2025-12-24 15:10:05
翻臉比翻書快!澤連斯基突然通知中國,準(zhǔn)備迎接烏克蘭的最新制裁

翻臉比翻書快!澤連斯基突然通知中國,準(zhǔn)備迎接烏克蘭的最新制裁

歲暮的歸南山
2025-12-25 01:51:07
耶發(fā)表倫驚人觀點(diǎn):美國正淪為“香蕉共和國”!

耶發(fā)表倫驚人觀點(diǎn):美國正淪為“香蕉共和國”!

聞號(hào)說經(jīng)濟(jì)
2025-11-17 11:52:33
情況突變,大批售臺(tái)軍火被扣押,美軍敗局已定,賴清德輸了個(gè)精光

情況突變,大批售臺(tái)軍火被扣押,美軍敗局已定,賴清德輸了個(gè)精光

小琴動(dòng)漫
2025-12-14 04:59:09
統(tǒng)一刻不容緩!特朗普幫了中國大忙,中國錯(cuò)失機(jī)會(huì)要再等10年

統(tǒng)一刻不容緩!特朗普幫了中國大忙,中國錯(cuò)失機(jī)會(huì)要再等10年

潮鹿逐夢(mèng)
2025-12-21 10:58:57
鄧小平視察二汽,得知王兆國38歲就當(dāng)副廠長后大喜:要好好培養(yǎng)他

鄧小平視察二汽,得知王兆國38歲就當(dāng)副廠長后大喜:要好好培養(yǎng)他

帝哥說史
2025-12-23 06:30:03
漁夫救下尼姑,抱到山洞共度一夜,尼姑:回家后別和妻子圓房

漁夫救下尼姑,抱到山洞共度一夜,尼姑:回家后別和妻子圓房

千秋文化
2025-10-06 11:38:36
童瑤胸貼露出來了

童瑤胸貼露出來了

手工制作阿殲
2025-12-15 12:20:21
歐美發(fā)聲引高市早苗吃驚,中國展現(xiàn)以一敵二十九勇氣

歐美發(fā)聲引高市早苗吃驚,中國展現(xiàn)以一敵二十九勇氣

南風(fēng)不及你溫柔
2025-12-25 01:39:23
卞相壹慘遭一輪游位列仙班第32位 棋仙戰(zhàn)首輪死兩條大龍負(fù)賴均輔

卞相壹慘遭一輪游位列仙班第32位 棋仙戰(zhàn)首輪死兩條大龍負(fù)賴均輔

勁爆體壇
2025-12-24 11:58:02
24GB+1TB!新機(jī)曝光:搭載驍龍8 Gen5+2億潛望長焦!

24GB+1TB!新機(jī)曝光:搭載驍龍8 Gen5+2億潛望長焦!

科技堡壘
2025-12-23 11:31:08
2025-12-25 02:47:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14175文章數(shù) 66395關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會(huì)跟進(jìn)?

汽車要聞

“運(yùn)動(dòng)版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

游戲
旅游
本地
健康
時(shí)尚

前《DOTA2》選手起訴LGD 稱拖欠近14萬賽事獎(jiǎng)金

旅游要聞

豫西地下4000年:地坑院的重生,藏著中國古村振興的密碼!

本地新聞

云游安徽|一川江水潤安慶,一塔一戲一城史

這些新療法,讓化療不再那么痛苦

對(duì)不起周柯宇,是陳靖可先來的

無障礙瀏覽 進(jìn)入關(guān)懷版