国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

高保真、多控制集成于「統(tǒng)一畫布」,組合式圖像生成新范式!

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】Canvas-to-Image 是一種新型圖像生成框架,將多種控制方式(如身份、姿態(tài)、空間布局)整合到一個統(tǒng)一畫布中,用戶可通過直觀操作生成高保真、多控制的圖像。它簡化了創(chuàng)作流程,讓用戶在單一界面完成復(fù)雜創(chuàng)作,為AI創(chuàng)作工具提供了新范式。

大型擴散模型雖然能生成高質(zhì)量圖像,但在處理復(fù)雜的組合場景時仍存在挑戰(zhàn)。現(xiàn)有方法往往有如下缺點:

  1. 控制單一且分散身份控制、姿態(tài)控制、空間布局需要分別處理,難以協(xié)同。

  2. 交互性差用戶只能通過文本描述,無法直觀地控制生成過程。

最新研究Canvas-to-Image在交互式可控生成方面提供了一種新的范式:用戶可以在統(tǒng)一畫布上直接疊加多種視覺控制提示,包括放置人物參考圖以指定身份外觀、繪制骨架來約束姿態(tài)結(jié)構(gòu),以及通過邊界框指示物體或元素的大致空間位置。

模型在推理時會將這些異構(gòu)線索共同解析,在遵循文本描述的同時,實現(xiàn)復(fù)合控制條件下的協(xié)調(diào)生成。


項目地址:https://snap-research.github.io/canvas-to-image/

論文地址:https://arxiv.org/abs/2511.21691

用戶能夠在畫布上任意位置擺放參考人物圖像,在其旁邊放置特定寵物,并通過邊界框指定帽子、棕櫚樹等元素的大體位置。

隨后,模型會綜合文本指令(例如「女孩在海邊輕拍她的狗」)與畫布中的多模態(tài)提示,生成符合語義邏輯與視覺構(gòu)圖的照片級圖像。


這種統(tǒng)一畫布帶來的靈活性使編輯過程更加直觀:將小狗替換為貓咪手辦、更換棕櫚樹為遮陽傘、調(diào)整人物姿態(tài)等修改,只需對畫布進行對應(yīng)的局部替換或幾何調(diào)整,無需重新構(gòu)建多控制流程。

Canvas-to-Image能夠在不破壞整體結(jié)構(gòu)一致性的前提下,響應(yīng)這些局部修改,展現(xiàn)出高效而自然的多控制可編輯性。

Canvas-to-Image的目標,就是要將這些異構(gòu)的控制信號整合到一個統(tǒng)一的畫布界面中,讓用戶直觀地創(chuàng)作可控的個性化內(nèi)容。

Canvas-to-Image的工作示例

核心技術(shù)

Canvas-to-Image的設(shè)計理念


多任務(wù)畫布(Multi-Task Canvas)

Canvas-to-Image 的核心是一個統(tǒng)一的 RGB 畫布,能夠?qū)⒍喾N異構(gòu)控制信號整合到單一表示中,Canvas-to-Image訓(xùn)練過程中的控制信號有:

  • 身份參考:直接在畫布上放置人物的參考圖像;

  • 姿態(tài)骨架:繪制人體骨架來控制姿態(tài);

  • 邊界框:用框定義物體和人物的位置。

所有這些信息都被編碼在同一個畫布圖像中,模型利用VLM- Diffusion架構(gòu)(基于Qwen-Image-Edit) 可以直接解讀并進行視覺-空間推理。

單控制訓(xùn)練,多控制推理

  • 訓(xùn)練階段為簡化訓(xùn)練,Canvas-to-Image在訓(xùn)練過程中,每個樣本隨機采用一種控制模態(tài)(空間、姿態(tài)或邊界框)這意味著,模型在訓(xùn)練過程中從未見過多種控制的組合;

  • 推理階段用戶可以自由組合多種控制方式,實現(xiàn)復(fù)雜的多控制生成。

在訓(xùn)練時教會模型單獨理解「身份」、「姿態(tài)」和「位置」,但推理時它卻能自然地將這三者融合在一起。

這種「涌現(xiàn)能力」讓模型在從未見過的組合控制下,也能生成高質(zhì)量的結(jié)果。 這是 Canvas-to-Image 設(shè)計的精妙之處,在保證推理階段的靈活性的同時,極大地簡化了訓(xùn)練的復(fù)雜度。

實驗結(jié)果

多控制、高保真、強組合

多控制組合(Multi-Control Composition)

Canvas-to-Image能夠同時處理身份、姿態(tài)和布局框,而基線方法往往會失敗。


在復(fù)雜的多控制場景中,Canvas-to-Image能:

  • 準確執(zhí)行姿態(tài)和位置約束;

  • 保持人物身份特征穩(wěn)定;

  • 在多種約束共同存在時生成結(jié)構(gòu)清晰、語義一致的圖像。


身份+物體組合

Canvas-to-Image支持將特定人物與物體在各種場景中組合。與基線方法相比,Canvas-to-Image更好地保持了人物和物體的一致性。


背景人物組合


在輸入背景圖的前提下,Canvas-to-Image能夠依據(jù)參考圖粘貼或邊界框標注,將新的主體自然植入場景。 借助統(tǒng)一畫布的表達方式,模型能夠生成幾何關(guān)系合理、光照匹配、語義一致的合成畫面,顯著提升人物或物體的場景融合質(zhì)量。

消融研究

研究人員系統(tǒng)地測試了當逐步添加控制時模型的表現(xiàn):


  • 僅身份控制:模型能生成人物,但不遵循姿態(tài)控制,也不理解位置框;

  • +姿態(tài)控制:模型學(xué)會同時控制身份和姿態(tài),在位置框的表現(xiàn)上也變得更魯棒,即使目前模型還沒有在位置框上訓(xùn)練。這體現(xiàn)了多任務(wù)之間的協(xié)同性質(zhì)。

  • +空間布局:模型能完全控制身份、姿態(tài)和位置。

關(guān)鍵發(fā)現(xiàn):雖然訓(xùn)練時使用單任務(wù)畫布,但模型自然學(xué)會了在推理時組合多種控制——這種涌現(xiàn)能力驗證了設(shè)計理念。

總結(jié)

Canvas-to-Image將組合式生成從「分散控制」推向「統(tǒng)一畫布」。

用戶不再需要在多個控制模塊間切換,而是在單一界面中完成所有創(chuàng)作,以「統(tǒng)一畫布」為核心的多模態(tài)控制范式,將成為下一代AI創(chuàng)作工具的重要基礎(chǔ)。

參考資料:

https://snap-research.github.io/canvas-to-image/

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標,鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
我的美腿:是我最忠誠的史官

我的美腿:是我最忠誠的史官

疾跑的小蝸牛
2025-12-26 21:10:07
比“丑”更可怕的是“無效豪華”:很多農(nóng)村自建房正陷入這個怪圈

比“丑”更可怕的是“無效豪華”:很多農(nóng)村自建房正陷入這個怪圈

夢想的現(xiàn)實
2025-12-22 09:21:01
熱刺徹底跌出英超 Big6?從歐冠決賽到恐降級!多年瞎搞終嘗苦果

熱刺徹底跌出英超 Big6?從歐冠決賽到恐降級!多年瞎搞終嘗苦果

瀾歸序
2025-12-27 02:09:56
洞房夜妻子不讓我碰,天亮我提離婚,她紅著臉說出原因,我瞬間愣住

洞房夜妻子不讓我碰,天亮我提離婚,她紅著臉說出原因,我瞬間愣住

黃家湖的憂傷
2025-12-25 17:02:52
搶中國原油的美軍,意識到玩砸了,收到最新命令,60天內(nèi)不能動手

搶中國原油的美軍,意識到玩砸了,收到最新命令,60天內(nèi)不能動手

阿器談史
2025-12-26 20:55:00
62歲失獨母親再懷孕,稱胎兒是離世獨子轉(zhuǎn)世:失去的兒子回來了

62歲失獨母親再懷孕,稱胎兒是離世獨子轉(zhuǎn)世:失去的兒子回來了

觀世記
2025-12-26 16:48:24
深度分析:湖人隊主帥雷迪克的“不悅”爆發(fā)預(yù)示湖人可能進行交易

深度分析:湖人隊主帥雷迪克的“不悅”爆發(fā)預(yù)示湖人可能進行交易

好火子
2025-12-27 06:20:47
詹俊:曼聯(lián)節(jié)禮日上演小鬼當家,表現(xiàn)最突出的是海文

詹?。郝?lián)節(jié)禮日上演小鬼當家,表現(xiàn)最突出的是海文

懂球帝
2025-12-27 06:49:03
冬至后,這4種激素水果一定要少買!果販子透露:不要錢都不吃

冬至后,這4種激素水果一定要少買!果販子透露:不要錢都不吃

阿龍美食記
2025-12-24 10:52:39
李關(guān)定辭去寧波市副市長職務(wù)

李關(guān)定辭去寧波市副市長職務(wù)

澎湃新聞
2025-12-26 21:32:21
廣東一醫(yī)院發(fā)生一級甲等醫(yī)療事故,護士未及時發(fā)現(xiàn)暈倒患者,被暫停執(zhí)業(yè)!

廣東一醫(yī)院發(fā)生一級甲等醫(yī)療事故,護士未及時發(fā)現(xiàn)暈倒患者,被暫停執(zhí)業(yè)!

護士網(wǎng)
2025-12-26 23:54:13
突然爆雷!廣東總部人去樓空!有人投700多萬!

突然爆雷!廣東總部人去樓空!有人投700多萬!

金灣通
2025-12-26 13:36:02
新婚妻子去世僅2年就再娶,前岳父母卻說他是世界上最好的女婿!

新婚妻子去世僅2年就再娶,前岳父母卻說他是世界上最好的女婿!

甜菊汽水
2025-12-26 06:14:45
重慶亮點茶樓高管欺辱19歲女大學(xué)生,不料惹到不該惹的人,就此覆滅

重慶亮點茶樓高管欺辱19歲女大學(xué)生,不料惹到不該惹的人,就此覆滅

可兒故事匯
2024-10-23 13:44:53
羅永浩沒想到,西貝風波3個月后,賈國龍已為自己安排好兩條后路

羅永浩沒想到,西貝風波3個月后,賈國龍已為自己安排好兩條后路

卷史
2025-12-26 18:22:27
我國超2億人有頸動脈斑塊!研究證實:斑塊可以消退!有4點建議

我國超2億人有頸動脈斑塊!研究證實:斑塊可以消退!有4點建議

展望云霄
2025-12-23 21:03:05
當黑人選民看到,奧巴馬越老越白的時候,產(chǎn)生了強烈的被背叛感!

當黑人選民看到,奧巴馬越老越白的時候,產(chǎn)生了強烈的被背叛感!

杰絲聊古今
2025-12-25 19:53:45
沈陽人逛了哈爾濱和長春直言不諱:哈爾濱和長春人根本是兩種活法

沈陽人逛了哈爾濱和長春直言不諱:哈爾濱和長春人根本是兩種活法

三農(nóng)老歷
2025-12-26 15:58:28
3-2擊敗世界第3!國乒26歲美女爆冷贏世界冠軍:又美又能打

3-2擊敗世界第3!國乒26歲美女爆冷贏世界冠軍:又美又能打

李喜林籃球絕殺
2025-12-26 17:15:54
8投8中!2米26徐昕,展現(xiàn)CBA頂級水平 球迷:杜鋒怎么看?

8投8中!2米26徐昕,展現(xiàn)CBA頂級水平 球迷:杜鋒怎么看?

體育哲人
2025-12-26 23:34:37
2025-12-27 09:19:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14189文章數(shù) 66399關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

美媒自問自答 稱特朗普的"黃金艦隊"難匹敵中國海軍

頭條要聞

美媒自問自答 稱特朗普的"黃金艦隊"難匹敵中國海軍

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態(tài)度原創(chuàng)

健康
房產(chǎn)
手機
公開課
軍事航空

這些新療法,讓化療不再那么痛苦

房產(chǎn)要聞

炸裂,三亞360億超級清單發(fā)布,又一批重大配套要來了!

手機要聞

10000mAh+185Hz屏+主動散熱!榮耀WIN系列憑什么說“贏麻了”

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

英法德三國領(lǐng)導(dǎo)人通話 重申對烏支持

無障礙瀏覽 進入關(guān)懷版