国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Snapchat提出Canvas-to-Image:一張畫布集成 ID、姿態(tài)與布局

0
分享至



Canvas-to-Image 是一個(gè)面向組合式圖像創(chuàng)作的全新框架。它取消了傳統(tǒng)「分散控制」的流程,將身份參考圖、空間布局、姿態(tài)線稿等不同類型的控制信息全部整合在同一個(gè)畫布中。用戶在畫布上放置或繪制的內(nèi)容,會(huì)被模型直接解釋為生成指令,簡(jiǎn)化了圖像生成過程中的控制流程。



  • 作者:Yusuf Dalva, Guocheng Gordon Qian*, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
  • 通訊作者:Guocheng Gordon Qian
  • 機(jī)構(gòu):1Snap Inc. 2UC Merced 3Virginia Tech
  • 論文標(biāo)題:Canvas-to-Image: Compositional Image Generation with Multimodal Controls
  • 項(xiàng)目主頁(yè):https://snap-research.github.io/canvas-to-image/
  • arXiv:arxiv.org/abs/2511.21691



為什么要把控制方式合并到一張畫布上?

在以往的生成流程中,身份參考、姿態(tài)線稿、布局框等控制方式往往被設(shè)計(jì)成互不相干的獨(dú)立輸入路徑

例如:

  • 身份控制需要貼一張獨(dú)立的參考圖;
  • 姿態(tài)控制依賴單獨(dú)的骨架圖;
  • 空間布局要再通過另一個(gè)模塊或附加輸入傳給模型。

這些控制信號(hào)分別從不同通道進(jìn)入模型,各自擁有獨(dú)立的編碼方式與預(yù)處理邏輯。結(jié)果就是:用戶無法在畫面的同一位置疊加多種控制信息,也無法用「一個(gè)局部區(qū)域里的組合提示」來告訴模型該怎么生成。

換句話說,傳統(tǒng)方法的輸入結(jié)構(gòu)是多入口、分散式的,缺乏統(tǒng)一的表達(dá)空間。這使得復(fù)雜場(chǎng)景的構(gòu)建流程變得冗長(zhǎng)且割裂,用戶只能一次提供一種控制,無法在同一個(gè)圖像區(qū)域上同時(shí)表達(dá)身份 + 姿態(tài) + 位置等組合指令。

Canvas-to-Image 正是針對(duì)這一結(jié)構(gòu)性限制提出新的方案:所有控制信號(hào)都匯聚到同一張畫布中,由模型在同一個(gè)像素空間內(nèi)理解、組合并執(zhí)行。

核心方法論



(a) 多任務(wù)畫布(Multi-Task Canvas)

Canvas-to-Image 設(shè)計(jì)的關(guān)鍵在于——畫布本身既是 UI,也是模型的輸入。畫布中可以出現(xiàn):

  • 一小塊真實(shí)人物的圖像,用于指定人物;
  • 一組簡(jiǎn)單的骨架線條,用來調(diào)節(jié)肢體姿勢(shì);
  • 框選區(qū)域,用來定義人物或物體應(yīng)處的位置。

這些異構(gòu)視覺符號(hào)中包含的空間關(guān)系、語(yǔ)義信息,都由 VLM-Diffusion(基于 Qwen-Image-Edit)直接解析。

在訓(xùn)練過程中,Canvas-to-Image 的多任務(wù)畫布從跨幀圖像集(cross-frame image sets)中自動(dòng)生成。具體流程如下:

  • 隨機(jī)選取一幀作為目標(biāo)圖像。
  • 從其他幀中抽取目標(biāo)幀所需要不同的視覺元素(人物片段,背景,姿態(tài)結(jié)構(gòu),框選區(qū)域等)。
  • 將抽取的視覺元素,按照目標(biāo)幀中的相應(yīng)位置,擺放在輸入畫布中。

這樣的跨幀采樣策略會(huì)在輸入畫布中自然引入姿態(tài)、光照、表情等方面的顯著差異,使得輸入提示與目標(biāo)圖像之間不存在可直接復(fù)用的像素對(duì)應(yīng)關(guān)系。由此,模型無法依賴簡(jiǎn)單的拷貝機(jī)制來完成訓(xùn)練任務(wù),而必須學(xué)習(xí)更抽象的語(yǔ)義關(guān)聯(lián)與結(jié)構(gòu)映射。這一設(shè)計(jì)在訓(xùn)練階段有效規(guī)避了「抄輸入」的捷徑,從根本上避免了模型在推理階段出現(xiàn) copy-paste 式的生成行為。

為了保持訓(xùn)練的簡(jiǎn)潔性,在每一次訓(xùn)練中,模型只會(huì)接收到一種隨機(jī)選定的控制模態(tài)(例如空間布局、姿態(tài)骨架或邊界框)。這樣可以讓模型分別學(xué)會(huì)獨(dú)立理解不同類型的控制提示,并在推理階段自然實(shí)現(xiàn)多控制的組合能力。

(b) 多控制推理

在推理階段,Canvas-to-Image 允許用戶在同一張畫布上靈活組合多種控制模態(tài),例如同時(shí)提供身份參考區(qū)域、姿態(tài)骨架以及空間布局框,從而實(shí)現(xiàn)復(fù)雜的多控制場(chǎng)景生成。與傳統(tǒng)「單一路徑控制」的方案不同,用戶無需在不同模塊之間切換或分階段注入條件,而是通過統(tǒng)一畫布一次性給出所有約束信號(hào)。

從學(xué)習(xí)機(jī)制上看,模型在訓(xùn)練過程中僅接觸到單一控制模態(tài)的樣本:每個(gè)訓(xùn)練樣本只隨機(jī)激活其中一種控制形式(身份、姿態(tài)或位置),使模型分別掌握對(duì)單獨(dú)控制信號(hào)的理解與對(duì)齊能力。值得注意的是,即便在數(shù)據(jù)中并不存在顯式標(biāo)注的「多模態(tài)組合控制」樣本,模型在推理階段仍然能夠在統(tǒng)一畫布中同時(shí)解析并整合多種控制信號(hào):它會(huì)在身份參考的約束下保持人物外觀一致性,在姿態(tài)骨架約束下生成結(jié)構(gòu)合理的姿態(tài),并在布局框條件下遵循全局空間排布。

這一現(xiàn)象表明,模型在統(tǒng)一畫布表示的框架下,學(xué)到的并不是對(duì)某一種控制模態(tài)的簡(jiǎn)單記憶,而是對(duì)「畫布上局部區(qū)域與目標(biāo)圖像結(jié)構(gòu)之間關(guān)系」的更高層次建模能力。換言之,模型在僅依賴單模態(tài)訓(xùn)練的前提下,仍然展現(xiàn)出對(duì)未見過控制組合的泛化能力:在推理中面對(duì)新的、復(fù)雜的多控制配置時(shí),依然能夠生成結(jié)構(gòu)一致、外觀可信且各控制信號(hào)相互兼容的高質(zhì)量結(jié)果。這也從實(shí)驗(yàn)角度驗(yàn)證了統(tǒng)一畫布設(shè)計(jì)在提升組合式可控生成能力方面的有效性。

實(shí)驗(yàn)結(jié)果

多控制組合(Multi-Control Composition)

Canvas-to-Image 能夠同時(shí)處理身份、姿態(tài)和布局框,而基線方法往往會(huì)失敗。Canvas-to-Image 能:

  • 遵循畫布中給定的姿態(tài)與空間約束;
  • 保持人物外觀與參考圖一致;
  • 在多種控制疊加時(shí)維持整體畫面的連貫性與合理性。



身份 + 物體組合

當(dāng)畫布中同時(shí)包含人物提示和物體提示時(shí),Canvas-to-Image 不會(huì)把兩者當(dāng)作獨(dú)立元素簡(jiǎn)單并置。模型能夠理解兩者之間應(yīng)有的空間與語(yǔ)義關(guān)系,因而會(huì)生成具有自然接觸、合理互動(dòng)的場(chǎng)景。

此外,在多種控制疊加的情況下,Canvas-to-Image 仍能保持:

  • 人物外觀與參考圖一致;
  • 物體的形狀、材質(zhì)和語(yǔ)義保持穩(wěn)定;
  • 人物與物體之間的空間一致性與幾何邏輯不被破壞。

因此即便在復(fù)雜的組合控制設(shè)置下,生成的畫面也能呈現(xiàn)出連貫、可信的互動(dòng)效果,而不是常見的「貼圖式合成感」。



多層次場(chǎng)景:前景 + 背景

在給定一張背景圖的情況下,Canvas-to-Image 可以通過放置參考圖或標(biāo)注邊界框的方式,將人物或物體自然地融入場(chǎng)景。模型會(huì)根據(jù)畫布中的提示自動(dòng)調(diào)整空間關(guān)系,使插入元素在位置、光照和整體氛圍上與背景保持一致,呈現(xiàn)近乎原生的融合效果。



消融研究

我們系統(tǒng)地測(cè)試了當(dāng)逐步添加控制時(shí)模型的表現(xiàn):

  • 僅身份控制:模型能生成人物,但姿態(tài)和位置隨機(jī);
  • + 姿態(tài)控制:模型學(xué)會(huì)同時(shí)控制身份和姿態(tài);
  • + 空間布局:模型能完全控制身份、姿態(tài)和位置。

關(guān)鍵發(fā)現(xiàn):雖然訓(xùn)練時(shí)使用單任務(wù)畫布,但模型自然學(xué)會(huì)了在推理時(shí)組合多種控制——這種涌現(xiàn)能力驗(yàn)證了我們的設(shè)計(jì)理念。



總結(jié)

Canvas-to-Image 的核心價(jià)值是把多模態(tài)的生成控制方式全部圖形化,讓復(fù)雜場(chǎng)景的構(gòu)建回歸到最直觀的方式:在畫布上擺放、畫、框,就能讓模型生成對(duì)應(yīng)的結(jié)構(gòu)化、真實(shí)感強(qiáng)的畫面。統(tǒng)一畫布 + 多模態(tài)控制的范式,將有望成為下一代創(chuàng)作工具的基礎(chǔ)界面形態(tài)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
歐協(xié)聯(lián)2-2大冷門,英超第5遭阻擊,無緣2連勝

歐協(xié)聯(lián)2-2大冷門,英超第5遭阻擊,無緣2連勝

側(cè)身凌空斬
2025-12-19 05:58:44
天才空降騰訊,27 歲姚順雨擔(dān)任騰訊首席AI科學(xué)家,履歷非常亮眼

天才空降騰訊,27 歲姚順雨擔(dān)任騰訊首席AI科學(xué)家,履歷非常亮眼

凱旋學(xué)長(zhǎng)
2025-12-18 17:49:43
許家印被捕多年了,在獄中的生活是怎么樣的,會(huì)不會(huì)被判死刑?

許家印被捕多年了,在獄中的生活是怎么樣的,會(huì)不會(huì)被判死刑?

歷史偉人錄
2025-12-09 11:22:40
特朗普根本勸不住泰國(guó),洪森這才看清楚,中國(guó)的做法是對(duì)的

特朗普根本勸不住泰國(guó),洪森這才看清楚,中國(guó)的做法是對(duì)的

空天力量
2025-12-19 13:48:03
張韶涵造型翻車?網(wǎng)友:這是裁員裁到服裝師了?

張韶涵造型翻車?網(wǎng)友:這是裁員裁到服裝師了?

搞笑娛樂笑話
2025-12-18 10:35:33
這是遇到真的“上帝”顧客了!小伙24分鐘心肺復(fù)蘇搶回老板娘一條命

這是遇到真的“上帝”顧客了!小伙24分鐘心肺復(fù)蘇搶回老板娘一條命

揚(yáng)子晚報(bào)
2025-12-18 15:45:28
剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

商業(yè)與生活
2025-12-19 11:43:38
江蘇一男子意外抽中“白鹿足金黃金海報(bào)”,熔出近10g金豆,卻被告知血虧

江蘇一男子意外抽中“白鹿足金黃金海報(bào)”,熔出近10g金豆,卻被告知血虧

瀟湘晨報(bào)
2025-12-19 10:57:11
何晴葬禮剛結(jié)束,令人擔(dān)憂事發(fā)生!兒子被詬病,網(wǎng)友:簡(jiǎn)直沒人性

何晴葬禮剛結(jié)束,令人擔(dān)憂事發(fā)生!兒子被詬病,網(wǎng)友:簡(jiǎn)直沒人性

瓜農(nóng)娟姐
2025-12-18 20:23:22
加時(shí)力克東部第一!弗拉格23分10板,濃眉15+14,CC空砍20+10+9

加時(shí)力克東部第一!弗拉格23分10板,濃眉15+14,CC空砍20+10+9

無術(shù)不學(xué)
2025-12-19 12:56:43
54歲吳奇隆被曝離婚:養(yǎng)全家十幾口花費(fèi)數(shù)億,劉詩(shī)詩(shī)獨(dú)自帶娃無人陪!網(wǎng)友:配不上她

54歲吳奇隆被曝離婚:養(yǎng)全家十幾口花費(fèi)數(shù)億,劉詩(shī)詩(shī)獨(dú)自帶娃無人陪!網(wǎng)友:配不上她

In風(fēng)尚
2025-12-18 18:49:25
超強(qiáng)mini!新機(jī)官宣:12月19日,正式開售

超強(qiáng)mini!新機(jī)官宣:12月19日,正式開售

科技堡壘
2025-12-16 13:34:04
轟45+三雙一戰(zhàn)創(chuàng)七紀(jì)錄:東契奇登全美熱搜 關(guān)鍵時(shí)刻10勝0負(fù)太狠

轟45+三雙一戰(zhàn)創(chuàng)七紀(jì)錄:東契奇登全美熱搜 關(guān)鍵時(shí)刻10勝0負(fù)太狠

顏小白的籃球夢(mèng)
2025-12-19 13:12:39
林彪帶走所有王牌,只給他留下3000殘兵,8年后,他讓整個(gè)日本陸軍懷疑人生

林彪帶走所有王牌,只給他留下3000殘兵,8年后,他讓整個(gè)日本陸軍懷疑人生

寄史言志
2025-12-16 22:45:14
2026年元旦后,運(yùn)勢(shì)徹底轉(zhuǎn)向,開始連走十年上坡路的三個(gè)星座

2026年元旦后,運(yùn)勢(shì)徹底轉(zhuǎn)向,開始連走十年上坡路的三個(gè)星座

小晴星座說
2025-12-17 19:41:58
國(guó)羽傳捷報(bào)!王祉怡2-0橫掃世界冠軍,小組第1出線,圣壇組合接場(chǎng)

國(guó)羽傳捷報(bào)!王祉怡2-0橫掃世界冠軍,小組第1出線,圣壇組合接場(chǎng)

劉姚堯的文字城堡
2025-12-18 18:29:37
何穗產(chǎn)后首曬懟臉照,素顏露面狀態(tài)超好,一雙“筷子腿”超搶鏡

何穗產(chǎn)后首曬懟臉照,素顏露面狀態(tài)超好,一雙“筷子腿”超搶鏡

扒蝦侃娛
2025-12-18 22:40:36
精彩賽事!12月19日晚18:35!中央五套CCTV5、CCTV5+直播節(jié)目表

精彩賽事!12月19日晚18:35!中央五套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2025-12-19 13:41:59
僅26歲帥哥睡夢(mèng)中離世,開奔馳家境好,媽媽含淚:8點(diǎn)發(fā)現(xiàn)人沒了

僅26歲帥哥睡夢(mèng)中離世,開奔馳家境好,媽媽含淚:8點(diǎn)發(fā)現(xiàn)人沒了

鋭娛之樂
2025-12-19 08:16:38
張繼科"炮轟"劉國(guó)梁,2017年換教練不提前說,誰(shuí)會(huì)高三換語(yǔ)文老師

張繼科"炮轟"劉國(guó)梁,2017年換教練不提前說,誰(shuí)會(huì)高三換語(yǔ)文老師

查爾菲的筆記
2025-10-12 17:15:34
2025-12-19 14:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11953文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

團(tuán)播女生私下賣力維護(hù)"大哥":經(jīng)常擦邊 有女生會(huì)被約走

頭條要聞

團(tuán)播女生私下賣力維護(hù)"大哥":經(jīng)常擦邊 有女生會(huì)被約走

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬(wàn)

態(tài)度原創(chuàng)

藝術(shù)
教育
數(shù)碼
家居
軍事航空

藝術(shù)要聞

諸樂三的寫意花鳥

教育要聞

搭金橋 助揚(yáng)帆!“職引未來”2025秋招圓滿收官

數(shù)碼要聞

固件更新無效?AirPods Pro 3靜電噪音問題未徹底解決

家居要聞

高端私宅 理想隱居圣地

軍事要聞

媒體:美方官宣史上對(duì)臺(tái)單筆最大軍售 野心藏不住了

無障礙瀏覽 進(jìn)入關(guān)懷版