国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

Snapchat提出Canvas-to-Image:一張畫布集成 ID、姿態(tài)與布局

0
分享至



Canvas-to-Image 是一個(gè)面向組合式圖像創(chuàng)作的全新框架。它取消了傳統(tǒng)「分散控制」的流程,將身份參考圖、空間布局、姿態(tài)線稿等不同類型的控制信息全部整合在同一個(gè)畫布中。用戶在畫布上放置或繪制的內(nèi)容,會(huì)被模型直接解釋為生成指令,簡化了圖像生成過程中的控制流程。



  • 作者:Yusuf Dalva, Guocheng Gordon Qian*, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
  • 通訊作者:Guocheng Gordon Qian
  • 機(jī)構(gòu):1Snap Inc. 2UC Merced 3Virginia Tech
  • 論文標(biāo)題:Canvas-to-Image: Compositional Image Generation with Multimodal Controls
  • 項(xiàng)目主頁:https://snap-research.github.io/canvas-to-image/
  • arXiv:arxiv.org/abs/2511.21691



為什么要把控制方式合并到一張畫布上?

在以往的生成流程中,身份參考、姿態(tài)線稿、布局框等控制方式往往被設(shè)計(jì)成互不相干的獨(dú)立輸入路徑

例如:

  • 身份控制需要貼一張獨(dú)立的參考圖;
  • 姿態(tài)控制依賴單獨(dú)的骨架圖;
  • 空間布局要再通過另一個(gè)模塊或附加輸入傳給模型。

這些控制信號(hào)分別從不同通道進(jìn)入模型,各自擁有獨(dú)立的編碼方式與預(yù)處理邏輯。結(jié)果就是:用戶無法在畫面的同一位置疊加多種控制信息,也無法用「一個(gè)局部區(qū)域里的組合提示」來告訴模型該怎么生成。

換句話說,傳統(tǒng)方法的輸入結(jié)構(gòu)是多入口、分散式的,缺乏統(tǒng)一的表達(dá)空間。這使得復(fù)雜場景的構(gòu)建流程變得冗長且割裂,用戶只能一次提供一種控制,無法在同一個(gè)圖像區(qū)域上同時(shí)表達(dá)身份 + 姿態(tài) + 位置等組合指令。

Canvas-to-Image 正是針對這一結(jié)構(gòu)性限制提出新的方案:所有控制信號(hào)都匯聚到同一張畫布中,由模型在同一個(gè)像素空間內(nèi)理解、組合并執(zhí)行。

核心方法論



(a) 多任務(wù)畫布(Multi-Task Canvas)

Canvas-to-Image 設(shè)計(jì)的關(guān)鍵在于——畫布本身既是 UI,也是模型的輸入。畫布中可以出現(xiàn):

  • 一小塊真實(shí)人物的圖像,用于指定人物;
  • 一組簡單的骨架線條,用來調(diào)節(jié)肢體姿勢;
  • 框選區(qū)域,用來定義人物或物體應(yīng)處的位置。

這些異構(gòu)視覺符號(hào)中包含的空間關(guān)系、語義信息,都由 VLM-Diffusion(基于 Qwen-Image-Edit)直接解析。

在訓(xùn)練過程中,Canvas-to-Image 的多任務(wù)畫布從跨幀圖像集(cross-frame image sets)中自動(dòng)生成。具體流程如下:

  • 隨機(jī)選取一幀作為目標(biāo)圖像。
  • 從其他幀中抽取目標(biāo)幀所需要不同的視覺元素(人物片段,背景,姿態(tài)結(jié)構(gòu),框選區(qū)域等)。
  • 將抽取的視覺元素,按照目標(biāo)幀中的相應(yīng)位置,擺放在輸入畫布中。

這樣的跨幀采樣策略會(huì)在輸入畫布中自然引入姿態(tài)、光照、表情等方面的顯著差異,使得輸入提示與目標(biāo)圖像之間不存在可直接復(fù)用的像素對應(yīng)關(guān)系。由此,模型無法依賴簡單的拷貝機(jī)制來完成訓(xùn)練任務(wù),而必須學(xué)習(xí)更抽象的語義關(guān)聯(lián)與結(jié)構(gòu)映射。這一設(shè)計(jì)在訓(xùn)練階段有效規(guī)避了「抄輸入」的捷徑,從根本上避免了模型在推理階段出現(xiàn) copy-paste 式的生成行為。

為了保持訓(xùn)練的簡潔性,在每一次訓(xùn)練中,模型只會(huì)接收到一種隨機(jī)選定的控制模態(tài)(例如空間布局、姿態(tài)骨架或邊界框)。這樣可以讓模型分別學(xué)會(huì)獨(dú)立理解不同類型的控制提示,并在推理階段自然實(shí)現(xiàn)多控制的組合能力。

(b) 多控制推理

在推理階段,Canvas-to-Image 允許用戶在同一張畫布上靈活組合多種控制模態(tài),例如同時(shí)提供身份參考區(qū)域、姿態(tài)骨架以及空間布局框,從而實(shí)現(xiàn)復(fù)雜的多控制場景生成。與傳統(tǒng)「單一路徑控制」的方案不同,用戶無需在不同模塊之間切換或分階段注入條件,而是通過統(tǒng)一畫布一次性給出所有約束信號(hào)。

從學(xué)習(xí)機(jī)制上看,模型在訓(xùn)練過程中僅接觸到單一控制模態(tài)的樣本:每個(gè)訓(xùn)練樣本只隨機(jī)激活其中一種控制形式(身份、姿態(tài)或位置),使模型分別掌握對單獨(dú)控制信號(hào)的理解與對齊能力。值得注意的是,即便在數(shù)據(jù)中并不存在顯式標(biāo)注的「多模態(tài)組合控制」樣本,模型在推理階段仍然能夠在統(tǒng)一畫布中同時(shí)解析并整合多種控制信號(hào):它會(huì)在身份參考的約束下保持人物外觀一致性,在姿態(tài)骨架約束下生成結(jié)構(gòu)合理的姿態(tài),并在布局框條件下遵循全局空間排布。

這一現(xiàn)象表明,模型在統(tǒng)一畫布表示的框架下,學(xué)到的并不是對某一種控制模態(tài)的簡單記憶,而是對「畫布上局部區(qū)域與目標(biāo)圖像結(jié)構(gòu)之間關(guān)系」的更高層次建模能力。換言之,模型在僅依賴單模態(tài)訓(xùn)練的前提下,仍然展現(xiàn)出對未見過控制組合的泛化能力:在推理中面對新的、復(fù)雜的多控制配置時(shí),依然能夠生成結(jié)構(gòu)一致、外觀可信且各控制信號(hào)相互兼容的高質(zhì)量結(jié)果。這也從實(shí)驗(yàn)角度驗(yàn)證了統(tǒng)一畫布設(shè)計(jì)在提升組合式可控生成能力方面的有效性。

實(shí)驗(yàn)結(jié)果

多控制組合(Multi-Control Composition)

Canvas-to-Image 能夠同時(shí)處理身份、姿態(tài)和布局框,而基線方法往往會(huì)失敗。Canvas-to-Image 能:

  • 遵循畫布中給定的姿態(tài)與空間約束;
  • 保持人物外觀與參考圖一致;
  • 在多種控制疊加時(shí)維持整體畫面的連貫性與合理性。



身份 + 物體組合

當(dāng)畫布中同時(shí)包含人物提示和物體提示時(shí),Canvas-to-Image 不會(huì)把兩者當(dāng)作獨(dú)立元素簡單并置。模型能夠理解兩者之間應(yīng)有的空間與語義關(guān)系,因而會(huì)生成具有自然接觸、合理互動(dòng)的場景。

此外,在多種控制疊加的情況下,Canvas-to-Image 仍能保持:

  • 人物外觀與參考圖一致;
  • 物體的形狀、材質(zhì)和語義保持穩(wěn)定;
  • 人物與物體之間的空間一致性與幾何邏輯不被破壞。

因此即便在復(fù)雜的組合控制設(shè)置下,生成的畫面也能呈現(xiàn)出連貫、可信的互動(dòng)效果,而不是常見的「貼圖式合成感」。



多層次場景:前景 + 背景

在給定一張背景圖的情況下,Canvas-to-Image 可以通過放置參考圖或標(biāo)注邊界框的方式,將人物或物體自然地融入場景。模型會(huì)根據(jù)畫布中的提示自動(dòng)調(diào)整空間關(guān)系,使插入元素在位置、光照和整體氛圍上與背景保持一致,呈現(xiàn)近乎原生的融合效果。



消融研究

我們系統(tǒng)地測試了當(dāng)逐步添加控制時(shí)模型的表現(xiàn):

  • 僅身份控制:模型能生成人物,但姿態(tài)和位置隨機(jī);
  • + 姿態(tài)控制:模型學(xué)會(huì)同時(shí)控制身份和姿態(tài);
  • + 空間布局:模型能完全控制身份、姿態(tài)和位置。

關(guān)鍵發(fā)現(xiàn):雖然訓(xùn)練時(shí)使用單任務(wù)畫布,但模型自然學(xué)會(huì)了在推理時(shí)組合多種控制——這種涌現(xiàn)能力驗(yàn)證了我們的設(shè)計(jì)理念。



總結(jié)

Canvas-to-Image 的核心價(jià)值是把多模態(tài)的生成控制方式全部圖形化,讓復(fù)雜場景的構(gòu)建回歸到最直觀的方式:在畫布上擺放、畫、框,就能讓模型生成對應(yīng)的結(jié)構(gòu)化、真實(shí)感強(qiáng)的畫面。統(tǒng)一畫布 + 多模態(tài)控制的范式,將有望成為下一代創(chuàng)作工具的基礎(chǔ)界面形態(tài)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
高市沒想到,對華關(guān)系降級(jí)當(dāng)天,中方反應(yīng)迅速,53條航線全取消

高市沒想到,對華關(guān)系降級(jí)當(dāng)天,中方反應(yīng)迅速,53條航線全取消

共工之錨
2026-04-11 00:54:51
黃景瑜王玉雯戀情風(fēng)波升級(jí),雙方辟謠后惹爭議,完全符合對方審美

黃景瑜王玉雯戀情風(fēng)波升級(jí),雙方辟謠后惹爭議,完全符合對方審美

古希臘掌管松餅的神
2026-04-10 12:12:58
禽獸不如!武漢4歲女童被親生父親殺害拋江,曾買60元意外保險(xiǎn)

禽獸不如!武漢4歲女童被親生父親殺害拋江,曾買60元意外保險(xiǎn)

派大星紀(jì)錄片
2026-04-10 17:31:01
1997年,英國歸還了香港,為何拒絕歸還沒什么經(jīng)濟(jì)價(jià)值的馬島?

1997年,英國歸還了香港,為何拒絕歸還沒什么經(jīng)濟(jì)價(jià)值的馬島?

鶴羽說個(gè)事
2026-04-10 22:29:55
陪睡陪玩算什么?繼人體盛宴、舔手指后,千萬網(wǎng)紅再曝娛樂圈內(nèi)幕

陪睡陪玩算什么?繼人體盛宴、舔手指后,千萬網(wǎng)紅再曝娛樂圈內(nèi)幕

徐云流浪中國
2026-04-10 00:31:22
暴跌95%!一代神車退場了,比燃油車賣不掉更可怕的事正在發(fā)生

暴跌95%!一代神車退場了,比燃油車賣不掉更可怕的事正在發(fā)生

毒sir財(cái)經(jīng)
2026-04-10 16:25:00
賈平凹之女賈淺淺被調(diào)查,連米芾的芾字都不認(rèn)識(shí),引起書法界震怒

賈平凹之女賈淺淺被調(diào)查,連米芾的芾字都不認(rèn)識(shí),引起書法界震怒

潮鹿逐夢
2026-04-10 12:43:59
張雪奪冠賽車復(fù)刻版1分鐘拍出!500萬元將捐給嫣然天使基金,張雪:標(biāo)哥捐了,我不捐不好意思

張雪奪冠賽車復(fù)刻版1分鐘拍出!500萬元將捐給嫣然天使基金,張雪:標(biāo)哥捐了,我不捐不好意思

極目新聞
2026-04-10 20:58:02
大外交|王毅訪朝延續(xù)高層互動(dòng)勢頭,中朝多領(lǐng)域交流回暖

大外交|王毅訪朝延續(xù)高層互動(dòng)勢頭,中朝多領(lǐng)域交流回暖

澎湃新聞
2026-04-10 20:02:30
山西一局長在辦公室突發(fā)疾病不幸去世,單位正申報(bào)因公殉職,生前曾獲省五一勞動(dòng)獎(jiǎng)?wù)?>
    </a>
        <h3>
      <a href=大風(fēng)新聞
2026-04-10 11:26:15
巴基斯坦被激怒!出動(dòng)大量中械裝備,以色列若膽敢妄動(dòng),一律擊落

巴基斯坦被激怒!出動(dòng)大量中械裝備,以色列若膽敢妄動(dòng),一律擊落

面包夾知識(shí)
2026-04-11 00:23:27
現(xiàn)在才明白,全紅嬋被網(wǎng)暴三年多,一直沒人敢報(bào),原來央視記者就是那282人里的一個(gè)

現(xiàn)在才明白,全紅嬋被網(wǎng)暴三年多,一直沒人敢報(bào),原來央視記者就是那282人里的一個(gè)

娛樂洞察點(diǎn)點(diǎn)
2026-04-11 03:16:04
突發(fā)!特斯拉新款 Model Y 發(fā)布,有點(diǎn)離譜

突發(fā)!特斯拉新款 Model Y 發(fā)布,有點(diǎn)離譜

新浪財(cái)經(jīng)
2026-04-11 04:45:06
天助巴塞羅那:1-1大冷門,皇馬遭西甲第12逼平,2輪不勝距榜首6分

天助巴塞羅那:1-1大冷門,皇馬遭西甲第12逼平,2輪不勝距榜首6分

側(cè)身凌空斬
2026-04-11 04:56:28
催收巨頭倒塌,金華分公司被端,上百人被抓,無數(shù)人深受其害!

催收巨頭倒塌,金華分公司被端,上百人被抓,無數(shù)人深受其害!

保德全
2026-04-10 23:00:03
姐不僅圓又大,還是個(gè)肉墩,就在家自拍,不讓別人看

姐不僅圓又大,還是個(gè)肉墩,就在家自拍,不讓別人看

飛娛日記
2026-03-19 07:26:09
霍爾木茲海峽開了,又關(guān)了

霍爾木茲海峽開了,又關(guān)了

中國新聞周刊
2026-04-10 18:41:40
大批巴基斯坦戰(zhàn)機(jī)挺進(jìn)伊朗!防止以軍偷襲!使用大批中方制造裝備

大批巴基斯坦戰(zhàn)機(jī)挺進(jìn)伊朗!防止以軍偷襲!使用大批中方制造裝備

泠泠說史
2026-04-10 21:50:05
41歲男子威脅女鄰居發(fā)生關(guān)系,事后女子為自證清白,讓他再來一次

41歲男子威脅女鄰居發(fā)生關(guān)系,事后女子為自證清白,讓他再來一次

丫頭舫
2026-04-10 21:54:02
曝愛爾眼科醫(yī)院院長猥褻女經(jīng)理,強(qiáng)行摟抱,細(xì)節(jié)曝光,已被停職

曝愛爾眼科醫(yī)院院長猥褻女經(jīng)理,強(qiáng)行摟抱,細(xì)節(jié)曝光,已被停職

180視角
2026-04-10 14:27:07
2026-04-11 06:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12729文章數(shù) 142621關(guān)注度
往期回顧 全部

科技要聞

馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

頭條要聞

73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達(dá)成共識(shí)

頭條要聞

73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達(dá)成共識(shí)

體育要聞

17歲賺了一百萬美元,25歲被CBA裁員

娛樂要聞

黃景瑜王玉雯否認(rèn)戀情!聚會(huì)細(xì)節(jié)被扒

財(cái)經(jīng)要聞

李強(qiáng)主持召開經(jīng)濟(jì)形勢專家和企業(yè)家座談會(huì)

汽車要聞

搭載第二代刀片電池及閃充技術(shù) 騰勢N8L閃充版預(yù)售35萬起

態(tài)度原創(chuàng)

教育
健康
游戲
數(shù)碼
時(shí)尚

教育要聞

上海小升初壓軸題,求面積,難住太多人

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

任天堂獨(dú)占傳統(tǒng)不再!經(jīng)典作品跨平臺(tái)引粉絲不滿

數(shù)碼要聞

聯(lián)想推出2026款來酷斗戰(zhàn)者“戰(zhàn)7000”筆記本,7699元起

今日熱點(diǎn):陳添祥長文道歉;夏克立曾給前經(jīng)紀(jì)人傳上廁所照片……

無障礙瀏覽 進(jìn)入關(guān)懷版