跨物體融合新突破！從拼貼到創(chuàng)造：AI學(xué)會(huì)「生」出新物體

2026-04-02 13:04:02　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：LRST

【新智元導(dǎo)讀】AI不再只是把兩個(gè)物體「放一起」，而是真正造出一個(gè)新實(shí)體。VMDiff模型通過分階段策略：先拼接保留信息，再插值融合成整體，并自動(dòng)調(diào)節(jié)平衡，讓生成結(jié)果既像兩者，又自然統(tǒng)一。

過去，很多圖像生成模型都能同時(shí)畫出兩個(gè)物體；但要讓它們真正「長成一個(gè)新物體」，其實(shí)遠(yuǎn)沒有那么簡單。

如果讓AI把「玻璃罐」和「貓頭鷹」結(jié)合起來，很多模型表面上看似做到了，實(shí)際上卻沒有真正融合。

有的結(jié)果只是把兩個(gè)物體放在同一張圖里，彼此靠近、重疊，但仍然是兩個(gè)分離的概念；還有的結(jié)果更直接，只保留了其中一個(gè)物體，另一個(gè)概念幾乎消失不見。

這正是跨物體融合生成長期存在的兩個(gè)核心難題：一類叫coexistent generation，也就是「共存但不融合」；另一類叫bias generation，也就是「只偏向一邊，另一邊被吞掉」。

最近，來自南京理工大學(xué)和南京大學(xué)的研究者提出了VMDiff（Visual Mixing Diffusion）。這項(xiàng)工作的目標(biāo)不是讓兩個(gè)概念「出現(xiàn)在同一張圖里」，而是讓它們真正融合成一個(gè)結(jié)構(gòu)連貫、語義平衡、視覺統(tǒng)一的新實(shí)體。

論文鏈接：https://arxiv.org/abs/2509.23605

項(xiàng)目主頁： https://xzr52.github.io/VMDiff_index/

代碼倉庫： https://github.com/xzr52/VMDiff_code

圖 1. VMDiff能將兩個(gè)輸入物體融合為結(jié)構(gòu)統(tǒng)一的新實(shí)體。

圖 2. 現(xiàn)有方法常見的兩類失敗：共存不融合，或只偏向一邊。

VMDiff最核心的思路，不是籠統(tǒng)地說「在noise和embedding上融合」，而是更精確地把整個(gè)過程拆成兩個(gè)目標(biāo)完全不同的階段：

在前一階段，目標(biāo)是盡可能完整保留兩個(gè)輸入的信息；
在后一階段，目標(biāo)是把這些信息真正長成一個(gè)統(tǒng)一的新物體。

這兩個(gè)階段分別對應(yīng)論文中的Hybrid Sampling Process（HSP）和Efficient Adaptive Adjustment（EAA）。而HSP里面最值得講的，就是兩個(gè)非常「反直覺但很對」的設(shè)計(jì)選擇：

該保留信息的時(shí)候，不做插值，而是拼接；該形成統(tǒng)一整體的時(shí)候，不再拼接，而是插值。

圖 3. VMDiff由HSP與EAA兩部分組成：前者負(fù)責(zé)融合生成，后者負(fù)責(zé)自適應(yīng)調(diào)參。

第一步：先別急著「混」，先保證兩個(gè)輸入都真的在場

很多人一看到「融合」就會(huì)想到插值。但 VMDiff 在前面的Blending Noise（BNoise）階段并沒有這么做。

它先從高斯噪聲出發(fā)，再通過引導(dǎo)去噪和反演，把噪聲逐步變成一個(gè)帶有兩個(gè)輸入概念信息的語義噪聲。而在這個(gè)階段，VMDiff 對兩個(gè)輸入特征采用的不是插值，而是拼接（concatenate）。

為什么這里要拼接？

因?yàn)檫@一階段的目標(biāo)還不是「生成一個(gè)整體」，而是「把兩個(gè)來源的信息都盡可能保住」。如果過早插值，兩個(gè)物體中那些不完全對齊的局部細(xì)節(jié)，很容易在平均過程中被抹平；相反，拼接能先把雙方的重要特征都保留下來，再交給后續(xù)的反演過程去提煉。

換句話說，VMDiff在這一步解決的是：如何在真正開始生成之前，先把兩個(gè)概念的信息注入噪聲。

圖 4. 在 BNoise 階段，拼接比插值更有利于保留輸入細(xì)節(jié)。

第二步：真正生成時(shí)，目標(biāo)變了——這時(shí)必須讓它長成一個(gè)整體

前面那一步解決的是「兩個(gè)概念都在」。但只做到這一步還不夠，因?yàn)椤付荚凇共坏扔凇溉诤虾昧恕埂?/p>

如果在最終生成階段還繼續(xù)拼接，那么模型雖然擁有兩邊的信息，但它們還是彼此分離的，最后很容易長成「兩個(gè)物體擠在一起」的結(jié)果。所以在Mixing Denoise（MDeNoise）階段，VMDiff做了第二個(gè)關(guān)鍵轉(zhuǎn)換：

它不再拼接，而是用球面插值（spherical interpolation）去混合兩組視覺表征，讓它們沿著一個(gè)更自然的潛空間路徑逐步過渡，最終形成單一、連貫、和諧的新實(shí)體。

這一點(diǎn)特別重要。它說明 VMDiff 不是簡單地「全程統(tǒng)一融合策略」，而是針對不同階段的目標(biāo)，選擇了不同的操作：

在BNoise階段，怕丟信息，所以選拼接；
在MDeNoise階段，怕長不成整體，所以選插值。

這正是VMDiff和很多「直接混一混」方法最本質(zhì)的區(qū)別。

圖 5. 在最終生成階段，插值比拼接更容易形成統(tǒng)一整體。

但「成整體」還不夠，VMDiff 還要解決另一個(gè)麻煩：別偏科

即便有了前面的兩步，模型仍然可能偏向其中一個(gè)輸入。比如「口紅 + 鋼鐵俠手辦」，最后也許更容易只?？诩t，或者只剩鋼鐵俠風(fēng)格，而無法做到真正平衡。

所以VMDiff 又設(shè)計(jì)了一個(gè)Similarity Score（SS），專門衡量生成結(jié)果是否同時(shí)：

1.既像輸入圖像 1，也像輸入圖像 2；

2.既符合類別語義 1，也符合類別語義 2；

3.而且兩邊不能差太多。

這個(gè)式子可以拆成四部分來看：

表示visual similarity，要求生成結(jié)果在視覺上都接近兩個(gè)輸入圖像；

semantic similarity，要求生成結(jié)果在語義上都符合兩個(gè)類別標(biāo)簽；

visual balance，懲罰視覺上只偏向其中一邊；

semantic balance，懲罰語義上只保留一個(gè)概念。

換句話說，VMDiff優(yōu)化的不是「像某一個(gè)輸入」，而是：既保留兩個(gè)來源的視覺與語義，又顯式壓制不平衡。

有了這個(gè)目標(biāo)之后，后面的 Efficient Adaptive Adjustment (EAA) 就有了明確的優(yōu)化方向：先搜索控制融合比例的，再根據(jù)結(jié)果進(jìn)一步調(diào)整，必要時(shí)重采樣噪聲，從而自動(dòng)找到一個(gè)既自然、又平衡的融合點(diǎn)。

EAA自動(dòng)搜索「最平衡的融合點(diǎn)」

有了這個(gè)相似度與平衡聯(lián)合目標(biāo)之后，VMDiff 用Efficient Adaptive Adjustment（EAA）去自動(dòng)搜索參數(shù)。

它會(huì)分層地調(diào)整：控制融合比例的α、控制噪聲側(cè)影響的β1、β2，以及隨機(jī)噪聲?

做法并不是昂貴的梯度反向傳播，而是更輕量的層次化搜索，比如 golden section search，再結(jié)合少量重采樣。這使得 VMDiff 不需要一個(gè)特別重的優(yōu)化過程，也能比較高效地找到「最像兩邊、又最平衡」的解。

圖 6. EAA 通過分層搜索逐步提升相似度并減小失衡。

結(jié)果上，VMDiff 做到的不是「更花哨」，而是「更像一個(gè)新物體」

為了系統(tǒng)評估這件事，作者構(gòu)建了IIOF（Image-Image Object Fusion）數(shù)據(jù)集，包含 780 個(gè)圖像對，覆蓋動(dòng)物、水果、人造物體和角色手辦等類別。實(shí)驗(yàn)表明，VMDiff 不只是主觀上更有創(chuàng)意，在客觀指標(biāo)也都表現(xiàn)突出。

在多概念生成對比中，很多基線方法仍然容易出現(xiàn)「只是疊在一起」或者「偏向其中一邊」的問題；而 VMDiff 生成的結(jié)果往往更像是一個(gè)真正統(tǒng)一的混合實(shí)體。從表 1 可以看到，VMDiff 并不是只在單一指標(biāo)上占優(yōu)，而是在語義一致性、單實(shí)體連貫性、相似度和平衡性等多個(gè)維度上都表現(xiàn)突出。

表 1. IIOF 數(shù)據(jù)集上的定量對比結(jié)果

圖 7. 與多概念生成方法相比，VMDiff 更能生成統(tǒng)一而平衡的融合體。

圖 8. 與混合和編輯方法相比，VMDiff 的結(jié)果更完整、更自然。

這篇工作的價(jià)值，不只是生成幾個(gè)新奇例子

VMDiff 真正有意思的地方，不只是做出了幾張好看的圖，而是它給「跨物體視覺融合」這件事提供了一種很清晰的方法論：

先解決「信息別丟」；
再解決「整體要成」；
最后再解決「雙方要平衡」。

這三件事以前常常被混在一起處理，而 VMDiff 把它們拆開了，并為每一步都設(shè)計(jì)了對應(yīng)的機(jī)制。這也是為什么它生成出來的結(jié)果，不是簡單拼貼，也不是只偏向一邊，而更像一個(gè)真的被「設(shè)計(jì)出來」的新物體。

總結(jié)

很多方法能把兩個(gè)物體同時(shí)畫出來，但VMDiff 的目標(biāo)不是「同時(shí)出現(xiàn)」，而是「真正長成一個(gè)新物體」。對角色設(shè)計(jì)、潮玩設(shè)計(jì)、電影動(dòng)畫和工業(yè)外觀探索來說，這種「真正生成一個(gè)新物體」的能力，比簡單拼貼更接近實(shí)際創(chuàng)作需求。它最核心的洞察在于：

在噪聲構(gòu)造階段，用拼接保住兩邊信息；
在最終生成階段，用插值把兩邊長成一個(gè)整體；
再用聯(lián)合考慮相似度與平衡的目標(biāo)函數(shù)，自動(dòng)找到最佳融合點(diǎn)。

這讓跨物體融合不再只是「把A和B放一起」，而是真正走向「從A和B里，創(chuàng)造出一個(gè)新的C」。

參考資料：

https://arxiv.org/abs/2509.23605

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.