国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

跨物體融合新突破!從拼貼到創(chuàng)造:AI學(xué)會(huì)「生」出新物體

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】AI不再只是把兩個(gè)物體「放一起」,而是真正造出一個(gè)新實(shí)體。VMDiff模型通過分階段策略:先拼接保留信息,再插值融合成整體,并自動(dòng)調(diào)節(jié)平衡,讓生成結(jié)果既像兩者,又自然統(tǒng)一。

過去,很多圖像生成模型都能同時(shí)畫出兩個(gè)物體;但要讓它們真正「長成一個(gè)新物體」,其實(shí)遠(yuǎn)沒有那么簡單。

如果讓AI把「玻璃罐」和「貓頭鷹」結(jié)合起來,很多模型表面上看似做到了,實(shí)際上卻沒有真正融合。

有的結(jié)果只是把兩個(gè)物體放在同一張圖里,彼此靠近、重疊,但仍然是兩個(gè)分離的概念;還有的結(jié)果更直接,只保留了其中一個(gè)物體,另一個(gè)概念幾乎消失不見。

這正是跨物體融合生成長期存在的兩個(gè)核心難題: 一類叫coexistent generation,也就是「共存但不融合」;另一類叫bias generation,也就是「只偏向一邊,另一邊被吞掉」。

最近,來自南京理工大學(xué)和南京大學(xué)的研究者提出了VMDiff(Visual Mixing Diffusion)。 這項(xiàng)工作的目標(biāo)不是讓兩個(gè)概念「出現(xiàn)在同一張圖里」,而是讓它們真正融合成一個(gè)結(jié)構(gòu)連貫、語義平衡、視覺統(tǒng)一的新實(shí)體。


論文鏈接:https://arxiv.org/abs/2509.23605

項(xiàng)目主頁: https://xzr52.github.io/VMDiff_index/

代碼倉庫: https://github.com/xzr52/VMDiff_code


圖 1. VMDiff能將兩個(gè)輸入物體融合為結(jié)構(gòu)統(tǒng)一的新實(shí)體。


圖 2. 現(xiàn)有方法常見的兩類失敗:共存不融合,或只偏向一邊。

VMDiff最核心的思路,不是籠統(tǒng)地說「在noise和embedding上融合」,而是更精確地把整個(gè)過程拆成兩個(gè)目標(biāo)完全不同的階段:

  • 在前一階段,目標(biāo)是盡可能完整保留兩個(gè)輸入的信息;

  • 在后一階段,目標(biāo)是把這些信息真正長成一個(gè)統(tǒng)一的新物體。

這兩個(gè)階段分別對應(yīng)論文中的Hybrid Sampling Process(HSP)Efficient Adaptive Adjustment(EAA)。 而HSP里面最值得講的,就是兩個(gè)非常「反直覺但很對」的設(shè)計(jì)選擇:

該保留信息的時(shí)候,不做插值,而是拼接; 該形成統(tǒng)一整體的時(shí)候,不再拼接,而是插值。


圖 3. VMDiff由HSP與EAA兩部分組成:前者負(fù)責(zé)融合生成,后者負(fù)責(zé)自適應(yīng)調(diào)參。

第一步:先別急著「混」,先保證兩個(gè)輸入都真的在場

很多人一看到「融合」就會(huì)想到插值。 但 VMDiff 在前面的Blending Noise(BNoise)階段并沒有這么做。

它先從高斯噪聲出發(fā),再通過引導(dǎo)去噪和反演,把噪聲逐步變成一個(gè)帶有兩個(gè)輸入概念信息的語義噪聲。 而在這個(gè)階段,VMDiff 對兩個(gè)輸入特征采用的不是插值,而是拼接(concatenate)。

為什么這里要拼接?

因?yàn)檫@一階段的目標(biāo)還不是「生成一個(gè)整體」,而是「把兩個(gè)來源的信息都盡可能保住」。 如果過早插值,兩個(gè)物體中那些不完全對齊的局部細(xì)節(jié),很容易在平均過程中被抹平;相反,拼接能先把雙方的重要特征都保留下來,再交給后續(xù)的反演過程去提煉。

換句話說,VMDiff在這一步解決的是:如何在真正開始生成之前,先把兩個(gè)概念的信息注入噪聲。


圖 4. 在 BNoise 階段,拼接比插值更有利于保留輸入細(xì)節(jié)。

第二步:真正生成時(shí),目標(biāo)變了——這時(shí)必須讓它長成一個(gè)整體

前面那一步解決的是「兩個(gè)概念都在」。 但只做到這一步還不夠,因?yàn)椤付荚凇共坏扔凇溉诤虾昧恕埂?/p>

如果在最終生成階段還繼續(xù)拼接,那么模型雖然擁有兩邊的信息,但它們還是彼此分離的,最后很容易長成「兩個(gè)物體擠在一起」的結(jié)果。 所以在Mixing Denoise(MDeNoise)階段,VMDiff做了第二個(gè)關(guān)鍵轉(zhuǎn)換:

它不再拼接,而是用球面插值(spherical interpolation)去混合兩組視覺表征,讓它們沿著一個(gè)更自然的潛空間路徑逐步過渡,最終形成單一、連貫、和諧的新實(shí)體。

這一點(diǎn)特別重要。 它說明 VMDiff 不是簡單地「全程統(tǒng)一融合策略」,而是針對不同階段的目標(biāo),選擇了不同的操作:

  • BNoise階段,怕丟信息,所以選拼接;

  • MDeNoise階段,怕長不成整體,所以選插值。

這正是VMDiff和很多「直接混一混」方法最本質(zhì)的區(qū)別。


圖 5. 在最終生成階段,插值比拼接更容易形成統(tǒng)一整體。

但「成整體」還不夠,VMDiff 還要解決另一個(gè)麻煩:別偏科

即便有了前面的兩步,模型仍然可能偏向其中一個(gè)輸入。 比如「口紅 + 鋼鐵俠手辦」,最后也許更容易只??诩t,或者只剩鋼鐵俠風(fēng)格,而無法做到真正平衡。

所以VMDiff 又設(shè)計(jì)了一個(gè)Similarity Score(SS),專門衡量生成結(jié)果是否同時(shí):

1.既像輸入圖像 1,也像輸入圖像 2;

2.既符合類別語義 1,也符合類別語義 2;

3.而且兩邊不能差太多。

這個(gè)式子可以拆成四部分來看:

表示visual similarity,要求生成結(jié)果在視覺上都接近兩個(gè)輸入圖像;

semantic similarity,要求生成結(jié)果在語義上都符合兩個(gè)類別標(biāo)簽;

visual balance,懲罰視覺上只偏向其中一邊;

semantic balance,懲罰語義上只保留一個(gè)概念。

換句話說,VMDiff優(yōu)化的不是「像某一個(gè)輸入」,而是:既保留兩個(gè)來源的視覺與語義,又顯式壓制不平衡。

有了這個(gè)目標(biāo)之后,后面的 Efficient Adaptive Adjustment (EAA) 就有了明確的優(yōu)化方向: 先搜索控制融合比例的 ,再根據(jù)結(jié)果進(jìn)一步調(diào)整 ,必要時(shí)重采樣噪聲 ,從而自動(dòng)找到一個(gè)既自然、又平衡的融合點(diǎn)。

EAA自動(dòng)搜索「最平衡的融合點(diǎn)」

有了這個(gè)相似度與平衡聯(lián)合目標(biāo)之后,VMDiff 用Efficient Adaptive Adjustment(EAA)去自動(dòng)搜索參數(shù)。

它會(huì)分層地調(diào)整:控制融合比例的α、控制噪聲側(cè)影響的β1、β2,以及隨機(jī)噪聲?

做法并不是昂貴的梯度反向傳播,而是更輕量的層次化搜索,比如 golden section search,再結(jié)合少量重采樣。 這使得 VMDiff 不需要一個(gè)特別重的優(yōu)化過程,也能比較高效地找到「最像兩邊、又最平衡」的解。


圖 6. EAA 通過分層搜索逐步提升相似度并減小失衡。

結(jié)果上,VMDiff 做到的不是「更花哨」,而是「更像一個(gè)新物體」

為了系統(tǒng)評估這件事,作者構(gòu)建了IIOF(Image-Image Object Fusion)數(shù)據(jù)集,包含 780 個(gè)圖像對,覆蓋動(dòng)物、水果、人造物體和角色手辦等類別。 實(shí)驗(yàn)表明,VMDiff 不只是主觀上更有創(chuàng)意,在客觀指標(biāo)也都表現(xiàn)突出。

在多概念生成對比中,很多基線方法仍然容易出現(xiàn)「只是疊在一起」或者「偏向其中一邊」的問題;而 VMDiff 生成的結(jié)果往往更像是一個(gè)真正統(tǒng)一的混合實(shí)體。 從表 1 可以看到,VMDiff 并不是只在單一指標(biāo)上占優(yōu),而是在語義一致性、單實(shí)體連貫性、相似度和平衡性等多個(gè)維度上都表現(xiàn)突出。


表 1. IIOF 數(shù)據(jù)集上的定量對比結(jié)果


圖 7. 與多概念生成方法相比,VMDiff 更能生成統(tǒng)一而平衡的融合體。


圖 8. 與混合和編輯方法相比,VMDiff 的結(jié)果更完整、更自然。

這篇工作的價(jià)值,不只是生成幾個(gè)新奇例子

VMDiff 真正有意思的地方,不只是做出了幾張好看的圖,而是它給「跨物體視覺融合」這件事提供了一種很清晰的方法論:

  • 先解決「信息別丟」;

  • 再解決「整體要成」;

  • 最后再解決「雙方要平衡」。

這三件事以前常常被混在一起處理,而 VMDiff 把它們拆開了,并為每一步都設(shè)計(jì)了對應(yīng)的機(jī)制。 這也是為什么它生成出來的結(jié)果,不是簡單拼貼,也不是只偏向一邊,而更像一個(gè)真的被「設(shè)計(jì)出來」的新物體。

總結(jié)

很多方法能把兩個(gè)物體同時(shí)畫出來, 但VMDiff 的目標(biāo)不是「同時(shí)出現(xiàn)」,而是「真正長成一個(gè)新物體」。對角色設(shè)計(jì)、潮玩設(shè)計(jì)、電影動(dòng)畫和工業(yè)外觀探索來說,這種「真正生成一個(gè)新物體」的能力,比簡單拼貼更接近實(shí)際創(chuàng)作需求。 它最核心的洞察在于:

  • 在噪聲構(gòu)造階段,用拼接保住兩邊信息;

  • 在最終生成階段,用插值把兩邊長成一個(gè)整體;

  • 再用聯(lián)合考慮相似度與平衡的目標(biāo)函數(shù),自動(dòng)找到最佳融合點(diǎn)。

這讓跨物體融合不再只是「把A和B放一起」, 而是真正走向「從A和B里,創(chuàng)造出一個(gè)新的C」。

參考資料:

https://arxiv.org/abs/2509.23605

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍(lán)營一姐發(fā)話了

鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍(lán)營一姐發(fā)話了

閱微札記
2026-04-10 19:55:07
葉珂全身醫(yī)美,給小花園做手術(shù)!

葉珂全身醫(yī)美,給小花園做手術(shù)!

八卦瘋叔
2026-04-11 10:53:23
14分12板,12分13板!科爾要是早點(diǎn)服軟,懷斯曼說不定真能打出來

14分12板,12分13板!科爾要是早點(diǎn)服軟,懷斯曼說不定真能打出來

移動(dòng)擋拆
2026-04-11 05:51:40
 一輛SUV在縣道時(shí)速156公里撞向?qū)γ娉鲎廛囍?死3傷,事故調(diào)查報(bào)告公布

一輛SUV在縣道時(shí)速156公里撞向?qū)γ娉鲎廛囍?死3傷,事故調(diào)查報(bào)告公布

澎湃新聞
2026-04-10 16:30:32
男演員最新聲明:已退出美國國籍,正式成為中國公民

男演員最新聲明:已退出美國國籍,正式成為中國公民

美芽
2026-04-08 18:02:54
一場比賽兩個(gè)贏家!哈登20分迎里程碑,騎士慘敗老鷹鎖定東部第四

一場比賽兩個(gè)贏家!哈登20分迎里程碑,騎士慘敗老鷹鎖定東部第四

老梁體育漫談
2026-04-11 09:34:34
"我不要活了!"上海一阿婆崩潰,買了近30年的保險(xiǎn)全被退!警方:若繼續(xù)持有價(jià)值百萬

"我不要活了!"上海一阿婆崩潰,買了近30年的保險(xiǎn)全被退!警方:若繼續(xù)持有價(jià)值百萬

臺(tái)州交通廣播
2026-04-09 22:32:54
李小冉拉王濛起來被甩開

李小冉拉王濛起來被甩開

韓小娛
2026-04-11 07:20:57
美軍宣稱摸清中國導(dǎo)彈庫存!俄專家:中國解放軍可以半小時(shí)定勝負(fù)

美軍宣稱摸清中國導(dǎo)彈庫存!俄專家:中國解放軍可以半小時(shí)定勝負(fù)

共工之錨
2026-04-07 00:20:47
一場136-132讓湖人喜出望外!火箭丟主場優(yōu)勢,掘金首輪硬剛苦主

一場136-132讓湖人喜出望外!火箭丟主場優(yōu)勢,掘金首輪硬剛苦主

談史論天地
2026-04-11 14:04:24
張雪峰走后,公司一夜“長大”:老師7點(diǎn)上班,全員矩陣守護(hù)遺志

張雪峰走后,公司一夜“長大”:老師7點(diǎn)上班,全員矩陣守護(hù)遺志

子芫伴你成長
2026-04-10 23:22:39
回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

素衣讀史
2026-03-31 15:11:31
費(fèi)玉清現(xiàn)狀!70歲無兒無女獨(dú)居鄉(xiāng)下,和61歲女閨蜜相依為伴

費(fèi)玉清現(xiàn)狀!70歲無兒無女獨(dú)居鄉(xiāng)下,和61歲女閨蜜相依為伴

探源歷史
2026-03-28 09:40:03
鄭麗文抵大陸剛兩天,人民日報(bào)“點(diǎn)名”吳克群,釋放三個(gè)強(qiáng)烈信號(hào)

鄭麗文抵大陸剛兩天,人民日報(bào)“點(diǎn)名”吳克群,釋放三個(gè)強(qiáng)烈信號(hào)

小撇說事
2026-04-11 11:27:39
江蘇退休員工工齡42年,個(gè)人賬戶9.51萬,退休金竟然如此驚人!

江蘇退休員工工齡42年,個(gè)人賬戶9.51萬,退休金竟然如此驚人!

苗苗情感說
2026-04-11 10:31:25
男人開口問你要這樣?xùn)|西,證明他多半是有坑的

男人開口問你要這樣?xùn)|西,證明他多半是有坑的

冷愛
2026-04-09 15:22:19
調(diào)整!4月11日晚間央視直播U20亞洲杯有變,中國女足沖4強(qiáng)

調(diào)整!4月11日晚間央視直播U20亞洲杯有變,中國女足沖4強(qiáng)

小李說球賽
2026-04-11 13:52:46
趙子琪自曝《乘風(fēng)2026》淘汰后,節(jié)目組不讓返回候場區(qū)取包

趙子琪自曝《乘風(fēng)2026》淘汰后,節(jié)目組不讓返回候場區(qū)取包

韓小娛
2026-04-11 08:43:46
諾基亞股價(jià),創(chuàng)16年來新高

諾基亞股價(jià),創(chuàng)16年來新高

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-11 11:00:26
白酒再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病者喝白酒,不用多久或有 5 變化

白酒再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病者喝白酒,不用多久或有 5 變化

普陀動(dòng)物世界
2026-04-11 13:25:43
2026-04-11 14:44:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14945文章數(shù) 66765關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

媒體:多套雷達(dá)系統(tǒng)受損 美國尷尬發(fā)現(xiàn)"又要求助中國"

頭條要聞

媒體:多套雷達(dá)系統(tǒng)受損 美國尷尬發(fā)現(xiàn)"又要求助中國"

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

浪姐7淘汰 該走的沒走,不該走的走了

財(cái)經(jīng)要聞

從日本翻身看:這次誰能扛住高油價(jià)?

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

教育
時(shí)尚
游戲
本地
軍事航空

教育要聞

中小學(xué)教師減負(fù)8條措施

這件人生單品,現(xiàn)在正是穿它的黃金期

打架還會(huì)爆衣!國產(chǎn)大尺度新游登陸Steam 首發(fā)打85折

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進(jìn)入關(guān)懷版