国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ViT一作盛贊:這個中國開源“PS模型”強過Nano Banana

0
分享至

夢瑤 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

太香了太香了,妥妥完爆ChatGPT和Nano Banana!

剛剛,ViT核心作者、Meta超級智能團隊成員Lucas Beyer連發(fā)三條帖子,怒贊通義千問不久前發(fā)布的開源模型Qwen—Image—Layered

在他看來,這才是圖像生成的正確打開方式~



他還順便自補了一句:這個模型方向自己其實也想做來著,只是太忙,一直沒來得及動手……(笑)

實話實說,Qwen—Image—Layered模型確實不一般,因為它可以讓我們真正實現(xiàn)ps級別的拆圖自由

也就是說現(xiàn)在圖片元素也支持精細化修改了:



連網(wǎng)友們看了模型效果后都不禁感嘆:咋有種開源PhotoShop的感覺,amazing啊~



所以,這套讓Lucas Beyer反復(fù)點贊的模型到底強在哪兒,咱一起來看!

圖片也能像PS一樣拆拆拆了

如果說Nano Banana技能點在生圖,那Qwen—Image—Layered模型則厲害在:《拆圖》

相信大家都有過類似的經(jīng)歷,我們平時用大模型生圖時總會碰的到一個抓狂問題,那就是圖片生成so easy,細節(jié)修改so抓狂!??!

AI生出來的圖片里,經(jīng)常會有一些小細節(jié)不太到位,但我們又沒法只改局部,只能整張丟回模型重新生成,結(jié)果往往還不如上一版…



Qwen—Image—Layered模型的核心能力,就是專治「一圖定生死」這事兒的。

它能將一張普通圖片分解成多個包含透明度信息的RGBA分離圖層,實現(xiàn)真正意義上的圖片素材的可編輯性。

光說概念有點抽象,咱直接看例子~



在官方案例中,一張完整圖片輸入之后,模型會自動把畫面拆成6個包含不同元素的圖層,背景是背景,人物是人物,裝飾是裝飾,互不干擾。

看到這兒大家是不是突然感覺,這個非常適合用在海報制作等細節(jié)較多的圖片上??(雀實

但是Qwen—Image—Layered模型能做的還不止只是分離圖層這么簡單,我們還可以對圖層進行二次編輯修改

比如最基礎(chǔ)的:改背景,不動主體

只替換背景圖層的顏色,一張橙色背景的海報,瞬間就能換成藍色版本:



再比如,直接換主體。

保持構(gòu)圖不變,把原圖里的長發(fā)女孩,換成短發(fā)女孩,幾乎看不出拼接修改痕跡:



再來看下面這個——文字編輯

我們可以只修改圖片中的局部文字,哪怕第一次生成的文字有幻覺問題也不怕了:



除了基本的替換編輯功能外,Qwen—Image—Layered模型還支持調(diào)整元素的大小、刪除不想要的元素等等。

例如像這樣,我們可以刪除掉畫面中不想要的元素對象,只保留自己想留的畫面元素:



又或者在不拉伸、不失真的前提下,輕松調(diào)整元素的大小比例,其實有點像PS里的自由縮放功能:



值得注意的是,Qwen—Image—Layered模型分層不限于固定的圖層數(shù)量,支持可變層分解,例如我們可以根據(jù)需要將圖像分解為3層或8層:



這個能力非常適合我們在不同的編輯需求場景下使用,可以根據(jù)我們想局部編輯的元素數(shù)量多或少而定。

當(dāng)然,如果只是想改文字,差不多兩三層就夠了,如果修改需求比較多比較復(fù)雜,多拆幾層反而更好操作~

除了剛才說的這些,模型還支持在已分解的圖層基礎(chǔ)上做進一步分解,進而實現(xiàn)無限分解,聽上去很像無限套娃…



像下面這位網(wǎng)友,用Qwen—Image—Layered把人物元素進行一次性分層處理,最后甚至可以一路拆到只剩下一個線稿層:



再來看這位網(wǎng)友,原本人物和背景完全糊在一起的一張圖,被模型直接拆成了主體和背景兩個獨立元素:



簡單說就是:只要畫面里不止一個元素,它就能拆、還能一直拆……

拆圖的本事來自于擴散模型

有朋友看到這兒該問了,小小模型背后能有這PS一般的能力,用的是啥神奇魔法?

不藏著掖著,Qwen—Image—Layered的核心技術(shù),本質(zhì)上是一套端到端的「擴散模型」

它并不是用來生成圖片的那種擴散模型,而是專門為「拆圖片」這件事設(shè)計的——

模型直接輸入一張完整的RGB照片,通過擴散過程,一步步預(yù)測出多個帶透明度信息的RGBA圖層。

這里有一個繞不開的前提是:

我們平時看到的圖片其實只有RGB三個通道,但真正的圖層編輯,離不開Alpha(透明度)通道。

為此,Qwen—Image—Layered專門設(shè)計了一套四通道的RGBA-VAE,把RGB輸入和RGBA輸出,統(tǒng)一壓縮到同一個隱藏空間中:



具體來說,當(dāng)輸入是一張普通RGB圖片時,模型會自動把Alpha通道補成1(完全不透明),在初始化階段還會聰明地復(fù)用預(yù)訓(xùn)練參數(shù),避免在透明度建模時出錯。

這樣一來,模型從一開始就「懂透明」,不同圖層也就不會被混在一起。

而且在結(jié)構(gòu)上模型也不是死板拆層,它的核心Transformer—VLD-MMDiT會根據(jù)圖片復(fù)雜度,自動決定需要拆成多少層。

為了避免前一層把后一層蓋住的問題,模型還加了一套Layer3D RoPE(三維位置編碼),簡單說就是給不同圖層打上明確的層級標(biāo)簽,讓模型在空間和順序上都分得清楚~



還不止如此,在隱藏空間里中,模型能夠被逐步「引導(dǎo)」去學(xué)會:哪些像素該屬于哪一層、哪些區(qū)域需要保留透明度、哪些內(nèi)容應(yīng)該被分離開來。

這樣一來哪怕圖層再多對模型來說也都是小case了~

并且在訓(xùn)練策略上模型也不是從零教的,而是基于Qwen-Image預(yù)訓(xùn)練生成模型逐步升級:

第一階段讓模型學(xué)會文本生成單RGBA圖層,第二階段讓模型學(xué)會擴展到多圖層合成,第三階段讓模型真正學(xué)會從圖片反向拆解多圖層。

每階段幾百K步訓(xùn)練,加上重建損失和感知損失,確保語義分離干凈、不冗余。



這樣一來好處很直接,以前方法(如LayerD)要遞歸摳前景再補背景,容易積累錯誤,或者用分割+修復(fù),遮擋區(qū)補不好。

Qwen—Image—Layered模型直接實現(xiàn)端到端生成完整RGBA層,避免這些問題,尤其擅長復(fù)雜遮擋、半透明和文字。

相較于Nano Banana的“一次抽圖定生死”,Qwen—Image—Layered的拆圖能力能讓Lucas Beyer這么喜歡,也就不奇怪了…

目前模型已經(jīng)開源,感興趣的朋友可以試試~

github開源地址:https://github.com/QwenLM/Qwen-Image-Layered

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1974年,菲律賓第一夫人因沒見到毛主席當(dāng)眾痛哭,主席得知后做了一個驚人決定,隨后的一幕震驚世界

1974年,菲律賓第一夫人因沒見到毛主席當(dāng)眾痛哭,主席得知后做了一個驚人決定,隨后的一幕震驚世界

歷史回憶室
2025-12-18 21:16:10
為什么有警犬,卻沒警貓?貓咪到底差在哪?

為什么有警犬,卻沒警貓?貓咪到底差在哪?

貓研所
2025-12-29 16:37:38
商丘36歲銀行女經(jīng)理家中自縊:丈夫已死,儲戶賠償難,銀行不擔(dān)責(zé)

商丘36歲銀行女經(jīng)理家中自縊:丈夫已死,儲戶賠償難,銀行不擔(dān)責(zé)

奇思妙想草葉君
2025-12-28 01:45:36
臺海電纜事件大反轉(zhuǎn),大陸全球通緝兩名臺灣人,打了賴清德一耳光

臺海電纜事件大反轉(zhuǎn),大陸全球通緝兩名臺灣人,打了賴清德一耳光

非凡觀點
2025-12-29 09:48:34
千金難買后悔藥!70歲成龍自曝父子關(guān)系,小龍女的話撕碎他的體面

千金難買后悔藥!70歲成龍自曝父子關(guān)系,小龍女的話撕碎他的體面

冷紫葉
2025-12-29 13:24:57
銀行人再次勸告:為父母存款設(shè)“第二持有人”,關(guān)鍵時能救急

銀行人再次勸告:為父母存款設(shè)“第二持有人”,關(guān)鍵時能救急

小白鴿財經(jīng)
2025-12-27 07:05:03
失控了!中方反制美國對臺軍售,法德英罕譴責(zé)美國,中歐要聯(lián)手?

失控了!中方反制美國對臺軍售,法德英罕譴責(zé)美國,中歐要聯(lián)手?

墨印齋
2025-12-29 11:10:51
2010 年,張磊在法國滑雪,突然發(fā)現(xiàn)手機上連著來了七個未接來電

2010 年,張磊在法國滑雪,突然發(fā)現(xiàn)手機上連著來了七個未接來電

小光侃娛樂
2025-12-29 09:50:05
中國發(fā)布兩份通告,要求在美日公民完成登記,這在全球還是獨一份

中國發(fā)布兩份通告,要求在美日公民完成登記,這在全球還是獨一份

回京歷史夢
2025-12-29 19:43:34
第五次戰(zhàn)役,范弗里特只用一招,將彭德懷的戰(zhàn)役布勢打得七零八落

第五次戰(zhàn)役,范弗里特只用一招,將彭德懷的戰(zhàn)役布勢打得七零八落

浩渺青史
2025-12-19 20:10:27
柬埔寨的打法越來越像哈馬斯了

柬埔寨的打法越來越像哈馬斯了

歷史總在押韻
2025-12-27 12:26:25
油輪剛出門就被扣押,委內(nèi)瑞拉等來強力外援,對美揮出一記重拳

油輪剛出門就被扣押,委內(nèi)瑞拉等來強力外援,對美揮出一記重拳

空天力量
2025-12-26 17:09:59
獨行俠+火箭!救命2換1交易!這筆交易值得嗎?

獨行俠+火箭!救命2換1交易!這筆交易值得嗎?

籃球盛世
2025-12-29 15:39:49
爸把18套房全給私生子,宣讀遺囑時媽竟在笑,半年后我才知真相

爸把18套房全給私生子,宣讀遺囑時媽竟在笑,半年后我才知真相

溫情郵局
2025-12-08 11:29:02
萬萬沒想到,46 條中日航線剛?cè)咳∠驼ǔ鲆蝗骸把Ч砉帧?>
    </a>
        <h3>
      <a href=議紀史
2025-12-28 18:40:03
越南這場鬧劇,終于還是沒演下去,670億美金的高鐵夢徹底碎了!

越南這場鬧劇,終于還是沒演下去,670億美金的高鐵夢徹底碎了!

青青子衿
2025-12-27 02:06:04
我那個當(dāng)健身教練的表弟最近跟我說,
言承旭都快五十了

我那個當(dāng)健身教練的表弟最近跟我說, 言承旭都快五十了

小光侃娛樂
2025-12-29 06:40:04
網(wǎng)友問:為什么93的兵也閱了,六代機也飛了,日本還不怕我們?

網(wǎng)友問:為什么93的兵也閱了,六代機也飛了,日本還不怕我們?

我心縱橫天地間
2025-12-28 20:50:05
網(wǎng)友:杜蘭特該成家養(yǎng)娃才不至于周末閑著;杜蘭特:我有病?。?>
    </a>
        <h3>
      <a href=網(wǎng)友:杜蘭特該成家養(yǎng)娃才不至于周末閑著;杜蘭特:我有病?。?/a> 懂球帝
2025-12-29 13:28:22
調(diào)查發(fā)現(xiàn):每天都喝酒的人,多數(shù)到了65歲以后,身體或變成這樣?

調(diào)查發(fā)現(xiàn):每天都喝酒的人,多數(shù)到了65歲以后,身體或變成這樣?

健康之光
2025-12-18 09:09:16
2025-12-29 20:31:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11941文章數(shù) 176346關(guān)注度
往期回顧 全部

科技要聞

肉搏非洲,傳音不想只當(dāng)個賣手機的

頭條要聞

美報告承認:檢查了92臺中國起重機 安全得很

頭條要聞

美報告承認:檢查了92臺中國起重機 安全得很

體育要聞

“史上最貴”的世界杯,球迷成了韭菜

娛樂要聞

張杰謝娜跨年風(fēng)波升級!張杰被吐槽贅婿

財經(jīng)要聞

翁杰明:宏觀數(shù)據(jù)與居民微觀感受存在差距

汽車要聞

“路”要越走越深,猛士的智能越野時代來了

態(tài)度原創(chuàng)

教育
健康
房產(chǎn)
公開課
軍事航空

教育要聞

【資訊】廣東中職數(shù)學(xué)分組教研活動紀實

這些新療法,讓化療不再那么痛苦

房產(chǎn)要聞

中旅?三亞藍灣展示中心璀璨綻放,共鑒灣心孤品傳奇

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

東部戰(zhàn)區(qū)發(fā)布的AI視頻 一個細節(jié)意味深長

無障礙瀏覽 進入關(guān)懷版