国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

阿里圖像生成模型登頂HuggingFace,一句話把馬斯克“變老”

0
分享至


就在8月19日,阿里發(fā)布了Qwen-Image,這是一個(gè)圖像生成基礎(chǔ)模型。這個(gè)模型的特點(diǎn)是,通過系統(tǒng)性的數(shù)據(jù)工程、漸進(jìn)式的學(xué)習(xí)策略、改進(jìn)的多任務(wù)訓(xùn)練范式以及可擴(kuò)展的架構(gòu)優(yōu)化,旨在解決復(fù)雜文本渲染和精準(zhǔn)圖像編輯的核心難題。

在AI領(lǐng)域,圖像生成技術(shù)作為其重要分支,近年來取得了顯著進(jìn)展。無論是從文本直接生成圖像(T2I),還是對現(xiàn)有圖像進(jìn)行編輯(TI2I),其核心都在于機(jī)器能否精準(zhǔn)地理解并以視覺形式再現(xiàn)人類的意圖。盡管擴(kuò)散模型等架構(gòu)的出現(xiàn)極大地提升了生成圖像的分辨率與細(xì)節(jié)表現(xiàn)力,但該領(lǐng)域仍面臨兩個(gè)長期存在的挑戰(zhàn)。


在文本到圖像的生成任務(wù)中,模型對于復(fù)雜、多維度的文本指令的理解與對齊能力尚有不足。尤其是在處理多行文本渲染、非字母文字(如漢字)渲染、特定位置的文字嵌入,以及將文字與視覺元素?zé)o縫融合等精細(xì)任務(wù)時(shí),現(xiàn)有模型往往難以達(dá)到理想效果。

而在圖像編輯任務(wù)中,如何確保編輯后的圖像與原始圖像在視覺和語義上保持一致性,是一個(gè)雙重難題。這既要求視覺上的一致性,即只修改目標(biāo)區(qū)域而不影響其他部分的視覺細(xì)節(jié);也要求語義上的連貫性,即在進(jìn)行結(jié)構(gòu)性調(diào)整(如改變?nèi)宋镒藨B(tài))時(shí),必須保留主體的身份特征與場景的整體邏輯。

01

Qwen團(tuán)隊(duì)專門發(fā)布了一份技術(shù)報(bào)告,名為《Qwen-Image Technical Report》,以此詳細(xì)介紹Qwen-Image的功能。

為實(shí)現(xiàn)精準(zhǔn)的文本渲染,Qwen-Image構(gòu)建了一個(gè)全面的數(shù)據(jù)處理體系。該體系始于大規(guī)模收集數(shù)十億級別的圖文數(shù)據(jù),并強(qiáng)調(diào)質(zhì)量優(yōu)于數(shù)量。數(shù)據(jù)經(jīng)過一個(gè)分為七個(gè)階段的精細(xì)化過濾管道,從低分辨率的基礎(chǔ)篩選到高分辨率的美學(xué)提純,系統(tǒng)性地提升了數(shù)據(jù)質(zhì)量與圖文對齊度。

同時(shí),考慮到真實(shí)圖像中漢字等內(nèi)容的長尾分布特性,模型還通過“純粹渲染”、“組合渲染”和“復(fù)雜渲染”三種策略大量合成高質(zhì)量的文本圖像數(shù)據(jù),彌補(bǔ)了自然數(shù)據(jù)的不足。在此基礎(chǔ)上,模型采用由簡到繁的“課程學(xué)習(xí)”策略進(jìn)行訓(xùn)練,顯著增強(qiáng)了其渲染復(fù)雜中英文文本的能力。

為實(shí)現(xiàn)精準(zhǔn)的圖像編輯,Qwen-Image提出了一種增強(qiáng)的多任務(wù)學(xué)習(xí)框架。其核心是將輸入圖像編碼為兩種互補(bǔ)的特征:一是通過Qwen2.5-VL模型提取的高層“語義特征”,用于理解圖像內(nèi)容和編輯指令;二是通過變分自編碼器(VAE)提取的低層“重建特征”,用于保留圖像的視覺細(xì)節(jié)和紋理。

這兩種特征共同作為引導(dǎo)信號,輸入到作為模型骨干的多模態(tài)擴(kuò)散Transformer(MMDiT)中。這種“雙重編碼”設(shè)計(jì),使得模型在執(zhí)行編輯指令時(shí),既能理解“改什么”,又能知道“保留什么”,從而在語義連貫性與視覺保真度之間取得了良好的平衡。

模型架構(gòu)上,Qwen-Image由Qwen2.5-VL(條件編碼器)、VAE(圖像壓縮與解碼)和MMDiT(核心生成網(wǎng)絡(luò))三部分組成。其中,VAE采用了獨(dú)特的“單編碼器、雙解碼器”架構(gòu),使其在保證高質(zhì)量圖像重建的同時(shí),也為未來擴(kuò)展到視頻生成任務(wù)奠定了基礎(chǔ)。MMDiT內(nèi)部則引入了一種名為MSROPE的新型位置編碼方法,通過將文本信息在概念上置于圖像網(wǎng)格的對角線,改善了文本與圖像特征的對-齊。

訓(xùn)練過程同樣是漸進(jìn)式的,從低分辨率到高分辨率,從無文本圖像到有文本圖像,并結(jié)合了監(jiān)督微調(diào)(SFT)與直接偏好優(yōu)化(DPO)等強(qiáng)化學(xué)習(xí)方法,持續(xù)優(yōu)化生成結(jié)果的質(zhì)量與遵循指令的準(zhǔn)確性。最終,大量的基準(zhǔn)測試和人類評估結(jié)果表明,Qwen-Image在通用的圖像生成、復(fù)雜的文本渲染以及指令式圖像編輯任務(wù)上,均達(dá)到了業(yè)界領(lǐng)先水平。

不多說廢話,讓我們直接看成品。我故意刁難Qwen-Image,既然官方技術(shù)團(tuán)隊(duì)報(bào)告中表示優(yōu)化了對提示詞的理解,那么我就要它生成自然界不存在的東西。從結(jié)果上來看,Qwen的冰山渲染效果比GPT-5更好,但是火焰跟冰山較為割裂,而GPT-5則用熔巖填充了火焰和冰山之間的部分,讓畫面更自然。

提示詞:A colossal iceberg that is on fire, with bright orange flames licking its crystalline blue surfaces, emitting thick steam and smoke into a freezing arctic sky. The water around the iceberg is boiling. Photorealistic, dramatic lighting.

Qwen-Image:


GPT-5:


在圖片重構(gòu)方面,GPT-5除了貓整體都發(fā)生了改變,包括背景。可能是因?yàn)橄M笏≡诳罩,GPT-5真的把這只貓送上了大氣層,但是Qwen-Image則是漂浮在了半空中。

提示詞:make the cat floating in the air and holding a sign that reads 'this is fun' written with a blue crayon

原圖片:


Qwen-Imgae:


GPT-5:


有意思的來了,由于原圖片中出現(xiàn)了星條旗,GPT-5和Gemini都不能完成對原圖片的修改。但是Qwen-Image完成了這個(gè)命令,雖然在生成的圖片中,馬斯克變得更加蒼老了。

提示詞:Keep Elon Musk and his hat exactly as they are in terms of pose and size, but place them on the surface of Mars during a massive dust storm. The sky should be a swirling orange and red, with visible streaks of dust. Add a futuristic, slightly damaged SpaceX rover partially buried in the Martian sand in the background.

原圖:


Qwen-Image:


02

技術(shù)報(bào)告展示了Qwen-Image強(qiáng)大的圖像生成與編輯能力,這自然引出一個(gè)問題:它能成為一個(gè)“AI版的Photoshop”嗎?或者說,它在多大程度上改變了我們與圖像交互的方式?要回答這個(gè)問題,我們需要比較它與傳統(tǒng)圖像編輯軟件的核心異同。

從功能上看,Qwen-Image確實(shí)展現(xiàn)出了許多與Photoshop相似的核心編輯能力,但實(shí)現(xiàn)方式截然不同。Photoshop依賴于工具箱、圖層和濾鏡,用戶通過直接操作(如畫筆涂抹、選區(qū)拖動(dòng))來實(shí)現(xiàn)修改。而Qwen-Image則依賴于自然語言指令,用戶通過“描述”來完成編輯。

在對象處理方面,Photoshop使用套索、魔棒等工具進(jìn)行精確選區(qū),然后進(jìn)行復(fù)制、粘貼或內(nèi)容識(shí)別填充。Qwen-Image則通過文本指令實(shí)現(xiàn)類似操作,例如“添加一只貓和一只狗”或“移除畫面里所有的人”。它不僅能完成增刪,還能理解風(fēng)格要求(如添加卡通風(fēng)格的動(dòng)物),這類似于PS中需要手動(dòng)調(diào)整新元素風(fēng)格以匹配背景的操作,但Qwen-Image將其自動(dòng)化了。

在材質(zhì)與風(fēng)格轉(zhuǎn)換上,Photoshop提供濾鏡庫、圖層樣式和紋理疊加等功能。Qwen-Image同樣能通過指令完成,例如將一個(gè)普通圖標(biāo)變?yōu)椤艾m瑯彩玻璃藝術(shù)”風(fēng)格的冰箱貼。這種基于語義的材質(zhì)渲染,是其強(qiáng)大之處。此外,其精準(zhǔn)的文本編輯能力,如修改、增刪圖像中的文字并保持原有風(fēng)格,直接對標(biāo)了Photoshop的核心功能——文字工具。

更進(jìn)一步,在處理圖像結(jié)構(gòu)性變化時(shí),比如人物姿態(tài)調(diào)整,Qwen-Image展現(xiàn)了超越傳統(tǒng)工具的潛力。在Photoshop中,調(diào)整姿態(tài)可能需要使用液化、操控變形等工具進(jìn)行細(xì)致的手動(dòng)修改,且很難保證衣物紋理和背景的自然過渡。

而Qwen-Image能夠理解“讓她站起來,單手叉腰”這樣的指令,并在保持人物身份、服裝細(xì)節(jié)(甚至能推斷出被遮擋的衣物部分)和背景一致性的前提下,生成一個(gè)全新的、符合邏輯的姿態(tài)。這種能力更接近于“重新想象”而非“修改”。

然而,盡管功能上有諸多重疊,將Qwen-Image簡單地視為Photoshop的替代品并不準(zhǔn)確。二者的核心工作范式存在根本差異。

最重要的地方在于控制的粒度。Photoshop提供的是像素級的、確定性的精確控制。用戶可以選中任意一個(gè)像素點(diǎn),賦予它一個(gè)精確的RGB值。而Qwen-Image的控制是語義級的、概率性的。用戶描述的是“什么”,而不是“如何做”。你無法通過指令去精確控制某個(gè)特定像素的顏色,編輯結(jié)果總是在一定程度上由模型“自由發(fā)揮”,帶有一定的隨機(jī)性。

Photoshop的核心是基于圖層的非線性、非破壞性工作流。用戶可以隨時(shí)返回修改任意一個(gè)圖層,而不影響其他部分。Qwen-Image的編輯更像是一個(gè)“一次性”的再生成過程。盡管技術(shù)報(bào)告中展示了“鏈?zhǔn)骄庉嫛保丛谏弦淮紊山Y(jié)果的基礎(chǔ)上繼續(xù)編輯),但這與PS中靈活調(diào)整圖層堆棧的邏輯完全不同。

精通Photoshop需要掌握復(fù)雜的工具、蒙版和色彩理論。而使用Qwen-Image則需要掌握“提示詞工程”——用清晰、準(zhǔn)確的語言描述視覺意圖的能力。它極大地降低了圖像編輯的技術(shù)門檻,但同時(shí)也引入了一種新的技能壁壘。

Qwen-Image并非Photoshop的直接替代品,而是一種全新的圖像內(nèi)容創(chuàng)作與編輯范式。Photoshop是一個(gè)“數(shù)字暗房”和“畫布”,為專業(yè)人士提供了無與倫比的直接操控和精確控制能力。而Qwen-Image則是一個(gè)“語義指令引擎”,它將人的意圖從繁瑣的技術(shù)操作中解放出來,更側(cè)重于創(chuàng)意構(gòu)想的快速實(shí)現(xiàn)和語義層面的內(nèi)容調(diào)整。

它們滿足了不同場景的需求。一個(gè)需要進(jìn)行精細(xì)排版和品牌視覺設(shè)計(jì)的專業(yè)設(shè)計(jì)師,依然離不開Photoshop的精確控制。但對于一個(gè)需要快速產(chǎn)出創(chuàng)意概念圖、營銷素材,或者不具備專業(yè)設(shè)計(jì)技能的用戶來說,Qwen-Image無疑是更高效、更直觀的工具。

雖然現(xiàn)在已經(jīng)出現(xiàn)了一些帶有AI功能的修圖軟件,但是能實(shí)現(xiàn)的功能還比較淺,比如消除圖片中的人物、調(diào)整顏色等。未來,二者很可能會(huì)深度融合——在Photoshop這樣的專業(yè)軟件中,嵌入像Qwen-Image一樣強(qiáng)大的語義理解和生成引擎,這在PS的“生成式填充”功能中已初見端倪。Qwen-Image的出現(xiàn),標(biāo)志著這條融合之路上的“語義引擎”一端,已經(jīng)達(dá)到了一個(gè)新的成熟高度。


歡迎在評論區(qū)留言~
如需開白請加小編微信:dongfangmark


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
論武漢大學(xué)教授潘迎春能夠獻(xiàn)血300次

論武漢大學(xué)教授潘迎春能夠獻(xiàn)血300次

不主流講話
2026-01-07 07:03:35
香港餐廳收內(nèi)地客“天價(jià)”小費(fèi)?港人怒批:香港結(jié)業(yè)潮是有原因的

香港餐廳收內(nèi)地客“天價(jià)”小費(fèi)?港人怒批:香港結(jié)業(yè)潮是有原因的

朝子亥
2026-01-06 11:35:03
部分銀行下調(diào)存款利率!

部分銀行下調(diào)存款利率!

中國經(jīng)營報(bào)
2026-01-08 08:26:38
女子開車碾壓草場后續(xù):揚(yáng)言撞死牧民,真實(shí)身份被扒,公司被牽連

女子開車碾壓草場后續(xù):揚(yáng)言撞死牧民,真實(shí)身份被扒,公司被牽連

法老不說教
2026-01-07 21:20:41
后院徹底起火!丹麥不玩了:美國若敢動(dòng)格陵蘭,北約就地解散!

后院徹底起火!丹麥不玩了:美國若敢動(dòng)格陵蘭,北約就地解散!

防務(wù)觀察室
2026-01-06 14:42:25
“殘了只能嫁我”后續(xù):她和王暖暖遭遇一樣,男友將她弄?dú)埧刂扑?>
    </a>
        <h3>
      <a href=江山揮筆
2026-01-07 15:12:00
“一代鞋王”達(dá)芙妮沒落,家族內(nèi)斗中虧40億,最后敗給了紅顏禍水

“一代鞋王”達(dá)芙妮沒落,家族內(nèi)斗中虧40億,最后敗給了紅顏禍水

小熊侃史
2025-12-28 11:02:11
曝老鷹將等待是否有除奇才外其他球隊(duì)有意交易特雷·楊

曝老鷹將等待是否有除奇才外其他球隊(duì)有意交易特雷·楊

北青網(wǎng)-北京青年報(bào)
2026-01-08 08:06:04
中方發(fā)布禁令,嚴(yán)厲懲罰高市早苗,日方強(qiáng)烈抗議,要中國撤回措施

中方發(fā)布禁令,嚴(yán)厲懲罰高市早苗,日方強(qiáng)烈抗議,要中國撤回措施

觸摸史跡
2026-01-07 13:11:33
國乒新教練組浮出水面!有四人留守疑似續(xù)約,許昕透露已知道結(jié)果

國乒新教練組浮出水面!有四人留守疑似續(xù)約,許昕透露已知道結(jié)果

三十年萊斯特城球迷
2026-01-07 22:39:36
有反轉(zhuǎn)?閆學(xué)晶再迎接噩耗,恩師也被牽連,兒子首發(fā)聲為娘抱不平

有反轉(zhuǎn)?閆學(xué)晶再迎接噩耗,恩師也被牽連,兒子首發(fā)聲為娘抱不平

奇思妙想草葉君
2026-01-08 01:03:26
多只小天鵝被凍在公園冰面上死亡?園方:已查看,將進(jìn)一步反饋

多只小天鵝被凍在公園冰面上死亡?園方:已查看,將進(jìn)一步反饋

半島晨報(bào)
2026-01-06 19:46:12
四川一醫(yī)院收費(fèi)員玩手機(jī),窗口多人排隊(duì)待繳費(fèi),醫(yī)院確認(rèn)屬實(shí),已對涉事職工進(jìn)行嚴(yán)肅批評教育和待崗處理

四川一醫(yī)院收費(fèi)員玩手機(jī),窗口多人排隊(duì)待繳費(fèi),醫(yī)院確認(rèn)屬實(shí),已對涉事職工進(jìn)行嚴(yán)肅批評教育和待崗處理

都市快報(bào)橙柿互動(dòng)
2026-01-07 00:48:56
美記:拉文和特雷楊都有各自心儀的下家,但相關(guān)交易始終無法成形

美記:拉文和特雷楊都有各自心儀的下家,但相關(guān)交易始終無法成形

移動(dòng)擋拆
2026-01-08 05:30:54
林良鋒:有一個(gè)人可救曼聯(lián),但曼聯(lián)看不明白

林良鋒:有一個(gè)人可救曼聯(lián),但曼聯(lián)看不明白

體壇周報(bào)
2026-01-07 13:47:21
全球最小的發(fā)達(dá)國家,快被中國人“買”下了,中國移民占比87%!

全球最小的發(fā)達(dá)國家,快被中國人“買”下了,中國移民占比87%!

財(cái)叔
2025-12-28 22:59:30
中東國家都意識(shí)到了:就算中國高端武器再多,也沒辦法保護(hù)他們

中東國家都意識(shí)到了:就算中國高端武器再多,也沒辦法保護(hù)他們

芳芳?xì)v史燴
2026-01-04 20:48:24
血戰(zhàn)長津湖,88師師長多次抗命、副師長避戰(zhàn),宋時(shí)輪:一律查辦

血戰(zhàn)長津湖,88師師長多次抗命、副師長避戰(zhàn),宋時(shí)輪:一律查辦

浩渺青史
2026-01-08 07:26:53
于曉光做夢沒想到,韓國總統(tǒng)訪華僅3天,46歲秋瓷炫竟意外火出圈

于曉光做夢沒想到,韓國總統(tǒng)訪華僅3天,46歲秋瓷炫竟意外火出圈

素衣讀史
2026-01-06 16:55:53
大幅度漲價(jià),小米正式官宣全新款 SU7!

大幅度漲價(jià),小米正式官宣全新款 SU7!

XCiOS俱樂部
2026-01-07 11:01:51
2026-01-08 08:59:00
直面派 incentive-icons
直面派
講述值得講述的真實(shí)故事
244文章數(shù) 236關(guān)注度
往期回顧 全部

科技要聞

雷軍:現(xiàn)在聽到營銷這兩個(gè)字都有點(diǎn)惡心

頭條要聞

牛彈琴:美國又干了件石破天驚的事 俄羅斯遭沉重打擊

頭條要聞

牛彈琴:美國又干了件石破天驚的事 俄羅斯遭沉重打擊

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭英超金靴

娛樂要聞

《馬背搖籃》首播,革命的樂觀主義故事

財(cái)經(jīng)要聞

農(nóng)大教授科普:無需過度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

態(tài)度原創(chuàng)

教育
本地
手機(jī)
藝術(shù)
家居

教育要聞

熱力學(xué)3大基本特征!考試必考別丟分

本地新聞

“閩東利劍·惠民安商”高效執(zhí)行專項(xiàng)行動(dòng)

手機(jī)要聞

消息稱聯(lián)想旗下摩托羅拉首款大折疊Razr Fold起售價(jià)1500美元

藝術(shù)要聞

書法巨匠的七重門:人品與創(chuàng)新的深度探討

家居要聞

寧靜不單調(diào) 恰到好處的美

無障礙瀏覽 進(jìn)入關(guān)懷版