国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)發(fā)完阿里發(fā)!Qwen-Image 2.0火線出擊

0
分享至


智東西
作者 陳駿達
編輯 李水青

字節(jié)的圖像生成模型剛發(fā)不到半天,阿里的新模型也來了!

智東西2月10日報道,今天,阿里巴巴發(fā)布了新一代圖像生成基礎模型Qwen-Image 2.0,這一模型支持長達一千個token的超長指令、2k分辨率,并采用了更輕量的模型架構,模型尺寸遠小于Qwen-Image 2.0的20B,帶來更快的推理速度。

智東西第一時間對阿里Qwen-Image 2.0、字節(jié)Seedream 5.0 Preview以及谷歌Nano Banana Pro三款模型進行了橫向體驗比較,發(fā)現(xiàn)Qwen-Image 2.0在長指令遵循、長文本渲染方面確實具有優(yōu)勢,但在圖像生成的真實感上仍稍遜于Nano Banana Pro。

Qwen-Image 2.0的升級重點是文字渲染。在下方關于AB測試的官方案例中,文字的字體、排版、格式等都是由一則888個token(包含近千個中英文字詞)的超長提示詞精確定義的,而Qwen-Image 2.0可以做到不錯的還原。


Qwen-Image 2.0還能用毛筆字渲染《蘭亭集序》的全文,并且確保文字和畫面的相對協(xié)調,文字沒有遮擋畫面的山水景色和人物。細看文字部分,雖然仍然可以找到一些渲染失敗的文字,但是占比已經(jīng)很低了。


Qwen-Image 2.0還支持一次性渲染屬數(shù)十個子圖,并保持其中主體的一致性。比如,下圖就是Qwen-Image 2.0一次性生成的漫畫,一共有24個畫面,其中的人物、畫風都較為連貫。


針對AI生圖常見的“油膩感”問題,Qwen-Image 2.0也做了優(yōu)化。與前一代模型相比,Qwen-Image 2.0的色彩不會過于飽和,觀感更像實拍,AI味淡了一些。


▲從左到右:原圖、Qwen-Image-2512、Qwen-Image 2.0

阿里在AI盲測平臺AI Arena上對Qwen-Image 2.0進行了測試,數(shù)據(jù)顯示,Qwen-Image 2.0在文生圖和圖生圖基準中分別排名第三和第二,不過距離谷歌的Nano Banana Pro(圖中為Gemini-3-Pro-Image-Preview)還有一定差距。此外,這一模型暫時還沒有和剛發(fā)布的Seedream 5.0 Preview進行對比。


千問視覺生成負責人吳晨飛在采訪中談道,Qwen-Image項目2025年5月份項目才立項,去年8月份發(fā)布首款模型,此后主要圍繞生圖和編輯兩個支線迭代模型,而Qwen-Image 2.0則把生圖和編輯兩個能力整合到了一個模型中。


目前,Qwen-Image 2.0已在阿里云百煉上已開通API邀測,用戶也可通過Qwen Chat(chat.qwen.ai)免費體驗新模型。千問App產(chǎn)品經(jīng)理劉巍透露,這一模型后續(xù)將在千問App里上線。


會后,我們還與吳晨飛和千問大模型高級解決方案架構師熊撼天進行了溝通。

當我們問及Qwen-Image系列模型的未來規(guī)劃時,吳晨飛稱,如果用一個詞作為Qwen-Image 2.0升級的核心,那就是“信息圖”,而在未來一年,Qwen-Image團隊會繼續(xù)研究如PPT、多圖海報、漫畫等復雜“父圖”的生成,進一步減少幻覺和錯誤。

此外,該團隊還計劃在此前發(fā)布的分層模型基礎上,進一步強化模型的分層編輯能力,目標是讓生成模型真正成為生產(chǎn)力工具。通過AI分圖層,設計師可以靈活結合AI生成(如千問編輯特定層)與傳統(tǒng)手段,或融合不同模型的專長,實現(xiàn)“分而治之”的復雜編輯流程。

一、阿里、字節(jié)、谷歌三款模型對決,Qwen-Image 2.0文字渲染能力突出

在超長提示詞任務上,我們對Qwen-Image 2.0的官方超長提示詞進行了微調,調整了部分元素的位置,看看Qwen-Image 2.0能否交付同樣質量的生成結果。

提示詞內容:


Qwen-Image 2.0的生成結果如下??梢钥吹侥P瓦€原了我們對圖片布局、字體顏色的要求,內容也得到準確呈現(xiàn),基本沒有遺漏。


而Nano Banana Pro的生成結果明顯有更多的圖像和圖標,設計風格和我們要求的一樣,大部分文字也都成功渲染。美中不足的是,可以看到部分文字出現(xiàn)了模糊的問題,已經(jīng)難以辨別。


Seedream 5.0 Preview的生成結果較我們的提示詞出現(xiàn)了一些偏差,并沒有準確還原文字內容,這在PPT等場景可能是較為嚴重的問題。但是拋開這一問題之外,完成度還是不錯的。


而在多子圖生成任務上,我們讓上述三款模型生成一副具有20個分鏡的漫畫,提示詞依舊較長。

在經(jīng)過三次嘗試后,Qwen-Image 2.0未能完全按照我們的要求生成這張圖像。我們也對提示詞本身進行了優(yōu)化,標注了更為清晰的序號,但是沒能讓模型生成更準確的結果。

此外,畫面中也有一些不符合常理的現(xiàn)象,比如外賣員的手機竟然安在電動車車頭上,手機屏幕面向外側,。


▲Qwen-Image 2.0的三個生成結果

在這一任務中,Nano Banana Pro(左)和Seedream 5.0 Preview(右)拿到提示詞后都陷入了長時間的推理過程,最終未能成功生成。


文字渲染之外,我們也考察了這兩款模型在圖像生成方面的表現(xiàn)。發(fā)布會中提到,超現(xiàn)實場景其實對圖像生成模型來說是一大挑戰(zhàn),如何在滿足提示詞要求的情況下保證真實感,很考驗模型的功力。

我們向模型發(fā)送了如下提示詞:

無邊無際的海面上漂浮著一座倒置的城市,城市建筑如水晶般透明,內部流動著星空與光點。天空呈現(xiàn)撕裂般的云層結構,巨大的月亮貼近海平面,月光化為實體的光帶纏繞在城市周圍。一名渺小的人站在水面之上,腳下泛起漣漪,現(xiàn)實與夢境在此交匯,畫面安靜而震撼。

Qwen-Image 2.0生成的畫面其實與提示詞有一些差距,圖中的城市與其說是倒置,不如說是鏡像。同時,左右兩側云層的形狀是完全對稱的,在美感上較有視覺沖擊力,在真實性上稍顯欠缺。


Nano Banana Pro的生成結果則更符合我們的提示詞,還原了城市的“倒置”、云層的“撕裂感”等關鍵描述。


Seedream5.0 Preview提供了四個版本,可以看到它并沒有遵循我們提示詞中“像水晶般透明”的要求,不過其余內容基本得到了還原。其畫風更為科幻感一些。


二、生成、編輯融合效果1+1>2,新模型尺寸遠小于1.0版本

發(fā)布會結束后,千問視覺生成負責人吳晨飛、千問大模型高級解決方案架構師熊撼天與智東西等媒體進行了溝通。

當談及1.0版本與2.0版本相比,最大的提升在哪些領域,吳晨飛稱Qwen-Image 2.0主要實現(xiàn)了“多”和“真”兩個特性的融合。

“多”指的是其更強的文字渲染能力。Qwen-Image 2.0能在一個畫面中穩(wěn)定生成大量、復雜的文字(如完整的PPT、信息圖),錯誤率極低,基本達到“可用”狀態(tài),而之前的模型生成結果依然是不可用的。

“真”指圖像的真實感。1.0主要聚焦文字準確性,2.0在保證文字精準的同時,提升了圖像(如材質、光影)的真實感。尤其當文字與圖像結合時,生成結果更具真實感和代入感,減少了以往AI生圖在文字區(qū)域的模糊和虛假感。

談及融合圖像生成與編輯的選擇時,吳晨飛透露,經(jīng)過探索,他們發(fā)現(xiàn)二合一模型能實現(xiàn)能力相互促進,達到1+1>2的效果,而非功能妥協(xié)。

文生圖中訓練出的能力(如文字生成、圖像質感)可以遷移到編輯任務上。例如,上傳照片“題詩”的功能,就是文生圖能力在編輯任務上的體現(xiàn)。

編輯任務訓練能迫使基礎模型更好地理解語義變化和遵循指令,從而反哺文生圖,使其對提示詞更敏感、遵循更精確。這也是實現(xiàn)“理解-生成”一體化統(tǒng)一范式的重要一步。

此外,Qwen-Image 2.0的模型尺寸比1.0(約200億參數(shù))顯著減小,但能力更強,且生成速度更快。


▲千問視覺生成負責人吳晨飛

當被問及如何解決文字生成崩潰的難點時,吳晨飛回應道,目前大部分生圖模型都需要用到VAE(變分自編碼器)負責圖像壓縮,小文字信息密集,壓縮難度大,因此容易出現(xiàn)文字崩壞。其團隊提升了VAE的重構能力,為清晰小字生成奠定基礎。

Qwen-Image 2.0對密集、細小文字的建模和生成能力也得到了增強。兩者結合,使得小文字也能清晰渲染、準確顯示。

熊撼天則分享了與模型落地場景相關的話題。他認為,模型能力的提升(尤其是可控性、穩(wěn)定性)使其能真正滲透到各行各業(yè)。

在電商領域,圖像生成模型可用于海量商品的主圖、詳情圖、廣告素材圖生成。例如,服裝行業(yè)的模特換裝、商品屬性修改、多圖融合,以及利用“信息圖”能力生成商品詳情長圖。

在醫(yī)療等專業(yè)領域,圖像生成模型可以將復雜的流程(如就診流程、診斷報告)通過信息圖、流程圖等形式可視化,便于理解。

他認為,中國AIGC市場在應用落地和產(chǎn)業(yè)迭代速度上具有優(yōu)勢。國內有強大的應用土壤和快速落地的能力。當技術追平后,豐富的應用場景能催生出新的產(chǎn)業(yè)鏈(如短?。⒖焖俜床改P偷?。

Qwen-Image系列將與WPS等國民級應用進行合作,獲取真實用戶反饋和需求,并融入下一代模型開發(fā),形成從應用到技術的閉環(huán)迭代。

結語:從玩具到生產(chǎn)力,圖像生成模型探索真實場景落地

從近期的發(fā)布情況來看,圖像生成領域的多家頭部廠商已達成共識。如今,圖像生成模型不僅僅追求生成逼真的畫面,更要滿足現(xiàn)實場景中對提示詞精準遵循、文字準確渲染等關鍵因素的需求,這些才是真正決定模型生產(chǎn)力的核心要素。

隨著模型的不斷優(yōu)化與迭代,圖像生成或許有潛力成為企業(yè)和個人在信息處理、創(chuàng)作表達及決策支持等方面的強大助手。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
春節(jié)復工僅1天,5位名人相繼離世,年齡跨度79歲

春節(jié)復工僅1天,5位名人相繼離世,年齡跨度79歲

月光作箋a
2026-02-24 05:09:24
全紅嬋弟弟退出跳水圈回歸校園,清醒選擇獲網(wǎng)友點贊

全紅嬋弟弟退出跳水圈回歸校園,清醒選擇獲網(wǎng)友點贊

籃球看比賽
2026-02-24 15:37:59
美國被曝已決定對伊朗發(fā)動軍事打擊,預計23日或24日

美國被曝已決定對伊朗發(fā)動軍事打擊,預計23日或24日

每日經(jīng)濟新聞
2026-02-23 14:21:22
特斯拉正式起訴車管所!

特斯拉正式起訴車管所!

電動知家
2026-02-24 10:30:59
春節(jié)返工高速大堵車,成都女子搭順風車至廣州耗時42小時,坐到腿部腫脹病情復發(fā)

春節(jié)返工高速大堵車,成都女子搭順風車至廣州耗時42小時,坐到腿部腫脹病情復發(fā)

極目新聞
2026-02-24 18:14:46
還在看智能手表的睡眠監(jiān)測?這準確率還不如丟硬幣。。。

還在看智能手表的睡眠監(jiān)測?這準確率還不如丟硬幣。。。

差評XPIN
2026-02-25 00:09:24
勸大家極限儲蓄吧,從2026年開始!

勸大家極限儲蓄吧,從2026年開始!

十點讀書
2026-02-24 18:53:33
特朗普驚出一身冷汗:中美已無法開戰(zhàn),一殺手锏讓美軍無計可施

特朗普驚出一身冷汗:中美已無法開戰(zhàn),一殺手锏讓美軍無計可施

馬鞄戶外釣魚哥
2026-02-22 14:53:23
影視股集體跌停!《飛馳3》撐不起“最長春節(jié)檔”:定檔晚、宣發(fā)急、缺爆款?

影視股集體跌停!《飛馳3》撐不起“最長春節(jié)檔”:定檔晚、宣發(fā)急、缺爆款?

新浪財經(jīng)
2026-02-24 17:18:11
泡中年女人大膽做這3件,你壓根不缺女人!

泡中年女人大膽做這3件,你壓根不缺女人!

看盡落塵花q
2026-02-10 10:36:39
創(chuàng)維將接手松下電視在歐洲和北美地區(qū)運營

創(chuàng)維將接手松下電視在歐洲和北美地區(qū)運營

澎湃新聞
2026-02-24 21:00:26
當“硅膠臉”混進央視劇,美顏被打回原型,郭京飛再強也帶不動

當“硅膠臉”混進央視劇,美顏被打回原型,郭京飛再強也帶不動

谷雨之言
2026-01-02 13:47:06
27歲姆巴佩考駕照:居民炸開鍋!現(xiàn)場追星 教練是馬競球迷

27歲姆巴佩考駕照:居民炸開鍋!現(xiàn)場追星 教練是馬競球迷

葉青足球世界
2026-02-24 19:52:46
與四婚名導同居三年不結婚,流產(chǎn)兩次轉身下嫁窮小子,如今咋樣

與四婚名導同居三年不結婚,流產(chǎn)兩次轉身下嫁窮小子,如今咋樣

卷史
2026-02-19 13:14:40
從王濛蒙冤到米蘭冬奧慘?。壕W(wǎng)友為何死咬王春露不放?這才是真相

從王濛蒙冤到米蘭冬奧慘?。壕W(wǎng)友為何死咬王春露不放?這才是真相

老馬拉車莫少裝
2026-02-22 12:19:12
謝霆鋒經(jīng)紀人深夜高調發(fā)文!2月22日凌晨,霍汶希內心激動藏不住

謝霆鋒經(jīng)紀人深夜高調發(fā)文!2月22日凌晨,霍汶希內心激動藏不住

阿廢冷眼觀察所
2026-02-23 18:56:52
遼寧:對低空飛行器整機等項目,按照貸款本金年化利率1.5%給予貼息支持

遼寧:對低空飛行器整機等項目,按照貸款本金年化利率1.5%給予貼息支持

界面新聞
2026-02-24 08:03:51
兩性關系:65-75歲夫妻必看,真正惜命的是守住這7條底線!

兩性關系:65-75歲夫妻必看,真正惜命的是守住這7條底線!

第7情感
2026-02-08 17:00:08
化工漲停潮!社?;鹬貍}18家,年報最高增1000%,市盈率低至14

化工漲停潮!社?;鹬貍}18家,年報最高增1000%,市盈率低至14

說故事的阿襲
2026-02-25 02:42:19
澤連斯基談協(xié)議簽署:要求美國國會先批準安全保障措施

澤連斯基談協(xié)議簽署:要求美國國會先批準安全保障措施

財聯(lián)社
2026-02-24 15:52:18
2026-02-25 05:47:00
智東西 incentive-icons
智東西
聚焦智能變革,服務產(chǎn)業(yè)升級。
11250文章數(shù) 116980關注度
往期回顧 全部

科技要聞

宇樹科技發(fā)布四足機器人Unitree As2

頭條要聞

男子摟住繼女強吻動作親密 當?shù)貗D聯(lián)介入

頭條要聞

男子摟住繼女強吻動作親密 當?shù)貗D聯(lián)介入

體育要聞

蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經(jīng)要聞

縣城消費「限時繁榮」了十天

汽車要聞

入門即滿配 威蘭達AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

家居
本地
藝術
房產(chǎn)
公開課

家居要聞

本真棲居 愛暖伴流年

本地新聞

春花齊放2026:《駿馬奔騰迎新歲》

藝術要聞

高劍父寫梅,筆走龍蛇

房產(chǎn)要聞

330萬人涌入!春節(jié)全國樓市,第一個賣爆的區(qū)域出現(xiàn)了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版