国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

智譜和華為搞波大的:中國首個(gè)國產(chǎn)芯片訓(xùn)練出的SOTA多模態(tài)模型!

0
分享至

金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

智譜華為,這個(gè)組合剛剛搞了波大的:

開源新一代圖像生成模型GLM-Image,是中國首個(gè)全程在國產(chǎn)芯片上完成訓(xùn)練的SOTA多模態(tài)模型!

GLM-Image尤其擅長文字渲染,像最近很火的AI手抄報(bào)、插畫、海報(bào)都能信手拈來:





不難看出,如此多的漢字,在GLM-Image的手上可以說是輕松拿捏、精準(zhǔn)無誤。

并且GLM-Image一出道就拿下了CVTG-2K(復(fù)雜視覺文字生成)和LongText-Bench(長文本渲染)雙榜單的第一



再細(xì)分來看,在CVTG-2K中,GLM-Image憑借0.9116的Word Accuracy(文字準(zhǔn)確率)和0.9557的NED(歸一化編輯距離)拿下雙料第一,表明生成的文字在準(zhǔn)確性上做到了高度一致。

以及LongText-Bench中的中文、英文或平均分?jǐn)?shù),都位列開源模型中的第一。

除此之外,再劃個(gè)重點(diǎn):

用GLM-Image的API生成圖片,現(xiàn)在一張圖只要一毛錢(0.1元)!

咱就是說,國產(chǎn)芯+國產(chǎn)模型,這次真的贏麻了。

圖片里的漢字,穩(wěn)穩(wěn)拿捏住了

天下苦AI生圖不識(shí)字已經(jīng)久矣。

以前讓AI畫個(gè)海報(bào),畫面雖然美如畫,但文字卻是亂如麻:不是缺筆少劃,就是自創(chuàng)火星文。

這次GLM-Image最大的賣點(diǎn),可以說就是能讀懂且寫對

那么接下來,我們就來給GLM-Image一些刁鉆的難題,考驗(yàn)考驗(yàn)它的能力。

做小紅書封面可以用“說”的

首先是咱們熟悉的“小紅書風(fēng)”。

這種圖片不僅要求審美在線,最關(guān)鍵的是標(biāo)題要大、要醒目,還得和畫面完美融合。

我們?nèi)咏oGLM-Image一段描述比較籠統(tǒng)的描述,讓它先來自我發(fā)揮一下:

Prompt:生成一張小紅書封面,圖文并茂,表達(dá)泰國旅游最全攻略,要有人物和風(fēng)景,有趣的設(shè)計(jì)。



講真,是有一點(diǎn)驚艷在身上的。

感覺GLM-Image已然get到了小紅書封面的奧義,鮮艷的配色、醒目的文字,還有逼真的人物,一下子就讓人想點(diǎn)進(jìn)去了解一番。

還有小紅書上比較流行的科普詳解圖,GLM-Image可以根據(jù)智譜官方推文直接生成亮點(diǎn)內(nèi)容圖解:



以后啊,要想做一個(gè)小紅書或者其它社交媒體的封面,只要0.1元,讓GLM-Image來處理就好了。

而且GLM-Image原生支持1024x1024至2048x2048的任意比例輸出。智譜開放平臺(tái)體驗(yàn)中心提供了10個(gè)尺寸的選項(xiàng),可以適配各種類型的社交媒體平臺(tái)。



商業(yè)海報(bào),1毛錢直出

假如你現(xiàn)在想要做一張有藝術(shù)感的商業(yè)廣告大片,那么只要把你的想法轉(zhuǎn)成Prompt即可,例如:

Prompt:大師級(jí)攝影,獲獎(jiǎng)作品,東方禪意,神秘氛圍。中心構(gòu)圖,極致負(fù)空間留白,一位沉靜內(nèi)省的男性背影,戴淺色寬檐帽,處于絕對靜止剪影狀態(tài)。中景:濃霧彌漫充滿全部畫面。雙重曝光,人物透明疊加于中景,透明暈染重疊,重疊處露出黃昏都市,暖金色暮光逆?zhèn)裙?,建筑輪廓與霓虹因慢門化作動(dòng)態(tài)模糊、拖曳的暖黃色光軌。光影:黑柔濾鏡,輪廓光勾勒帽檐肩線,面部陰影中有微妙的深灰至灰漸變,強(qiáng)烈明暗對比。色調(diào):低飽和度暖調(diào)(淺棕、暖黃、灰綠,陰影泛青灰),富士懷舊負(fù)片膠片質(zhì)感。后期:空氣透視,朦朧詩意,印象派氛圍。視覺張力,虛實(shí)結(jié)合,情緒氛圍攝影,電影幀敘事。標(biāo)語:“流光過隙,我自靜觀?!?半透明標(biāo)題“SILENCE”嵌入霧中。



再如我們現(xiàn)在做一個(gè)關(guān)于白酒的廣告片,Prompt如下:

Prompt:以中式酒飲為主題,搭配古樸松枝。場景為白色背景的展示臺(tái),營造典雅氛圍。構(gòu)圖上,將酒瓶擺放于黑色怪石,白色花藝自然穿插點(diǎn)綴,突出層次。色彩以畫面風(fēng)格追求國風(fēng)雅韻,借中式元素(傳統(tǒng)繪畫、松枝 )傳遞東方美學(xué),背景簡潔漸變,聚焦產(chǎn)品與國風(fēng)意境融合,打造具有文化底蘊(yùn)的茶飲展示效果 。酒瓶身自然地嵌入中文“松酒”。



嗯,是有點(diǎn)設(shè)計(jì)感在身上的。

人物、場景,逼真得分不清是AI

真實(shí)性,也是考驗(yàn)圖片生成能力的重要因素。

接下來,我們就讓GLM-Image生成幾張真實(shí)人物的照片:

Prompt:一位男模特,行走于都市天臺(tái),風(fēng)衣下擺被大風(fēng)揚(yáng)起,動(dòng)態(tài)模糊,大場景,強(qiáng)透視,低角度仰拍,膠片粗顆粒質(zhì)感,黑金色調(diào),前衛(wèi)藝術(shù)美學(xué),力量感,高級(jí)感,時(shí)尚大片視角,8K,大師杰作。



像極了在現(xiàn)實(shí)生活中拍出來的男模特。

我們再來試試一張有點(diǎn)影視劇照的風(fēng)格:

Prompt:營造出優(yōu)雅浪漫的古典閑適氛圍。中國宋代古典裝束、精致器物,搭配窗外的自然景致,傳遞出遠(yuǎn)離塵囂的詩意與雅致,讓觀者感受到那份古典浪漫中的松弛感。超寫實(shí)風(fēng)格暗黑。



如何?是不是有夠逼真的?

哦對了,在GLM-Image這里,多圖拼接也是可以的哦~



怎么在華為芯片上訓(xùn)出的SOTA?

看完效果,相信很多小伙伴要不禁問了:這到底是怎么做到的?

尤其是在目前高性能顯卡受限的大背景下,GLM-Image不僅做出來了,還號(hào)稱是首個(gè)全程在國產(chǎn)芯片上完成訓(xùn)練的SOTA模型

這背后的技術(shù)含金量,值得咱們好好聊一聊。

混血架構(gòu):自回歸 + 擴(kuò)散解碼器

目前從大方向來看生圖領(lǐng)域技術(shù)的發(fā)展,主要有兩大流派:

  • 擴(kuò)散模型(Diffusion):比如Stable Diffusion、Flux。擅長畫細(xì)節(jié),光影質(zhì)感好,但理解復(fù)雜的全局指令(比如空間關(guān)系、多物體布局)比較吃力。
  • 自回歸模型(Autoregressive, AR):比如DALL·E 3的部分邏輯。擅長理解語言、規(guī)劃布局,但在生成高分辨率圖像的細(xì)節(jié)上,推理速度慢,且容易崩。

但GLM-Image的玩法是這樣的:小孩子才做選擇,成年人我全都要。

于是,它搞出了一個(gè)“自回歸 + 擴(kuò)散解碼器”的混合架構(gòu),可以理解為一個(gè)大腦和筆畫的組合:

  • 大腦(9B 自回歸模型):負(fù)責(zé)理解和規(guī)劃。它先讀懂你那幾百字的復(fù)雜Prompt,規(guī)劃好哪里畫人、哪里寫字、排版怎么排。
  • 畫筆(7B DiT 擴(kuò)散解碼器):負(fù)責(zé)上色和精修。它接過“大腦”的草圖,把細(xì)節(jié)填充得滿滿當(dāng)當(dāng),保證畫質(zhì)細(xì)膩。

這就是為什么它在處理CVTG-2K這種榜單時(shí)能拿第一的原因。因?yàn)樗粌H僅是在生成像素,而是在先理解布局,再填充內(nèi)容。

華為A2芯片+Mindspeed-LLM

這或許是這次發(fā)布內(nèi)容中最為硬核的地方。

我們都知道,訓(xùn)練一個(gè)幾十億參數(shù)的SOTA模型,對算力的穩(wěn)定性、通信帶寬要求極高。以往大家默認(rèn)只有英偉達(dá)的卡能干這事兒。

但GLM-Image卻選擇了國產(chǎn):它全程基于華為Ascend A2芯片進(jìn)行訓(xùn)練。

為了讓這套國產(chǎn)硬件發(fā)揮出最大效能,智譜和華為配合,深度優(yōu)化了Mindspeed-LLM框架。

  • 全流程跑通:從海量數(shù)據(jù)的預(yù)處理,到大規(guī)模的預(yù)訓(xùn)練,再到最后的微調(diào),全部在國產(chǎn)全棧算力底座上完成。
  • 算子級(jí)優(yōu)化:針對國產(chǎn)芯片的特性,重新寫了底層算子,讓訓(xùn)練效率直接起飛。



尤其是最為關(guān)鍵的 RL(強(qiáng)化學(xué)習(xí))后訓(xùn)練階段,在華為Ascend A2算力集群上,智譜團(tuán)隊(duì)針對RL訓(xùn)練流程進(jìn)行了專項(xiàng)優(yōu)化:

  1. 大規(guī)模集群的穩(wěn)定性控制:RL訓(xùn)練容易出現(xiàn)梯度爆炸或不穩(wěn)定的情況。依托華為全棧算力底座,智譜實(shí)現(xiàn)了超大規(guī)模集群下的長時(shí)間穩(wěn)定訓(xùn)練,確保了模型收斂的魯棒性。
  2. 算子級(jí)深度重構(gòu):為了適配RL過程中特有的動(dòng)態(tài)計(jì)算圖,智譜與華為合作,重新編寫了底層核心算子。這不僅提升了單卡效率,更讓萬卡級(jí)別的通信帶寬利用率顯著優(yōu)化,解決了國產(chǎn)芯片在復(fù)雜后訓(xùn)練邏輯中的“水土不服”。
  3. 異構(gòu)計(jì)算的協(xié)同:利用昇思MindSpore框架,GLM-Image在訓(xùn)練時(shí)實(shí)現(xiàn)了計(jì)算與通信的完美并行(Overlap),讓模型在處理2048×2048這種超高分辨率圖像的RL訓(xùn)練時(shí),依然能保持高效的吞吐量。

這種深度適配帶來的結(jié)果是顯而易見的。GLM-Image 不僅是國產(chǎn)芯片訓(xùn)出來的,更是在國產(chǎn)算力極限壓力測試下卷出來的SOTA 模型。

值得一提的是,GLM-Image并非僅在微調(diào)階段使用國產(chǎn)芯片,而是從海量數(shù)據(jù)預(yù)處理、大規(guī)模預(yù)訓(xùn)練到最后的RLHF過程,全部在華為Ascend A2算力集群上完成。

它證明了國產(chǎn)算力底座+自研架構(gòu)創(chuàng)新,完全可以支撐起RL這種最前沿、最復(fù)雜的模型優(yōu)化路徑。

分辨率的原生支持

還有一個(gè)技術(shù)細(xì)節(jié)也值得一提。

傳統(tǒng)的模型,如果你想生成個(gè)長條圖(比如16:9)或者豎圖(9:16),往往需要裁剪或者后期重繪,容易變形。

GLM-Image改進(jìn)了Tokenizer策略,原生支持從1024x1024到2048×2048的任意比例和分辨率。





這意味著你可以直接讓它生成一張超長的招牌,或者一張超寬的橫幅廣告,它都不需要重新訓(xùn)練,直接就能算出來。

國產(chǎn)自信的一次開源

在圖像生成這個(gè)領(lǐng)域,大家似乎都習(xí)慣了盯著國外的Flux、Midjourney、Ideogram看。每當(dāng)國外發(fā)布一個(gè)新模型,大家就感嘆一句“差距又拉大了”。

但GLM-Image的出現(xiàn),是一次有力的回應(yīng),主要可以從三個(gè)方面來看:

  1. 打破壟斷:它證明了SOTA級(jí)的模型效果,完全可以在國產(chǎn)芯片上實(shí)現(xiàn)。這給國內(nèi)其他的AI開發(fā)者打了一針強(qiáng)心劑。
  2. 開源普惠:不僅僅是模型開源,它還把這種“自回歸+擴(kuò)散”的新架構(gòu)思路分享了出來。對于想要研究下一代生圖技術(shù)的人來說,這就是最好的教科書。
  3. 極致性價(jià)比:API調(diào)用價(jià)格極其親民,生成一張圖的成本甚至不到一毛錢。這對于想要接入AI生圖能力的中小企業(yè)、開發(fā)者來說,簡直是降維打擊。

Nano Banana固然很好,但那畢竟是別人家的,還是閉源的那種。

但現(xiàn)在,我們有了自己的Open Banana——GLM-Image:開源的、國產(chǎn)算力訓(xùn)練的、懂中文、會(huì)寫漢字的。

無論你是想做個(gè)不重樣的小紅書博主,還是想搞個(gè)自動(dòng)生成海報(bào)的創(chuàng)業(yè)項(xiàng)目,或者單純就是想體驗(yàn)一下國產(chǎn)之光的生圖能力,GLM-Image都值得你上手一試。

話不多說,趕緊去試試這個(gè)“國產(chǎn)大香蕉”到底香不香!

API接入地址:
https://docs.bigmodel.cn/cn/guide/models/image-generation/glm-image

GitHub:
https://github.com/zai-org/GLM-Image

Hugging Face:
https://huggingface.co/zai-org/GLM-Image

魔搭社區(qū):
https://modelscope.cn/models/ZhipuAI/GLM-Image

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
3-1!上海女排力克江蘇,雙外援進(jìn)攻太給力,吳夢潔體能透支

3-1!上海女排力克江蘇,雙外援進(jìn)攻太給力,吳夢潔體能透支

騎馬寺的少年
2026-01-14 22:14:13
出手降溫后,回答一下關(guān)于股市的四個(gè)問題

出手降溫后,回答一下關(guān)于股市的四個(gè)問題

表舅是養(yǎng)基大戶
2026-01-14 22:18:24
希臘“黃金簽證”褪色,跨洲買房的中國人遭遇拋售困局:有人25萬歐元買入,2萬歐元賣出

希臘“黃金簽證”褪色,跨洲買房的中國人遭遇拋售困局:有人25萬歐元買入,2萬歐元賣出

紅星新聞
2026-01-14 17:46:42
伊朗首席大法官表示快速訴訟和處決示威者

伊朗首席大法官表示快速訴訟和處決示威者

一種觀點(diǎn)
2026-01-14 19:16:39
郭富城大房:掌管郭富城20億身家,卻30年沒有名分,甘愿為郭帶娃

郭富城大房:掌管郭富城20億身家,卻30年沒有名分,甘愿為郭帶娃

玥來玥好講故事
2025-12-27 17:01:58
中海油原總經(jīng)理李勇痛心懺悔:貪腐之路必留痕跡,追繳贓款刻不容緩

中海油原總經(jīng)理李勇痛心懺悔:貪腐之路必留痕跡,追繳贓款刻不容緩

藍(lán)色海邊
2026-01-14 01:48:51
“性蕭條”才是這個(gè)時(shí)代真正的危機(jī)

“性蕭條”才是這個(gè)時(shí)代真正的危機(jī)

深藍(lán)夜讀
2025-09-24 16:00:09
土耳其專家:伊朗可將封鎖霍爾木茲海峽用作應(yīng)對美國的“最后底牌”

土耳其專家:伊朗可將封鎖霍爾木茲海峽用作應(yīng)對美國的“最后底牌”

財(cái)聯(lián)社
2026-01-13 23:34:06
供電局提醒:7種電器不用就拔插頭,不然電費(fèi)翻倍還危險(xiǎn)

供電局提醒:7種電器不用就拔插頭,不然電費(fèi)翻倍還危險(xiǎn)

叮當(dāng)當(dāng)科技
2026-01-03 11:07:42
全球不到300只!2017年,2只被賣到蘇州,黑市1只賣上百萬元

全球不到300只!2017年,2只被賣到蘇州,黑市1只賣上百萬元

萬象硬核本尊
2025-12-24 17:28:42
【2026.1.14】扒醬料不停:那些你不知道的八卦一二三

【2026.1.14】扒醬料不停:那些你不知道的八卦一二三

娛樂真爆姐
2026-01-14 23:35:16
耿耿于懷!頂薪?jīng)]了,4年2.29億變3年1.2億,特雷楊啊,老鷹高招

耿耿于懷!頂薪?jīng)]了,4年2.29億變3年1.2億,特雷楊啊,老鷹高招

球童無忌
2026-01-13 16:24:52
全都癱瘓了,中方電磁壓制外艦,美國絕密報(bào)告曝光,中美攻守易形

全都癱瘓了,中方電磁壓制外艦,美國絕密報(bào)告曝光,中美攻守易形

鐵錘簡科
2026-01-14 15:54:59
男子受邀幫忙按年豬,反被豬踢傷致截癱!邀約者被判賠52萬

男子受邀幫忙按年豬,反被豬踢傷致截癱!邀約者被判賠52萬

紅星新聞
2026-01-14 13:39:14
卡里克戰(zhàn)術(shù)陣型敲定!棄用三中衛(wèi)改打4-2-3-1,B費(fèi)成最大受益者

卡里克戰(zhàn)術(shù)陣型敲定!棄用三中衛(wèi)改打4-2-3-1,B費(fèi)成最大受益者

夜白侃球
2026-01-14 22:13:13
看見佟麗婭大腿上那兩道線條了嗎?

看見佟麗婭大腿上那兩道線條了嗎?

小光侃娛樂
2026-01-03 15:40:02
身價(jià)榜前兩名全回家!國足第三也危險(xiǎn)了?王鈺棟謹(jǐn)慎直言:別飄!

身價(jià)榜前兩名全回家!國足第三也危險(xiǎn)了?王鈺棟謹(jǐn)慎直言:別飄!

落夜足球
2026-01-14 11:32:37
3140億收購緊急剎車!美科技盯上中國AI黑馬,商務(wù)部喊停亮底線

3140億收購緊急剎車!美科技盯上中國AI黑馬,商務(wù)部喊停亮底線

趣文說娛
2026-01-13 18:19:28
分手29年后,肖戰(zhàn)將成國乒副總教練,陳靜嫁給富商,已是大學(xué)教授

分手29年后,肖戰(zhàn)將成國乒副總教練,陳靜嫁給富商,已是大學(xué)教授

趣文說娛
2026-01-14 18:40:13
想要夫妻性生活和諧,男人必須改掉的三個(gè)臭毛病

想要夫妻性生活和諧,男人必須改掉的三個(gè)臭毛病

精彩分享快樂
2026-01-15 00:00:03
2026-01-15 00:32:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12014文章數(shù) 176359關(guān)注度
往期回顧 全部

科技要聞

攜程因涉嫌壟斷被市場監(jiān)管總局調(diào)查

頭條要聞

媒體:公開鼓動(dòng)抗議者 特朗普新表態(tài)讓全球嗅到火藥味

頭條要聞

媒體:公開鼓動(dòng)抗議者 特朗普新表態(tài)讓全球嗅到火藥味

體育要聞

你是個(gè)好球員,我們就拿你交易吧

娛樂要聞

網(wǎng)紅彭十六偷稅被封殺 曾成功轉(zhuǎn)型明星

財(cái)經(jīng)要聞

攜程被立案調(diào)查,最高或被罰超50億

汽車要聞

曝Model Y或降到20萬以內(nèi)!

態(tài)度原創(chuàng)

健康
時(shí)尚
親子
本地
軍事航空

血常規(guī)3項(xiàng)異常,是身體警報(bào)!

最時(shí)髦的單品,難道不是背肌嗎?

親子要聞

這是對我不太滿意啊

本地新聞

邵陽公益訴訟檢察主題曲:《守望星》

軍事要聞

中東氣氛愈發(fā)緊張 伊朗處于最高戰(zhàn)備狀態(tài)

無障礙瀏覽 進(jìn)入關(guān)懷版