国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GLM-Image開源:原創(chuàng)架構(gòu)、國(guó)產(chǎn)芯片訓(xùn)練、擅長(zhǎng)漢字生成

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開放的AI開源社區(qū),始終堅(jiān)持“中立、開放、共建、共創(chuàng)、合作”五項(xiàng)基本原則,歡迎加入共同成長(zhǎng)。


智譜聯(lián)合華為開源新一代圖像生成模型GLM-Image,模型基于昇騰Atlas 800T A2設(shè)備和昇思MindSpore AI框架完成從數(shù)據(jù)到訓(xùn)練的全流程,是首個(gè)在國(guó)產(chǎn)芯片上完成全程訓(xùn)練的SOTA多模態(tài)模型。GLM-Image已經(jīng)發(fā)布在始智AI wisemodel開源社區(qū),歡迎大家前往嘗試。


模型地址

https://wisemodel.cn/models/ZhipuAI/GLM-Image

GLM-Image采用自主創(chuàng)新的「自回歸+擴(kuò)散解碼器」混合架構(gòu),實(shí)現(xiàn)了圖像生成與語言模型的聯(lián)合,是我們面向以Nano Banana Pro為代表的新一代「認(rèn)知型生成」技術(shù)范式的一次重要探索。

核心亮點(diǎn)如下:

  • 架構(gòu)革新,面向「認(rèn)知型生成」的技術(shù)探索:采用創(chuàng)新的「自回歸 + 擴(kuò)散編碼器」混合架構(gòu),兼顧全局指令理解與局部細(xì)節(jié)刻畫,克服了海報(bào)、PPT、科普?qǐng)D等知識(shí)密集型場(chǎng)景生成難題,向探索以Nano Banana Pro為代表的新一代“知識(shí)+推理”的認(rèn)知型生成模型邁出了重要一步。

  • 首個(gè)在國(guó)產(chǎn)芯片完成全程訓(xùn)練的SOTA模型:模型自回歸結(jié)構(gòu)基座基于昇騰Atlas 800T A2設(shè)備與昇思MindSpore AI框架,完成了從數(shù)據(jù)預(yù)處理到大規(guī)模訓(xùn)練的全流程構(gòu)建,驗(yàn)證了在國(guó)產(chǎn)全棧算力底座上訓(xùn)練前沿模型的可行性。

  • 文字渲染開源SOTA:在CVTG-2K(復(fù)雜視覺文本生成)和LongText-Bench(長(zhǎng)文本渲染)榜單獲得開源第一,尤其擅長(zhǎng)漢字生成任務(wù)。

  • 高性價(jià)比與速度優(yōu)化:API調(diào)用模式下,生成一張圖片僅需0.1元,速度優(yōu)化版本即將更新。

01.

架構(gòu)創(chuàng)新:讀懂指令,寫對(duì)文字

近期,以Nano Banana Pro為代表的閉源圖像生成模型正在推動(dòng)圖像生成與大語言模型的深度融合。技術(shù)范式正從單一的圖像生成,進(jìn)化為兼具世界知識(shí)與推理能力的「認(rèn)知型生成」。這些模型在海報(bào)、PPT、科普?qǐng)D等知識(shí)密集型場(chǎng)景及高保真細(xì)節(jié)呈現(xiàn)上表現(xiàn)驚艷,展現(xiàn)了這一技術(shù)范式的優(yōu)勢(shì)。

GLM-Image正是面向「認(rèn)知型生成」技術(shù)范式一次重要探索。這是首個(gè)開源的工業(yè)表現(xiàn)級(jí)離散自回歸圖像生成模型,希望借此與開源社區(qū)分享我們?cè)谶@一前沿方向的技術(shù)路徑與實(shí)踐思考。

  • 創(chuàng)新架構(gòu)讓模型讀懂寫對(duì):面對(duì)傳統(tǒng)模型在“理解復(fù)雜指令”與“精準(zhǔn)繪制文字”上難以兼顧的問題,GLM-Image 引入了「自回歸+擴(kuò)散解碼器」混合架構(gòu),創(chuàng)新地融合了9B大小的自回歸模型與7B大小的DiT擴(kuò)散解碼器。前者利用其語言模型的底座優(yōu)勢(shì),專注于提升對(duì)指令的語義理解和畫面的全局構(gòu)圖;后者配合Glyph Encoder的文本編碼器,專注于還原圖像的高頻細(xì)節(jié)和文字筆畫,以此改善模型“提筆忘字”的現(xiàn)象。

  • 多分辨率自適應(yīng):通過改進(jìn)Tokenizer策略,GLM-Image能夠自適應(yīng)處理多種分辨率,原生支持從1024x1024到2048×2048尺寸的任意比例圖像的生成任務(wù),無需重新訓(xùn)練。


通用pipeline


解碼器結(jié)構(gòu)示意圖

GLM-Image技術(shù)報(bào)告:https://z.ai/blog/glm-image

02.

開源SOTA:更擅長(zhǎng)文字密集生成任務(wù)

基于上述架構(gòu)創(chuàng)新,GLM-Image在文字渲染的權(quán)威榜單中達(dá)到開源SOTA水平。



  • CVTG-2K(復(fù)雜視覺文字生成)榜單核心考察模型在圖像中同時(shí)生成多處文字的準(zhǔn)確性。在多區(qū)域文字生成準(zhǔn)確率上,GLM-Image憑借0.9116的Word Accuracy(文字準(zhǔn)確率)成績(jī),位列開源模型第一。在NED(歸一化編輯距離)指標(biāo)上,GLM-Image同樣以0.9557領(lǐng)先,表明其生成的文字與目標(biāo)文字高度一致,錯(cuò)字、漏字情況更少。

  • LongText-Bench(長(zhǎng)文本渲染)榜單考察模型渲染長(zhǎng)文本、多行文字的準(zhǔn)確性,覆蓋招牌、海報(bào)、PPT、對(duì)話框等8種文字密集場(chǎng)景,并分設(shè)中英雙語測(cè)試,GLM-Image以英文0.952、中文0.979的成績(jī)位列開源模型第一。

03.

首個(gè)國(guó)產(chǎn)芯片訓(xùn)練出的SOTA模型

GLM-Image是我們對(duì)國(guó)產(chǎn)計(jì)算生態(tài)的一次深度探索與驗(yàn)證。其自回歸結(jié)構(gòu)基座從早期的數(shù)據(jù)預(yù)處理到最終的大規(guī)模預(yù)訓(xùn)練,全流程均在昇騰Atlas 800T A2設(shè)備上完成。

依托昇騰NPU和昇思MindSpore AI框架,使用動(dòng)態(tài)圖多級(jí)流水下發(fā)、高性能融合算子、多流并行等特性,我們自研了模型訓(xùn)練套件,全面優(yōu)化數(shù)據(jù)預(yù)處理、預(yù)訓(xùn)練、SFT和RL的端到端流程。通過動(dòng)態(tài)圖的多級(jí)流水優(yōu)化機(jī)制,將Host側(cè)算子下發(fā)的關(guān)鍵階段流水化并高度重疊,消除下發(fā)瓶頸;通過多流并行策略,通信和計(jì)算互掩,打破文本梯度同步、圖像特征廣播等操作的通信墻,極致優(yōu)化性能;使用AdamW EMA、COC、RMS Norm等昇騰親和的高性能融合算子,同步提升訓(xùn)練的穩(wěn)定性和性能。

GLM-Image是首個(gè)在國(guó)產(chǎn)芯片上完成全流程訓(xùn)練的SOTA多模態(tài)模型,驗(yàn)證了在國(guó)產(chǎn)全棧算力底座上訓(xùn)練高性能多模態(tài)生成模型的可行性。我們希望這一實(shí)踐能為社區(qū)挖掘國(guó)產(chǎn)算力潛力提供有價(jià)值的參考。

04.

實(shí)測(cè)案例

下面來看看GLM-Image在實(shí)際的復(fù)雜圖文任務(wù)中的表現(xiàn)。

場(chǎng)景一:科普插畫

GLM-Image 更擅長(zhǎng)繪制包含復(fù)雜邏輯流程與文字說明的科普插畫及原理示意圖。


場(chǎng)景二:多格圖畫

在生成電商圖、漫畫等多格圖畫時(shí),GLM-Image能夠保持風(fēng)格和主體的一致性,并保障多處文字生成的準(zhǔn)確率。


場(chǎng)景三:社交媒體圖文封面

GLM-Image 適用于制作社交媒體封面及內(nèi)容等排版復(fù)雜的圖片,讓您的創(chuàng)作更自由豐富。


場(chǎng)景四:商業(yè)海報(bào)

GLM-Image 能夠生成構(gòu)圖富有設(shè)計(jì)感、文字嵌入準(zhǔn)確的節(jié)日海報(bào)與商業(yè)宣傳圖。


場(chǎng)景五:寫實(shí)攝影

在文字渲染以外,GLM-Image也同樣擅長(zhǎng)生成各種景別和尺寸的人像、寵物、風(fēng)景、靜物。


最后,用GLM-Image生成的一張圖總結(jié)一下模型的核心要點(diǎn)。


----- END -----


wisemodel相關(guān):

系列模型:


關(guān)于wisemodel更多


1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
79元太火!小米磁吸玩偶賣斷貨 官方承諾加快生產(chǎn)

79元太火!小米磁吸玩偶賣斷貨 官方承諾加快生產(chǎn)

快科技
2026-03-26 07:09:03
6-2血洗歐冠德比!巴薩狂轟6球,皇馬孤將雙響難擋崩盤

6-2血洗歐冠德比!巴薩狂轟6球,皇馬孤將雙響難擋崩盤

林子說事
2026-03-26 09:42:20
2.87倍碾壓英偉達(dá)?華為吹爆的昇騰950PR,竟是場(chǎng)驚天騙局?

2.87倍碾壓英偉達(dá)?華為吹爆的昇騰950PR,竟是場(chǎng)驚天騙局?

小柱解說游戲
2026-03-26 13:49:08
人民日?qǐng)?bào)痛批大學(xué)生 “沉睡” 現(xiàn)象:躺平四年,畢業(yè)真的會(huì)失業(yè)!

人民日?qǐng)?bào)痛批大學(xué)生 “沉睡” 現(xiàn)象:躺平四年,畢業(yè)真的會(huì)失業(yè)!

復(fù)轉(zhuǎn)這些年
2026-03-25 10:02:32
納指重回22000點(diǎn),美股超3800只個(gè)股上漲

納指重回22000點(diǎn),美股超3800只個(gè)股上漲

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-03-26 18:02:22
所有人都在盯中東打仗,中國(guó)卻悄悄干了件大事:歐洲突然賺麻了

所有人都在盯中東打仗,中國(guó)卻悄悄干了件大事:歐洲突然賺麻了

青青子衿
2026-03-26 01:37:03
精銳空降師抵中東,五萬大軍壓境,美伊地面戰(zhàn)一觸即發(fā)?

精銳空降師抵中東,五萬大軍壓境,美伊地面戰(zhàn)一觸即發(fā)?

高博新視野
2026-03-26 08:00:26
中方警戒艦?zāi)壳罢幱诨魻柲酒澓{附近?國(guó)防部:假消息

中方警戒艦?zāi)壳罢幱诨魻柲酒澓{附近?國(guó)防部:假消息

環(huán)球網(wǎng)資訊
2026-03-26 16:20:07
想拿中國(guó)尿素救春耕?先把欠中企的百億欠款還了!否則一粒不售

想拿中國(guó)尿素救春耕?先把欠中企的百億欠款還了!否則一粒不售

過期少女致幻錄
2026-03-26 11:44:43
泰國(guó)征兵拿張凌赫做廣告 泰陸軍發(fā)言人:支持!

泰國(guó)征兵拿張凌赫做廣告 泰陸軍發(fā)言人:支持!

看看新聞Knews
2026-03-26 21:37:02
比國(guó)足還慘!意大利已12年未踢世界杯,僅剩33歲維拉蒂踢過世界杯

比國(guó)足還慘!意大利已12年未踢世界杯,僅剩33歲維拉蒂踢過世界杯

林子說事
2026-03-27 00:00:05
約基奇23+21+19創(chuàng)紀(jì)錄!掘金險(xiǎn)勝獨(dú)行俠 穆雷53+9三分賽季新高

約基奇23+21+19創(chuàng)紀(jì)錄!掘金險(xiǎn)勝獨(dú)行俠 穆雷53+9三分賽季新高

醉臥浮生
2026-03-26 12:35:12
歐股、美股期貨全線下挫,美股芯片股、中概股盤前普跌,阿里巴巴跌超3%,原油拉升漲超3%

歐股、美股期貨全線下挫,美股芯片股、中概股盤前普跌,阿里巴巴跌超3%,原油拉升漲超3%

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-03-26 19:46:02
“我用房子貸的款卻進(jìn)了他們口袋”,佛山一男子稱遭遇套路貸;警方立案?jìng)刹椋?人被批捕后取保候?qū)?>
    </a>
        <h3>
      <a href=大風(fēng)新聞
2026-03-26 16:56:40
美媒稱美考慮將援助烏克蘭的武器轉(zhuǎn)至中東

美媒稱美考慮將援助烏克蘭的武器轉(zhuǎn)至中東

新華社
2026-03-26 20:05:17
炸屏跑圈!51歲林志玲跑馬拉松,生圖狀態(tài)封神,網(wǎng)友:滿50減30!

炸屏跑圈!51歲林志玲跑馬拉松,生圖狀態(tài)封神,網(wǎng)友:滿50減30!

馬拉松跑步健身
2026-03-26 22:09:16
于東來分享胖東來運(yùn)營(yíng)體制:管理層每年接受一次員工無記名投票,如果票數(shù)低,直接免職

于東來分享胖東來運(yùn)營(yíng)體制:管理層每年接受一次員工無記名投票,如果票數(shù)低,直接免職

瀟湘晨報(bào)
2026-03-26 20:51:31
“大概有幾十萬”,重慶一小區(qū)有人高空撒錢,物業(yè)稱撿回幾大桶,撒錢者正配合調(diào)查

“大概有幾十萬”,重慶一小區(qū)有人高空撒錢,物業(yè)稱撿回幾大桶,撒錢者正配合調(diào)查

新京報(bào)
2026-03-26 20:41:35
懟得漂亮!伊朗外長(zhǎng):既然我們連領(lǐng)導(dǎo)層都沒有了,還有什么好談的

懟得漂亮!伊朗外長(zhǎng):既然我們連領(lǐng)導(dǎo)層都沒有了,還有什么好談的

南風(fēng)不及你溫柔
2026-03-26 14:07:38
金融才女朱麗麗:一頓飯百萬,八年斂財(cái)十四億終落網(wǎng)

金融才女朱麗麗:一頓飯百萬,八年斂財(cái)十四億終落網(wǎng)

大眼妹妹
2026-03-27 01:38:29
2026-03-27 06:47:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國(guó)版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

特朗普:對(duì)伊朗能源設(shè)施空襲再推遲10天

頭條要聞

特朗普:對(duì)伊朗能源設(shè)施空襲再推遲10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

旅游
親子
本地
時(shí)尚
公開課

旅游要聞

利馬的文明對(duì)話(旅人心語)

親子要聞

要不我還是喝奶吧!

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬遍

400萬人愛過的女孩,被黃謠網(wǎng)暴180天后

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版