国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全解讀|智譜 GLM-5V-Turbo 發(fā)布,多模態(tài) Coding 基模

0
分享至

MODEL

今天,智譜發(fā)布 GLM-5V-Turbo,定位「面向視覺編程的多模態(tài) Coding 基座模型」

一句話概括:在 GLM-5-Turbo 的編程和龍蝦能力基座上,加入了原生的視覺理解和推理能力

模型能看懂設(shè)計稿、截圖、網(wǎng)頁界面,據(jù)此生成完整可運行的代碼


GLM-5V-Turbo Playground:左邊是手繪草圖,右邊是生成的完整前端頁面

從 GLM-5 到 GLM-5V-Turbo

先理一下產(chǎn)品線關(guān)系

2 月 11 日,智譜發(fā)布 GLM-5,744B 參數(shù)的開源旗艦,主打編程和 Agentic Engineering。3 月 16 日,GLM-5-Turbo 跟進,專門針對龍蝦(OpenClaw/AutoClaw)場景做了優(yōu)化,強化工具調(diào)用、指令遵循、長鏈路執(zhí)行

今天的 GLM-5V-Turbo 是這條線的第三步:在 GLM-5-Turbo 的全部能力基礎(chǔ)上,從預訓練階段就融入了視覺能力

具體多了什么:

→ 原生理解圖片、視頻、設(shè)計稿、文檔版面等多模態(tài)輸入

→ 支持畫框、截圖、讀網(wǎng)頁等多模態(tài)工具調(diào)用

→ 上下文窗口 200K

→ 與 Claude Code、OpenClaw/AutoClaw 深度適配

關(guān)鍵詞是「原生」。這里的視覺能力是從預訓練階段就開始訓的,后訓練階段再做多模態(tài)協(xié)同優(yōu)化,和在文本模型上面接一個視覺編碼器的做法不一樣

Benchmark

先看多模態(tài)相關(guān)的指標。對比對象是 Kimi K2.5 和 Claude Opus 4.6


多模態(tài) Benchmark:Multimodal Coding / Tool Use / GUI Agent

在 Design2Code、ImageMining、BrowseComp-VL、MMSearch、AndroidWorld 這幾項上,GLM-5V-Turbo 均為三者最高。Opus 4.6 在 Flame-VLM-Code(98.8)和 Vision2Web(43.5)上領(lǐng)先

再看純文本 Coding 和龍蝦任務的指標。這張表多了一列 GLM-5-Turbo(純文本版),可以看視覺能力引入后純文本能力有沒有退化


純文本 Coding 和 Claw Benchmark

CC-Backend:GLM-5V-Turbo 22.8 vs GLM-5-Turbo 20.5,視覺版反而略高

CC-Frontend:68.4 vs 69.4,基本持平

CC-Repo-Exploration:72.2 vs 68.9,視覺版略高

官方的結(jié)論是:視覺能力引入后,純文本編程與推理能力保持了同等水準。從數(shù)據(jù)看,個別項還有小幅提升。Opus 4.6 在純文本 Coding 三項上均領(lǐng)先(CC-Backend 26.9,CC-Frontend 75.9,CC-Repo-Exploration 74.4),在 PinchBench 和 ClawEval 上也占優(yōu),這個差距客觀存在

內(nèi)測合作伙伴反饋

內(nèi)測階段,字節(jié) TRAE 模型測評團隊、美團和快手萬擎模型測評團隊分別給出了評價:

GLM-5V-Turbo 實現(xiàn)了從設(shè)計稿到代碼的完整還原,作為一款視覺理解模型,能夠很好地滿足開發(fā)者的前端開發(fā)場景

TRAE 模型測評團隊

原生多模態(tài)能力的引入并未削弱其編程邏輯,其編程能力仍屬于國內(nèi)第一梯隊

美團

它為 Agent 安上了「眼睛」,同時在編程領(lǐng)域展現(xiàn)出優(yōu)于同類多模態(tài)模型的能力,在視覺編程場景中更具競爭力

快手萬擎模型測評團隊

四項技術(shù)升級

GLM-5V-Turbo 的能力來自模型架構(gòu)、訓練方法、數(shù)據(jù)構(gòu)造、工具鏈四個層面的系統(tǒng)性改動

原生多模態(tài)融合

GLM-5V-Turbo 從預訓練階段開始做文本與視覺的深度融合。智譜研發(fā)了新一代 CogViT 視覺編碼器,官方稱在通用物體識別、細粒度理解、幾何與空間感知上均達最優(yōu)。同時設(shè)計了兼容多模態(tài)輸入的 MTP(Multi-Token Prediction) 結(jié)構(gòu),在多模態(tài)場景下保持較高的推理效率

30+ 任務協(xié)同強化學習

強化學習階段同時優(yōu)化 30 多 個任務類型,覆蓋 STEM、grounding、video、GUI Agent 等子領(lǐng)域。官方稱這種多任務協(xié)同的方式有效緩解了單領(lǐng)域訓練的不穩(wěn)定性,模型在感知、推理、Agentic 執(zhí)行上均有提升

Agentic 數(shù)據(jù)與任務構(gòu)造

Agent 數(shù)據(jù)一直是行業(yè)痛點:數(shù)據(jù)稀缺,驗證困難。智譜的做法是構(gòu)建從元素感知到序列級動作預測的多層級體系,用合成環(huán)境大規(guī)模生成可控、可驗證的訓練數(shù)據(jù)

一個有意思的細節(jié):他們從預訓練階段就注入 Agentic 元能力,比如把 GUI Agent PRM 數(shù)據(jù)加入預訓練來降低幻覺

多模態(tài)工具鏈擴展

在文本工具之外,GLM-5V-Turbo 新增支持多模態(tài)搜索、畫框、截圖、讀網(wǎng)頁等多模態(tài) tools。這讓 Agent 的感知鏈路從純文本擴展到視覺交互,可以「看懂環(huán)境 → 規(guī)劃動作 → 執(zhí)行任務」形成完整閉環(huán)

典型場景

下面用實際案例展開,信息量比較大

圖像即代碼

GLM-5V-Turbo 最核心的能力場景。你可以發(fā)送草圖、設(shè)計稿、參考網(wǎng)站的截圖或錄屏,模型直接理解布局、配色、組件層級與交互邏輯,生成完整可運行的前端工程


前端復刻:發(fā)截圖或錄屏,模型還原版式、配色、動效等視覺細節(jié),生成可運行代碼


GUI 自主探索復刻:結(jié)合 Claude Code,模型自主探索目標網(wǎng)站,瀏覽頁面結(jié)構(gòu)、梳理跳轉(zhuǎn)關(guān)系、采集素材,然后直接生成代碼復現(xiàn)整個站點


交互式編輯:支持按需求增刪頁面模塊、修改文案樣式、調(diào)整布局、補充交互功能


文檔解讀與寫作

給模型一份 PDF 文檔,它讀完之后可以按照你的要求撰寫特定格式的文章


NVIDIA 10-Q 財報 → 中文財務簡報

比如把 NVIDIA 2026 財年第一季度 10-Q 表格扔給 AutoClaw,提示詞是「閱讀文檔,匯總關(guān)鍵數(shù)據(jù),撰寫一份簡報,保存到 result.md」,模型輸出了包含營收、利潤、毛利率、EPS 等關(guān)鍵數(shù)據(jù)和業(yè)務板塊分析的中文財務簡報

另一個案例是給一篇 40 頁的 GLM-5 論文 PDF,讓模型按微信公眾號風格撰寫宣傳文案。模型自動從原文中定位和截取關(guān)鍵圖表,嵌入到合適的位置,輸出圖文并茂的文章


論文 PDF → 公眾號風格圖文文案

PDF-to-WEB / PDF-to-PPT

這兩個能力做成了官方 Skill。PDF-to-WEB 是把論文或報告轉(zhuǎn)成精美的單頁學術(shù)網(wǎng)站。用 BERT 論文和 GLM-5 論文做的實測,渲染結(jié)果的完成度很高,接近手工做的學術(shù)項目主頁


PDF-to-WEB 渲染結(jié)果

PDF-to-PPT 則是把文檔轉(zhuǎn)成多頁 HTML 演示文稿。比如用阿里巴巴的近期動態(tài)做了一個 14 頁的分析 PPT,模型自主搜索了季度財報、業(yè)務板塊數(shù)據(jù)和競爭格局,配了圖表

多模態(tài) Deep Research

這里展示兩個深度調(diào)研的案例

第一個是「搜集小米汽車相關(guān)圖片,輸出圖文交錯的專題報告」。模型通過約 50 輪網(wǎng)絡(luò)搜索,從各個渠道獲取了包括新一代 SU7、YU7/YU7 GT、YU9 等車型的圖片和產(chǎn)線、工廠照片,輸出了一份結(jié)構(gòu)化分析報告


小米汽車 Deep Research 報告

第二個是「結(jié)合阿里巴巴的近期動態(tài)和季度財報,仿照麥肯錫風格,生成專業(yè) PPT」。模型同樣自主完成了信息搜集、數(shù)據(jù)整理和可視化呈現(xiàn)


阿里巴巴麥肯錫風格 PPT

視覺 Grounding

模型能在圖片中精準定位目標物體。幾個有意思的例子:

數(shù)手指:給一張手部 X 光片,讓模型用坐標標出所有手指的位置。模型準確識別并標注了 6 個手指(包括左右兩側(cè)拇指和中間 4 個手指)


多模態(tài)搜索 + 識別:給了一張 1927 年第五屆索爾維會議的合影照片,提示詞是「框出圖中全部人物以及他們的名字」。模型成功識別并框出了全部 29 位人物,從第三排的奧古斯特·皮卡爾德到第一排的愛因斯坦


索爾維會議 29 人全部識別并框出

空間推理

模型在空間理解上的能力可以和具身機器人結(jié)合。一個實測案例是一張廚房場景照片,提示詞是「我想切火腿腸,請問我的手應該操作哪個位置?請在圖中點出對應的位置」。模型標注出了菜刀刀柄的位置,并給出了操作指導


空間推理 - 標注菜刀刀柄位置

為龍蝦裝上眼睛

接入 GLM-5V-Turbo 之后,龍蝦(AutoClaw/OpenClaw)的任務邊界大幅拓寬。以前只能處理純文本任務,現(xiàn)在可以瀏覽網(wǎng)頁和文檔、生成圖文并茂的報告和 PPT、查詢并解讀 K 線圖

官方已上線「股票分析師」Skill,利用視覺能力讓龍蝦直接看懂 K 線走勢、估值區(qū)間圖和券商研報圖表,四路數(shù)據(jù)源 60 秒并行采集,輸出圖文交錯的研報

14 個官方 Skills

智譜為 GLM-5V-Turbo 準備了 14 個官方 Skills,分三類

基于主模型原生能力(4 個)

PDF-to-WEB:論文/報告轉(zhuǎn)單頁學術(shù)網(wǎng)站

PDF-to-PPT:文檔轉(zhuǎn)多頁 HTML 演示文稿

Web-Replication:給 URL,模型自主探索并復刻整個網(wǎng)站

PRD-to-App:產(chǎn)品需求文檔 + 原型圖轉(zhuǎn)全棧 Web 應用

作為外部工具調(diào)用(5 個)

圖像 Captioning:自動分析圖像內(nèi)容,生成自然語言描述

視覺 Grounding:根據(jù)文字描述在圖像中精準定位目標

基于文檔的寫作:讀文檔、提關(guān)鍵信息、生成特定格式文本

簡歷篩選:讀簡歷,和職位要求智能比對

提示詞生成:根據(jù)參考圖/視頻,自動構(gòu)建文生圖/視頻的 Prompt

基于專用模型 GLM-OCR / GLM-Image(5 個)

通用文字識別:印刷體、手寫體、多語言文本

表格識別:還原行列結(jié)構(gòu)和合并單元格

手寫體識別:適應連筆、潦草等復雜書寫

公式識別:復雜公式轉(zhuǎn) LaTeX

文生圖:自然語言生成圖像

全部 Skills 已上線 ClawHub:一鍵安裝

GitHub:zai-org/GLM-skills

接入方式 產(chǎn)品體驗

→ AutoClaw(澳龍):autoglm.zhipuai.cn/autoclaw

→ Z.ai:chat.z.ai


z.ai

API 接入

→ BigModel 開放平臺:docs.bigmodel.cn

→ Z.ai:docs.z.ai


https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo

Claude Code

~/.claude/settings.json 中配置:

ANTHROPIC_BASE_URL 設(shè)為 https://open.bigmodel.cn/api/anthropic

→ 模型 ID 填 glm-5v-turbo

或在會話中直接 /model glm-5v-turbo 切換

AutoClaw / OpenClaw 接入

設(shè)置里添加自定義模型:

→ 服務商選「智譜」

→ 模型 ID 填 glm-5v-turbo

→ Base URL 填 https://open.bigmodel.cn/api/paas/v4

→ 填入 API Key 即可

Coding Plan:現(xiàn)面向 Coding Plan 用戶開放申請,后續(xù) GLM Coding Plan 也會納入 GLM-5V-Turbo

申請問卷:zhipu-ai.feishu.cn/share/base/form/shrcn...

GLM-5,2 月 11 日

GLM-5-Turbo,3 月 16 日

GLM-5V-Turbo,4 月 2 日

大約每兩到三周一個版本。這次補上的是視覺能力,龍蝦和 Claude Code 的感知鏈路從純文本擴展到了視覺交互

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
玉淵譚天:特殊時刻,兩部反制新規(guī)全方位保護中國海外利益

玉淵譚天:特殊時刻,兩部反制新規(guī)全方位保護中國海外利益

環(huán)球網(wǎng)資訊
2026-04-18 11:58:06
已經(jīng)打了2200枚,中國的中近程彈道導彈,竟然還不如伊朗多?

已經(jīng)打了2200枚,中國的中近程彈道導彈,竟然還不如伊朗多?

阿龍聊軍事
2026-04-17 22:20:43
上線第一!《鬼吹燈》新電影來了!張涵予、姜武領(lǐng)銜,不火不行了

上線第一!《鬼吹燈》新電影來了!張涵予、姜武領(lǐng)銜,不火不行了

草本紀年
2026-04-18 19:26:46
“鬼城”又添一座!房價2萬暴跌到4千,住戶:晚上開燈才可怕!

“鬼城”又添一座!房價2萬暴跌到4千,住戶:晚上開燈才可怕!

貓叔東山再起
2026-04-18 11:10:10
48歲田蕊妮癌癥復發(fā),心情沉痛難以接受,持續(xù)低燒宣布停工治病

48歲田蕊妮癌癥復發(fā),心情沉痛難以接受,持續(xù)低燒宣布停工治病

開開森森
2026-04-18 07:02:40
賀希寧封神一夜!深圳坐穩(wěn)前3 北京反超廣東,季后賽首輪對陣明朗

賀希寧封神一夜!深圳坐穩(wěn)前3 北京反超廣東,季后賽首輪對陣明朗

后仰大風車
2026-04-17 22:51:18
賴清德最怕的人出現(xiàn)!支持率62.6%碾壓43.9%,蔣萬安要選2028?

賴清德最怕的人出現(xiàn)!支持率62.6%碾壓43.9%,蔣萬安要選2028?

愛看劇的阿峰
2026-04-18 15:47:43
央視調(diào)查暗黑動漫正侵蝕青少年:多平臺公然傳播被禁多年的《東京食尸鬼》,內(nèi)容充斥絕望與暴力,偽裝成0.3元可買的資源或超長風光片

央視調(diào)查暗黑動漫正侵蝕青少年:多平臺公然傳播被禁多年的《東京食尸鬼》,內(nèi)容充斥絕望與暴力,偽裝成0.3元可買的資源或超長風光片

極目新聞
2026-04-17 14:26:49
伊能靜長文控訴!十年沒二人世界,她抑郁是秦昊缺位還是自作自受

伊能靜長文控訴!十年沒二人世界,她抑郁是秦昊缺位還是自作自受

郭蛹包工頭
2026-04-17 14:14:44
在上海生活的毛劍卿,銀行負責人妻子很漂亮,如今已是助理教練

在上海生活的毛劍卿,銀行負責人妻子很漂亮,如今已是助理教練

米果說識
2026-04-13 14:33:48
伊朗一仗點醒普京,俄羅斯或不再是世界大國,中國不是第二強?

伊朗一仗點醒普京,俄羅斯或不再是世界大國,中國不是第二強?

阿雹娛樂
2026-04-16 07:46:23
廢掉一個人最快的方法:讓他學滿一肚子“無用的文化”

廢掉一個人最快的方法:讓他學滿一肚子“無用的文化”

青蘋果sht
2026-04-16 05:33:08
長公主給老公養(yǎng)情人求子

長公主給老公養(yǎng)情人求子

毒舌扒姨太
2026-04-17 22:46:32
鄭麗文和家人的一張合影,時間是1971年,地點是眷村。

鄭麗文和家人的一張合影,時間是1971年,地點是眷村。

葉老四
2026-04-15 09:44:36
鄭麗文心都定了,上海的吸引力在哪里?

鄭麗文心都定了,上海的吸引力在哪里?

新民晚報
2026-04-18 09:48:38
伊萬卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會禿嚕了皮呢?

伊萬卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會禿嚕了皮呢?

一口娛樂
2026-04-18 13:00:29
湘南民宅翻修驚現(xiàn)毛主席80年前舊照,專家鑒定彌足珍貴可補史遺缺

湘南民宅翻修驚現(xiàn)毛主席80年前舊照,專家鑒定彌足珍貴可補史遺缺

云霄紀史觀
2026-04-14 02:08:48
岸田文雄出山!當著30國的面,對國民發(fā)出呼吁:日本不能重演悲劇

岸田文雄出山!當著30國的面,對國民發(fā)出呼吁:日本不能重演悲劇

標體
2026-04-18 13:35:56
市場上這5種魚,目前無法人工養(yǎng)殖,都是野生魚,肉厚刺少營養(yǎng)高

市場上這5種魚,目前無法人工養(yǎng)殖,都是野生魚,肉厚刺少營養(yǎng)高

秀廚娘
2026-04-15 10:25:17
688270,將被ST!下周一停牌

688270,將被ST!下周一停牌

證券時報e公司
2026-04-18 11:31:13
2026-04-18 22:55:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
389文章數(shù) 50關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

小車在高速上跑100碼 車主突然接到電話"你車輪沒了"

頭條要聞

小車在高速上跑100碼 車主突然接到電話"你車輪沒了"

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應潘宏彬去世,拒談喪禮細節(jié)

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

數(shù)碼
本地
手機
公開課
軍事航空

數(shù)碼要聞

AMD銳龍9 9950X3D2英國定價799英鎊!幾乎全球最高

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

手機要聞

華為蘋果爭第一,手機TOP5排名來了

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

解放軍護衛(wèi)艦與外艦纏斗20小時 細節(jié)披露

無障礙瀏覽 進入關(guān)懷版