国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

丟張圖就能復(fù)刻:GLM-5V-Turbo視覺Coding實測

0
分享至

用龍蝦干活的朋友應(yīng)該都遇到過這種情況:你想分享一張截圖讓它幫你分析,或者發(fā)張設(shè)計稿讓它參考著寫代碼,結(jié)果發(fā)現(xiàn)——它是個瞎子。

你只能用文字把圖片或者你腦子里想呈現(xiàn)的東西描述一遍。「左邊有個藍(lán)色卡片,右邊是柱狀圖,標(biāo)題用的粗體白字...」寫了半天,它理解的和你看到的還是兩回事。

智譜剛發(fā)布了GLM-5V-Turbo。和之前的GLM-5-Turbo最大的區(qū)別就一個字:能看了。

而且挺有趣的是,5V-Turbo定位不是一個獨立的視覺理解模型,而是Agent基座(我知道這個表達(dá)很有AI感,但我真特么是手寫的)??赐瓴皇悄康?,動手才是??炊貓D之后能調(diào)用工具、寫代碼、執(zhí)行、驗證結(jié)果,整個鏈路跑通。

我之前一直在用GLM系列模型做Claude Code的主替模型之一。glm-4.7的時候就覺得還挺不錯,能連續(xù)執(zhí)行一個小時以上的任務(wù),管理多個子agent批量執(zhí)行也沒問題。但純文本模型始終有個繞不過去的短板:遇到需要「看」的任務(wù)就抓瞎。這次5V加了原生視覺能力,我第一時間想試試它在實際Agent工作流里到底能補上多少。

Benchmark:看不懂?讓5V-Turbo幫你重新設(shè)計

說實話,現(xiàn)在各家發(fā)的Benchmark表我已經(jīng)越來越看不懂了。Design2Code、BrowseComp-VL、ClawEval Pass3,這些到底在衡量什么?二十行數(shù)字看完也不知道該得出什么結(jié)論。

正好拿來當(dāng)?shù)谝粋€測試。把官方的兩張Benchmark截圖直接扔給AutoClaw里的5V-Turbo:



幫我用經(jīng)濟(jì)學(xué)人風(fēng)格去重構(gòu)這兩張圖表的設(shè)計。視覺設(shè)計上更符合我的風(fēng)格和審美;給圖表加上標(biāo)題;交互式圖表;左側(cè)很多指標(biāo)不太好理解,每行加一句話解釋幫助普通用戶理解;最最最重要的,讀取和復(fù)刻出來的圖表數(shù)據(jù)一定要100%準(zhǔn)確。


19個指標(biāo)、3-4個模型、超過60個數(shù)值,5V-Turbo全部讀對了。數(shù)據(jù)我逐個核對過,零錯誤。

更有意思的是它自己提煉的結(jié)論:「看圖的事,交給GLM-5V;寫代碼的事,Claude仍是標(biāo)桿。」


12/19的最佳成績屬于5V-Turbo(多模態(tài)+ToolUse為主),9/19屬于Claude Opus 4.6(代碼+Agent為主)。

然后是四組可視化。終于能看懂每個指標(biāo)在說什么了:

視覺理解全面領(lǐng)先。雷達(dá)圖里5V-Turbo的紅色輪廓幾乎包住了其他兩個模型。Design2Code 94.8(網(wǎng)頁截圖→前端代碼)、BrowseComp-VL 51.9(視覺網(wǎng)頁瀏覽與操作)、V* 89.0(綜合視覺理解)。

桌面不如人,手機遙遙領(lǐng)先。GUI Agent三個平臺的結(jié)果挺有意思:OSWorld(macOS桌面)三家接近,Claude 72.2略勝;AndroidWorld(手機App操控)5V-Turbo 75.7,領(lǐng)先Kimi 32個百分點;WebVoyager(瀏覽器導(dǎo)航)88.5,也是最高。

純代碼:Claude的地盤,但差距不大。后端、前端、代碼庫探索三項Claude都領(lǐng)先,5V-Turbo和純文本版GLM-5-Turbo基本持平。美團(tuán)內(nèi)測說「原生多模態(tài)能力的引入并未削弱其編程邏輯」,我自己測下來也是這個感受。Agent編程:差距最大的戰(zhàn)場。PinchBench(多輪編輯代碼)、ClawEval(三次嘗試內(nèi)通過率)、ZClawBench(智譜自研綜合基準(zhǔn)),Claude Opus 4.6每項都是最高分,5V-Turbo排第二。

最后兩張數(shù)據(jù)表,每個指標(biāo)帶一句話中文解釋。Design2Code下面寫著「網(wǎng)頁截圖→前端代碼」,ClawEval Pass3下面寫著「三次嘗試內(nèi)通過率」。這種處理對普通讀者友好多了。


代碼與Agent編程數(shù)據(jù)


接入教程

三種接入方式,都不復(fù)雜。

AutoClaw(智譜出品的澳龍)

最簡單的方式。AutoClaw已經(jīng)內(nèi)置了GLM-5V-Turbo,在底部模型選擇器里直接切換就行,消耗AutoClaw積分即可使用,不需要額外配置API。

如果你想用自己的API key(比如有獨立的智譜賬號額度),也可以走自定義模型:設(shè)置 → 模型與API → 添加自定義模型,服務(wù)商選智譜,模型ID填 glm-5v-turbo,Base URL填:https://open.bigmodel.cn/api/paas/v4


OpenClaw

配置方式類似AutoClaw的自定義模型接入,其實我很建議你直接把官方接入文檔丟給Claude Code或者龍蝦,讓他們自己搞定。 GLM-5V-Turbo官方接入文檔:https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo

Claude Code

在 ~/.claude/settings.json 里配置:

{
"env": {
"ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-5v-turbo",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-5v-turbo",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5v-turbo",
"ANTHROPIC_AUTH_TOKEN": "你的智譜API Key",
"ANTHROPIC_BASE_URL": "https://open.bigmodel.cn/api/anthropic",
"API_TIMEOUT_MS": "3000000",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": 1
}
}

重啟命令行窗口,輸入/status確認(rèn)模型切換成功。也可以在對話中用/model glm-5v-turbo臨時切換。

PPT截圖復(fù)刻

最直觀的場景:給5V-Turbo一張PPT截圖,讓它直接輸出HTML代碼復(fù)刻。

我用了一張「AI Agent 2026趨勢報告」的幻燈片做測試,深色背景、左側(cè)標(biāo)題加三個要點、右側(cè)柱狀圖表,很典型的商務(wù)PPT風(fēng)格。

分析這張PPT的設(shè)計,輸出HTML代碼復(fù)刻它。


它不光把整體布局還原了(左文右圖、深色背景、紅色強調(diào)色),連圖表里的柱狀圖顏色漸變方向都對了。文字層級也清晰:左上角的小標(biāo)簽、大標(biāo)題、三個帶編號的要點、底部品牌名,位置和大小基本一致。OCR零錯誤,所有數(shù)字、中英文、標(biāo)點都識別對了。

這個場景很實用。你看到一個好看的PPT模板,想用類似的風(fēng)格但不想從零做。截個圖扔給5V-Turbo,輸出HTML版本,在這個基礎(chǔ)上改內(nèi)容就行。

封面風(fēng)格遷移

作為B站UP主,我經(jīng)常需要設(shè)計視頻封面。以前想?yún)⒖紕e人的封面風(fēng)格,只能靠肉眼看、憑感覺模仿。

5V-Turbo能做的不只是「描述一下」,它能把視覺分析直接變成AI生圖的prompt。

我拿了一張B站科技區(qū)常見的封面做測試:


暗黑代碼背景、大字標(biāo)題配描邊、右下角chibi角色。讓5V-Turbo分析設(shè)計要素,提取出配色方案、字體風(fēng)格、構(gòu)圖比例、角色特征,然后我基于這些參數(shù)寫了一段中文prompt給AI生圖,內(nèi)容改成「GLM-5V 視覺革命」,角色換成戴眼鏡的男生:


暗色代碼背景的bokeh光效、白→藍(lán)漸變英文標(biāo)題、金黃色描邊中文「視覺革命」、紫發(fā)戴圓框眼鏡的chibi角色雙手捧臉的驚訝表情。文字零錯誤,風(fēng)格幾乎1:1還原

5V-Turbo在這個鏈路里扮演的角色算是設(shè)計翻譯官:它把一張圖片里的視覺信息拆解成了可描述的參數(shù),讓你不需要懂設(shè)計也能精確地告訴生圖模型你要什么。

財報?;鶊D批量復(fù)刻

前面兩個場景是單張圖。這次來個更有挑戰(zhàn)性的:一整份PDF文檔里的復(fù)雜圖表

我從莊明浩老師那找了一份App Economy Insights出品的「How They Make Money」。40多MB的PDF,62頁,里面全是各大公司的財報桑基圖(Sankey diagram)。這種圖的信息密度很高:一張里面20+個數(shù)據(jù)節(jié)點,包含金額、同比變化、利潤率、占營收比例,左邊業(yè)務(wù)板塊匯入總營收,右邊分流到毛利潤、成本、運營費用、凈利潤。

我直接把整個PDF扔給AutoClaw里的5V-Turbo,就一句話:

幫我去讀取并且復(fù)刻下這個PDF中耐克那一頁的財報頁面,我們把主要內(nèi)容翻譯成中文,樣式盡量維持和原來的一致

注意這個任務(wù)的難度:一個40MB、62頁的PDF,我沒告訴它耐克在第幾頁,也沒截圖,就給了個文件讓它自己找。

接下來的過程挺能體現(xiàn)Agent能力的。5V-Turbo發(fā)現(xiàn)PDF有40多MB超過了工具限制,就自動換了命令行工具處理;然后它開始逐頁翻閱62頁PDF尋找耐克的那一頁,從第34頁一路翻到第52頁沒找到,又折回去最終在第7頁定位到了;提取高清圖片后讀取所有數(shù)據(jù),最后生成了完整的HTML復(fù)刻。


整個過程我沒有做任何干預(yù),它自己處理了「文件太大→換工具」「找不到→繼續(xù)翻」這些中間問題。這就是Agent基座和普通視覺模型的區(qū)別:不只是看懂,還能在遇到障礙時自主調(diào)整策略。


GLM-5v-turbo復(fù)刻的版本


復(fù)刻程度談不上100%,但想想它做了什么:從一個40MB、62頁的PDF里自己翻到目標(biāo)頁面,看懂一張包含20多個數(shù)據(jù)節(jié)點的復(fù)雜桑基圖,把所有數(shù)據(jù)提取出來,然后生成一個完整的HTML頁面還原了圖表結(jié)構(gòu)和樣式。輸出的HTML直接用瀏覽器打開就能看到效果,每個數(shù)字都可編輯。

我覺得至少以后讀論文之類的,英文圖表都完全可以讓龍蝦先去中文化一波,會比你直接用翻譯API強不少。

5V-Turbo還配了一組官方Skills:PDF-to-WEB、PDF-to-PPT、Web-Replication、PRD-to-App,都是需要模型看懂視覺內(nèi)容然后輸出代碼的場景,感興趣的可以去 ClawHub 搜索下載。 GLM官方Skills合集:https://clawhub.ai/jaredforreal/glm-master-skill

說回來,5V-Turbo值不值得切換?

如果你在用龍蝦,而且工作流里有「看圖→寫代碼」的需求,我覺得非常值得。之前遇到需要看的場景只能靠文字描述或者外掛OCR,現(xiàn)在模型原生就能看懂,省掉了中間環(huán)節(jié)。

它最適合兩類任務(wù):多模態(tài)Coding(發(fā)截圖/設(shè)計稿直接輸出前端代碼)和視覺Agent(龍蝦看懂界面后自主操作)。本質(zhì)上就是給你的AI Agent裝了一雙眼睛。

接入方式:智譜開放平臺、Z.ai、Coding Plan均可使用。AutoClaw直接內(nèi)置了,OpenClaw和Claude Code改一下配置就行,前面有詳細(xì)教程。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
我沒有退休金,搭伙老伴每月給我存8000元,13年后老伴兒子找到我

我沒有退休金,搭伙老伴每月給我存8000元,13年后老伴兒子找到我

第四思維
2025-07-08 13:22:18
特朗普女婿被查,61億資產(chǎn)99%來自外國,特朗普:中國會感謝我

特朗普女婿被查,61億資產(chǎn)99%來自外國,特朗普:中國會感謝我

趣文說娛
2026-04-20 19:30:36
不辭職就開除!特朗普徹底攤牌:必須卷鋪蓋走人,鮑威爾退無可退

不辭職就開除!特朗普徹底攤牌:必須卷鋪蓋走人,鮑威爾退無可退

小先生筆記
2026-04-20 17:28:25
深大一口氣停招26個專業(yè),這些“坑”你還在踩嗎?

深大一口氣停招26個專業(yè),這些“坑”你還在踩嗎?

牛鍋巴小釩
2026-04-17 13:18:03
100 日元兌 4.33 元:日本用三十年,把自己熬成了 “廉價國家”

100 日元兌 4.33 元:日本用三十年,把自己熬成了 “廉價國家”

深析古今
2026-03-31 10:10:57
大風(fēng)突襲,山東一飯店老板霸氣喊話“不用結(jié)賬,直接回家”!老板娘:損失兩三千,不心疼錢,只想讓顧客安全到家

大風(fēng)突襲,山東一飯店老板霸氣喊話“不用結(jié)賬,直接回家”!老板娘:損失兩三千,不心疼錢,只想讓顧客安全到家

大象新聞
2026-04-20 17:43:06
外媒:特多一墓地驚現(xiàn)數(shù)十具被丟棄遺骸

外媒:特多一墓地驚現(xiàn)數(shù)十具被丟棄遺骸

參考消息
2026-04-20 21:04:06
54歲黎姿海灘照曝光!三個孩子的媽?網(wǎng)友:確定不是AI換臉?

54歲黎姿海灘照曝光!三個孩子的媽?網(wǎng)友:確定不是AI換臉?

今古深日報
2026-04-20 10:16:38
紐約期金突破4840美元/盎司

紐約期金突破4840美元/盎司

每日經(jīng)濟(jì)新聞
2026-04-20 20:32:11
把瑜伽褲穿成日常的松弛感美女

把瑜伽褲穿成日常的松弛感美女

只要高興就好
2026-04-13 14:30:30
首發(fā)26分鐘7中1,得分沒有犯規(guī)多,頂薪先生被杜鋒用成拖油瓶?

首發(fā)26分鐘7中1,得分沒有犯規(guī)多,頂薪先生被杜鋒用成拖油瓶?

弄月公子
2026-04-20 22:45:46
王毅通告全世界,53國獲零關(guān)稅特權(quán),唯獨一國沒得到,中方選邊站

王毅通告全世界,53國獲零關(guān)稅特權(quán),唯獨一國沒得到,中方選邊站

觸摸史跡
2026-04-20 03:39:03
國際奧委會:滬蓉廣均不申辦2036奧運令人失望

國際奧委會:滬蓉廣均不申辦2036奧運令人失望

觀察者小海風(fēng)
2026-04-20 16:34:35
離婚1年,黃圣依最新近況曝光:在瑞士留學(xué),和此前狀態(tài)差距太大

離婚1年,黃圣依最新近況曝光:在瑞士留學(xué),和此前狀態(tài)差距太大

喜歡歷史的阿繁
2026-04-21 00:07:25
新疆油氣資源潛力巨大:或超越中東,新疆油氣新篇章即將開啟

新疆油氣資源潛力巨大:或超越中東,新疆油氣新篇章即將開啟

叮當(dāng)當(dāng)科技
2026-04-20 18:13:19
藍(lán)眼北京人控訴陳麗華20余年,比女首富更該銘記

藍(lán)眼北京人控訴陳麗華20余年,比女首富更該銘記

老蝣說體育
2026-04-19 17:40:22
特朗普開始妥協(xié)不打伊朗,轉(zhuǎn)身甩鍋中國,10國發(fā)布聲明打臉美國

特朗普開始妥協(xié)不打伊朗,轉(zhuǎn)身甩鍋中國,10國發(fā)布聲明打臉美國

世界有奇事
2026-04-20 22:26:00
巴西手握2100萬噸稀土,對中國立新規(guī):想要礦,得拿核心技術(shù)來換

巴西手握2100萬噸稀土,對中國立新規(guī):想要礦,得拿核心技術(shù)來換

霽寒飄雪
2026-04-20 14:44:41
052D穿過日本橫當(dāng)水道!這步棋有多狠?

052D穿過日本橫當(dāng)水道!這步棋有多狠?

牲產(chǎn)隊
2026-04-20 22:21:15
首輪G1打完,這5隊最有冠軍相!火箭隊最被高估,這3隊基本出局

首輪G1打完,這5隊最有冠軍相!火箭隊最被高估,這3隊基本出局

籃球掃地僧
2026-04-20 21:22:45
2026-04-21 01:07:00
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發(fā)者
188文章數(shù) 111關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

家居
時尚
手機
本地
教育

家居要聞

自然慢調(diào) 慢享時光

春天衣服不用準(zhǔn)備太多!這幾大單品提前備好,百搭實用又不過時

手機要聞

Find X9 Ultra打造專業(yè)生態(tài) 口袋中的電影創(chuàng)作神器

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

教育要聞

學(xué)不會也算違紀(jì)?云南一高中生遭勸退,另一位家長的選擇太清醒!

無障礙瀏覽 進(jìn)入關(guān)懷版