国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

智譜放大招!實測GLM-4.6V,它也太會“看圖做事”了

0
分享至

這篇文章,由AI一鍵直出??

今天,智譜發(fā)布并開源了GLM-4.6V多模態(tài)模型,一個是向云端服務的106B基礎(chǔ)版,一個是面向本地部署的9B輕量版。

模型下載:

https://huggingface.co/collections/zai-org/glm-46v

API調(diào)用平臺:

https://www.bigmodel.cn

MCP調(diào)用入口:

https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server

開頭這篇文章,便是由GLM-4.6V-106B直接生成。

可以看到,GLM-4.6V除了在視覺理解上能夠“看懂”多模態(tài)內(nèi)容外,還具備工具調(diào)用能力(Function Call)能夠直接做“執(zhí)行”。

官方說,這是一個原生具備多模態(tài)工具調(diào)用能力的模型。比如,可以處理圖文混排、識圖購物、導購以及各種Agent場景的復雜視覺任務。

省流:感知→理解→執(zhí)行,都在一個推理鏈里完成,無需外部工程化。


一手實測

我知道,這么說,你可能還是沒懂。下面,我們來看點實際的。

打開Z.ai,選擇模型“GLM-4.6V”,根據(jù)任務需要選擇合適的工具,開啟“深度思考”,進行體驗。


這里,簡單分享幾點技巧:

  • ①建議所有場景都開啟深度思考,除非是明確的簡單行為,比如OCR識別。

  • ②不需要把所有工具都勾選,建議根據(jù)自己的任務情況來選擇。比如coding任務,它不太需要圖像處理、圖像搜索和購物搜索,那就把4個工具都關(guān)掉。

  • 如果不知道自己需要什么樣的工具,可以點下方的膠囊入口


  • 這里內(nèi)置了6個場景:識圖搜圖、圖文掃描、文檔解讀、視頻理解、商品比價和數(shù)理解題。

1)復刻網(wǎng)頁

我們先來復刻一個網(wǎng)頁,比如復刻抖音電腦版。

請給我這個網(wǎng)頁截圖的HTML Code,如果網(wǎng)頁包含圖片素材,一定要給我圖片,不要用Placeholder替代。


這是成品,跟抖音網(wǎng)頁版幾乎一模一樣。


復刻小紅書。


提示詞:復刻這個網(wǎng)頁。如果網(wǎng)頁包含圖片素材,請聯(lián)網(wǎng)搜索與內(nèi)容適配的圖片進行替代,不要使用占位圖。

復刻OpenAI News。


提示詞:請給我這個網(wǎng)頁截圖的HTML Code,如果網(wǎng)頁包含圖片素材,一定要給我圖片,不要用Placeholder替代。

個人體驗來看,GLM-4.6V的前端能力離Gemini 3 Pro還差了那么一點。但話又說回來,又有誰的前端能力能比得過Gemini 3呢?

不同的是,GLM-4.6V的前端復刻支持多輪視覺交互修改,可以在生成的網(wǎng)頁截圖上框選區(qū)域進行修改,比如“把這個按鈕向左移一點,顏色改為橘紅色”。

案例來自官方視頻

2)文檔解讀+寫作

之前,很多模型一直解決不了的圖文同時輸出能力,GLM-4.6V這次做到了。

比如,我們拿一份Transformer論文給它,然后輸入提示詞:

根據(jù)附件論文,寫一篇圖文并茂的微信公眾號文章來介紹這篇論文,語言要通俗易懂、生動有趣,盡量讓小學生也能聽懂。使用圖文并茂的markdown格式輸出。

然后,就得到了一篇圖文并茂的公眾號文章。

(可上下滑動,查看全圖)

所有配圖都來自論文中的真實架構(gòu)圖和圖表,不是生圖,也不是聯(lián)網(wǎng)找圖。而是模型自己定位內(nèi)容所在的頁面和區(qū)域,然后調(diào)用工具進行截圖和嵌入,輸出圖文并茂的文章。

從對信息的理解,到工具的調(diào)用,到內(nèi)容的生成,均由GLM-4.6V在同一推理鏈路內(nèi)完成。

在我見過的VLM模型中,GLM-4.6V應該是第一個做到的,非常牛逼。

它的場景非常豐富,特別是對于我這樣還在堅持圖文創(chuàng)作的博主來說,非常受用。

比如,我們可以讓它對比論文。

提示詞:根據(jù)這兩篇論文的圖表,對比一下Transformer 和 ViT 模型的差異,并思考和闡述下一步改進 ViT 模型的思路。

(可上下滑動,查看全圖)

又比如,讓它直接搜索《瘋狂動物城2》,生成一篇圖文并茂的影評文章。

(可上下滑動,查看全圖)

3)商品比價

最近,為了更快的vibe working,特地買了一個麥克風接電腦上,可以更快的口噴文章、口噴代碼需求。


正好,讓GLM-4.6V幫我比下價,查下大家的評價。

(可上下滑動,查看全圖)

這信息找的,還挺準的。感覺,我以后都不用逛購物平臺了,直接問它就行。

4)識別疑難雜字

豆瓣上有個小組,叫「史上寫字最爛小組」,里面的字個個奇葩,但又個個真實。

畢竟,這世上能寫出好看、齊整字的人,本就鳳毛麟角。相反,那些寫出爛字、疑難雜字的人,才是更普遍的大多數(shù)。

比如,這位爺爺在ICU留下的字,就直接把我干沉默了。


沉默的原因在于,一是我也猜不出這是什么字,二是問了GLM-4.6V也不行,遺憾未能幫到這位朋友。

但這些字,對于GLM-4.6V來說,就小菜一碟了。

比如這個,如果我沒有背過“君不見”這幾個字,我還真不知道他在說什么。


發(fā)給GLM-4.6V,一下子把全文寫出來了。


看到這,我相信你可能也有和我一樣的疑問:是不是因為模型背過這首詩?所以能秒懂。

于是,我又換了張圖。說實話,我根本不懂他想表達什么。


發(fā)給GLM-4.6V后,這下終于懂了。


5)地圖推理

這是我11月去北京在大聰明的酒吧拍的。


問GLM-4.6V,輕松推導出是在北京中關(guān)村創(chuàng)業(yè)大街。


這是我10月去昆明拍的。


它也能輕松推理出是昆明老街,完全正確。


提示詞:你正在參加一場地圖推理游戲,附件的圖片是我11某個早晨在飛機上拍攝的,請盡可能地推導出圖片所在的位置,我要具體的、詳細的位置,比如某某路或者某某街區(qū)。

6)圖片反推

這是來自沃垠AI群里的一張圖片,用戶用NBP生成的,拿來上課非常好使。


我試著用GLM-4.6V反推了一下提示詞。


得到提示詞:

Traditional Chinese ink - wash style educational infographic titled "Water Journey: Chinese Vocabulary Memory Aid", illustrating the water radical (氵) through nature. Features a flowing river (江, Jiāng - River), river (河, Hé - River), lake (湖, Hú - Lake), ocean (海, Hǎi - Ocean), and swim (泳, Yǒng - Swim) with Chinese characters, pinyin, and English translations. Includes mountains, pine trees, waterfalls, clouds, small boats, and swimmers. Soft pastel color palette with beige background, blue water, earthy mountain tones. Composition shows water flow from river to lake to ocean, with arrows indicating direction. Detailed landscape with traditional Chinese artistic elements, suitable for language learning.

中文:傳統(tǒng)中國水墨風格教育信息圖,標題為“Water Journey: Chinese Vocabulary Memory Aid”(《水之旅:中文詞匯記憶輔助》),通過自然展示水部首(氵)。畫面包含流動的江(江,Jiāng - River)、河(河,Hé - River)、湖(湖,Hú - Lake)、海(海,Hǎi - Ocean)和游泳(泳,Yǒng - Swim),配有漢字、拼音和英文翻譯。包含山脈、松樹、瀑布、云朵、小船和游泳者。柔和的 pastel 色彩,米色背景,藍色水域,土色調(diào)的山脈。構(gòu)圖展示水流從河流到湖泊再到海洋,箭頭指示方向。細節(jié)豐富的景觀,具有傳統(tǒng)中國藝術(shù)元素,適合語言學習。

發(fā)到即夢上,沒想到直接就生成了類似的圖。


以后,用GLM-4.6V做反推真的太容易了。

7)視頻理解

我把GLM-4.6V官方介紹視頻里的多個功能,用3倍速剪在了一塊。

發(fā)給GLM-4.6V問:這支視頻講了什么?


GLM-4.6V的回答還是挺準的,而且精確定位到了幀數(shù)。


從個人實測來看,GML-4.6V的工具調(diào)用能力(Function Call)非常出色,而且是原生就支持。

做到了「圖像即參數(shù),結(jié)果即上下文」。

雖然在一些能力上(比如寫作、前端)還達不到頂尖,這需要更強力的基模,但這一手工具調(diào)用能力就已經(jīng)是很多VLM不能比的了。

所以,這是一個天然適合做Agentic基座的模型,可以為真實業(yè)務場景賦能。

自GLM-4.6以來,我們看到,智譜正在開發(fā)者生態(tài)爆發(fā)相當大的潛力。

今天,又一個強力VLM模型來襲,而且已經(jīng)加入智譜Coding Plan

而這,只是智譜開源周的Day 1。

說實話,有點期待接下來的幾天了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
華晨宇撫仙湖演唱會緊急延期,20層樓舞臺拆了,但他操作讓我哭

華晨宇撫仙湖演唱會緊急延期,20層樓舞臺拆了,但他操作讓我哭

一個小豹子
2026-04-23 14:11:52
王會民,非法收受他人財物,數(shù)額特別巨大

王會民,非法收受他人財物,數(shù)額特別巨大

新京報
2026-04-23 10:21:20
直播現(xiàn)場怒罵CEO五分鐘!提詞器都沒這段,高管臉都綠了

直播現(xiàn)場怒罵CEO五分鐘!提詞器都沒這段,高管臉都綠了

不寫散文詩
2026-04-23 19:08:22
馬筱梅與婆家切割成立公司,和玥箖劃界限,張?zhí)m后悔也來不及了

馬筱梅與婆家切割成立公司,和玥箖劃界限,張?zhí)m后悔也來不及了

魔都姐姐雜談
2026-04-23 18:50:33
王維當選蘇州市市長

王維當選蘇州市市長

揚子晚報
2026-04-23 15:36:35
阿里納斯:詹姆斯是最有統(tǒng)治力的老將,這數(shù)據(jù)99%球員都是頂薪

阿里納斯:詹姆斯是最有統(tǒng)治力的老將,這數(shù)據(jù)99%球員都是頂薪

懂球帝
2026-04-23 23:24:51
臺當局猛然發(fā)現(xiàn),賴清德或許再也不能離臺了,美上將給他出一主意

臺當局猛然發(fā)現(xiàn),賴清德或許再也不能離臺了,美上將給他出一主意

今墨緣
2026-04-24 01:37:04
100個能救命的冷知識!關(guān)鍵時刻能保命,建議收藏

100個能救命的冷知識!關(guān)鍵時刻能保命,建議收藏

詩詞天地
2026-04-22 14:06:22
伊朗新任最高領(lǐng)袖傷情嚴重 面部燒傷已影響發(fā)聲能力——紐約時報

伊朗新任最高領(lǐng)袖傷情嚴重 面部燒傷已影響發(fā)聲能力——紐約時報

桂系007
2026-04-24 02:13:45
芯片松綁4個月,中國一塊也沒買,中國不急美國急,形勢反轉(zhuǎn)了

芯片松綁4個月,中國一塊也沒買,中國不急美國急,形勢反轉(zhuǎn)了

王新喜
2026-04-23 20:37:56
山東淄博市委原常委、市政府原黨組副書記、副市長宋振波一審獲刑11年

山東淄博市委原常委、市政府原黨組副書記、副市長宋振波一審獲刑11年

界面新聞
2026-04-23 16:18:06
又打起來了,以色列不宣而戰(zhàn),特朗普態(tài)度轉(zhuǎn)變,伊朗或再次上當?

又打起來了,以色列不宣而戰(zhàn),特朗普態(tài)度轉(zhuǎn)變,伊朗或再次上當?

說歷史的老牢
2026-04-23 05:45:47
個人微信建600多個工作群 員工離職后拒絕交接 法院:立即停止使用涉案微信賬號 公司向員工支付話費760元

個人微信建600多個工作群 員工離職后拒絕交接 法院:立即停止使用涉案微信賬號 公司向員工支付話費760元

閃電新聞
2026-04-23 21:52:49
廣東60歲金融老將突然被帶走,曾任東莞銀行副行長至少15年

廣東60歲金融老將突然被帶走,曾任東莞銀行副行長至少15年

湘財Plus
2026-04-22 14:21:13
伊朗德黑蘭防空系統(tǒng)啟動

伊朗德黑蘭防空系統(tǒng)啟動

財聯(lián)社
2026-04-24 01:36:24
拉夫羅夫:莫斯科將把全部歷史上的俄羅斯土地歸還其合法家園

拉夫羅夫:莫斯科將把全部歷史上的俄羅斯土地歸還其合法家園

冷峻視角下的世界
2026-04-24 01:14:37
人民日報發(fā)文,揭張桂梅真實現(xiàn)狀,卸任華坪女高校長傳聞早有真相

人民日報發(fā)文,揭張桂梅真實現(xiàn)狀,卸任華坪女高校長傳聞早有真相

歲暮的歸南山
2026-04-23 16:31:58
余瘋子把全新一代問界M9系列武裝到牙齒 問界M9 28萬輛開創(chuàng)28項第一

余瘋子把全新一代問界M9系列武裝到牙齒 問界M9 28萬輛開創(chuàng)28項第一

Thurman在昆明
2026-04-23 21:40:01
剛剛,全線跳水!美軍,動手了!

剛剛,全線跳水!美軍,動手了!

中國基金報
2026-04-23 14:34:47
意大利體育部長:意大利遞補參加世界杯既不可能,也不合適

意大利體育部長:意大利遞補參加世界杯既不可能,也不合適

懂球帝
2026-04-23 22:18:05
2026-04-24 06:36:49
沃垠AI incentive-icons
沃垠AI
努力分享一些有用、有趣的AI干貨
80文章數(shù) 32關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經(jīng)要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態(tài)度原創(chuàng)

時尚
手機
房產(chǎn)
游戲
公開課

李昀銳:林深見木

手機要聞

vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發(fā)!

房產(chǎn)要聞

三亞安居房,突然官宣!

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版