国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,智譜開源了他們的最強(qiáng)多模態(tài)模型,GLM-4.5V。

0
分享至

上上周一的晚上,智譜開源了當(dāng)今最好的模型之一,GLM-4.5。

然后,這個(gè)周一,又是突如其來的,開源了他們現(xiàn)在最好的多模態(tài)模型:

GLM-4.5v。


也是4.5系列的,用GLM-4.1V-Thinking的技術(shù)路線把GLM-4.5-Air重新訓(xùn)練了一遍,實(shí)現(xiàn)了視覺多模態(tài)的能力。

模型參數(shù)106B總參數(shù),12B激活,這個(gè)規(guī)模在開源多模態(tài)模型里已經(jīng)算是大塊頭了。

模型能力也有點(diǎn)東西,在所有的開源多模態(tài)模型中,42個(gè)評(píng)測(cè)基準(zhǔn),41個(gè)SOTA了。


我說實(shí)話,這個(gè)看著,還是有點(diǎn)嚇人的,我已經(jīng)很久沒看到這么全的評(píng)測(cè)基準(zhǔn)列表了。。。

說明GLM-4.5v,這波是真的自信。

模型已經(jīng)在多平臺(tái)開源了,可以任選一個(gè)下載。

Github:https://github.com/zai-org/GLM-V

Hugging Face:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

不過106B的量級(jí),消費(fèi)級(jí)還是難部署,如果想用的話,可以去智譜他們的z.ai上用。

嗯,網(wǎng)址就是z.ai。


我也第一時(shí)間去做了一下測(cè)試。

這里先測(cè)的,是用的是專門做評(píng)測(cè)的朋友拓界AI給的多模態(tài)測(cè)試題。

比如第一道是游標(biāo)卡尺的讀數(shù),這玩意讀起來還是挺費(fèi)勁的,整數(shù)小數(shù)要分開讀,得非常仔細(xì)才行。

反正我是看的一臉懵逼。


而GLM-4.5V,花了一小會(huì),就寫出正確答案了。


思考過程并不是非常的冗長(zhǎng)復(fù)雜,很簡(jiǎn)潔,所以很快就出來了,這個(gè)非常的好評(píng)。

然后是第二題,小貓摸球問題,我是已經(jīng)看花眼了,看這玩意看的我眼睛疼,真的。

問題就是:到底哪個(gè)貓摸到了毛線球。


GLM-4.5V也找到正確的答案,還給了正經(jīng)的操作方法。


我眼花著驗(yàn)證了兩次,確實(shí)是AI沒毛病。

在視覺推理能力上,GLM-4.5v確實(shí)有點(diǎn)東西,而且速度快的離譜。

我又試了一個(gè)經(jīng)典的,識(shí)別地理位置的case。

就是橫店明清宮苑的圖片,想看看它能不能正確的分辨出來。


這個(gè)測(cè)試其實(shí)挺有難度的,因?yàn)闄M店的明清宮苑是按照故宮1:1復(fù)制的,連細(xì)節(jié)都做得很到位。

如果模型只是簡(jiǎn)單地識(shí)別建筑風(fēng)格,很容易就會(huì)判斷錯(cuò)誤。

GPT-5-Thinking在深度思考以后,就來了一個(gè)非常抽象的答案。


華清宮什么鬼?

而GLM-4.5V答得很正確,指出了這里是橫店的明清宮苑。

這個(gè)回答挺讓我驚艷的,而是因?yàn)樗茉谌绱讼嗨频膱?chǎng)景中做出準(zhǔn)確判斷。這說明模型不是簡(jiǎn)單的模式匹配,而是真的具備了一定的視覺推理能力。


但我有點(diǎn)沒看懂它是怎么分析出來的,于是我又問了一下它,為什么是橫店不是故宮。

這回它給出了詳細(xì)的解答,分了三個(gè)點(diǎn),講的相當(dāng)有理有據(jù)。


牛逼。

那再試試內(nèi)景,我找了一個(gè)宮殿內(nèi)景的圖片,問他這是哪里。

這輪沒有正確回答出來,我還追問了一下,它還是肯定的說是故宮。


說實(shí)話,連我自己看這個(gè)內(nèi)景圖都有點(diǎn)拿不準(zhǔn),畢竟橫店的復(fù)制度確實(shí)很高,內(nèi)景的裝飾、色彩、布局都做得很像。

看看GPT-5-Thinking,錯(cuò)了。


這個(gè)題,連我心中最強(qiáng)的視覺推理模型o3都錯(cuò)了。


橫店搓的太像了,真的匠人精神,實(shí)在沒招。。。

模型在這種情況下出錯(cuò),也是情有可原。

還有一個(gè)我覺得很酷的功能。

目前只有Gemini有的,原生的視頻理解。


這里我說一下,很多產(chǎn)品說自己有視頻理解能力,或者總結(jié)視頻,其實(shí)不是的。

他們更多的是吧視頻里的音頻提取出來,找到人說話的部分,然后STT音頻轉(zhuǎn)文字變成文字稿,最后再找個(gè)大模型總結(jié),不是原生的靠模型能力的視頻理解。

我發(fā)給它一個(gè)我下載下來的二十世紀(jì)影業(yè)官方的25周年《泰坦尼克號(hào)》的混剪,讓GLM-4.5V看看里面包含了哪些經(jīng)典畫面。


要知道,視頻理解一直是多模態(tài)模型的難點(diǎn)。

模型需要理解時(shí)間序列、畫面轉(zhuǎn)換、場(chǎng)景連貫性等等,這對(duì)模型能力和算力的要求是幾何級(jí)增長(zhǎng)的。

GLM-4.5V非常有意思,也確實(shí)是讓我我比較驚喜的,它思考了一會(huì),給了我一個(gè)很全面的回答。


我特地回到視頻,看了下對(duì)應(yīng)的時(shí)間點(diǎn)。

所有的時(shí)間點(diǎn)都一一對(duì)應(yīng),完全沒毛病。



展開它的思考過程,我發(fā)現(xiàn)它是真的能理解畫面之間的邏輯關(guān)系和故事脈絡(luò)。

GLM-4.5V不是簡(jiǎn)單地逐幀識(shí)別,而是把這些場(chǎng)景串聯(lián)成一個(gè)完整的敘事序列。

從船頭的浪漫時(shí)刻,到災(zāi)難降臨后的生離死別,再到最后的救援場(chǎng)面。


不僅識(shí)別出了視頻中的關(guān)鍵畫面,還能準(zhǔn)確標(biāo)注時(shí)間點(diǎn)。

這種時(shí)空理解能力,在開源模型里確實(shí)難得一見。

當(dāng)然,視頻理解也有限制。我試了一下,它只能處理200M以內(nèi)的視頻,再大就不行了。不過對(duì)于大多數(shù)應(yīng)用場(chǎng)景來說,這個(gè)限制還算合理。

同時(shí),注意是MP4格式,不要傳成MOV啥的了。


我還試了下視覺定位功能,它能根據(jù)指令在圖片里做標(biāo)記。


我扔了一張流浪地球3的開機(jī)大合照,讓他幫忙框選出郭導(dǎo)。


圈的很正確。


找出燒烤簽子也是不在話下,標(biāo)記的很精準(zhǔn)。


甚至還有一個(gè)超級(jí)騷的。

圈出他最擅長(zhǎng)的運(yùn)動(dòng)。。。


果然是籃球。。。

GLM-4.5V實(shí)在是太懂了。

除了視覺定位,還有一個(gè)很有意思的功能。

網(wǎng)頁復(fù)刻。


我直接扔給它一個(gè)網(wǎng)頁截圖,讓它給我復(fù)刻出來。



結(jié)果真的震撼到我了,你看這個(gè)效果。


框架、結(jié)構(gòu)幾乎一樣,除了一些設(shè)計(jì)的樣式有一些區(qū)別。

不過,講個(gè)大實(shí)話,我覺得比智譜自己的官網(wǎng)都好看= =

這種看圖寫代碼的能力,以前基本上就是Gemini、Claude這些頂級(jí)閉源模型的專利。

現(xiàn)在開源模型也能做到這種水平,真的是一個(gè)巨大的進(jìn)步。

而且,模型完全開源,你可以直接下載權(quán)重,部署在自己的服務(wù)器上。

GLM-4.5V的API定價(jià)也相當(dāng)良心。

輸入只要2 元/M tokens,輸出6 元/M tokens,這個(gè)價(jià)格在多模態(tài)模型里算是相當(dāng)便宜了。

最后,總結(jié)一下。

曾經(jīng)的國(guó)產(chǎn)之光,智譜好像回來了。

連續(xù)兩個(gè)開源GLM-4.5和GLM-4.5V,效果都非常的強(qiáng)。

忽然想起上周OpenAI開源的oss,還有GPT-5這一系列的騷操作。

他們好像是那種守著一座巨大城堡的國(guó)王。

偶爾會(huì)大發(fā)慈悲,從城堡里扔出一些金幣,希望平民們就得感恩戴德地沖上去瘋搶。

而國(guó)內(nèi)的這些大模型廠商,更像一個(gè)熱衷于基建的狂人,他根本不屑于守著城堡,他每天都在我們家門口修路、建橋、蓋發(fā)電站,然后把鑰匙直接塞到我們手上,說:

隨便用,兄弟,不夠再跟我說。

所以,當(dāng)我這兩次,都說智譜牛逼的時(shí)候。

我相比表達(dá)加贊美的,不僅僅是它在41個(gè)基準(zhǔn)測(cè)試中取得的SOTA。

我贊美的,是這種持續(xù)不斷的、近乎于偏執(zhí)的開放精神。

海外Close AI,國(guó)內(nèi)天天Open AI。

AI的未來,不應(yīng)該只掌握在少數(shù)幾個(gè)巨頭的服務(wù)器里,從GPT-4o的下線引發(fā)的風(fēng)波,就能看出影響。

它更應(yīng)該,也必須,綻放在我們每一個(gè)人的硬盤上。

以上,既然看到這里了,如果覺得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克、dongyi

>/ 投稿或爆料,請(qǐng)聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特朗普對(duì)話20家美石油公司:已經(jīng)虧的120億美元就算了,你不干還有25家愿意干

特朗普對(duì)話20家美石油公司:已經(jīng)虧的120億美元就算了,你不干還有25家愿意干

紅星新聞
2026-01-11 20:14:20
被大家猜中了!洗碗機(jī)的女主角起號(hào)成功,直播間人數(shù)超過3000…

被大家猜中了!洗碗機(jī)的女主角起號(hào)成功,直播間人數(shù)超過3000…

火山詩話
2026-01-10 15:13:33
馬斯克:X平臺(tái)將于一周內(nèi)開源新算法

馬斯克:X平臺(tái)將于一周內(nèi)開源新算法

界面新聞
2026-01-11 10:30:09
電視真的被嚴(yán)重低估了!換個(gè)思路居然好用到驚呆,簡(jiǎn)直是人類之光

電視真的被嚴(yán)重低估了!換個(gè)思路居然好用到驚呆,簡(jiǎn)直是人類之光

Home范
2026-01-10 14:55:03
U23國(guó)足形勢(shì):末輪不負(fù)泰國(guó)即確保首次晉級(jí)!3種情況下輸球也出線

U23國(guó)足形勢(shì):末輪不負(fù)泰國(guó)即確保首次晉級(jí)!3種情況下輸球也出線

我愛英超
2026-01-11 21:29:46
錢再多有什么用?站起來就想吐的周渝民,給所有中年男人提了個(gè)醒

錢再多有什么用?站起來就想吐的周渝民,給所有中年男人提了個(gè)醒

深析古今
2026-01-10 16:33:12
氧氣要火了?科學(xué)家發(fā)現(xiàn)寶藏:吸100%純氧3個(gè)月,生理倒拔20歲

氧氣要火了?科學(xué)家發(fā)現(xiàn)寶藏:吸100%純氧3個(gè)月,生理倒拔20歲

科學(xué)認(rèn)識(shí)論
2026-01-11 17:13:05
反制開始!星鏈兩次威脅中國(guó)空間站后,我國(guó)新增20萬顆衛(wèi)星申請(qǐng)!

反制開始!星鏈兩次威脅中國(guó)空間站后,我國(guó)新增20萬顆衛(wèi)星申請(qǐng)!

科普100克克
2026-01-11 14:19:45
以色列在行動(dòng),伊朗導(dǎo)彈部隊(duì)指揮官遭刺殺,庫爾德武裝發(fā)起進(jìn)攻

以色列在行動(dòng),伊朗導(dǎo)彈部隊(duì)指揮官遭刺殺,庫爾德武裝發(fā)起進(jìn)攻

史政先鋒
2026-01-11 15:58:18
遭點(diǎn)球絕殺!U23亞洲杯爆大冷:第二檔強(qiáng)隊(duì)兩戰(zhàn)全敗墊底 提前出局

遭點(diǎn)球絕殺!U23亞洲杯爆大冷:第二檔強(qiáng)隊(duì)兩戰(zhàn)全敗墊底 提前出局

籃球看比賽
2026-01-11 11:23:50
伊朗總統(tǒng):政府認(rèn)可和平抗議行為,愿與抗議團(tuán)體會(huì)面

伊朗總統(tǒng):政府認(rèn)可和平抗議行為,愿與抗議團(tuán)體會(huì)面

界面新聞
2026-01-11 21:27:16
U23國(guó)足首勝!媒體人熱議:茍著踢有道理,邵佳一多挑幾個(gè)吧

U23國(guó)足首勝!媒體人熱議:茍著踢有道理,邵佳一多挑幾個(gè)吧

奧拜爾
2026-01-11 21:37:55
知名童星剛滿18就立即加入OnlyFans,一天賺290萬美元

知名童星剛滿18就立即加入OnlyFans,一天賺290萬美元

隨波蕩漾的漂流瓶
2026-01-11 18:03:40
1分鐘2神撲!李昊力保球門不失,肋骨險(xiǎn)受傷,媒體人:身價(jià)還得漲

1分鐘2神撲!李昊力保球門不失,肋骨險(xiǎn)受傷,媒體人:身價(jià)還得漲

奧拜爾
2026-01-11 21:00:22
特朗普:臺(tái)灣屬于中國(guó),中方武統(tǒng)是它的自由,但動(dòng)手美國(guó)會(huì)不高興

特朗普:臺(tái)灣屬于中國(guó),中方武統(tǒng)是它的自由,但動(dòng)手美國(guó)會(huì)不高興

我心縱橫天地間
2026-01-10 14:51:24
專題片剖析唐仁健案:組建“周末愉快”微信群,每到周末就召老板們吃喝

專題片剖析唐仁健案:組建“周末愉快”微信群,每到周末就召老板們吃喝

澎湃新聞
2026-01-11 20:44:28
澳大利亞U23主帥:下半場(chǎng)只有一支球隊(duì)在進(jìn)攻;中國(guó)隊(duì)防守嚴(yán)密

澳大利亞U23主帥:下半場(chǎng)只有一支球隊(duì)在進(jìn)攻;中國(guó)隊(duì)防守嚴(yán)密

懂球帝
2026-01-11 22:32:26
馬斯克拋出2026年九大“瘋狂”預(yù)言:科技狂飆下的未來圖景

馬斯克拋出2026年九大“瘋狂”預(yù)言:科技狂飆下的未來圖景

娛樂督察中
2026-01-11 13:48:02
2026年新成語:惡意尋子!該警惕了,細(xì)節(jié)越挖越心寒!

2026年新成語:惡意尋子!該警惕了,細(xì)節(jié)越挖越心寒!

你食不食油餅
2026-01-11 06:41:42
瑞典軍工發(fā)布導(dǎo)彈視頻:1枚導(dǎo)彈命中摧毀中國(guó)052d型驅(qū)逐艦!

瑞典軍工發(fā)布導(dǎo)彈視頻:1枚導(dǎo)彈命中摧毀中國(guó)052d型驅(qū)逐艦!

達(dá)文西看世界
2026-01-11 19:10:20
2026-01-12 00:36:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
436文章數(shù) 490關(guān)注度
往期回顧 全部

科技要聞

“我們與美國(guó)的差距也許還在拉大”

頭條要聞

特朗普就格陵蘭島下最后通牒 加拿大開始行動(dòng)了

頭條要聞

特朗普就格陵蘭島下最后通牒 加拿大開始行動(dòng)了

體育要聞

U23國(guó)足形勢(shì):末輪不負(fù)泰國(guó)即確保晉級(jí)

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣平臺(tái)"燒錢搶存量市場(chǎng)"迎來終局?

汽車要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬起

態(tài)度原創(chuàng)

家居
本地
時(shí)尚
教育
公開課

家居要聞

木色留白 演繹現(xiàn)代自由

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

當(dāng)一個(gè)57歲的女人,決定從零開始

教育要聞

官方發(fā)布:3370個(gè)志愿者服務(wù)名額!南京中小學(xué)生均可報(bào)名!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版