国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GLM-4.6V開源,定義“行動(dòng)多模態(tài)”新范式

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長(zhǎng)。wisemodel推出邀請(qǐng)注冊(cè)獎(jiǎng)勵(lì)活動(dòng),最高可得算力券+token包380元獎(jiǎng)勵(lì),歡迎參與和支持!

作為 GLM 系列在多模態(tài)方向上的一次重要迭代,GLM-4.6V 將訓(xùn)練時(shí)上下文窗口提升到 128k tokens,在視覺理解精度上達(dá)到同參數(shù)規(guī)模 SOTA,并首次在模型架構(gòu)中將Function Call(工具調(diào)用)能力原生融入視覺模型,打通從「視覺感知」到「可執(zhí)行行動(dòng)(Action)」的鏈路,為真實(shí)業(yè)務(wù)場(chǎng)景中的多模態(tài) Agent 提供統(tǒng)一的技術(shù)底座。

智譜新發(fā)布、開源的GLM-4.6V 系列多模態(tài)大模型,共包含兩款模型:GLM-4.6V(106B-A12B)面向云端與高性能集群場(chǎng)景的基礎(chǔ)版;GLM-4.6V-Flash(9B)面向本地部署與低延遲應(yīng)用的輕量版。均已上線始智AI-wisemodel開源社區(qū),歡迎體驗(yàn)。


模型地址

https://wisemodel.cn/organization/ZhipuAI

在性能優(yōu)化之外,GLM-4.6V 系列相較于 GLM-4.5V降價(jià) 50%,API 調(diào)用價(jià)格低至輸入 1 元/百萬(wàn) tokens,輸出 3 元/百萬(wàn) tokens


01.

原生多模態(tài)工具調(diào)用

傳統(tǒng)工具調(diào)用大多基于純文本,在面對(duì)圖像、視頻、復(fù)雜文檔等多模態(tài)內(nèi)容時(shí),需要多次中間轉(zhuǎn)換,帶來(lái)信息損失和工程復(fù)雜度。

GLM-4.6V 從設(shè)計(jì)之初就圍繞「圖像即參數(shù),結(jié)果即上下文」,構(gòu)建了原生多模態(tài)工具調(diào)用能力:

  • 輸入多模態(tài):圖像、截圖、文檔頁(yè)面等可以直接作為工具參數(shù),無(wú)需先轉(zhuǎn)為文字描述再解析,減少鏈路損耗。

  • 輸出多模態(tài):對(duì)于工具返回的統(tǒng)計(jì)圖表、渲染后網(wǎng)頁(yè)截圖、檢索到的商品圖片等結(jié)果,模型能夠再次進(jìn)行視覺理解,將其納入后續(xù)推理鏈路。

模型原生支持基于視覺輸入的工具調(diào)用,完整打通從感知到理解到執(zhí)行的閉環(huán)。這使得 GLM-4.6V 能夠應(yīng)對(duì)圖文混排輸出、商品識(shí)別與好價(jià)推薦、以及輔助型 Agent 場(chǎng)景等更復(fù)雜的視覺任務(wù)。

02.

典型場(chǎng)景

場(chǎng)景1:智能圖文混排與內(nèi)容創(chuàng)作

在內(nèi)容創(chuàng)作與知識(shí)分發(fā)場(chǎng)景中,GLM-4.6V 可以從多模態(tài)輸入中,自動(dòng)構(gòu)建高質(zhì)量圖文輸出:無(wú)論是直接輸入圖文混雜的論文、研報(bào)、PPT,還是只給出一個(gè)主題,模型都能生成結(jié)構(gòu)清晰、圖文并茂的社交媒體內(nèi)容。

  • 復(fù)雜圖文理解:接收包含文本、圖表、公式的文檔,準(zhǔn)確抽取結(jié)構(gòu)化關(guān)鍵信息。

  • 多模態(tài)工具調(diào)用:在生成內(nèi)容過(guò)程中,自動(dòng)調(diào)用檢索/搜索類工具,為每一段落尋找候選圖片,或從原文中截取關(guān)鍵配圖。

  • 圖文混排輸出與質(zhì)量控制:對(duì)候選圖片進(jìn)行「視覺審核」,評(píng)估其與文字內(nèi)容的相關(guān)性與質(zhì)量,自動(dòng)過(guò)濾無(wú)關(guān)或低質(zhì)圖片,輸出可直接用于公眾號(hào)、社交媒體或知識(shí)庫(kù)的結(jié)構(gòu)化圖文結(jié)果。

這一流程中,多模態(tài)理解、工具調(diào)用與質(zhì)量控制均由 GLM-4.6V 模型獨(dú)立在同一推理鏈路內(nèi)完成。

??案例1:僅輸入主題,生成圖文資訊

??案例2:輸入論文,生成圖文并茂的科普文章

場(chǎng)景2:視覺驅(qū)動(dòng)的識(shí)圖購(gòu)物與導(dǎo)購(gòu) Agent

在電商購(gòu)物場(chǎng)景中,GLM-4.6V 模型可以獨(dú)立完成從「看圖」、「比價(jià)」、「生成導(dǎo)購(gòu)清單」的完整鏈路。

  • 意圖識(shí)別與任務(wù)規(guī)劃:用戶上傳一張街拍圖并發(fā)出「搜同款」等指令時(shí),模型識(shí)別出購(gòu)物意圖,并自主規(guī)劃調(diào)用image_search等相關(guān)工具。

  • 異構(gòu)數(shù)據(jù)清洗與對(duì)齊:在京東、唯品會(huì)、拼多多等平臺(tái)返回的多模態(tài)、非結(jié)構(gòu)化結(jié)果基礎(chǔ)上,模型自動(dòng)完成信息清洗、字段歸一化與結(jié)果對(duì)齊,過(guò)濾噪聲和重復(fù)項(xiàng)。

  • 多模態(tài)導(dǎo)購(gòu)結(jié)果生成:最終生成一張標(biāo)準(zhǔn)化 Markdown 導(dǎo)購(gòu)表格,包含平臺(tái)與店鋪來(lái)源、價(jià)格、商品縮略圖、匹配度與差異說(shuō)明,以及可直接跳轉(zhuǎn)的購(gòu)買鏈接。

場(chǎng)景3:前端復(fù)刻與多輪視覺交互開發(fā)

智譜重點(diǎn)優(yōu)化了 GLM-4.6V 在前端復(fù)刻與多輪視覺交互修改方面的能力,幫助開發(fā)者縮短「設(shè)計(jì)稿到可運(yùn)行頁(yè)面」的鏈路:

  • 像素級(jí)前端復(fù)刻:上傳網(wǎng)頁(yè)截圖或設(shè)計(jì)稿后,模型可精準(zhǔn)識(shí)別布局、組件與配色,生成高質(zhì)量 HTML / CSS / JS 代碼,實(shí)現(xiàn)接近像素級(jí)的頁(yè)面還原。

  • 視覺交互調(diào)試:支持基于截圖的多輪視覺交互。用戶可以在生成的網(wǎng)頁(yè)截圖上圈選區(qū)域并發(fā)出自然語(yǔ)言指令(如「把這個(gè)按鈕向左移一點(diǎn),顏色改成深藍(lán)」),模型自動(dòng)定位并修正對(duì)應(yīng)代碼片段。

通過(guò) GLM Coding Plan 的視覺 MCP 協(xié)議,這一能力可以集成進(jìn)現(xiàn)有 IDE、設(shè)計(jì)工具或內(nèi)部工程平臺(tái),大幅提升前端迭代效率。

場(chǎng)景4:長(zhǎng)上下文的文檔與視頻理解

GLM-4.6V 將視覺編碼器與語(yǔ)言模型的上下文對(duì)齊能力提升至128k,模型擁有了“過(guò)目不忘”的長(zhǎng)記憶力。在實(shí)際應(yīng)用中,128k上下文約等于150頁(yè)的復(fù)雜文檔、200頁(yè)P(yáng)PT或一小時(shí)視頻,能夠在單次推理中處理多個(gè)長(zhǎng)文檔或長(zhǎng)視頻。

在下列案例中,用戶一次輸入 4 家上市公司的財(cái)報(bào),GLM-4.6V 可以跨文檔統(tǒng)一抽取核心指標(biāo),并理解報(bào)表與圖表中的隱性信號(hào),自動(dòng)匯總成一張對(duì)比分析表,在長(zhǎng)窗口條件下依然保持關(guān)鍵信息不丟失。

上述能力同樣適用于長(zhǎng)視頻內(nèi)容的理解與定位:

在長(zhǎng)視頻理解場(chǎng)景下,GLM-4.6V 既能對(duì)整段內(nèi)容進(jìn)行全局梳理,又能結(jié)合時(shí)序線索做細(xì)粒度推理,精準(zhǔn)定位關(guān)鍵時(shí)間點(diǎn),例如自動(dòng)完成一場(chǎng)足球比賽的進(jìn)球事件與比分時(shí)間軸總結(jié)。

03.

同規(guī)模開源 SOTA

作為 GLM 系列在多模態(tài)方向上的一次重要迭代,GLM-4.6V 將訓(xùn)練時(shí)上下文窗口提升到128k tokens,在視覺理解精度上達(dá)到同參數(shù)規(guī)模 SOTA,并首次在模型架構(gòu)中將Function Call(工具調(diào)用)能力原生融入視覺模型,打通從「視覺感知」到「可執(zhí)行行動(dòng)(Action)」的鏈路,為真實(shí)業(yè)務(wù)場(chǎng)景中的多模態(tài) Agent 提供統(tǒng)一的技術(shù)底座。

GLM-4.6V 在 MMBench、MathVista、OCRBench 等30+ 主流多模態(tài)評(píng)測(cè)基準(zhǔn)上進(jìn)行了驗(yàn)證,較上一代模型取得顯著提升。在同等參數(shù)規(guī)模下,模型在多模態(tài)交互、邏輯推理和長(zhǎng)上下文等關(guān)鍵能力上取得SOTA表現(xiàn)。其中 9B 版本的 GLM-4.6V-Flash 整體表現(xiàn)超過(guò) Qwen3-VL-8B,106B 參數(shù) 12B 激活的 GLM-4.6V 表現(xiàn)比肩 2 倍參數(shù)量的 Qwen3-VL-235B。


----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來(lái),逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過(guò)添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
房?jī)r(jià)上漲的最強(qiáng)信號(hào)!

房?jī)r(jià)上漲的最強(qiáng)信號(hào)!

米宅
2026-03-24 07:26:02
國(guó)民黨大亂!馬英九緊急發(fā)聲,鄭麗文下場(chǎng)開罵:扯破臉、斗到底

國(guó)民黨大亂!馬英九緊急發(fā)聲,鄭麗文下場(chǎng)開罵:扯破臉、斗到底

小小科普員
2026-03-25 19:25:13
20年后再看《亮劍》:軍事上漏洞百出,政治上莫名其妙

20年后再看《亮劍》:軍事上漏洞百出,政治上莫名其妙

明月清風(fēng)閣
2026-03-25 14:50:09
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
中國(guó)移動(dòng)正式發(fā)布通知:全國(guó)將統(tǒng)一執(zhí)行,4月30日起

中國(guó)移動(dòng)正式發(fā)布通知:全國(guó)將統(tǒng)一執(zhí)行,4月30日起

林子說(shuō)事
2026-03-27 00:39:14
朗斯反對(duì)無(wú)效!法甲確認(rèn)爭(zhēng)冠戰(zhàn)延期為大巴黎歐冠讓路,2隊(duì)僅差1分

朗斯反對(duì)無(wú)效!法甲確認(rèn)爭(zhēng)冠戰(zhàn)延期為大巴黎歐冠讓路,2隊(duì)僅差1分

夏侯看英超
2026-03-27 01:37:53
中方堅(jiān)決扣留船只,美方及時(shí)干預(yù) 取消中企投標(biāo)資格,巴拿馬難挽

中方堅(jiān)決扣留船只,美方及時(shí)干預(yù) 取消中企投標(biāo)資格,巴拿馬難挽

南宗歷史
2026-03-25 16:04:15
銀行內(nèi)部提醒:今明兩年慎存定期,這3個(gè)原因很現(xiàn)實(shí)

銀行內(nèi)部提醒:今明兩年慎存定期,這3個(gè)原因很現(xiàn)實(shí)

小陸搞笑日常
2026-03-26 17:44:10
中央定調(diào)養(yǎng)老金調(diào)整方向!工齡增加設(shè)為一年3元,可行嗎?

中央定調(diào)養(yǎng)老金調(diào)整方向!工齡增加設(shè)為一年3元,可行嗎?

王五說(shuō)說(shuō)看
2026-03-24 07:06:10
FIFA系列賽新規(guī):比賽需決出勝負(fù) 打平將互射點(diǎn)球

FIFA系列賽新規(guī):比賽需決出勝負(fù) 打平將互射點(diǎn)球

體壇周報(bào)
2026-03-26 15:53:18
上映4天,僅3個(gè)觀眾,總票房104元,2026年最慘電影誕生

上映4天,僅3個(gè)觀眾,總票房104元,2026年最慘電影誕生

錯(cuò)過(guò)美好
2026-03-24 23:41:07
打壓其他球員!除非加入杜鋒經(jīng)紀(jì)公司,徐昕是最好的例子

打壓其他球員!除非加入杜鋒經(jīng)紀(jì)公司,徐昕是最好的例子

籃球大陸
2026-03-26 14:26:19
A股:兩個(gè)信息落地,明天,周五或會(huì)這樣走了!

A股:兩個(gè)信息落地,明天,周五或會(huì)這樣走了!

明心
2026-03-26 16:35:30
油價(jià)反轉(zhuǎn)!95號(hào)汽油破9元后迎下調(diào),4月7日調(diào)價(jià)最新預(yù)測(cè)

油價(jià)反轉(zhuǎn)!95號(hào)汽油破9元后迎下調(diào),4月7日調(diào)價(jià)最新預(yù)測(cè)

復(fù)轉(zhuǎn)這些年
2026-03-26 09:40:14
外媒:以軍對(duì)18個(gè)月大嬰兒施酷刑,逼其父招供

外媒:以軍對(duì)18個(gè)月大嬰兒施酷刑,逼其父招供

觀察者網(wǎng)
2026-03-24 13:44:04
“根本不敢上路”!深圳男子買全新百萬(wàn)豪車,修了15次還是壞的!很多車主受害

“根本不敢上路”!深圳男子買全新百萬(wàn)豪車,修了15次還是壞的!很多車主受害

南方都市報(bào)
2026-03-26 09:26:45
太可恨!飛機(jī)一落地上海,女孩立馬報(bào)案!更多年輕受害人浮出水面……

太可恨!飛機(jī)一落地上海,女孩立馬報(bào)案!更多年輕受害人浮出水面……

環(huán)球網(wǎng)資訊
2026-03-26 21:48:04
國(guó)足VS庫(kù)拉索:留洋小將坐鎮(zhèn)中場(chǎng),韋世豪王鈺棟領(lǐng)銜,張玉寧沖鋒

國(guó)足VS庫(kù)拉索:留洋小將坐鎮(zhèn)中場(chǎng),韋世豪王鈺棟領(lǐng)銜,張玉寧沖鋒

零度眼看球
2026-03-26 07:23:48
歐盟威脅越南:若中方參與了…

歐盟威脅越南:若中方參與了…

觀察者網(wǎng)
2026-03-25 15:19:16
初代丑男何潤(rùn)東的突然爆火,狠狠抽了內(nèi)娛一巴掌

初代丑男何潤(rùn)東的突然爆火,狠狠抽了內(nèi)娛一巴掌

娛樂圈筆娛君
2026-03-24 16:08:36
2026-03-27 01:55:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國(guó)版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
房產(chǎn)
游戲
時(shí)尚
數(shù)碼

教育要聞

精準(zhǔn)研判,提質(zhì)增效丨我校召開2026屆畢業(yè)生就業(yè)工作研判會(huì)

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補(bǔ)償方案出爐!

PS1大IP游戲藏私貨!成人手繪與盜版馬里奧ROM塞滿

400萬(wàn)人愛過(guò)的女孩,被黃謠網(wǎng)暴180天后

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動(dòng),支持B70 / B65顯卡

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版