国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

0
分享至

面壁智能正式開源 8B 參數(shù)的面壁小鋼炮 MiniCPM-V 4.5 多模態(tài)旗艦?zāi)P停?strong>成為行業(yè)首個(gè)具備高刷視頻理解能力的多模態(tài)模型看得準(zhǔn)、看得快,看得長!高刷視頻理解、長視頻理解、OCR、文檔解析能力同級(jí) SOTA,且性能超過 Qwen2.5-VL 72B,堪稱最強(qiáng)端側(cè)多模態(tài)模型。

模型剛剛開源,就收獲了 Hugging Face 聯(lián)合創(chuàng)始人Thomas Wolf 等一眾大 V 的點(diǎn)贊轉(zhuǎn)發(fā)。


MiniCPM-V 4.5 亮點(diǎn)一覽

首個(gè)「高刷視頻理解」多模態(tài)模型,兼顧性能與效率:高刷視頻理解同級(jí) SOTA 且超過 Qwen2.5-VL 72B 越級(jí)領(lǐng)先;同等視覺 token 開銷下, MiniCPM-V 4.5 可接收 6 倍視頻幀數(shù)量,達(dá)到 96 倍視覺壓縮率,是同類模型的 12-24 倍;

最強(qiáng)多模態(tài) SOTA 模型:圖片理解、長視頻理解、OCR、文檔解析同級(jí) SOTA,且超過 Qwen2.5-VL 72B 達(dá)到 越級(jí)領(lǐng)先

? 端側(cè)友好:提供 SOTA 級(jí)多模態(tài)表現(xiàn)的同時(shí),帶來最佳的推理效率,顯存占用、平均推理時(shí)間等領(lǐng)先優(yōu)勢顯著;

支持長思考、短思考可控混合推理,性能好、速度快

? 模型鏈接

Github:

https://github.com/OpenBMB/MiniCPM-o

Hugging Face:

https://huggingface.co/openbmb/MiniCPM-V-4_5

ModelScope:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

01

首個(gè)高刷視頻理解 兼顧性能與效率

看得更清更準(zhǔn),才能減少視覺信息的誤差,提升視覺理解與推理準(zhǔn)確性。更高刷新率,是畫面流暢度的關(guān)鍵。

此前,主流的多模態(tài)模型在處理視頻理解任務(wù)中,因?yàn)槠胶馑懔?、功耗等因素,通常采?1 fps 抽幀,即每秒只能截取 1 幀畫面進(jìn)行識(shí)別和理解。雖然一定程度上保證了模型推理效率,但也因此缺失了絕大部分視覺信息,降低了多模態(tài)大模型對動(dòng)態(tài)世界「精細(xì)化」的理解。

MiniCPM-V 4.5 是行業(yè)首個(gè)具備高刷視頻理解能力的多模態(tài)模型,通過將模型結(jié)構(gòu)從 2D-Resampler 拓展為 3D-Resampler,進(jìn)行三維視頻片段的高密度壓縮,在同等視覺 token 量開銷下,最大可接收 6 倍視頻幀數(shù)量,達(dá)到 96 倍視覺壓縮率,是同類模型的 12-24 倍。

MiniCPM-V 4.5 通過顯著增加抽幀頻次,從看「PPT」變成理解「動(dòng)態(tài)畫面」,瞬間捕捉,洞見細(xì)節(jié)!面對一閃而過的畫面,MiniCPM-V 4.5 要比 Gemini-2.5-Pro、GPT-5、GPT-4o 等代表性云端模型看得更準(zhǔn)、更細(xì)。

在 MotionBench、FavorBench 兩項(xiàng)體現(xiàn)高刷視頻理解能力的榜單中,MiniCPM-V 4.5 達(dá)到同尺寸 SOTA,且超過 Qwen2.5-VL 72B,實(shí)現(xiàn)越級(jí)領(lǐng)先水平。


02 最強(qiáng)端側(cè)多模態(tài)

圖片、視頻理解全 SOTA

以小博大,一直是面壁小鋼炮 MiniCPM 的模型特色。這一次,MiniCPM-V 4.5 憑借 8B 參數(shù),在圖片理解、視頻理解、復(fù)雜文檔識(shí)別等多模態(tài)能力上再次刷新能力上限。


圖片理解性能上,MiniCPM-V 4.5 在 OpenCompass 測評中,領(lǐng)先 GPT-4o、GPT-4.1、Gemini-2.0-Pro 等眾多閉源模型,甚至超過 Qwen2.5-VL 72B,實(shí)現(xiàn)越級(jí)領(lǐng)先。


視頻理解性能上,MiniCPM-V 4.5 在 LVBench、MLVU、Video-MME、LongVideoBench 等榜單中,均達(dá)到同級(jí)最佳水平。


在復(fù)雜文檔識(shí)別任務(wù)中,MiniCPM-V 4.5 在 OmniDocBench 榜單的 OverallEdit、TextEdit、TableEdit 三項(xiàng)指標(biāo)上,均取得了通用多模態(tài)模型同級(jí)別的 SOTA 表現(xiàn)。


此外,MiniCPM-V 4.5 同時(shí)支持常規(guī)模式和深度思考模式,實(shí)現(xiàn)了性能與響應(yīng)速度的有效平衡,常規(guī)模式在絕大部分場景下提供出色的多模態(tài)理解能力,深度思考模式則專注于應(yīng)對復(fù)雜與復(fù)合型推理任務(wù)。


03 極致推理性價(jià)比 端側(cè)應(yīng)用優(yōu)選

在端側(cè) AI 應(yīng)用持續(xù)升溫的當(dāng)下,模型能力再強(qiáng),如果無法在端側(cè)設(shè)備上穩(wěn)定、流暢運(yùn)行,一切都是空談。

面壁小鋼炮 MiniCPM 不斷提升模型的「能力密度」,也一直致力于追求大模型的極致「能效比」,通過更低的顯存占用、更快的響應(yīng)速度,確保在提供 SOTA 級(jí)多模態(tài)表現(xiàn)的同時(shí),也實(shí)現(xiàn)最佳的推理效率和最低的推理開銷。

在視頻理解榜單 VideoMME、以及單圖OpenCompass測試中,MiniCPM-V 4.5 達(dá)到同級(jí) SOTA 水平,顯存占用、平均推理時(shí)間等方面領(lǐng)先優(yōu)勢顯著。

其中,在覆蓋短、中、長三種類型的視頻理解評測集 Video-MME 上,MiniCPM-V 4.5 采用 3 幀打包策略進(jìn)行推理,時(shí)間開銷(未計(jì)算模型抽幀時(shí)間)僅為同級(jí)模型的 1/10 。



04 技術(shù)解析

MiniCPM-V 4.5 作為多模態(tài)模型的新旗艦,之所以具備「高刷」視頻理解能力、并取得圖片理解、OCR、長視頻理解等 SOTA ,主要得益于在模型結(jié)構(gòu)、訓(xùn)練范式等領(lǐng)域的創(chuàng)新。

  • 3D-Resampler 實(shí)現(xiàn)高密度視頻壓縮

    當(dāng)前,制約多模態(tài)模型視頻理解能力的最核心挑戰(zhàn)是性能和效率的 Trade-off,即模型需要看更多視頻幀,才能獲取更精細(xì)的信息以提高理解上限;而模型融入太多視頻幀,又會(huì)造成顯存、推理速度等開銷爆炸。由于局部片段的不同視頻幀之間存在信息冗余性,即大部分視覺信息不變,僅有少部分信息發(fā)生變化,存在很大的信息壓縮空間。MiniCPM-V 4.5 將模型結(jié)構(gòu)從 2D-Resampler 拓展為 3D-Resampler,進(jìn)行三維視頻片段的高密度壓縮。具體來說,視頻會(huì)按照每N個(gè)視頻幀一組分組(分組尺寸最大為 6 ),3D-Resampler 會(huì)對每個(gè)視頻組壓縮編碼,得到 64 個(gè)視覺token(與編碼單圖視覺token數(shù)量相同),最終在推理開銷不變的情況下,最大 10 fps 抽幀,實(shí)現(xiàn)了模型高刷視頻理解能力。得益于 Resampler 機(jī)制的靈活性,我們可以在推理階段靈活調(diào)整視頻分組尺寸,同時(shí)支持單圖、多圖、視頻的統(tǒng)一編碼(即單圖編碼視為 3D 視頻編碼的 2D 特例),方便知識(shí)和能力遷移。

  • 面向多頁文檔圖片的統(tǒng)一 OCR 和知識(shí)推理學(xué)習(xí)

    「對文字的識(shí)別解析」和「從文檔中學(xué)習(xí)知識(shí)」是多模態(tài)大模型的兩個(gè)重要課題,但這兩個(gè)方向的學(xué)習(xí)范式割裂,并且分別受到圖像樣例難度和解析準(zhǔn)確性的限制。提升 OCR 能力往往需要補(bǔ)充更豐富且難的數(shù)據(jù),數(shù)據(jù)增廣(例如對圖像中文字加高斯噪音)往往會(huì)被采用,以提升數(shù)據(jù)的難度和多樣性,但是過大的增廣會(huì)使得文字不可讀,反而會(huì)導(dǎo)致模型幻覺。在文檔知識(shí)學(xué)習(xí)方面,大部分工作會(huì)將文檔解析成為圖文交替數(shù)據(jù)進(jìn)行學(xué)習(xí),嚴(yán)重受到文本解析工具錯(cuò)誤的影響。

    MiniCPM-V 4.5 連續(xù)控制圖像中的「文字信息可見度」,使得多模態(tài)模型在 OCR 和知識(shí)學(xué)習(xí)兩種模式之間無縫切換,首次實(shí)現(xiàn)了OCR 和知識(shí)學(xué)習(xí)兩種學(xué)習(xí)范式的有效融合,且不會(huì)受到過難增廣和解析錯(cuò)誤的影響。具體來說,我們首先提取出文檔中的文字框(這通常是非常準(zhǔn)確的,大部分解析錯(cuò)誤來源于排版、閱讀順序、低信息量圖文噪音錯(cuò)誤),然后對文字框內(nèi)區(qū)域進(jìn)行不同程度的噪音增廣。當(dāng)施加噪音較小,文字處于尚可辨別范圍內(nèi)時(shí),模型會(huì) OCR 學(xué)習(xí)識(shí)別文字;當(dāng)施加噪音較大,文字無法辨認(rèn)時(shí),模型會(huì)自動(dòng)進(jìn)入知識(shí)學(xué)習(xí),根據(jù)文檔的多模態(tài)上下文還原文字;當(dāng)噪音介于兩者之間,模型會(huì)進(jìn)行混合能力的學(xué)習(xí)?;谏鲜黾夹g(shù),MiniCPM-V 4.5 低成本實(shí)現(xiàn)了領(lǐng)先的 OCR 能力和多模態(tài)知識(shí)能力。

  • 通用域混合推理強(qiáng)化學(xué)習(xí)

    深度思考推理能力極大拓展了多模態(tài)大模型的推理能力邊界,但在常見問題場景中,也往往伴隨過高的推理延遲。MiniCPM-V 4.5 同時(shí)支持常規(guī)模式和深度思考模式,實(shí)現(xiàn)了性能與響應(yīng)速度的有效平衡:常規(guī)模式在絕大部分場景下提供出色的多模態(tài)理解能力,深度思考模式則專注于應(yīng)對復(fù)雜與復(fù)合型推理任務(wù)。為了讓模型在兩種模式下都具備出色性能,MiniCPM-V 4.5 提出了混合推理的強(qiáng)化學(xué)習(xí)訓(xùn)練方案,在強(qiáng)化學(xué)習(xí)過程中同時(shí)激活常規(guī)和深度思考模式,實(shí)現(xiàn)在相同訓(xùn)練時(shí)長下顯著更強(qiáng)的常規(guī)模式性能和相似的深度思考模式性能。借助 RLPR 技術(shù),MiniCPM-V 4.5 進(jìn)一步從通用域多模態(tài)推理數(shù)據(jù)上獲得高質(zhì)量的獎(jiǎng)勵(lì)信號(hào),以提升廣泛通用領(lǐng)域的推理能力。最終,通過輕量化的 RLAIF-V 訓(xùn)練階段,模型在保持推理能力的同時(shí)顯著降低了幻覺。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
斯大林與朱可夫吵架,侍衛(wèi)長打了朱可夫兩耳光,保住了朱可夫性命

斯大林與朱可夫吵架,侍衛(wèi)長打了朱可夫兩耳光,保住了朱可夫性命

古書記史
2025-12-11 22:19:33
成都蓉城官方:真誠地向所有球迷家人征集對徐正源指導(dǎo)的祝福

成都蓉城官方:真誠地向所有球迷家人征集對徐正源指導(dǎo)的祝福

懂球帝
2025-12-19 15:10:14
高市早苗連續(xù)2天喊話中國,承認(rèn)自己該反思,希望與中方高層對話

高市早苗連續(xù)2天喊話中國,承認(rèn)自己該反思,希望與中方高層對話

知鑒明史
2025-12-18 18:27:37
浙金中心即將全額兌付?

浙金中心即將全額兌付?

WEALTH財(cái)富管理
2025-12-19 10:32:57
藏不住了!曹駿舒暢官宣喜訊,徹底成了藍(lán)盈瑩高攀不起的存在

藏不住了!曹駿舒暢官宣喜訊,徹底成了藍(lán)盈瑩高攀不起的存在

輝哥愛生活
2025-12-19 16:13:24
美國施壓歐盟放棄用俄被凍資產(chǎn)援烏!澤連斯基:若不能及時(shí)獲得資金撥付,烏將大幅削減無人機(jī)生產(chǎn)

美國施壓歐盟放棄用俄被凍資產(chǎn)援烏!澤連斯基:若不能及時(shí)獲得資金撥付,烏將大幅削減無人機(jī)生產(chǎn)

每日經(jīng)濟(jì)新聞
2025-12-18 22:48:31
王楚欽官宣新代言!手握第11個(gè)合同 年收入超5000萬 仍落后孫穎莎

王楚欽官宣新代言!手握第11個(gè)合同 年收入超5000萬 仍落后孫穎莎

侃球熊弟
2025-12-19 00:45:03
泰王認(rèn)命了?提幫功最新亮相兩眼空空面相大變,瑪哈的江山誰來繼承?

泰王認(rèn)命了?提幫功最新亮相兩眼空空面相大變,瑪哈的江山誰來繼承?

小魚愛魚樂
2025-12-19 14:38:57
火箭軍一等功營宿舍沒有豆腐塊 背囊蘊(yùn)藏勝戰(zhàn)密碼

火箭軍一等功營宿舍沒有豆腐塊 背囊蘊(yùn)藏勝戰(zhàn)密碼

海外網(wǎng)
2025-12-19 07:23:24
網(wǎng)友稱在閑魚買了清朝條約電子書,沒多久賣家賬號(hào)就被封禁

網(wǎng)友稱在閑魚買了清朝條約電子書,沒多久賣家賬號(hào)就被封禁

映射生活的身影
2025-12-18 18:22:37
造成毛岸英犧牲的罪魁禍?zhǔn)?,讓毛主席痛恨得罪人,他們下場如何?>
    </a>
        <h3>
      <a href=風(fēng)笛悠揚(yáng)聲
2025-12-04 10:08:06
少將軍銜處于什么水平?想要成為一名少將,晉升難度究竟有多大?

少將軍銜處于什么水平?想要成為一名少將,晉升難度究竟有多大?

源溯歷史
2025-12-16 21:19:53
1993年,劉曉慶采訪李訥問錯(cuò)話,李訥不悅:怎么會(huì)問這問題

1993年,劉曉慶采訪李訥問錯(cuò)話,李訥不悅:怎么會(huì)問這問題

大運(yùn)河時(shí)空
2025-12-19 13:55:03
小姐姐腰細(xì)臀翹美到犯規(guī),掛脖背心搭瑜伽褲,居然沒有一點(diǎn)贅肉

小姐姐腰細(xì)臀翹美到犯規(guī),掛脖背心搭瑜伽褲,居然沒有一點(diǎn)贅肉

小喬古裝漢服
2025-12-12 17:10:24
并非迷信!明日冬月初一,牢記:1不早、2不做、3不搬、4不吃

并非迷信!明日冬月初一,牢記:1不早、2不做、3不搬、4不吃

阿龍美食記
2025-12-19 15:14:19
市值蒸發(fā)超50%!成都網(wǎng)紅樓盤600萬房子,如今掛牌298萬無人問津

市值蒸發(fā)超50%!成都網(wǎng)紅樓盤600萬房子,如今掛牌298萬無人問津

火山詩話
2025-12-18 14:38:42
震驚!南博最大的受害者不是龐叔令后人,而是前博物館館長姚遷…

震驚!南博最大的受害者不是龐叔令后人,而是前博物館館長姚遷…

火山詩話
2025-12-19 06:05:11
上樹,遼寧鐵人球迷博主用藏頭詩暗示李提香將加盟

上樹,遼寧鐵人球迷博主用藏頭詩暗示李提香將加盟

懂球帝
2025-12-19 16:01:08
奧尼爾再次轉(zhuǎn)發(fā)托馬斯的歷史前十:詹姆斯第一、喬丹第八!

奧尼爾再次轉(zhuǎn)發(fā)托馬斯的歷史前十:詹姆斯第一、喬丹第八!

氧氣是個(gè)地鐵
2025-12-18 14:12:17
“靠校吃?!?,卸任15年后被查 貴州師范大學(xué)原副校長黃開烈被開除黨籍

“靠校吃?!?,卸任15年后被查 貴州師范大學(xué)原副校長黃開烈被開除黨籍

極目新聞
2025-12-19 12:52:04
2025-12-19 18:56:49
AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
7014文章數(shù) 20715關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

普京:俄羅斯目前沒有看到烏克蘭討論領(lǐng)土問題的意愿

頭條要聞

普京:俄羅斯目前沒有看到烏克蘭討論領(lǐng)土問題的意愿

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

旅游
數(shù)碼
健康
公開課
軍事航空

旅游要聞

三亞西島景區(qū)被指“拍攝壟斷”,關(guān)鍵是規(guī)則要透明 |新京報(bào)快評

數(shù)碼要聞

DDR5暴漲:玩家呼吁AMD銳龍7 5800X3D回歸!你同意嗎

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

媒體:美方官宣史上對臺(tái)單筆最大軍售 野心藏不住了

無障礙瀏覽 進(jìn)入關(guān)懷版