国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

干翻 GPT-4V 的面壁 8B「小鋼炮」,被Nature 收錄了

0
分享至



大模型已收斂,小模型還有廣闊天地。

作者丨陳為銳

編輯丨陳彩嫻

當(dāng)全球 AI 圈還在為千億參數(shù)模型的算力消耗焦頭爛額時(shí),一支由清華大學(xué)和面壁智能組成的團(tuán)隊(duì),悄悄在邊緣設(shè)備上完成了一場多模態(tài)大模型落地的變革。

日前,《Nature Communications》正式收錄了面壁智能此前發(fā)布的一項(xiàng)研究成果,該項(xiàng)研究推出了新模型 MiniCPM-V 系列,并重點(diǎn)介紹了首批 3 個(gè)模型,包括 MiniCPM-V 1.0、MiniCPM-V 2.0 和 MiniCPM-Llama3-V 2.5。

MiniCPM-V 1.0 使用預(yù)訓(xùn)練階段 1&2 和 SFT 進(jìn)行訓(xùn)練,未使用自適應(yīng)視覺編碼和 RLAIF-V;MiniCPM-V 2.0 包含了所有訓(xùn)練階段和自適應(yīng)視覺編碼策略,以進(jìn)一步提升性能;MiniCPM-Llama3-V 2.5 采用 Llama3-Instruct 8B 作為其基礎(chǔ) LLM,展現(xiàn)多模態(tài)理解能力。

研究結(jié)果表明,MiniCPM-V 僅用 80 億參數(shù)就實(shí)現(xiàn)了 GPT-4V 級別的多模態(tài)能力,不僅在 11 個(gè)權(quán)威基準(zhǔn)測試中全面超越 GPT-4V、Gemini Pro 和 Claude 3 等頭部模型,更顛覆了人們對邊緣計(jì)算的認(rèn)知,讓手機(jī)端也能運(yùn)行媲美云端的多模態(tài)大模型。


Nature Communications 地址:https://www.nature.com/articles/s41467-025-61040-5

01
80 億參數(shù)干翻 GPT-4V

MiniCPM-V 由三個(gè)關(guān)鍵模塊組成:視覺編碼器、壓縮層和 LLM。輸入圖像首先通過視覺編碼器進(jìn)行編碼,采用自適應(yīng)視覺編碼方法,然后,視覺標(biāo)記由壓縮層進(jìn)行壓縮,該層采用具有一層交叉注意力的感知器重采樣結(jié)構(gòu),最后,壓縮后的視覺標(biāo)記以及文本輸入被輸入到 LLM 中進(jìn)行條件文本生成。


圖源:Nature

作為面向邊緣設(shè)備的高效多模態(tài)大語言模型,MiniCPM-V 系列的技術(shù)創(chuàng)新主要體現(xiàn)在自適應(yīng)視覺編碼、漸進(jìn)式多模態(tài)學(xué)習(xí)、對齊優(yōu)化及邊緣部署優(yōu)化四大維度。

為解決高分辨率圖像編碼的效率與有效性難題,MiniCPM-V 采用了分層處理策略,將圖像分割為最多 10 個(gè)切片,每個(gè)切片調(diào)整至與視覺編碼器預(yù)訓(xùn)練設(shè)置匹配的分辨率和縱橫比,接著通過 ViT 編碼器將每個(gè)切片轉(zhuǎn)換為 1024 個(gè)視覺令牌,再經(jīng)壓縮層將 token 數(shù)量大幅縮減,最后引入空間 schema 標(biāo)記各切片在原圖中的位置關(guān)系,確保全局信息完整性,相比傳統(tǒng)方法顯著降低了計(jì)算量與內(nèi)存占用。

在模型訓(xùn)練階段,MiniCPM-V 通過大規(guī)模圖文對實(shí)現(xiàn)視覺模塊與語言模型的空間對齊,分三階段逐步擴(kuò)展輸入分辨率并引入 OCR 數(shù)據(jù)增強(qiáng)文本識別能力;監(jiān)督微調(diào)階段整合高質(zhì)量視覺問答數(shù)據(jù),而后再通過 RLAIF-V 方法,通過開源模型生成多版本響應(yīng)并拆分原子聲明進(jìn)行真實(shí)性評分,最終利用 DPO 算法優(yōu)化偏好學(xué)習(xí),能有效降低幻覺率。

而真正讓 MiniCPM-V 有希望 “顛覆行業(yè)” 的,是其在邊緣設(shè)備上的高效部署能力。

傳統(tǒng)多模態(tài)模型只能在云端運(yùn)行,而 MiniCPM-V 通過 4 位量化、內(nèi)存序貫加載、目標(biāo)設(shè)備編譯優(yōu)化、自動(dòng)參數(shù)搜索及 NPU 加速等技術(shù),實(shí)現(xiàn)了在智能手機(jī)、PC 等邊緣設(shè)備上的高效運(yùn)行,在內(nèi)存需求從 16-17G 降至 5G 的情況下,實(shí)現(xiàn)了編碼延遲從 50.5s 降至 17.0s,視覺編碼時(shí)間縮短 65%,減少了 45.2% 圖像處理時(shí)間。

在 11 項(xiàng)公開基準(zhǔn)測試中,80 億參數(shù)的 MiniCPM-Llama3-V2.5 展現(xiàn)出顯著優(yōu)勢:在 OpenCompass 評分中超越 GPT-4V(2023.11.16 版本)、Gemini Pro 和 Claude 3 等專有模型,同時(shí)在 OCRBench、TextVQA 等文本識別任務(wù)上優(yōu)于 Qwen-VL-Max 等開源模型,表格轉(zhuǎn) Markdown 等實(shí)用功能表現(xiàn)突出。與強(qiáng)大的專有模型相比,MiniCPM-Llama3-V 2.5 在參數(shù)數(shù)量顯著更少的情況下實(shí)現(xiàn)了更好的性能,更適合廣泛應(yīng)用。


圖源:Nature

此外,MiniCPM-V 模型也展現(xiàn)出強(qiáng)大的 OCR 能力,包括場景文本、文檔和截圖理解。模型在 OCRBench、TextVQA 和 DocVQA 上優(yōu)于 1.7B–34B 的開源 MLLMs,20 億參數(shù)的 V2.0 版本性能超過同規(guī)模模型,甚至媲美 80 億參數(shù)模型;幻覺率在 Object HalBench 上低于 GPT-4V。


圖源:Nature

效率方面,MiniCPM-V 的推理計(jì)算量顯著更低。MiniCPM-Llama3-V 2.5 的視覺 token 數(shù)量范圍是(96,960),低于 LLaVA-NeXT-Llama-3-8B 的(1728,2880),使得其在推理速度、首 token 延遲、內(nèi)存使用和功耗方面更適配實(shí)際設(shè)備應(yīng)用。

不過,盡管性能表現(xiàn)良好,但研究人員也表示,當(dāng)前的 MiniCPM-V 模型仍存在一些局限性,在多模態(tài)理解能力和推理效率方面以及將能力擴(kuò)展到其他模態(tài)方面仍有很大的改進(jìn)空間。

02
為什么完成從 "云端依賴" 到 "端側(cè)自由" 的跨越很重要?

在我們看來,這篇論文的意義遠(yuǎn)不止于技術(shù)突破,其核心觀點(diǎn)在于,如果能實(shí)現(xiàn)多模態(tài)大模型從云端到端側(cè)的全面轉(zhuǎn)型,或許整個(gè)行業(yè)能迎來一個(gè)新的 “iPhone” 時(shí)刻,開啟端側(cè) AI 的黃金時(shí)代。

多模態(tài)大模型的快速發(fā)展為理解、推理和交互的多模態(tài)能力帶來了飛躍,不僅從根本上重塑了人工智能研究和產(chǎn)業(yè)格局,也為通往下一階段人工智能指明了路徑。

然而,當(dāng)前的多模態(tài)大模型仍遠(yuǎn)未達(dá)到實(shí)際應(yīng)用于現(xiàn)實(shí)世界的水平,最主要的原因在于多模態(tài)大模型龐大參數(shù)數(shù)量帶來的沉重計(jì)算負(fù)擔(dān),使得大多數(shù)模型只能部署在高性能云服務(wù)器上。這一局限性不僅導(dǎo)致了巨大的能源消耗,還限制了多模態(tài)大模型在移動(dòng)設(shè)備、能源敏感場景、無穩(wěn)定網(wǎng)絡(luò)連接等離線環(huán)境中的潛在應(yīng)用范圍。

此外,對于多模態(tài)大模型來說,智能手機(jī)和計(jì)算機(jī)等邊緣設(shè)備由于散熱、尺寸限制和功耗等因素,往往面臨資源限制。

在部署模型時(shí),最關(guān)鍵的兩大限制是內(nèi)存容量和 CPU/GPU 處理速度。高性能服務(wù)器通常擁有龐大的內(nèi)存容量,往往超過 100GB 甚至 1TB,相比之下,手機(jī)的內(nèi)存通常在 12GB 到 16GB 之間,這對于 MLLM 部署可能不足。

另一方面,智能手機(jī)中 CPU 的整體處理速度明顯較慢。對比來看,驍龍 8 Gen3 只有 8 個(gè) CPU 核心,Intel Xeon Platinum 8580 則達(dá)到了 60 個(gè) CPU 核心,功效方面,高通 Adreno 750 只有 6 TFLOPS,而 NVIDIA 4090 則可以達(dá)到 83 TFLOPS。

也正因此,在行業(yè)越來越關(guān)注輕量級多模態(tài)大語言模型的當(dāng)下,面壁智能提出了可在邊緣設(shè)備上部署的 MiniCPM-V 系列,場景涵蓋手機(jī)、個(gè)人電腦、車輛和機(jī)器人等更廣泛的設(shè)備范圍。

MiniCPM-V 的理念是在性能和效率之間取得良好平衡,有望成為多模態(tài)大模型小型化趨勢的一個(gè)代表案例。

根據(jù)研究人員的說法,在總結(jié)多模態(tài)大模型在性能、參數(shù)和發(fā)布時(shí)間方面的最新發(fā)展后,可以觀察到一條類似摩爾定律的趨勢:達(dá)到 GPT-4V 級別性能的模型大小隨著時(shí)間的推移迅速減小,這種現(xiàn)象或許可以被稱為 MLLMs 的摩爾定律。

同時(shí),手機(jī)和個(gè)人電腦等邊緣設(shè)備的計(jì)算能力正在穩(wěn)步增加,這兩種趨勢的融合表明,可在邊緣設(shè)備上部署的可用(例如 GPT-4V 級別)多模態(tài)大模型很快就會(huì)落地。

這種離線智能的實(shí)現(xiàn),讓端側(cè)設(shè)備完成了從功能機(jī)到智能機(jī)的跨越,設(shè)備不再是云端顯示器,而是成為真正的智能主體。


在多臺(tái)邊緣設(shè)備上部署 MiniCPM-V。得益于部署優(yōu)化技術(shù),MiniCPM-Llama3-V 2.5 可以在手機(jī)和個(gè)人電腦上高效運(yùn)行,提供可接受的延遲和吞吐量(圖源:Nature)

在端側(cè)智能的需求下,MiniCPM-V 能夠登上《Nature Communications》,原因之一或許在于其揭開了這場智能革命的一角,推動(dòng)著 AI 從 "少數(shù)人的工具" 走向 "大眾的能力"的變化。當(dāng) 80 億參數(shù)的模型能在手機(jī)上流暢運(yùn)行,普通人也能在更安全、更多元的場景下享受多模態(tài)智能。

隨著邊緣計(jì)算能力的持續(xù)提升和模型效率的不斷優(yōu)化,AI 普及化的下一個(gè)爆發(fā)點(diǎn),將出現(xiàn)在每個(gè)人的指尖之下、設(shè)備之中。邊緣智能的時(shí)代,正在加速到來。


未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
南京博物館:捐贈(zèng)已歸國家,無義務(wù)返還

南京博物館:捐贈(zèng)已歸國家,無義務(wù)返還

映射生活的身影
2025-12-19 17:13:17
郭士強(qiáng)世預(yù)賽該帶他?徐杰17+9+5三分完勝郭艾倫 總助攻超王仕鵬

郭士強(qiáng)世預(yù)賽該帶他?徐杰17+9+5三分完勝郭艾倫 總助攻超王仕鵬

醉臥浮生
2025-12-19 21:49:22
“滾回自己的國家!”近日,陜西西安,4名印度留學(xué)生去吃飯,

“滾回自己的國家!”近日,陜西西安,4名印度留學(xué)生去吃飯,

忠于法紀(jì)
2025-12-19 18:27:15
難怪高市早苗不松口,日本等1個(gè)特殊日子,中方主動(dòng)邀日首相訪華

難怪高市早苗不松口,日本等1個(gè)特殊日子,中方主動(dòng)邀日首相訪華

楠楠自語
2025-12-19 03:16:26
?沒有家族托舉,普通人通常35-40歲才會(huì)明白社會(huì)運(yùn)行的真實(shí)邏輯

?沒有家族托舉,普通人通常35-40歲才會(huì)明白社會(huì)運(yùn)行的真實(shí)邏輯

詩詞中國
2025-12-17 22:41:53
無論結(jié)果如何,賴清德已被臺(tái)灣主流民意彈劾掉了

無論結(jié)果如何,賴清德已被臺(tái)灣主流民意彈劾掉了

環(huán)球網(wǎng)資訊
2025-12-19 15:08:06
剎車失靈時(shí)速115狂奔490公里司機(jī)發(fā)聲:4個(gè)半小時(shí)高度緊張,害怕車多有急彎,油盡下車后渾身發(fā)抖無法說話

剎車失靈時(shí)速115狂奔490公里司機(jī)發(fā)聲:4個(gè)半小時(shí)高度緊張,害怕車多有急彎,油盡下車后渾身發(fā)抖無法說話

極目新聞
2025-12-19 13:12:07
停播7年,那個(gè)挽救無數(shù)司機(jī)的“網(wǎng)紅交警”譚喬,卻挽救不了自己

停播7年,那個(gè)挽救無數(shù)司機(jī)的“網(wǎng)紅交警”譚喬,卻挽救不了自己

以茶帶書
2025-12-18 17:14:01
炸裂!26歲女子猥褻12歲侄子,丈夫披露事發(fā)細(xì)節(jié),鑒定結(jié)果引質(zhì)疑

炸裂!26歲女子猥褻12歲侄子,丈夫披露事發(fā)細(xì)節(jié),鑒定結(jié)果引質(zhì)疑

派大星紀(jì)錄片
2025-12-19 11:47:05
一個(gè)月幾次性生活算健康?哈佛研究:每月21次,降低22%患癌風(fēng)險(xiǎn)

一個(gè)月幾次性生活算健康?哈佛研究:每月21次,降低22%患癌風(fēng)險(xiǎn)

思思夜話
2025-12-19 13:52:50
近30年評分最高的10部電視劇,《漫長的季節(jié)》第6,第1實(shí)至名歸

近30年評分最高的10部電視劇,《漫長的季節(jié)》第6,第1實(shí)至名歸

皮皮電影
2025-12-19 10:47:48
突發(fā)!滬閔高架車輛起火致?lián)矶?>
    </a>
        <h3>
      <a href=上觀新聞
2025-12-19 22:07:08
臺(tái)媒:臺(tái)北捷運(yùn)發(fā)生隨機(jī)砍人事件已致9人受傷,嫌犯墜樓

臺(tái)媒:臺(tái)北捷運(yùn)發(fā)生隨機(jī)砍人事件已致9人受傷,嫌犯墜樓

界面新聞
2025-12-19 19:38:33
“日本僅占地球0.1%,卻毀掉71%海洋”,去年蜜雪冰城小票事件又被翻出來了

“日本僅占地球0.1%,卻毀掉71%海洋”,去年蜜雪冰城小票事件又被翻出來了

回旋鏢
2025-12-19 18:01:40
海南封關(guān)引爆全網(wǎng)!新加坡中轉(zhuǎn)降11%,中國改寫全球貿(mào)易格局

海南封關(guān)引爆全網(wǎng)!新加坡中轉(zhuǎn)降11%,中國改寫全球貿(mào)易格局

書紀(jì)文譚
2025-12-19 13:21:05
越南多家銀行調(diào)升6個(gè)月定期存款年息至7.5%

越南多家銀行調(diào)升6個(gè)月定期存款年息至7.5%

越南語學(xué)習(xí)平臺(tái)
2025-12-19 10:35:59
“中國保險(xiǎn)經(jīng)紀(jì)第一人”、江泰保險(xiǎn)經(jīng)紀(jì)董事長沈開濤疑似失聯(lián),此前公司有多人被帶走協(xié)查

“中國保險(xiǎn)經(jīng)紀(jì)第一人”、江泰保險(xiǎn)經(jīng)紀(jì)董事長沈開濤疑似失聯(lián),此前公司有多人被帶走協(xié)查

紅星新聞
2025-12-19 20:27:12
到底是什么肉?消費(fèi)者:必勝客實(shí)物牛排與菜單差距大,口感奇怪;暗訪發(fā)現(xiàn)…

到底是什么肉?消費(fèi)者:必勝客實(shí)物牛排與菜單差距大,口感奇怪;暗訪發(fā)現(xiàn)…

上觀新聞
2025-12-19 14:17:05
新華社證實(shí)南京博物院賣了《江南春》,事情變得更加撲朔迷離

新華社證實(shí)南京博物院賣了《江南春》,事情變得更加撲朔迷離

銀河敘事
2025-12-19 13:00:27
馬文峰任廣東省外事辦公室主任

馬文峰任廣東省外事辦公室主任

中國經(jīng)濟(jì)網(wǎng)
2025-12-19 14:20:06
2025-12-19 22:20:49
AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
7014文章數(shù) 20715關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

普京:西方“通過烏克蘭的手”同俄作戰(zhàn)

頭條要聞

普京:西方“通過烏克蘭的手”同俄作戰(zhàn)

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

日元加息,恐慌來了?貨幣三國殺

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

本地
健康
時(shí)尚
教育
公開課

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

這些新療法,讓化療不再那么痛苦

我用1秒成為陳妍希夢女,你也來試試吧

教育要聞

重磅官宣!華師全球招聘,就等你來!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版