国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

面壁智能開(kāi)源全模態(tài)模型MiniCPM-o4.5,邊看邊聽(tīng)還能主動(dòng)搶答

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

空氣炸鍋“?!绷艘宦暋?/p>

我還沒(méi)反應(yīng)過(guò)來(lái),AI先開(kāi)口了:“好了,它已經(jīng)叮了?!?/p>

這不是語(yǔ)音助手升級(jí),而是面壁智能剛開(kāi)源的全模態(tài)模型MiniCPM-o4.5

手機(jī)往廚房一放,它能一邊跟你說(shuō)話,一邊盯著灶臺(tái)、聽(tīng)動(dòng)靜。

不再是“你問(wèn)一句、它答一句”,而是邊看、邊聽(tīng)、主動(dòng)說(shuō)的AI。

AI開(kāi)始豎起耳朵,瞪大眼睛

既然這AI這么能盯,還能提醒,那是不是干脆給它掛在教室、樓道門口?

老師家長(zhǎng)一來(lái)就提醒我,豈不美哉?(doge)



Wwwwwait!AI肯定不是這么用的。

不過(guò),在實(shí)測(cè)和官方用例里,我們確實(shí)發(fā)現(xiàn)了一件挺有意思的事:它能干的事兒,已經(jīng)和以前的AI不一樣了。

先說(shuō)最直觀的。

這次面壁的MiniCPM-o4.5,最大的變化,其實(shí)就一句話:它能一邊聽(tīng)、一邊看,還能主動(dòng)說(shuō)

比如逛超市,人往前走,貨架在變,商品也在變。

隨口問(wèn)一句:水果都什么價(jià)?它立馬接得上。

這里的關(guān)鍵不在“答得快”,而在于它在回答我的同時(shí),眼睛其實(shí)沒(méi)停,一直跟著你看。

你走著,貨架在變,它也能馬上接話,就像旁邊有個(gè)朋友。

要是放在以前的AI身上,基本就是你問(wèn)一句,它答一句。

等它下一次再說(shuō)話,才重新“看”一次世界,加載的圓圈多少要重新開(kāi)始轉(zhuǎn)幾圈。

再比如出門上班。你走進(jìn)電梯,刷著手機(jī),腦子已經(jīng)在想別的事了。

你只需要在一開(kāi)始告訴它提醒你,它就能持續(xù)識(shí)別電梯樓層的變化,在你該下的時(shí)候,直接開(kāi)口提醒。

還有一點(diǎn)也很關(guān)鍵:MiniCPM-o4.5不需要你先開(kāi)口,也能主動(dòng)應(yīng)答

這一點(diǎn),在開(kāi)頭的測(cè)試?yán)锉憩F(xiàn)得特別明顯。因?yàn)樵诂F(xiàn)實(shí)場(chǎng)景中,等你再去問(wèn)一句“好了沒(méi)”,往往已經(jīng)晚了。

真正有用的是——你沒(méi)問(wèn),AI聽(tīng)到“?!钡囊宦?,直接來(lái)一句:“加熱好了。”

此外,我們還發(fā)現(xiàn)MiniCPM-o4.5一個(gè)挺反直覺(jué)的地方:它在說(shuō)話的時(shí)候,也還在聽(tīng)

因?yàn)榇蠹叶贾溃艘坏╅_(kāi)口說(shuō)話,注意力基本就不在“聽(tīng)”上了。



但o4.5不一樣,一方面,它能一邊跟你聊天,一邊留意外界的動(dòng)靜——

敲門聲、燒水聲、空氣炸鍋“?!钡哪且幌?,都不會(huì)被漏掉。

更狠的是,在它自己說(shuō)話的時(shí)候,也能聽(tīng)見(jiàn)你新插進(jìn)來(lái)的指令,能實(shí)現(xiàn)即時(shí)自由對(duì)話

為此,我們刻意做了件有點(diǎn)“為難”模型的事。

它正在解說(shuō)畫面的藍(lán)色鴨子在哪里,這時(shí)我突然插一句新的要求,讓它告訴我小黃(鴨子)在哪里。

結(jié)果是,MiniCPM-o4.5在說(shuō)完上句話后,立馬回答了這句突然插入的話。

這也讓MiniCPM-o4.5跟那種一問(wèn)一答的AI不一樣。

它不是等你說(shuō)完一句再輪到它,而是一邊聽(tīng)、一邊說(shuō),一邊隨時(shí)改口

換句話說(shuō),今年的AI已經(jīng)不玩回合制問(wèn)答,開(kāi)始整臨場(chǎng)反應(yīng),學(xué)會(huì)搶答了。



順帶一提,除了上面這些,還有更“邪修”的玩法。比如讓AI解說(shuō)實(shí)況比賽,或者盯著你練組數(shù)、數(shù)次數(shù)。

我們就不一一演示了,鏈接在最后,留給大家自己去慢慢折騰。

首個(gè)可以「即時(shí)自由對(duì)話」的大模型

那么,上面這些“自由對(duì)話”是怎么做到的?

關(guān)鍵在于MiniCPM-o4.5對(duì)交互方式本身做了重構(gòu)

以往的多模態(tài)模型,本質(zhì)是串行的:先聽(tīng)完,再想,再說(shuō)。

一旦開(kāi)始輸出,模型對(duì)外界輸入的感知就會(huì)被暫停,形成典型的I/O阻塞,這是無(wú)法邊看邊聽(tīng)邊說(shuō)的原因。

在MiniCPM-o4.5中,面壁團(tuán)隊(duì)首次引入了全雙工(Full-Duplex)多模態(tài)實(shí)時(shí)流機(jī)制。模型可以一邊持續(xù)接收視頻和音頻輸入,一邊同步生成語(yǔ)音或文本輸出,兩條信息流并行運(yùn)行,互不阻塞。

在實(shí)現(xiàn)上,MiniCPM-o4.5將原本離線的模態(tài)編碼器與解碼器,升級(jí)為支持流式輸入/輸出的在線版本;

語(yǔ)音側(cè)采用文本與語(yǔ)音token交錯(cuò)建模,既支持全雙工語(yǔ)音生成,也提升了長(zhǎng)語(yǔ)音生成的穩(wěn)定性。

同時(shí),通過(guò)時(shí)分復(fù)用機(jī)制,對(duì)在毫秒級(jí)時(shí)間線上對(duì)齊的多模態(tài)輸入與輸出進(jìn)行統(tǒng)一建模,實(shí)現(xiàn)高效的流式處理。



在整體架構(gòu)上,MiniCPM-o4.5采用端到端的全模態(tài)設(shè)計(jì),通過(guò)稠密特征將各模態(tài)的編碼器與解碼器直接連接到大語(yǔ)言模型主干,視覺(jué)、音頻等模態(tài)在模型生成輸出的同時(shí)仍能持續(xù)更新。

除了并行處理,MiniCPM-o4.5還改變了對(duì)話時(shí)機(jī)的判斷方式。模型會(huì)持續(xù)進(jìn)行語(yǔ)義層面的判斷,并以1Hz的頻率決定是否介入回應(yīng),而不再依賴“檢測(cè)到靜音就回答”的VAD(語(yǔ)音互動(dòng)檢測(cè))機(jī)制。

(傳統(tǒng)語(yǔ)音助手往往依賴外部的VAD:一旦檢測(cè)到短暫靜音,就認(rèn)為用戶“說(shuō)完了”并開(kāi)始回答)

這使得模型不僅能被自然打斷,還能基于對(duì)場(chǎng)景的持續(xù)理解,主動(dòng)發(fā)起提醒或評(píng)論。

這也是為什么前面我還沒(méi)把話說(shuō)完,它就已經(jīng)“搶答”了。

此外,值得一提的是,在Benchmark測(cè)試上,MiniCPM-o4.5的表現(xiàn)同樣亮眼。

在僅9B參數(shù)規(guī)模下,模型在全模態(tài)理解、視覺(jué)理解、文檔解析、語(yǔ)音理解與生成,聲音克隆等多個(gè)方向上,均達(dá)到了當(dāng)前全模態(tài)模型的領(lǐng)先水平



那么像MiniCPM-o4.5這樣,邊看、邊聽(tīng)、主動(dòng)說(shuō)的AI,意味著什么?

最近,Clawdbot(現(xiàn)已更名為OpenClaw)的爆火,其實(shí)已經(jīng)提前給了答案:人們真正需要的,可能不是“更聰明的問(wèn)答機(jī)”,而是能持續(xù)運(yùn)行、一直在場(chǎng)的AI

不是你問(wèn)它一句,它才醒一下;而是它本來(lái)就在運(yùn)行,在看、在聽(tīng),也隨時(shí)準(zhǔn)備說(shuō)話。

這,正是這類“邊看、邊聽(tīng)、主動(dòng)說(shuō)”的模型真正產(chǎn)生價(jià)值的地方。

過(guò)去的AI,更像對(duì)講機(jī)。你說(shuō)完,它才聽(tīng);它一開(kāi)口,外界就等于被按了暫停鍵。

而這一次,面壁做的嘗試是:讓AI在說(shuō)話的時(shí)候,世界周遭事物依然是流動(dòng)的。它在持續(xù)感知世界的同時(shí),也在持續(xù)參與對(duì)話和行為,而不是僅在節(jié)點(diǎn)式的“提問(wèn)/回復(fù)”之間來(lái)回倒騰。

也正因?yàn)檫@樣,它能自然地延展到更多地方:

對(duì)具身智能來(lái)說(shuō),感知、決策、動(dòng)作本來(lái)就不該被拆開(kāi);對(duì)車端或終端助手來(lái)說(shuō),真正有用的往往不是“回答問(wèn)題”,而是在合適的時(shí)機(jī)接話;對(duì)復(fù)雜系統(tǒng)來(lái)說(shuō),“等一下再想”本身就是一種失效。

因此,全雙工并不是體驗(yàn)升級(jí),而是AI能否真正進(jìn)入現(xiàn)實(shí)連續(xù)世界的分水嶺。

也正是在這個(gè)意義上,面壁將MiniCPM-o4.5定義為一款全模態(tài)的基礎(chǔ)模型,并以此作為后續(xù)賦能汽車、手機(jī)、機(jī)器人等各類終端形態(tài)的起點(diǎn)。

面壁智能:只做端,把端做到極致

面壁智能成立于2022年8月。

在端側(cè)AI還遠(yuǎn)沒(méi)成為行業(yè)熱詞、討論重心仍集中在云端和算力堆疊時(shí),面壁就已經(jīng)把方向押在了端側(cè)AI模型這條路上。

這次發(fā)布的MiniCPM-o4.5,由清華大學(xué)人工智能學(xué)院助理教授、面壁智能多模態(tài)首席科學(xué)家姚遠(yuǎn)牽頭研發(fā)。

在整場(chǎng)發(fā)布中,面壁反復(fù)強(qiáng)調(diào)了兩個(gè)關(guān)鍵詞:軟硬一體,端側(cè)部署

以MiniCPM-o4.5為例,它主打的是持續(xù)感知視覺(jué)和聽(tīng)覺(jué)環(huán)境。而這種“全天候伴隨”的AI形態(tài),本身就無(wú)法以云端為主要形態(tài)存在。

一方面是不可回避的隱私風(fēng)險(xiǎn);另一方面,是延遲、穩(wěn)定性和可用性在工程上根本扛不住。

也正因?yàn)槿绱?,MiniCPM-o4.5從一開(kāi)始就被定義為一款端側(cè)模型,并且與面壁長(zhǎng)期堅(jiān)持的端側(cè)路線保持高度一致。

面壁智能聯(lián)合創(chuàng)始人、CEO李大海在采訪中提到:

  • 端側(cè)模型的目標(biāo),本來(lái)就是賦能終端,而賦能終端天然就要跟端側(cè)芯片要做更深的結(jié)合。

據(jù)透露,過(guò)去近兩年,面壁與多家芯片廠商形成了一種高度協(xié)同的工作方式:

芯片在設(shè)計(jì)階段就向模型側(cè)開(kāi)放,驗(yàn)證架構(gòu)是否匹配未來(lái)模型需求;模型研發(fā)也同步反向輸入,對(duì)算子形式與硬件能力提出明確要求。

這種軟硬一體、雙向奔赴,已經(jīng)成為模型演進(jìn)的前提條件。

在具體的路徑上,面壁智能聯(lián)合創(chuàng)始人、COO雷升濤則給出了更清晰的拆解:

  • 端原生模型:不把云端模型壓縮下來(lái)跑,而是在訓(xùn)練階段就以端側(cè)芯片為目標(biāo)環(huán)境,讓模型“生來(lái)就能跑在端上”。
  • 軟硬協(xié)同的Infra層:包括量化、精度壓縮之后能力如何保持。這一層技術(shù)難度極高,依賴長(zhǎng)期積累,是最核心的壁壘。
  • 產(chǎn)品化交付:把這些能力打包成可直接使用的方案,交付給客戶和合作伙伴,跑在不同終端上。

像面壁計(jì)劃在年中發(fā)布的首款A(yù)I硬件松果派(Pinea Pi),用于支持硬件場(chǎng)景的全棧開(kāi)發(fā),以及過(guò)去一年多在智能座艙等方向的落地,都是這條軟硬協(xié)同路線的具體體現(xiàn)。

從這個(gè)角度看,MiniCPM-o4.5本身也可以被理解為一款端側(cè)原生的全模態(tài)模型。

據(jù)面壁智能介紹,MiniCPM-o4.5將與松果派這款AI Native的端側(cè)智能開(kāi)發(fā)板配套推出,計(jì)劃于今年上市,在開(kāi)發(fā)板上實(shí)現(xiàn)“開(kāi)箱即用”,面向開(kāi)發(fā)者快速構(gòu)建端側(cè)智能硬件。

與此同時(shí),松果派等端側(cè)硬件本身,也構(gòu)成了面壁在生態(tài)層面的能力:

在發(fā)布模型的同時(shí),就明確指定并深度適配好的硬件平臺(tái),讓開(kāi)發(fā)者更快上手,讓終端廠商更快把能力真正跑進(jìn)場(chǎng)景里。

本質(zhì)上,這是在打通端側(cè)模型到應(yīng)用的最后一公里

當(dāng)被問(wèn)及如何看待有越來(lái)越多玩家進(jìn)入端側(cè)市場(chǎng)時(shí),面壁也指出了一個(gè)常被誤解的地方:很多人把“端側(cè)”當(dāng)成一個(gè)統(tǒng)一市場(chǎng)。

但在面壁看來(lái),其實(shí)恰恰相反——端側(cè)由大量差異化終端和長(zhǎng)尾高價(jià)值場(chǎng)景構(gòu)成。

從技術(shù)上看,端側(cè)的關(guān)鍵不是規(guī)模,而是用盡可能少的參數(shù),實(shí)現(xiàn)盡可能強(qiáng)的能力。

從商業(yè)上看,這也意味著:這是一個(gè)可以同時(shí)容納很多創(chuàng)業(yè)公司的市場(chǎng),而不是必須打“陣地戰(zhàn)”的地方。

也正是在這種背景下,面壁給出的差異化非常明確:

  • 我們最大的差異化就是我們只做端,而且我們把端做到極致。如果一家公司專注于做端的話,那我覺(jué)得其他公司可能很難跟我們相比把端做得這么好。

從兩三年前手機(jī)、車、機(jī)器人普遍質(zhì)疑“真的需要大模型嗎”,到今天逐漸成為共識(shí),端側(cè)AI正在不斷被重新定義。

而MiniCPM-o4.5所呈現(xiàn)的,并不是一次炫技式的能力展示,而是面壁這條路線走到今天的自然結(jié)果:

只做端,把端做到極致

GitHub:https://github.com/OpenBMB/MiniCPM-o
HuggingFace:https://huggingface.co/openbmb/MiniCPM-o-4_5
ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
體驗(yàn)鏈接-全雙工全模態(tài)模式:https://huggingface.co/spaces/openbmb/minicpm-omni
體驗(yàn)鏈接-圖文對(duì)話模式:http://211.93.21.133:18121/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
緊急提醒!山東大范圍雨雪來(lái)襲!萊蕪北部中到大雪

緊急提醒!山東大范圍雨雪來(lái)襲!萊蕪北部中到大雪

萊蕪福禧今日信息
2026-03-01 06:33:00
終于知道為什么有的房東只租給女租戶,網(wǎng)友分享很真實(shí),畫面感很強(qiáng)

終于知道為什么有的房東只租給女租戶,網(wǎng)友分享很真實(shí),畫面感很強(qiáng)

墻頭草
2026-02-21 10:06:26
溫馨!孫穎莎18連勝早田希娜場(chǎng)邊和劉國(guó)梁慶祝,揮揮手和老領(lǐng)導(dǎo)拜拜

溫馨!孫穎莎18連勝早田希娜場(chǎng)邊和劉國(guó)梁慶祝,揮揮手和老領(lǐng)導(dǎo)拜拜

818體育
2026-02-28 23:22:25
冬奧會(huì)剛結(jié)束!2歸化或離開(kāi)國(guó)家隊(duì),谷愛(ài)凌年賺1.6億+還獲贈(zèng)3臺(tái)車

冬奧會(huì)剛結(jié)束!2歸化或離開(kāi)國(guó)家隊(duì),谷愛(ài)凌年賺1.6億+還獲贈(zèng)3臺(tái)車

法老不說(shuō)教
2026-02-27 17:10:58
八十年代,廈門搞特區(qū)讓駐軍全撤,市委書記與軍政委說(shuō)話不客氣!

八十年代,廈門搞特區(qū)讓駐軍全撤,市委書記與軍政委說(shuō)話不客氣!

混沌錄
2026-02-13 00:10:08
讓央視春晚給全國(guó)道歉,入美國(guó)籍回中國(guó)撈金,她到底有什么來(lái)頭?

讓央視春晚給全國(guó)道歉,入美國(guó)籍回中國(guó)撈金,她到底有什么來(lái)頭?

陌上桃花開(kāi)的
2026-02-28 16:16:42
吳夢(mèng)潔33分,北京女排爆冷輸球,天津兩連敗,四強(qiáng)恐不保

吳夢(mèng)潔33分,北京女排爆冷輸球,天津兩連敗,四強(qiáng)恐不保

跑者排球視角
2026-02-28 23:21:01
“清華學(xué)霸”李一諾:27歲博士畢業(yè),4年生3個(gè)娃,替世界首富花錢

“清華學(xué)霸”李一諾:27歲博士畢業(yè),4年生3個(gè)娃,替世界首富花錢

北有南梔
2026-02-28 17:55:03
小米超跑正式亮相! 小米 Vision GT 帶著兩大「黑科技」來(lái)了

小米超跑正式亮相! 小米 Vision GT 帶著兩大「黑科技」來(lái)了

愛(ài)范兒
2026-03-01 00:58:46
精神小妹的生活原來(lái)是這樣的!網(wǎng)友:終于知道她們?yōu)樯抖歼@么瘦了

精神小妹的生活原來(lái)是這樣的!網(wǎng)友:終于知道她們?yōu)樯抖歼@么瘦了

深度報(bào)
2026-02-11 23:35:03
5500 萬(wàn)打水漂!紐卡最爛引援曝光,埃迪·豪腸子都悔青了

5500 萬(wàn)打水漂!紐卡最爛引援曝光,埃迪·豪腸子都悔青了

奶蓋熊本熊
2026-03-01 05:53:21
孩子第一天就轟動(dòng)學(xué)校是啥感覺(jué)?網(wǎng)友:這孩子以后能成大事

孩子第一天就轟動(dòng)學(xué)校是啥感覺(jué)?網(wǎng)友:這孩子以后能成大事

解讀熱點(diǎn)事件
2026-02-25 15:32:21
無(wú)人問(wèn)津!半年換4隊(duì)+被裁2次,這可是13號(hào)秀啊,唏噓

無(wú)人問(wèn)津!半年換4隊(duì)+被裁2次,這可是13號(hào)秀啊,唏噓

球童無(wú)忌
2026-02-28 23:07:03
伊朗軍政高層遭大規(guī)模“斬首打擊”

雪中風(fēng)車
2026-02-28 18:10:49

戰(zhàn)爭(zhēng)風(fēng)險(xiǎn)不斷升高!美軍重兵集結(jié)中東,“數(shù)十年來(lái)最大規(guī)模”

環(huán)球網(wǎng)資訊
2026-02-25 06:53:10

馬筱梅前夫鄭揚(yáng)融底細(xì)曝光!家境優(yōu)渥卻留不住她,原因太現(xiàn)實(shí)!

馬筱梅前夫鄭揚(yáng)融底細(xì)曝光!家境優(yōu)渥卻留不住她,原因太現(xiàn)實(shí)!

老頭的傳奇色彩
2026-02-26 21:11:01
韓國(guó)《花樣男子》男演員被曝在物流中心打工,經(jīng)紀(jì)公司:屬實(shí),為維持生計(jì)

韓國(guó)《花樣男子》男演員被曝在物流中心打工,經(jīng)紀(jì)公司:屬實(shí),為維持生計(jì)

紅星新聞
2026-02-28 12:51:22
比亞迪秦PLUS最強(qiáng)金融政策發(fā)布:首付 2.98 萬(wàn)起,提供 3 年 0 息、7 年低息方案

比亞迪秦PLUS最強(qiáng)金融政策發(fā)布:首付 2.98 萬(wàn)起,提供 3 年 0 息、7 年低息方案

驅(qū)動(dòng)中國(guó)
2026-02-28 18:59:05
京都那么多臨濟(jì)宗的古寺,發(fā)源地就在河北正定

京都那么多臨濟(jì)宗的古寺,發(fā)源地就在河北正定

地主陸
2026-02-27 14:15:12
節(jié)后門診爆滿,這種“神器”火了!有人用后嘔吐、厭食,醫(yī)生緊急提醒

節(jié)后門診爆滿,這種“神器”火了!有人用后嘔吐、厭食,醫(yī)生緊急提醒

環(huán)球網(wǎng)資訊
2026-02-26 07:26:21
2026-03-01 09:00:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12211文章數(shù) 176398關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

特朗普稱哈梅內(nèi)伊身亡 后者去年6月布局完整繼承體系

頭條要聞

特朗普稱哈梅內(nèi)伊身亡 后者去年6月布局完整繼承體系

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂(lè)要聞

周杰倫兒子正面照曝光,與父親好像

財(cái)經(jīng)要聞

沖突爆發(fā) 市場(chǎng)變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
本地
游戲
公開(kāi)課

藝術(shù)要聞

驚艷!這位天使般的女子與油畫讓人心動(dòng)不已!

房產(chǎn)要聞

濱江九小也來(lái)了!集齊海僑北+哈羅、寰島...江東教育要炸了!

本地新聞

津南好·四時(shí)總相宜

XBOX商店再現(xiàn)好價(jià)折扣!死亡島2終極版僅需7美元

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版