国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

小米 MiMo-V2 三張牌:1T 參數(shù)旗艦、全模態(tài) Omni、情感 TTS,分別在解決什么

0
分享至


上周,OpenRouter 上悄悄出現(xiàn)了兩個沒有任何介紹的匿名模型:Hunter AlphaHealer Alpha。沒有宣發(fā),沒有官方認領,只有調用量在持續(xù)攀升——多天沖上日榜前列,開發(fā)者社區(qū)開始炸鍋。


有人猜這是 DeepSeek V4,參數(shù)規(guī)格高度吻合,連 OpenClaw 創(chuàng)始人 Peter Steinberger 也忍不住在 X 上公開發(fā)帖打聽身份。

3 月 19 日凌晨,謎底揭曉:Hunter Alpha 是MiMo-V2-Pro的早期測試版,Healer Alpha 是MiMo-V2-Omni的早期測試版。兩個模型的主人,是小米。


當天,小米 MiMo 官方同步正式發(fā)布三款新模型:MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS。只看名字可能會覺得這又是一輪常規(guī)迭代;把三者放在一起看,小米這次真正想講的是"我已經(jīng)開始搭一整套 Agent 能力底座"。官方給 Pro 的定位是旗艦基座模型,給 Omni 的定位是全模態(tài) Agent 模型,給 TTS 的定位是給 Agent 補上"聲音、情緒和表達力"。三個模型覆蓋了從"大腦"到"感知與執(zhí)行"再到"輸出層"的完整鏈路。

MiMo-V2-Pro 負責想,MiMo-V2-Omni 負責看、聽、做,MiMo-V2-TTS 負責說。這波發(fā)布最值得看的,也正是這條清晰的路線:小米在把 AI 從"對話框里的回答機器",往"能調用工具、理解界面、處理真實任務、自然表達"的系統(tǒng)層智能體方向推進。

一、MiMo-V2-Pro:對標 Claude 去的 Agent 旗艦,偏偏只賣五分之一的價

先看MiMo-V2-Pro。按照官方說法,這是面向真實世界 agentic workload 的旗艦基座模型,目標是去完成任務。模型總參數(shù)超過 1T,激活參數(shù)42B,支持1M token上下文;架構上延續(xù)上一代 Hybrid Attention,混合比例從 5:1 提升至 7:1,同時保留輕量級 MTP 層以提升生成效率。官方強調的關鍵詞很明確:complex workflows、production engineering tasks、tool-call stability、multi-step reasoning。

跑分上,MiMo-V2-Pro 是這次三款里官方公開數(shù)據(jù)最完整的。小米在官方頁直接標注:按 Artificial Analysis Intelligence Index,MiMo-V2-Pro 全球第 8、中文大模型第 2。


Agent 相關 benchmark 上,它在PinchBench 拿到 84.0,在ClawEval 拿到 61.5,兩項均為全球第 3,官方明確標注"接近 Claude Opus 4.6"。對照數(shù)據(jù):PinchBench 上 Claude Sonnet 4.6 為 86.9、Claude Opus 4.6 為 86.3、Gemini 3 Pro 為 70.7;ClawEval 上 Claude Opus 4.6 和 Sonnet 4.6 均為 66.3,Gemini 3 Pro 為 51.9,GPT-5.2 為 50.0。這兩個評測考的是工具調用、多步規(guī)劃、復雜任務鏈上的穩(wěn)定性——Agent 場景里最核心也最難做的部分。MiMo-V2-Pro 在這個維度上,已經(jīng)和 Claude Opus 4.6 基本站在同一梯隊。


驗證方式上,小米沒有只放幾張實驗室對比圖。Hunter Alpha 在 OpenRouter 上跑了一周盲測——總調用量超過 1T tokens,多天登頂日榜。官方展示的調用來源幾乎全是 coding/agent 工具,尤以OpenClaw、Kilo Code、Roo Code為主。開發(fā)者對它的感知,從一開始就落在"能干活"上。

案例上,官方給了兩個方向。一個是前端開發(fā):在 OpenClaw 里,MiMo-V2-Pro 可以根據(jù)一條 prompt 直接生成完整網(wǎng)頁,官方展示的例子是一個90 年代印刷雜志風格的網(wǎng)頁,版式、字體、噪點和翻頁感這些細節(jié)都有覆蓋。

用同樣的提示詞在 MiMo Claw 實測了一下,生成的網(wǎng)頁有目錄交互、完整頁面元素、整體排版也算得上美觀,圖片渲染稍有瑕疵,但完成度已經(jīng)相當不錯。

不到三分鐘,一次性生成的版本,無抽卡

另一個官方案例更直接:讓它做一個 3D 塔防游戲,要求使用 Three.js 或 Babylon.js,實現(xiàn) 3D 渲染、關卡模式、敵人波次、升級路徑、動態(tài)背景和完整控制邏輯。官方想傳達的很清楚——這個模型瞄準的是端到端工程交付,代碼補全只是其中最基礎的一層。

價格是 MiMo-V2-Pro 另一個值得單獨說的點。官方頁把 API 價格和 Claude 4.6 系列并排列出:256K 以內(nèi),輸入/輸出分別為 $1/$3 每百萬 tokens;256K 到 1M 為 $2/$6。Claude Sonnet 4.6 是 $3/$15,Claude Opus 4.6 是 $5/$25。同等 Agent 能力梯隊,價格約為五分之一——這個價差對大規(guī)模調用的 agent 框架來說,是實質性的成本差異,也是小米最直接的市場切入點。


二、MiMo-V2-Omni:感知與行動原生綁定,最有想象空間的那款

如果說 Pro 是"大腦",MiMo-V2-Omni才是這次最有未來感的東西。官方對它的定義是omni foundation model:把圖像、視頻、音頻編碼器直接融合進同一個共享 backbone,形成一條統(tǒng)一感知流。更關鍵的是訓練目標——這個模型從一開始,就同時學三件事:場景是什么、接下來會發(fā)生什么、現(xiàn)在該做什么。感知和行動在架構層就是綁定的。

官方公開的 benchmark 數(shù)據(jù),感知側六個分數(shù):MMAU-Pro 69.4、BigBench Audio 94.0、MMMU-Pro 76.8、CharXiv RQ 80.1、Video-MME 85.3、FutureOmni 66.7。從對照表可以直接讀出:MMAU-Pro 69.4高于 Gemini 3 Pro 的 67.0;CharXiv RQ 80.1高于 Claude Opus 4.6 的 77.4;FutureOmni 66.7高于 Gemini 3 Pro 的 62.9 和 Claude Opus 4.6 的 60.3。官方總結:音頻理解整體超過 Gemini 3 Pro,圖像理解超過 Claude Opus 4.6,視頻理解支持原生音視頻聯(lián)合輸入,并具備 future reasoning 能力。


行動側數(shù)據(jù)更值得關注:MM-BrowserComp 52.0、OmniGAIA 49.8、ClawEval 54.8、PinchBench 85.6。其中MM-BrowserComp 52.0明顯高于 Gemini 3 Pro 的 37.2 和 GPT-5.2 的 47.4;PinchBench 85.6高于 Gemini 3 Pro 的 70.7、Gemini 3 Flash 的 75.0 和 GPT-5.2 的 77.0,非常接近 Claude Opus 4.6 的 86.3。MM-BrowserComp 測的是模型在真實瀏覽器環(huán)境里完成任務的能力,這個分數(shù)比兩個主要對手高出 5-15 個百分點,是執(zhí)行維度上相當顯著的差距。


代碼與任務能力上還有SWE-Bench Verified 74.8、GDPVal 1410。


官方給了三個案例,每個都指向一類具體場景。

第一個是自動駕駛視覺大腦:給它一段海邊小鎮(zhèn)的行車記錄儀視頻,讓它實時識別潛在風險。模型的輸出是"并線風險、盲區(qū)、行人橫穿、車道收窄、街邊雙排停車帶來的側向風險"——已經(jīng)接近駕駛決策層的信息,目標檢測只是基礎。

第二個是跨平臺購物 Agent:任務是扮演一個喜歡旅行攝影的學生,在小紅書上搜三款小米 17 的選購建議,整理推薦,再去京東下單,并盡量和客服談到更低價格。整個流程里,MiMo-V2-Omni 在 OpenClaw 配合下自主瀏覽帖子、比較賣家、與客服自然語言談價、加購并走到結算,期間還處理了非標準 DOM、多標簽頁上下文管理、平臺反自動化打斷后的恢復,全程沒有人工干預。任務鏈結構——跨平臺、跨模態(tài)、遇到干擾后自主恢復——已經(jīng)非常接近真實電商和辦公場景里 Agent 工作流的復雜度。

第三個案例更極端:從零做一個 15 秒介紹視頻,然后上傳到 TikTok。模型先自己設計 4 個鏡頭,再合成低頻 bass、電子音、轉場 whoosh 和 glitch 細節(jié)音效;渲染中碰到中文字體報錯,自己診斷并修復;打開 TikTok 上傳頁后,發(fā)現(xiàn)描述輸入框不是標準文本元素,自行分析 DOM、找到正確交互方式,填完文案、發(fā)布、點贊、評論,最后確認視頻通過審核公開上線。這個案例想說明的是:Omni 已經(jīng)開始展現(xiàn)出閉環(huán)自主完成任務的能力——從內(nèi)容生成到平臺發(fā)布,中間出了問題,自己解決。

三、MiMo-V2-TTS:給 Agent 裝上情感,被低估最久的那層體驗

第三個模型MiMo-V2-TTS,表面看起來最不"炸",但可能是最容易直接走進產(chǎn)品的那一個。行業(yè)這兩年幾乎所有討論都集中在推理能力、工具調用、代碼質量上,但真正到產(chǎn)品里,用戶接觸到的是最后那層——它怎么說話,有沒有情緒,是否自然,是不是像一個真實存在的智能體。這層體驗長期被當成錦上添花,但在終端產(chǎn)品里,它直接影響用戶粘性。MiMo-V2-TTS 要做的,就是把這層認真填上。官方的說法很直接:給 Agent 一個聲音,甚至給它"靈魂"。

技術上,MiMo-V2-TTS 建在小米自研的Audio Tokenizermulti-codebook joint speech-text modeling架構上,預訓練數(shù)據(jù)超過1 億小時語音數(shù)據(jù),后續(xù)做了多維度強化學習。重點在三件事:多粒度風格控制、自然韻律還原、唱歌能力。它可以理解自由文本風格描述,比如"剛睡醒、略微沙啞"、"幾乎是耳語式的深情表達"、"憤怒但盡量克制",而不是只能從 happy/sad/angry/neutral 的下拉菜單里選。

更細的一層,是它可以在生成時同步輸出非語言事件——咳嗽、停頓、遲疑、嘆氣、笑聲等,強調的是這些信號在建模階段就和上下文一并處理,而不是后期拼進去的音效。它還支持方言和角色音色,包括東北話、四川話、粵語、臺灣普通話,以及孫悟空、林黛玉這類角色風格。目標是把一段文本表演出來,而不只是念出來。

最值得單獨說的是唱歌。官方明確寫明支持 singing voice synthesis,并表示這可能是當前首個在商業(yè)可用 API 中原生同時支持說話和唱歌的 TTS 能力。同一套架構,既能做耳語式對話,也能生成帶音高和節(jié)奏的演唱,中間不用切模型、不用切模式。對內(nèi)容生產(chǎn)、虛擬人、陪伴型 Agent、AI 主播和短視頻工具來說,這是非常直接的能力補充。

需要說明的是,目前官方公開頁里,MiMo-V2-TTS 沒有像 Pro 和 Omni 那樣給出一套完整的 benchmark 排名表,更多展示的是能力樣例和產(chǎn)品方向。TTS 的質量本身就很難量化,最終檢驗只能靠真實產(chǎn)品里的用戶體驗。這個模型的核心命題只有一個:能不能把人機交互的體驗往上拉一個臺階。

四、寫在最后

把這三款模型放在一起看,小米在推進的目標已經(jīng)超出了"能對話、會回答的大模型"范疇,落點在 Agent 時代的系統(tǒng)層底座。MiMo-V2-Pro 負責規(guī)劃、推理、長上下文和復雜工具鏈;MiMo-V2-Omni 負責多模態(tài)理解、界面感知和跨環(huán)境執(zhí)行;MiMo-V2-TTS 負責把這一切變成自然、可持續(xù)交互的產(chǎn)品體驗。

有意思的是,小米這次挑的案例——自動駕駛、電商談價、短視頻生成上傳、3D 游戲搭建、方言情緒語音——幾乎全是小米自己生態(tài)里能直接落地的場景。

至于最終效果怎樣,網(wǎng)址在此:

https://mimo.xiaomi.com/zh

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這四種病都不是病?而是年齡到了!過度治療反而傷身,坦然接受

這四種病都不是?。慷悄挲g到了!過度治療反而傷身,坦然接受

醫(yī)學科普匯
2026-04-10 20:15:11
最后時刻反轉!伊朗拒絕談判后,一向強硬的特朗普罕見松了口

最后時刻反轉!伊朗拒絕談判后,一向強硬的特朗普罕見松了口

標體
2026-04-23 03:44:47
B席代表曼城英超取勝215場,超越大衛(wèi)-席爾瓦位列獨占隊史第1

B席代表曼城英超取勝215場,超越大衛(wèi)-席爾瓦位列獨占隊史第1

懂球帝
2026-04-23 05:23:09
最新:曝俄軍敗退扎波羅熱!丟失幾年來占領的全部土地

最新:曝俄軍敗退扎波羅熱!丟失幾年來占領的全部土地

項鵬飛
2026-04-20 20:13:15
YSL“露腚裝”惹爭議,比巴黎世家還炸裂!

YSL“露腚裝”惹爭議,比巴黎世家還炸裂!

互聯(lián)網(wǎng)品牌官
2026-04-21 19:11:35
山西忻州市公務員局發(fā)布情況說明:楊某媛(女)與自媒體貼文中所分析的楊某媛并非同一人

山西忻州市公務員局發(fā)布情況說明:楊某媛(女)與自媒體貼文中所分析的楊某媛并非同一人

環(huán)球網(wǎng)資訊
2026-04-22 16:51:03
我知道那兩名保安為啥不讓退伍老兵上廁所的原因

我知道那兩名保安為啥不讓退伍老兵上廁所的原因

筆桿論道
2026-04-23 01:25:03
鬧翻了!遼籃更衣室內(nèi)訌,趙繼偉深夜2文“炮轟” 弗格打臉管理層

鬧翻了!遼籃更衣室內(nèi)訌,趙繼偉深夜2文“炮轟” 弗格打臉管理層

小徐講八卦
2026-04-22 05:45:02
發(fā)芽土豆、紅薯、洋蔥還能吃嗎?原來我們一直弄錯了,看完漲知識

發(fā)芽土豆、紅薯、洋蔥還能吃嗎?原來我們一直弄錯了,看完漲知識

阿龍美食記
2026-04-13 19:02:15
連虧5年,越虧越多!知名超市學胖東來效果不佳,去年關店414家,巨虧9.57億元,最新市值僅35億元

連虧5年,越虧越多!知名超市學胖東來效果不佳,去年關店414家,巨虧9.57億元,最新市值僅35億元

每日經(jīng)濟新聞
2026-04-22 18:31:06
我退伍后去女戰(zhàn)友家里開的工廠應聘,她紅著臉說:你娶我好嗎?

我退伍后去女戰(zhàn)友家里開的工廠應聘,她紅著臉說:你娶我好嗎?

千秋文化
2026-04-18 19:07:07
5-1大勝!利雅得勝利挺進決賽,科曼踢瘋了:轟入3球,C羅0射正

5-1大勝!利雅得勝利挺進決賽,科曼踢瘋了:轟入3球,C羅0射正

足球狗說
2026-04-23 02:00:27
演員王大陸一審被判刑

演員王大陸一審被判刑

極目新聞
2026-04-22 12:35:08
意外!上港第8輪中超門將位置或迎來久違強援首發(fā),顏駿凌替補

意外!上港第8輪中超門將位置或迎來久違強援首發(fā),顏駿凌替補

張麗說足球
2026-04-22 10:18:07
申花2:0海牛,比贏球更可怕的是賽后斯盧茨基的一番話,這是開始

申花2:0海牛,比贏球更可怕的是賽后斯盧茨基的一番話,這是開始

夕落秋山
2026-04-23 02:51:08
竄訪宣布取消后,國民黨表態(tài),民眾黨向大陸攤牌,賴清德親自回應

竄訪宣布取消后,國民黨表態(tài),民眾黨向大陸攤牌,賴清德親自回應

小蘭聊歷史
2026-04-22 15:18:30
上海三甲醫(yī)院緊急報警!患者投訴:遠超常理!警方:對李某、鄭某等人依法刑事拘留

上海三甲醫(yī)院緊急報警!患者投訴:遠超常理!警方:對李某、鄭某等人依法刑事拘留

新民晚報
2026-04-22 15:18:47
尷尬!跑友不夠用了!馬拉松報不滿?全馬報名人數(shù)不足?

尷尬!跑友不夠用了!馬拉松報不滿?全馬報名人數(shù)不足?

馬拉松跑步健身
2026-04-22 22:01:37
天津將嚴打這些行為!重點區(qū)域為古文化街、鼓樓天街……

天津將嚴打這些行為!重點區(qū)域為古文化街、鼓樓天街……

全接觸狐狐
2026-04-22 21:50:12
中國駐日本大使館:堅決反對、嚴厲譴責,已向日方提出嚴正交涉、強烈抗議

中國駐日本大使館:堅決反對、嚴厲譴責,已向日方提出嚴正交涉、強烈抗議

澎湃新聞
2026-04-21 23:59:03
2026-04-23 05:36:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
272文章數(shù) 37關注度
往期回顧 全部

數(shù)碼要聞

Google證實基于Gemini的新版Siri將于今年晚些時候推出

頭條要聞

伊朗議長:不可能重新開放霍爾木茲海峽

頭條要聞

伊朗議長:不可能重新開放霍爾木茲海峽

體育要聞

網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

蜜雪冰城泰國代言人 被扒出辱華黑歷史

財經(jīng)要聞

醫(yī)院專家號"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠

汽車要聞

純電續(xù)航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

教育
家居
房產(chǎn)
親子
時尚

教育要聞

3分鐘學會一個雅思7分句/段(第340期)

家居要聞

極簡繪夢 克制和諧

房產(chǎn)要聞

官宣!今年9月起,廣州中小學“重點班”將成歷史!

親子要聞

兼顧專業(yè)哺喂與綠色環(huán)保,貝親發(fā)布自然實感凈澈系列奶瓶

用了8年還心動,這筆錢是花得真值啊

無障礙瀏覽 進入關懷版