国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MiniMax M2.5 發(fā)布:10B 激活參數(shù),打進(jìn)頭部模型

0
分享至

今天這篇本來早上就該發(fā)的

MiniMax 凌晨發(fā)了 M2.5,一看數(shù)據(jù)就知道得寫,但這兩天實(shí)在有點(diǎn)累,拖到晚上才弄出來。先跟 MiniMax 的朋友們說一句,恭喜,這次發(fā)的東西確實(shí)硬

有個事情官方?jīng)]說:M2.5 為 229B,激活只有 10B


https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json

但在SWE-Bench Verified 80.2%,Multi-SWE-Bench 51.3%(第一),BrowseComp 76.3%。編程跟 Opus 4.6 基本持平,多語言編程直接拿了全行業(yè)最高。搜索和工具調(diào)用也到了頂尖水平


M2.5 核心 benchmark 一覽

第一梯隊(duì)里參數(shù)規(guī)模最小的旗艦?zāi)P汀?0B 激活參數(shù)打到了跟 Opus 4.6 一個級別。做私有化部署的朋友可以品品這個顯存占用和推理能效比

看看經(jīng)濟(jì)賬:M2.5 有兩個版本,能力完全一樣,速度和價格不同

快的叫 M2.5-Lightning,100 TPS,每百萬 token 輸入 0.3 美金、輸出 2.4 美金。
慢的叫 M2.5,50 TPS,價格再砍一半,每百萬 token 輸入 0.3 美金、輸出 1.2 美金。

兩個版本都支持緩存,按輸出價格算,M2.5 是 Opus、Gemini 3 Pro、GPT-5 的 1/10 到 1/20


換成更具象的數(shù)字:在以每秒輸出 100 個 token 的情況下,連續(xù)工作一小時只需要 1 美金,而在每秒輸出 50 個 token 的情況下,只需要 0.3 美金。

1 萬美金,夠一個 Agent 連續(xù)跑 4 年

這個賬算得過來之后,很多之前「舍不得讓 Agent 長時間跑」的場景就打開了。跑完一整套 SWE-Bench Verified 評測,M2.5 單任務(wù)的總成本只有 Opus 4.6 的 10%

編程
編程 benchmark

有個細(xì)節(jié)挺有意思。M2.5 在訓(xùn)練過程中自己演化出了一個「寫 Spec」的行為,動手寫代碼之前會先從架構(gòu)師視角把功能、結(jié)構(gòu)、UI 設(shè)計(jì)全部拆解規(guī)劃一遍。這個行為是涌現(xiàn)出來的,不是手動設(shè)計(jì)的

訓(xùn)練覆蓋了 10 多種語言(Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby),在超過 20 萬個真實(shí)環(huán)境上跑

能力不只是修 bug,從 0 到 1 的系統(tǒng)設(shè)計(jì)、1 到 10 的開發(fā)、10 到 90 的功能迭代、90 到 100 的 code review 和系統(tǒng)測試,全流程都能接。覆蓋 Web、Android、iOS、Windows 的全棧項(xiàng)目,包含 Server 端 API、業(yè)務(wù)邏輯、數(shù)據(jù)庫

MiniMax 把 VIBE benchmark 升級了一個 Pro 版,任務(wù)復(fù)雜度和領(lǐng)域覆蓋度都拉高了不少。在 VIBE Pro 上,M2.5 跟 Opus 4.5 表現(xiàn)相當(dāng)


VIBE Pro 對比

腳手架泛化性也驗(yàn)過了。在 Droid 上跑 SWE-Bench,M2.5 是 79.7,Opus 4.6 是 78.9。在 OpenCode 上,M2.5 是 76.1,Opus 4.6 是 75.9。換了腳手架照樣打

搜索和工具調(diào)用
搜索 benchmark

MiniMax 自建了一個評測集叫 RISE(Realistic Interactive Search Evaluation),專門測真實(shí)專業(yè)任務(wù)上的搜索能力。邏輯是這樣的:人類專家做搜索任務(wù)的時候,用搜索引擎本身只占一小部分,大量工作是在專業(yè)網(wǎng)頁里深度探索。M2.5 在這類場景上表現(xiàn)很強(qiáng)

比上一代還省。在 BrowseComp、Wide Search、RISE 多項(xiàng)任務(wù)上,M2.5 用更少的搜索輪次拿到了更好的結(jié)果,輪次消耗比 M2.1 少了大約 20%

模型學(xué)會了用更短的路徑逼近答案

辦公
辦公場景對比

這塊 MiniMax 找了金融、法律、社科領(lǐng)域的資深從業(yè)者一起做訓(xùn)練數(shù)據(jù),把行業(yè)的隱性知識帶進(jìn)了模型訓(xùn)練。Word 排版、PPT 編輯、Excel 金融建模這些場景上有明顯提升

他們內(nèi)部的 GDPval-MM 評測框架會同時評交付質(zhì)量和 Agent 執(zhí)行軌跡的專業(yè)性,還監(jiān)控全流程 token 成本。對比主流模型平均勝率 59.0%

速度

M2.5 比 M2.1 完成 SWE-Bench 任務(wù)快了 37%

具體來說:端到端運(yùn)行時間從平均 31.3 分鐘降到 22.8 分鐘,跟 Opus 4.6 的 22.9 分鐘幾乎一樣。每個任務(wù)的 token 消耗從 3.72M 降到了 3.52M

變快了,還變省了

迭代速度

108 天,M2、M2.1、M2.5 三個版本

在 SWE-Bench Verified 上,M2 系列的進(jìn)步曲線斜率比 Claude、GPT、Gemini 系列都陡


M2 系列 vs 同行的進(jìn)步速度,自己看斜率

MiniMax 說「行業(yè)最快的進(jìn)步速度」,從這張圖看,不虛

Agent RL

技術(shù)層面簡單記幾個點(diǎn)

M2.5 的核心訓(xùn)練框架叫 Forge,原生 Agent RL 框架。通過引入中間層完全解耦了訓(xùn)推引擎和 Agent,支持任意 Agent 腳手架接入。這讓模型在不同編程工具和 Agent 環(huán)境之間的泛化性很強(qiáng)


Forge 架構(gòu)

算法上用的是他們?nèi)ツ瓿跆岢龅?CISPO 算法保障 MoE 模型訓(xùn)練穩(wěn)定性,加上 Process Reward 做全鏈路監(jiān)控,再用真實(shí)任務(wù)耗時作為 Reward 來平衡效果和速度。訓(xùn)練側(cè)通過樹狀合并樣本實(shí)現(xiàn)了大約 40 倍加速


Agent RL 算法與 Reward 設(shè)計(jì)

MiniMax 說后續(xù)會單獨(dú)發(fā)一篇技術(shù)博客詳細(xì)講 RL scaling,到時候可以再看看

MiniMax 內(nèi)部在用

MiniMax 內(nèi)部已經(jīng)全面上線 M2.5,覆蓋研發(fā)、產(chǎn)品、銷售、HR、財(cái)務(wù)
整體任務(wù)的 30% 由 M2.5 自主完成,編程場景里新提交代碼的 80% 由模型生成

產(chǎn)品側(cè),MiniMax Agent 做了一套標(biāo)準(zhǔn)化的 Office Skills,在 MAX 模式下會根據(jù)文件類型自動加載對應(yīng)能力。用戶還可以把 Office Skills 和行業(yè)經(jīng)驗(yàn)結(jié)合起來創(chuàng)建可復(fù)用的「專家」(Expert),目前平臺上已經(jīng)有超過 1 萬個用戶創(chuàng)建的 Expert

模型權(quán)重會在 HuggingFace 開源,支持本地部署


更多 benchmark 還沒完...但先碎覺

這兩天,國產(chǎn)模型扎堆發(fā)布,GLM-5、DeepSeek 更新、M2.5,春節(jié)前的密度有點(diǎn)離譜

以及....這些 AI 廠的春節(jié)發(fā)布,還沒完

然后...晚安...碎覺...

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大快人心!浙江4057座寺廟,密集關(guān)停整頓,網(wǎng)友:亂象早該根治

大快人心!浙江4057座寺廟,密集關(guān)停整頓,網(wǎng)友:亂象早該根治

生活魔術(shù)專家
2026-04-18 14:15:43
看了幾百個“凌亂”的家,我窺見了中國家庭的“通病”,太真實(shí)了

看了幾百個“凌亂”的家,我窺見了中國家庭的“通病”,太真實(shí)了

室內(nèi)設(shè)計(jì)師有料兒
2026-03-13 22:52:34
吳昕鄭凱戀情曝光,兩人疑已相戀7年,女方曾談婚戀觀:戀愛可以談,結(jié)婚得慎重

吳昕鄭凱戀情曝光,兩人疑已相戀7年,女方曾談婚戀觀:戀愛可以談,結(jié)婚得慎重

魯中晨報(bào)
2026-04-16 18:08:04
美國敢抓馬杜羅、敢炸哈梅內(nèi)伊,為什么偏偏不敢動金正恩?

美國敢抓馬杜羅、敢炸哈梅內(nèi)伊,為什么偏偏不敢動金正恩?

賤議你讀史
2026-04-12 21:40:28
正式出局,庫里的時代結(jié)束了

正式出局,庫里的時代結(jié)束了

毒舌NBA
2026-04-18 14:02:09
87年,我?guī)е赣H當(dāng)兵的照片入伍,誰知女首長看到照片后差點(diǎn)暈過去

87年,我?guī)е赣H當(dāng)兵的照片入伍,誰知女首長看到照片后差點(diǎn)暈過去

紅豆講堂
2025-03-23 10:39:32
一場0-0!揪出北京國安3大“水貨” 表現(xiàn)太拉胯 球迷:最菜歸化

一場0-0!揪出北京國安3大“水貨” 表現(xiàn)太拉胯 球迷:最菜歸化

球場新視角1號
2026-04-18 16:28:49
特朗普“帶全家”來訪華,兒子兒媳齊上陣,要一起見證歷史性時刻

特朗普“帶全家”來訪華,兒子兒媳齊上陣,要一起見證歷史性時刻

墨蘭史書
2026-04-17 18:55:03
老公干40年每次升職都沒他,剛退休大領(lǐng)導(dǎo)來電:你們家到底想怎樣

老公干40年每次升職都沒他,剛退休大領(lǐng)導(dǎo)來電:你們家到底想怎樣

周哥一影視
2026-04-15 13:58:59
是巧合嗎?蘇林是興安春橋人,春橋的董事長叫蘇勇,被傳是親兄弟

是巧合嗎?蘇林是興安春橋人,春橋的董事長叫蘇勇,被傳是親兄弟

縱擁千千晚星
2026-04-16 12:47:27
老公被裁員后,辭掉1.8萬保姆,鄰居竟上門質(zhì)問:我兒子飯誰做呢

老公被裁員后,辭掉1.8萬保姆,鄰居竟上門質(zhì)問:我兒子飯誰做呢

紅豆講堂
2026-03-17 11:11:14
我去!內(nèi)娛最大的性丑聞,拍出來了

我去!內(nèi)娛最大的性丑聞,拍出來了

皮蛋兒電影
2026-03-04 14:39:25
出門7不撿!路上看到這7樣?xùn)|西,別往家里的帶,不吉利!

出門7不撿!路上看到這7樣?xùn)|西,別往家里的帶,不吉利!

Home范
2026-04-16 13:17:29
40歲以上中年人失業(yè)都干嘛去了?網(wǎng)友:跑順風(fēng)車,送外賣,當(dāng)保安

40歲以上中年人失業(yè)都干嘛去了?網(wǎng)友:跑順風(fēng)車,送外賣,當(dāng)保安

律法刑道
2026-04-12 09:35:52
認(rèn)罪剛一天!許家印長子每月4100萬生活費(fèi),家族資產(chǎn)黑幕全揭開

認(rèn)罪剛一天!許家印長子每月4100萬生活費(fèi),家族資產(chǎn)黑幕全揭開

墜入二次元的海洋
2026-04-18 21:04:40
善惡終有報(bào),57歲央視女主持王小丫,原來早已經(jīng)走上另一條大路

善惡終有報(bào),57歲央視女主持王小丫,原來早已經(jīng)走上另一條大路

聽風(fēng)喃
2026-03-24 05:39:34
男子把5個月嬰兒獨(dú)留在家,4小時喂一次奶;他的窮比窒息更可怕!

男子把5個月嬰兒獨(dú)留在家,4小時喂一次奶;他的窮比窒息更可怕!

許三歲
2026-04-14 08:24:29
一點(diǎn)別同情她!被教練性侵27次,卻在奧運(yùn)賽場上,把隊(duì)友撞出賽道

一點(diǎn)別同情她!被教練性侵27次,卻在奧運(yùn)賽場上,把隊(duì)友撞出賽道

來科點(diǎn)譜
2026-02-27 07:42:10
美國性感女星:受夠了胸罩!我不在乎這對香腸掉到膝蓋

美國性感女星:受夠了胸罩!我不在乎這對香腸掉到膝蓋

可愛小菜
2026-04-16 19:03:27
749局退休人員口述:外星人真實(shí)存在,我在秦嶺深處親眼見過一次

749局退休人員口述:外星人真實(shí)存在,我在秦嶺深處親眼見過一次

千秋文化
2026-04-09 15:56:25
2026-04-19 02:31:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
389文章數(shù) 50關(guān)注度
往期回顧 全部

數(shù)碼要聞

Q1存儲價格暴漲:DDR與SSD翻番 PC廠商陷入搶貨大戰(zhàn)

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

游戲
健康
本地
親子
公開課

讓老粥批直呼“計(jì)劃有變”的歲獸代理人,到底是什么東西?

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

親子要聞

退燒藥怎么用?90%家長都搞錯了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版