国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MiniMax M2.5 發(fā)布:10B 激活參數(shù),打進頭部模型

0
分享至

今天這篇本來早上就該發(fā)的

MiniMax 凌晨發(fā)了 M2.5,一看數(shù)據(jù)就知道得寫,但這兩天實在有點累,拖到晚上才弄出來。先跟 MiniMax 的朋友們說一句,恭喜,這次發(fā)的東西確實硬

有個事情官方?jīng)]說:M2.5 為 229B,激活只有 10B


https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json

但在SWE-Bench Verified 80.2%,Multi-SWE-Bench 51.3%(第一),BrowseComp 76.3%。編程跟 Opus 4.6 基本持平,多語言編程直接拿了全行業(yè)最高。搜索和工具調用也到了頂尖水平


M2.5 核心 benchmark 一覽

第一梯隊里參數(shù)規(guī)模最小的旗艦模型。10B 激活參數(shù)打到了跟 Opus 4.6 一個級別。做私有化部署的朋友可以品品這個顯存占用和推理能效比

看看經(jīng)濟賬:M2.5 有兩個版本,能力完全一樣,速度和價格不同

快的叫 M2.5-Lightning,100 TPS,每百萬 token 輸入 0.3 美金、輸出 2.4 美金。
慢的叫 M2.5,50 TPS,價格再砍一半,每百萬 token 輸入 0.3 美金、輸出 1.2 美金。

兩個版本都支持緩存,按輸出價格算,M2.5 是 Opus、Gemini 3 Pro、GPT-5 的 1/10 到 1/20


換成更具象的數(shù)字:在以每秒輸出 100 個 token 的情況下,連續(xù)工作一小時只需要 1 美金,而在每秒輸出 50 個 token 的情況下,只需要 0.3 美金。

1 萬美金,夠一個 Agent 連續(xù)跑 4 年

這個賬算得過來之后,很多之前「舍不得讓 Agent 長時間跑」的場景就打開了。跑完一整套 SWE-Bench Verified 評測,M2.5 單任務的總成本只有 Opus 4.6 的 10%

編程
編程 benchmark

有個細節(jié)挺有意思。M2.5 在訓練過程中自己演化出了一個「寫 Spec」的行為,動手寫代碼之前會先從架構師視角把功能、結構、UI 設計全部拆解規(guī)劃一遍。這個行為是涌現(xiàn)出來的,不是手動設計的

訓練覆蓋了 10 多種語言(Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby),在超過 20 萬個真實環(huán)境上跑

能力不只是修 bug,從 0 到 1 的系統(tǒng)設計、1 到 10 的開發(fā)、10 到 90 的功能迭代、90 到 100 的 code review 和系統(tǒng)測試,全流程都能接。覆蓋 Web、Android、iOS、Windows 的全棧項目,包含 Server 端 API、業(yè)務邏輯、數(shù)據(jù)庫

MiniMax 把 VIBE benchmark 升級了一個 Pro 版,任務復雜度和領域覆蓋度都拉高了不少。在 VIBE Pro 上,M2.5 跟 Opus 4.5 表現(xiàn)相當


VIBE Pro 對比

腳手架泛化性也驗過了。在 Droid 上跑 SWE-Bench,M2.5 是 79.7,Opus 4.6 是 78.9。在 OpenCode 上,M2.5 是 76.1,Opus 4.6 是 75.9。換了腳手架照樣打

搜索和工具調用
搜索 benchmark

MiniMax 自建了一個評測集叫 RISE(Realistic Interactive Search Evaluation),專門測真實專業(yè)任務上的搜索能力。邏輯是這樣的:人類專家做搜索任務的時候,用搜索引擎本身只占一小部分,大量工作是在專業(yè)網(wǎng)頁里深度探索。M2.5 在這類場景上表現(xiàn)很強

比上一代還省。在 BrowseComp、Wide Search、RISE 多項任務上,M2.5 用更少的搜索輪次拿到了更好的結果,輪次消耗比 M2.1 少了大約 20%

模型學會了用更短的路徑逼近答案

辦公
辦公場景對比

這塊 MiniMax 找了金融、法律、社科領域的資深從業(yè)者一起做訓練數(shù)據(jù),把行業(yè)的隱性知識帶進了模型訓練。Word 排版、PPT 編輯、Excel 金融建模這些場景上有明顯提升

他們內部的 GDPval-MM 評測框架會同時評交付質量和 Agent 執(zhí)行軌跡的專業(yè)性,還監(jiān)控全流程 token 成本。對比主流模型平均勝率 59.0%

速度

M2.5 比 M2.1 完成 SWE-Bench 任務快了 37%

具體來說:端到端運行時間從平均 31.3 分鐘降到 22.8 分鐘,跟 Opus 4.6 的 22.9 分鐘幾乎一樣。每個任務的 token 消耗從 3.72M 降到了 3.52M

變快了,還變省了

迭代速度

108 天,M2、M2.1、M2.5 三個版本

在 SWE-Bench Verified 上,M2 系列的進步曲線斜率比 Claude、GPT、Gemini 系列都陡


M2 系列 vs 同行的進步速度,自己看斜率

MiniMax 說「行業(yè)最快的進步速度」,從這張圖看,不虛

Agent RL

技術層面簡單記幾個點

M2.5 的核心訓練框架叫 Forge,原生 Agent RL 框架。通過引入中間層完全解耦了訓推引擎和 Agent,支持任意 Agent 腳手架接入。這讓模型在不同編程工具和 Agent 環(huán)境之間的泛化性很強


Forge 架構

算法上用的是他們去年初提出的 CISPO 算法保障 MoE 模型訓練穩(wěn)定性,加上 Process Reward 做全鏈路監(jiān)控,再用真實任務耗時作為 Reward 來平衡效果和速度。訓練側通過樹狀合并樣本實現(xiàn)了大約 40 倍加速


Agent RL 算法與 Reward 設計

MiniMax 說后續(xù)會單獨發(fā)一篇技術博客詳細講 RL scaling,到時候可以再看看

MiniMax 內部在用

MiniMax 內部已經(jīng)全面上線 M2.5,覆蓋研發(fā)、產(chǎn)品、銷售、HR、財務
整體任務的 30% 由 M2.5 自主完成,編程場景里新提交代碼的 80% 由模型生成

產(chǎn)品側,MiniMax Agent 做了一套標準化的 Office Skills,在 MAX 模式下會根據(jù)文件類型自動加載對應能力。用戶還可以把 Office Skills 和行業(yè)經(jīng)驗結合起來創(chuàng)建可復用的「專家」(Expert),目前平臺上已經(jīng)有超過 1 萬個用戶創(chuàng)建的 Expert

模型權重會在 HuggingFace 開源,支持本地部署


更多 benchmark 還沒完...但先碎覺

這兩天,國產(chǎn)模型扎堆發(fā)布,GLM-5、DeepSeek 更新、M2.5,春節(jié)前的密度有點離譜

以及....這些 AI 廠的春節(jié)發(fā)布,還沒完

然后...晚安...碎覺...

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
起泡膠、捏捏樂、水晶泥等網(wǎng)紅玩具 經(jīng)檢測:部分捏捏樂甲醛超標33倍

起泡膠、捏捏樂、水晶泥等網(wǎng)紅玩具 經(jīng)檢測:部分捏捏樂甲醛超標33倍

閃電新聞
2026-03-02 11:03:00
美以伊最新發(fā)聲

美以伊最新發(fā)聲

看看新聞Knews
2026-03-02 16:59:09
鏡報:伊朗可能抵制世界杯,這對于國際足聯(lián)高層而言非常棘手

鏡報:伊朗可能抵制世界杯,這對于國際足聯(lián)高層而言非常棘手

懂球帝
2026-03-02 23:22:52
莫迪殺紅了眼!吞了中企幾百億,又派人來偷火,中國不能坐以待斃

莫迪殺紅了眼!吞了中企幾百億,又派人來偷火,中國不能坐以待斃

梁訊
2026-02-28 15:40:12
北京首都國際機場工作人員穿明制漢服!

北京首都國際機場工作人員穿明制漢服!

小鹿姐姐情感說
2026-03-02 08:40:09
WTT新加坡大滿貫收官不到24小時,國乒傳來3大重磅消息,2大調整

WTT新加坡大滿貫收官不到24小時,國乒傳來3大重磅消息,2大調整

羅納爾說個球
2026-03-02 23:06:07
內賈德大難不死活了下來,“反美斗士”終于等來翻身之日?

內賈德大難不死活了下來,“反美斗士”終于等來翻身之日?

又是美好的日子
2026-03-03 03:59:32
中核集團的顧軍被查了。最讓人脊背發(fā)涼的是他的第一個身份

中核集團的顧軍被查了。最讓人脊背發(fā)涼的是他的第一個身份

南權先生
2026-02-02 16:05:36
“兒子下肢已壞了,你還讓他跳繩!”低認知的殘忍,只有自我感動

“兒子下肢已壞了,你還讓他跳繩!”低認知的殘忍,只有自我感動

蝴蝶花雨話教育
2026-02-24 15:29:04
突然大跌,15萬人爆倉!伊朗發(fā)射高超音速導彈,并封鎖霍爾木茲海峽,油價或飆升,國內金飾克價突破1600元

突然大跌,15萬人爆倉!伊朗發(fā)射高超音速導彈,并封鎖霍爾木茲海峽,油價或飆升,國內金飾克價突破1600元

每日經(jīng)濟新聞
2026-03-01 01:03:36
奔馳GLC價格“大跳水”!最高優(yōu)惠12.5萬,網(wǎng)友:還是選寶馬

奔馳GLC價格“大跳水”!最高優(yōu)惠12.5萬,網(wǎng)友:還是選寶馬

汽車網(wǎng)評
2026-03-02 22:56:03
面對霍爾姆茨海峽的封鎖,中國準備好了嗎?

面對霍爾姆茨海峽的封鎖,中國準備好了嗎?

勝研集
2026-03-02 12:20:33
沒想到這么快,幾個小時就舉了白旗,彈盡糧絕,不投降就沒命了!

沒想到這么快,幾個小時就舉了白旗,彈盡糧絕,不投降就沒命了!

科普100克克
2025-10-05 15:24:42
伊朗前王儲巴列維宣布將返回伊朗領導革命

伊朗前王儲巴列維宣布將返回伊朗領導革命

一種觀點
2026-01-19 19:36:11
Claude祭出「記憶搬家」,60秒搬空ChatGPT靈魂!70萬用戶退訂OpenAI

Claude祭出「記憶搬家」,60秒搬空ChatGPT靈魂!70萬用戶退訂OpenAI

新智元
2026-03-02 12:35:56
39歲李思思離開央視兩年,商演小縣城不擺架子

39歲李思思離開央視兩年,商演小縣城不擺架子

范櫳舍長
2026-03-02 20:28:08
伊朗稱已準備好長期戰(zhàn)爭

伊朗稱已準備好長期戰(zhàn)爭

界面新聞
2026-03-02 20:42:23
向太太敢說了!向華強今年已經(jīng)78了,但是她和向華強還有X生活!

向太太敢說了!向華強今年已經(jīng)78了,但是她和向華強還有X生活!

心靜物娛
2025-12-24 11:02:28
曝伊朗考慮退出世界杯 小組賽3場均在美國踢 4隊按規(guī)有望遞補參賽

曝伊朗考慮退出世界杯 小組賽3場均在美國踢 4隊按規(guī)有望遞補參賽

我愛英超
2026-03-02 22:59:13
43歲阿Sa承認與男友同居,已帶男友見過家長,疑好事將近

43歲阿Sa承認與男友同居,已帶男友見過家長,疑好事將近

扒蝦侃娛
2026-03-02 22:27:05
2026-03-03 04:28:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
309文章數(shù) 45關注度
往期回顧 全部

數(shù)碼要聞

Beats蘋果iPhone 17e專用手機殼首發(fā)399元 內置磁體 超細纖維內襯

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

房產(chǎn)
旅游
藝術
數(shù)碼
軍事航空

房產(chǎn)要聞

方案突然曝光!海口北師大附校,又有書包大盤殺出!

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

藝術要聞

這四位老人的花鳥畫,竟讓人欲罷不能!

數(shù)碼要聞

高通MWC 2026發(fā)布多項通信技術,定檔2029年開啟6G商用

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進入關懷版