国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

M2.5登頂OpenRouter:如何做出大家最需要的那個(gè)模型

0
分享至


作者 | 王兆洋
郵箱 | wangzhaoyang@pingwest.com

先看一組數(shù)據(jù):

評(píng)估模型編程能力的主流榜單SWE-bench Verified上,Claude Opus 4.6 得分80.8%,Gemini 3.1 Pro 80.6%,MiniMax 2.5 80.2%,GLM-5 77.8%,Kimi K2.5 76.8%。

最大分差也不超過4分,差距就這么點(diǎn)大。開發(fā)者今天其實(shí)已經(jīng)很難只靠這些“考試分?jǐn)?shù)”來選擇要用的模型。

但最近還有另一組很有意思的數(shù)據(jù),來自最重要的模型調(diào)用平臺(tái)之一OpenRouter:


官方統(tǒng)計(jì)顯示,最近其平臺(tái)上的token調(diào)用激增,且其中很多需求來自100K-1M長(zhǎng)文本任務(wù),也就是agent工作流最典型消耗區(qū)間。刺激這些需求爆發(fā)的一個(gè)重要因素是一個(gè)新模型的發(fā)布——MiniMax M2.5。單是在OpenRouter上,它發(fā)布后七天的調(diào)用量就到了破紀(jì)錄的 3.07T tokens。

這說明什么?

今天公開的benchmark也就是打榜式的評(píng)測(cè)已經(jīng)沒那么重要了,因?yàn)椴顒e不再明顯。但與此同時(shí),真實(shí)使用者的感受越來越關(guān)鍵,做好了,你就可以成為最受歡迎的那一個(gè),因?yàn)橛脩魝儗?duì)模型的需求遠(yuǎn)遠(yuǎn)未被滿足。

所以,關(guān)鍵的問題變成,如何做出大家最需要的那個(gè)模型。

可以先來看看這個(gè)備受歡迎的MiniMax M2.5是一個(gè)什么樣的模型。

1.模型部署上:10B激活參數(shù),實(shí)戰(zhàn)中總結(jié)的甜點(diǎn)位

MiniMax M2.5,一個(gè)總參數(shù) 230B,激活參數(shù)只有10b的模型。它不會(huì)叫自己端側(cè)模型,但已經(jīng)是私有化部署最友好的模型。這是一個(gè)實(shí)戰(zhàn)中總結(jié)出來的性價(jià)比甜點(diǎn)位,也是頭部模型里這種友好度里的唯一選擇。

2.價(jià)格:沒有波動(dòng),這是開發(fā)者最在意的負(fù)擔(dān)

人們想盡可能多消耗token,但對(duì)價(jià)格變化又有負(fù)擔(dān),M2.5通過各種工程和算法更新,在性能提升同時(shí),把價(jià)格維持住了,這其實(shí)說明MiniMax自己也清楚知道真實(shí)的開發(fā)者的最大負(fù)擔(dān)是什么。

3.模型的核心能力:死磕Coding和Agent,讓開發(fā)者真的認(rèn)真考慮用它替代Claude

此次M2.5在編程上性能提升的來源,不再是“不論過程只管對(duì)標(biāo)結(jié)果”的方式,而是把開發(fā)過程里的代碼工程甚至開發(fā)思維訓(xùn)練到模型里。M2.5的spec能力就是一個(gè)典型的代表。

官方報(bào)告這樣形容:M2.5 具備了像架構(gòu)師一樣思考和構(gòu)建的能力,比如模型演化出了原生 Spec 行為:在動(dòng)手寫代碼前,以架構(gòu)師視角主動(dòng)拆解功能、結(jié)構(gòu)和 UI 設(shè)計(jì),實(shí)現(xiàn)完整的前期規(guī)劃。

M系列階段性目標(biāo)明確,此時(shí)此刻,它就是要死磕Coding 和 Agent。它在SWE-Bench Verified 已經(jīng)做到80.2%的水平,同時(shí)約1 元/小時(shí)的成本給你100 tokens/秒的吞吐,還要什么自行車。

這當(dāng)然是個(gè)帶有賭注成分的決定,并且需要做出trade off,但目前看起來效果不錯(cuò)收益明顯。大量Claude Code用戶在選擇模型時(shí)真的逃不開要考慮M系列模型,這就很能說明問題。

4.推理:推理效率的極致優(yōu)化,每一環(huán)都是在解決業(yè)務(wù)壓力

M2.5在工程化上持續(xù)補(bǔ)全:平衡吞吐和穩(wěn)定的Windowed FIFO,把大量重復(fù)前綴合并處理、解放出40倍效率的樹狀結(jié)構(gòu)……推理的每個(gè)環(huán)節(jié)都在繼續(xù)優(yōu)化。

5.以及可能是最重要的,又一個(gè)技術(shù)創(chuàng)新:RL框架Forge

MiniMax在技術(shù)上一直挺有追求,不少新的思路是它第一批嘗試然后反饋給行業(yè)里,比如此前的交錯(cuò)思維鏈?zhǔn)酵评淼?。而這一次它重點(diǎn)介紹了用在M2.5訓(xùn)練里的一個(gè)新的 RL 框架 Forge 。

這是一個(gè)工業(yè)級(jí)的Agent RL 訓(xùn)練方案,也就是它的目標(biāo)非常務(wù)實(shí),就是面向真實(shí)復(fù)雜的場(chǎng)景大規(guī)模訓(xùn)練AI Agent。

上個(gè)階段把Agent訓(xùn)入模型的方式其實(shí)依然粗糙,它們有點(diǎn)“混為一談”的感覺,而Forge這次核心探索了對(duì)Agent部分和模型本身基礎(chǔ)能力做解耦的方法。

先把Agent和它需要的環(huán)境抽象出來,與模型本身區(qū)分開,然后在兩者間增加一個(gè)中間層,既扮演物理隔離的作用,也提供智能調(diào)度和實(shí)施策略調(diào)整的角色。這很巧妙。


更有意思的是,這樣解耦后,還解鎖了一個(gè)新的scale的方向,就是把各種Agent框架放進(jìn)去做訓(xùn)練,最終獲得泛化能力。這是個(gè)非常有用,甚至直接能影響開發(fā)者體驗(yàn)的泛化,它讓M2.5可以適配各種見過沒見過的“腳手架”。

這同樣是真實(shí)agent場(chǎng)景里非常需要的能力。

看過M 2.5的這些訓(xùn)練重點(diǎn),你會(huì)發(fā)現(xiàn),它的這些優(yōu)化都不是為了刷榜,而是為了解決非常具體的問題——在Agent的需求快速取代了所謂對(duì)話場(chǎng)景的需求后,模型該提供什么樣的智能。

它需要在效果和價(jià)格上找到微妙平衡,持續(xù)提升性能的同時(shí)降低成本。

這說來簡(jiǎn)單,但對(duì)這個(gè)度的把握很難。模型廠要對(duì)這些開發(fā)者的需求有最直接的感知。而MiniMax的“手感”其實(shí)正來自這家公司自己內(nèi)部。

M2.5背后,MiniMax 的M系列模型最重要的研發(fā)思路就是要解決它內(nèi)部各個(gè)團(tuán)隊(duì)在開發(fā)agent的過程里遇到的問題。

閆俊杰曾在M1發(fā)布后分享過:“公司內(nèi)部的小伙伴一直在搭建各種各樣的Agent,來幫助解決公司飛速發(fā)展中遇到的各項(xiàng)挑戰(zhàn)……但是我們發(fā)現(xiàn)沒有一款模型在這些Agent上能完全滿足我們的需求。這里面的挑戰(zhàn)在于好的模型需要在效果、價(jià)格和推理速度上取得好的平衡,這幾乎是一個(gè)‘不可能三角’……我們一直在探索,能不能有一款模型能在效果、價(jià)格和速度上能取得比較好的平衡,從而讓更多的人能受益于Agent時(shí)代的智能提升?!?/p>

所以,MiniMax M2發(fā)布時(shí),它做到當(dāng)時(shí)Claude主力模型價(jià)格的8%,而最新的MiniMax M2.5價(jià)格是Claude主力模型的1/12。甚至,M2.5直接被形容為“1萬美元可以讓4個(gè)Agent連續(xù)工作一年”的模型,這幾乎意味著你可以不需要考慮使用成本地近乎無限使用它。

同時(shí),從死磕編程能力、開發(fā)Forge框架再到各種推理優(yōu)化,它繼續(xù)榨出更好的模型效果和更快推理速度。



而其中像Forge框架這種創(chuàng)新,就是整個(gè)M2.5背后思路的典型代表:只有那些自己在日常工作環(huán)境里對(duì)各種agent腳手架之間的適配感到過絕望,對(duì)真實(shí)環(huán)境里模型與agent能力之間的關(guān)系真正“抓狂”過的模型團(tuán)隊(duì)才會(huì)去解決這些問題。

M2.5顯然是MiniMax自己在面對(duì)“不可能三角”時(shí)最需要的那類模型?,F(xiàn)在,它也成了開發(fā)者們最需要的那類模型。

所以作為模型公司本身,當(dāng)你一直在牌桌上,你自己其實(shí)就是最能檢驗(yàn)?zāi)P蛯?shí)際能力和體驗(yàn)的第一道關(guān)。

當(dāng)一家模型公司自己對(duì)生產(chǎn)力AI的需求達(dá)到最先進(jìn)程度,它自己面對(duì)的體驗(yàn)困局也就會(huì)是人們最重要和普遍的需求,它的創(chuàng)新方向就會(huì)是大家期待的模型的進(jìn)步方向。

它自己喜歡的那個(gè)模型,就會(huì)是大家最喜歡的模型。


點(diǎn)個(gè)愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗伊通社網(wǎng)站恢復(fù)正常運(yùn)行

伊朗伊通社網(wǎng)站恢復(fù)正常運(yùn)行

環(huán)球網(wǎng)資訊
2026-02-28 16:07:07
成龍安排好身后事才2個(gè)月,翁靜晶再曝大瓜,沒給他留一絲體面

成龍安排好身后事才2個(gè)月,翁靜晶再曝大瓜,沒給他留一絲體面

星星沒有你亮
2026-02-28 20:40:21
伊朗陸軍總司令身亡?美以“斬首”行動(dòng)瞄準(zhǔn)最高領(lǐng)袖,哈梅內(nèi)伊已做好遇刺準(zhǔn)備

伊朗陸軍總司令身亡?美以“斬首”行動(dòng)瞄準(zhǔn)最高領(lǐng)袖,哈梅內(nèi)伊已做好遇刺準(zhǔn)備

上觀新聞
2026-02-28 19:47:38
官宣!抗癌新藥NK006獲批,9萬一針,晚期實(shí)體瘤患者新希望

官宣!抗癌新藥NK006獲批,9萬一針,晚期實(shí)體瘤患者新希望

王曉愛體彩
2026-02-26 08:03:14
歐盟稱收到伊朗“任何船只均不得通過霍爾木茲海峽”無線電信號(hào)

歐盟稱收到伊朗“任何船只均不得通過霍爾木茲海峽”無線電信號(hào)

界面新聞
2026-02-28 23:52:50
訪華回國(guó)后默茨真急了:中國(guó)太拼,我們得加油了

訪華回國(guó)后默茨真急了:中國(guó)太拼,我們得加油了

界面新聞
2026-02-28 15:07:04
全程監(jiān)視美軍調(diào)動(dòng)!在中國(guó)衛(wèi)星面前,美國(guó)對(duì)伊行動(dòng)已沒有秘密可言

全程監(jiān)視美軍調(diào)動(dòng)!在中國(guó)衛(wèi)星面前,美國(guó)對(duì)伊行動(dòng)已沒有秘密可言

面包夾知識(shí)
2026-02-28 16:04:59
女子回湖北婆家過年,車被妯娌砸稀爛,報(bào)警后絕不和解,結(jié)局爽了

女子回湖北婆家過年,車被妯娌砸稀爛,報(bào)警后絕不和解,結(jié)局爽了

不寫散文詩
2026-02-28 17:19:21
從國(guó)宴到夜宵攤:國(guó)產(chǎn)汽水如何從統(tǒng)治者淪為乞丐

從國(guó)宴到夜宵攤:國(guó)產(chǎn)汽水如何從統(tǒng)治者淪為乞丐

富貴說
2026-02-27 16:40:22
大的要來了!中東大亂,A股這個(gè)板塊準(zhǔn)備集體漲停!

大的要來了!中東大亂,A股這個(gè)板塊準(zhǔn)備集體漲停!

新浪財(cái)經(jīng)
2026-02-28 21:57:11
特朗普下令:所有聯(lián)邦政府機(jī)構(gòu)將立即停用Anthropic

特朗普下令:所有聯(lián)邦政府機(jī)構(gòu)將立即停用Anthropic

財(cái)聯(lián)社
2026-02-28 05:45:05
突發(fā)利空!以色列開打伊朗 中國(guó)資產(chǎn)等跳水大跌,下周A股要涼涼了?

突發(fā)利空!以色列開打伊朗 中國(guó)資產(chǎn)等跳水大跌,下周A股要涼涼了?

股市皆大事
2026-02-28 16:03:03
英超進(jìn)球大戰(zhàn)!爭(zhēng)四格局大亂,利物浦4連勝,切爾西掉到第6

英超進(jìn)球大戰(zhàn)!爭(zhēng)四格局大亂,利物浦4連勝,切爾西掉到第6

足球狗說
2026-03-01 00:57:22
徹底決裂!沙特強(qiáng)勢(shì)警告伊朗,阿拉伯陣營(yíng)集體攤牌

徹底決裂!沙特強(qiáng)勢(shì)警告伊朗,阿拉伯陣營(yíng)集體攤牌

老馬拉車莫少裝
2026-02-28 20:35:31
戰(zhàn)火全開!44分鐘蒸發(fā)4800億!美以伊沖突,徹底引爆!市場(chǎng)在擔(dān)心什么?

戰(zhàn)火全開!44分鐘蒸發(fā)4800億!美以伊沖突,徹底引爆!市場(chǎng)在擔(dān)心什么?

新浪財(cái)經(jīng)
2026-02-28 18:52:41
外交部發(fā)言人就美國(guó)和以色列軍事打擊伊朗答記者問

外交部發(fā)言人就美國(guó)和以色列軍事打擊伊朗答記者問

界面新聞
2026-02-28 21:45:34
少婦當(dāng)眾猥褻年輕男子:脫褲裸露下體,正面照流出,私密細(xì)節(jié)披露

少婦當(dāng)眾猥褻年輕男子:脫褲裸露下體,正面照流出,私密細(xì)節(jié)披露

博士觀察
2026-02-27 14:51:00
中國(guó)男籃vs中國(guó)臺(tái)北12人名單:郭士強(qiáng)不變陣 謹(jǐn)防重演馬尼拉慘案

中國(guó)男籃vs中國(guó)臺(tái)北12人名單:郭士強(qiáng)不變陣 謹(jǐn)防重演馬尼拉慘案

醉臥浮生
2026-02-28 19:58:02
獨(dú)生子女家庭一定要立遺囑,而且遺囑里一定要“加上這3句話”

獨(dú)生子女家庭一定要立遺囑,而且遺囑里一定要“加上這3句話”

娛樂圈見解說
2026-02-26 19:40:20
特朗普應(yīng)該想不到:他對(duì)伊朗的滅國(guó)之戰(zhàn),讓中俄歐看清了一個(gè)真相

特朗普應(yīng)該想不到:他對(duì)伊朗的滅國(guó)之戰(zhàn),讓中俄歐看清了一個(gè)真相

頭條爆料007
2026-02-28 18:49:20
2026-03-01 01:12:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個(gè)星球。
2894文章數(shù) 10458關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

媒體:美以的真實(shí)目標(biāo)已經(jīng)擺上臺(tái)面 不達(dá)目的不罷休

頭條要聞

媒體:美以的真實(shí)目標(biāo)已經(jīng)擺上臺(tái)面 不達(dá)目的不罷休

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財(cái)經(jīng)要聞

沖突爆發(fā) 市場(chǎng)變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

旅游
健康
家居
教育
房產(chǎn)

旅游要聞

忻州古城×元宵節(jié) | “夯”爆了!看非遺社火解鎖忻州古城的超長(zhǎng)年味!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

家居要聞

素色肌理 品意式格調(diào)

教育要聞

“比預(yù)估高了20多分,激動(dòng)得有點(diǎn)想哭!”今天有人歡呼,有人沉默,有人紅了眼眶,這一年都經(jīng)歷了什么?

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

無障礙瀏覽 進(jìn)入關(guān)懷版