国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

小米發(fā)了個 310B:性能不一定最強(qiáng),但路線很現(xiàn)實

0
分享至

今天我有一個考試,考試前的半個小時刷twitter,看到了小米發(fā)布的模型,但是沒顧得上仔細(xì)看,晚上再看的時候。

覺得這貌似是前DeepSeek的核心參與者Fuli Luo,到新公司小米之后正式發(fā)布的第一條twitter,所以從含金量上來說肯定是拉滿了。


當(dāng)然事實上也的確是,從小米的huggingface上可以看到,MiMo-V2-Flash是一個單獨的系列,相比起其他系列,這個系列最大的特點就是大,足足有310B,而其他的都只有8B。


很明顯的,8B的模型唯一的優(yōu)勢就是速度快,但是要談到能用的程序,還遠(yuǎn)遠(yuǎn)不夠。

而310B這個量級,基本上可以說是夠用了。

為什么說是夠用呢,因為小米這種公司本身就不是搞AI的,所以把AI刷到世界第一既不可能,也沒有太大的必要。

最重要的是夠用和好用,最好是能跟小米的整個硬件生態(tài)關(guān)聯(lián)上。

有些人可能會提到這不就是刷Benchmark嗎?這話怎么說的。沒有新出的大模型不刷Benchmark的,因為如果沒有在benchmark上達(dá)到sota,那就根本沒有發(fā)布的意義。


其實刷benchmark也是有策略的,大多數(shù)情況就是小米這樣,拿通用的benchmark跑一遍,跑到大多數(shù)達(dá)到sota即可。

而有些公司,比如OpenAI,他們是發(fā)現(xiàn)普通的benchmark都被刷爛了,再刷也很難體現(xiàn)他們的斷崖式領(lǐng)先了,所以他們會有動力搞新的benchmark,這就是所謂的規(guī)則制定者。

所以,刷榜正常也非常的必要。

至于真實的使用性能,我覺得對于小米的模型來說,能夠?qū)崿F(xiàn)deepseek級別的理解能力,其余的都應(yīng)該放到efficient上。

而實際上小米的整個模型也是這么干的。

01

小米模型的技術(shù)策略

第一,架構(gòu)設(shè)計

5層Sliding Window Attenion(SWA)+1層Global Attention(GA),然后重復(fù)8次,可以大多數(shù)的層都很省,只有1/9的層在做大批量運算。



但SWA的窗口很小,所以出現(xiàn)attention sink,看起來MiMO專門在這個地方打了補(bǔ)丁。

第二,Lightweight Multi-Token Prediction(MTP):輕量多 token 預(yù)測

傳統(tǒng)的大模型一個token一個token的吐,慢和貴,一次性吐好幾個肯定快,但是穩(wěn)定性就很難說了。

它這里提到的Speculative Decoding(投機(jī)解碼),就是用一個小模型先“草擬一串 token”,大模型再驗證/修正。

看起來MiMO模型原生的集成了這個模塊,讓大模型自己在一步里“預(yù)測多個未來 token”,而不是傳統(tǒng)的另外訓(xùn)練一個“草稿模型”。

基本上就是用hybrid attention(SWA +GA) + MTP這倆工具把“長上下文 + 推理速度”這兩大痛點壓下去(省顯存、省算力、輸出更快),打造出了這一款最新的國產(chǎn)大模型。

速度肯定是快,因為很多巧思都用在了速度和效率上。

但是天下沒有免費的午餐。

性能肯定不會拔尖,但是我覺得對于小米來說關(guān)系不大,快和能用比較重要。

02

小米模型的性能優(yōu)化

在性能上,看起來小米干了三件事:

Multi-Teacher On-Policy Distillation (MOPD)

第一個很有意思,最近看了一個帖子,說是的2025年最流行的Policy Optimization algorithms,看起來小米自己也做了一個MOPD,不過好不好用現(xiàn)在還很難說,過幾個月看有多少人用就知道了。

PPO (Proximal Policy Optimization)

GRPO (Group Relative)

GSPO (Group Sequence)

DAPO (Decoupled Clip and Dynamic sAmpling)

BAPO (BAlanced)

ARPO (Agentic Reinforced)

Scaling Agentic RL

第二個,Scaling Agentic RL

我覺得這應(yīng)該是小米的強(qiáng)項,因為它的小米生態(tài)里面有太多的任務(wù)可以拿來測試了,甚至這應(yīng)該是小米未來最強(qiáng)的點。

就跟Nano Banana之于Google一樣,人家的強(qiáng)項就是數(shù)據(jù),OpenAI的圖像生成你再怎么搞也不可能老大。

而小米的優(yōu)勢就是硬件生態(tài),甚至說能搞出豆包AI手機(jī)一樣的東西也不是不可能。

Advanced RL Infrastructure

第三個,Advanced RL Infrastructure

講的是大規(guī)模訓(xùn)練時候的細(xì)節(jié)問題,本質(zhì)上就是“你論文里寫一句話,工程上要填一萬個坑”的那種東西:MoE 的路由一致性、rollout 和訓(xùn)練對齊、前綴緩存、多輪工具調(diào)用的資源調(diào)度、長尾任務(wù)拖慢 GPU 利用率,都是這種體系一旦做大就繞不開的臟活累活。

這部分一般不太容易刷出一個“新算法名字”,但反而最能體現(xiàn)一個團(tuán)隊到底有沒有真把系統(tǒng)跑起來。

所以我對 MiMo-V2-Flash 的整體判斷很簡單:它不是那種要拿第一名的模型,而是那種“為了能落地、能跑得快、能接得上產(chǎn)品”而做出來的模型。

如果小米接下來能把它真正放進(jìn)自己的硬件生態(tài)里,讓它變成一個穩(wěn)定可用的能力層(而不是停留在論文和榜單里),那它的意義會比單純刷幾個分大得多。

至于它最后能走多遠(yuǎn),其實就看兩件事:

第一,有多少開發(fā)者愿意用它、圍繞它做應(yīng)用。

第二,小米能不能把“模型”變成“系統(tǒng)能力”,從手機(jī)到家電到車機(jī),真正連成一條鏈。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
釘在恥辱柱上!國家文物局出手,這三個跳梁小丑,真的徹底涼涼了

釘在恥辱柱上!國家文物局出手,這三個跳梁小丑,真的徹底涼涼了

戶外阿嶄
2025-12-28 17:07:24
女卡車司機(jī)“半掛西施”去世后,網(wǎng)友分析網(wǎng)名,4個字竟字字應(yīng)驗

女卡車司機(jī)“半掛西施”去世后,網(wǎng)友分析網(wǎng)名,4個字竟字字應(yīng)驗

千言娛樂記
2025-12-28 20:02:42
苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

科普100克克
2025-12-07 18:20:34
美國國務(wù)院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個時代或終結(jié)

美國國務(wù)院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個時代或終結(jié)

三石記
2025-12-27 15:03:24
米蘭20天首勝!暫登頂意甲,10戰(zhàn)維羅納全勝,連刷4大紀(jì)錄

米蘭20天首勝!暫登頂意甲,10戰(zhàn)維羅納全勝,連刷4大紀(jì)錄

奧拜爾
2025-12-28 21:33:44
杭州姑娘“兔子警官”主動回應(yīng)“哄孩子式執(zhí)法”:“他們需要外力推一下……”

杭州姑娘“兔子警官”主動回應(yīng)“哄孩子式執(zhí)法”:“他們需要外力推一下……”

都市快報橙柿互動
2025-12-28 14:07:18
保定大量商戶突然關(guān)閉,整個街道冷冷清清

保定大量商戶突然關(guān)閉,整個街道冷冷清清

映射生活的身影
2025-12-27 18:09:05
統(tǒng)治澳洲!韓旭26分鐘12中9高效22+5 加盟6戰(zhàn)全勝狂勝138分

統(tǒng)治澳洲!韓旭26分鐘12中9高效22+5 加盟6戰(zhàn)全勝狂勝138分

醉臥浮生
2025-12-28 18:09:56
瓜子二手車發(fā)布榜單,保值排名出乎意料

瓜子二手車發(fā)布榜單,保值排名出乎意料

ZAKER新聞
2025-12-26 15:23:34
1960年春節(jié),周總理請溥儀吃飯,酒桌上溥儀講了個慈禧的“笑話”,總理聽完,當(dāng)場陷入了沉思

1960年春節(jié),周總理請溥儀吃飯,酒桌上溥儀講了個慈禧的“笑話”,總理聽完,當(dāng)場陷入了沉思

歷史回憶室
2025-12-24 10:29:12
香港男子命喪天水圍橋底,嫌疑人在深圳灣口岸落網(wǎng)!押回現(xiàn)場

香港男子命喪天水圍橋底,嫌疑人在深圳灣口岸落網(wǎng)!押回現(xiàn)場

南方都市報
2025-12-28 12:18:04
直擊:日本發(fā)生重大交通事故,67輛車連環(huán)撞,幸存者顫抖回憶慘烈現(xiàn)場……

直擊:日本發(fā)生重大交通事故,67輛車連環(huán)撞,幸存者顫抖回憶慘烈現(xiàn)場……

日本物語
2025-12-27 20:32:22
閃評丨澤連斯基訪美之際 普京再就俄烏沖突局勢表態(tài)

閃評丨澤連斯基訪美之際 普京再就俄烏沖突局勢表態(tài)

國際在線
2025-12-28 15:07:02
畸形兒風(fēng)波反轉(zhuǎn)!醫(yī)院回應(yīng)透露2個關(guān)鍵信息 闞清子的沉默早有預(yù)兆

畸形兒風(fēng)波反轉(zhuǎn)!醫(yī)院回應(yīng)透露2個關(guān)鍵信息 闞清子的沉默早有預(yù)兆

觀察鑒娛
2025-12-28 10:26:06
201米!40億!騰訊西南總部,世界“第一扭”摩天樓

201米!40億!騰訊西南總部,世界“第一扭”摩天樓

GA環(huán)球建筑
2025-12-25 23:00:32
羽球天王杯:銅牌誕生!世界第8復(fù)仇喬納坦,石宇奇首局7-11落后

羽球天王杯:銅牌誕生!世界第8復(fù)仇喬納坦,石宇奇首局7-11落后

劉姚堯的文字城堡
2025-12-28 20:01:00
61歲奧巴馬夫人暴瘦后“逆生長”,與前總統(tǒng)丈夫合照笑開了花

61歲奧巴馬夫人暴瘦后“逆生長”,與前總統(tǒng)丈夫合照笑開了花

艷兒說電影
2025-12-27 21:11:14
甚至來不及準(zhǔn)備,湘超冠軍永州隊巡游花車為臨時切割公交車改造而成

甚至來不及準(zhǔn)備,湘超冠軍永州隊巡游花車為臨時切割公交車改造而成

懂球帝
2025-12-28 16:35:07
廣東一小伙,因入住毛坯房而走紅,花費僅1萬,卻無一絲窮酸氣!

廣東一小伙,因入住毛坯房而走紅,花費僅1萬,卻無一絲窮酸氣!

阿離家居
2025-12-28 10:19:49
沖上熱搜!黃子韜因腦淤血接受開顱手術(shù)縫了43針,本人回應(yīng)

沖上熱搜!黃子韜因腦淤血接受開顱手術(shù)縫了43針,本人回應(yīng)

半島晨報
2025-12-28 18:04:45
2025-12-28 21:52:49
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

房產(chǎn)
家居
時尚
藝術(shù)
公開課

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

2026年了,最好看還是這件大衣!

藝術(shù)要聞

驚艷!陳紅20年前沙發(fā)照曝光,宛如人間尤物!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版