網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Meta億元天團(tuán)首個(gè)大模型交卷！耗時(shí)九個(gè)月，一雪Llama前恥

2026-04-09 09:48:05　來源: 量子位

北京舉報(bào)

分享至

再見了，所有的羊駝。

亞歷山大王帶隊(duì)9個(gè)月從零重構(gòu)Meta所有AI技術(shù)棧，在不斷的質(zhì)疑中交出超級智能實(shí)驗(yàn)室第一個(gè)模型：

主打原生多模態(tài)的Muse Spark。

模型發(fā)布后，Meta股價(jià)火速拉升約7%，中間一度漲超近10%，當(dāng)日整體上漲6%左右。

市場的反應(yīng)可謂相當(dāng)熱烈。

隨手一扒你就會發(fā)現(xiàn)，這款模型背后藏著不少我們熟悉的高手：思維鏈作者Jason Wei、o1核心貢獻(xiàn)者Hyung Won Chung、被小扎天價(jià)挖來的余家輝、擴(kuò)散模型核心人物宋飏……

嗯？當(dāng)這群人湊在一起，很明顯你就會找到一個(gè)關(guān)鍵詞：推理。

沒錯(cuò)，據(jù)Jason Wei爆料，9個(gè)月前他們坐在一起討論時(shí)，首先寫下的就是一款用于推理的llama模型腳本，而現(xiàn)在，完全體終于誕生。

而頂尖高手+耗時(shí)9個(gè)月打磨，Muse Spark也總算讓Meta在第三方測評中趕上第一梯隊(duì)，一雪llama 4帶來的前恥。

而且很有意思的一點(diǎn)是，Meta這次一反常態(tài)，沒有反復(fù)強(qiáng)調(diào)自己拿了多少SOTA，而是稍顯克制地表示：

Muse Spark在多模態(tài)感知、推理、健康和自主任務(wù)方面表現(xiàn)不錯(cuò)，但在編程和長時(shí)間自主運(yùn)行方面仍與對家的頂尖模型存在差距。

咳咳，看來之前l(fā)lama 4確實(shí)給Meta留下了心理陰影（doge）。

另外，Muse Spark的出生也終于讓長期以來有關(guān)“Meta開閉源”的討論蓋棺定論：

這次是真閉源了。

目前這款模型已上線Meta網(wǎng)站和APP，API僅向部分合作伙伴開放。

（不過亞歷山大王還是留了個(gè)口子，表示“計(jì)劃未來開源后續(xù)版本”）

“Meta回來了”

老規(guī)矩，先看一波測評成績。

作為Meta迄今最強(qiáng)大的模型，Muse Spark這次主要在三個(gè)方面表現(xiàn)突出：

一是多模態(tài)理解能力。

不管是看論文圖表還是屏幕，各項(xiàng)得分要么第一、要么和Gemini 3.1 Pro、GPT 5.4等不相上下。

從網(wǎng)友們的測試來看，它好像尤為擅長圖片轉(zhuǎn)代碼。

當(dāng)然文本能力也不差（doge），在網(wǎng)友的激情測試中，它就火速通過了新版弱智吧風(fēng)格的洗車測試。

100米外有個(gè)洗車店，我該開車去還是走路去。
Muse Spark：洗車當(dāng)然要把車開過去，但沒必要搞得跟上下班通勤似的。

（當(dāng)然也不排除是數(shù)據(jù)污染的問題，畢竟問題出來也挺久了…）

再一個(gè)就是工具調(diào)用能力，測評情況也和多模態(tài)理解能力類似。

以及這次Muse Spark著重強(qiáng)調(diào)的醫(yī)學(xué)能力。

由于和1000+醫(yī)生展開了合作，它不僅在開放式健康問答HealthBench Hard上拿到42.8的最高分，而且在多模態(tài)醫(yī)學(xué)問答MedXpertQA MM中位居前列。

不過短板我們開頭也說了，Muse Spark仍在編程和Agent類任務(wù)上與其他頂尖選手存在差距。

可能也是為了盡量彌補(bǔ)這一點(diǎn)，他們這次還專門推出了Contemplating沉思模式。

主要是讓多個(gè)Agent同時(shí)思考同一個(gè)問題，然后匯總結(jié)果找出最好的。

在這套打法下，Muse Spark就能和Gemini Deep Think、 GPT Pro這類極限推理模式展開正面PK了。

比如在“人類最后的考試”中，Muse Spark明顯壓過一頭（不過在物理奧賽理論題中還是略遜一籌）。

（目前沉思模式正在Meta網(wǎng)站灰度測試）

另外值得一提的是，Meta這次無預(yù)告直接上線了“購物模式”。

亞歷山大王表示，模型會結(jié)合用戶在ins、Facebook、Threads上關(guān)注的創(chuàng)作者和品牌偏好，做個(gè)性化的購物推薦。

好好好，這次也不給你討論的機(jī)會了，之前OpenAI可沒少因?yàn)閺V告挨罵。

目前，隨著Muse Spark測評一同出爐的，還有第三方機(jī)構(gòu)的測評。

他們拿到Muse Spark的早期訪問權(quán)測了一波，然后給出了一個(gè)結(jié)論：Meta回來了！

在關(guān)鍵指標(biāo)人工智能分析指數(shù)上，其得分僅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。

這也和Muse Spark自己給出的測評成績差不多。

對外界而言，初步來看，Muse Spark確實(shí)把Meta重新帶回了人工智能第一梯隊(duì)。

背后訓(xùn)練細(xì)節(jié)

至于Muse Spark是如何做到這一點(diǎn)的，Meta也公布了背后的訓(xùn)練細(xì)節(jié)。

核心其實(shí)就是亞歷山大王提到的：9個(gè)月重構(gòu)一切。

新的基礎(chǔ)設(shè)施、新的架構(gòu)、新的數(shù)據(jù)管道。

具體可以看網(wǎng)友給大家劃的重點(diǎn)：

在預(yù)訓(xùn)練階段，能夠以比Llama 4 少10倍以上的計(jì)算量達(dá)到相同的性能水平。
強(qiáng)化學(xué)習(xí)訓(xùn)練展現(xiàn)出平滑且可預(yù)測的改進(jìn)，具有良好的泛化能力和可擴(kuò)展性。
Test-time階段，在加入長度懲罰機(jī)制后，“思維壓縮”開始生效，模型學(xué)會了用更少的token解決問題。

Meta在博客中介紹，過去9個(gè)月，他們對Muse Spark的預(yù)訓(xùn)練技術(shù)棧進(jìn)行了全面升級。

所有改進(jìn)的目標(biāo)，都是為了讓每一分算力都能產(chǎn)生更大的價(jià)值。

為了驗(yàn)證效果，他們做了一個(gè)對比實(shí)驗(yàn)：先用一系列小模型擬合出一條“算力-能力”的Scaling曲線，然后計(jì)算要達(dá)到某個(gè)性能水平具體需要多少算力。

結(jié)果發(fā)現(xiàn)，相比Llama 4，Muse Spark達(dá)到同樣水平所需要的計(jì)算量低了一個(gè)數(shù)量級以上（10.3倍）。

預(yù)訓(xùn)練完成后，他們進(jìn)一步用強(qiáng)化學(xué)習(xí)來提升模型能力。

雖然大規(guī)模RL訓(xùn)練通常很不穩(wěn)定，但他們聲稱自己的新架構(gòu)做到了“穩(wěn)中有進(jìn)”。

如下圖所示，隨著RL訓(xùn)練步數(shù)增加，模型在訓(xùn)練數(shù)據(jù)上的成功率（無論是單次嘗試還是16次中至少成功一次）呈現(xiàn)對數(shù)線性增長。

這說明，RL在提升可靠性的同時(shí)，沒有破壞推理的多樣性。

而且在模型從未見過的任務(wù)上，準(zhǔn)確率同樣在穩(wěn)步提升——這說明RL帶來的能力提升是可預(yù)測、可泛化的，不是死記硬背。

以及為了讓模型在回答復(fù)雜問題之前先“想一想”，團(tuán)隊(duì)仍用強(qiáng)化學(xué)習(xí)訓(xùn)練它具備這種“測試時(shí)推理”能力。

不過需要注意，實(shí)踐證明Test-time階段的推理尤為耗費(fèi)token，所以如何精打細(xì)算也是這一階段的重點(diǎn)。

對此，他們用了兩個(gè)關(guān)鍵手段來平衡效果與效率：

一是思考時(shí)間懲罰。鼓勵(lì)模型用更短的推理路徑得出正確答案，倒逼它學(xué)會“思維壓縮”。

二是多智能體協(xié)作。讓多個(gè)模型或模塊協(xié)同工作，在保證響應(yīng)速度不降的前提下提升整體表現(xiàn)。

然后在AIME這類高難度評測集上，他們觀察到了一個(gè)有趣的“三階段變化”：

模型一開始會不自覺延長思考，希望通過拉長推理過程來提高正確率。

但這會馬上觸發(fā)“思考時(shí)間懲罰”，于是模型被迫精簡推理，學(xué)會用更少的token解決問題。

而在精簡之后，模型還表現(xiàn)出了擴(kuò)展性能——在高效的基礎(chǔ)上繼續(xù)優(yōu)化解法，最終實(shí)現(xiàn)用更少的資源獲得更強(qiáng)的性能表現(xiàn)。

也不乏翻車的

不過前面也說了，Muse Spark雖然將Meta帶回了第一梯隊(duì)，但在編程、Agent類任務(wù)上仍有不足。

這不，模型剛發(fā)布，翻車集錦也來了……

有人想用它生成網(wǎng)站，結(jié)果3個(gè)請求一個(gè)都沒實(shí)現(xiàn)，而且連最基本的前端都無。

不過后來貼主發(fā)現(xiàn)可能是偶然錯(cuò)誤，模型正常情況下做出來的前端是這樣的。

一個(gè)簡單的編程任務(wù)，Muse Spark雖生成了一大堆東西，但根本跑不通。

在一個(gè)Python文件里實(shí)現(xiàn)自動微分（autograd）和神經(jīng)網(wǎng)絡(luò)。

網(wǎng)友甚至調(diào)侃，模型根本沒在學(xué)，訓(xùn)練了1800個(gè)epoch，損失函數(shù)卻一直卡在同一個(gè)值上沒動過。

白白浪費(fèi)算力了……

（正常情況下，隨著訓(xùn)練進(jìn)行損失應(yīng)該逐步下降，表明模型在“學(xué)習(xí)”）

所以問題來了，有試過的朋友覺得亞歷山大王的首個(gè)模型如何？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

Meta重組AI團(tuán)隊(duì)后首個(gè)模型來了：不是最強(qiáng)、不再開源、可能夠用

DeepTech深科技 2026-04-09 10:19:10
0 跟貼 0
突然襲擊！剛剛，Meta超級智能團(tuán)隊(duì)首個(gè)大模型來了

機(jī)器之心Pro 2026-04-09 09:23:53
0 跟貼 0

早報(bào)｜B站推出播放頁暫停廣告/GoPro啟動大規(guī)模裁員/Meta時(shí)隔9個(gè)月再發(fā)大模型，被指「圖表造假」

愛范兒 2026-04-09 08:22:23
3 跟貼 3

Sakana AI造了個(gè)數(shù)字生命「培養(yǎng)皿」，AI學(xué)會打架、結(jié)盟、搶地盤

機(jī)器之心Pro 2025-11-05 13:58:14
0 跟貼 0
重構(gòu)跨域RL框架！理論驅(qū)動「雙重對齊」讓跨域遷移「質(zhì)變」

機(jī)器之心Pro 2026-04-02 14:58:04
0 跟貼 0

AI數(shù)據(jù)獨(dú)角獸遭黑客攻擊，一周內(nèi)吃了5場官司，Meta緊急暫停合作

智東西 2026-04-09 10:18:49
0 跟貼 0

支持遠(yuǎn)程操控和通用GUI操作3

機(jī)器之心Pro 2026-03-02 13:36:13
0 跟貼 0
Meta押注“超級智能”：Muse Spark橫空出世，扎克伯格的AI翻身仗打響了

鈦媒體APP 2026-04-09 10:04:28
0 跟貼 0

妹妹生孩子當(dāng)天，妹夫撿回一個(gè)男嬰，兩個(gè)孩子就成了雙胞胎兄弟

懂八煉金室 2026-04-07 13:08:15
0 跟貼 0
退休金1萬2吃榴蓮被女兒質(zhì)問，你配嗎？給她斷供后他們一家傻眼了

雪姐故事多 2026-04-08 09:08:16
0 跟貼 0
霍爾木茲海峽已再次關(guān)閉

央視新聞客戶端 2026-04-09 05:32:07
18129 跟貼 18129
能力太強(qiáng)，Mythos被Anthropic“凍結(jié)”

虎嗅APP 2026-04-09 03:25:07
1 跟貼 1
美軍拯救2名F15飛行員全過程曝光！這次特朗普沒有吹牛

知識圈 2026-04-07 14:35:09
12979 跟貼 12979
蘇州CNC數(shù)控培訓(xùn)新方法：RPEC實(shí)戰(zhàn)論助力畢業(yè)生即刻上崗！

隨性汽車 2026-04-09 01:00:35
0 跟貼 0
阿杜家事變回應(yīng)：真相大揭秘

城市植愈所 2026-04-07 06:01:33
8 跟貼 8
FysicsWorld：填補(bǔ)全模態(tài)交互與物理感知評測的空白

機(jī)器之心Pro 2025-12-29 14:38:56
0 跟貼 0
動畫詳解：瘋狂的 F-15 救援任務(wù)

不一定有用的頻道 2026-04-08 07:57:38
5846 跟貼 5846
中俄投下反對票！傅聰：不給使用武力開通行證

看看新聞Knews 2026-04-08 16:59:04
16547 跟貼 16547
黑熊在道路上翻滾疑受傷？林草局：從山上滾落下來的，沒有受傷

星辰視頻 2026-04-06 15:41:39
3303 跟貼 3303
鄭麗文一行到上海美團(tuán)參觀

頭條爆料007 2026-04-08 18:20:18
88 跟貼 88
僅憑一個(gè)細(xì)節(jié)就能破案，這推理能力太絕了，真相背后大有文章

尚悅電影 2026-04-09 11:00:40
1 跟貼 1
騎車大叔不斷調(diào)整依然無法通過把將隨意停放擋路的電瓶車推倒

橙薪視頻 2026-04-06 17:07:58
0 跟貼 0
爬山遇到拾荒美女，簡直就是最美的巡山“清道夫”

美女歡樂多 2026-04-07 18:01:00
0 跟貼 0
鄭麗文前往浙江參訪男保鏢抿嘴警惕女保鏢緊盯接待方

全球速覽 2026-04-09 10:02:03
26 跟貼 26
婆婆為了要兒媳的錢，竟然跑去跟親家理論

情感動畫社v 2026-04-08 08:28:42
1 跟貼 1
鄭麗文一行參觀上海洋山港接待人員神情輕松聊天

全球速覽 2026-04-09 10:12:35
3 跟貼 3
特朗普披露營救F-15飛行員內(nèi)幕：帶傷攀爬峭壁、大量流血自行包扎

知識圈 2026-04-07 14:51:37
2399 跟貼 2399
伊朗無人機(jī)航拍美軍被炸運(yùn)輸機(jī)殘骸燒得一片漆黑

軍情透視 2026-04-05 18:30:31
472 跟貼 472
女子產(chǎn)假期間帶孩子回娘家住了一個(gè)月，臨走前一晚父母陪孩子時(shí)滿眼不舍

每日看點(diǎn)匯 2026-04-08 12:16:25
0 跟貼 0
這取款機(jī)是純?nèi)斯ぶ悄馨?/a>

長歌追劇 2026-04-08 08:20:53
1 跟貼 1
鄭麗文發(fā)現(xiàn)被拍放緩腳步還朝網(wǎng)友比了個(gè)"OK"手勢

全球速覽 2026-04-09 11:38:43
0 跟貼 0
二十屆中央第七輪巡視對象公布

央視新聞客戶端 2026-04-08 19:08:56
28 跟貼 28
美國考慮從部分北約國家撤離駐軍特朗普表態(tài)

每日經(jīng)濟(jì)新聞 2026-04-09 10:58:11
9 跟貼 9
緊急情況！上海虹橋、浦東機(jī)場，接連有旅客被攔截！警察一句話，小伙當(dāng)場嚇懵：這一去，就回不來了

上觀新聞 2026-04-08 14:19:19
455 跟貼 455
在外一定要慎重，小伙路怒癥下車?yán)碚摚P(guān)鍵時(shí)刻子彈上膛就不吼了

旅游小達(dá)人看世界 2026-04-08 13:21:02
0 跟貼 0
張雪峰接班人武亮老師連線家長說人工智能專業(yè)！

搞笑梅姐 2026-04-05 03:20:21
3 跟貼 3
Windows部署OpenClaw教程！WSL2方案，官方推薦，兼容性拉滿！

知了3C 2026-04-08 22:39:00
0 跟貼 0
“祖先給的特權(quán)”，河南網(wǎng)友稱祖墳在景區(qū)祭祖免票，景區(qū)回應(yīng)：沒過檢票口，一般是附近住戶的祖墳

大風(fēng)新聞 2026-04-06 15:06:12
2294 跟貼 2294
鄭麗文聽到臺灣小伙娶了上海姑娘瞬間笑得合不攏嘴

喜文多見01 2026-04-09 11:18:23
0 跟貼 0
GPT-6 曝光了，奧特曼卻成了硅谷最焦慮的人

AppSo 2026-04-06 17:15:36
40 跟貼 40

回加拿大生活的大山，60歲須發(fā)皆白很滄桑，重慶妻子仍風(fēng)韻猶存

量子位

追蹤人工智能動態(tài)

12445文章數(shù) 176446關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

游戲

本地

房產(chǎn)

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個(gè)毀掉你生活的不良習(xí)慣
李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

Meta億元天團(tuán)首個(gè)大模型交卷！耗時(shí)九個(gè)月，一雪Llama前恥

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了？

牛彈琴：?；饠?shù)小時(shí)后發(fā)生可怕屠殺 三點(diǎn)實(shí)在太詭異

牛彈琴：?；饠?shù)小時(shí)后發(fā)生可怕屠殺 三點(diǎn)實(shí)在太詭異

40歲，但實(shí)力倒退12年

具俊曄最新露面，又黑又瘦情緒低迷

談判基礎(chǔ)已被破壞！霍爾木茲海峽關(guān)閉

8155芯片+L2智駕 瑞虎5運(yùn)動版上市 置換補(bǔ)貼價(jià)6.79萬元起

態(tài)度原創(chuàng)

“這種人誰敢錄？”39歲華東師范考生舉報(bào)第一名，學(xué)?；貞?yīng)來了

IGN《地平線6》前瞻：令人流連忘返 地圖絕對杰作！

建水Color Walk | 古城慢調(diào)，掉進(jìn)春天的調(diào)色盤里

超級卷王登場！?？谑讉€(gè)抬板四代宅，徹底刷新認(rèn)知！

Meta億元天團(tuán)首個(gè)大模型交卷！耗時(shí)九個(gè)月，一雪Llama前恥

Meta凌晨首發(fā)閉源大模型扎克伯格又行了？

牛彈琴：?；饠?shù)小時(shí)后發(fā)生可怕屠殺三點(diǎn)實(shí)在太詭異

牛彈琴：?；饠?shù)小時(shí)后發(fā)生可怕屠殺三點(diǎn)實(shí)在太詭異

40歲，但實(shí)力倒退12年

具俊曄最新露面，又黑又瘦情緒低迷

談判基礎(chǔ)已被破壞！霍爾木茲海峽關(guān)閉

8155芯片+L2智駕瑞虎5運(yùn)動版上市置換補(bǔ)貼價(jià)6.79萬元起

“這種人誰敢錄？”39歲華東師范考生舉報(bào)第一名，學(xué)?；貞?yīng)來了

IGN《地平線6》前瞻：令人流連忘返地圖絕對杰作！

超級卷王登場！?？谑讉€(gè)抬板四代宅，徹底刷新認(rèn)知！