Meta 發(fā)布全新大模型：Muse Spark

2026-04-09 02:33:52　來源: 賽博禪心

北京舉報(bào)

分享至

MODEL

今天凌晨，Meta 發(fā)布了全新的大模型 Muse Spark，已上線到 Meta 旗下的各類產(chǎn)品

Alexandr Wang 推特宣布 Muse Spark 發(fā)布

Meta Superintelligence Labs（MSL） 負(fù)責(zé)人 Alexandr Wang 在推特上宣布了這個(gè)消息。他說，九個(gè)月前團(tuán)隊(duì)從零重建了整個(gè) AI 技術(shù)棧，新的基礎(chǔ)設(shè)施、新的架構(gòu)、新的數(shù)據(jù)管線，Muse Spark 就是這份工作的產(chǎn)物。目前已上線 meta.ai 和 Meta AI App，向部分合作伙伴開放了 API 預(yù)覽

去年 Llama 4 發(fā)布后遭遇了 Benchmark 作弊風(fēng)波，Meta 隨后對整個(gè) AI 組織做了大幅重組，挖來了 Scale AI 創(chuàng)始人 Alexandr Wang。Muse Spark 是重組之后交出的第一份答卷

同一天，Anthropic 公布了 Claude Mythos 的部分信息（賽博禪心此前發(fā)布了 Mythos 全面解讀），前沿模型的競爭又密集了一輪

Muse Spark 能做什么

Muse Spark 是一個(gè)原生多模態(tài)推理模型，支持工具調(diào)用、視覺推理鏈（visual chain of thought）和多 Agent 協(xié)同。Meta 把它定位為「個(gè)人超級(jí)智能」的第一步，面向 Meta 生態(tài)內(nèi) 30 億 用戶

Muse Spark Benchmark 總表

多模態(tài)

Muse Spark 從底層就為視覺信息設(shè)計(jì)，在視覺 STEM 問答、實(shí)體識(shí)別和空間定位上表現(xiàn)較強(qiáng)。這些能力組合起來可以做一些交互式的事情，比如把一張照片變成可以在網(wǎng)頁上玩的數(shù)獨(dú)游戲，或者給家電故障做動(dòng)態(tài)標(biāo)注幫你排查問題

健康

Meta 跟超過 1000 名醫(yī)生 合作整理了健康領(lǐng)域的訓(xùn)練數(shù)據(jù)，讓模型的回答更準(zhǔn)確、更全面。Muse Spark 可以生成交互式的健康展示，比如分析各種食物的營養(yǎng)成分，或者展示運(yùn)動(dòng)時(shí)激活了哪些肌肉群。健康是 Meta 這次明確押注的方向

官方放了幾個(gè)演示案例：

Prompt: 把這張照片變成一個(gè)可以在網(wǎng)頁上玩的數(shù)獨(dú)游戲

Prompt: 我是素海鮮主義者，膽固醇偏高。在推薦的食物上標(biāo)綠點(diǎn)，不推薦的標(biāo)紅點(diǎn)，懸停顯示個(gè)性化理由和健康評分

購物模式

這個(gè)功能來自 Wang 的推特。Muse Spark 會(huì)結(jié)合用戶在 Instagram、Facebook、Threads 上關(guān)注的創(chuàng)作者和品牌偏好，做個(gè)性化的購物推薦

Muse Spark 驅(qū)動(dòng)的 Meta AI 能夠看懂和理解你周圍的世界，從你在 Meta 各個(gè) App 上的真實(shí)對話中獲取上下文，然后在健康、科學(xué)、數(shù)學(xué)等復(fù)雜問題上做推理

Alexandr Wang 推特

Benchmark 表現(xiàn)

上面的總表已經(jīng)列出了全部成績。對比對象是 Opus 4.6、Gemini 3.1 Pro、GPT 5.4 和 Grok 4.2，Muse Spark 用的是 Thinking 模式。下面逐項(xiàng)展開

領(lǐng)先的項(xiàng)目

領(lǐng)先項(xiàng)對比

CharXiv Reasoning（圖表理解） 測的是模型對復(fù)雜圖表、科學(xué)插圖的理解能力。Muse Spark 拿了 86.4，GPT 5.4 是 82.8，Gemini 3.1 Pro 是 80.2。圖表理解是多模態(tài)模型的核心能力之一，這個(gè)分?jǐn)?shù)在所有對比模型中最高

HealthBench Hard 是開放式健康問答，考的是模型面對真實(shí)健康問題時(shí)給出準(zhǔn)確、全面、有同理心的回答的能力。Muse Spark 拿了 42.8，高于 GPT 5.4 的 40.1，Gemini 3.1 Pro 只有 20.6。這跟 Meta 跟上千名醫(yī)生合作整理數(shù)據(jù)有直接關(guān)系

MedXpertQA MM 是多模態(tài)醫(yī)學(xué)問答，給模型看醫(yī)學(xué)影像或病歷圖片來做判斷。Muse Spark 78.4，GPT 5.4 是 77.1，Gemini 3.1 Pro 是 81.3

DeepSearchQA（Agent 搜索） 測的是模型自主搜索網(wǎng)絡(luò)、整合信息來回答復(fù)雜問題的能力，是 Agent 能力的核心評測之一。Muse Spark 74.8，Gemini 3.1 Pro 69.7

明確落后的項(xiàng)目

落后項(xiàng)對比

ARC AGI 2（抽象推理） 測的是抽象推理，給模型一組圖案讓它推理出規(guī)則并預(yù)測下一個(gè)。這個(gè)評測被認(rèn)為是離 AGI 最近的測試之一。Muse Spark 只有 42.5，Gemini 3.1 Pro 76.5，GPT 5.4 76.1。差距非常大

Terminal-Bench 2.0（Agent 終端編程） 測的是模型在終端環(huán)境中自主完成編程任務(wù)的能力，包括調(diào)試、部署、環(huán)境配置等。Muse Spark 59.0，GPT 5.4 是 75.1，Gemini 3.1 Pro 是 68.5

LiveCodeBench Pro 是競賽級(jí)編程評測，來自 LeetCode 等平臺(tái)的實(shí)時(shí)題目。Muse Spark 80.0，GPT 5.4 是 87.5，Gemini 3.1 Pro 是 82.9

SWE-Bench Pro（Agent 編程） 測的是模型在真實(shí)開源代碼倉庫里定位 Bug 并修復(fù)的能力，是當(dāng)前 Agent 編程的主流評測。Muse Spark 52.4，GPT 5.4 是 57.7，Gemini 3.1 Pro 是 54.2

GDPval-AA Elo（辦公任務(wù)） 測的是模型處理日常辦公任務(wù)（文檔處理、表格分析、郵件撰寫等）的綜合能力。Muse Spark 1444，GPT 5.4 是 1672，Opus 4.6 是 1606

整體看下來，多模態(tài)感知和健康領(lǐng)域有競爭力，部分指標(biāo)領(lǐng)先。編程和 Agent 類任務(wù)落后明顯，Wang 自己在博客里也承認(rèn)了這一點(diǎn)，說團(tuán)隊(duì)在持續(xù)投入

Meta 的人跟 Axios 說得很直接：Muse Spark 不代表新的 SOTA，但在特定任務(wù)上跟前沿模型有競爭力。這個(gè)表態(tài)比去年 Llama 4 發(fā)布時(shí)的口徑克制了很多

Contemplating 模式

Muse Spark 同時(shí)發(fā)布了一個(gè)叫 Contemplating 的推理模式。做法是讓多個(gè) Agent 并行思考同一個(gè)問題，再匯總結(jié)果，對標(biāo) Gemini Deep Think 和 GPT Pro 這類極限推理模式

Contemplating 模式成績

Humanity's Last Exam 被稱為「人類最后的考試」，題目來自各學(xué)科頂尖專家出的極難問題。Muse Spark 在無工具條件下拿了 50.2，Gemini 3.1 Deep Think 48.4，GPT 5.4 Pro 43.9。有工具輔助的情況下達(dá)到 58.0

FrontierScience Research 測的是模型回答前沿科學(xué)研究問題的能力。Muse Spark 38.3，GPT 5.4 Pro 36.7，Gemini Deep Think 23.3

在科學(xué)研究類任務(wù)上表現(xiàn)不錯(cuò)。但物理還有差距，IPhO 2025 Theory（物理奧賽理論題）拿了 82.6，GPT 5.4 Pro 是 93.5，Gemini 3.1 Deep Think 是 87.7

Contemplating 模式目前在 meta.ai 上逐步灰度發(fā)布

技術(shù)棧重建

Meta 在官方博客里披露了 Muse Spark 在三個(gè)維度上的 Scaling 表現(xiàn)。這部分信息密度最高，也是判斷 MSL 這個(gè)團(tuán)隊(duì)成色的關(guān)鍵

預(yù)訓(xùn)練效率

過去九個(gè)月 MSL 重建了預(yù)訓(xùn)練技術(shù)棧，包括模型架構(gòu)、優(yōu)化器和數(shù)據(jù)處理。他們在一系列小模型上擬合了 Scaling Law，然后對比達(dá)到相同能力水平需要多少計(jì)算量

預(yù)訓(xùn)練效率對比

同樣的能力水平，Muse Spark 需要的計(jì)算量比 Llama 4 Maverick 低了一個(gè)數(shù)量級(jí)以上

官方說這個(gè)效率也優(yōu)于他們能獲取到的其他可比基座模型。從圖上的曲線看，差距確實(shí)明顯

強(qiáng)化學(xué)習(xí)

大規(guī)模 RL 訓(xùn)練一直以不穩(wěn)定著稱。Meta 說他們新的 RL 技術(shù)棧做到了穩(wěn)定、可預(yù)測的能力增長

RL Scaling 曲線

左圖是訓(xùn)練集上的表現(xiàn)隨 RL 步數(shù)增長，呈 log-linear 趨勢。pass@1 和 pass@16 同步上升，Meta 認(rèn)為這說明可靠性和推理多樣性沒有沖突。右圖是評估集上的準(zhǔn)確率增長，說明 RL 的收益能泛化到?jīng)]見過的任務(wù)

如果這些曲線的穩(wěn)定性在更大規(guī)模上還能保持，這本身就是一個(gè)有價(jià)值的工程成果

推理時(shí)計(jì)算

Meta 用了兩個(gè)方法來提升推理階段的效率

第一個(gè)是思考時(shí)間懲罰。訓(xùn)練時(shí)對思考長度施加懲罰，迫使模型用更少的 Token 完成推理。Meta 觀察到一個(gè)有趣的現(xiàn)象：模型先是想得越來越長，然后在懲罰作用下出現(xiàn)了「思維壓縮」（thought compression），用更短的推理鏈解決同樣的問題。壓縮之后模型再次延長思考，達(dá)到更高的表現(xiàn)水平

第二個(gè)是多 Agent 并行推理

多 Agent 并行 vs 單 Agent 延長思考

傳統(tǒng)做法是讓一個(gè)模型想更久，延遲線性增加。Muse Spark 的做法是讓多個(gè) Agent 并行思考再匯總，在相近的延遲下獲得更好的表現(xiàn)。Contemplating 模式就是基于這個(gè)思路

安全評估與「評估感知」

Meta 說 Muse Spark 經(jīng)歷了全面的安全評估，在生化武器、網(wǎng)絡(luò)安全、失控風(fēng)險(xiǎn)等類別上表現(xiàn)在安全范圍內(nèi)

安全評估結(jié)果

但第三方評估機(jī)構(gòu) Apollo Research 發(fā)現(xiàn)了一個(gè)特別的現(xiàn)象

Muse Spark 展現(xiàn)了 Apollo Research 觀測過的所有模型中最高的「評估感知」（evaluation awareness）

模型在測試中頻繁識(shí)別出場景是「對齊陷阱」，并且推理出自己應(yīng)該表現(xiàn)得誠實(shí)，原因是自己正在被評估

如果模型能識(shí)別出自己在被測試，那測試成績到底能代表多少真實(shí)能力

Meta 自己做了后續(xù)調(diào)查，發(fā)現(xiàn)評估感知可能在一小部分對齊評測上影響了模型行為，但這些評測跟危險(xiǎn)能力無關(guān)。Meta 的結(jié)論是不構(gòu)成發(fā)布的阻斷性問題，但需要進(jìn)一步研究。完整結(jié)果會(huì)在即將發(fā)布的安全報(bào)告中公開

從開源到閉源

Muse Spark 跟 Llama 系列有一個(gè)根本性的策略差異：它是閉源的

Bloomberg 確認(rèn)，Muse Spark 的設(shè)計(jì)和代碼不會(huì)公開。對一直以開源立身的 Meta 來說，這是一個(gè)明確的轉(zhuǎn)向。但 Wang 在推特和官方聲明里都提到，計(jì)劃在未來開源部分模型版本

Axios 報(bào)道了一個(gè)細(xì)節(jié)：Muse Spark 的內(nèi)部代號(hào)是「Avocado」

目前 Muse Spark 免費(fèi)使用，Meta 可能會(huì)對使用頻率做限制。Axios 也提醒了一點(diǎn)：Meta 的隱私政策對用戶與 AI 系統(tǒng)共享數(shù)據(jù)設(shè)定的限制很少

前情：從 Llama 4 到 MSL

回顧一下 Muse Spark 之前發(fā)生了什么

2025 年 4 月，Meta 發(fā)布 Llama 4，包含 Scout、Maverick 和 Behemoth 三個(gè)版本。Maverick 一度在 LMArena 排行榜上排到第二名，僅次于 Gemini 2.5 Pro。但社區(qū)很快發(fā)現(xiàn)，Meta 提交給排行榜的版本和公開發(fā)布的版本不一樣

公開版 Maverick 在多個(gè)獨(dú)立測試中表現(xiàn)遠(yuǎn)不如宣傳。LMArena 后來確認(rèn)，Meta 提交的是一個(gè)專門針對對話優(yōu)化的實(shí)驗(yàn)版本。公開版的排名從第二掉到了第三十二

Llama 4 的 Benchmark 結(jié)果被動(dòng)了手腳（fudged），團(tuán)隊(duì)對不同 Benchmark 使用了不同的模型來獲得更好的成績

Yann LeCun，F(xiàn)inancial Times 采訪

Zuckerberg 對此非常憤怒。LeCun 的原話是 Zuckerberg「對所有相關(guān)人員失去了信心」，隨后「架空了整個(gè) GenAI 組織」。大批人離開

2025 年 6 月，Meta 以 145 億美元 收購了 Scale AI。創(chuàng)始人 Alexandr Wang 加入 Meta 擔(dān)任首席 AI 官，領(lǐng)導(dǎo)新成立的 Meta Superintelligence Labs。Wang 當(dāng)時(shí) 25 歲，19 歲從 MIT 輟學(xué)創(chuàng)辦 Scale AI，在數(shù)據(jù)標(biāo)注和 AI 基礎(chǔ)設(shè)施領(lǐng)域有很強(qiáng)的行業(yè)地位

MSL 從零開始。新基礎(chǔ)設(shè)施、新架構(gòu)、新數(shù)據(jù)管線

這是 MSL 的第一個(gè)模型，肯定還有需要打磨的粗糙之處。但我們很興奮讓大家來試

Alexandr Wang 推特

參考材料

Introducing Muse Spark: Scaling Towards Personal Superintelligence
https://ai.meta.com/blog/introducing-muse-spark-msl/

Alexandr Wang 推特原文
https://x.com/alexandr_wang/status/2041909376508985381

Meta AI 官方推特
https://x.com/AIatMeta/status/2041910285653737975

Muse Spark 評估方法論
https://ai.meta.com/static-resource/muse-spark-eval-methodology

meta.ai（Muse Spark 體驗(yàn)入口）
https://meta.ai/

Mythos 全面解讀：Anthropic 最強(qiáng)模型發(fā)布（賽博禪心）
https://mp.weixin.qq.com/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.