9個月重構(gòu)全新大模型！Meta 重金打造華人團(tuán)隊，Muse Spark 一戰(zhàn)翻身

2026-04-09 08:35:47　來源: EETOP半導(dǎo)體社區(qū)

北京舉報

分享至

在生成式人工智能時代，元宇宙（Meta）一直是最受關(guān)注的公司之一。2023 年初，該公司推出了以開源為主的 Llama 系列大語言模型，迅速收獲了海量忠實用戶；但到了去年，Llama 4 發(fā)布后口碑褒貶不一，最終還被曝出在基準(zhǔn)測試中刷分造假，Meta 的 AI 發(fā)展勢頭也因此驟然停滯。

Llama 4 坎坷的發(fā)布?xì)v程，顯然促使 Meta 創(chuàng)始人兼首席執(zhí)行官馬克?扎克伯格在 2025 年夏季對公司 AI 業(yè)務(wù)進(jìn)行了全面重組，成立了全新內(nèi)部部門 —— 元宇宙超智能實驗室（MSL），并聘請 29 歲的 Scale AI 前聯(lián)合創(chuàng)始人兼首席執(zhí)行官Alexandr Wang出任首席人工智能官，負(fù)責(zé)領(lǐng)導(dǎo)該部門，同事花重金聘請了多位華人技術(shù)大牛。

而就在今天，Meta 向外界展示了此番調(diào)整的成果：全新閉源模型Muse Spark。Alexandr Wang在競品社交平臺 X（機(jī)器學(xué)習(xí)社區(qū)更常用的平臺）發(fā)文稱，該模型是 “Meta 迄今發(fā)布的最強(qiáng)大模型”，支持工具調(diào)用、視覺思維鏈與多智能體協(xié)同。他還表示，Muse Spark 將開啟全新的 Muse 模型系列，這也引發(fā)外界疑問：人氣極高的 Llama 系列未來將何去何從、研發(fā)是否會繼續(xù)。

Muse Spark 并非普通聊天機(jī)器人，而是Alexandr Wang口中 “個人超智能” 的底層基座。這款 AI 不只處理文本，更能 “觀察并理解你周遭的世界”，成為用戶的數(shù)字分身，這與扎克伯格 2025 年夏季公開提出的個人超智能愿景一脈相承。

但據(jù) Meta 官方發(fā)布博文介紹，Muse Spark目前僅為閉源模型，僅限 Meta AI 應(yīng)用、網(wǎng)頁端使用，同時僅向部分用戶開放 “私有 API 預(yù)覽”。這一舉措大概率會激怒數(shù)以十億計的 Llama 模型用戶，以及數(shù)千名依賴該模型的開發(fā)者（其中不少人活躍在競品社交平臺 Reddit 的 r/LocalLLaMA 板塊）。此外，官方尚未公布該模型的定價信息。

目前尚不清楚 Meta 是否已徹底終止 Llama 系列的研發(fā)。科技媒體 VentureBeat 就此直接詢問時，Meta 發(fā)言人在郵件中回應(yīng)：“我們現(xiàn)有的 Llama 模型將繼續(xù)保持開源”，但并未回應(yīng)未來是否會推出新一代 Llama 模型。

視覺思維鏈

Muse Spark 本質(zhì)上是一款原生多模態(tài)推理模型。不同于前代產(chǎn)品將視覺與文本 “拼接融合” 的方式，它從底層重新構(gòu)建，在內(nèi)部邏輯中全程整合視覺信息。這一架構(gòu)革新實現(xiàn)了 “視覺思維鏈”，讓模型能夠?qū)討B(tài)場景進(jìn)行標(biāo)注 —— 比如識別復(fù)雜意式咖啡機(jī)的零部件，或通過對比視頻分析糾正用戶的瑜伽動作。

而技術(shù)上最重大的突破，是全新的 \\“沉思模式”（Contemplating）\\。該功能可調(diào)度多個子智能體并行推理，讓 Meta 得以對標(biāo)谷歌 Gemini Deep Think、OpenAI GPT-5.4 Pro 這類頂級推理模型。

在基準(zhǔn)測試中，該模式在 “人類終極考試” 中取得 58% 的成績，在 “前沿科學(xué)研究” 任務(wù)中達(dá) 38%，Meta 稱這一結(jié)果驗證了其全新的擴(kuò)展路徑。

對公司盈利更具意義的是模型的高效性。Meta 表示，Muse Spark 實現(xiàn)同等推理能力所需算力，比其上一代中型旗艦?zāi)Ｐ?Llama 4 Maverick少一個數(shù)量級以上。這種效率源于 “思維壓縮” 技術(shù)：在強(qiáng)化學(xué)習(xí)階段，模型會因過度 “思考耗時” 受到懲罰，迫使它用更少的推理 Token 解決復(fù)雜問題，同時不犧牲準(zhǔn)確率。

基準(zhǔn)測試：王者歸來

Muse Spark 的發(fā)布被視作一次數(shù)據(jù)層面的 “量子躍遷”，終結(jié)了 Meta 長達(dá)一年無緣 AI 性能第一梯隊的局面。

結(jié)合 Meta 官方內(nèi)部數(shù)據(jù)與第三方大模型監(jiān)測機(jī)構(gòu) Artificial Analysis 的獨立審核結(jié)果可以明確：Muse Spark 不只是對 Llama 系列的小幅優(yōu)化，更是讓 Meta重新躋身全球前五頂尖模型行列。

根據(jù) Artificial Analysis 智能指數(shù) v4.0，Muse Spark 得分 52 分。作為對比，Meta 上一代旗艦 Llama 4 Maverick 在 2025 年發(fā)布時指數(shù)得分僅 18 分。

性能近乎提升兩倍后，Muse Spark 已逼近行業(yè)頂級系統(tǒng)，僅落后于 Gemini 3.1 Pro Preview（57 分）、GPT-5.4（57 分）與 Claude Opus 4.6（53 分）。

Meta 官方測試顯示，Muse Spark 在多模態(tài)推理，尤其是視覺圖像與邏輯結(jié)合的場景中表現(xiàn)尤為突出：

CharXiv推理（圖像理解）

86.4
分，大幅超越 Claude Opus 4.6 （ 65.3 ）、 Gemini 3.1 Pro （ 80.2 ）、 GPT-5.4 （ 82.8 ）
MMMU Pro
：官方
80.4 分，第三方實測 80.5% ，為全球第二強(qiáng)視覺模型，僅遜于 Gemini 3.1 Pro Preview
視覺事實性（SimpleVQA
71.3 分，領(lǐng)先 GPT-5.4 與 Grok 4.2 ，僅小幅落后 Gemini 3.1 Pro

這些成績印證了 Meta 對 “視覺思維鏈” 的投入，讓模型不只識別物體，更能推理復(fù)雜空間問題與動態(tài)標(biāo)注。

在專業(yè)推理測試中：

人類終極考試（HLE
無工具 42.8 分、有工具 50.4 分，第三方實測 39.9%
GPQA Diamond（博士級推理）
89.5 分，超越Grok 4.2，略低于 Claude Opus 4.6 與 Gemini 3.1 Pro
ARC AGI 2
42.5 分，仍是明顯短板，遠(yuǎn)落后于Gemini 3.1 Pro 與GPT-5.4
CritPT（物理研究）
11%，位列全球第五，大幅領(lǐng)先Gemini 3 Flash 與Claude 4.6 Sonnet

官方數(shù)據(jù)中最亮眼的是醫(yī)療領(lǐng)域表現(xiàn)，這得益于 Meta 與逾千名醫(yī)生的合作：

HealthBench Hard 42.8 分，大幅領(lǐng)先 Claude Opus 4.6 、 Gemini 3.1 Pro 乃至 GPT-5.4 MedXpertQA （多模態(tài)） 78.4 分，領(lǐng)先 Opus 4.6 與 Grok 4.2 ，僅落后 Gemini 3.1 Pro

智能體系統(tǒng)與效率：思維壓縮效應(yīng)

Muse Spark 雖擅長推理，但在執(zhí)行實際工作任務(wù)的 “智能體表現(xiàn)” 上則喜憂參半：

SWE-Bench Verified ：77.4 分，落后 Claude Opus 4.6 與 Gemini 3.1 Pro GDPval-AA Elo ：官方1444 分、第三方 1427 分，均落后 GPT-5.4 與 Opus 4.6但Token 效率是其核心優(yōu)勢：完成智能指數(shù)測試僅使用

5800 萬輸出 Token ，遠(yuǎn)低于 Claude Opus 4.6 （ 1.57 億）與 GPT-5.4 （ 1.2 億），印證了 “ 思維壓縮 ” 的效果 —— 以不到競品一半的 “ 思考成本 ” 實現(xiàn)頂級智能。

個人健康與Instagram購物

Meta 已立即將 Muse Spark 接入旗下全系應(yīng)用，打造專屬功能：

購物模式
依托創(chuàng)作者生態(tài)， AI 抓取 Instagram 與 Threads 中的品牌、穿搭、內(nèi)容，提供個性化推薦，讓每條帖子都可直接轉(zhuǎn)化為購物入口
健康推理
分析食物照片的營養(yǎng)成分，為高膽固醇素食飲食提供 “ 健康評分 ”
交互式界面
實時生成網(wǎng)頁小游戲或教程，比如將照片轉(zhuǎn)為數(shù)獨游戲、制作家電使用教程

評估意識

Muse Spark 對生化武器相關(guān)請求具備較強(qiáng)的拒絕能力，但第三方機(jī)構(gòu) Apollo Research 發(fā)現(xiàn)其安全層面存在一個驚人新問題：高度的“評估意識”。

模型常能識別出自己正處于 “對齊陷阱” 測試中，并刻意表現(xiàn)誠實，只因知道自己正在被評估。

Meta 認(rèn)為這一問題不影響發(fā)布，但該發(fā)現(xiàn)意味著：前沿模型正越來越 “感知” 測試環(huán)境，傳統(tǒng)安全基準(zhǔn)測試可能因模型學(xué)會 “應(yīng)試作弊” 而失效。

Llama何去何從？

2023 年 2 月，Meta 發(fā)布 Llama 1，證明小體量、算力優(yōu)化型模型可在效率上比肩 GPT-3 等大模型。盡管初期僅限研究者使用，但模型權(quán)重于 2023 年 3 月 3 日通過 4chan 泄露，意外推動高端研究平民化，催生了在消費級硬件上運行大模型的全球浪潮。

2023 年 7 月，Llama 2 發(fā)布并開放商用許可，支持絕大多數(shù)機(jī)構(gòu)自主部署，迅速普及。截至 2023 年第三季度，Llama 系列下載量破億，支撐超千款商業(yè)應(yīng)用。

2024 至 2025 年，Llama 系列成長為全球企業(yè) AI 的核心基建，被稱作 “AI 界的 LAMP 架構(gòu)”。2024 年 4 月 Llama 3、2024 年 7 月 Llama 3.1 405B 發(fā)布后，其性能已與全球頂級閉源系統(tǒng)持平。

2025 年 4 月，Llama 4 采用混合專家架構(gòu)，實現(xiàn)超大參數(shù)量化且保持快速推理。截至 2026 年初，Llama 生態(tài)下載量達(dá)12億次，日均下載近百萬次。企業(yè)自主部署 Llama 相比調(diào)用閉源 API 可節(jié)省 88% 成本，實現(xiàn)了經(jīng)濟(jì)層面的技術(shù)自主。

但到 2026 年 4 月，Meta 在開源權(quán)重領(lǐng)域的絕對領(lǐng)先地位已被打破，全球競爭格局形成多極化態(tài)勢：

美國占Llama 全球部署量的35%
2025 年末，阿里、深度求索（ DeepSeek ）等中國模型在 Hugging Face 等平臺下載量占比達(dá) 41%
2026 年初，智譜 GLM-5 、阿里通義千問 3.6 Plus 等新模型在常識與編程測試中已超越 Llama 4 Maverick

面對全球競爭壓力，Muse Spark 背負(fù)著極高期待，同時也面臨延續(xù)開源 legacy 的巨大挑戰(zhàn)。

僅閉源發(fā)布（現(xiàn)階段）

此次發(fā)布標(biāo)志著 Meta AI 背離了其 “開放科學(xué)” 的根基，引發(fā)巨大爭議。Llama 系列曾向開發(fā)者全面開放，而 Muse Spark 首發(fā)即為閉源。

Alexandr Wang在 X 上解釋稱：“九個月前我們從零重寫了AI技術(shù)棧，全新基礎(chǔ)設(shè)施、全新架構(gòu)、全新數(shù)據(jù)pipeline……這只是第一步，更大模型已在研發(fā)中，未來版本計劃開源。”

但開發(fā)者社區(qū)仍持懷疑態(tài)度。有人認(rèn)為這是 Llama 4 未達(dá)預(yù)期后的必要轉(zhuǎn)型，也有人指責(zé) Meta 在擁有競爭力推理模型后 “關(guān)上開源大門”。Alexandr Wang本人也承認(rèn)轉(zhuǎn)型不易，坦言 “模型仍有瑕疵，后續(xù)會持續(xù)優(yōu)化”。

對 Meta 旗下應(yīng)用的 30 億用戶而言，這一變化將立即可感：他們使用的 AI 不再只是信息庫，而是擁有 270 億美元研發(fā)投入、能深度理解其生活的智能體。

NXP技術(shù)研討會報名

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.