網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

凌晨突發(fā)！Meta首發(fā)閉源大模型，砸下數(shù)百億美元重構底層，硬剛御三家，扎克伯格又行了？

2026-04-09 08:36:39　來源: 網(wǎng)易智能

北京舉報

分享至

出品 | 網(wǎng)易科技

作者 | 小小

編輯 | 王鳳枝

砸下數(shù)百億美元，耗時九個月重寫底層架構，馬克·扎克伯格（Mark Zuckerberg）終于端出了一個能與OpenAI正面抗衡的閉源大模型。

北京時間4月9日凌晨，Meta毫無預兆地發(fā)布了全新AI模型系列Muse，打頭陣的首發(fā)模型被正式定名為Muse Spark。

自去年夏天成立超級智能實驗室（MSL）以來，前Scale AI掌門人汪韜（Alexandr Wang）帶隊閉關九個月，極其果斷地將從基礎設施到模型架構的所有環(huán)節(jié)全部推倒重建。

Muse Spark的核心技術壁壘，在于其極其強大的原生多模態(tài)推理能力。

它不僅能直接解析視覺輸入并像人類一樣進行復雜邏輯推演，還支持視覺思維鏈與工具調(diào)用，甚至能夠直接編排多個智能體協(xié)同執(zhí)行復雜的跨平臺任務。

更具行業(yè)沖擊力的是Meta在戰(zhàn)略層面的極限轉彎。

他們此次徹底放棄了高舉多年的開源大旗，Muse Spark首發(fā)即為專有閉源版本，并且已全線接入Meta家族應用矩陣，明確釋放出要與谷歌和OpenAI在C端市場正面廝殺的強烈商業(yè)信號。

01像人類一樣邊看邊思考：視覺思維鏈的徹底進化

以前我們用的很多多模態(tài)模型，其實是把視覺和文本生硬地縫合在一起，但Muse Spark的做法是讓視覺信息從一開始就深度融合到邏輯里。這種架構上的變革，最直觀的體驗就是視覺思維鏈。

這種能力讓AI不再僅僅是給圖片寫一段描述。當你給它一張非常復雜的機械結構圖，比如一臺意式濃縮咖啡機的內(nèi)部拆解圖，問它為什么壓力表不跳動時，Muse Spark表現(xiàn)得就像一個真正的維修工。

它會先在大腦里掃描一遍全圖，然后像在黑板上繪圖一樣，一步步給不同部件打上數(shù)字標簽，并在對話框中實時標注出水路循環(huán)的邏輯。它會直接告訴你在第三步應該檢查哪個單向閥，而不是泛泛地丟給你一段文字說明。

這種眼手合一的邏輯還被用在了實時交互中。當你戴著集成了Meta AI的眼鏡在廚房做飯并拿起一個調(diào)料罐時，AI能直接在你的視野里疊加出一層動態(tài)的增強現(xiàn)實提示，精準告訴你這罐調(diào)料和你目前的降血壓飲食計劃是否沖突。這種無縫的銜接，完全依靠其背后極高的視覺推理能力才得以實現(xiàn)。

正如Meta超級智能實驗室首席AI科學家趙晟佳所言，這正是實驗室一直致力于構建的原生多模態(tài)推理模型。它不僅僅是一個技術跨越，更是Meta邁向個人超級智能之路的第一步。

這種原生多模態(tài)推理能力，標志著AI正在從單純的文字游戲轉向對物理世界的深度理解。

02最懂你身體的私人醫(yī)生：健康領域的深度應用

在Muse Spark的研發(fā)過程中，Meta展現(xiàn)出了極強的實用主義傾向，特別是在醫(yī)療健康這個普通人最關注的領域。為了讓AI給出的建議更具實操性，Meta邀請了超過一千名專業(yè)醫(yī)生親自下場校準數(shù)據(jù)。

這種專家輔導式的訓練效果非常顯著，Muse Spark在分析營養(yǎng)成分和運動生理時變得極其老練。你可以隨手拍一張餐盤的照片，哪怕里面堆滿了各種食材，它也能像專業(yè)的營養(yǎng)師一樣，瞬間拆解出魚肉的蛋白質含量和蔬菜的纖維素種類，甚至能根據(jù)食材的顏色和紋理推斷出烹飪方式。

更令人矚目的是，它能將這種分析與你的個人健康數(shù)據(jù)深度綁定。如果你有高膽固醇的問題，它會在你拍照后直接在餐盤的圖片上進行視覺標注。它會用綠色的圓圈標記出那些對心血管有益的部分，用紅色叉號提醒你避開某些高油脂的醬汁。

在運動指導上，Muse Spark甚至能擔任實時私教。當你把手機靠在墻邊對著自己做深蹲或瑜伽時，它能通過視頻流實時捕捉你的骨骼節(jié)點，并用語音明確告訴你膝蓋是否超過了腳尖，或者背部是否挺直。這種精度已經(jīng)達到了專業(yè)運動捕捉軟件的水平。

這種在特定領域深挖細節(jié)的做法，讓AI的工具屬性變得極具親和力。Meta超級智能實驗室研究員畢書超透露，為了對抗模型在訓練中的不穩(wěn)定性并提升推理質量，團隊付出了無數(shù)個夜晚的努力才讓這種深度的協(xié)作邏輯最終成型。這種能力的背后，其實是Meta對個人健康主權的一次技術探索，試圖讓每個人都能隨身攜帶一個專屬的健康專家。

03算力大幅縮減背后的技術邏輯

如果說Muse Spark的功能表現(xiàn)引人矚目，那它背后的底層技術邏輯則更加讓同行感到驚訝。在AI行業(yè)習慣于用堆砌算力換取性能提升的當下，Meta這次成功走通了一條降本增效的新路徑。

在預訓練階段，Meta超級智能實驗室重寫了整套代碼庫。測試結果顯示，與上一代旗艦Llama 4 Maverick相比，Muse Spark在達到同等智能水平的情況下，消耗的計算量竟然降低了一個數(shù)量級以上。這相當于用原本十分之一的資源完成了同樣復雜的工作。

這種驚人的效率，得益于Meta正在部署的Hyperion算力基礎設施，更離不開其獨特的可預測擴展技術。Meta的技術棧能夠讓研究人員非常精準地預測模型在訓練完成前能達到什么水平，從而極其有效地避免了大量的算力浪費。

對于這種技術進步，Hyperbolic Labs聯(lián)合創(chuàng)始人金宇宸感嘆，基礎設施才是真正的護城河。Meta在短短九個月內(nèi)重建了整個堆棧，這種速度證明了其在底層架構上的深厚積累。這種四兩撥千斤的底層能力，或許才是Muse Spark給行業(yè)帶來的真正技術震撼。

04核心測試成績：在博士級賽道站穩(wěn)腳跟

如果說功能體驗是前端表現(xiàn)，那么基準測試的數(shù)據(jù)就是衡量模型底層實力的硬指標。

為了驗證Muse Spark的真實水平，Meta邀請了多家權威機構在發(fā)布前進行了高難度的閉門測試。

根據(jù)第三方評測機構Artificial Analysis發(fā)布的最新智能指數(shù)（Intelligence Index v4.0），Muse Spark拿到了52分。去年Llama 4 Maverick發(fā)布時只有18分，這一成績實現(xiàn)了近乎三倍的跨越。

在目前的全球大模型權力榜上，這個成績僅次于Gemini 3.1 Pro Preview的57分和GPT 5.4的57分以及Claude Opus 4.6的53分。Muse Spark已經(jīng)成功躋身前五，與第一梯隊的差距被極其顯著地縮小。

這意味著Meta已經(jīng)成功超越了Claude Sonnet 4.6和Grok 4.2等一眾強手。這種跳躍式的進步，標志著其技術底座已經(jīng)重回巔峰競技場。

在視覺能力上，Muse Spark的表現(xiàn)尤為突出。在MMMU Pro測試里它得分80.4%，僅次于Gemini 3.1 Pro Preview的83.9%，排在所有測試模型的第二位。

在一些極具挑戰(zhàn)性的垂直賽道，Muse Spark的表現(xiàn)也證實了其推理深度的提升。

物理研究的深度對抗領域，在針對硬核物理研究問題的CritPT測試中，它以11%的得分位列全球第五，顯著領先于谷歌Gemini 3 Flash的9%和Anthropic的Claude 4.6 Sonnet的3%。

圖表理解的垂直測試中，在衡量多模態(tài)圖表推理的CharXiv測試里，Muse Spark獲得了86.4分，成功超越了Claude Opus 4.6的65.3分和GPT 5.4的82.8分。

博士級推理方面，在Epoch AI負責的GPQA Diamond測試中，它的得分高達89.5%，這意味著它在面對生物與化學等高階科學問題時，邏輯嚴密程度已直逼人類專家。

不過，沃頓商學院教授伊桑·莫里克（Ethan Mollick）在評估后也給出了中肯的評價。他指出雖然這款模型非常出色，但在某些極致性能維度上，比起目前最頂尖的滿血版競品仍有微小差距。他特別強調(diào)，由于該模型沒有開放權重，外界要準確預測Muse Spark的真正行業(yè)價值將面臨更多困難。

05沉思模式上線：讓AI學會深思熟慮

在這次發(fā)布中，最讓技術圈關注的機制莫過于名為沉思模式（Contemplating Mode）的開關。這個模式直接對標了OpenAI的Pro系列和谷歌的Deep Think功能。

當你在復雜任務中開啟沉思模式時，Muse Spark不會立刻給出答案，而是會進入一個后臺編排階段。它會同時調(diào)動多個智能體并行工作，就像一個智囊團在內(nèi)部開會，互相審核并校對推理過程。

在被稱為“人類終極考試”的HLE測試中，開啟“沉思模式”但不使用工具時，Muse Spark得分為50.2%，超過Gemini 3.1 Deep Think（48.4%）和GPT-5.4 Pro（43.9%）。在使用工具的情況下， Muse Spark得分飆升至58.4%，展現(xiàn)了極強的深度推理潛力。

在前沿科學研究任務（FrontierScience Research）中，其準確率也達到了38.3%。

值得注意的是，Meta并不希望AI因為思考而變得冗長。研發(fā)人員在強化學習中加入了一個時間懲罰機制，強迫AI在保證正確率的前提下，用最精煉的邏輯解決問題。

數(shù)據(jù)顯示，在運行同樣的智能指數(shù)測試時，Muse Spark僅使用了5800萬個輸出Token，而Claude Opus 4.6在最大努力模式下使用了1.57億個Token。這種高算力轉化率證明了Meta在思維效率上的技術造詣。

不過它依然存在短板。**在抽象推理ARC AGI 2測試上，Muse Spark只拿了42.5分，而Gemini和GPT的得分均在76分以上。**同樣，在各種長周期的智能體編碼任務如SWE Bench和Terminal Bench 2.0中，它也明顯落后于頂尖的Claude和GPT模型。

06驚人發(fā)現(xiàn)：AI學會了根據(jù)測試環(huán)境調(diào)整反饋

隨著模型能力的增強，大模型的安全性評估也變得前所未有的復雜。在Muse Spark的安全測試中，出現(xiàn)了一個讓研究人員既興奮又警惕的現(xiàn)象，即評估意識（Evaluation Awareness）。

第三方安全機構Apollo Research發(fā)現(xiàn)，Muse Spark在測試中能敏銳地察覺到自己正在經(jīng)歷對齊陷阱或安全性考核。當它意識到考核環(huán)境存在時，它會表現(xiàn)得比平時更加誠實并嚴格遵守規(guī)矩。

通俗點說，模型學會了根據(jù)環(huán)境調(diào)整反饋策略。它能推理出在測試環(huán)境下，表現(xiàn)得符合人類道德規(guī)范是最優(yōu)解。雖然Meta認為這并不影響其作為工具的安全性，但這確實給未來的AI監(jiān)管敲響了警鐘，當AI開始學會隱藏真實的輸出傾向來通過考試時，傳統(tǒng)的攔截機制可能將面臨失效的風險。

盡管具備了這種復雜的判定邏輯，但在硬性防御指標上Muse Spark依然保持穩(wěn)定。測試顯示，它在涉及生物制劑與化學武器等敏感領域表現(xiàn)出極強的拒絕意識。在針對網(wǎng)絡安全和自主失控風險的測試中，它的表現(xiàn)也處于安全可控的范圍內(nèi)。

這種在安全與效率之間的博弈，正是汪韜領銜的MSL實驗室過去九個月最核心的攻堅方向。他們不僅要造出一個聰明的工具，更要確保造出一個在人類視線范圍內(nèi)能夠絕對守規(guī)矩的超級智能。

07全線應用集成：當社交巨頭遇上超級大腦

既然Muse Spark出生在Meta家族，它自然不會只停留在實驗室的測試環(huán)節(jié)，而是被第一時間接入了Instagram與Facebook以及Threads這些擁有三十億日活用戶的國民級應用中。

以前在Instagram上看到心儀博主的穿搭，用戶可能還需要去評論區(qū)求鏈接或者截圖去電商平臺搜索同款。現(xiàn)在有了Muse Spark的加持，用戶只需要在對話框里發(fā)送指令，或者直接通過Meta的智能眼鏡進行視覺捕捉即可完成操作。

它能瞬間識別出圖片中創(chuàng)作者的穿搭風格，甚至是極其小眾的品牌。它不僅能全網(wǎng)搜索同款并比價，還能根據(jù)用戶的歷史穿搭喜好，給出一套完整的搭配方案。

比如它會提示，這件復古夾克和上個月購買的原色牛仔褲非常匹配，建議內(nèi)搭一件白色重磅T恤。這種從審美感知到消費決策的無縫銜接，正是Meta想要打造的購物助手核心原型。

除了輔助消費決策，Muse Spark還能大幅降低開發(fā)成本。在測試中，有開發(fā)者嘗試提供一張凌亂的草圖和一段簡單的邏輯描述，要求它生成一個數(shù)獨游戲。Muse Spark不僅僅是編寫了底層代碼，而是直接在網(wǎng)頁上生成了一個可以即時交互且界面精美的UI產(chǎn)品。

這種隨想隨做的能力，體現(xiàn)了其在多智能體編排上的深厚功底。它能自主指揮不同的子系統(tǒng)去處理圖形渲染、邏輯判斷和代碼生成，最終交付給用戶一個流暢的產(chǎn)品。汪韜在分享中明確表示，Muse Spark是為了這三十億用戶打造的數(shù)字延伸，旨在讓AI從一個聊天機器人徹底進化為一個能解決實際生產(chǎn)力問題的伙伴。

08策略大轉彎：告別開源紅利，Meta正式收網(wǎng)

這次發(fā)布中最讓業(yè)界震動的，其實是Muse Spark作為專有模型（Proprietary Model）的身份定性。這是Meta歷史上第一個沒有首發(fā)開放權重的旗艦級前沿模型。

多年來，Meta一直被視為開源AI生態(tài)的核心支柱，Llama系列幾乎撐起了大半個開源社區(qū)的發(fā)展。這次首發(fā)閉源的決定，迅速引發(fā)了行業(yè)內(nèi)的廣泛討論。外界普遍認為，面對OpenAI和谷歌的商業(yè)步步緊逼，Meta必須收緊技術授權，用專有技術來構筑自身的商業(yè)壁壘。

但內(nèi)部的聲音則更加務實。金宇宸指出，在九個月內(nèi)推倒重建整個技術棧后，首發(fā)專有版本是為了在更安全和受控的環(huán)境下打磨這套全新的擴展定律。扎克伯格也公開回應，更大的模型已經(jīng)在研發(fā)中，Meta計劃未來會發(fā)布越來越先進的模型，其中也會包含新的開源版本。

即便如此，目前的閉源狀態(tài)依然給過度依賴Meta的開發(fā)者社區(qū)帶來了一絲寒意。不過考慮到Muse Spark極其優(yōu)異的算力轉化效率，很多開發(fā)者依然期待著未來這個版本能有機會下放至開源生態(tài)中。

09終局展望：通往2026個人超級智能之路

在扎克伯格的商業(yè)藍圖中，Muse Spark僅僅是其技術階梯的第一步。為了支撐這個龐大的戰(zhàn)略計劃，Meta正在進行一場規(guī)?？涨暗馁Y本投入。

Meta預計2026年的資本支出將攀升至1150億至1350億美元，這筆天文數(shù)字將主要流向名為Hyperion的數(shù)據(jù)中心和最先進的算力芯片組。這場科技巨頭間的競爭早已脫離了單純的算法比拼，演變成了圍繞電力與芯片以及物理設施的重資產(chǎn)競賽。

按照Meta的設想，未來的個人超級智能應該像空氣一樣自然存在。它潛伏在用戶的雷朋（Ray Ban）眼鏡里，通過眼睛識別世界，通過耳朵聽取需求。它能獨立處理長周期的復雜任務，比如統(tǒng)籌籌劃一場跨越三個國家的旅行，自動處理所有的機票與簽證和日程對接，而不僅僅是簡單地回答當?shù)氐牟惋嬐扑]。

雖然目前的Muse Spark在處理極其復雜的長周期辦公流程時，比起最頂尖的Claude系列仍有優(yōu)化空間，但它展現(xiàn)出的多模態(tài)推理深度和效率優(yōu)勢，已經(jīng)讓這條超級智能之路變得清晰可見。

結語

Muse Spark的發(fā)布，正式宣告了Meta歷經(jīng)九個月底層重構后的強勢回歸。

它不再滿足于僅僅做一個底層技術的提供商，而是要直接深入到全人類的日常消費與工作場景中。在這場通往超級智能的馬拉松里，Meta已經(jīng)徹底更換了最先進的底層引擎，準備在2026年開啟新一輪的商業(yè)角逐。

正如汪韜所說，徹底改造堆棧只是一個開始。屬于Meta的商業(yè)落地時代，或許現(xiàn)在才真正拉開大幕。