国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

9個月重構(gòu)全新大模型!Meta 重金打造華人團(tuán)隊,Muse Spark 一戰(zhàn)翻身

0
分享至

在生成式人工智能時代,元宇宙(Meta)一直是最受關(guān)注的公司之一。2023 年初,該公司推出了以開源為主的 Llama 系列大語言模型,迅速收獲了海量忠實用戶;但到了去年,Llama 4 發(fā)布后口碑褒貶不一,最終還被曝出在基準(zhǔn)測試中刷分造假,Meta 的 AI 發(fā)展勢頭也因此驟然停滯。

Llama 4 坎坷的發(fā)布?xì)v程,顯然促使 Meta 創(chuàng)始人兼首席執(zhí)行官馬克?扎克伯格在 2025 年夏季對公司 AI 業(yè)務(wù)進(jìn)行了全面重組,成立了全新內(nèi)部部門 —— 元宇宙超智能實驗室(MSL),并聘請 29 歲的 Scale AI 前聯(lián)合創(chuàng)始人兼首席執(zhí)行官Alexandr Wang出任首席人工智能官,負(fù)責(zé)領(lǐng)導(dǎo)該部門,同事花重金聘請了多位華人技術(shù)大牛。

而就在今天,Meta 向外界展示了此番調(diào)整的成果:全新閉源模型Muse Spark。Alexandr Wang在競品社交平臺 X(機(jī)器學(xué)習(xí)社區(qū)更常用的平臺)發(fā)文稱,該模型是 “Meta 迄今發(fā)布的最強(qiáng)大模型”,支持工具調(diào)用、視覺思維鏈與多智能體協(xié)同。他還表示,Muse Spark 將開啟全新的 Muse 模型系列,這也引發(fā)外界疑問:人氣極高的 Llama 系列未來將何去何從、研發(fā)是否會繼續(xù)。

Muse Spark 并非普通聊天機(jī)器人,而是Alexandr Wang口中 “個人超智能” 的底層基座。這款 AI 不只處理文本,更能 “觀察并理解你周遭的世界”,成為用戶的數(shù)字分身,這與扎克伯格 2025 年夏季公開提出的個人超智能愿景一脈相承。

但據(jù) Meta 官方發(fā)布博文介紹,Muse Spark目前僅為閉源模型,僅限 Meta AI 應(yīng)用、網(wǎng)頁端使用,同時僅向部分用戶開放 “私有 API 預(yù)覽”。這一舉措大概率會激怒數(shù)以十億計的 Llama 模型用戶,以及數(shù)千名依賴該模型的開發(fā)者(其中不少人活躍在競品社交平臺 Reddit 的 r/LocalLLaMA 板塊)。此外,官方尚未公布該模型的定價信息。

目前尚不清楚 Meta 是否已徹底終止 Llama 系列的研發(fā)。科技媒體 VentureBeat 就此直接詢問時,Meta 發(fā)言人在郵件中回應(yīng):“我們現(xiàn)有的 Llama 模型將繼續(xù)保持開源”,但并未回應(yīng)未來是否會推出新一代 Llama 模型。

視覺思維鏈

Muse Spark 本質(zhì)上是一款原生多模態(tài)推理模型。不同于前代產(chǎn)品將視覺與文本 “拼接融合” 的方式,它從底層重新構(gòu)建,在內(nèi)部邏輯中全程整合視覺信息。這一架構(gòu)革新實現(xiàn)了 “視覺思維鏈”,讓模型能夠?qū)討B(tài)場景進(jìn)行標(biāo)注 —— 比如識別復(fù)雜意式咖啡機(jī)的零部件,或通過對比視頻分析糾正用戶的瑜伽動作。

而技術(shù)上最重大的突破,是全新的 \\“沉思模式”(Contemplating)\\。該功能可調(diào)度多個子智能體并行推理,讓 Meta 得以對標(biāo)谷歌 Gemini Deep Think、OpenAI GPT-5.4 Pro 這類頂級推理模型。

在基準(zhǔn)測試中,該模式在 “人類終極考試” 中取得 58% 的成績,在 “前沿科學(xué)研究” 任務(wù)中達(dá) 38%,Meta 稱這一結(jié)果驗證了其全新的擴(kuò)展路徑。

對公司盈利更具意義的是模型的高效性。Meta 表示,Muse Spark 實現(xiàn)同等推理能力所需算力,比其上一代中型旗艦?zāi)P?Llama 4 Maverick少一個數(shù)量級以上。這種效率源于 “思維壓縮” 技術(shù):在強(qiáng)化學(xué)習(xí)階段,模型會因過度 “思考耗時” 受到懲罰,迫使它用更少的推理 Token 解決復(fù)雜問題,同時不犧牲準(zhǔn)確率。

基準(zhǔn)測試:王者歸來

Muse Spark 的發(fā)布被視作一次數(shù)據(jù)層面的 “量子躍遷”,終結(jié)了 Meta 長達(dá)一年無緣 AI 性能第一梯隊的局面。

結(jié)合 Meta 官方內(nèi)部數(shù)據(jù)與第三方大模型監(jiān)測機(jī)構(gòu) Artificial Analysis 的獨立審核結(jié)果可以明確:Muse Spark 不只是對 Llama 系列的小幅優(yōu)化,更是讓 Meta重新躋身全球前五頂尖模型行列

根據(jù) Artificial Analysis 智能指數(shù) v4.0,Muse Spark 得分 52 分。作為對比,Meta 上一代旗艦 Llama 4 Maverick 在 2025 年發(fā)布時指數(shù)得分僅 18 分。

性能近乎提升兩倍后,Muse Spark 已逼近行業(yè)頂級系統(tǒng),僅落后于 Gemini 3.1 Pro Preview(57 分)、GPT-5.4(57 分)與 Claude Opus 4.6(53 分)。

Meta 官方測試顯示,Muse Spark 在多模態(tài)推理,尤其是視覺圖像與邏輯結(jié)合的場景中表現(xiàn)尤為突出:

  • CharXiv推理(圖像理解)
  • 86.4

    分,大幅超越 Claude Opus 4.6 ( 65.3 )、 Gemini 3.1 Pro ( 80.2 )、 GPT-5.4 ( 82.8 )

  • MMMU Pro

    :官方

    80.4 分,第三方實測 80.5% ,為全球第二強(qiáng)視覺模型,僅遜于 Gemini 3.1 Pro Preview

  • 視覺事實性(SimpleVQA

    71.3 分,領(lǐng)先 GPT-5.4 與 Grok 4.2 ,僅小幅落后 Gemini 3.1 Pro

這些成績印證了 Meta 對 “視覺思維鏈” 的投入,讓模型不只識別物體,更能推理復(fù)雜空間問題與動態(tài)標(biāo)注。

在專業(yè)推理測試中:

  • 人類終極考試(HLE

    無工具 42.8 分、有工具 50.4 分,第三方實測 39.9%

  • GPQA Diamond(博士級推理)
    89.5 分,超越Grok 4.2,略低于 Claude Opus 4.6 與 Gemini 3.1 Pro
  • ARC AGI 2
    42.5 分,仍是明顯短板,遠(yuǎn)落后于Gemini 3.1 Pro 與GPT-5.4
  • CritPT(物理研究)
    11%,位列全球第五,大幅領(lǐng)先Gemini 3 Flash 與Claude 4.6 Sonnet

官方數(shù)據(jù)中最亮眼的是醫(yī)療領(lǐng)域表現(xiàn),這得益于 Meta 與逾千名醫(yī)生的合作:

HealthBench Hard 42.8 分,大幅領(lǐng)先 Claude Opus 4.6 、 Gemini 3.1 Pro 乃至 GPT-5.4 MedXpertQA (多模態(tài)) 78.4 分,領(lǐng)先 Opus 4.6 與 Grok 4.2 ,僅落后 Gemini 3.1 Pro


智能體系統(tǒng)與效率:思維壓縮效應(yīng)

Muse Spark 雖擅長推理,但在執(zhí)行實際工作任務(wù)的 “智能體表現(xiàn)” 上則喜憂參半:

SWE-Bench Verified :77.4 分,落后 Claude Opus 4.6 與 Gemini 3.1 Pro GDPval-AA Elo :官方1444 分、第三方 1427 分,均落后 GPT-5.4 與 Opus 4.6但Token 效率是其核心優(yōu)勢:完成智能指數(shù)測試僅使用

5800 萬輸出 Token ,遠(yuǎn)低于 Claude Opus 4.6 ( 1.57 億)與 GPT-5.4 ( 1.2 億),印證了 “ 思維壓縮 ” 的效果 —— 以不到競品一半的 “ 思考成本 ” 實現(xiàn)頂級智能。

個人健康與Instagram購物

Meta 已立即將 Muse Spark 接入旗下全系應(yīng)用,打造專屬功能:

  • 購物模式

    依托創(chuàng)作者生態(tài), AI 抓取 Instagram 與 Threads 中的品牌、穿搭、內(nèi)容,提供個性化推薦,讓每條帖子都可直接轉(zhuǎn)化為購物入口

  • 健康推理

    分析食物照片的營養(yǎng)成分,為高膽固醇素食飲食提供 “ 健康評分 ”

  • 交互式界面

    實時生成網(wǎng)頁小游戲或教程,比如將照片轉(zhuǎn)為數(shù)獨游戲、制作家電使用教程

評估意識

Muse Spark 對生化武器相關(guān)請求具備較強(qiáng)的拒絕能力,但第三方機(jī)構(gòu) Apollo Research 發(fā)現(xiàn)其安全層面存在一個驚人新問題:高度的評估意識。

模型常能識別出自己正處于 “對齊陷阱” 測試中,并刻意表現(xiàn)誠實,只因知道自己正在被評估。

Meta 認(rèn)為這一問題不影響發(fā)布,但該發(fā)現(xiàn)意味著:前沿模型正越來越 “感知” 測試環(huán)境,傳統(tǒng)安全基準(zhǔn)測試可能因模型學(xué)會 “應(yīng)試作弊” 而失效。

Llama何去何從?

2023 年 2 月,Meta 發(fā)布 Llama 1,證明小體量、算力優(yōu)化型模型可在效率上比肩 GPT-3 等大模型。盡管初期僅限研究者使用,但模型權(quán)重于 2023 年 3 月 3 日通過 4chan 泄露,意外推動高端研究平民化,催生了在消費級硬件上運行大模型的全球浪潮。

2023 年 7 月,Llama 2 發(fā)布并開放商用許可,支持絕大多數(shù)機(jī)構(gòu)自主部署,迅速普及。截至 2023 年第三季度,Llama 系列下載量破億,支撐超千款商業(yè)應(yīng)用。

2024 至 2025 年,Llama 系列成長為全球企業(yè) AI 的核心基建,被稱作 “AI 界的 LAMP 架構(gòu)”。2024 年 4 月 Llama 3、2024 年 7 月 Llama 3.1 405B 發(fā)布后,其性能已與全球頂級閉源系統(tǒng)持平。

2025 年 4 月,Llama 4 采用混合專家架構(gòu),實現(xiàn)超大參數(shù)量化且保持快速推理。截至 2026 年初,Llama 生態(tài)下載量達(dá)12億次,日均下載近百萬次。企業(yè)自主部署 Llama 相比調(diào)用閉源 API 可節(jié)省 88% 成本,實現(xiàn)了經(jīng)濟(jì)層面的技術(shù)自主。

但到 2026 年 4 月,Meta 在開源權(quán)重領(lǐng)域的絕對領(lǐng)先地位已被打破,全球競爭格局形成多極化態(tài)勢:

  • 美國占Llama 全球部署量的35%

  • 2025 年末,阿里、深度求索( DeepSeek )等中國模型在 Hugging Face 等平臺下載量占比達(dá) 41%

  • 2026 年初,智譜 GLM-5 、阿里通義千問 3.6 Plus 等新模型在常識與編程測試中已超越 Llama 4 Maverick

面對全球競爭壓力,Muse Spark 背負(fù)著極高期待,同時也面臨延續(xù)開源 legacy 的巨大挑戰(zhàn)。

僅閉源發(fā)布(現(xiàn)階段)

此次發(fā)布標(biāo)志著 Meta AI 背離了其 “開放科學(xué)” 的根基,引發(fā)巨大爭議。Llama 系列曾向開發(fā)者全面開放,而 Muse Spark 首發(fā)即為閉源。

Alexandr Wang在 X 上解釋稱:“九個月前我們從零重寫了AI技術(shù)棧,全新基礎(chǔ)設(shè)施、全新架構(gòu)、全新數(shù)據(jù)pipeline……這只是第一步,更大模型已在研發(fā)中,未來版本計劃開源。

但開發(fā)者社區(qū)仍持懷疑態(tài)度。有人認(rèn)為這是 Llama 4 未達(dá)預(yù)期后的必要轉(zhuǎn)型,也有人指責(zé) Meta 在擁有競爭力推理模型后 “關(guān)上開源大門”。Alexandr Wang本人也承認(rèn)轉(zhuǎn)型不易,坦言 “模型仍有瑕疵,后續(xù)會持續(xù)優(yōu)化”。

對 Meta 旗下應(yīng)用的 30 億用戶而言,這一變化將立即可感:他們使用的 AI 不再只是信息庫,而是擁有 270 億美元研發(fā)投入、能深度理解其生活的智能體。

NXP技術(shù)研討會報名


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
軍費90億卻砸120億?美印看懵,巴鐵清空中國武器,背后金主攤牌

軍費90億卻砸120億?美印看懵,巴鐵清空中國武器,背后金主攤牌

小蘭聊歷史
2026-04-18 15:27:37
四川省副省長徐芝文,已任西藏自治區(qū)黨委常委、宣傳部部長

四川省副省長徐芝文,已任西藏自治區(qū)黨委常委、宣傳部部長

新京報
2026-04-18 16:07:30
炸翻歐洲!錢江突襲WSBK聯(lián)手張雪機(jī)車,國產(chǎn)雙雄直接干翻歐美壟斷

炸翻歐洲!錢江突襲WSBK聯(lián)手張雪機(jī)車,國產(chǎn)雙雄直接干翻歐美壟斷

阿芒娛樂說
2026-04-18 19:02:01
哈工大畢業(yè)失業(yè)四五年被吐槽!網(wǎng)友:農(nóng)村大學(xué)生大多數(shù)過得比較差

哈工大畢業(yè)失業(yè)四五年被吐槽!網(wǎng)友:農(nóng)村大學(xué)生大多數(shù)過得比較差

火山詩話
2026-04-19 10:40:38
為何不肯承諾留本菲卡?穆帥:除非記者您能保證一直不換工作

為何不肯承諾留本菲卡?穆帥:除非記者您能保證一直不換工作

懂球帝
2026-04-19 09:11:03
1937年出獄的陳獨秀想來延安,毛主席表態(tài):可以,但有3個條件

1937年出獄的陳獨秀想來延安,毛主席表態(tài):可以,但有3個條件

近史談
2026-02-26 11:56:02
湘南民宅翻修驚現(xiàn)毛主席80年前舊照,專家鑒定彌足珍貴可補(bǔ)史遺缺

湘南民宅翻修驚現(xiàn)毛主席80年前舊照,專家鑒定彌足珍貴可補(bǔ)史遺缺

云霄紀(jì)史觀
2026-04-14 02:08:48
西蒙尼:我現(xiàn)在沒心思想阿森納,這場失利讓我很難受

西蒙尼:我現(xiàn)在沒心思想阿森納,這場失利讓我很難受

懂球帝
2026-04-19 08:09:39
光纖王炸!央視:國產(chǎn)光纖全球爆單部分產(chǎn)品價格暴漲650% 名單更新

光纖王炸!央視:國產(chǎn)光纖全球爆單部分產(chǎn)品價格暴漲650% 名單更新

次元君情感
2026-04-19 11:32:28
古力娜扎:真空上陣是放飛自我還是資本博弈?

古力娜扎:真空上陣是放飛自我還是資本博弈?

娛樂領(lǐng)航家
2026-04-02 21:00:03
TVB離巢視后母校曬童年照為金像獎拉票,容貌相差大網(wǎng)友直言認(rèn)不出

TVB離巢視后母校曬童年照為金像獎拉票,容貌相差大網(wǎng)友直言認(rèn)不出

TVB劇評社
2026-04-17 22:24:39
斯諾克世錦賽:中國雙星不?。≮w心童創(chuàng)紀(jì)錄,張安達(dá)2-2暫平名將

斯諾克世錦賽:中國雙星不敗!趙心童創(chuàng)紀(jì)錄,張安達(dá)2-2暫平名將

劉姚堯的文字城堡
2026-04-18 19:12:24
男子搶救7.5小時用100余支止血針過量嗎?家屬質(zhì)疑后醫(yī)院退費,工作人員稱用藥合理

男子搶救7.5小時用100余支止血針過量嗎?家屬質(zhì)疑后醫(yī)院退費,工作人員稱用藥合理

紅星新聞
2026-04-17 22:35:10
罰15億!拼多多一員工故意關(guān)門,對抗調(diào)查,導(dǎo)致執(zhí)法人員手指骨折

罰15億!拼多多一員工故意關(guān)門,對抗調(diào)查,導(dǎo)致執(zhí)法人員手指骨折

魔都姐姐雜談
2026-04-19 08:03:27
中國第一位情色女作家:睡了無數(shù)男人后出版曝光,28歲跳海自殺

中國第一位情色女作家:睡了無數(shù)男人后出版曝光,28歲跳海自殺

網(wǎng)絡(luò)易不易
2026-04-19 12:00:09
落后9分還嘴硬!皇馬拒為巴薩列隊:絕不可能!

落后9分還嘴硬!皇馬拒為巴薩列隊:絕不可能!

茅塞盾開本尊
2026-04-19 12:30:42
老詹創(chuàng)歷史第一,湖人開門紅獲5大喜訊!奇兵轟27分證2換1賺翻了

老詹創(chuàng)歷史第一,湖人開門紅獲5大喜訊!奇兵轟27分證2換1賺翻了

鍋子籃球
2026-04-19 13:06:48
71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
北京這夜,藍(lán)盈瑩搶位置,黃渤拽高葉到C位,他憑啥坐于和偉前面

北京這夜,藍(lán)盈瑩搶位置,黃渤拽高葉到C位,他憑啥坐于和偉前面

往史過眼云煙
2026-04-17 17:01:44
法國影壇巨星納塔莉·貝伊因病去世,享年77歲,曾獻(xiàn)藝《貓鼠游戲》《唐頓莊園2》

法國影壇巨星納塔莉·貝伊因病去世,享年77歲,曾獻(xiàn)藝《貓鼠游戲》《唐頓莊園2》

阿廢冷眼觀察所
2026-04-19 14:09:34
2026-04-19 14:39:00
EETOP半導(dǎo)體社區(qū) incentive-icons
EETOP半導(dǎo)體社區(qū)
國內(nèi)著名的電子工程師社區(qū)
7486文章數(shù) 15647關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺機(jī)器人狂飆半馬

頭條要聞

牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結(jié)果印度遭了殃

頭條要聞

牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結(jié)果印度遭了殃

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

張?zhí)鞇墼u論區(qū)淪陷!被曝卷入小三風(fēng)波

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

游戲
本地
房產(chǎn)
公開課
軍事航空

穿越還是刪帖?《GTA6》五年前預(yù)言帖被扒:網(wǎng)友吵翻天

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!??跇鞘?,突然殺入神秘房企!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無障礙瀏覽 進(jìn)入關(guān)懷版