国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Meta億元天團首個大模型交卷!耗時九個月,一雪Llama前恥

0
分享至

再見了,所有的羊駝。

亞歷山大王帶隊9個月從零重構Meta所有AI技術棧,在不斷的質疑中交出超級智能實驗室第一個模型:

主打原生多模態(tài)的Muse Spark。



模型發(fā)布后,Meta股價火速拉升約7%,中間一度漲超近10%,當日整體上漲6%左右。

市場的反應可謂相當熱烈。

隨手一扒你就會發(fā)現(xiàn),這款模型背后藏著不少我們熟悉的高手:思維鏈作者Jason Wei、o1核心貢獻者Hyung Won Chung、被小扎天價挖來的余家輝、擴散模型核心人物宋飏……

嗯?當這群人湊在一起,很明顯你就會找到一個關鍵詞:推理

沒錯,據(jù)Jason Wei爆料,9個月前他們坐在一起討論時,首先寫下的就是一款用于推理的llama模型腳本,而現(xiàn)在,完全體終于誕生。

而頂尖高手+耗時9個月打磨,Muse Spark也總算讓Meta在第三方測評中趕上第一梯隊,一雪llama 4帶來的前恥。



而且很有意思的一點是,Meta這次一反常態(tài),沒有反復強調(diào)自己拿了多少SOTA,而是稍顯克制地表示:

Muse Spark在多模態(tài)感知、推理、健康和自主任務方面表現(xiàn)不錯,但在編程長時間自主運行方面仍與對家的頂尖模型存在差距。

咳咳,看來之前l(fā)lama 4確實給Meta留下了心理陰影(doge)。

另外,Muse Spark的出生也終于讓長期以來有關“Meta開閉源”的討論蓋棺定論:

這次是真閉源了。

目前這款模型已上線Meta網(wǎng)站和APP,API僅向部分合作伙伴開放。

(不過亞歷山大王還是留了個口子,表示“計劃未來開源后續(xù)版本”)

“Meta回來了”

老規(guī)矩,先看一波測評成績。



作為Meta迄今最強大的模型,Muse Spark這次主要在三個方面表現(xiàn)突出:

一是多模態(tài)理解能力。

不管是看論文圖表還是屏幕,各項得分要么第一、要么和Gemini 3.1 Pro、GPT 5.4等不相上下。

從網(wǎng)友們的測試來看,它好像尤為擅長圖片轉代碼。



當然文本能力也不差(doge),在網(wǎng)友的激情測試中,它就火速通過了新版弱智吧風格的洗車測試。

100米外有個洗車店,我該開車去還是走路去。
Muse Spark:洗車當然要把車開過去,但沒必要搞得跟上下班通勤似的。

(當然也不排除是數(shù)據(jù)污染的問題,畢竟問題出來也挺久了…)



再一個就是工具調(diào)用能力,測評情況也和多模態(tài)理解能力類似。

以及這次Muse Spark著重強調(diào)的醫(yī)學能力。

由于和1000+醫(yī)生展開了合作,它不僅在開放式健康問答HealthBench Hard上拿到42.8的最高分,而且在多模態(tài)醫(yī)學問答MedXpertQA MM中位居前列。

不過短板我們開頭也說了,Muse Spark仍在編程和Agent類任務上與其他頂尖選手存在差距。

可能也是為了盡量彌補這一點,他們這次還專門推出了Contemplating沉思模式。

主要是讓多個Agent同時思考同一個問題,然后匯總結果找出最好的。

在這套打法下,Muse Spark就能和Gemini Deep Think、 GPT Pro這類極限推理模式展開正面PK了。

比如在“人類最后的考試”中,Muse Spark明顯壓過一頭(不過在物理奧賽理論題中還是略遜一籌)。

(目前沉思模式正在Meta網(wǎng)站灰度測試)



另外值得一提的是,Meta這次無預告直接上線了“購物模式”。

亞歷山大王表示,模型會結合用戶在ins、Facebook、Threads上關注的創(chuàng)作者和品牌偏好,做個性化的購物推薦。

好好好,這次也不給你討論的機會了,之前OpenAI可沒少因為廣告挨罵。



目前,隨著Muse Spark測評一同出爐的,還有第三方機構的測評。

他們拿到Muse Spark的早期訪問權測了一波,然后給出了一個結論:Meta回來了!

在關鍵指標人工智能分析指數(shù)上,其得分僅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。



這也和Muse Spark自己給出的測評成績差不多。

對外界而言,初步來看,Muse Spark確實把Meta重新帶回了人工智能第一梯隊。

背后訓練細節(jié)

至于Muse Spark是如何做到這一點的,Meta也公布了背后的訓練細節(jié)。

核心其實就是亞歷山大王提到的:9個月重構一切。

新的基礎設施、新的架構、新的數(shù)據(jù)管道。



具體可以看網(wǎng)友給大家劃的重點:

  • 在預訓練階段,能夠以比Llama 4 少10倍以上的計算量達到相同的性能水平。
  • 強化學習訓練展現(xiàn)出平滑且可預測的改進,具有良好的泛化能力和可擴展性。
  • Test-time階段,在加入長度懲罰機制后,“思維壓縮”開始生效,模型學會了用更少的token解決問題。



Meta在博客中介紹,過去9個月,他們對Muse Spark的預訓練技術棧進行了全面升級。

所有改進的目標,都是為了讓每一分算力都能產(chǎn)生更大的價值。

為了驗證效果,他們做了一個對比實驗:先用一系列小模型擬合出一條“算力-能力”的Scaling曲線,然后計算要達到某個性能水平具體需要多少算力。

結果發(fā)現(xiàn),相比Llama 4,Muse Spark達到同樣水平所需要的計算量低了一個數(shù)量級以上(10.3倍)。



預訓練完成后,他們進一步用強化學習來提升模型能力。

雖然大規(guī)模RL訓練通常很不穩(wěn)定,但他們聲稱自己的新架構做到了“穩(wěn)中有進”。

如下圖所示,隨著RL訓練步數(shù)增加,模型在訓練數(shù)據(jù)上的成功率(無論是單次嘗試還是16次中至少成功一次)呈現(xiàn)對數(shù)線性增長。

這說明,RL在提升可靠性的同時,沒有破壞推理的多樣性。

而且在模型從未見過的任務上,準確率同樣在穩(wěn)步提升——這說明RL帶來的能力提升是可預測、可泛化的,不是死記硬背。



以及為了讓模型在回答復雜問題之前先“想一想”,團隊仍用強化學習訓練它具備這種“測試時推理”能力。

不過需要注意,實踐證明Test-time階段的推理尤為耗費token,所以如何精打細算也是這一階段的重點。

對此,他們用了兩個關鍵手段來平衡效果與效率:

一是思考時間懲罰。鼓勵模型用更短的推理路徑得出正確答案,倒逼它學會“思維壓縮”。

二是多智能體協(xié)作。讓多個模型或模塊協(xié)同工作,在保證響應速度不降的前提下提升整體表現(xiàn)。

然后在AIME這類高難度評測集上,他們觀察到了一個有趣的“三階段變化”

模型一開始會不自覺延長思考,希望通過拉長推理過程來提高正確率。

但這會馬上觸發(fā)“思考時間懲罰”,于是模型被迫精簡推理,學會用更少的token解決問題。

而在精簡之后,模型還表現(xiàn)出了擴展性能——在高效的基礎上繼續(xù)優(yōu)化解法,最終實現(xiàn)用更少的資源獲得更強的性能表現(xiàn)。



也不乏翻車的

不過前面也說了,Muse Spark雖然將Meta帶回了第一梯隊,但在編程、Agent類任務上仍有不足。

這不,模型剛發(fā)布,翻車集錦也來了……

有人想用它生成網(wǎng)站,結果3個請求一個都沒實現(xiàn),而且連最基本的前端都無。



不過后來貼主發(fā)現(xiàn)可能是偶然錯誤,模型正常情況下做出來的前端是這樣的。



一個簡單的編程任務,Muse Spark雖生成了一大堆東西,但根本跑不通。

在一個Python文件里實現(xiàn)自動微分(autograd)和神經(jīng)網(wǎng)絡。

網(wǎng)友甚至調(diào)侃,模型根本沒在學,訓練了1800個epoch,損失函數(shù)卻一直卡在同一個值上沒動過。

白白浪費算力了……

(正常情況下,隨著訓練進行損失應該逐步下降,表明模型在“學習”)



所以問題來了,有試過的朋友覺得亞歷山大王的首個模型如何?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
以色列,終成人類公敵!

以色列,終成人類公敵!

燕梳樓頻道
2026-04-10 15:02:39
《乘風2026》一公淘汰人員出爐,觀眾:該走的沒走,不該走的走了

《乘風2026》一公淘汰人員出爐,觀眾:該走的沒走,不該走的走了

八卦南風
2026-04-11 11:04:52
庫里11+5勇士不敵國王吞連敗,波杰姆斯基30分國王4人20+

庫里11+5勇士不敵國王吞連敗,波杰姆斯基30分國王4人20+

湖人崛起
2026-04-11 12:38:57
和劉翔離婚后,她離開上海,和母親相依為命,如今35歲仍是單身

和劉翔離婚后,她離開上海,和母親相依為命,如今35歲仍是單身

往史過眼云煙
2026-04-10 15:00:17
鄭麗文女保鏢火了!她的眼神讓全場震驚。

鄭麗文女保鏢火了!她的眼神讓全場震驚。

小貓娛樂叭叭
2026-04-09 21:03:31
1-1!姆巴佩遭點球爭議,巴爾韋德難救主,皇馬連續(xù)3場不勝

1-1!姆巴佩遭點球爭議,巴爾韋德難救主,皇馬連續(xù)3場不勝

我的護球最獨特
2026-04-11 05:04:38
總統(tǒng)被架空?特朗普遭背后捅刀!軍火商狂吸千億,伊朗這波太致命

總統(tǒng)被架空?特朗普遭背后捅刀!軍火商狂吸千億,伊朗這波太致命

浪子阿邴聊體育
2026-04-10 09:57:08
戰(zhàn)無不勝的以軍遇克星!沙特與伊朗迎來強援,巴鐵梟龍將擊落F-35

戰(zhàn)無不勝的以軍遇克星!沙特與伊朗迎來強援,巴鐵梟龍將擊落F-35

書紀文譚
2026-04-10 16:16:00
全紅嬋微博自動回復“罵我,我會反彈回去的”!網(wǎng)友:她曾多無助

全紅嬋微博自動回復“罵我,我會反彈回去的”!網(wǎng)友:她曾多無助

火山詩話
2026-04-11 11:06:38
紅帽撤離中國,一個時代的落幕。

紅帽撤離中國,一個時代的落幕。

開源中國
2026-04-10 15:36:24
遼寧一車牌號帶8888的奔馳S450L疑似作為陪葬品下葬,當?shù)孛裾郑阂蚜私?,正在核?>
    </a>
        <h3>
      <a href=臺州交通廣播
2026-04-10 14:45:26
德國“大神”來華手術,被「中國病歷」嚇到:“我的天...”。中國醫(yī)生卻要天天扛著

德國“大神”來華手術,被「中國病歷」嚇到:“我的天...”。中國醫(yī)生卻要天天扛著

醫(yī)護健康科普
2026-04-11 09:08:37
女大學生吐槽“普信男”視頻火了,卻因長相被嘲:你也照照鏡子吧

女大學生吐槽“普信男”視頻火了,卻因長相被嘲:你也照照鏡子吧

妍妍教育日記
2026-04-11 07:35:08
伊朗媒體公布伊朗談判代表團人員組成

伊朗媒體公布伊朗談判代表團人員組成

財聯(lián)社
2026-04-11 12:10:05
曝愛爾眼科醫(yī)院院長猥褻女經(jīng)理,強行摟抱,細節(jié)曝光,已被停職

曝愛爾眼科醫(yī)院院長猥褻女經(jīng)理,強行摟抱,細節(jié)曝光,已被停職

180視角
2026-04-10 14:27:07
賽力斯新專利:汽車座便器!

賽力斯新專利:汽車座便器!

新浪財經(jīng)
2026-04-10 19:33:14
開路虎加油逃單后續(xù):正臉曝光已死,身份被扒還是慣犯,警方介入

開路虎加油逃單后續(xù):正臉曝光已死,身份被扒還是慣犯,警方介入

潮鹿逐夢
2026-04-10 12:03:49
照顧患癌母親的24歲女研究生確診腸癌晚期:已收到愛心捐款10余萬元,病情穩(wěn)定期盼返校

照顧患癌母親的24歲女研究生確診腸癌晚期:已收到愛心捐款10余萬元,病情穩(wěn)定期盼返校

紅星新聞
2026-04-10 16:55:18
洗臉熊一夜成名!公司聊天記錄流出,網(wǎng)友:500萬花出5億的效果

洗臉熊一夜成名!公司聊天記錄流出,網(wǎng)友:500萬花出5億的效果

火山詩話
2026-04-11 07:38:12
鎖定季后賽!老鷹大勝送騎士鎖定第四 哈登10000罰球里程碑

鎖定季后賽!老鷹大勝送騎士鎖定第四 哈登10000罰球里程碑

醉臥浮生
2026-04-11 09:30:56
2026-04-11 12:52:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12457文章數(shù) 176449關注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

牛彈琴:伊朗很悲壯 向美國提高了"要價"

頭條要聞

牛彈琴:伊朗很悲壯 向美國提高了"要價"

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

浪姐7淘汰 該走的沒走,不該走的走了

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

游戲
健康
本地
手機
旅游

《幻想生活i》銷量突破150萬套之后開始進軍手游平臺

干細胞抗衰4大誤區(qū),90%的人都中招

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

手機要聞

橙色版OPPO Find X9 Ultra手機渲染圖曝光

旅游要聞

外灘“絕世美景”!99%的人不知道,5樓免費露臺,3萬株杜鵑花正在盛放!入口在這里→

無障礙瀏覽 進入關懷版