国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,小扎的千億閉源AI終于交卷!當場被痛批「圖表犯罪」,28歲話事人火速道歉

0
分享至

九個月前,如果你問 AI 圈里誰最焦慮,答案大概率是 Meta CEO 扎克伯格。

Llama 4 的發(fā)布堪稱教科書級翻車。核心研究員陸續(xù)出走,技術(shù)社區(qū)的口碑幾乎在一夜之間崩掉,于是扎克伯格選擇推倒重來。

Meta Superintelligence Labs 掛牌成立,接著小扎開出堪比 NBA 職業(yè)球星的簽約金,從 OpenAI、Google、Anthropic 撬走七十多名頂尖研究員,并在六個月內(nèi)完成了四次組織架構(gòu)調(diào)整。


就在剛剛,這場 AI 豪賭終于亮出了它的第一張牌:Muse Spark。

近千億美元的支出給了扎克伯格一張 AI 頂級玩家的入場券,但入場從來只是開始,能不能在這張桌子上贏下去,還要看今天這張牌打得怎么樣。


扎克伯格的最新發(fā)文

號稱「個人超級智能」第一步,Muse Spark 登場

作為 Meta Superintelligence Labs 推出的 Muse 系列首款模型,Muse Spark 從架構(gòu)層面原生支持圖像、音頻、視頻與文本的聯(lián)合理解,內(nèi)置工具調(diào)用、可視化思維鏈與多智能體協(xié)調(diào)能力。

Meta 將其定位為邁向「個人超級智能」的第一步。

從評測數(shù)據(jù)看,Muse Spark 的能力分布相當不均勻。多模態(tài)方向上,它在 CharXiv Reasoning 圖表理解項目上得分 86.4,超過 GPT 5.4 的 82.8 和 Gemini 3.1 Pro 的 80.2,SimpleVQA 視覺事實題同樣領(lǐng)先競爭對手。


但在 MMMU Pro 多模態(tài)理解項目上,Muse Spark 得分 80.4,低于 Gemini 3.1 Pro 的 83.9。文本推理方向,它在 GPQA Diamond 博士級推理題上得分 89.5,LiveCodeBench Pro 競爭編程測試得分 80.0,后者超過 Opus 4.6。

然而 ARC AGI 2 抽象推理謎題上僅得 42.5,遠落后于 Gemini 3.1 Pro 的 76.5 和 GPT 5.4 的 76.1,差距頗為明顯。

健康領(lǐng)域是這份成績單上比較大的亮點。

HealthBench Hard 開放式健康問答中,Muse Spark 得分 42.8,遠超 GPT 5.4 的 40.1、Gemini 3.1 Pro 的 20.6 和 Opus 4.6 的 14.8。MedXpertQA 多模態(tài)醫(yī)療題得分 78.4,Meta 與超過 1000 名醫(yī)生合作標注訓(xùn)練數(shù)據(jù),這一投入在評測榜單上得到了直接回報,也是少見的、錢花到了刀刃上的地方。

編碼與智能體任務(wù)則是另一面。Muse Spark 在 DeepSearchQA 智能體搜索項目上得分 74.8,優(yōu)于 Gemini 3.1 Pro 的 69.7,但在 Terminal-Bench 2.0 終端編碼任務(wù)上僅得 59.0,落后于 GPT 5.4 的 75.1 和 Gemini 3.1 Pro 的 68.5。


基準測試之外,社區(qū)的實戰(zhàn)對比更為直觀:有用戶同時讓 Muse Spark 和 GPT-5.4 完成「制作一個 Flappy Bird 克隆版」的任務(wù),從游戲邏輯到交互細節(jié),GPT-5.4 輕松勝出。在經(jīng)典的六邊形小球測試中,對比昨天 DeepSeek 專家模式的表現(xiàn),Muse Spark 再次敗下陣來。


只能說,編碼與長鏈路智能體任務(wù),仍是 Meta 明確承認、尚在補強的方向。

與標準推理模式并行,Meta 同步推出了 Contemplating 模式,通過并行調(diào)度多個 AI 智能體協(xié)作處理復(fù)雜問題。

該模式在「人類最后的考試」(Humanity’s Last Exam)無工具版本中得分 50.2,超過 Gemini 3.1 Deep Think 的 48.4 和 GPT 5.4 Pro 的 43.9,F(xiàn)rontierScience Research 科學(xué)研究任務(wù)中得分 38.3。但在物理奧賽 IPhO 2025 理論題上得分 82.6,仍落后于 GPT 5.4 Pro 的 93.5。


支撐上述能力的,是 MSL 過去九個月徹底重建的技術(shù)棧。

Codebase Perplexity 測試圖表顯示,Muse Spark 在相同性能水平下,比 Llama 4 Maverick Base 節(jié)省 10.3 倍算力,比 DeepSeek-V3.1 Base 節(jié)省 8.2 倍,比 Kimi-K2 Base 節(jié)省 3.3 倍。


強化學(xué)習(xí)階段同樣表現(xiàn)穩(wěn)定,pass@1 從約 46% 持續(xù)爬升至超 60%,pass@16 從 近 68% 升至近 80%,在未見過的評測集上泛化趨勢同樣平穩(wěn)。


博主 Yuchen Jin 評價稱,基礎(chǔ)設(shè)施才是 AI 實驗室真正的護城河,好的基礎(chǔ)設(shè)施讓研究人員能以更快速度訓(xùn)練模型、用更短周期驗證更多想法。


AI 評測機構(gòu) Artificial Analysis 在早期測試后表示,Muse Spark 在其綜合智能指數(shù)中得分 52,位列全球前五。


Muse Spark 現(xiàn)已上線 meta.ai 及 Meta AI 應(yīng)用,并向部分用戶開放 API 內(nèi)測,用戶須以 Facebook 或 Instagram 賬號登錄方可使用。與此前開源 Llama 系列的路線不同,Meta 這次選擇閉源發(fā)布。

Meta 未明確說明是否會使用社交賬號中的個人信息訓(xùn)練模型,但鑒于 Meta 的一貫做法,這一可能性不低,其中健康數(shù)據(jù)的采集更是值得特別關(guān)注。

Meta 重組后的首份 AI 答卷,及格了嗎?

2025 年 4 月,Llama 4 以令人失望的表現(xiàn)觸發(fā)了 Meta 的人事地震。

下定決心從頭來過的扎克伯格,成立了 Meta Superintelligence Labs,以 143 億美元將 Scale AI 創(chuàng)始人 Alexandr Wang 引入擔任首席 AI 官,前 GitHub CEO Nat Friedman 負責產(chǎn)品,前 OpenAI 研究員 Shengjia Zhao(趙晟佳)出任首席科學(xué)家。


緊接著是四大團隊的重組、以及從 OpenAI、DeepMind、Anthropic 等對手處累計引進逾 70 名頂尖研究人員,單人簽約獎金最高達 1 億美元。

代價是沉重的,圖靈獎得主 Yann LeCun 離職、600 個崗位被裁、內(nèi)部薪酬不公引發(fā)大規(guī)模士氣危機,六個月內(nèi)四次架構(gòu)調(diào)整更是讓團隊方向感嚴重缺失。


結(jié)果顯而易見,九個月重建、數(shù)百億投入,Muse Spark 交出的這份答卷,稱得上合格,卻還遠遠談不上亮眼。

有一個有趣的細節(jié)是,Meta 在評測圖表中,通過給自家模型基準測試成績高亮的操作,試圖制造出全面領(lǐng)先的視覺觀感,隨即引發(fā)外界批評。


網(wǎng)友 Armen Aghajanyan 直接定性為「圖表犯罪」,Alexandr Wang 隨后公開致歉,承認大多數(shù)評估恰恰顯示模型有很多需要改進的地方。



事實上,Meta 新模型在健康領(lǐng)域的垂直優(yōu)勢足夠亮眼,算力效率的提升也確有真實價值,但 ARC AGI 2 上的斷崖式落差、編碼任務(wù)上被 GPT-5.4 輕松超越,以及「圖表犯罪」風(fēng)波所折射出的敘事焦慮,共同勾勒出一個仍在追趕、而非遙遙領(lǐng)先的 Meta AI。

更關(guān)鍵的是,這是一份閉源答卷。Meta 曾以開源 Llama 系列樹立起差異化形象,如今轉(zhuǎn)向閉源商業(yè)化路線,意味著它放棄了社區(qū)生態(tài)這張最重要的底牌,卻尚未證明自己能在閉源賽道上與 OpenAI 和 Anthropic 正面掰手腕。


如官方博客和 Alex 回應(yīng)所說,別問,問就是「大的要來了」

甚至就在 Muse Spark 發(fā)布的同一天,馬斯克在社交媒體上曬出 xAI Colossus 2 的訓(xùn)練進度,七個模型同時在訓(xùn),參數(shù)規(guī)模從 1T 橫跨至 10T,并附上一句意味深長的「還有些追趕要做」。


同期,Claude Mythos 預(yù)覽版、DeepSeek 新一輪更新也已經(jīng)發(fā)布,包括阿里即將推出 Qwen-3.6 系列旗艦 Qwen-3.6-Max,騰訊混元 3.0 同樣蓄勢待發(fā)。

對手們不會等 Meta 考完再出題,并且投資者的耐心本來就是有限度的。四月,依舊是最殘酷的一個月。名為 AGI 的這場考試,目前還看不到閱卷結(jié)束的那一天。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
看笑了!大連國腳與浙江外援沖突后捂著嘴交流,都怕因罵人被處罰

看笑了!大連國腳與浙江外援沖突后捂著嘴交流,都怕因罵人被處罰

我愛英超
2026-04-10 22:30:45
是時候攤牌了,中方明確信號:要打,戰(zhàn)火必須燒進美國本土!

是時候攤牌了,中方明確信號:要打,戰(zhàn)火必須燒進美國本土!

史說方休
2026-04-11 01:23:59
俄烏明天?;穑瑸踯娨讶〉脩?zhàn)略主動權(quán)

俄烏明天?;?,烏軍已取得戰(zhàn)略主動權(quán)

名人茍或
2026-04-10 14:04:37
網(wǎng)上大量的自媒體,你們已經(jīng)變成伊朗宣傳部中國分部了么?

網(wǎng)上大量的自媒體,你們已經(jīng)變成伊朗宣傳部中國分部了么?

世界圈
2026-04-10 13:15:02
伊朗媒體稱以軍停止襲擊黎巴嫩首都貝魯特

伊朗媒體稱以軍停止襲擊黎巴嫩首都貝魯特

新華社
2026-04-10 21:31:31
山西一局長在辦公室突發(fā)疾病不幸去世,單位正申報因公殉職,生前曾獲省五一勞動獎?wù)?>
    </a>
        <h3>
      <a href=大風(fēng)新聞
2026-04-10 11:26:15
伊朗權(quán)貴有三千多親屬在美過奢侈生活,盧比奧正在考慮全部驅(qū)逐

伊朗權(quán)貴有三千多親屬在美過奢侈生活,盧比奧正在考慮全部驅(qū)逐

小院之觀
2026-04-09 21:35:10
觀察|脆弱休戰(zhàn)下的美以伊三方:“嘴炮”不停,備戰(zhàn)不止

觀察|脆弱休戰(zhàn)下的美以伊三方:“嘴炮”不停,備戰(zhàn)不止

澎湃新聞
2026-04-10 13:10:26
陳光標回應(yīng)送車風(fēng)波:不認識張雪,“不管他叫張雪還是李雪”,只想向他致敬

陳光標回應(yīng)送車風(fēng)波:不認識張雪,“不管他叫張雪還是李雪”,只想向他致敬

齊魯壹點
2026-04-10 22:24:12
3-0橫掃!中超黑馬豪取3連勝,本土主帥李國旭神了:擊敗3大強隊

3-0橫掃!中超黑馬豪取3連勝,本土主帥李國旭神了:擊敗3大強隊

足球狗說
2026-04-10 21:32:30
美伊戰(zhàn)火打醒中東土豪!伊朗導(dǎo)彈一炸,阿聯(lián)酋連夜拔管法國大飛機

美伊戰(zhàn)火打醒中東土豪!伊朗導(dǎo)彈一炸,阿聯(lián)酋連夜拔管法國大飛機

青青子衿
2026-04-10 20:26:18
交易規(guī)則重大調(diào)整!A股風(fēng)險警示股告別5%漲跌幅,涉超130股

交易規(guī)則重大調(diào)整!A股風(fēng)險警示股告別5%漲跌幅,涉超130股

北京商報
2026-04-10 19:47:03
王毅訪朝第2天!高市不裝了,降級中日關(guān)系,中方的回應(yīng)不簡單

王毅訪朝第2天!高市不裝了,降級中日關(guān)系,中方的回應(yīng)不簡單

共工之錨
2026-04-10 19:28:56
形勢已然大變!西方媒體集體改口:中國,已無需再向世界證明什么

形勢已然大變!西方媒體集體改口:中國,已無需再向世界證明什么

樂享人生風(fēng)雨
2026-04-11 02:05:32
文章新飯店開張!開業(yè)當天人氣爆滿,文章戴婚戒抱著嬰兒在店合影

文章新飯店開張!開業(yè)當天人氣爆滿,文章戴婚戒抱著嬰兒在店合影

一盅情懷
2026-04-10 15:38:43
王鷗和李小冉現(xiàn)實中長這樣

王鷗和李小冉現(xiàn)實中長這樣

鄉(xiāng)野小珥
2026-04-10 21:31:17
太突然!知名品牌宣布:停止運營、全部退款!網(wǎng)友唏噓:用了十幾年啊,舍不得

太突然!知名品牌宣布:停止運營、全部退款!網(wǎng)友唏噓:用了十幾年啊,舍不得

環(huán)球網(wǎng)資訊
2026-04-10 16:52:28
鄭麗文在北京新造型!穿藍紫色西服彰顯貴氣,還雙手背后很有氣勢

鄭麗文在北京新造型!穿藍紫色西服彰顯貴氣,還雙手背后很有氣勢

八八尚語
2026-04-10 12:58:23
蘋果給折疊屏起了個新名字,國產(chǎn)廠商連夜抄作業(yè)

蘋果給折疊屏起了個新名字,國產(chǎn)廠商連夜抄作業(yè)

薛定諤的BUG
2026-04-09 17:06:08
3-0!3-0!5連敗日乒僅3小時,溫瑞博殺瘋:連續(xù)橫掃成國乒遮羞布

3-0!3-0!5連敗日乒僅3小時,溫瑞博殺瘋:連續(xù)橫掃成國乒遮羞布

大秦壁虎白話體育
2026-04-10 19:16:33
2026-04-11 05:12:49
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
6292文章數(shù) 26819關(guān)注度
往期回顧 全部

科技要聞

馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

頭條要聞

特朗普:美軍艦已裝最先進武器 未來24小時成關(guān)鍵窗口

頭條要聞

特朗普:美軍艦已裝最先進武器 未來24小時成關(guān)鍵窗口

體育要聞

17歲賺了一百萬美元,25歲被CBA裁員

娛樂要聞

黃景瑜王玉雯否認戀情!聚會細節(jié)被扒

財經(jīng)要聞

李強主持召開經(jīng)濟形勢專家和企業(yè)家座談會

汽車要聞

搭載第二代刀片電池及閃充技術(shù) 騰勢N8L閃充版預(yù)售35萬起

態(tài)度原創(chuàng)

親子
藝術(shù)
本地
公開課
軍事航空

親子要聞

時間會融化所有尖銳,只剩平靜

藝術(shù)要聞

深圳頂級海景地段,為啥留下一排“幽靈別墅群”?真相成謎!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:對美國與伊朗達成和平協(xié)議“非常樂觀”

無障礙瀏覽 進入關(guān)懷版