国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

無人關(guān)心的 Meta AI,好像真有點說法。

0
分享至


繞過元宇宙的彎路,放棄出道即巔峰的 Llama,怒燒幾百億美金組建超級智能實驗室。。。

在 Meta 的 AI 戰(zhàn)略徹底顛覆以后,他們的首款通用模型 Muse Spark 耗時一年,終于嶄新出爐了。

而在第一時間上手實測之后,世超感覺,之前的 Meta 是拉完了都排不上號的主,靠著鈔能力一路猛追,可能真爬上了榜單的人上人。

根據(jù)官方發(fā)布的跑分結(jié)果,Muse Spark 在多模態(tài)、文字推理、健康和智能體領域,和 Opus 4.6,Gemini 3.1 Pro 等旗艦模型相比的確各有千秋。


雖然這個健康領域挺詭異的,很少見這類 Benchmark 被搬上通用模型的臺面。。。

而在即將推出的 “ 沉思模式 ” 下,Muse Spark 在一些高難測試集,如 Humanity's Last Exam 里的思考推理表現(xiàn),也和 Gemini 3.1 Deep Think,GPT 5.4 Pro 差不多。


但也有人并不看好 Meta 這一波。畢竟官方博客披露信息太少了,案例都沒幾個。模型閉源,又沒有發(fā)布 API,Meta 也有可能故技重施,在跑分上造假。這模型好不好用,難說。

所以,為了看看這里面到底有幾分水分,世超把 Muse Spark 拉來,和 Gemini 3.1 pro,Opus 4.6,GPT 5.4 Thinking 做了個簡單橫向?qū)Ρ取?/strong>

目前 Muse Spark 只開放了 Instant 和 Thinking 兩種模式,前者快速回答,后者有一些思考和推理能力,我們這回主要測能力更強的 Thinking。


咱們先從 Muse Spark 主推的多模態(tài)開始。比如,世超給它一張超市貨架圖,讓它推薦幾款減脂期零食。

從回答里看得出,Muse Spark 對圖片的理解能力很強,細節(jié)也能抓到位,文字閱讀無障礙,推薦得有理有據(jù),結(jié)果可靠。


但要只是上面這種程度,所有模型都能做得到,Muse Spark 只能算是及格。下面這些上難度的玩法,才是 Muse Spark 表演的開始。

在官方博客里,Meta 提供了一個一張圖變數(shù)獨游戲的案例。只要給出一張圖片,提示詞 “ 把這張圖變成網(wǎng)頁數(shù)獨游戲 ”,就能獲得一個可玩數(shù)獨。


我們也做了個類似的,親測好用。不止交互很絲滑,答案也能準確計算好,頁面風格和提供的圖片完全一致。


感覺 Muse Spark 的多模態(tài)不像其它模型,只是識圖看個大概,剩下的全憑自由發(fā)揮。它是真懂事,不僅能按照你提供的圖片像素級復刻,甚至可以準確推斷出背后的操作使用邏輯。

下面這個例子就更猛了。世超只是隨手截了一個 win11 系統(tǒng)計算器圖給它,提示 “ 把這張圖片變成一個可用計算器 ”,Muse Spark 一口氣做出來的 demo,每個按鍵都好使,計算準確,界面和系統(tǒng)媽生計算器一模一樣。


作為對比,GPT 5.4 Thinking 界面風格類似,但有亂碼;Gemini 3.1 pro 完全無視了原圖;只有真神 Opus 4.6 維持了一貫的高水準。


而在據(jù)說 Muse Spark 并不擅長的代碼方面,我們實測也有驚喜。

咱先試了試前端網(wǎng)頁設計實現(xiàn)。至少在這一塊,Muse Spark 的審美屬于一流水平。

頁面功能實現(xiàn)得比較完整,部分鏈接按鈕可點擊,雖然具體內(nèi)容存在一些杜撰,粗略看起來還是很舒服的。


整體和 Opus 4.6 比起來有點差距,但比起不知所云的 GPT,還是強了很多。


算法代碼方面,我們挑選了幾道 leetcode 高難題。

最震驚的還是在 65 號題上,雖然所有模型都通過了測試,但 Muse Spark 給出了時間和空間上,都更加優(yōu)雅的解法。。。

作為對比,Opus 4.6 和 GPT 5.4 Thinking 的時間復雜度排名僅 50%,而 Gemini 3.1 pro 的空間復雜度只擊敗了 13% 的提交答案。


再以 10 號題為例,Muse Spark 和 Opus 給出的依然是最優(yōu)解;GPT 通過了測試,但解法不夠好;Gemini 3.1 pro 則直接出現(xiàn) bug,失敗了。


測到這里,Muse Spark 的表現(xiàn)已經(jīng)遠遠超過世超的預期了。表現(xiàn)和 Opus 打的有來有回,反而 GPT 和 Gemini 顯得有點不夠看。

不會吧不會吧,難道我們都誤會了,亞歷山大王真有點東西?

再看看簡單的文字測試。不得不說,Muse Spark 思路相當清晰,Instant 模式回答幾個經(jīng)典邏輯問題足夠用,3 秒必達。


而作為對比,Gemini 和 Opus 的表現(xiàn)也是穩(wěn)定且準確。唯獨 GPT,上個月新發(fā)布的版本 5.4 Thinking,還在這種簡單邏輯題上翻車,拉完了。


最后,在健康領域,所有模型的回答都中規(guī)中矩,Muse Spark 無功無過。


在簡單試用完一圈之后,世超感覺大模型界三足鼎立的局面,真要被打破了。

而 Meta 目前放出來的,甚至還只是一個較輕量,試試水,可能在未來開源的版本。。。

官方表示,他們正在 Muse Spark 的基礎上,繼續(xù)對整個技術(shù)棧加大投資力度,從研究,數(shù)據(jù),模型訓練到基礎設施,規(guī)模全面擴張。

在模型訓練技術(shù)細節(jié)上,Meta 提到了三個關(guān)鍵點:預訓練、強化學習、和測試時推理(test-time reasoning)。


前兩個過程各位差友已經(jīng)很熟悉了,但即使這是每個大模型的必經(jīng)之路,Meta 依然背靠 Instagram 和 Facebook,有著得天獨厚的數(shù)據(jù)優(yōu)勢。在數(shù)據(jù)這方面,可能只有谷歌能和 Meta 相提并論。

而在測試時推理這個階段,Meta 主要做的是,讓模型在回答問題之前,先思考一陣,但不能耗太多 token。

這一點世超在 GPT Thinking 系列上深有體會。這些模型經(jīng)常想起來沒完,結(jié)果變得又臭又長,信息密度極低。

而 Meta 選擇在訓練的過程中,對過長的思考進行懲罰。把長推理壓縮成盡量少 token 的前提下,又能讓模型回答準確,達成了微妙的平衡。


最后,回過頭看,一次又一次失敗,Meta 居然從來沒退出這場比賽,最終再次歸位前沿陣地,這故事太燃了。

但在另一邊,Claude Mythos Preview 已經(jīng)強到另一個維度了。相比之下,Muse Spark 這一波,像是才剛補上了之前缺的課。

所以,世超只能說,期待 Meta 加入這場模型大亂斗,讓小扎也有機會,癱坐在小小的辦公椅上吧。

撰文:莫莫莫甜甜

編輯:江江 & 面線

美編:煥妍

圖片、資料來源:

感謝宅宅老師提供的跨國支援!

莫莫實測

Muse Spark 官方博客、X


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
浙江一對老夫妻收廢品,在河邊撿到奇特“鐵疙瘩”,果斷上交!民警一查:竟是千年寶貝

浙江一對老夫妻收廢品,在河邊撿到奇特“鐵疙瘩”,果斷上交!民警一查:竟是千年寶貝

臺州交通廣播
2026-04-11 15:00:56
遲重瑞73歲無兒無女,陳麗華已為其安排好后路

遲重瑞73歲無兒無女,陳麗華已為其安排好后路

老羴學科普
2026-04-09 12:56:14
知名網(wǎng)站宣布:即將停止服務!趕緊備份,退費

知名網(wǎng)站宣布:即將停止服務!趕緊備份,退費

環(huán)球網(wǎng)資訊
2026-04-10 13:35:16
小布什、奧巴馬、拜登都拒絕了,就特朗普同意了內(nèi)塔尼亞胡

小布什、奧巴馬、拜登都拒絕了,就特朗普同意了內(nèi)塔尼亞胡

魯中晨報
2026-04-10 21:40:04
鄭麗文通告全球!美專機落地臺灣,有事交代賴清德,大陸收到信號

鄭麗文通告全球!美專機落地臺灣,有事交代賴清德,大陸收到信號

朝子亥
2026-04-11 12:10:03
全紅嬋風波大結(jié)局,事件關(guān)聯(lián)多位運動員,一人被抓,處罰結(jié)果曝光

全紅嬋風波大結(jié)局,事件關(guān)聯(lián)多位運動員,一人被抓,處罰結(jié)果曝光

東方不敗然多多
2026-04-11 13:26:04
民進黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
一場葬禮,徹底戳穿陳麗華遲重瑞婚姻真相,林大慶評價一針見血

一場葬禮,徹底戳穿陳麗華遲重瑞婚姻真相,林大慶評價一針見血

小僫搞笑解說
2026-04-11 04:43:05
趙勇淚別母親陳麗華!他曾支持母親再婚,不嫌棄生父平凡

趙勇淚別母親陳麗華!他曾支持母親再婚,不嫌棄生父平凡

細品名人
2026-04-11 07:29:02
女子問下山的人:“光明頂還有多遠”,下山小伙秒懂,立馬切換“戲精模式”

女子問下山的人:“光明頂還有多遠”,下山小伙秒懂,立馬切換“戲精模式”

觀威海
2026-04-11 09:52:13
暴跌95%!一代神車退場了,比燃油車賣不掉更可怕的事正在發(fā)生

暴跌95%!一代神車退場了,比燃油車賣不掉更可怕的事正在發(fā)生

毒sir財經(jīng)
2026-04-10 16:25:00
笑噴全網(wǎng)!高速路上妻子數(shù)落丈夫停不下來,貓咪聽不下去直接捂嘴

笑噴全網(wǎng)!高速路上妻子數(shù)落丈夫停不下來,貓咪聽不下去直接捂嘴

搗蛋窩
2026-04-11 10:57:44
看哭了?。〔灰湴粒。〔灰矶危?!哈登為了奪冠怎么都行?。?>
    </a>
        <h3>
      <a href=柚子說球
2026-04-11 18:25:04
定了!公積金提取限制全面取消,2026年4月1日起執(zhí)行

定了!公積金提取限制全面取消,2026年4月1日起執(zhí)行

甜到你心坎
2026-04-10 06:36:20
白巖松批評全紅嬋近況曝光,下場大快人心

白巖松批評全紅嬋近況曝光,下場大快人心

孤芳自賞的小李
2026-04-10 14:01:18
不知不覺都老了,這兩位演員已經(jīng)不在了,你還記得他們嗎?

不知不覺都老了,這兩位演員已經(jīng)不在了,你還記得他們嗎?

阿廢冷眼觀察所
2026-04-11 17:02:28
北京首鋼拒絕輸球!全力擊敗上海隊,麥基對位懷特塞德,央視直播

北京首鋼拒絕輸球!全力擊敗上海隊,麥基對位懷特塞德,央視直播

體壇瞎白話
2026-04-11 08:54:30
爆單!問界M6預售不到20天預訂破10萬臺

爆單!問界M6預售不到20天預訂破10萬臺

快科技
2026-04-11 18:08:11
連得11分擊潰世界第6!石宇奇2-0輕取周天成,決賽對陣最大黑馬

連得11分擊潰世界第6!石宇奇2-0輕取周天成,決賽對陣最大黑馬

釘釘陌上花開
2026-04-11 19:09:14
越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

岐黃傳人孫大夫
2026-03-17 23:25:03
2026-04-11 19:47:00
差評XPIN incentive-icons
差評XPIN
用知識和觀點Debug the world!
10553文章數(shù) 489570關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

美國否認同意解凍伊朗資產(chǎn) 巴官員:美方急了 伊朗不急

頭條要聞

美國否認同意解凍伊朗資產(chǎn) 巴官員:美方急了 伊朗不急

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

浪姐7淘汰 該走的沒走,不該走的走了

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

游戲
藝術(shù)
數(shù)碼
本地
軍事航空

《星砂島》小游戲侵權(quán)俄羅斯方塊 已從Steam下架

藝術(shù)要聞

從1984到2024,9屆全國美展油畫最高獎作品

數(shù)碼要聞

消息稱華擎將推X870E Taichi White,補全AMD白色旗艦主板缺失

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進入關(guān)懷版