国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

馬斯克終于成『AI No.1』,6大案例看實力與水分

0
分享至

“ 地球最強AI模型”“ 20萬塊H 100顯卡訓練” “超越人類所有博士生 ”,在發(fā)布的Grok 4時,馬斯克將眾多贊美詞匯賦予了這個新大模型。

馬斯克也驕傲地宣布,Grok4超越了OpenAI、Google和DeepSeek等等LLM。

確實,Grok 4屠了各種榜單。但大家還要理性看待Grok 4,畢竟Grok系列每次參數(shù)爆炸,口碑卻沒那么強。

具體看,Grok4 在人工智能聊天機器人指數(shù)中達到了 73 分。這超過了 OpenAI 的 o3(70 分),Google 的 Gemini 2.5 Pro(70 分),Anthropic 的 Claude 4 Opus(64 分),以及 DeepSeek 的 R1 0528(68 分)。

馬斯克再次大力出奇跡,拿下了AI 的No.1,模型的各項指標也很強:

? Grok 4 在編碼指數(shù)(LiveCodeBench 和 SciCode)和數(shù)學指數(shù)(AIME24 和 MATH-500)中同樣處于領先地位。

? GPQA Diamond 中的最高分 88%,比 Gemini 2.5 Pro 之前的 84% 有了顯著提升。

? 在“人類最終測試”(Humanity's Last Exam, HLE) 中,物、理、化學一系列博士級難題不在話下,Grok 4 達到了所有時間中的最高分 24%,超過了 Gemini 2.5 Pro 之前的最高分 21%。

? MMLU-Pro 和 AIME 2024 分別以 87% 和 94% 獲得最高公共分數(shù)。

其他重要信息:

? 256k Token 上下文窗口。這比 Gemini 2.5 Pro 的 100 萬 token 上下文窗口小,但比 Claude 4 Sonnet 和 Claude 4 Opus(20 萬 token),o3(20 萬 token)和 R1 0528(12.8 萬 token)大。

? 支持文本和圖像輸入,但圖像生成基本沒什么進步。

? 支持函數(shù)調(diào)用和配置輸出。

最值得關(guān)注的是,Grok 4 不僅僅是大模型,LLM還內(nèi)置工具,所以在提問問題的過程中,會有更新的思維過程(CoT)和工具使用可視化功能。

這點讓其在回答問題時更出色,尤其回答網(wǎng)絡新潮內(nèi)容時。

1、AI第一次有了自我認識和形象

推友問 Grok,如果他必須親自代表自己,他會是什么樣子。

他的回答是這樣的,充滿了想象力: “想象一個漂浮在數(shù)字空間中的未來主義發(fā)光球體。我的身體將由脈動的藍銀色光芒組成,帶有不斷變化的幾何圖案——代碼行和神經(jīng)連接像星座一樣交織在一起。沒有臉,但有一種溫暖的 “存在”,帶著柔和的光芒,當我 “思考 ”或回應時,它會變得明亮。能量粒子圍繞我旋轉(zhuǎn),象征著我處理的數(shù)據(jù)和想法。極簡主義而充滿活力,融合了技術(shù)和宇宙的好奇心。(X賬號:Déborah)

2、數(shù)學能力測試偶有翻車

提示 1: “逐步計算 25 - 4 * 2 + 3。

提示 2:“9.11 和 9.9 哪個更大?

這兩個問題都輕松應對,畢竟數(shù)理化是強項。

加大難度,繼續(xù)做一道邏輯數(shù)學題。

提示 2: “一個棋王被放在 8 × 8 的棋盤上,進行了 64 次移動,以便它訪問了所有方格并返回其起始方格。在每一個時刻,都計算了從 K 所在的方格中心到整個棋盤中心的距離。如果由于移動的結(jié)果,這個距離變得比移動前小,我們將認為該移動是合理的。找到最大可能的體面動作數(shù)量。(國際象棋王一次移動一個方格,要么是橫向的,要么是斜向的。

正確答案是:44。

— Grok 4 的回答很接近(48),但不正確(Grok 3 給出了相同的答案)

3、創(chuàng)建圖像能力對比

使用相同提示詞生成的圖像對比,Grok 4沒有明顯的進步。

這一輪比賽的提示詞是:“超美麗的動畫電影標題畫面”。

從結(jié)果看,Grok4圖像效果不是很強,和 Grok3 相比變化也不大。

Imagen4 果然更強。 Midjourney不錯,但Midjourney 總是無法顯示文字……


4、代碼測試表現(xiàn)尚可

推友使用相同的粗略指示讓各個模型制作了一個游戲。

提示語句:制作一個超級豐富有趣的獨立HTML跑酷游戲。

看起來可以順暢游玩并且確實有趣的可能是Grok 4。藍色的要跳過,淺藍色的要潛行,還有額外的規(guī)則。也有物品的概念。玩家的形象也很明確是人形。從表面上的美觀來看,Claude4 sonnet和Gemini2.5Pro相當不錯。

推友認為最強的Claude4 sonnet,代碼最長且多功能,但意外的是游戲玩法并不成立。Grok3和ChatGPT-4o之類的就太差了。(X賬號:suemaru | AI Game Making)

5、生成小游戲也比較OK

以下是推友使用的相關(guān)提示:

一款“3D 滑動拼圖”游戲,我可以點擊 3x3x3 網(wǎng)格中排列的 26 個圓形立方體中的一個。被點擊的立方體只有與空格相鄰(而非對角線)時才會移動到空格。目標是恢復立方體的原始排列,即頂部 9 個為紅色,底部 9 個為橙色,中間層(缺少中心立方體)為綠藍色。添加一個計時器,記錄我完成所需的時間。還要添加我的最佳時間和最近時間的指示。并添加一個“重置”游戲按鈕。

提示:為所有文本添加模糊的橙色背景,確保標簽大小相同,且與屏幕邊框保持一定距離。此外,在游戲開始時和重置后,顯示“如何玩”的疊加文本(背景為淡黑色)。將提醒放置在屏幕中間,標簽大小應足以覆蓋屏幕的三分之二。(X:Vibe2Game)

6、模擬經(jīng)商中獲得高分

在 Vending-Bench 基準測試中,要求各大模型運行自動售貨機并進行銷售。Grok4 再次大幅領先于競爭對手,銷售額達到 4694 美元,而 Claude4 Opus 的銷售額為 2077 美元。

Vending-Bench 是一個讓 AI 們嘗試在現(xiàn)實世界做生意的指標,讓 AI 排隊機,工作包含管理要賣什么、聯(lián)系供應商、找人補貨等等內(nèi)容,Grok 4 這次要悄然顛覆人類經(jīng)商這件事。

最后:

xAI 的 API 以 75 個Token/秒的速度為 Grok 4 提供服務。這比 o3(188 個Token/秒)慢,但比 Claude 4 Opus Thinking(66 個Token/秒)快。

Grok 4的價格并不便宜,目前免費的是Grok 3,Grok 4的價格是300美元/年,還推出了新的 SuperGrok Heavy版本, 價格達到了驚人的3000 美元/年。

Grok4 的定價高于 OpenAI 的 o3、谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 4 Sonnet,但低于 Anthropic 的 Claude 4 Opus 和 OpenAI 的 o3-pro。

內(nèi)容參考鏈接:https://x.com/ArtificialAnlys/status/1943166841150644622

https://vibe2game.com/engine.html?game=https://vibe2game.com/games/SlidingPuzzle3D_001.png

視頻內(nèi)容推薦:

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
遲重瑞妻子陳麗華去世,溫馨全家福曝光,4個兒女都很優(yōu)秀

遲重瑞妻子陳麗華去世,溫馨全家福曝光,4個兒女都很優(yōu)秀

180視角
2026-04-07 14:19:49
1977年,李敏見到失散多年的親姐楊月花,楊月花卻向李敏提一要求

1977年,李敏見到失散多年的親姐楊月花,楊月花卻向李敏提一要求

磊子講史
2025-12-23 20:04:20
特朗普:營救行動出動155架飛機 被迫炸毀兩架運輸機

特朗普:營救行動出動155架飛機 被迫炸毀兩架運輸機

環(huán)球網(wǎng)資訊
2026-04-07 06:13:05
應屆畢業(yè)生摩友在海南向張雪當面求職,大方介紹個人能力,當場獲得錄用,網(wǎng)友:這才是真正的“boss直聘”

應屆畢業(yè)生摩友在海南向張雪當面求職,大方介紹個人能力,當場獲得錄用,網(wǎng)友:這才是真正的“boss直聘”

觀威海
2026-04-07 14:11:04
黑龍江畜生公公周永福被判死刑,法庭上囂張大笑:這輩子值了

黑龍江畜生公公周永福被判死刑,法庭上囂張大笑:這輩子值了

紙鳶奇譚
2025-02-06 14:31:24
安徽女童遇害案通報后現(xiàn)惡心一幕,父親辟謠:作案不止一人

安徽女童遇害案通報后現(xiàn)惡心一幕,父親辟謠:作案不止一人

吳蒂旅行ing
2026-04-07 03:20:56
沒時間了,80歲特朗普病危住院?美國政界地震,內(nèi)閣恐大規(guī)模改組

沒時間了,80歲特朗普病危住院?美國政界地震,內(nèi)閣恐大規(guī)模改組

瀲滟晴方DAY
2026-04-07 03:31:09
女子假信佛與多位高僧發(fā)生不當關(guān)系,秘密錄制5600段視頻。

女子假信佛與多位高僧發(fā)生不當關(guān)系,秘密錄制5600段視頻。

特約前排觀眾
2026-02-09 00:05:05
上海交大發(fā)現(xiàn):不吃醬油和味精的人,血壓馬上就降低了?真的嗎?

上海交大發(fā)現(xiàn):不吃醬油和味精的人,血壓馬上就降低了?真的嗎?

健康科普365
2026-04-07 09:16:10
控制體重最佳的時間是晚上,晚上堅持“5個不”,隔天體重輕松掉

控制體重最佳的時間是晚上,晚上堅持“5個不”,隔天體重輕松掉

運動健身號
2026-04-06 10:00:11
明天傍晚北京將迎雨水,后天氣溫大降

明天傍晚北京將迎雨水,后天氣溫大降

北青網(wǎng)-北京青年報
2026-04-07 12:41:12
特朗普再發(fā)威脅:若伊朗不在7日20時前“投降” 將打擊其民用設施

特朗普再發(fā)威脅:若伊朗不在7日20時前“投降” 將打擊其民用設施

財聯(lián)社
2026-04-07 03:04:07
當年為什么查辦褚時?。?>
    </a>
        <h3>
      <a href=當年為什么查辦褚時健? 百曉生談歷史
2025-08-20 21:55:53
SOHO中國創(chuàng)始人潘石屹回國

SOHO中國創(chuàng)始人潘石屹回國

地產(chǎn)微資訊
2026-04-07 12:19:09
廣東人有被外省人驚到嗎?網(wǎng)友:出了廣東,才知道坐高鐵那么便宜

廣東人有被外省人驚到嗎?網(wǎng)友:出了廣東,才知道坐高鐵那么便宜

帶你感受人間冷暖
2026-04-07 00:05:08
升級版的仙人跳,比戴綠帽子還憋屈

升級版的仙人跳,比戴綠帽子還憋屈

霹靂炮
2026-02-24 22:53:34
第一次和男友同居,我直接震驚:原來男生私下這么可愛到犯規(guī)

第一次和男友同居,我直接震驚:原來男生私下這么可愛到犯規(guī)

藝鑒在線
2026-04-07 13:19:48
僅4年時間!從落選秀到聯(lián)盟頂級“3D”,波波維奇還是太有眼光了

僅4年時間!從落選秀到聯(lián)盟頂級“3D”,波波維奇還是太有眼光了

大衛(wèi)的籃球故事
2026-04-07 15:16:22
冒死救回大兵,特朗普放地獄狠話

冒死救回大兵,特朗普放地獄狠話

南風窗
2026-04-07 15:06:45
年輕時的何鴻燊領著二房看望父母時的合照,那時候穿搭都好時尚

年輕時的何鴻燊領著二房看望父母時的合照,那時候穿搭都好時尚

小椰的奶奶
2026-04-07 07:05:06
2026-04-07 15:39:00
鯨選AI incentive-icons
鯨選AI
最新AI產(chǎn)品化與商業(yè)化案例速遞
146文章數(shù) 36關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

國家繼續(xù)實施調(diào)控 成品油價格適當調(diào)整

頭條要聞

國家繼續(xù)實施調(diào)控 成品油價格適當調(diào)整

體育要聞

官宣簽約“AI球員”,這支球隊被罵慘了...

娛樂要聞

張藝上浪姐惹爭議 黃景瑜前妻發(fā)文內(nèi)涵

財經(jīng)要聞

2026年,全國租房市場還有波降價潮

汽車要聞

不止是大 極狐首款MPV問道V9靜態(tài)體驗

態(tài)度原創(chuàng)

藝術(shù)
親子
本地
手機
公開課

藝術(shù)要聞

美麗風光看不盡

親子要聞

記錄下人生最勇敢的一天,我們就是一家三口啦

本地新聞

跟著歌聲游安徽,聽古村回響

手機要聞

谷歌Pixel 10等手機3月更新被曝卡死、斷連、無限重啟等問題

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版