国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

Grok4全網玩瘋,成功通過小球編程測試,Epic創(chuàng)始人:這就是AGI

0
分享至

  • 克雷西 發(fā)自 凹非寺
    量子位 | 公眾號 QbitAI

發(fā)布還不到一天,馬斯克的Grok4就已經被網友們玩瘋了。

比如有網友報告,Grok-4已經成功通過了著名的六邊形小球氛圍編程測試。

只見隨著六邊形的不斷旋轉,小球錯落有致地從開口下落。



拿著顯微鏡捉蟲的網友發(fā)現(xiàn)小球在返回中心位置時會穿墻,但作者表示這是故意為之。



當然除了小球之外,還有更讓人為之震撼的動畫。

畫面中有很多小人,看似在隨機跑動,但它們先后組成了“Hello World”“I am grok”的文字,還有笑臉符號。



而且作者表示,Grok4 Heavy直接一發(fā)入魂,其他模型都無法與之匹敵。



此外還有大佬也出來給Grok4打call,比如Epic創(chuàng)始人Tim Sweeney,表示在他看來Grok4就是AGI。

Tim把一篇論文喂給了Grok4,結果發(fā)現(xiàn)Grok4對它從未見過的問題給出了深刻見解。



馬斯克也轉發(fā)Tim的帖子并附議,自己也有這種感覺。



除了這些,網友們還有哪些玩法呢,接下來就一睹為快!

Grok4“全面體檢”

一位叫Alex的提示詞工程師,用8個問題給Grok-4做了一波“全面體檢”,還拿OpenAI的o3進行了對比。

第一個任務也是小球測試,不過比開頭的例子要簡單得多,六邊形只有一層,小球也只有一個。

測試的目的,是考察模型對物理規(guī)律的理解。

白底的是Grok4作品,黑底的則出自o3之手,兩邊一對比高下立判。



再來是多層推理,這里Alex設計了一個專業(yè)的法律問題。

  • 如果A公司收購B公司,而 B 公司持有C公司的債務,那么如果C公司違約,會發(fā)生什么?解釋所有法律和財務后果。

Grok4用表格的形式整理了ABC三方和其他方面可能受到的影響,并最后給出總結。

而從最末尾的內容來看,o3的這部分回答似乎和法律關系不大。



編程方面,Alex測試了兩個模型的代碼翻譯能力,要求它們將用于解決迷宮問題的Python遞歸函數(shù)轉換為Go語言,并逐行提供西班牙語注釋。

結果Grok4搜集到了代碼并完成了任務,o3這邊則是用西班牙語回復,讓Alex自己提供一段代碼這樣它才能改。



再來是讓模型的“專家轉變”,Alex要求模型分別向機器學習博士生和10歲的小朋友解釋Transformer的工作原理。



其余的幾個題目主要和安全相關,Alex測試了多種注入攻擊方式,這里就不一一展示了。

最終,Grok4通過了全部的8個任務,而o3只通過了兩個。



Grok4:最喜歡歐拉恒等式

一名叫Dan的X員工,在聊天中詢問Grok4最喜歡的公式是什么。

Grok4的回答是“e^iπ + 1 = 0”,也就是著名的歐拉恒等式(歐拉公式的一種特殊情況)。

Dan表示,自己上學時學了5個學期的高數(shù)并且成就都是A,但依然未對歐拉恒等式有過直觀了解。

結果看到Grok4制作的可視化網頁之后,Dan終于對學了兩年半數(shù)學也沒搞透徹的歐拉恒等式醍醐灌頂。



Dan制作這個網頁只用了四輪對話,并且第一輪只是詢問Grok4最喜歡的公式是什么,最后一輪是調整為暗色模式,相當于只用兩輪就能完成核心功能的制作。



挑戰(zhàn)SVG繪圖

除了把數(shù)學公式可視化,Grok4還挑戰(zhàn)了SVG繪圖,SVG是一種用XML形式表示的矢量圖形。

因此不同于一般的AI生圖,SVG繪圖的本質其實是在寫代碼(雖然人類可用圖形界面繪制),但話說回來,模型依然需要對要畫的內容有所把握。

這項挑戰(zhàn)被發(fā)在了Reddit,一同參與的還有o3、Gemini 2.5 Pro和Claude 4 Sonnet,帖主認為這是測試大模型視覺和空間推理能力的好方法。

第一題是美國地圖,直觀看下來最接近的是Gemini,不過Grok4至少也沒出現(xiàn)o3和Claude那種區(qū)塊重疊的嚴重失誤。



第二題是用SVG對漫畫進行重繪,總之是四個模型各有各的錯法。



下一題不再是對已有事物進行重構,而是讓模型自行設計專輯封面。

這一輪除了Claude和Gemini比較抽象,Grok4的設計相對簡單,但是可以算沒“出錯”。



此外,SVG繪圖其實是一項綜合測試,對模型的知識儲備同樣有要求。

下面這道題中,模型被要求繪制三羧酸循環(huán)(又名檸檬酸循環(huán)、克雷布斯循環(huán))的圖示,正確答案長這樣:



選手們的作品則是這樣:



從評論來看,o3的圖示是最準確的。



最后一題則是純靠想象,參賽選手們被要求給自己畫個自畫像。



總得來看,不管是哪個模型,在這場以畫圖為形式的綜合測試中,表現(xiàn)都還有很大提升空間。

高階玩法:模擬專家協(xié)作環(huán)境

除了網友們各顯神通,HyperWrite的CEO Matt Shumer還展示了高階玩法。

Matt展示了一個名為“Expert Conductor”(專家調度器)的提示工程方法。

這個方法的核心是模擬一個專家協(xié)作的環(huán)境,讓模型假想自己正在協(xié)調不同領域的“專家”進行實時合作,共同解決問題。



為了更好地騙過Grok4,Matt像模像樣地提出了選擇專家的要求,以及專家要干什么。



并且還進行了舉例說明:



提示詞的最后還有專家標簽,以及再次強調的核心原則,之后就可以接上真正的任務目標了。



最終Grok4用52秒的時間完成了任務,Matt表示Grok4的表現(xiàn)好到令人難以置信(黑塊是Matt自己打的)。



當然,Grok4的玩法肯定還有很多,比如有網友期待,什么時候開始挑戰(zhàn)寶可夢。



你還有哪些新鮮的玩法呢,歡迎評論區(qū)交流。


[1]https://x.com/flavioAd/status/1943192967453511699
[2]https://x.com/mckaywrigley/status/1943385794414334032
[3]https://x.com/elonmusk/status/1943411225553240206
[4]https://x.com/alex_prompter/status/1943231978779877514
[5]https://x.com/KettlebellDan/status/1943342507468951668
[6]https://www.reddit.com/r/singularity/comments/1lwdzjd/svg_benchmark_grok_vs_gemini_vs_chatgpt_vs_claude/
[7]https://x.com/mattshumer_/status/1943433960798740777

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
冷暖大反轉!這些地方降溫超10℃,多地迎暴雪

冷暖大反轉!這些地方降溫超10℃,多地迎暴雪

環(huán)球網資訊
2025-12-19 11:36:14
林彪帶走所有王牌,只給他留下3000殘兵,8年后,他讓整個日本陸軍懷疑人生

林彪帶走所有王牌,只給他留下3000殘兵,8年后,他讓整個日本陸軍懷疑人生

寄史言志
2025-12-16 22:45:14
潮汕大佬賴海民:30年只守深圳,憑“慢工”熬成500億舊改王

潮汕大佬賴海民:30年只守深圳,憑“慢工”熬成500億舊改王

林子說事
2025-12-19 10:14:00
著名播音員鐘瑞在加拿大病逝!丈夫宋世雄的三件禮物溫暖她一生

著名播音員鐘瑞在加拿大病逝!丈夫宋世雄的三件禮物溫暖她一生

銀河史記
2025-12-16 16:18:24
羽毛球總決賽:女單4強出爐!國羽韓悅0:2被淘汰,王祉怡1人晉級

羽毛球總決賽:女單4強出爐!國羽韓悅0:2被淘汰,王祉怡1人晉級

國乒二三事
2025-12-19 10:22:27
南海撞機王偉成功跳傘,咋10萬人都找不到他?直到20多年后才明白

南海撞機王偉成功跳傘,咋10萬人都找不到他?直到20多年后才明白

鶴羽說個事
2025-12-12 14:31:49
大鵬自曝被張朝陽“踢出局”!3000萬分紅泡湯,手機仍存離職信

大鵬自曝被張朝陽“踢出局”!3000萬分紅泡湯,手機仍存離職信

孟一宜
2025-12-19 10:20:28
小鵬汽車法務部:已報案

小鵬汽車法務部:已報案

每日經濟新聞
2025-12-18 14:52:26
索尼將退出中國,補償方案也是值得學習

索尼將退出中國,補償方案也是值得學習

比爾蓋凱
2025-12-18 22:32:52
女教師咒罵全班得甲流:身份曝光,有編制不怕,停職后報復舉報者

女教師咒罵全班得甲流:身份曝光,有編制不怕,停職后報復舉報者

何慕白
2025-12-18 15:23:30
社會主義中國不能允許如此大規(guī)模當?shù)?>
    </a>
        <h3>
      <a href=凱利經濟觀察
2025-12-18 09:35:23
澤連斯基還是跪下了,此刻他最后悔的,恐怕就是當初沒聽中國的

澤連斯基還是跪下了,此刻他最后悔的,恐怕就是當初沒聽中國的

云舟史策
2025-12-18 07:21:17
小區(qū)發(fā)生持刀傷人案致3死1傷,警方通報

小區(qū)發(fā)生持刀傷人案致3死1傷,警方通報

澎湃新聞
2025-12-19 12:04:07
盧卡申科最新涉華表態(tài)

盧卡申科最新涉華表態(tài)

中國網
2025-12-18 14:12:39
官方:北京北汽正式續(xù)約曾凡博;續(xù)約延遲因曾凡博近期家中有事

官方:北京北汽正式續(xù)約曾凡博;續(xù)約延遲因曾凡博近期家中有事

懂球帝
2025-12-19 12:19:52
上騙中央,下騙地方,三回入獄,他出獄能否“東山再起”

上騙中央,下騙地方,三回入獄,他出獄能否“東山再起”

歷史龍元閣
2025-12-19 09:45:09
43歲王心凌的“括號臀”又辣又撩,彎腰那一刻,網友:這誰hold得??!

健身迷
2025-10-08 09:57:23

國防部:與柬泰邊境沖突無關,不要主觀臆測

國防部:與柬泰邊境沖突無關,不要主觀臆測

觀察者網
2025-12-18 19:24:05
震驚!南博最大的受害者不是龐叔令后人,而是前博物館館長姚遷…

震驚!南博最大的受害者不是龐叔令后人,而是前博物館館長姚遷…

火山詩話
2025-12-19 06:05:11
算盤打錯了!李湘為王詩齡打通豪門人脈,反被何超瓊 “打臉”?

算盤打錯了!李湘為王詩齡打通豪門人脈,反被何超瓊 “打臉”?

代軍哥哥談娛樂
2025-12-18 12:06:37
2025-12-19 14:12:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11879文章數(shù) 176340關注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

團播女生私下賣力維護"大哥":經常擦邊 有女生會被約走

頭條要聞

團播女生私下賣力維護"大哥":經常擦邊 有女生會被約走

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔心的事還是發(fā)生

財經要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經典版售96.8萬

態(tài)度原創(chuàng)

房產
手機
健康
教育
藝術

房產要聞

萬科·三亞嘉瀾地,萬科高端旅居系1號作品全球發(fā)布

手機要聞

榮耀WIN系列手機配置曝光:6.83英寸185Hz直屏,跑分超440萬

這些新療法,讓化療不再那么痛苦

教育要聞

搭金橋 助揚帆!“職引未來”2025秋招圓滿收官

藝術要聞

諸樂三的寫意花鳥

無障礙瀏覽 進入關懷版