国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

全球頂尖大模型一夜慘遭血洗!最難測(cè)試人類拿滿分,AI第一名得0.2%分

0
分享至


新智元報(bào)道

編輯:Aeneas 好困

【新智元導(dǎo)讀】今夜,整個(gè)AI圈震動(dòng)了。全球最難AGI測(cè)試ARC-AGI-3一上線,就把全球頂尖AI打到集體失聲,人類滿分通關(guān),最強(qiáng)模型Opus 4.6得分僅0.2%,還不到1%。AI這是一夜被打回「原始人」了。

就在今天,這條消息把整個(gè)AI圈給震了。

眾望所歸的,全球唯一尚未飽和的智能體基準(zhǔn)測(cè)試ARC-AGI-3出爐了,直接血洗了全球頂尖大模型。

在這個(gè)測(cè)試中,人類得分100%,AI的得分普遍低于1%。


這個(gè)差距,比珠穆朗瑪峰還高。

最慘烈的是,在上一代測(cè)試中還能拿下69.2%高分的「模范生」Opus 4.6,在ARC-AGI-3面前直接現(xiàn)了原形,得分僅為0.2%。


這位曾經(jīng)橫掃各大榜單的「學(xué)霸」,連蒙帶猜都拿不到1分。

這面鏡子,照出了當(dāng)前AI能力中最深的裂縫。


在最近的采訪中,老黃認(rèn)為我們已經(jīng)實(shí)現(xiàn)了AGI。但是ARC-AGI-3顯示,或許如今的AI連1%的AGI都沒有實(shí)現(xiàn)。


ARC-AGI-3,到底有多變態(tài)

它的前身ARC-AGI-1和ARC-AGI-2,已經(jīng)是AI圈出了名的「魔鬼測(cè)試」。


那些測(cè)試?yán)?,AI需要觀察幾個(gè)示例,然后推斷出網(wǎng)格變換的規(guī)律,完成新任務(wù)。

聽起來(lái)不難?但就是這些看起來(lái)像幼兒園連線題的東西,曾經(jīng)讓無(wú)數(shù)大模型鎩羽而歸。

而到了ARC-AGI-3,難度直接換了個(gè)維度:從「靜態(tài)題」變成了「互動(dòng)游戲」。


150多個(gè)手工設(shè)計(jì)的交互式游戲環(huán)境,包含1000多個(gè)關(guān)卡。

每個(gè)游戲都有自己的內(nèi)在邏輯、隱藏規(guī)則和通關(guān)條件。但沒有任何說(shuō)明文檔,沒有自然語(yǔ)言提示,沒有人告訴你「左邊的按鈕會(huì)開門」或者「收集三個(gè)紅色方塊就能過(guò)關(guān)」。


AI智能體被丟進(jìn)去,只能看到當(dāng)前畫面,選擇一個(gè)動(dòng)作,觀察結(jié)果,再?zèng)Q定下一步。

它只能像盲人摸象一樣,一步一步試探,然后在大腦里拼湊出一個(gè)「這個(gè)世界可能是這樣運(yùn)作的」的模型。


這正是ARC Prize基金會(huì)想測(cè)的四件事。

  • 探索:能不能通過(guò)主動(dòng)與環(huán)境互動(dòng)來(lái)獲取關(guān)鍵信息?

  • 建模:能不能把零散的觀察凝聚成一個(gè)可以預(yù)測(cè)未來(lái)狀態(tài)的世界模型?

  • 目標(biāo)獲?。簺]有人下達(dá)指令,能不能自己判斷出「我應(yīng)該以什么為目標(biāo)」?

  • 規(guī)劃與執(zhí)行:能不能規(guī)劃出行動(dòng)路徑,并根據(jù)環(huán)境反饋隨時(shí)修正?


「幾何級(jí)數(shù)」的羞辱:0.2%是怎么來(lái)的?

評(píng)分標(biāo)準(zhǔn)同樣殘忍。

ARC-AGI-3的評(píng)分不看「有沒有通關(guān)」,而是看「效率」,而且是和人類比效率。

這在AI基準(zhǔn)測(cè)試的歷史上,還是頭一回。


受Chollet那篇《論智能的衡量》的啟發(fā),ARC Prize團(tuán)隊(duì)把「智能」操作化為一個(gè)轉(zhuǎn)換率:

你從環(huán)境中獲取信息的效率有多高?你把這些信息轉(zhuǎn)化為正確行動(dòng)的速度有多快?

假設(shè)人類解決這個(gè)游戲需要10步,而AI用了100步,那AI的得分是多少?

不是10%,而是1%。

公式是:(人類步數(shù)/AI步數(shù))2。人類10步,AI 100步,那就是(10/100)2=0.01=1%。

如果AI用了200步,這一數(shù)字就是0.25%;500步就是0.04%。


這一下,把AI所有的「蠻力」路都堵死了。

以前AI可以靠窮舉,把所有可能的操作試一遍,總能試出正確路徑。

但在這種評(píng)分體系下,你多試一步,分?jǐn)?shù)就斷崖式下跌。

現(xiàn)在,你就知道了Opus 4.6得分只有0.2%的意味——

假設(shè)人類解決某個(gè)游戲用了10步,0.2%=0.002,開平方≈0.0447,10÷0.0447≈224步。

這已經(jīng)不是「笨」了,這是在迷宮里原地轉(zhuǎn)圈到天荒地老。

當(dāng)這種差距被如此強(qiáng)烈地展示出來(lái),很多以為AGI近在眼前的人,都震驚了。


350步 vs 兩三下:成績(jī)單全景

在正式發(fā)布之前,ARC-AGI-3跑了一輪為期30天的開發(fā)者預(yù)覽。

三款公開游戲從地圖導(dǎo)航到圖案匹配再到水位調(diào)節(jié),題目類型各異,但有一個(gè)共同點(diǎn):人類覺得簡(jiǎn)單,AI覺得要命。



1200多名人類玩家參與了測(cè)試,完成了3900多場(chǎng)游戲。

大部分人不僅輕松過(guò)關(guān),還玩得很開心,有些執(zhí)著的玩家甚至一路「速通」挑戰(zhàn)到了理論最優(yōu)步數(shù)。

人類基線:100%。AI這邊,前沿大模型得分全部低于1%。


預(yù)覽期的冠軍叫StochasticGoose,來(lái)自Tufa Labs。

它不是大模型,而是一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作學(xué)習(xí)型智能體,用簡(jiǎn)單的強(qiáng)化學(xué)習(xí)來(lái)預(yù)測(cè)哪些操作會(huì)導(dǎo)致畫面變化。最終得分12.58%,已經(jīng)是所有參賽系統(tǒng)里最高的了。

但即便是這個(gè)冠軍,在一款調(diào)水位的游戲里,開局也花了將近350步做無(wú)效的點(diǎn)擊操作。

350步。人類大概只需要點(diǎn)兩三下就能搞明白的事。

更反直覺的是,排行榜的前三名全是非LLM方案——CNN、基于規(guī)則的狀態(tài)圖探索、無(wú)需訓(xùn)練的幀圖搜索。

一個(gè)基于CNN的方案,比GPT-5.x系列高出12個(gè)百分點(diǎn)以上。而那些接入了前沿大模型的智能體,成績(jī)反而經(jīng)常墊底,有的甚至頻繁崩潰。


AI把自己坑了

ARC團(tuán)隊(duì)還發(fā)現(xiàn)一個(gè)特別有意思的現(xiàn)象。

AI的主要失敗模式之一是:「以為自己在玩另一個(gè)游戲」。

比如,你被蒙上眼睛,扔進(jìn)一個(gè)房間。

你摸到了一個(gè)圓形的物體,于是你斷定:「這是個(gè)籃球場(chǎng),我應(yīng)該投籃。」但事實(shí)上,你拿的可能是一個(gè)西瓜,而房間其實(shí)是一個(gè)廚房。

AI犯的就是這樣的錯(cuò)。

它在一個(gè)全新的環(huán)境里,看到一些初始的視覺信息,然后迅速給自己「腦補(bǔ)」了一個(gè)游戲框架,接著就沿著這個(gè)錯(cuò)誤的假設(shè)瘋狂執(zhí)行計(jì)劃,越走越偏,越偏越遠(yuǎn)。


它不會(huì)停下來(lái)想:等等,我怎么好像一直沒得到正反饋?是不是我的假設(shè)錯(cuò)了?

因?yàn)楫?dāng)前的AI,缺乏一種「元認(rèn)知」能力。也就是說(shuō),它不知道自己不知道。

這解釋了為什么大模型反而墊底。

參數(shù)量越大、預(yù)訓(xùn)練知識(shí)越豐富的模型,越容易把陌生環(huán)境「腦補(bǔ)」成自己見過(guò)的東西,然后死磕到底。

而那些輕量級(jí)的CNN智能體和圖搜索系統(tǒng),反倒因?yàn)闆]有「先入為主」的包袱,能老老實(shí)實(shí)地從環(huán)境反饋中學(xué)習(xí)。


為什么人類能輕松通關(guān)?

ARC團(tuán)隊(duì)在文檔里寫了一句話:「人類不會(huì)蠻力行事。他們會(huì)構(gòu)建思維模型,檢驗(yàn)想法,并迅速改進(jìn)。」

首先第一步,人類會(huì)構(gòu)建思維模型。

一個(gè)人類玩家面對(duì)一個(gè)全新游戲時(shí),第一件事不是「瞎點(diǎn)」,而是觀察。幾分鐘之內(nèi),一個(gè)粗糙但可用的「世界模型」就建成了。

第二步,人類會(huì)檢驗(yàn)想法。

如果結(jié)果和預(yù)期一致,模型得到強(qiáng)化。如果不一致,模型立即修正。

第三步,人類會(huì)迅速改進(jìn)。錯(cuò)了就改,改了再試。

這種「探索-建模-驗(yàn)證-修正」的循環(huán),在人類身上幾乎是本能的。

而AI呢?只是一個(gè)「記住了很多答案」的應(yīng)試高手,它的「學(xué)習(xí)」和人類的「學(xué)習(xí)」根本不是一個(gè)物種。

人類的學(xué)習(xí)是在線、交互、假設(shè)驅(qū)動(dòng)的;AI的學(xué)習(xí)是離線、數(shù)據(jù)驅(qū)動(dòng)、模式匹配的。

ARC-AGI-3沒有任何「題海戰(zhàn)術(shù)」可以覆蓋,它考的是「怎么學(xué)習(xí)」。這恰恰是目前AI最弱的一環(huán)。


目前,這場(chǎng)挑戰(zhàn)賽的獎(jiǎng)金池高達(dá)85萬(wàn)美元,其中70萬(wàn)美元是給「滿分通關(guān)者」的終極大獎(jiǎng)。

參賽者必須完全開源代碼,并且在無(wú)網(wǎng)環(huán)境下接受評(píng)估。這意味著你不能偷偷調(diào)用云端大模型,不能偷偷聯(lián)網(wǎng)查資料。


和人類這個(gè)珠穆朗瑪峰的差距,有AI能克服嗎?

讓我們靜待結(jié)果。

參考資料:

https://x.com/Hesamation/status/2036861818321146306

https://arcprize.org/arc-agi/3

https://docs.arcprize.org/

https://x.com/fchollet/status/2036881543973790004

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
《瘋狂動(dòng)物城2》定檔4月3日,創(chuàng)下中國(guó)進(jìn)口片票房新紀(jì)錄!

《瘋狂動(dòng)物城2》定檔4月3日,創(chuàng)下中國(guó)進(jìn)口片票房新紀(jì)錄!

小椰的奶奶
2026-04-02 14:23:48
重返月球!NASA“阿爾忒彌斯二號(hào)”成功發(fā)射,舉世歡呼

重返月球!NASA“阿爾忒彌斯二號(hào)”成功發(fā)射,舉世歡呼

大洛杉磯LA
2026-04-02 07:11:53
剛打完比賽,面對(duì)記者不合時(shí)宜的提問,王曼昱堅(jiān)決懟了回去!

剛打完比賽,面對(duì)記者不合時(shí)宜的提問,王曼昱堅(jiān)決懟了回去!

光輝記
2026-04-03 10:36:01
向太也沒想到,自己那指望不上的兒子向佐,如今竟把老臉都丟光了

向太也沒想到,自己那指望不上的兒子向佐,如今竟把老臉都丟光了

顧史
2026-03-31 20:58:46
記者親測(cè)賈國(guó)龍新品牌“天邊砂鍋燜面”:人均50元,部分門店由西貝換牌

記者親測(cè)賈國(guó)龍新品牌“天邊砂鍋燜面”:人均50元,部分門店由西貝換牌

第一財(cái)經(jīng)資訊
2026-04-02 17:32:19
FZ 三月榜單TOP19| 瀨戶:壞了!這是沖著我來(lái)的啊!

FZ 三月榜單TOP19| 瀨戶:壞了!這是沖著我來(lái)的??!

孤獨(dú)的獨(dú)角獸影視
2026-04-02 09:15:11
洪秀柱撰文支持鄭麗文訪問大陸,和平統(tǒng)一本就是兩岸顛撲不破的共識(shí)

洪秀柱撰文支持鄭麗文訪問大陸,和平統(tǒng)一本就是兩岸顛撲不破的共識(shí)

極目新聞
2026-04-02 18:04:08
落入第三檔!國(guó)足亞洲杯上上簽分組:沙特+敘利亞+新加坡,沖八強(qiáng)

落入第三檔!國(guó)足亞洲杯上上簽分組:沙特+敘利亞+新加坡,沖八強(qiáng)

男足的小球童
2026-04-02 17:02:55
金建希后半輩子有著落了,尹錫悅利用看守所漏洞,狂攬12億韓元

金建希后半輩子有著落了,尹錫悅利用看守所漏洞,狂攬12億韓元

王姐懶人家常菜
2026-04-02 19:41:18
戰(zhàn)后伊朗會(huì)怎樣?分析人士:更加憤怒和桀驁不馴,影響力或擴(kuò)展到中東以外

戰(zhàn)后伊朗會(huì)怎樣?分析人士:更加憤怒和桀驁不馴,影響力或擴(kuò)展到中東以外

紅星新聞
2026-04-02 18:29:11
隨著日本6-0,朝鮮8-0,U20女足亞洲杯最新積分榜出爐:中國(guó)領(lǐng)跑

隨著日本6-0,朝鮮8-0,U20女足亞洲杯最新積分榜出爐:中國(guó)領(lǐng)跑

側(cè)身凌空斬
2026-04-02 23:01:25
大漲超930點(diǎn)!伊朗:襲擊美國(guó)科技巨頭!

大漲超930點(diǎn)!伊朗:襲擊美國(guó)科技巨頭!

數(shù)據(jù)寶
2026-04-03 10:55:09
跟低學(xué)歷妹子談戀愛是啥體驗(yàn)?網(wǎng)友:低社會(huì)化人群被女版黃毛拿下

跟低學(xué)歷妹子談戀愛是啥體驗(yàn)?網(wǎng)友:低社會(huì)化人群被女版黃毛拿下

帶你感受人間冷暖
2026-03-28 16:48:21
伊朗再襲巴林的亞馬遜云計(jì)算中心

伊朗再襲巴林的亞馬遜云計(jì)算中心

界面新聞
2026-04-02 23:23:29
為啥大廠全在死磕AI編程?試完千問新模型后我悟了。。

為啥大廠全在死磕AI編程?試完千問新模型后我悟了。。

差評(píng)XPIN
2026-04-03 00:08:08
鄭麗文行程安排費(fèi)心思,首訪南京卻落地上海,臨行前透露原因

鄭麗文行程安排費(fèi)心思,首訪南京卻落地上海,臨行前透露原因

TVB的四小花
2026-04-02 09:30:55
直播間標(biāo)題被指“內(nèi)涵”張雪機(jī)車,凱越機(jī)車緊急回應(yīng):從未否定雪總曾是凱越的靈魂,其離開前持股近36%

直播間標(biāo)題被指“內(nèi)涵”張雪機(jī)車,凱越機(jī)車緊急回應(yīng):從未否定雪總曾是凱越的靈魂,其離開前持股近36%

每日經(jīng)濟(jì)新聞
2026-04-02 18:54:18
酒精含量從50變?yōu)?21,包頭這杯“司法特調(diào)”究竟有多上頭?

酒精含量從50變?yōu)?21,包頭這杯“司法特調(diào)”究竟有多上頭?

有戲
2026-04-01 21:55:35
銀行取錢新規(guī)來(lái)了,2026執(zhí)行,個(gè)人存取5萬(wàn)以上現(xiàn)金,不再說(shuō)用途

銀行取錢新規(guī)來(lái)了,2026執(zhí)行,個(gè)人存取5萬(wàn)以上現(xiàn)金,不再說(shuō)用途

混沌錄
2026-04-02 20:11:05
不打伊朗了?特朗普通告全世界,戰(zhàn)爭(zhēng)費(fèi)由22國(guó)承擔(dān),朝鮮發(fā)出警告

不打伊朗了?特朗普通告全世界,戰(zhàn)爭(zhēng)費(fèi)由22國(guó)承擔(dān),朝鮮發(fā)出警告

聊歷史的阿稼
2026-04-01 09:54:30
2026-04-03 12:08:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14878文章數(shù) 66740關(guān)注度
往期回顧 全部

科技要聞

SpaceX沖刺2萬(wàn)億美元估值,馬斯克野心太大

頭條要聞

牛彈琴:美國(guó)干了一件令人發(fā)指的事 全世界都無(wú)法接受

頭條要聞

牛彈琴:美國(guó)干了一件令人發(fā)指的事 全世界都無(wú)法接受

體育要聞

沖擊世界杯失敗,80歲老帥一氣之下病倒了

娛樂要聞

《浪姐7》最新人氣TOP 曾沛慈斷層第一

財(cái)經(jīng)要聞

專家稱長(zhǎng)期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠(yuǎn)房親戚長(zhǎng)得很像嗎?

態(tài)度原創(chuàng)

手機(jī)
房產(chǎn)
家居
教育
藝術(shù)

手機(jī)要聞

存儲(chǔ)飆漲300%!手機(jī)漲價(jià)后沒人買:高通聯(lián)發(fā)科合計(jì)減產(chǎn)約2000萬(wàn)顆處理器

房產(chǎn)要聞

理科生的浪漫,都藏在細(xì)節(jié)里!中交·藍(lán)色港灣這場(chǎng)交付太硬核!

家居要聞

溫馨多元 愛的具象化

教育要聞

教育部:義務(wù)教育學(xué)校嚴(yán)禁設(shè)立重點(diǎn)班、實(shí)驗(yàn)班、快慢班。(新華社)

藝術(shù)要聞

吳昌碩『扇畫』老辣古拙

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版