国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全球頂尖大模型集體翻車!ARC-AGI-3測試,人類滿分AI最高0.2%

0
分享至



就在今天,一條消息炸遍整個AI圈——全球唯一尚未飽和的智能體基準測試ARC-AGI-3正式出爐,直接把全球頂尖大模型“打回原形”。人類在測試中拿下100%滿分,而最頂尖的AI模型得分普遍低于1%,曾經(jīng)的“學(xué)霸”ClaudeOpus4.6更是僅得0.2%。這場測試像一面照妖鏡,戳破了“AGI已至”的泡沫,也讓所有人看清:當下的AI,離真正的通用智能,還差著一座珠穆朗瑪峰的距離。



一、慘烈成績單:人類滿分,AI連1分都拿不到

ARC-AGI-3的測試結(jié)果,用“慘烈”二字形容毫不為過。1200多名普通人類玩家參與測試,完成3900多場游戲,整體基線得分100%。大多數(shù)人不僅輕松通關(guān),還能玩出“速通”操作,甚至挑戰(zhàn)理論最優(yōu)步數(shù)——對人類而言,這些游戲更像是輕松的休閑項目,而非高難度測試。

反觀AI陣營,結(jié)果堪稱“集體潰敗”。在上一代ARC-AGI-2測試中拿下69.2%高分的ClaudeOpus4.6,到了ARC-AGI-3直接“現(xiàn)原形”,得分僅0.2%,是純大模型里的第一名。其余包括GPT系列、Gemini系列在內(nèi)的所有前沿大模型,得分全部低于1%,有的甚至頻繁崩潰,分數(shù)趨近于0。



更反直覺的是,測試排行榜前三名全是非大模型方案:基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的StochasticGoose、基于規(guī)則的狀態(tài)圖探索、無需訓(xùn)練的幀圖搜索。其中StochasticGoose以12.58%的得分成為預(yù)覽期冠軍,比GPT-5.x系列高出12個百分點以上。但即便如此,它在一款調(diào)水位游戲中,開局仍花了近350步做無效點擊,而人類只需要兩三下就能摸清規(guī)則。



這組數(shù)據(jù)背后,是AI與人類智能的本質(zhì)差距——人類是“會學(xué)習(xí)的智能”,而當下的AI,只是“會匹配模式的工具”。



二、ARC-AGI-3到底有多“變態(tài)”?從靜態(tài)題到互動游戲的維度升級

ARC-AGI系列一直是AI圈的“魔鬼測試”,前兩代ARC-AGI-1、ARC-AGI-2就以“抽象推理”難倒無數(shù)模型。而ARC-AGI-3,直接把難度拉到了全新維度:從“靜態(tài)題”變成了“無提示互動游戲”。





測試包含150多個手工設(shè)計的交互式游戲環(huán)境,1000多個關(guān)卡。每個游戲都有專屬邏輯、隱藏規(guī)則和通關(guān)條件,但沒有任何說明文檔、沒有自然語言提示、沒有任何操作指引——AI不知道“左邊按鈕會開門”,也不知道“收集三個紅色方塊能過關(guān)”,只能像盲人摸象一樣,通過觀察畫面、執(zhí)行動作、反饋結(jié)果,一步步拼湊對世界的認知。





ARCPrize基金會設(shè)計這套測試,核心是測AI的四大核心能力:

探索:能否主動與環(huán)境互動,獲取關(guān)鍵信息?

建模:能否把零散觀察,凝聚成可預(yù)測未來的世界模型?

目標獲?。簾o人下達指令,能否自主判斷“該以什么為目標”?

規(guī)劃與執(zhí)行:能否規(guī)劃行動路徑,并根據(jù)反饋隨時修正?

這四項能力,恰恰是人類與生俱來的本能,卻是當下AI的致命短板。



更“殘忍”的是它的評分標準——不看“是否通關(guān)”,只看“效率”,且直接對標人類效率。評分公式為:(人類步數(shù)/AI步數(shù))2。比如人類10步解決的問題,AI用了100步,得分僅1%;用了200步,得分0.25%;用了500步,得分僅0.04%。這種規(guī)則直接堵死了AI的“蠻力窮舉”之路——多試一步,分數(shù)就斷崖式下跌。Opus4.6的0.2%,換算下來意味著它解決人類10步的問題,需要走約224步,完全是在迷宮里原地轉(zhuǎn)圈。

三、AI為何慘???缺的不是算力,是“元認知”

ARC團隊在測試中發(fā)現(xiàn)一個關(guān)鍵現(xiàn)象:AI的主要失敗模式,是“以為自己在玩另一個游戲”。就像一個人被蒙眼扔進廚房,摸到圓形物體就斷定是籃球,開始瘋狂“投籃”——AI在全新環(huán)境中,看到初始視覺信息,會迅速“腦補”一個熟悉的游戲框架,然后沿著錯誤假設(shè)死磕到底,越走越偏,卻從不停下來反思:“我的假設(shè)是不是錯了?”

這背后,是當下AI缺乏元認知能力——它不知道自己不知道,更不會主動修正錯誤認知。參數(shù)量越大、預(yù)訓(xùn)練知識越豐富的大模型,反而越容易陷入這個陷阱。它們被海量數(shù)據(jù)“喂”出了強烈的“先入為主”,遇到陌生場景,第一反應(yīng)是匹配已知模式,而非從零探索;而輕量級CNN、圖搜索系統(tǒng),因為沒有“知識包袱”,反而能老老實實地從環(huán)境反饋中學(xué)習(xí),成績反而更好。



反觀人類,面對全新游戲時,會本能地完成“探索-建模-驗證-修正”的循環(huán):

先觀察,幾分鐘內(nèi)搭建粗糙但可用的“世界模型”;

再驗證,根據(jù)結(jié)果強化或修正模型;

最后快速迭代,錯了就改,改了再試。

人類的學(xué)習(xí)是在線、交互、假設(shè)驅(qū)動的,而AI的學(xué)習(xí)是離線、數(shù)據(jù)驅(qū)動、模式匹配的。ARC-AGI-3沒有“題海戰(zhàn)術(shù)”可依賴,考的正是“如何學(xué)習(xí)”——這恰恰是目前AI最弱的一環(huán)。

四、AGI之爭:黃仁勛說“已實現(xiàn)”,測試說“還差99%”

就在ARC-AGI-3發(fā)布前,英偉達CEO黃仁勛在采訪中直言“我們已經(jīng)實現(xiàn)了AGI”,引發(fā)行業(yè)熱議。但ARC-AGI-3的結(jié)果,無疑給這一觀點潑了一盆冷水——當下的AI,或許連1%的AGI都沒實現(xiàn)。





關(guān)于AGI的定義,學(xué)界和產(chǎn)業(yè)界一直存在分歧。黃仁勛的定義偏向?qū)嵱弥髁x:“AI能否啟動、運營一家價值超10億美元的公司”,大幅降低了AGI門檻。而學(xué)界主流觀點,如Bengio團隊提出的定義,將AGI視為“能匹配或超越受過良好教育成年人的認知廣度和熟練度”,涵蓋推理、記憶、感知等10項核心能力,總分100分才算達標。

ARC-AGI-3的測試邏輯,更貼合學(xué)界對AGI的核心要求——通用學(xué)習(xí)能力。它不考AI記住了多少知識,而考AI能否在無提示、無經(jīng)驗的全新環(huán)境中,自主探索、建模、規(guī)劃并高效解決問題。從這個角度看,當下所有大模型都遠未達標,它們只是在特定任務(wù)上表現(xiàn)出色的“窄AI”,而非真正的“通用智能”。

目前,ARC-AGI-3挑戰(zhàn)賽獎金池高達85萬美元,其中70萬美元留給“滿分通關(guān)者”,且要求參賽者完全開源代碼、在無網(wǎng)環(huán)境下評估——杜絕了調(diào)用云端大模型、聯(lián)網(wǎng)查資料的“作弊”可能。



這場測試撕開了AI行業(yè)的“遮羞布”,也讓所有人清醒:AGI不是靠堆算力、擴參數(shù)就能實現(xiàn)的,它需要突破“元認知”“自主學(xué)習(xí)”等底層認知瓶頸。人類與AI的差距,從來不是算力,而是“會思考、會學(xué)習(xí)、會反思”的本能。

ARC-AGI-3的出現(xiàn),不是否定AI的進步,而是為AGI研究指明了更清晰的方向——未來的AI,不能再做“只會刷題的應(yīng)試高手”,而要成為“會學(xué)習(xí)、會探索、會修正”的真正智能體。至于這座天塹何時能被跨越,我們只能靜待時間給出答案。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
如果當初中國不改革開放,今天仍是全球最落后的國家之一嗎?

如果當初中國不改革開放,今天仍是全球最落后的國家之一嗎?

掠影后有感
2026-04-10 09:58:45
導(dǎo)彈生產(chǎn)技術(shù)轉(zhuǎn)讓給中國!只因三次雪中送炭,美俄看了也“眼紅“

導(dǎo)彈生產(chǎn)技術(shù)轉(zhuǎn)讓給中國!只因三次雪中送炭,美俄看了也“眼紅“

芳芳歷史燴
2026-04-10 20:53:57
美國這次打伊朗,到底誰贏了誰輸了?明眼人都看得真真兒的!

美國這次打伊朗,到底誰贏了誰輸了?明眼人都看得真真兒的!

紀史行者
2026-04-08 09:13:05
李亞鵬心疼張雪拍賣獎杯:已找朋友拍下送回去

李亞鵬心疼張雪拍賣獎杯:已找朋友拍下送回去

快科技
2026-04-10 11:26:09
陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

一窺究竟
2026-04-10 04:24:44
蘇聯(lián)給予我黨的經(jīng)費幫助到底是多少?

蘇聯(lián)給予我黨的經(jīng)費幫助到底是多少?

夜半挑燈看吳鉤
2026-04-10 19:04:25
閉門會談后,鄭麗文提出臺島想要國際空間!

閉門會談后,鄭麗文提出臺島想要國際空間!

阿龍聊軍事
2026-04-11 11:33:50
閉門會談一小時,鄭麗文發(fā)出邀請,大陸講出一句話,定調(diào)兩岸統(tǒng)一

閉門會談一小時,鄭麗文發(fā)出邀請,大陸講出一句話,定調(diào)兩岸統(tǒng)一

頭條爆料007
2026-04-11 08:53:36
澤連斯基:如果美國真的考慮退出北約,英國、烏克蘭必須加入歐盟

澤連斯基:如果美國真的考慮退出北約,英國、烏克蘭必須加入歐盟

二大爺觀世界
2026-04-11 08:56:36
張雪峰離世18天,公司變化大!10點上班7點到,武亮做出三大承諾

張雪峰離世18天,公司變化大!10點上班7點到,武亮做出三大承諾

叨嘮
2026-04-10 19:29:26
湖人贏球&火箭定格西部第五,最后一輪湖人仍有望升至第三

湖人贏球&火箭定格西部第五,最后一輪湖人仍有望升至第三

懂球帝
2026-04-11 13:24:21
WTT男單四強戰(zhàn):國乒溫瑞博0-3慘敗壓力山大

WTT男單四強戰(zhàn):國乒溫瑞博0-3慘敗壓力山大

小皷拍客在北漂
2026-04-11 11:05:02
鄭麗文的婚姻:女主外男主內(nèi),不生育孩子,事業(yè)理想置于家庭之上

鄭麗文的婚姻:女主外男主內(nèi),不生育孩子,事業(yè)理想置于家庭之上

芳芳歷史燴
2026-04-08 16:28:15
是時候攤牌了,中方明確信號:要打,戰(zhàn)火必須燒進美國本土!

是時候攤牌了,中方明確信號:要打,戰(zhàn)火必須燒進美國本土!

史說方休
2026-04-11 01:23:59
民進黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
美軍宣稱摸清中國導(dǎo)彈庫存!俄專家:中國解放軍可以半小時定勝負

美軍宣稱摸清中國導(dǎo)彈庫存!俄專家:中國解放軍可以半小時定勝負

共工之錨
2026-04-07 00:20:47
鄭麗文:只要對兩岸和平有幫助的事,都愿意去做

鄭麗文:只要對兩岸和平有幫助的事,都愿意去做

澎湃新聞
2026-04-11 08:03:37
4月11日,多家上市公司發(fā)布重大利好利空消息

4月11日,多家上市公司發(fā)布重大利好利空消息

A股數(shù)據(jù)表
2026-04-11 06:20:03
蔣介石孫子召開發(fā)布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

蔣介石孫子召開發(fā)布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

老謝談史
2026-03-18 18:33:35
鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍營一姐發(fā)話了

鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍營一姐發(fā)話了

諦聽骨語本尊
2026-04-10 16:28:28
2026-04-11 14:24:49
魏家東 incentive-icons
魏家東
一個人的營銷商學(xué)院!
2624文章數(shù) 12233關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

貴州400余名村民被困在"危山"之下:雨季來了只能等死

頭條要聞

貴州400余名村民被困在"危山"之下:雨季來了只能等死

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

浪姐7淘汰 該走的沒走,不該走的走了

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

親子
手機
游戲
時尚
軍事航空

親子要聞

碳板跑鞋又貴,又有害健康,但為什么小孩哥都這么喜歡?

手機要聞

橙色版OPPO Find X9 Ultra手機渲染圖曝光

第五次忍界大戰(zhàn)!火影手游遭炮轟 五大主播聯(lián)名抗議

“這件衣服”火了100年!這樣穿復(fù)古又時髦

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進入關(guān)懷版