国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5在ARC-AGI-3上翻車(chē):1%得分背后

0
分享至


2025年,當(dāng)GPT-5和Claude在ARC-AGI-2上還能拿到24%的時(shí)候,沒(méi)人想到下一代基準(zhǔn)會(huì)把所有大模型打回個(gè)位數(shù)。3月25日,ARC-AGI-3正式上線,預(yù)覽結(jié)果讓行業(yè)集體沉默:前沿大語(yǔ)言模型得分低于1%,而一個(gè)用CNN(卷積神經(jīng)網(wǎng)絡(luò),一種經(jīng)典圖像識(shí)別架構(gòu))加簡(jiǎn)單圖搜索的方案,拿下了12.58%。

人類(lèi)基準(zhǔn)是100%。

這不是難度升級(jí),是游戲規(guī)則重寫(xiě)。ARC-AGI-3徹底拋棄了靜態(tài)網(wǎng)格謎題,把AI扔進(jìn)沒(méi)有說(shuō)明書(shū)、沒(méi)有勝利條件、甚至沒(méi)有"你在玩什么"提示的交互環(huán)境里。64×64的彩色格子,16種顏色,agent能做的就是移動(dòng)、點(diǎn)擊、重置——然后自己琢磨該干嘛。

Fran?ois Chollet(基準(zhǔn)設(shè)計(jì)者)等了7年,終于把"通用人工智能"的試金石從紙筆考試改成了荒野求生。

從"解謎"到"生存":ARC的三次變形

2019年Chollet發(fā)布初代ARC時(shí),設(shè)計(jì)哲學(xué)很直白:人類(lèi)能秒懂的抽象推理,AI為什么不行?ARC-AGI-1給出輸入輸出網(wǎng)格對(duì),系統(tǒng)要推斷變換規(guī)則。比如輸入是三個(gè)豎排的點(diǎn),輸出變成橫排,規(guī)律是"旋轉(zhuǎn)90度"。

這套玩法在2025年被吃透了。前沿模型靠暴力工程堆到90%+,Chollet承認(rèn)"ARC-1已飽和"。2024年底的ARC-AGI-2加入組合推理——符號(hào)解釋、上下文規(guī)則應(yīng)用、多規(guī)則交互——直接把最高分壓到24%。

ARC-AGI-3的跳躍更 radical(激進(jìn)):150多個(gè)手工設(shè)計(jì)的環(huán)境,1000多個(gè)關(guān)卡,每個(gè)游戲8-10關(guān)漸進(jìn)解鎖新機(jī)制。預(yù)覽中的三個(gè)樣本足以說(shuō)明跨度:ls20要求邊導(dǎo)航邊變換符號(hào),ft09要在重疊網(wǎng)格間匹配模式,vc33則需要調(diào)節(jié)"體積"高度來(lái)命中目標(biāo)。

評(píng)分標(biāo)準(zhǔn)也換了。不再是簡(jiǎn)單的通過(guò)/失敗,而是動(dòng)作效率——AI用了多少步,對(duì)比人類(lèi)基線。100%意味著全程和人類(lèi)一樣精練,不多走一步冤枉路。

大模型在這里暴露的短板,和它們?cè)贏RC-AGI-2里栽的跟頭完全不同。

為什么GPT-5會(huì)低于1%?

預(yù)覽期的12份提交里,8份在私有游戲上測(cè)試。前三名全是非LLM方案。這個(gè)分布本身就很說(shuō)明問(wèn)題。

榜首StochasticGoose來(lái)自Tufa Labs的Dries Smit,架構(gòu)簡(jiǎn)單到近乎樸素:CNN做動(dòng)作預(yù)測(cè),稀疏獎(jiǎng)勵(lì)(只有通關(guān)信號(hào)),幀轉(zhuǎn)儲(chǔ)到內(nèi)存做離線訓(xùn)練,哈希表去重。沒(méi)有預(yù)訓(xùn)練知識(shí),沒(méi)有世界模型,沒(méi)有鏈?zhǔn)酵评怼褪强磮D、試錯(cuò)、記住什么管用。

對(duì)比之下,GPT-5和Claude的架構(gòu)假設(shè)了"有文本可讀"。它們的訓(xùn)練數(shù)據(jù)里,任務(wù)通常附帶明確指令。ARC-AGI-3的關(guān)卡設(shè)計(jì)刻意消除了這個(gè)假設(shè):agent看到的只有像素變化,聽(tīng)到的只有沉默。

Chollet在發(fā)布說(shuō)明里點(diǎn)明了四個(gè)被測(cè)試的新能力:探索(主動(dòng)收集信息)、建模(構(gòu)建可泛化的世界模型)、目標(biāo)設(shè)定(無(wú)指令下識(shí)別目的)、規(guī)劃與執(zhí)行(帶修正的戰(zhàn)略行動(dòng))。這四項(xiàng)恰好都是當(dāng)前LLM的盲區(qū)——它們擅長(zhǎng)在已知規(guī)則內(nèi)優(yōu)化,而非在未知環(huán)境中發(fā)現(xiàn)規(guī)則。

低于1%不是偶然失誤,是架構(gòu)層面的錯(cuò)配。就像把象棋冠軍扔進(jìn)沒(méi)有棋盤(pán)的密室逃脫,他讀過(guò)的所有棋譜都幫不上忙。


12%的CNN意味著什么

StochasticGoose的成績(jī)值得拆解。CNN在2012年ImageNet奪冠后,已經(jīng)被Transformer壓制多年,在AI敘事里早就是"上一代技術(shù)"。但ARC-AGI-3的預(yù)覽結(jié)果說(shuō)明:在特定約束下,經(jīng)典架構(gòu)可能比巨型語(yǔ)言模型更懂"從零開(kāi)始"。

關(guān)鍵在"稀疏獎(jiǎng)勵(lì)"和"狀態(tài)去重"。大模型的強(qiáng)化學(xué)習(xí)通常依賴(lài)密集反饋(每一步都有評(píng)分),而ARC-AGI-3只在通關(guān)時(shí)給信號(hào)。StochasticGoose用哈希表記錄"來(lái)過(guò)這里"避免循環(huán),用幀存儲(chǔ)實(shí)現(xiàn)離線學(xué)習(xí)——這些技巧不新,但組合起來(lái)恰好契合環(huán)境特性。

12.58%距離人類(lèi)還很遠(yuǎn),但它證明了一件事:規(guī)模不是唯一解。當(dāng)前SOTA(state-of-the-art,某領(lǐng)域最優(yōu))大模型在這個(gè)基準(zhǔn)上可能?chē)?yán)重 overfit(過(guò)擬合)了"有說(shuō)明書(shū)的世界"。

比賽獎(jiǎng)金池超過(guò)200萬(wàn)美元,分三個(gè)賽道。官方Kaggle leaderboard目前還是空白——正式提交窗口剛打開(kāi)。

200萬(wàn)美元賭什么

ARC-AGI-3的獎(jiǎng)金結(jié)構(gòu)本身就在引導(dǎo)研究方向。三個(gè)賽道分別對(duì)應(yīng)不同資源約束:公開(kāi)賽道允許任意計(jì)算,受限賽道有成本上限,人類(lèi)賽道要求實(shí)時(shí)交互。這種設(shè)計(jì)明顯在防范"用算力 brute-force(暴力破解)"的老路。

Chollet的長(zhǎng)期主張是:AGI需要"高效學(xué)習(xí)新技能的能力",而非"預(yù)裝大量技能"。ARC-AGI-1的失敗在于被預(yù)訓(xùn)練知識(shí)覆蓋,ARC-AGI-2開(kāi)始強(qiáng)調(diào)組合泛化,ARC-AGI-3直接把"先驗(yàn)知識(shí)"清零——每個(gè)游戲都是全新物理規(guī)則,agent必須現(xiàn)場(chǎng)重建因果模型。

這和當(dāng)前 industry's bet(行業(yè)押注)存在張力。OpenAI、Anthropic、Google的路徑依賴(lài)預(yù)訓(xùn)練 scaling law(規(guī)模定律):更多數(shù)據(jù)、更多參數(shù)、更多計(jì)算。ARC-AGI-3的預(yù)覽結(jié)果暗示,這條路的邊際效益可能在特定類(lèi)型的智能上趨近于零。

但也不必急于宣布LLM死刑。預(yù)覽樣本有限,12份提交里的8份私有測(cè)試可能隱藏了未公開(kāi)的LLM方案。更重要的是,ARC-AGI-3的設(shè)計(jì)者本人就是LLM的批評(píng)者——Chollet多次公開(kāi)質(zhì)疑"預(yù)測(cè)下一個(gè)token"能否通向AGI?;鶞?zhǔn)的偏見(jiàn)性需要納入考量。

游戲化基準(zhǔn)的連鎖反應(yīng)

ARC-AGI-3的環(huán)境設(shè)計(jì)明顯借鑒了游戲AI測(cè)試傳統(tǒng)。DeepMind的Atari成果、OpenAI的Dota 2 agent、DeepMind的StarCraft II,都證明了強(qiáng)化學(xué)習(xí)在封閉游戲環(huán)境中的潛力。但那些項(xiàng)目有明確目標(biāo)(贏比賽)、已知規(guī)則(游戲說(shuō)明書(shū))、可定義獎(jiǎng)勵(lì)(得分/勝負(fù))。

ARC-AGI-3的 radical(激進(jìn))之處在于連這些都要agent自己發(fā)現(xiàn)。這更接近發(fā)展心理學(xué)里的"嬰兒探索"——沒(méi)有任務(wù)清單,通過(guò)互動(dòng)建構(gòu)對(duì)世界的理解。

150多個(gè)手工環(huán)境的設(shè)計(jì)成本不菲。每個(gè)游戲8-10關(guān)的漸進(jìn)難度,確保agent不能靠單一策略通關(guān)。評(píng)分效率而非二元成功,懲罰"亂拳打死老師傅"的暴力嘗試。這些設(shè)計(jì)選擇把測(cè)試焦點(diǎn)從"知識(shí)儲(chǔ)備"轉(zhuǎn)向"學(xué)習(xí)速度"。

對(duì)AI安全研究,這種基準(zhǔn)也有特殊價(jià)值。對(duì)齊問(wèn)題的一個(gè)核心擔(dān)憂是:AI在訓(xùn)練環(huán)境表現(xiàn)良好,但在分布外場(chǎng)景失效。ARC-AGI-3每個(gè)游戲都是分布外,強(qiáng)制測(cè)試泛化能力的下限。

開(kāi)發(fā)者預(yù)覽的隱藏信息


30天預(yù)覽期的12份提交,樣本量小但結(jié)構(gòu)清晰。前三名非LLM,中間層混合方案,LLM墊底。這種分布和ARC-AGI-2形成鏡像——當(dāng)時(shí)LLM還能靠提示工程和思維鏈拿到可觀分?jǐn)?shù)。

一個(gè)可能的解釋?zhuān)篈RC-AGI-3的"無(wú)文本"設(shè)計(jì)直接廢除了LLM的核心優(yōu)勢(shì)。當(dāng)環(huán)境不輸出自然語(yǔ)言描述時(shí),預(yù)訓(xùn)練的語(yǔ)言知識(shí)成為負(fù)擔(dān)而非資產(chǎn)。agent需要處理的是像素級(jí)因果推斷,這和token級(jí)預(yù)測(cè)是完全不同的計(jì)算圖。

StochasticGoose的哈希去重策略也值得注意。大模型的上下文窗口有限,而ARC-AGI-3的關(guān)卡可能需要數(shù)十步探索。顯式存儲(chǔ)"已訪問(wèn)狀態(tài)"避免了重復(fù)探索,這種工程技巧在資源受限時(shí)可能比端到端學(xué)習(xí)更可靠。

預(yù)覽結(jié)果還暴露了一個(gè)評(píng)估盲區(qū):當(dāng)前沒(méi)有標(biāo)準(zhǔn)化的"人類(lèi)效率"測(cè)量。100%基準(zhǔn)如何建立?多少人類(lèi)測(cè)試者?什么背景?這些細(xì)節(jié)會(huì)影響分?jǐn)?shù)的可比性。Chollet團(tuán)隊(duì)需要盡快公開(kāi)方法論,否則12.58%的解讀會(huì)有歧義。

行業(yè)敘事的分叉點(diǎn)

GPT-5低于1%的消息,和同期發(fā)布的其他"大模型遇挫"新聞形成共振。但需要區(qū)分兩種失?。阂环N是能力邊界被觸及,另一種是能力錯(cuò)配被暴露。ARC-AGI-3更像是后者。

沒(méi)有證據(jù)表明LLM在可預(yù)見(jiàn)的未來(lái)無(wú)法適應(yīng)這類(lèi)環(huán)境。多模態(tài)融合、世界模型預(yù)訓(xùn)練、神經(jīng)符號(hào)混合架構(gòu)——技術(shù)選項(xiàng)還很多。但預(yù)覽結(jié)果確實(shí)提出了一個(gè)尖銳問(wèn)題:當(dāng)前 industry's trillion-dollar bet(行業(yè)數(shù)萬(wàn)億美元押注)是否過(guò)度集中于單一架構(gòu)?

CNN的12%是一個(gè)錨點(diǎn)。它說(shuō)明在特定約束下,"小"方案可以擊敗"大"方案。這和2012年AlexNet顛覆傳統(tǒng)計(jì)算機(jī)視覺(jué)的敘事形成有趣對(duì)照——當(dāng)年是神經(jīng)網(wǎng)絡(luò)擊敗手工特征,今天是手工工程擊敗巨型神經(jīng)網(wǎng)絡(luò)。

歷史不會(huì)簡(jiǎn)單重復(fù),但技術(shù)范式的搖擺值得警惕。如果ARC-AGI-3的后續(xù)結(jié)果持續(xù)顯示非LLM優(yōu)勢(shì),可能會(huì)觸發(fā)研究資源的重新分配。至少,它給了"反scaling law"陣營(yíng)一個(gè)有力的數(shù)據(jù)點(diǎn)。

下一步看什么

Kaggle leaderboard的首次更新將是關(guān)鍵指標(biāo)。如果LLM方案迅速追上或超越CNN基準(zhǔn),說(shuō)明預(yù)覽期的低分是暫時(shí)調(diào)試問(wèn)題。如果差距持續(xù),可能引發(fā)更深層的架構(gòu)反思。

另一個(gè)觀察點(diǎn)是獲獎(jiǎng)方案的公開(kāi)細(xì)節(jié)。200萬(wàn)美元獎(jiǎng)金會(huì)吸引頂級(jí)團(tuán)隊(duì),他們的技術(shù)報(bào)告可能比分?jǐn)?shù)本身更有信息量。特別是"受限賽道"的勝出者——在計(jì)算成本約束下獲勝,直接回應(yīng)了AGI可行性的核心爭(zhēng)議。

Chollet本人承諾持續(xù)更新環(huán)境庫(kù),防止過(guò)擬合。這種動(dòng)態(tài)基準(zhǔn)的設(shè)計(jì),借鑒了網(wǎng)絡(luò)安全領(lǐng)域的CTF(奪旗賽)模式:攻擊者(AI研究者)和防御者(基準(zhǔn)設(shè)計(jì)者)持續(xù)博弈。長(zhǎng)期有效性取決于更新頻率和社區(qū)參與度。

最后,人類(lèi)基準(zhǔn)的測(cè)量細(xì)節(jié)需要關(guān)注。100%是理論上限,但實(shí)際人類(lèi)表現(xiàn)分布如何?新手和專(zhuān)家的效率差距多大?這些基線數(shù)據(jù)會(huì)顯著影響AI進(jìn)度的解讀。

3月25日,ARC-AGI-3上線當(dāng)天,一個(gè)用CNN和哈希表的方案暫時(shí)領(lǐng)先。這個(gè)畫(huà)面有點(diǎn)像2016年AlphaGo擊敗李世石前的序章——當(dāng)時(shí)也沒(méi)人相信神經(jīng)網(wǎng)絡(luò)能在圍棋上超越人類(lèi)。但區(qū)別在于,這次領(lǐng)先的不是更龐大的模型,而是更精瘦的架構(gòu)。

如果三個(gè)月后的leaderboard上,GPT-6或Claude 4依然低于10%,我們可能需要重新問(wèn)一個(gè)問(wèn)題:通往AGI的路,是不是在某個(gè)岔口走錯(cuò)了方向?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
突發(fā)!伊朗革命衛(wèi)隊(duì)“波斯灣之虎”被斬首,霍爾木茲海峽要變天?

突發(fā)!伊朗革命衛(wèi)隊(duì)“波斯灣之虎”被斬首,霍爾木茲海峽要變天?

老馬拉車(chē)莫少裝
2026-03-26 17:53:46
上映4天,僅3個(gè)觀眾,總票房104元,2026年最慘電影誕生

上映4天,僅3個(gè)觀眾,總票房104元,2026年最慘電影誕生

錯(cuò)過(guò)美好
2026-03-24 23:41:07
伊朗首都德黑蘭遭空襲 多地傳出爆炸聲

伊朗首都德黑蘭遭空襲 多地傳出爆炸聲

財(cái)聯(lián)社
2026-03-26 19:44:11
太意外!米蘭寶格麗之夜合影:劉亦菲兩度被擠,下意識(shí)動(dòng)作引熱議

太意外!米蘭寶格麗之夜合影:劉亦菲兩度被擠,下意識(shí)動(dòng)作引熱議

時(shí)間巡查
2026-03-25 04:28:00
為何越來(lái)越多有錢(qián)人,寧愿買(mǎi)兩套房和父母住對(duì)門(mén),也要搬離別墅?

為何越來(lái)越多有錢(qián)人,寧愿買(mǎi)兩套房和父母住對(duì)門(mén),也要搬離別墅?

裝修秀
2026-03-26 14:05:47
重返廣東!李春江有了新工作,亮相籃球場(chǎng),崗位曝光,杜鋒期待

重返廣東!李春江有了新工作,亮相籃球場(chǎng),崗位曝光,杜鋒期待

萌蘭聊個(gè)球
2026-03-26 13:02:53
宋承憲劉亦菲:分手7年才看懂,他們從來(lái)不是輸給距離

宋承憲劉亦菲:分手7年才看懂,他們從來(lái)不是輸給距離

陳意小可愛(ài)
2026-03-27 03:26:49
李幼平同志逝世

李幼平同志逝世

澎湃新聞
2026-03-26 18:05:03
高三男孩喀納斯湖失蹤,母親守岸7天后直言放棄,意外竟在此時(shí)發(fā)生

高三男孩喀納斯湖失蹤,母親守岸7天后直言放棄,意外竟在此時(shí)發(fā)生

古怪奇談錄
2025-10-16 10:53:42
上將被查、院士被除名,這背后釋放的信號(hào),比你想的更不簡(jiǎn)單

上將被查、院士被除名,這背后釋放的信號(hào),比你想的更不簡(jiǎn)單

李昕言溫度空間
2026-03-19 22:56:18
生育大局已定:如不出意外,2026年起中國(guó)人口將迎來(lái)3大變化

生育大局已定:如不出意外,2026年起中國(guó)人口將迎來(lái)3大變化

蜉蝣說(shuō)
2026-03-17 15:58:31
故事:山東一男子救下5只黃鼠狼后,身上頻發(fā)怪事,至今都難以解釋

故事:山東一男子救下5只黃鼠狼后,身上頻發(fā)怪事,至今都難以解釋

清茶淺談
2024-12-04 14:29:09
深夜突發(fā)!一則消息,竟改變了中國(guó)能建、金開(kāi)新能、華電的邏輯

深夜突發(fā)!一則消息,竟改變了中國(guó)能建、金開(kāi)新能、華電的邏輯

風(fēng)風(fēng)順
2026-03-26 06:44:30
3月末,單身多年終于等來(lái)良緣,脫單在望的三個(gè)星座

3月末,單身多年終于等來(lái)良緣,脫單在望的三個(gè)星座

小晴星座說(shuō)
2026-03-26 21:57:20
在醫(yī)院你遭遇過(guò)最羞恥的事是什么?網(wǎng)友:一個(gè)比一個(gè)炸裂啊

在醫(yī)院你遭遇過(guò)最羞恥的事是什么?網(wǎng)友:一個(gè)比一個(gè)炸裂啊

解讀熱點(diǎn)事件
2026-02-04 00:05:07
日本心虛了?嘴硬拒不道歉闖館事件,國(guó)內(nèi)悄悄打壓反華言論

日本心虛了?嘴硬拒不道歉闖館事件,國(guó)內(nèi)悄悄打壓反華言論

小小科普員
2026-03-27 00:55:06
聯(lián)大認(rèn)定“奴隸制”為最嚴(yán)重反人類(lèi)罪:123票贊成,美國(guó)、以色列、阿根廷共3票反對(duì)

聯(lián)大認(rèn)定“奴隸制”為最嚴(yán)重反人類(lèi)罪:123票贊成,美國(guó)、以色列、阿根廷共3票反對(duì)

揚(yáng)子晚報(bào)
2026-03-26 07:27:54
二百多名軍官被槍斃、撤職、處分,長(zhǎng)津湖戰(zhàn)役中失職的志愿軍88師

二百多名軍官被槍斃、撤職、處分,長(zhǎng)津湖戰(zhàn)役中失職的志愿軍88師

云霄紀(jì)史觀
2026-03-25 12:16:14
離婚后,小姨子見(jiàn)我辛苦常來(lái)打理家務(wù),前妻:要不,你們?cè)谝黄鸢?>
    </a>
        <h3>
      <a href=秀秀情感課堂
2026-03-24 14:20:04
成都“牽手門(mén)”事件女主現(xiàn)今狀況曝光,太慘了......

成都“牽手門(mén)”事件女主現(xiàn)今狀況曝光,太慘了......

許三歲
2026-03-17 07:34:05
2026-03-27 04:23:00
閃存獵手
閃存獵手
全網(wǎng)蹲好價(jià)的野生捕手,算力與羊毛都不可辜負(fù)。
218文章數(shù) 0關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣(mài)大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱(chēng)姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車(chē)要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

家居
房產(chǎn)
教育
數(shù)碼
公開(kāi)課

家居要聞

傍海而居 靜觀蝴蝶海

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補(bǔ)償方案出爐!

教育要聞

精準(zhǔn)研判,提質(zhì)增效丨我校召開(kāi)2026屆畢業(yè)生就業(yè)工作研判會(huì)

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專(zhuān)業(yè)顯卡驅(qū)動(dòng),支持B70 / B65顯卡

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版