国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

MIT突破:AI游戲商店實(shí)現(xiàn)人工智能通用能力全面評(píng)測(cè)

0
分享至


這項(xiàng)由麻省理工學(xué)院聯(lián)合哈佛大學(xué)、劍橋大學(xué)等多所頂尖學(xué)府共同完成的研究發(fā)表于2026年,論文編號(hào)為arXiv:2602.17594v1。該研究團(tuán)隊(duì)首次提出了一個(gè)革命性的觀點(diǎn):要真正評(píng)估人工智能是否達(dá)到人類(lèi)水平的通用智能,最好的方法就是讓AI去玩人類(lèi)創(chuàng)造的各種游戲。

人工智能發(fā)展到今天,已經(jīng)在許多單一任務(wù)上表現(xiàn)卓越,比如下棋、翻譯或者回答問(wèn)題。但問(wèn)題在于,現(xiàn)有的AI評(píng)估方式就像只考察學(xué)生會(huì)不會(huì)做數(shù)學(xué)題,卻不知道他能否應(yīng)對(duì)真實(shí)生活中的復(fù)雜挑戰(zhàn)。真正的人類(lèi)智能是什么樣的呢?我們能夠快速學(xué)習(xí)新事物,在復(fù)雜環(huán)境中靈活應(yīng)變,面對(duì)從未見(jiàn)過(guò)的問(wèn)題時(shí)也能找到解決方案。這種能力如何評(píng)估?

研究團(tuán)隊(duì)想到了一個(gè)絕妙的答案:游戲。人類(lèi)創(chuàng)造的游戲本質(zhì)上就是現(xiàn)實(shí)世界的縮影和訓(xùn)練場(chǎng)。從古老的圍棋到現(xiàn)代的電子游戲,每一個(gè)游戲都在考驗(yàn)著人類(lèi)的某些核心能力:戰(zhàn)略規(guī)劃、空間推理、記憶力、學(xué)習(xí)能力、社交技巧等等。如果一個(gè)AI系統(tǒng)能夠像人類(lèi)一樣快速學(xué)會(huì)并玩好各種人類(lèi)游戲,那它很可能已經(jīng)具備了類(lèi)人的通用智能。

基于這個(gè)洞察,研究團(tuán)隊(duì)開(kāi)發(fā)了"AI游戲商店"——一個(gè)全新的人工智能評(píng)估平臺(tái)。這個(gè)平臺(tái)的核心理念是利用大語(yǔ)言模型自動(dòng)生成基于真實(shí)人類(lèi)游戲的標(biāo)準(zhǔn)化測(cè)試環(huán)境,然后讓AI和人類(lèi)在相同條件下進(jìn)行游戲,比較他們的表現(xiàn)。

一、從人類(lèi)游戲宇宙中尋找智能的真相

人類(lèi)為什么要玩游戲?這個(gè)看似簡(jiǎn)單的問(wèn)題背后隱藏著關(guān)于智能本質(zhì)的深刻真相。從生物學(xué)角度來(lái)看,玩耍行為并不僅僅屬于人類(lèi)。從海豚到烏鴉,從猴子到大象,幾乎所有高智能動(dòng)物都會(huì)玩耍。科學(xué)研究表明,玩耍實(shí)際上是大自然進(jìn)化出的一種學(xué)習(xí)機(jī)制——通過(guò)在安全的虛擬環(huán)境中模擬各種情況,動(dòng)物能夠磨練自己的認(rèn)知能力和生存技能。

對(duì)人類(lèi)而言,游戲的意義更為深遠(yuǎn)。每一個(gè)游戲都是現(xiàn)實(shí)世界某個(gè)方面的抽象化和濃縮版。策略游戲鍛煉我們的長(zhǎng)期規(guī)劃能力,動(dòng)作游戲提升我們的反應(yīng)速度和空間協(xié)調(diào)能力,解謎游戲訓(xùn)練我們的邏輯推理,社交游戲則考驗(yàn)我們理解他人意圖的能力??梢哉f(shuō),游戲是人類(lèi)為自己創(chuàng)造的認(rèn)知能力訓(xùn)練營(yíng)。

研究團(tuán)隊(duì)將人類(lèi)能夠創(chuàng)造和享受的所有游戲定義為"人類(lèi)游戲宇宙"。這個(gè)概念的精妙之處在于,它既包含了已經(jīng)存在的游戲,也涵蓋了人類(lèi)未來(lái)可能創(chuàng)造的所有游戲。這個(gè)宇宙是無(wú)限且開(kāi)放的,但同時(shí)又有明確的邊界——只有人類(lèi)能夠設(shè)計(jì)出來(lái)并且其他人類(lèi)能夠理解和享受的游戲才屬于這個(gè)宇宙。

想象一下這樣的場(chǎng)景:如果有一個(gè)外星智慧生命體想要評(píng)估自己是否真正理解了人類(lèi)智能,最好的方法就是看它能否學(xué)會(huì)人類(lèi)的各種游戲。從簡(jiǎn)單的井字棋到復(fù)雜的策略游戲,從需要精確操作的動(dòng)作游戲到考驗(yàn)創(chuàng)造力的開(kāi)放世界游戲,每一類(lèi)游戲都在測(cè)試智能體的不同能力。如果這個(gè)外星生命體能夠在所有這些游戲中都達(dá)到人類(lèi)的平均水平,我們就有理由相信它確實(shí)掌握了類(lèi)人的通用智能。

研究團(tuán)隊(duì)認(rèn)為,這種基于游戲的評(píng)估方式比傳統(tǒng)方法有著無(wú)可比擬的優(yōu)勢(shì)。傳統(tǒng)的AI基準(zhǔn)測(cè)試往往只關(guān)注單一能力,比如語(yǔ)言理解或數(shù)學(xué)計(jì)算。但游戲天然地要求多種能力的綜合運(yùn)用。以《憤怒的小鳥(niǎo)》為例,玩這個(gè)游戲需要物理推理能力(理解彈道和碰撞),空間認(rèn)知能力(判斷角度和距離),以及規(guī)劃能力(選擇最優(yōu)的攻擊順序)。一個(gè)在這個(gè)游戲中表現(xiàn)出色的AI系統(tǒng),必然在多個(gè)認(rèn)知維度上都達(dá)到了相當(dāng)?shù)乃健?/p>

更重要的是,游戲評(píng)估具有文化相關(guān)性和生態(tài)有效性。這些游戲不是研究人員在實(shí)驗(yàn)室里人工設(shè)計(jì)的抽象任務(wù),而是真實(shí)的人類(lèi)在日常生活中選擇玩的活動(dòng)。如果一個(gè)AI系統(tǒng)能夠理解和掌握這些游戲,它就證明了自己能夠理解和適應(yīng)人類(lèi)的思維方式和行為模式,這對(duì)于構(gòu)建真正有用的人工智能系統(tǒng)至關(guān)重要。

二、AI游戲商店:將理想變?yōu)楝F(xiàn)實(shí)的技術(shù)平臺(tái)

理論上,要評(píng)估AI是否達(dá)到人類(lèi)水平的通用智能,最理想的方法是讓它學(xué)會(huì)人類(lèi)游戲宇宙中的所有游戲。但在實(shí)踐中,這面臨著巨大的技術(shù)挑戰(zhàn)。全世界有數(shù)百萬(wàn)個(gè)不同的游戲,它們運(yùn)行在不同的平臺(tái)上,使用不同的控制方式,遵循不同的規(guī)則。要為每個(gè)游戲都單獨(dú)開(kāi)發(fā)AI接口,幾乎是不可能完成的任務(wù)。

研究團(tuán)隊(duì)巧妙地解決了這個(gè)問(wèn)題。他們開(kāi)發(fā)的AI游戲商店采用了一個(gè)四階段的自動(dòng)化流程,就像一個(gè)高效的游戲制造工廠。

第一個(gè)階段是游戲篩選和過(guò)濾。研究團(tuán)隊(duì)首先從蘋(píng)果應(yīng)用商店和Steam等主流游戲平臺(tái)收集了7500個(gè)熱門(mén)游戲的信息。接著,他們讓大語(yǔ)言模型對(duì)每個(gè)游戲進(jìn)行評(píng)分,篩選標(biāo)準(zhǔn)包括游戲是否能在幾分鐘內(nèi)學(xué)會(huì)、是否能用網(wǎng)頁(yè)技術(shù)實(shí)現(xiàn)、是否有明確的評(píng)分標(biāo)準(zhǔn)等。這個(gè)過(guò)程就像是為即將到來(lái)的考試挑選最具代表性的題目。

第二個(gè)階段是游戲生成和優(yōu)化。通過(guò)詳細(xì)的游戲描述,大語(yǔ)言模型能夠生成一個(gè)功能完整的網(wǎng)頁(yè)版游戲。但機(jī)器生成的游戲往往存在各種問(wèn)題——可能太簡(jiǎn)單、太困難,或者有技術(shù)漏洞。因此,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)人機(jī)結(jié)合的優(yōu)化流程。首先,系統(tǒng)會(huì)自動(dòng)測(cè)試生成的游戲,發(fā)現(xiàn)并修復(fù)明顯的技術(shù)問(wèn)題。然后,真人玩家會(huì)試玩這個(gè)游戲,給出改進(jìn)建議,系統(tǒng)再根據(jù)這些反饋進(jìn)一步完善游戲。這個(gè)過(guò)程通常需要4到5輪迭代,每輪約2分鐘,直到游戲達(dá)到既有趣又具有挑戰(zhàn)性的標(biāo)準(zhǔn)。

第三個(gè)階段是認(rèn)知能力標(biāo)注。為了理解每個(gè)游戲考驗(yàn)的是哪些認(rèn)知能力,研究團(tuán)隊(duì)開(kāi)發(fā)了一套包含七個(gè)維度的評(píng)估體系:視覺(jué)處理、空間時(shí)間協(xié)調(diào)、記憶、規(guī)劃、世界模型學(xué)習(xí)、物理推理和社會(huì)推理。每個(gè)游戲都會(huì)在這七個(gè)維度上獲得0到5的評(píng)分,0表示不需要該能力,5表示需要極高水平的該能力。這樣的標(biāo)注讓研究人員能夠精確診斷AI系統(tǒng)在哪些認(rèn)知能力上存在不足。

第四個(gè)階段是模型評(píng)估。在這個(gè)階段,人類(lèi)玩家和AI模型在相同的條件下玩游戲,系統(tǒng)記錄他們的表現(xiàn)并進(jìn)行對(duì)比分析。由于目前的AI模型響應(yīng)速度較慢,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)特殊的游戲界面:游戲每秒會(huì)暫停一次,詢(xún)問(wèn)AI下一秒要執(zhí)行什么操作,然后繼續(xù)運(yùn)行。雖然這不是最理想的測(cè)試方式,但在技術(shù)條件允許的范圍內(nèi),這已經(jīng)是相當(dāng)公平的比較了。

整個(gè)流程的精妙之處在于它的可擴(kuò)展性。一旦基礎(chǔ)設(shè)施搭建完成,生成和測(cè)試新游戲變得非常高效。研究團(tuán)隊(duì)平均只需30分鐘就能完成一個(gè)新游戲從概念到可測(cè)試版本的全過(guò)程。更重要的是,人類(lèi)玩家還可以在現(xiàn)有游戲基礎(chǔ)上創(chuàng)造變體版本,這意味著從少數(shù)幾個(gè)游戲概念就能衍生出大量測(cè)試場(chǎng)景,有效避免了AI系統(tǒng)通過(guò)過(guò)度訓(xùn)練特定游戲而獲得虛假高分的問(wèn)題。

通過(guò)這種方式,AI游戲商店成功地將"人類(lèi)游戲宇宙"這個(gè)抽象概念轉(zhuǎn)化為了具體可操作的測(cè)試平臺(tái)。它不僅解決了技術(shù)實(shí)現(xiàn)的難題,還保持了原始概念的核心價(jià)值——通過(guò)人類(lèi)真正喜歡的游戲來(lái)評(píng)估AI的通用智能水平。

三、當(dāng)前AI的真實(shí)表現(xiàn):令人意外的巨大差距

當(dāng)研究團(tuán)隊(duì)讓七個(gè)最先進(jìn)的大語(yǔ)言模型——包括GPT-5.2、Claude-Opus-4.5、Gemini-2.5-Pro等業(yè)界頂尖模型——與106名普通人類(lèi)玩家在100個(gè)游戲上一決高下時(shí),結(jié)果令人震驚。

最優(yōu)秀的AI模型GPT-5.2的平均得分僅為人類(lèi)中位數(shù)的8.5%。這意味著什么?如果我們把人類(lèi)玩家的平均表現(xiàn)定為100分,那么目前最強(qiáng)的AI只能得到不到9分。這個(gè)差距之大,超出了大多數(shù)人的預(yù)期。要知道,這些AI模型在其他許多任務(wù)上已經(jīng)達(dá)到甚至超越了人類(lèi)水平,比如語(yǔ)言理解、數(shù)學(xué)計(jì)算、代碼編寫(xiě)等。但在游戲這個(gè)看似"簡(jiǎn)單"的領(lǐng)域,它們卻表現(xiàn)得如此不堪。

更令人印象深刻的是時(shí)間效率的對(duì)比。人類(lèi)玩家在每個(gè)游戲上只花費(fèi)2分鐘,就能達(dá)到相當(dāng)不錯(cuò)的成績(jī)。而AI模型為了做出每一個(gè)決策,平均需要思考幾分鐘時(shí)間,完成同樣的游戲任務(wù)需要15到20倍的時(shí)間。這就好比一個(gè)學(xué)生做數(shù)學(xué)題,人類(lèi)學(xué)生可能幾分鐘就能解出答案,而AI卻需要花費(fèi)幾個(gè)小時(shí),最終得分還遠(yuǎn)低于人類(lèi)。

深入分析這些數(shù)據(jù),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:AI模型的表現(xiàn)呈現(xiàn)明顯的雙峰分布。大約三分之二的游戲中,AI能夠取得一些進(jìn)展,雖然通常只能達(dá)到人類(lèi)表現(xiàn)的10%到30%,但至少證明它們理解了游戲的基本玩法。然而,在剩下三分之一的游戲中,AI幾乎完全失敗,得分不到人類(lèi)平均水平的1%,這表明它們甚至沒(méi)有理解游戲的基本規(guī)則或目標(biāo)。

什么樣的游戲讓AI感到困難?通過(guò)分析游戲的認(rèn)知能力需求,研究團(tuán)隊(duì)找到了答案。AI最大的弱點(diǎn)集中在三個(gè)關(guān)鍵領(lǐng)域:記憶、規(guī)劃和世界模型學(xué)習(xí)。

記憶能力的缺陷表現(xiàn)得尤為明顯。許多游戲需要玩家記住之前看到的信息,比如在迷宮游戲中記住已經(jīng)探索過(guò)的區(qū)域,或者在卡牌游戲中記住已經(jīng)翻開(kāi)的牌面。盡管AI有一個(gè)"記事本"功能可以記錄重要信息,但它們似乎不知道該記錄什么,或者如何有效利用這些記錄。這就像一個(gè)健忘癥患者試圖玩記憶游戲,即使有紙筆幫助,也很難取得好成績(jī)。

規(guī)劃能力的不足同樣嚴(yán)重。許多游戲需要玩家思考幾步之后的情況,比如在推箱子游戲中,你需要預(yù)見(jiàn)到當(dāng)前的移動(dòng)會(huì)對(duì)后續(xù)步驟產(chǎn)生什么影響。AI模型往往只能看到眼前一步,缺乏長(zhǎng)期戰(zhàn)略思維。它們就像只會(huì)走一步棋的新手棋手,面對(duì)需要深度規(guī)劃的情況時(shí)束手無(wú)策。

世界模型學(xué)習(xí)的困難可能是最根本的問(wèn)題。許多游戲并不會(huì)直接告訴你所有規(guī)則,而是需要你通過(guò)嘗試來(lái)發(fā)現(xiàn)游戲的運(yùn)行機(jī)制。比如,你需要通過(guò)實(shí)驗(yàn)來(lái)發(fā)現(xiàn)某個(gè)按鈕會(huì)產(chǎn)生什么效果,或者某種道具有什么用途。AI模型在這方面表現(xiàn)得像是缺乏好奇心的學(xué)習(xí)者,它們不會(huì)主動(dòng)探索和試驗(yàn),也不善于從失敗中總結(jié)規(guī)律。

更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)游戲的認(rèn)知復(fù)雜度與AI表現(xiàn)之間存在強(qiáng)烈的負(fù)相關(guān)關(guān)系。那些只需要一種認(rèn)知能力的簡(jiǎn)單游戲,AI還能勉強(qiáng)應(yīng)付。但隨著游戲需要的認(rèn)知能力種類(lèi)增加,AI的表現(xiàn)急劇下降。這說(shuō)明當(dāng)前的AI系統(tǒng)雖然在單一任務(wù)上可能表現(xiàn)不錯(cuò),但在需要多種能力協(xié)調(diào)配合的復(fù)雜任務(wù)中,它們的不足就暴露無(wú)遺。

這些發(fā)現(xiàn)具有深遠(yuǎn)的意義。它們提醒我們,盡管AI在某些專(zhuān)業(yè)化任務(wù)上已經(jīng)超越人類(lèi),但在需要類(lèi)人通用智能的綜合性任務(wù)中,我們?nèi)匀挥泻荛L(zhǎng)的路要走。這也解釋了為什么AI在現(xiàn)實(shí)世界的應(yīng)用中仍然經(jīng)常出現(xiàn)意想不到的失敗——現(xiàn)實(shí)世界正是一個(gè)需要多種認(rèn)知能力無(wú)縫配合的復(fù)雜環(huán)境。

四、深度透視:AI認(rèn)知能力的精細(xì)診斷

研究團(tuán)隊(duì)創(chuàng)造性地將每個(gè)游戲在七個(gè)認(rèn)知維度上進(jìn)行了詳細(xì)標(biāo)注,這就像為每個(gè)游戲制作了一張"認(rèn)知能力體檢表"。通過(guò)這種方式,他們不僅能夠看到AI在哪些游戲上表現(xiàn)不佳,更重要的是能夠精確診斷出AI在哪些基礎(chǔ)認(rèn)知能力上存在缺陷。

視覺(jué)處理能力是最基礎(chǔ)的認(rèn)知技能,涉及識(shí)別、匹配和分類(lèi)視覺(jué)對(duì)象的能力。在這個(gè)維度上,AI的表現(xiàn)相對(duì)較好,這并不意外,因?yàn)橛?jì)算機(jī)視覺(jué)技術(shù)已經(jīng)相當(dāng)成熟。但即便如此,當(dāng)游戲場(chǎng)景變得復(fù)雜,存在遮擋或需要在混亂背景中找到特定物體時(shí),AI的表現(xiàn)仍然明顯低于人類(lèi)。

空間時(shí)間協(xié)調(diào)能力考驗(yàn)的是精確定時(shí)和空間導(dǎo)航的能力,比如在《憤怒的小鳥(niǎo)》中需要精確控制發(fā)射角度和力度。有趣的是,研究團(tuán)隊(duì)特別測(cè)試了那些不需要快速反應(yīng)的游戲(比如回合制策略游戲),發(fā)現(xiàn)AI的表現(xiàn)并沒(méi)有顯著改善。這說(shuō)明問(wèn)題不在于AI的"反應(yīng)速度",而在于它們對(duì)空間關(guān)系和時(shí)間序列的理解能力。

記憶能力的缺陷最為突出。人類(lèi)具有強(qiáng)大的工作記憶和情境記憶,能夠在游戲過(guò)程中自然地記住重要信息并在需要時(shí)調(diào)用。AI雖然有技術(shù)上的"記憶存儲(chǔ)"功能,但它們不知道什么信息值得記住,也不善于組織和檢索這些信息。這就像一個(gè)擁有完美錄音設(shè)備的人,卻不知道該錄什么,也不知道如何從錄音中找到需要的信息。

規(guī)劃能力要求玩家能夠模擬未來(lái)的游戲狀態(tài),評(píng)估不同行動(dòng)的長(zhǎng)期后果。在《水排序》這樣的邏輯謎題中,你需要計(jì)算出一系列倒水操作的最優(yōu)序列。AI在這類(lèi)任務(wù)中的失敗表明,它們?nèi)狈τ行У?心理模擬"能力,無(wú)法在頭腦中構(gòu)建和運(yùn)行游戲世界的模型。

世界模型學(xué)習(xí)可能是最能體現(xiàn)通用智能的能力。在許多游戲中,規(guī)則并不是明確給出的,而需要玩家通過(guò)實(shí)驗(yàn)和觀察來(lái)發(fā)現(xiàn)。比如在《Baba Is You》這樣的游戲中,玩家需要發(fā)現(xiàn)移動(dòng)文字方塊會(huì)如何改變游戲規(guī)則。AI在這方面的困難反映了它們?nèi)狈χ鲃?dòng)探索和假設(shè)驗(yàn)證的能力,這正是科學(xué)發(fā)現(xiàn)和創(chuàng)新思維的核心。

物理推理涉及對(duì)重力、軌跡、碰撞等物理現(xiàn)象的理解。雖然AI在簡(jiǎn)單的物理模擬任務(wù)中表現(xiàn)尚可,但在需要復(fù)雜物理交互的游戲中,比如涉及多個(gè)物體相互作用的《憤怒的小鳥(niǎo)》復(fù)雜關(guān)卡,它們的表現(xiàn)明顯不如人類(lèi)。

社會(huì)推理是最高層次的認(rèn)知能力,涉及理解其他智能體的意圖、信念和情感。由于研究中的大多數(shù)游戲都是單人游戲,這個(gè)維度的測(cè)試相對(duì)有限。但即使在簡(jiǎn)單的需要預(yù)測(cè)NPC行為的游戲中,AI也經(jīng)常表現(xiàn)出對(duì)"他人心理"理解的不足。

最重要的發(fā)現(xiàn)是,隨著游戲需要的認(rèn)知能力種類(lèi)增加,AI的表現(xiàn)呈指數(shù)級(jí)下降。那些只需要一種核心能力的游戲,AI還能達(dá)到人類(lèi)表現(xiàn)的30%到40%。但需要三種或更多認(rèn)知能力協(xié)同工作的游戲,AI的表現(xiàn)往往不到人類(lèi)水平的10%。這個(gè)現(xiàn)象揭示了當(dāng)前AI架構(gòu)的一個(gè)根本限制:它們?nèi)狈τ行д隙喾N認(rèn)知能力的機(jī)制。

這種詳細(xì)的認(rèn)知診斷具有重要的指導(dǎo)意義。它不僅告訴我們AI在哪里不足,更重要的是指明了改進(jìn)的方向。要構(gòu)建真正的通用人工智能,我們需要重點(diǎn)攻克記憶整合、長(zhǎng)期規(guī)劃和主動(dòng)學(xué)習(xí)這些核心能力,并且需要找到讓多種認(rèn)知能力有效協(xié)同工作的架構(gòu)設(shè)計(jì)。

五、游戲背后的科學(xué)洞察與未來(lái)展望

通過(guò)這項(xiàng)研究,我們看到了一個(gè)令人深思的對(duì)比:AI在許多專(zhuān)業(yè)化任務(wù)上已經(jīng)超越人類(lèi),卻在人類(lèi)兒童都能輕松掌握的游戲中敗得一塌糊涂。這個(gè)現(xiàn)象背后隱藏著關(guān)于智能本質(zhì)的深刻啟示。

當(dāng)前AI系統(tǒng)的成功很大程度上建立在模式識(shí)別和統(tǒng)計(jì)關(guān)聯(lián)的基礎(chǔ)上。它們能夠在海量數(shù)據(jù)中找到復(fù)雜的規(guī)律,并基于這些規(guī)律做出預(yù)測(cè)或生成內(nèi)容。但游戲需要的是完全不同類(lèi)型的智能——適應(yīng)性學(xué)習(xí)、創(chuàng)造性問(wèn)題解決、多目標(biāo)優(yōu)化和實(shí)時(shí)決策。這些能力更接近我們所理解的"真正的智能"。

游戲之所以成為智能的試金石,是因?yàn)樗鼈兙哂袔讉€(gè)獨(dú)特的特征。首先,游戲是動(dòng)態(tài)的,狀態(tài)不斷變化,需要持續(xù)的適應(yīng)和學(xué)習(xí)。其次,游戲是交互的,你的每個(gè)行動(dòng)都會(huì)影響后續(xù)的選擇空間。最后,游戲是目標(biāo)導(dǎo)向的,但通往目標(biāo)的路徑往往不是唯一的,需要?jiǎng)?chuàng)造性和靈活性。

研究團(tuán)隊(duì)計(jì)劃將AI游戲商店發(fā)展成一個(gè)持續(xù)進(jìn)化的評(píng)估平臺(tái)。他們?cè)O(shè)想了幾個(gè)重要的擴(kuò)展方向。首先是增加游戲的多樣性和復(fù)雜性,特別是那些需要長(zhǎng)期規(guī)劃和復(fù)雜社交互動(dòng)的游戲。目前的100個(gè)游戲大多是可以在幾分鐘內(nèi)學(xué)會(huì)的休閑游戲,未來(lái)需要包含更多需要小時(shí)甚至天數(shù)才能掌握的復(fù)雜游戲。

其次是改進(jìn)AI與游戲的交互方式。當(dāng)前的系統(tǒng)由于技術(shù)限制,AI只能通過(guò)每秒做出幾個(gè)離散選擇來(lái)玩游戲,這遠(yuǎn)遠(yuǎn)不如人類(lèi)的實(shí)時(shí)交互能力。未來(lái)的系統(tǒng)應(yīng)該能夠支持更自然、更流暢的交互模式,讓AI能夠像人類(lèi)一樣實(shí)時(shí)響應(yīng)游戲狀態(tài)的變化。

更有野心的是引入多智能體游戲環(huán)境。真正的通用智能不僅要能夠解決單人問(wèn)題,還要能夠在復(fù)雜的社交環(huán)境中與其他智能體合作或競(jìng)爭(zhēng)。通過(guò)讓多個(gè)AI在同一個(gè)游戲中互動(dòng),或者讓AI與人類(lèi)玩家實(shí)時(shí)對(duì)戰(zhàn),我們能夠測(cè)試AI的社交智能和適應(yīng)能力。

研究團(tuán)隊(duì)還計(jì)劃開(kāi)發(fā)更精細(xì)的認(rèn)知診斷工具。當(dāng)前的七維度評(píng)估體系只是一個(gè)開(kāi)始,未來(lái)可能需要更細(xì)化的認(rèn)知分類(lèi),以便更準(zhǔn)確地定位AI系統(tǒng)的具體優(yōu)勢(shì)和劣勢(shì)。這種精確診斷不僅有助于改進(jìn)AI系統(tǒng),也能為認(rèn)知科學(xué)和心理學(xué)研究提供新的工具。

從更宏觀的角度來(lái)看,這項(xiàng)研究提出了一個(gè)重要問(wèn)題:我們應(yīng)該如何定義和衡量人工智能的進(jìn)步?傳統(tǒng)的基準(zhǔn)測(cè)試往往關(guān)注單一維度的性能提升,但真正的智能是多維度能力的有機(jī)整合。游戲評(píng)估提供了一個(gè)更holistic的視角,讓我們能夠觀察AI系統(tǒng)在面對(duì)復(fù)雜、動(dòng)態(tài)、多目標(biāo)任務(wù)時(shí)的綜合表現(xiàn)。

這種評(píng)估方式也具有重要的社會(huì)意義。如果我們的目標(biāo)是創(chuàng)造能夠真正幫助人類(lèi)、與人類(lèi)和諧共處的AI系統(tǒng),那么這些系統(tǒng)就必須能夠理解和適應(yīng)人類(lèi)的思維方式。游戲恰恰是人類(lèi)思維方式的直接體現(xiàn),一個(gè)能夠理解人類(lèi)游戲的AI,更有可能理解人類(lèi)的需求、價(jià)值觀和行為模式。

當(dāng)然,這項(xiàng)研究也有其局限性。當(dāng)前的游戲主要來(lái)自西方的數(shù)字游戲平臺(tái),可能無(wú)法完全代表全球范圍內(nèi)的人類(lèi)游戲文化。未來(lái)的研究需要包含更多樣化的文化背景和游戲類(lèi)型,包括傳統(tǒng)的棋盤(pán)游戲、體感游戲、甚至現(xiàn)實(shí)世界的體育運(yùn)動(dòng)。

另一個(gè)挑戰(zhàn)是如何處理游戲中的隨機(jī)性和不確定性。許多游戲包含運(yùn)氣成分,這使得單次游戲的結(jié)果并不能完全反映玩家的能力。研究團(tuán)隊(duì)需要開(kāi)發(fā)更精確的統(tǒng)計(jì)方法,來(lái)區(qū)分真正的智能表現(xiàn)和隨機(jī)波動(dòng)。

說(shuō)到底,AI游戲商店不僅僅是一個(gè)技術(shù)評(píng)估平臺(tái),它更像是一面鏡子,讓我們看清當(dāng)前AI技術(shù)的真實(shí)水平,也看清了通向真正通用人工智能的路徑。這項(xiàng)研究告訴我們,創(chuàng)造真正的通用AI不僅僅是技術(shù)問(wèn)題,更是對(duì)智能本質(zhì)的深度理解問(wèn)題。

游戲教會(huì)了我們,真正的智能不是簡(jiǎn)單的模式識(shí)別或數(shù)據(jù)處理,而是在復(fù)雜、動(dòng)態(tài)、不確定的環(huán)境中持續(xù)學(xué)習(xí)、適應(yīng)和創(chuàng)新的能力。這種能力的獲得,可能需要我們重新思考AI系統(tǒng)的基礎(chǔ)架構(gòu),從當(dāng)前的靜態(tài)模型轉(zhuǎn)向更動(dòng)態(tài)、更靈活、更具適應(yīng)性的智能系統(tǒng)。

Q&A

Q1:AI游戲商店是什么?

A:AI游戲商店是麻省理工學(xué)院等機(jī)構(gòu)開(kāi)發(fā)的人工智能評(píng)估平臺(tái),通過(guò)讓AI和人類(lèi)玩相同的游戲來(lái)測(cè)試AI的通用智能水平。該平臺(tái)使用大語(yǔ)言模型自動(dòng)從熱門(mén)游戲中生成標(biāo)準(zhǔn)化測(cè)試版本,包含了100個(gè)不同類(lèi)型的游戲,覆蓋視覺(jué)處理、記憶、規(guī)劃等七個(gè)認(rèn)知維度。

Q2:目前最強(qiáng)的AI在游戲中表現(xiàn)如何?

A:表現(xiàn)令人意外地差。最強(qiáng)的GPT-5.2模型平均只能達(dá)到人類(lèi)表現(xiàn)的8.5%,而且需要15-20倍的時(shí)間才能完成同樣的任務(wù)。AI在大約三分之一的游戲中幾乎完全失敗,主要困難集中在需要記憶、規(guī)劃和世界模型學(xué)習(xí)的游戲上。

Q3:為什么用游戲來(lái)評(píng)估AI的通用智能?

A:因?yàn)槿祟?lèi)創(chuàng)造的游戲是現(xiàn)實(shí)世界的抽象和縮影,每個(gè)游戲都在考驗(yàn)特定的認(rèn)知能力組合。游戲需要多種智能能力協(xié)同工作,比單一任務(wù)測(cè)試更能反映真正的通用智能水平。如果AI能夠像人類(lèi)一樣快速學(xué)會(huì)并玩好各種游戲,就證明它具備了類(lèi)人的綜合認(rèn)知能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
自斷后路!央企采用國(guó)產(chǎn)芯片,美:你不進(jìn)口,我們的芯片賣(mài)給誰(shuí)?

自斷后路!央企采用國(guó)產(chǎn)芯片,美:你不進(jìn)口,我們的芯片賣(mài)給誰(shuí)?

半路友人之他
2026-02-19 23:15:08
安徽剛剛通報(bào):廳干鄭家齊被查!

安徽剛剛通報(bào):廳干鄭家齊被查!

鳳凰網(wǎng)安徽
2026-03-02 17:45:32
富時(shí)中國(guó)A50指數(shù)期貨跌幅擴(kuò)大,現(xiàn)跌1.0%

富時(shí)中國(guó)A50指數(shù)期貨跌幅擴(kuò)大,現(xiàn)跌1.0%

每日經(jīng)濟(jì)新聞
2026-03-02 10:41:04
米蘭時(shí)裝周好真實(shí)!陳妍希假發(fā)包太夸張,陳小紜臉僵腫、滿(mǎn)腿淤青

米蘭時(shí)裝周好真實(shí)!陳妍希假發(fā)包太夸張,陳小紜臉僵腫、滿(mǎn)腿淤青

楓塵余往逝
2026-03-02 12:47:21
美軍公布傷亡情況!伊朗向美航母發(fā)射4枚導(dǎo)彈,美軍:導(dǎo)彈甚至沒(méi)有接近航母,已擊沉一艘伊朗船只;朝鮮強(qiáng)烈譴責(zé)美以“流氓行徑”

美軍公布傷亡情況!伊朗向美航母發(fā)射4枚導(dǎo)彈,美軍:導(dǎo)彈甚至沒(méi)有接近航母,已擊沉一艘伊朗船只;朝鮮強(qiáng)烈譴責(zé)美以“流氓行徑”

每日經(jīng)濟(jì)新聞
2026-03-02 00:23:54
霍爾木茲海峽關(guān)閉!中國(guó)化工全產(chǎn)業(yè)鏈承壓

霍爾木茲海峽關(guān)閉!中國(guó)化工全產(chǎn)業(yè)鏈承壓

新浪財(cái)經(jīng)
2026-03-02 11:48:58
張拿鐵在國(guó)外走失,張踩鈴想掐死婆婆溫迪,幸好巧遇熱心粉絲幫忙

張拿鐵在國(guó)外走失,張踩鈴想掐死婆婆溫迪,幸好巧遇熱心粉絲幫忙

可樂(lè)談情感
2026-03-02 01:18:35
中國(guó)不先使用核武器,如果美國(guó)炸毀北斗衛(wèi)星,中國(guó)是不是就輸了?

中國(guó)不先使用核武器,如果美國(guó)炸毀北斗衛(wèi)星,中國(guó)是不是就輸了?

暗香暗香
2026-02-24 01:54:48
讓你不選我!廣廈寶島內(nèi)援盛贊胡金秋朱俊龍 若有他男籃想贏很難

讓你不選我!廣廈寶島內(nèi)援盛贊胡金秋朱俊龍 若有他男籃想贏很難

大嘴爵爺侃球
2026-03-02 15:28:51
汪小菲責(zé)怪母親發(fā)他和孩子的視頻,網(wǎng)友評(píng)價(jià):不要繼承麻六記

汪小菲責(zé)怪母親發(fā)他和孩子的視頻,網(wǎng)友評(píng)價(jià):不要繼承麻六記

萱小蕾o
2026-03-02 13:31:09
全球只有5位領(lǐng)導(dǎo)人被永久保留遺體,他們都是誰(shuí)

全球只有5位領(lǐng)導(dǎo)人被永久保留遺體,他們都是誰(shuí)

扶蘇聊歷史
2026-01-29 16:13:42
高德導(dǎo)航到底能有多搞笑?網(wǎng)友:我在市區(qū)開(kāi)車(chē)都不敢全相信導(dǎo)航

高德導(dǎo)航到底能有多搞笑?網(wǎng)友:我在市區(qū)開(kāi)車(chē)都不敢全相信導(dǎo)航

解讀熱點(diǎn)事件
2026-02-22 05:43:06
他出身京劇世家,38歲才突破成名,49歲仍單身,正午陽(yáng)光御用配角

他出身京劇世家,38歲才突破成名,49歲仍單身,正午陽(yáng)光御用配角

芬霏劇時(shí)光
2026-03-01 17:56:02
今天,主力大幅買(mǎi)入!

今天,主力大幅買(mǎi)入!

君臨財(cái)富
2026-03-02 15:23:54
當(dāng)年那些沒(méi)有聽(tīng)出來(lái)的弦外之音?網(wǎng)友:她說(shuō)在清華等我

當(dāng)年那些沒(méi)有聽(tīng)出來(lái)的弦外之音?網(wǎng)友:她說(shuō)在清華等我

特約前排觀眾
2026-01-09 00:05:05
姐姐摸了下弟弟的小腳丫,我直接破防了!這畫(huà)面也太暖了吧!

姐姐摸了下弟弟的小腳丫,我直接破防了!這畫(huà)面也太暖了吧!

王二哥老搞笑
2026-02-28 04:28:55
1971年,陜西老光棍圖便宜,娶了小自己10歲又坐過(guò)牢房的女大學(xué)生

1971年,陜西老光棍圖便宜,娶了小自己10歲又坐過(guò)牢房的女大學(xué)生

南權(quán)先生
2026-02-26 15:38:59
張?jiān)⑷枞A升級(jí)!在港參加活動(dòng)發(fā)言挑釁,相關(guān)代言被抵制連夜捂嘴

張?jiān)⑷枞A升級(jí)!在港參加活動(dòng)發(fā)言挑釁,相關(guān)代言被抵制連夜捂嘴

瓜農(nóng)娟姐
2026-01-03 15:15:00
2號(hào)收評(píng):中石油創(chuàng)近11年新高!所有人都注意,大盤(pán)后市或這樣走

2號(hào)收評(píng):中石油創(chuàng)近11年新高!所有人都注意,大盤(pán)后市或這樣走

春江財(cái)富
2026-03-02 15:30:03
街頭,伊朗人悲傷地跳了起來(lái)?

街頭,伊朗人悲傷地跳了起來(lái)?

關(guān)爾東
2026-03-01 23:02:58
2026-03-03 00:00:50
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

蘋(píng)果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

李亞鵬與哥哥和解 只有一條真心話(huà)短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車(chē)要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
親子
游戲
公開(kāi)課

藝術(shù)要聞

簡(jiǎn)約的風(fēng)景畫(huà),美國(guó)畫(huà)家Ben Bauer作品

數(shù)碼要聞

英偉達(dá)發(fā)布595.71 WHQL驅(qū)動(dòng),修復(fù)顯卡風(fēng)扇“翻車(chē)”問(wèn)題

親子要聞

45歲這年,我這個(gè)二胎媽媽決定做一件“瘋狂”的事

《寶可夢(mèng)》新作M站90分!近年最新鮮的寶可夢(mèng)體驗(yàn)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版