網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

MIT突破：AI游戲商店實(shí)現(xiàn)人工智能通用能力全面評(píng)測(cè)

2026-02-27 22:15:56　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由麻省理工學(xué)院聯(lián)合哈佛大學(xué)、劍橋大學(xué)等多所頂尖學(xué)府共同完成的研究發(fā)表于2026年，論文編號(hào)為arXiv:2602.17594v1。該研究團(tuán)隊(duì)首次提出了一個(gè)革命性的觀點(diǎn)：要真正評(píng)估人工智能是否達(dá)到人類(lèi)水平的通用智能，最好的方法就是讓AI去玩人類(lèi)創(chuàng)造的各種游戲。

人工智能發(fā)展到今天，已經(jīng)在許多單一任務(wù)上表現(xiàn)卓越，比如下棋、翻譯或者回答問(wèn)題。但問(wèn)題在于，現(xiàn)有的AI評(píng)估方式就像只考察學(xué)生會(huì)不會(huì)做數(shù)學(xué)題，卻不知道他能否應(yīng)對(duì)真實(shí)生活中的復(fù)雜挑戰(zhàn)。真正的人類(lèi)智能是什么樣的呢？我們能夠快速學(xué)習(xí)新事物，在復(fù)雜環(huán)境中靈活應(yīng)變，面對(duì)從未見(jiàn)過(guò)的問(wèn)題時(shí)也能找到解決方案。這種能力如何評(píng)估？

研究團(tuán)隊(duì)想到了一個(gè)絕妙的答案：游戲。人類(lèi)創(chuàng)造的游戲本質(zhì)上就是現(xiàn)實(shí)世界的縮影和訓(xùn)練場(chǎng)。從古老的圍棋到現(xiàn)代的電子游戲，每一個(gè)游戲都在考驗(yàn)著人類(lèi)的某些核心能力：戰(zhàn)略規(guī)劃、空間推理、記憶力、學(xué)習(xí)能力、社交技巧等等。如果一個(gè)AI系統(tǒng)能夠像人類(lèi)一樣快速學(xué)會(huì)并玩好各種人類(lèi)游戲，那它很可能已經(jīng)具備了類(lèi)人的通用智能。

基于這個(gè)洞察，研究團(tuán)隊(duì)開(kāi)發(fā)了"AI游戲商店"——一個(gè)全新的人工智能評(píng)估平臺(tái)。這個(gè)平臺(tái)的核心理念是利用大語(yǔ)言模型自動(dòng)生成基于真實(shí)人類(lèi)游戲的標(biāo)準(zhǔn)化測(cè)試環(huán)境，然后讓AI和人類(lèi)在相同條件下進(jìn)行游戲，比較他們的表現(xiàn)。

一、從人類(lèi)游戲宇宙中尋找智能的真相

人類(lèi)為什么要玩游戲？這個(gè)看似簡(jiǎn)單的問(wèn)題背后隱藏著關(guān)于智能本質(zhì)的深刻真相。從生物學(xué)角度來(lái)看，玩耍行為并不僅僅屬于人類(lèi)。從海豚到烏鴉，從猴子到大象，幾乎所有高智能動(dòng)物都會(huì)玩耍。科學(xué)研究表明，玩耍實(shí)際上是大自然進(jìn)化出的一種學(xué)習(xí)機(jī)制——通過(guò)在安全的虛擬環(huán)境中模擬各種情況，動(dòng)物能夠磨練自己的認(rèn)知能力和生存技能。

對(duì)人類(lèi)而言，游戲的意義更為深遠(yuǎn)。每一個(gè)游戲都是現(xiàn)實(shí)世界某個(gè)方面的抽象化和濃縮版。策略游戲鍛煉我們的長(zhǎng)期規(guī)劃能力，動(dòng)作游戲提升我們的反應(yīng)速度和空間協(xié)調(diào)能力，解謎游戲訓(xùn)練我們的邏輯推理，社交游戲則考驗(yàn)我們理解他人意圖的能力?？梢哉f(shuō)，游戲是人類(lèi)為自己創(chuàng)造的認(rèn)知能力訓(xùn)練營(yíng)。

研究團(tuán)隊(duì)將人類(lèi)能夠創(chuàng)造和享受的所有游戲定義為"人類(lèi)游戲宇宙"。這個(gè)概念的精妙之處在于，它既包含了已經(jīng)存在的游戲，也涵蓋了人類(lèi)未來(lái)可能創(chuàng)造的所有游戲。這個(gè)宇宙是無(wú)限且開(kāi)放的，但同時(shí)又有明確的邊界——只有人類(lèi)能夠設(shè)計(jì)出來(lái)并且其他人類(lèi)能夠理解和享受的游戲才屬于這個(gè)宇宙。

想象一下這樣的場(chǎng)景：如果有一個(gè)外星智慧生命體想要評(píng)估自己是否真正理解了人類(lèi)智能，最好的方法就是看它能否學(xué)會(huì)人類(lèi)的各種游戲。從簡(jiǎn)單的井字棋到復(fù)雜的策略游戲，從需要精確操作的動(dòng)作游戲到考驗(yàn)創(chuàng)造力的開(kāi)放世界游戲，每一類(lèi)游戲都在測(cè)試智能體的不同能力。如果這個(gè)外星生命體能夠在所有這些游戲中都達(dá)到人類(lèi)的平均水平，我們就有理由相信它確實(shí)掌握了類(lèi)人的通用智能。

研究團(tuán)隊(duì)認(rèn)為，這種基于游戲的評(píng)估方式比傳統(tǒng)方法有著無(wú)可比擬的優(yōu)勢(shì)。傳統(tǒng)的AI基準(zhǔn)測(cè)試往往只關(guān)注單一能力，比如語(yǔ)言理解或數(shù)學(xué)計(jì)算。但游戲天然地要求多種能力的綜合運(yùn)用。以《憤怒的小鳥(niǎo)》為例，玩這個(gè)游戲需要物理推理能力（理解彈道和碰撞），空間認(rèn)知能力（判斷角度和距離），以及規(guī)劃能力（選擇最優(yōu)的攻擊順序）。一個(gè)在這個(gè)游戲中表現(xiàn)出色的AI系統(tǒng)，必然在多個(gè)認(rèn)知維度上都達(dá)到了相當(dāng)?shù)乃健?/p>

更重要的是，游戲評(píng)估具有文化相關(guān)性和生態(tài)有效性。這些游戲不是研究人員在實(shí)驗(yàn)室里人工設(shè)計(jì)的抽象任務(wù)，而是真實(shí)的人類(lèi)在日常生活中選擇玩的活動(dòng)。如果一個(gè)AI系統(tǒng)能夠理解和掌握這些游戲，它就證明了自己能夠理解和適應(yīng)人類(lèi)的思維方式和行為模式，這對(duì)于構(gòu)建真正有用的人工智能系統(tǒng)至關(guān)重要。

二、AI游戲商店：將理想變?yōu)楝F(xiàn)實(shí)的技術(shù)平臺(tái)

理論上，要評(píng)估AI是否達(dá)到人類(lèi)水平的通用智能，最理想的方法是讓它學(xué)會(huì)人類(lèi)游戲宇宙中的所有游戲。但在實(shí)踐中，這面臨著巨大的技術(shù)挑戰(zhàn)。全世界有數(shù)百萬(wàn)個(gè)不同的游戲，它們運(yùn)行在不同的平臺(tái)上，使用不同的控制方式，遵循不同的規(guī)則。要為每個(gè)游戲都單獨(dú)開(kāi)發(fā)AI接口，幾乎是不可能完成的任務(wù)。

研究團(tuán)隊(duì)巧妙地解決了這個(gè)問(wèn)題。他們開(kāi)發(fā)的AI游戲商店采用了一個(gè)四階段的自動(dòng)化流程，就像一個(gè)高效的游戲制造工廠。

第一個(gè)階段是游戲篩選和過(guò)濾。研究團(tuán)隊(duì)首先從蘋(píng)果應(yīng)用商店和Steam等主流游戲平臺(tái)收集了7500個(gè)熱門(mén)游戲的信息。接著，他們讓大語(yǔ)言模型對(duì)每個(gè)游戲進(jìn)行評(píng)分，篩選標(biāo)準(zhǔn)包括游戲是否能在幾分鐘內(nèi)學(xué)會(huì)、是否能用網(wǎng)頁(yè)技術(shù)實(shí)現(xiàn)、是否有明確的評(píng)分標(biāo)準(zhǔn)等。這個(gè)過(guò)程就像是為即將到來(lái)的考試挑選最具代表性的題目。

第二個(gè)階段是游戲生成和優(yōu)化。通過(guò)詳細(xì)的游戲描述，大語(yǔ)言模型能夠生成一個(gè)功能完整的網(wǎng)頁(yè)版游戲。但機(jī)器生成的游戲往往存在各種問(wèn)題——可能太簡(jiǎn)單、太困難，或者有技術(shù)漏洞。因此，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)人機(jī)結(jié)合的優(yōu)化流程。首先，系統(tǒng)會(huì)自動(dòng)測(cè)試生成的游戲，發(fā)現(xiàn)并修復(fù)明顯的技術(shù)問(wèn)題。然后，真人玩家會(huì)試玩這個(gè)游戲，給出改進(jìn)建議，系統(tǒng)再根據(jù)這些反饋進(jìn)一步完善游戲。這個(gè)過(guò)程通常需要4到5輪迭代，每輪約2分鐘，直到游戲達(dá)到既有趣又具有挑戰(zhàn)性的標(biāo)準(zhǔn)。

第三個(gè)階段是認(rèn)知能力標(biāo)注。為了理解每個(gè)游戲考驗(yàn)的是哪些認(rèn)知能力，研究團(tuán)隊(duì)開(kāi)發(fā)了一套包含七個(gè)維度的評(píng)估體系：視覺(jué)處理、空間時(shí)間協(xié)調(diào)、記憶、規(guī)劃、世界模型學(xué)習(xí)、物理推理和社會(huì)推理。每個(gè)游戲都會(huì)在這七個(gè)維度上獲得0到5的評(píng)分，0表示不需要該能力，5表示需要極高水平的該能力。這樣的標(biāo)注讓研究人員能夠精確診斷AI系統(tǒng)在哪些認(rèn)知能力上存在不足。

第四個(gè)階段是模型評(píng)估。在這個(gè)階段，人類(lèi)玩家和AI模型在相同的條件下玩游戲，系統(tǒng)記錄他們的表現(xiàn)并進(jìn)行對(duì)比分析。由于目前的AI模型響應(yīng)速度較慢，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)特殊的游戲界面：游戲每秒會(huì)暫停一次，詢(xún)問(wèn)AI下一秒要執(zhí)行什么操作，然后繼續(xù)運(yùn)行。雖然這不是最理想的測(cè)試方式，但在技術(shù)條件允許的范圍內(nèi)，這已經(jīng)是相當(dāng)公平的比較了。

整個(gè)流程的精妙之處在于它的可擴(kuò)展性。一旦基礎(chǔ)設(shè)施搭建完成，生成和測(cè)試新游戲變得非常高效。研究團(tuán)隊(duì)平均只需30分鐘就能完成一個(gè)新游戲從概念到可測(cè)試版本的全過(guò)程。更重要的是，人類(lèi)玩家還可以在現(xiàn)有游戲基礎(chǔ)上創(chuàng)造變體版本，這意味著從少數(shù)幾個(gè)游戲概念就能衍生出大量測(cè)試場(chǎng)景，有效避免了AI系統(tǒng)通過(guò)過(guò)度訓(xùn)練特定游戲而獲得虛假高分的問(wèn)題。

通過(guò)這種方式，AI游戲商店成功地將"人類(lèi)游戲宇宙"這個(gè)抽象概念轉(zhuǎn)化為了具體可操作的測(cè)試平臺(tái)。它不僅解決了技術(shù)實(shí)現(xiàn)的難題，還保持了原始概念的核心價(jià)值——通過(guò)人類(lèi)真正喜歡的游戲來(lái)評(píng)估AI的通用智能水平。

三、當(dāng)前AI的真實(shí)表現(xiàn)：令人意外的巨大差距

當(dāng)研究團(tuán)隊(duì)讓七個(gè)最先進(jìn)的大語(yǔ)言模型——包括GPT-5.2、Claude-Opus-4.5、Gemini-2.5-Pro等業(yè)界頂尖模型——與106名普通人類(lèi)玩家在100個(gè)游戲上一決高下時(shí)，結(jié)果令人震驚。

最優(yōu)秀的AI模型GPT-5.2的平均得分僅為人類(lèi)中位數(shù)的8.5%。這意味著什么？如果我們把人類(lèi)玩家的平均表現(xiàn)定為100分，那么目前最強(qiáng)的AI只能得到不到9分。這個(gè)差距之大，超出了大多數(shù)人的預(yù)期。要知道，這些AI模型在其他許多任務(wù)上已經(jīng)達(dá)到甚至超越了人類(lèi)水平，比如語(yǔ)言理解、數(shù)學(xué)計(jì)算、代碼編寫(xiě)等。但在游戲這個(gè)看似"簡(jiǎn)單"的領(lǐng)域，它們卻表現(xiàn)得如此不堪。

更令人印象深刻的是時(shí)間效率的對(duì)比。人類(lèi)玩家在每個(gè)游戲上只花費(fèi)2分鐘，就能達(dá)到相當(dāng)不錯(cuò)的成績(jī)。而AI模型為了做出每一個(gè)決策，平均需要思考幾分鐘時(shí)間，完成同樣的游戲任務(wù)需要15到20倍的時(shí)間。這就好比一個(gè)學(xué)生做數(shù)學(xué)題，人類(lèi)學(xué)生可能幾分鐘就能解出答案，而AI卻需要花費(fèi)幾個(gè)小時(shí)，最終得分還遠(yuǎn)低于人類(lèi)。

深入分析這些數(shù)據(jù)，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：AI模型的表現(xiàn)呈現(xiàn)明顯的雙峰分布。大約三分之二的游戲中，AI能夠取得一些進(jìn)展，雖然通常只能達(dá)到人類(lèi)表現(xiàn)的10%到30%，但至少證明它們理解了游戲的基本玩法。然而，在剩下三分之一的游戲中，AI幾乎完全失敗，得分不到人類(lèi)平均水平的1%，這表明它們甚至沒(méi)有理解游戲的基本規(guī)則或目標(biāo)。

什么樣的游戲讓AI感到困難？通過(guò)分析游戲的認(rèn)知能力需求，研究團(tuán)隊(duì)找到了答案。AI最大的弱點(diǎn)集中在三個(gè)關(guān)鍵領(lǐng)域：記憶、規(guī)劃和世界模型學(xué)習(xí)。

記憶能力的缺陷表現(xiàn)得尤為明顯。許多游戲需要玩家記住之前看到的信息，比如在迷宮游戲中記住已經(jīng)探索過(guò)的區(qū)域，或者在卡牌游戲中記住已經(jīng)翻開(kāi)的牌面。盡管AI有一個(gè)"記事本"功能可以記錄重要信息，但它們似乎不知道該記錄什么，或者如何有效利用這些記錄。這就像一個(gè)健忘癥患者試圖玩記憶游戲，即使有紙筆幫助，也很難取得好成績(jī)。

規(guī)劃能力的不足同樣嚴(yán)重。許多游戲需要玩家思考幾步之后的情況，比如在推箱子游戲中，你需要預(yù)見(jiàn)到當(dāng)前的移動(dòng)會(huì)對(duì)后續(xù)步驟產(chǎn)生什么影響。AI模型往往只能看到眼前一步，缺乏長(zhǎng)期戰(zhàn)略思維。它們就像只會(huì)走一步棋的新手棋手，面對(duì)需要深度規(guī)劃的情況時(shí)束手無(wú)策。

世界模型學(xué)習(xí)的困難可能是最根本的問(wèn)題。許多游戲并不會(huì)直接告訴你所有規(guī)則，而是需要你通過(guò)嘗試來(lái)發(fā)現(xiàn)游戲的運(yùn)行機(jī)制。比如，你需要通過(guò)實(shí)驗(yàn)來(lái)發(fā)現(xiàn)某個(gè)按鈕會(huì)產(chǎn)生什么效果，或者某種道具有什么用途。AI模型在這方面表現(xiàn)得像是缺乏好奇心的學(xué)習(xí)者，它們不會(huì)主動(dòng)探索和試驗(yàn)，也不善于從失敗中總結(jié)規(guī)律。

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)游戲的認(rèn)知復(fù)雜度與AI表現(xiàn)之間存在強(qiáng)烈的負(fù)相關(guān)關(guān)系。那些只需要一種認(rèn)知能力的簡(jiǎn)單游戲，AI還能勉強(qiáng)應(yīng)付。但隨著游戲需要的認(rèn)知能力種類(lèi)增加，AI的表現(xiàn)急劇下降。這說(shuō)明當(dāng)前的AI系統(tǒng)雖然在單一任務(wù)上可能表現(xiàn)不錯(cuò)，但在需要多種能力協(xié)調(diào)配合的復(fù)雜任務(wù)中，它們的不足就暴露無(wú)遺。

這些發(fā)現(xiàn)具有深遠(yuǎn)的意義。它們提醒我們，盡管AI在某些專(zhuān)業(yè)化任務(wù)上已經(jīng)超越人類(lèi)，但在需要類(lèi)人通用智能的綜合性任務(wù)中，我們?nèi)匀挥泻荛L(zhǎng)的路要走。這也解釋了為什么AI在現(xiàn)實(shí)世界的應(yīng)用中仍然經(jīng)常出現(xiàn)意想不到的失敗——現(xiàn)實(shí)世界正是一個(gè)需要多種認(rèn)知能力無(wú)縫配合的復(fù)雜環(huán)境。

四、深度透視：AI認(rèn)知能力的精細(xì)診斷

研究團(tuán)隊(duì)創(chuàng)造性地將每個(gè)游戲在七個(gè)認(rèn)知維度上進(jìn)行了詳細(xì)標(biāo)注，這就像為每個(gè)游戲制作了一張"認(rèn)知能力體檢表"。通過(guò)這種方式，他們不僅能夠看到AI在哪些游戲上表現(xiàn)不佳，更重要的是能夠精確診斷出AI在哪些基礎(chǔ)認(rèn)知能力上存在缺陷。

視覺(jué)處理能力是最基礎(chǔ)的認(rèn)知技能，涉及識(shí)別、匹配和分類(lèi)視覺(jué)對(duì)象的能力。在這個(gè)維度上，AI的表現(xiàn)相對(duì)較好，這并不意外，因?yàn)橛?jì)算機(jī)視覺(jué)技術(shù)已經(jīng)相當(dāng)成熟。但即便如此，當(dāng)游戲場(chǎng)景變得復(fù)雜，存在遮擋或需要在混亂背景中找到特定物體時(shí)，AI的表現(xiàn)仍然明顯低于人類(lèi)。

空間時(shí)間協(xié)調(diào)能力考驗(yàn)的是精確定時(shí)和空間導(dǎo)航的能力，比如在《憤怒的小鳥(niǎo)》中需要精確控制發(fā)射角度和力度。有趣的是，研究團(tuán)隊(duì)特別測(cè)試了那些不需要快速反應(yīng)的游戲（比如回合制策略游戲），發(fā)現(xiàn)AI的表現(xiàn)并沒(méi)有顯著改善。這說(shuō)明問(wèn)題不在于AI的"反應(yīng)速度"，而在于它們對(duì)空間關(guān)系和時(shí)間序列的理解能力。

記憶能力的缺陷最為突出。人類(lèi)具有強(qiáng)大的工作記憶和情境記憶，能夠在游戲過(guò)程中自然地記住重要信息并在需要時(shí)調(diào)用。AI雖然有技術(shù)上的"記憶存儲(chǔ)"功能，但它們不知道什么信息值得記住，也不善于組織和檢索這些信息。這就像一個(gè)擁有完美錄音設(shè)備的人，卻不知道該錄什么，也不知道如何從錄音中找到需要的信息。

規(guī)劃能力要求玩家能夠模擬未來(lái)的游戲狀態(tài)，評(píng)估不同行動(dòng)的長(zhǎng)期后果。在《水排序》這樣的邏輯謎題中，你需要計(jì)算出一系列倒水操作的最優(yōu)序列。AI在這類(lèi)任務(wù)中的失敗表明，它們?nèi)狈τ行У?心理模擬"能力，無(wú)法在頭腦中構(gòu)建和運(yùn)行游戲世界的模型。

世界模型學(xué)習(xí)可能是最能體現(xiàn)通用智能的能力。在許多游戲中，規(guī)則并不是明確給出的，而需要玩家通過(guò)實(shí)驗(yàn)和觀察來(lái)發(fā)現(xiàn)。比如在《Baba Is You》這樣的游戲中，玩家需要發(fā)現(xiàn)移動(dòng)文字方塊會(huì)如何改變游戲規(guī)則。AI在這方面的困難反映了它們?nèi)狈χ鲃?dòng)探索和假設(shè)驗(yàn)證的能力，這正是科學(xué)發(fā)現(xiàn)和創(chuàng)新思維的核心。

物理推理涉及對(duì)重力、軌跡、碰撞等物理現(xiàn)象的理解。雖然AI在簡(jiǎn)單的物理模擬任務(wù)中表現(xiàn)尚可，但在需要復(fù)雜物理交互的游戲中，比如涉及多個(gè)物體相互作用的《憤怒的小鳥(niǎo)》復(fù)雜關(guān)卡，它們的表現(xiàn)明顯不如人類(lèi)。

社會(huì)推理是最高層次的認(rèn)知能力，涉及理解其他智能體的意圖、信念和情感。由于研究中的大多數(shù)游戲都是單人游戲，這個(gè)維度的測(cè)試相對(duì)有限。但即使在簡(jiǎn)單的需要預(yù)測(cè)NPC行為的游戲中，AI也經(jīng)常表現(xiàn)出對(duì)"他人心理"理解的不足。

最重要的發(fā)現(xiàn)是，隨著游戲需要的認(rèn)知能力種類(lèi)增加，AI的表現(xiàn)呈指數(shù)級(jí)下降。那些只需要一種核心能力的游戲，AI還能達(dá)到人類(lèi)表現(xiàn)的30%到40%。但需要三種或更多認(rèn)知能力協(xié)同工作的游戲，AI的表現(xiàn)往往不到人類(lèi)水平的10%。這個(gè)現(xiàn)象揭示了當(dāng)前AI架構(gòu)的一個(gè)根本限制：它們?nèi)狈τ行д隙喾N認(rèn)知能力的機(jī)制。

這種詳細(xì)的認(rèn)知診斷具有重要的指導(dǎo)意義。它不僅告訴我們AI在哪里不足，更重要的是指明了改進(jìn)的方向。要構(gòu)建真正的通用人工智能，我們需要重點(diǎn)攻克記憶整合、長(zhǎng)期規(guī)劃和主動(dòng)學(xué)習(xí)這些核心能力，并且需要找到讓多種認(rèn)知能力有效協(xié)同工作的架構(gòu)設(shè)計(jì)。

五、游戲背后的科學(xué)洞察與未來(lái)展望

通過(guò)這項(xiàng)研究，我們看到了一個(gè)令人深思的對(duì)比：AI在許多專(zhuān)業(yè)化任務(wù)上已經(jīng)超越人類(lèi)，卻在人類(lèi)兒童都能輕松掌握的游戲中敗得一塌糊涂。這個(gè)現(xiàn)象背后隱藏著關(guān)于智能本質(zhì)的深刻啟示。

當(dāng)前AI系統(tǒng)的成功很大程度上建立在模式識(shí)別和統(tǒng)計(jì)關(guān)聯(lián)的基礎(chǔ)上。它們能夠在海量數(shù)據(jù)中找到復(fù)雜的規(guī)律，并基于這些規(guī)律做出預(yù)測(cè)或生成內(nèi)容。但游戲需要的是完全不同類(lèi)型的智能——適應(yīng)性學(xué)習(xí)、創(chuàng)造性問(wèn)題解決、多目標(biāo)優(yōu)化和實(shí)時(shí)決策。這些能力更接近我們所理解的"真正的智能"。

游戲之所以成為智能的試金石，是因?yàn)樗鼈兙哂袔讉€(gè)獨(dú)特的特征。首先，游戲是動(dòng)態(tài)的，狀態(tài)不斷變化，需要持續(xù)的適應(yīng)和學(xué)習(xí)。其次，游戲是交互的，你的每個(gè)行動(dòng)都會(huì)影響后續(xù)的選擇空間。最后，游戲是目標(biāo)導(dǎo)向的，但通往目標(biāo)的路徑往往不是唯一的，需要?jiǎng)?chuàng)造性和靈活性。

研究團(tuán)隊(duì)計(jì)劃將AI游戲商店發(fā)展成一個(gè)持續(xù)進(jìn)化的評(píng)估平臺(tái)。他們?cè)O(shè)想了幾個(gè)重要的擴(kuò)展方向。首先是增加游戲的多樣性和復(fù)雜性，特別是那些需要長(zhǎng)期規(guī)劃和復(fù)雜社交互動(dòng)的游戲。目前的100個(gè)游戲大多是可以在幾分鐘內(nèi)學(xué)會(huì)的休閑游戲，未來(lái)需要包含更多需要小時(shí)甚至天數(shù)才能掌握的復(fù)雜游戲。

其次是改進(jìn)AI與游戲的交互方式。當(dāng)前的系統(tǒng)由于技術(shù)限制，AI只能通過(guò)每秒做出幾個(gè)離散選擇來(lái)玩游戲，這遠(yuǎn)遠(yuǎn)不如人類(lèi)的實(shí)時(shí)交互能力。未來(lái)的系統(tǒng)應(yīng)該能夠支持更自然、更流暢的交互模式，讓AI能夠像人類(lèi)一樣實(shí)時(shí)響應(yīng)游戲狀態(tài)的變化。

更有野心的是引入多智能體游戲環(huán)境。真正的通用智能不僅要能夠解決單人問(wèn)題，還要能夠在復(fù)雜的社交環(huán)境中與其他智能體合作或競(jìng)爭(zhēng)。通過(guò)讓多個(gè)AI在同一個(gè)游戲中互動(dòng)，或者讓AI與人類(lèi)玩家實(shí)時(shí)對(duì)戰(zhàn)，我們能夠測(cè)試AI的社交智能和適應(yīng)能力。

研究團(tuán)隊(duì)還計(jì)劃開(kāi)發(fā)更精細(xì)的認(rèn)知診斷工具。當(dāng)前的七維度評(píng)估體系只是一個(gè)開(kāi)始，未來(lái)可能需要更細(xì)化的認(rèn)知分類(lèi)，以便更準(zhǔn)確地定位AI系統(tǒng)的具體優(yōu)勢(shì)和劣勢(shì)。這種精確診斷不僅有助于改進(jìn)AI系統(tǒng)，也能為認(rèn)知科學(xué)和心理學(xué)研究提供新的工具。

從更宏觀的角度來(lái)看，這項(xiàng)研究提出了一個(gè)重要問(wèn)題：我們應(yīng)該如何定義和衡量人工智能的進(jìn)步？傳統(tǒng)的基準(zhǔn)測(cè)試往往關(guān)注單一維度的性能提升，但真正的智能是多維度能力的有機(jī)整合。游戲評(píng)估提供了一個(gè)更holistic的視角，讓我們能夠觀察AI系統(tǒng)在面對(duì)復(fù)雜、動(dòng)態(tài)、多目標(biāo)任務(wù)時(shí)的綜合表現(xiàn)。

這種評(píng)估方式也具有重要的社會(huì)意義。如果我們的目標(biāo)是創(chuàng)造能夠真正幫助人類(lèi)、與人類(lèi)和諧共處的AI系統(tǒng)，那么這些系統(tǒng)就必須能夠理解和適應(yīng)人類(lèi)的思維方式。游戲恰恰是人類(lèi)思維方式的直接體現(xiàn)，一個(gè)能夠理解人類(lèi)游戲的AI，更有可能理解人類(lèi)的需求、價(jià)值觀和行為模式。

當(dāng)然，這項(xiàng)研究也有其局限性。當(dāng)前的游戲主要來(lái)自西方的數(shù)字游戲平臺(tái)，可能無(wú)法完全代表全球范圍內(nèi)的人類(lèi)游戲文化。未來(lái)的研究需要包含更多樣化的文化背景和游戲類(lèi)型，包括傳統(tǒng)的棋盤(pán)游戲、體感游戲、甚至現(xiàn)實(shí)世界的體育運(yùn)動(dòng)。

另一個(gè)挑戰(zhàn)是如何處理游戲中的隨機(jī)性和不確定性。許多游戲包含運(yùn)氣成分，這使得單次游戲的結(jié)果并不能完全反映玩家的能力。研究團(tuán)隊(duì)需要開(kāi)發(fā)更精確的統(tǒng)計(jì)方法，來(lái)區(qū)分真正的智能表現(xiàn)和隨機(jī)波動(dòng)。

說(shuō)到底，AI游戲商店不僅僅是一個(gè)技術(shù)評(píng)估平臺(tái)，它更像是一面鏡子，讓我們看清當(dāng)前AI技術(shù)的真實(shí)水平，也看清了通向真正通用人工智能的路徑。這項(xiàng)研究告訴我們，創(chuàng)造真正的通用AI不僅僅是技術(shù)問(wèn)題，更是對(duì)智能本質(zhì)的深度理解問(wèn)題。

游戲教會(huì)了我們，真正的智能不是簡(jiǎn)單的模式識(shí)別或數(shù)據(jù)處理，而是在復(fù)雜、動(dòng)態(tài)、不確定的環(huán)境中持續(xù)學(xué)習(xí)、適應(yīng)和創(chuàng)新的能力。這種能力的獲得，可能需要我們重新思考AI系統(tǒng)的基礎(chǔ)架構(gòu)，從當(dāng)前的靜態(tài)模型轉(zhuǎn)向更動(dòng)態(tài)、更靈活、更具適應(yīng)性的智能系統(tǒng)。

Q&A

Q1：AI游戲商店是什么？

A：AI游戲商店是麻省理工學(xué)院等機(jī)構(gòu)開(kāi)發(fā)的人工智能評(píng)估平臺(tái)，通過(guò)讓AI和人類(lèi)玩相同的游戲來(lái)測(cè)試AI的通用智能水平。該平臺(tái)使用大語(yǔ)言模型自動(dòng)從熱門(mén)游戲中生成標(biāo)準(zhǔn)化測(cè)試版本，包含了100個(gè)不同類(lèi)型的游戲，覆蓋視覺(jué)處理、記憶、規(guī)劃等七個(gè)認(rèn)知維度。

Q2：目前最強(qiáng)的AI在游戲中表現(xiàn)如何？

A：表現(xiàn)令人意外地差。最強(qiáng)的GPT-5.2模型平均只能達(dá)到人類(lèi)表現(xiàn)的8.5%，而且需要15-20倍的時(shí)間才能完成同樣的任務(wù)。AI在大約三分之一的游戲中幾乎完全失敗，主要困難集中在需要記憶、規(guī)劃和世界模型學(xué)習(xí)的游戲上。

Q3：為什么用游戲來(lái)評(píng)估AI的通用智能？

A：因?yàn)槿祟?lèi)創(chuàng)造的游戲是現(xiàn)實(shí)世界的抽象和縮影，每個(gè)游戲都在考驗(yàn)特定的認(rèn)知能力組合。游戲需要多種智能能力協(xié)同工作，比單一任務(wù)測(cè)試更能反映真正的通用智能水平。如果AI能夠像人類(lèi)一樣快速學(xué)會(huì)并玩好各種游戲，就證明它具備了類(lèi)人的綜合認(rèn)知能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.