網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

新加坡國(guó)立大學(xué)等機(jī)構(gòu)打造的游戲AI考場(chǎng)

2026-04-17 23:48:03　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由新加坡國(guó)立大學(xué)與牛津大學(xué)聯(lián)合開(kāi)展的研究，發(fā)布于2026年4月，以技術(shù)報(bào)告形式提交至arXiv，編號(hào)為arXiv:2604.07429，有興趣深入了解的讀者可通過(guò)該編號(hào)查閱完整論文。

說(shuō)到測(cè)試一個(gè)人是否真的聰明，光靠筆試遠(yuǎn)遠(yuǎn)不夠。你得看他能不能在復(fù)雜、快節(jié)奏、充滿突發(fā)狀況的環(huán)境里隨機(jī)應(yīng)變。道理放到AI身上同樣成立。研究團(tuán)隊(duì)提出了一個(gè)核心問(wèn)題：如果我們真的想知道那些功能強(qiáng)大的多模態(tài)大語(yǔ)言模型（也就是能同時(shí)看圖、讀文字、做推理的AI）到底有多厲害，是不是應(yīng)該把它們?nèi)舆M(jìn)游戲世界里，讓它們真刀真槍地打一局？

于是，這個(gè)被命名為**GameWorld**的基準(zhǔn)測(cè)試平臺(tái)就此誕生——一個(gè)專門(mén)為AI游戲玩家設(shè)計(jì)的"考場(chǎng)"，涵蓋34款瀏覽器游戲和170個(gè)任務(wù)，要求AI在動(dòng)態(tài)變化的畫(huà)面里做出判斷、規(guī)劃路線、操控角色、完成目標(biāo)。它的與眾不同在于：每一場(chǎng)考試的成績(jī)，都不依賴人的主觀判斷，而是直接從游戲內(nèi)部數(shù)據(jù)里讀取，絕對(duì)客觀，可復(fù)現(xiàn)，可驗(yàn)證。

研究團(tuán)隊(duì)為這套平臺(tái)設(shè)計(jì)了兩種不同的"參賽方式"，并邀請(qǐng)了13個(gè)主流AI模型上場(chǎng)接受檢驗(yàn)，最終形成18組模型與接口的搭配組合。結(jié)果頗為耐人尋味——即便是表現(xiàn)最好的AI選手，離一個(gè)沒(méi)有特別準(zhǔn)備的普通人類玩家還有相當(dāng)距離。這不是一個(gè)讓人沾沾自喜的結(jié)論，而是一個(gè)清醒的提醒：真實(shí)世界的復(fù)雜交互，對(duì)AI而言依然是一座尚未翻越的高山。

一、為什么游戲是測(cè)試AI的理想考場(chǎng)

談到測(cè)試AI能力，學(xué)術(shù)界已經(jīng)積累了相當(dāng)多的方法。有些測(cè)試讓AI回答問(wèn)題，有些讓AI描述圖片，還有些讓AI寫(xiě)代碼或者翻譯文字。這些測(cè)試都有一個(gè)共同的局限：它們大多是"一問(wèn)一答"式的，AI給出答案，考試就結(jié)束了。但現(xiàn)實(shí)世界的任務(wù)往往不是這樣運(yùn)作的。

游戲則完全不同。在游戲里，AI必須反復(fù)觀察當(dāng)前畫(huà)面、做出決策、執(zhí)行操作、再觀察畫(huà)面變化，如此循環(huán)，每一步的錯(cuò)誤都會(huì)影響下一步的處境。這種"看一眼、想一下、做一個(gè)動(dòng)作、再看結(jié)果"的循環(huán)，和我們?nèi)祟愒诂F(xiàn)實(shí)中解決問(wèn)題的方式高度相似。更重要的是，游戲結(jié)果是即時(shí)反饋的——撞墻了就是撞墻了，掉進(jìn)坑里就是掉進(jìn)坑里，沒(méi)有模糊地帶。

研究團(tuán)隊(duì)特別選擇了瀏覽器游戲作為載體，這背后有很實(shí)際的考量。瀏覽器游戲不需要安裝復(fù)雜的游戲引擎，重置方便，可以快速啟動(dòng)多個(gè)獨(dú)立實(shí)例同時(shí)運(yùn)行，非常適合大規(guī)模自動(dòng)化測(cè)試。相比需要模擬器或?qū)Ｓ糜布膫鹘y(tǒng)游戲AI研究，這種方式輕量得多，擴(kuò)展性也更強(qiáng)。

在GameWorld之前，其實(shí)已經(jīng)有一些團(tuán)隊(duì)嘗試過(guò)用游戲來(lái)測(cè)試AI。比如有的研究只覆蓋了6款游戲，有的依賴人工肉眼判斷成績(jī)，有的無(wú)法區(qū)分AI是因?yàn)?想得慢"還是"想得差"而輸?shù)舯荣?。GameWorld針對(duì)這些痛點(diǎn)逐一提出了解法，后面我們會(huì)詳細(xì)展開(kāi)。

二、游戲場(chǎng)館的34個(gè)賽道

GameWorld的游戲庫(kù)按照玩法類型被分成五大類，每一類都在考驗(yàn)AI的不同能力。

第一大類叫做"跑酷類"，共8款游戲，包括大名鼎鼎的Chrome恐龍?zhí)S、神廟逃亡2、Flappy Bird等。這類游戲的特點(diǎn)是場(chǎng)景永遠(yuǎn)在向前推進(jìn)，AI必須以極高的頻率做出反應(yīng)——跳躍、閃避、轉(zhuǎn)彎，一旦慢了半拍，游戲就結(jié)束了。它考驗(yàn)的是AI的"即時(shí)反應(yīng)"能力，類似于人類在高速公路上駕駛時(shí)需要的那種快速判斷。

第二大類是"街機(jī)類"，共7款，比如吃豆人、打磚塊、貪吃蛇。這類游戲同樣節(jié)奏較快，但增加了多個(gè)移動(dòng)實(shí)體需要同時(shí)追蹤的難度——AI不僅要控制自己的角色，還要同時(shí)關(guān)注多個(gè)敵人或目標(biāo)的位置和動(dòng)向，就像同時(shí)盯著棋盤(pán)上多顆棋子一樣。

第三大類是"平臺(tái)跳躍類"，共8款，代表作是馬里奧游戲、Vex 3等。這類游戲要求AI對(duì)物理規(guī)律有精準(zhǔn)的理解——跳躍的時(shí)機(jī)、落點(diǎn)的判斷、與平臺(tái)邊緣的距離控制，差一點(diǎn)點(diǎn)就會(huì)掉下去，考驗(yàn)的是空間感和精細(xì)操控能力。

第四大類是"解謎類"，共7款，包括2048、掃雷、Wordle、俄羅斯方塊、Hextris等。這類游戲的節(jié)奏慢得多，不要求快速反應(yīng)，但要求AI能夠進(jìn)行邏輯推理、規(guī)劃多步棋局、在有限信息下做出最優(yōu)決策。對(duì)于那些以推理能力見(jiàn)長(zhǎng)的AI來(lái)說(shuō)，這里是它們最有可能表現(xiàn)出色的領(lǐng)域。

第五大類是"模擬經(jīng)營(yíng)類"，共4款，有Minecraft克隆版、猴子超市、火男水女等。這類游戲最為開(kāi)放，沒(méi)有單一明確的目標(biāo)，AI需要協(xié)調(diào)多個(gè)子任務(wù)、管理資源、在較長(zhǎng)的時(shí)間跨度內(nèi)保持策略一致性，是對(duì)AI綜合能力的最高考驗(yàn)。

34款游戲里，每款都配備了5個(gè)不同的任務(wù)，共170個(gè)任務(wù)。這些任務(wù)都有精確的量化目標(biāo)，比如"在這一關(guān)收集3枚硬幣"或者"在Wordle里用6次以內(nèi)猜出答案"。任務(wù)說(shuō)明用自然語(yǔ)言寫(xiě)就，但執(zhí)行全靠AI自己觀察畫(huà)面來(lái)決定下一步動(dòng)作，沒(méi)有任何人工提示。

三、兩種參賽方式：高手與通才的對(duì)決

這個(gè)考場(chǎng)設(shè)計(jì)了兩種截然不同的"參賽資格"，對(duì)應(yīng)兩類AI選手。

第一種叫做"電腦操控型"，專業(yè)術(shù)語(yǔ)是Computer-Use Agent，簡(jiǎn)稱CUA。這類AI的能力就像一個(gè)真正操控電腦的人——它能直接發(fā)出鼠標(biāo)點(diǎn)擊指令（點(diǎn)擊屏幕上某個(gè)坐標(biāo)位置）和鍵盤(pán)按鍵指令（按下某個(gè)方向鍵或者組合鍵）。這種方式最接近人類玩游戲的方式，靈活性高，但對(duì)AI的精準(zhǔn)度要求也極高。AI必須從畫(huà)面里判斷出該點(diǎn)哪里、該按什么鍵，差一個(gè)像素位置可能就是天壤之別。

第二種叫做"通用多模態(tài)型"，即Generalist Multimodal Agent。這類AI不直接處理鼠標(biāo)坐標(biāo)和具體按鍵，而是通過(guò)一套事先定義好的"語(yǔ)義動(dòng)作"來(lái)控制游戲。舉個(gè)例子，在馬里奧游戲里，這類AI可以調(diào)用"向右走"、"跳躍"、"向右跳"等預(yù)設(shè)動(dòng)作，系統(tǒng)會(huì)自動(dòng)把這些語(yǔ)義動(dòng)作轉(zhuǎn)換成對(duì)應(yīng)的鍵盤(pán)操作。這樣的設(shè)計(jì)讓那些擅長(zhǎng)理解語(yǔ)言和制定策略、但不擅長(zhǎng)精確點(diǎn)擊坐標(biāo)的AI也能參與測(cè)試。

兩種參賽方式在最底層使用的是同一套操控系統(tǒng)——所有動(dòng)作最終都會(huì)被轉(zhuǎn)換成鼠標(biāo)移動(dòng)、鼠標(biāo)按下/抬起、鍵盤(pán)按下/抬起、等待這幾種最基本的電腦操作指令。這確保了兩種AI在同一套標(biāo)準(zhǔn)下被比較，公平性得到保證。

為了讓AI能夠在較長(zhǎng)時(shí)間內(nèi)保持連貫的策略，研究團(tuán)隊(duì)還為每個(gè)參賽AI配備了一套"工具箱"，包括結(jié)構(gòu)化的提示模板（告訴AI當(dāng)前在玩什么游戲、規(guī)則是什么、任務(wù)目標(biāo)是什么）、滾動(dòng)記憶模塊（記住最近幾輪的操作歷史）、推理能力，以及與各AI提供商原生接口對(duì)接的工具調(diào)用機(jī)制。

四、"暫停鍵"的妙用：讓評(píng)分更公平

游戲測(cè)試面臨一個(gè)棘手的現(xiàn)實(shí)問(wèn)題：不同AI的"思考速度"差異巨大。一個(gè)小模型可能0.5秒就能給出下一步動(dòng)作，而一個(gè)需要深度推理的大模型可能要花6秒甚至更長(zhǎng)。在真實(shí)游戲里，這意味著大模型面對(duì)的游戲狀態(tài)已經(jīng)比小模型更糟糕——因?yàn)橛螒蛟谒伎嫉哪菐酌肜锶匀辉诶^續(xù)運(yùn)行。這就好比讓一個(gè)反應(yīng)快的人和一個(gè)反應(yīng)慢的人比賽拍蒼蠅，卻在慢的人想動(dòng)作的時(shí)候，讓蒼蠅多飛了幾圈——這顯然不公平。

GameWorld通過(guò)一個(gè)巧妙的機(jī)制解決了這個(gè)問(wèn)題：沙盒暫停。當(dāng)AI在處理當(dāng)前畫(huà)面、進(jìn)行推理、準(zhǔn)備下一步動(dòng)作時(shí)，游戲會(huì)自動(dòng)暫停，等到AI給出指令后再繼續(xù)運(yùn)行。這樣，每個(gè)AI面對(duì)的游戲狀態(tài)都是平等的，最終的得分反映的是"這個(gè)AI做了什么決策"，而不是"這個(gè)AI有多快"。

當(dāng)然，研究團(tuán)隊(duì)也意識(shí)到，真實(shí)世界里的AI應(yīng)用不可能永遠(yuǎn)有暫停鍵。于是他們另外設(shè)計(jì)了一個(gè)補(bǔ)充版本叫做GameWorld-RT（RT代表Real-Time，實(shí)時(shí)），在這個(gè)版本里游戲不會(huì)暫停，AI的思考速度本身就成為了影響成績(jī)的因素之一。兩個(gè)版本各有側(cè)重，主版本測(cè)試決策質(zhì)量，RT版本測(cè)試綜合反應(yīng)能力。

五、成績(jī)單怎么打分：從游戲內(nèi)部讀數(shù)據(jù)

傳統(tǒng)游戲AI測(cè)試的評(píng)分方式有不少坑。有的直接截圖后用另一個(gè)AI來(lái)判斷"這步走得好不好"，這等于是讓一個(gè)可能犯錯(cuò)的裁判去評(píng)判一場(chǎng)可能犯錯(cuò)的比賽，誤差疊加，結(jié)果可信度大打折扣。有的用圖像識(shí)別技術(shù)來(lái)讀取畫(huà)面上的數(shù)字，但文字識(shí)別本身就有一定錯(cuò)誤率。

GameWorld的做法是從游戲源代碼層面直接獲取數(shù)據(jù)。研究團(tuán)隊(duì)為34款游戲分別注入了一段JavaScript橋接代碼，這段代碼能實(shí)時(shí)讀取游戲內(nèi)部的狀態(tài)變量，比如當(dāng)前得分、剩余生命、已收集硬幣數(shù)、角色坐標(biāo)、關(guān)卡進(jìn)度等，然后把這些數(shù)據(jù)以結(jié)構(gòu)化格式直接提供給評(píng)分系統(tǒng)。在馬里奧游戲里，這些數(shù)據(jù)包括分?jǐn)?shù)、關(guān)卡編號(hào)、進(jìn)度百分比、玩家坐標(biāo)、生命數(shù)、金幣數(shù)、剩余時(shí)間等十幾個(gè)精確數(shù)值，整個(gè)評(píng)分系統(tǒng)不需要"看"畫(huà)面，而是直接"讀"游戲內(nèi)部數(shù)據(jù)，準(zhǔn)確度接近100%。

每個(gè)任務(wù)對(duì)應(yīng)兩個(gè)評(píng)分指標(biāo)。第一個(gè)是"成功率"，是一個(gè)非0即1的指標(biāo)——這次任務(wù)是否完成了目標(biāo)。第二個(gè)是"進(jìn)度"，是一個(gè)0到100%之間的連續(xù)數(shù)值，表示AI在這次任務(wù)里走了多遠(yuǎn)。比如任務(wù)是"收集10枚硬幣"，AI收集了5枚就掛掉了，進(jìn)度就是50%。引入進(jìn)度這個(gè)指標(biāo)非常重要，因?yàn)樗軈^(qū)分"什么都沒(méi)做就失敗"和"做到一半才失敗"這兩種截然不同的情況，給AI能力的刻畫(huà)提供了更細(xì)膩的維度。

當(dāng)AI在游戲中觸發(fā)失敗條件（比如在馬里奧里掉進(jìn)深淵），游戲不會(huì)立即結(jié)束整個(gè)測(cè)試，而是重置到任務(wù)起點(diǎn)，讓AI在剩余的操作步數(shù)預(yù)算里繼續(xù)嘗試，并保留這次嘗試中已經(jīng)達(dá)到的最佳進(jìn)度記錄。這意味著一次早期失誤不會(huì)把AI整場(chǎng)表現(xiàn)全部清零，評(píng)分更能反映AI的真實(shí)能力。

六、18支隊(duì)伍上場(chǎng)：成績(jī)出爐

研究團(tuán)隊(duì)選擇了13個(gè)當(dāng)前最具代表性的AI模型，形成18組模型與接口的搭配。其中包括來(lái)自Anthropic的Claude-Sonnet-4.6、谷歌的Gemini-2.5-Computer-Use和Gemini-3-Flash-Preview、Z.ai的GLM-4.6V、OpenAI的GPT-5.2和專屬電腦操控版、xAI的Grok-4.1-Fast-Reasoning、Moonshot的Kimi-K2.5、阿里巴巴的Qwen3-VL-Plus、字節(jié)跳動(dòng)的Seed-1.8，以及三款開(kāi)源模型Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B。

測(cè)試結(jié)果顯示，通用多模態(tài)型中成績(jī)最好的是谷歌的Gemini-3-Flash-Preview，整體進(jìn)度得分達(dá)到41.9%，緊隨其后的是GPT-5.2（40.6%）、Claude-Sonnet-4.6（39.3%）和Seed-1.8（39.0%）。電腦操控型中成績(jī)最好的是Seed-1.8，進(jìn)度得分為39.8%，Claude-Sonnet-4.6以38.3%緊跟其后。

這些數(shù)字乍看不低，但和人類玩家一比就相形見(jiàn)絀了。研究團(tuán)隊(duì)找來(lái)了兩位計(jì)算機(jī)專業(yè)的研究生進(jìn)行對(duì)照測(cè)試，在相同的操作步數(shù)限制下，完全沒(méi)有接觸過(guò)這些游戲和任務(wù)的新手玩家平均進(jìn)度達(dá)到64.1%，成功率達(dá)到55.3%；而事先研究過(guò)游戲規(guī)則和任務(wù)細(xì)節(jié)的熟練玩家則達(dá)到了82.6%的進(jìn)度和77.1%的成功率。最好的AI模型和最差的人類玩家之間，仍然存在約22個(gè)百分點(diǎn)的進(jìn)度差距。

從游戲類型來(lái)看，AI在跑酷類游戲上的進(jìn)度普遍相對(duì)較高，而在模擬經(jīng)營(yíng)類游戲上幾乎所有模型都表現(xiàn)糟糕——后者要求長(zhǎng)期規(guī)劃和多目標(biāo)協(xié)調(diào)，正好戳中了當(dāng)前AI的軟肋。解謎類游戲成績(jī)參差不齊，邏輯推理強(qiáng)的模型表現(xiàn)相對(duì)較好，但遇到需要精準(zhǔn)視覺(jué)判斷的場(chǎng)景（比如掃雷里讀取數(shù)字格局）仍然頻頻出錯(cuò)。

七、五個(gè)能力等級(jí)的剖析

光看總分還不夠，研究團(tuán)隊(duì)進(jìn)一步把34款游戲按照它們主要考驗(yàn)的能力類型，排列成一個(gè)五層的能力階梯，來(lái)診斷AI到底敗在哪里。

第一層叫做"基礎(chǔ)操控與時(shí)機(jī)把握"，對(duì)應(yīng)的是最簡(jiǎn)單的動(dòng)作——在正確的時(shí)候按下正確的鍵。打磚塊、Core Ball、Stack這類游戲?qū)儆谶@一層，戰(zhàn)略負(fù)擔(dān)輕，主要考察AI能不能把視覺(jué)判斷轉(zhuǎn)化為準(zhǔn)確的操控動(dòng)作。

第二層叫做"系統(tǒng)一式即時(shí)反應(yīng)"（借用了心理學(xué)里的"系統(tǒng)一"概念，指的是快速、直覺(jué)性的判斷），對(duì)應(yīng)持續(xù)高頻的動(dòng)作決策，比如Chrome恐龍、Flappy Bird、神廟逃亡2等。這層考的是純粹的反應(yīng)速度和動(dòng)作穩(wěn)定性。

第三層叫做"系統(tǒng)二式空間導(dǎo)航"，對(duì)應(yīng)需要思考路徑、規(guī)劃行進(jìn)方向的游戲，比如吃豆人、馬里奧、Wolfenstein 3D等。這里不只需要快，還需要在腦子里維持一個(gè)空間地圖。

第四層叫做"符號(hào)推理與策略"，對(duì)應(yīng)解謎類游戲，需要AI理解規(guī)則、規(guī)劃多步棋局、在抽象狀態(tài)空間里做決策。Wordle、掃雷、2048、俄羅斯方塊屬于這一層。

第五層叫做"開(kāi)放世界協(xié)調(diào)與管理"，對(duì)應(yīng)模擬經(jīng)營(yíng)類游戲，是最復(fù)雜的，要求AI同時(shí)追蹤多個(gè)目標(biāo)、管理資源、在長(zhǎng)時(shí)間跨度里保持策略一致性。

測(cè)試結(jié)果揭示了一個(gè)清晰的能力圖譜：無(wú)論是通用型還是電腦操控型AI，在第四層（策略推理）和第二層（即時(shí)反應(yīng)）的成績(jī)相對(duì)較好，而在第一層（基礎(chǔ)時(shí)機(jī)把握）和第五層（長(zhǎng)期協(xié)調(diào)）的成績(jī)則明顯偏低。換句話說(shuō)，AI在做"想清楚該做什么"這件事上已經(jīng)有了相當(dāng)水平，但在"恰好在對(duì)的時(shí)刻做"和"幾十步之后還能記得最初目標(biāo)"這兩點(diǎn)上，仍然存在顯著短板。

八、重復(fù)測(cè)試：這個(gè)考場(chǎng)靠譜嗎

一套評(píng)測(cè)系統(tǒng)要有價(jià)值，首先要穩(wěn)定——同一個(gè)AI今天考和明天考，成績(jī)應(yīng)該大差不差，否則這個(gè)成績(jī)就沒(méi)有參考意義。研究團(tuán)隊(duì)對(duì)此進(jìn)行了嚴(yán)格驗(yàn)證，選取了Qwen3-VL-30B-A3B和Qwen3-VL-235B-A22B兩個(gè)開(kāi)源模型，每個(gè)模型在電腦操控和通用兩種接口下各運(yùn)行10次完整的全量測(cè)試，合計(jì)覆蓋170個(gè)任務(wù)的10輪重復(fù)。

結(jié)果顯示，四種搭配的整體進(jìn)度得分標(biāo)準(zhǔn)差都在1.1個(gè)百分點(diǎn)左右，成功率的波動(dòng)也同樣有限。這意味著GameWorld確實(shí)能夠作為一個(gè)穩(wěn)定的測(cè)量平臺(tái)來(lái)使用，而不是一次性的快照。當(dāng)然，也有少數(shù)游戲（比如Hextris、Cubefield、Wordle）表現(xiàn)出了更明顯的輪次間波動(dòng)，這恰恰說(shuō)明這些游戲是真正有挑戰(zhàn)性、有區(qū)分度的項(xiàng)目，能夠捕捉到AI能力的細(xì)微差異。

九、記憶長(zhǎng)短的權(quán)衡：上下文越多越好？

研究團(tuán)隊(duì)還專門(mén)研究了AI的"記憶量"對(duì)成績(jī)的影響。每一步操作時(shí)，AI可以選擇攜帶多少輪歷史記錄。記0輪意味著AI每次都像第一次看到游戲一樣，忘記了之前所有操作；記2輪意味著AI能看到最近兩輪的操作歷史。

測(cè)試結(jié)果揭示了一個(gè)有趣的分歧：對(duì)于通用型AI，記憶輪數(shù)從0增加到2時(shí)，進(jìn)度得分有小幅提升；但對(duì)于電腦操控型AI，隨著記憶輪數(shù)增加，成績(jī)反而持續(xù)下降。背后的原因也不難理解——通用型AI的歷史記錄是語(yǔ)義化的（"我上次向右走了"），信息密度高，有助于避免重復(fù)錯(cuò)誤；而電腦操控型AI的歷史記錄是底層坐標(biāo)和按鍵序列（"我上次點(diǎn)擊了坐標(biāo)(512, 384)"），信息量雖大但語(yǔ)義稀疏，大量低價(jià)值的歷史信息反而成了干擾。

與此同時(shí)，記憶量增加帶來(lái)的推理時(shí)間代價(jià)非常顯著。通用型AI從0輪記憶到2輪記憶，每步的平均時(shí)間從5.5秒增加到8.6秒，輸入的token數(shù)量從約1300增加到約3000；電腦操控型則從約1900 token增加到約5600 token，每步時(shí)間從7.2秒增加到12.8秒。記憶不是免費(fèi)的，使用時(shí)需要權(quán)衡。

十、指令遵守率：AI有時(shí)候會(huì)"忘記規(guī)則"

游戲測(cè)試?yán)镞€有一個(gè)微妙但重要的指標(biāo)：AI發(fā)出的動(dòng)作是否在游戲允許的范圍之內(nèi)。研究團(tuán)隊(duì)統(tǒng)計(jì)了每個(gè)模型的"無(wú)效動(dòng)作率"，也就是那些不符合規(guī)則、無(wú)法被執(zhí)行的動(dòng)作占所有動(dòng)作的比例。

結(jié)果顯示，大多數(shù)頂尖模型的無(wú)效動(dòng)作率極低，接近于零。但也有例外——GLM-4.6V的無(wú)效動(dòng)作率高達(dá)8.3%，主要問(wèn)題是它發(fā)出了自然語(yǔ)言文字而不是工具調(diào)用格式的指令，意思說(shuō)得清楚，但格式不對(duì)；Qwen3-VL-30B-A3B的無(wú)效動(dòng)作率為2.7%，主要是在長(zhǎng)時(shí)間對(duì)話后"忘記"了當(dāng)前游戲允許的動(dòng)作范圍，調(diào)用了不存在的指令。UI-TARS-1.5-7B則有0.4%的動(dòng)作落在了游戲規(guī)定的操控范圍之外。這些數(shù)據(jù)揭示了一個(gè)實(shí)際問(wèn)題：在長(zhǎng)時(shí)間的交互序列中，模型有一定概率出現(xiàn)"指令漂移"，忘記約束條件或者格式要求，這在實(shí)際應(yīng)用中是必須被重視的可靠性問(wèn)題。

十一、實(shí)時(shí)版的挑戰(zhàn)：思考和行動(dòng)必須同時(shí)在線

GameWorld-RT版本的測(cè)試給出了一個(gè)清醒的提示。在不暫停的實(shí)時(shí)環(huán)境下，Qwen3-VL-30B-A3B平均每步只需要2.4秒（通用型）或2.4秒（電腦操控型），而Qwen3-VL-235B-A22B則需要6秒以上。速度快的小模型整體進(jìn)度約為33%，速度慢但更聰明的大模型整體進(jìn)度約為33-34%，兩者成績(jī)接近，說(shuō)明在實(shí)時(shí)環(huán)境里，單純的"想得快"或者"想得對(duì)"都不足以拉開(kāi)差距，真正的挑戰(zhàn)是同時(shí)做到兩者。

值得注意的是，實(shí)時(shí)版的成績(jī)不能和暫停版直接比較，因?yàn)樵趯?shí)時(shí)版里，AI思考的那幾秒游戲仍在繼續(xù)運(yùn)行，實(shí)際上等于給了AI更長(zhǎng)的"游戲時(shí)間"但更短的"有效決策窗口"。這兩個(gè)版本測(cè)量的是不同維度的能力，相輔相成。

十二、失敗的四種面孔

研究團(tuán)隊(duì)通過(guò)仔細(xì)分析失敗案例，歸納出了AI在游戲里失敗的四類典型模式，像是四種不同類型的"考試失分點(diǎn)"。

第一類是感知失誤：AI看錯(cuò)了畫(huà)面，把障礙物認(rèn)成了空地，或者誤判了自己角色的位置，導(dǎo)致錯(cuò)誤的決策。這類錯(cuò)誤在畫(huà)面復(fù)雜或者信息密集的場(chǎng)景里尤為突出。

第二類是精細(xì)動(dòng)作失誤：AI理解了該做什么，但在執(zhí)行層面出了問(wèn)題——跳晚了半拍、按鍵時(shí)間太短或太長(zhǎng)、組合鍵的時(shí)序不對(duì)。策略正確，執(zhí)行偏差。

第三類是指令遵循失誤：AI在長(zhǎng)時(shí)間交互后逐漸偏離了任務(wù)目標(biāo)，開(kāi)始執(zhí)行一些無(wú)關(guān)動(dòng)作，或者嘗試調(diào)用不存在的操控指令，甚至忽視了任務(wù)的核心要求。

第四類是長(zhǎng)期記憶失誤：AI在多步任務(wù)里丟失了關(guān)鍵的歷史信息，陷入重復(fù)循環(huán)——比如一直走同一條路、一遍又一遍地做同樣的無(wú)效動(dòng)作，卻無(wú)法意識(shí)到自己在打轉(zhuǎn)，更無(wú)法自我糾正。

這四類失敗模式提供了清晰的改進(jìn)方向：更好的視覺(jué)理解、更精準(zhǔn)的動(dòng)作控制、更強(qiáng)的長(zhǎng)期記憶，以及更穩(wěn)健的指令遵循能力。

歸根結(jié)底，GameWorld想要回答的問(wèn)題是：我們的AI，真的準(zhǔn)備好應(yīng)對(duì)復(fù)雜的現(xiàn)實(shí)世界了嗎？答案是：還沒(méi)有，但我們終于有了一把能夠精確量尺來(lái)持續(xù)丈量這段距離。

當(dāng)前最好的AI模型在游戲里的表現(xiàn)，和一個(gè)沒(méi)有特別準(zhǔn)備的普通人相比，仍然有將近22個(gè)百分點(diǎn)的進(jìn)度差距。這個(gè)差距既存在于需要快速反應(yīng)的動(dòng)作層面，也存在于需要長(zhǎng)時(shí)間規(guī)劃的策略層面，更存在于在數(shù)十步操作之后仍然記得"我的最終目標(biāo)是什么"的記憶層面。

對(duì)于普通人來(lái)說(shuō)，這項(xiàng)研究意味著：當(dāng)你聽(tīng)說(shuō)某個(gè)AI"能玩游戲"的時(shí)候，不妨多問(wèn)一句——它能完成任務(wù)嗎，還是只是在隨機(jī)按鍵？而GameWorld這把尺子，正是為了讓這個(gè)問(wèn)題有一個(gè)清晰、可重復(fù)、可驗(yàn)證的答案而存在的。有興趣深入了解技術(shù)細(xì)節(jié)的讀者，可以通過(guò)arXiv:2604.07429查閱完整研究報(bào)告。

Q&A

Q1：GameWorld基準(zhǔn)測(cè)試和其他AI游戲測(cè)試平臺(tái)有什么區(qū)別？

A：GameWorld最核心的區(qū)別在于評(píng)分方式。它不依賴截圖識(shí)別或另一個(gè)AI來(lái)判斷成績(jī)，而是直接從游戲源代碼內(nèi)部讀取數(shù)據(jù)，比如得分、坐標(biāo)、硬幣數(shù)等，評(píng)分結(jié)果完全確定、可重現(xiàn)。此外，它通過(guò)暫停機(jī)制把AI的思考速度和決策質(zhì)量分開(kāi)考察，確保評(píng)分公平，而不是讓反應(yīng)快的AI天然占優(yōu)。

Q2：GameWorld里哪類游戲?qū)I來(lái)說(shuō)最難？

A：模擬經(jīng)營(yíng)類游戲?qū)缀跛蠥I來(lái)說(shuō)都是最大的挑戰(zhàn)，因?yàn)檫@類游戲需要同時(shí)協(xié)調(diào)多個(gè)目標(biāo)、管理資源，并在幾十步操作后仍然記得最初的策略方向。測(cè)試結(jié)果顯示，大多數(shù)模型在猴子超市、Minecraft這類游戲上的成功率接近于零，進(jìn)度得分也普遍偏低。

Q3：GameWorld測(cè)試用的是哪些AI模型，開(kāi)源模型表現(xiàn)怎么樣？

A：測(cè)試涵蓋了Claude、Gemini、GPT-5.2、Grok、Kimi等主流商業(yè)模型，以及Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B三款開(kāi)源模型。開(kāi)源模型的總體進(jìn)度得分在30%至31%之間，低于表現(xiàn)最好的商業(yè)模型約10個(gè)百分點(diǎn)，但穩(wěn)定性經(jīng)過(guò)10輪重復(fù)測(cè)試驗(yàn)證，波動(dòng)在1.1%以內(nèi)，表現(xiàn)具有可重現(xiàn)性。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.