国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

新加坡國(guó)立大學(xué)等機(jī)構(gòu)打造的游戲AI考場(chǎng)

0
分享至


這項(xiàng)由新加坡國(guó)立大學(xué)與牛津大學(xué)聯(lián)合開(kāi)展的研究,發(fā)布于2026年4月,以技術(shù)報(bào)告形式提交至arXiv,編號(hào)為arXiv:2604.07429,有興趣深入了解的讀者可通過(guò)該編號(hào)查閱完整論文。

說(shuō)到測(cè)試一個(gè)人是否真的聰明,光靠筆試遠(yuǎn)遠(yuǎn)不夠。你得看他能不能在復(fù)雜、快節(jié)奏、充滿突發(fā)狀況的環(huán)境里隨機(jī)應(yīng)變。道理放到AI身上同樣成立。研究團(tuán)隊(duì)提出了一個(gè)核心問(wèn)題:如果我們真的想知道那些功能強(qiáng)大的多模態(tài)大語(yǔ)言模型(也就是能同時(shí)看圖、讀文字、做推理的AI)到底有多厲害,是不是應(yīng)該把它們?nèi)舆M(jìn)游戲世界里,讓它們真刀真槍地打一局?

于是,這個(gè)被命名為**GameWorld**的基準(zhǔn)測(cè)試平臺(tái)就此誕生——一個(gè)專門(mén)為AI游戲玩家設(shè)計(jì)的"考場(chǎng)",涵蓋34款瀏覽器游戲和170個(gè)任務(wù),要求AI在動(dòng)態(tài)變化的畫(huà)面里做出判斷、規(guī)劃路線、操控角色、完成目標(biāo)。它的與眾不同在于:每一場(chǎng)考試的成績(jī),都不依賴人的主觀判斷,而是直接從游戲內(nèi)部數(shù)據(jù)里讀取,絕對(duì)客觀,可復(fù)現(xiàn),可驗(yàn)證。

研究團(tuán)隊(duì)為這套平臺(tái)設(shè)計(jì)了兩種不同的"參賽方式",并邀請(qǐng)了13個(gè)主流AI模型上場(chǎng)接受檢驗(yàn),最終形成18組模型與接口的搭配組合。結(jié)果頗為耐人尋味——即便是表現(xiàn)最好的AI選手,離一個(gè)沒(méi)有特別準(zhǔn)備的普通人類玩家還有相當(dāng)距離。這不是一個(gè)讓人沾沾自喜的結(jié)論,而是一個(gè)清醒的提醒:真實(shí)世界的復(fù)雜交互,對(duì)AI而言依然是一座尚未翻越的高山。

一、為什么游戲是測(cè)試AI的理想考場(chǎng)

談到測(cè)試AI能力,學(xué)術(shù)界已經(jīng)積累了相當(dāng)多的方法。有些測(cè)試讓AI回答問(wèn)題,有些讓AI描述圖片,還有些讓AI寫(xiě)代碼或者翻譯文字。這些測(cè)試都有一個(gè)共同的局限:它們大多是"一問(wèn)一答"式的,AI給出答案,考試就結(jié)束了。但現(xiàn)實(shí)世界的任務(wù)往往不是這樣運(yùn)作的。

游戲則完全不同。在游戲里,AI必須反復(fù)觀察當(dāng)前畫(huà)面、做出決策、執(zhí)行操作、再觀察畫(huà)面變化,如此循環(huán),每一步的錯(cuò)誤都會(huì)影響下一步的處境。這種"看一眼、想一下、做一個(gè)動(dòng)作、再看結(jié)果"的循環(huán),和我們?nèi)祟愒诂F(xiàn)實(shí)中解決問(wèn)題的方式高度相似。更重要的是,游戲結(jié)果是即時(shí)反饋的——撞墻了就是撞墻了,掉進(jìn)坑里就是掉進(jìn)坑里,沒(méi)有模糊地帶。

研究團(tuán)隊(duì)特別選擇了瀏覽器游戲作為載體,這背后有很實(shí)際的考量。瀏覽器游戲不需要安裝復(fù)雜的游戲引擎,重置方便,可以快速啟動(dòng)多個(gè)獨(dú)立實(shí)例同時(shí)運(yùn)行,非常適合大規(guī)模自動(dòng)化測(cè)試。相比需要模擬器或?qū)S糜布膫鹘y(tǒng)游戲AI研究,這種方式輕量得多,擴(kuò)展性也更強(qiáng)。

在GameWorld之前,其實(shí)已經(jīng)有一些團(tuán)隊(duì)嘗試過(guò)用游戲來(lái)測(cè)試AI。比如有的研究只覆蓋了6款游戲,有的依賴人工肉眼判斷成績(jī),有的無(wú)法區(qū)分AI是因?yàn)?想得慢"還是"想得差"而輸?shù)舯荣?。GameWorld針對(duì)這些痛點(diǎn)逐一提出了解法,后面我們會(huì)詳細(xì)展開(kāi)。

二、游戲場(chǎng)館的34個(gè)賽道

GameWorld的游戲庫(kù)按照玩法類型被分成五大類,每一類都在考驗(yàn)AI的不同能力。

第一大類叫做"跑酷類",共8款游戲,包括大名鼎鼎的Chrome恐龍?zhí)S、神廟逃亡2、Flappy Bird等。這類游戲的特點(diǎn)是場(chǎng)景永遠(yuǎn)在向前推進(jìn),AI必須以極高的頻率做出反應(yīng)——跳躍、閃避、轉(zhuǎn)彎,一旦慢了半拍,游戲就結(jié)束了。它考驗(yàn)的是AI的"即時(shí)反應(yīng)"能力,類似于人類在高速公路上駕駛時(shí)需要的那種快速判斷。

第二大類是"街機(jī)類",共7款,比如吃豆人、打磚塊、貪吃蛇。這類游戲同樣節(jié)奏較快,但增加了多個(gè)移動(dòng)實(shí)體需要同時(shí)追蹤的難度——AI不僅要控制自己的角色,還要同時(shí)關(guān)注多個(gè)敵人或目標(biāo)的位置和動(dòng)向,就像同時(shí)盯著棋盤(pán)上多顆棋子一樣。

第三大類是"平臺(tái)跳躍類",共8款,代表作是馬里奧游戲、Vex 3等。這類游戲要求AI對(duì)物理規(guī)律有精準(zhǔn)的理解——跳躍的時(shí)機(jī)、落點(diǎn)的判斷、與平臺(tái)邊緣的距離控制,差一點(diǎn)點(diǎn)就會(huì)掉下去,考驗(yàn)的是空間感和精細(xì)操控能力。

第四大類是"解謎類",共7款,包括2048、掃雷、Wordle、俄羅斯方塊、Hextris等。這類游戲的節(jié)奏慢得多,不要求快速反應(yīng),但要求AI能夠進(jìn)行邏輯推理、規(guī)劃多步棋局、在有限信息下做出最優(yōu)決策。對(duì)于那些以推理能力見(jiàn)長(zhǎng)的AI來(lái)說(shuō),這里是它們最有可能表現(xiàn)出色的領(lǐng)域。

第五大類是"模擬經(jīng)營(yíng)類",共4款,有Minecraft克隆版、猴子超市、火男水女等。這類游戲最為開(kāi)放,沒(méi)有單一明確的目標(biāo),AI需要協(xié)調(diào)多個(gè)子任務(wù)、管理資源、在較長(zhǎng)的時(shí)間跨度內(nèi)保持策略一致性,是對(duì)AI綜合能力的最高考驗(yàn)。

34款游戲里,每款都配備了5個(gè)不同的任務(wù),共170個(gè)任務(wù)。這些任務(wù)都有精確的量化目標(biāo),比如"在這一關(guān)收集3枚硬幣"或者"在Wordle里用6次以內(nèi)猜出答案"。任務(wù)說(shuō)明用自然語(yǔ)言寫(xiě)就,但執(zhí)行全靠AI自己觀察畫(huà)面來(lái)決定下一步動(dòng)作,沒(méi)有任何人工提示。

三、兩種參賽方式:高手與通才的對(duì)決

這個(gè)考場(chǎng)設(shè)計(jì)了兩種截然不同的"參賽資格",對(duì)應(yīng)兩類AI選手。

第一種叫做"電腦操控型",專業(yè)術(shù)語(yǔ)是Computer-Use Agent,簡(jiǎn)稱CUA。這類AI的能力就像一個(gè)真正操控電腦的人——它能直接發(fā)出鼠標(biāo)點(diǎn)擊指令(點(diǎn)擊屏幕上某個(gè)坐標(biāo)位置)和鍵盤(pán)按鍵指令(按下某個(gè)方向鍵或者組合鍵)。這種方式最接近人類玩游戲的方式,靈活性高,但對(duì)AI的精準(zhǔn)度要求也極高。AI必須從畫(huà)面里判斷出該點(diǎn)哪里、該按什么鍵,差一個(gè)像素位置可能就是天壤之別。

第二種叫做"通用多模態(tài)型",即Generalist Multimodal Agent。這類AI不直接處理鼠標(biāo)坐標(biāo)和具體按鍵,而是通過(guò)一套事先定義好的"語(yǔ)義動(dòng)作"來(lái)控制游戲。舉個(gè)例子,在馬里奧游戲里,這類AI可以調(diào)用"向右走"、"跳躍"、"向右跳"等預(yù)設(shè)動(dòng)作,系統(tǒng)會(huì)自動(dòng)把這些語(yǔ)義動(dòng)作轉(zhuǎn)換成對(duì)應(yīng)的鍵盤(pán)操作。這樣的設(shè)計(jì)讓那些擅長(zhǎng)理解語(yǔ)言和制定策略、但不擅長(zhǎng)精確點(diǎn)擊坐標(biāo)的AI也能參與測(cè)試。

兩種參賽方式在最底層使用的是同一套操控系統(tǒng)——所有動(dòng)作最終都會(huì)被轉(zhuǎn)換成鼠標(biāo)移動(dòng)、鼠標(biāo)按下/抬起、鍵盤(pán)按下/抬起、等待這幾種最基本的電腦操作指令。這確保了兩種AI在同一套標(biāo)準(zhǔn)下被比較,公平性得到保證。

為了讓AI能夠在較長(zhǎng)時(shí)間內(nèi)保持連貫的策略,研究團(tuán)隊(duì)還為每個(gè)參賽AI配備了一套"工具箱",包括結(jié)構(gòu)化的提示模板(告訴AI當(dāng)前在玩什么游戲、規(guī)則是什么、任務(wù)目標(biāo)是什么)、滾動(dòng)記憶模塊(記住最近幾輪的操作歷史)、推理能力,以及與各AI提供商原生接口對(duì)接的工具調(diào)用機(jī)制。

四、"暫停鍵"的妙用:讓評(píng)分更公平

游戲測(cè)試面臨一個(gè)棘手的現(xiàn)實(shí)問(wèn)題:不同AI的"思考速度"差異巨大。一個(gè)小模型可能0.5秒就能給出下一步動(dòng)作,而一個(gè)需要深度推理的大模型可能要花6秒甚至更長(zhǎng)。在真實(shí)游戲里,這意味著大模型面對(duì)的游戲狀態(tài)已經(jīng)比小模型更糟糕——因?yàn)橛螒蛟谒伎嫉哪菐酌肜锶匀辉诶^續(xù)運(yùn)行。這就好比讓一個(gè)反應(yīng)快的人和一個(gè)反應(yīng)慢的人比賽拍蒼蠅,卻在慢的人想動(dòng)作的時(shí)候,讓蒼蠅多飛了幾圈——這顯然不公平。

GameWorld通過(guò)一個(gè)巧妙的機(jī)制解決了這個(gè)問(wèn)題:沙盒暫停。當(dāng)AI在處理當(dāng)前畫(huà)面、進(jìn)行推理、準(zhǔn)備下一步動(dòng)作時(shí),游戲會(huì)自動(dòng)暫停,等到AI給出指令后再繼續(xù)運(yùn)行。這樣,每個(gè)AI面對(duì)的游戲狀態(tài)都是平等的,最終的得分反映的是"這個(gè)AI做了什么決策",而不是"這個(gè)AI有多快"。

當(dāng)然,研究團(tuán)隊(duì)也意識(shí)到,真實(shí)世界里的AI應(yīng)用不可能永遠(yuǎn)有暫停鍵。于是他們另外設(shè)計(jì)了一個(gè)補(bǔ)充版本叫做GameWorld-RT(RT代表Real-Time,實(shí)時(shí)),在這個(gè)版本里游戲不會(huì)暫停,AI的思考速度本身就成為了影響成績(jī)的因素之一。兩個(gè)版本各有側(cè)重,主版本測(cè)試決策質(zhì)量,RT版本測(cè)試綜合反應(yīng)能力。

五、成績(jī)單怎么打分:從游戲內(nèi)部讀數(shù)據(jù)

傳統(tǒng)游戲AI測(cè)試的評(píng)分方式有不少坑。有的直接截圖后用另一個(gè)AI來(lái)判斷"這步走得好不好",這等于是讓一個(gè)可能犯錯(cuò)的裁判去評(píng)判一場(chǎng)可能犯錯(cuò)的比賽,誤差疊加,結(jié)果可信度大打折扣。有的用圖像識(shí)別技術(shù)來(lái)讀取畫(huà)面上的數(shù)字,但文字識(shí)別本身就有一定錯(cuò)誤率。

GameWorld的做法是從游戲源代碼層面直接獲取數(shù)據(jù)。研究團(tuán)隊(duì)為34款游戲分別注入了一段JavaScript橋接代碼,這段代碼能實(shí)時(shí)讀取游戲內(nèi)部的狀態(tài)變量,比如當(dāng)前得分、剩余生命、已收集硬幣數(shù)、角色坐標(biāo)、關(guān)卡進(jìn)度等,然后把這些數(shù)據(jù)以結(jié)構(gòu)化格式直接提供給評(píng)分系統(tǒng)。在馬里奧游戲里,這些數(shù)據(jù)包括分?jǐn)?shù)、關(guān)卡編號(hào)、進(jìn)度百分比、玩家坐標(biāo)、生命數(shù)、金幣數(shù)、剩余時(shí)間等十幾個(gè)精確數(shù)值,整個(gè)評(píng)分系統(tǒng)不需要"看"畫(huà)面,而是直接"讀"游戲內(nèi)部數(shù)據(jù),準(zhǔn)確度接近100%。

每個(gè)任務(wù)對(duì)應(yīng)兩個(gè)評(píng)分指標(biāo)。第一個(gè)是"成功率",是一個(gè)非0即1的指標(biāo)——這次任務(wù)是否完成了目標(biāo)。第二個(gè)是"進(jìn)度",是一個(gè)0到100%之間的連續(xù)數(shù)值,表示AI在這次任務(wù)里走了多遠(yuǎn)。比如任務(wù)是"收集10枚硬幣",AI收集了5枚就掛掉了,進(jìn)度就是50%。引入進(jìn)度這個(gè)指標(biāo)非常重要,因?yàn)樗軈^(qū)分"什么都沒(méi)做就失敗"和"做到一半才失敗"這兩種截然不同的情況,給AI能力的刻畫(huà)提供了更細(xì)膩的維度。

當(dāng)AI在游戲中觸發(fā)失敗條件(比如在馬里奧里掉進(jìn)深淵),游戲不會(huì)立即結(jié)束整個(gè)測(cè)試,而是重置到任務(wù)起點(diǎn),讓AI在剩余的操作步數(shù)預(yù)算里繼續(xù)嘗試,并保留這次嘗試中已經(jīng)達(dá)到的最佳進(jìn)度記錄。這意味著一次早期失誤不會(huì)把AI整場(chǎng)表現(xiàn)全部清零,評(píng)分更能反映AI的真實(shí)能力。

六、18支隊(duì)伍上場(chǎng):成績(jī)出爐

研究團(tuán)隊(duì)選擇了13個(gè)當(dāng)前最具代表性的AI模型,形成18組模型與接口的搭配。其中包括來(lái)自Anthropic的Claude-Sonnet-4.6、谷歌的Gemini-2.5-Computer-Use和Gemini-3-Flash-Preview、Z.ai的GLM-4.6V、OpenAI的GPT-5.2和專屬電腦操控版、xAI的Grok-4.1-Fast-Reasoning、Moonshot的Kimi-K2.5、阿里巴巴的Qwen3-VL-Plus、字節(jié)跳動(dòng)的Seed-1.8,以及三款開(kāi)源模型Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B。

測(cè)試結(jié)果顯示,通用多模態(tài)型中成績(jī)最好的是谷歌的Gemini-3-Flash-Preview,整體進(jìn)度得分達(dá)到41.9%,緊隨其后的是GPT-5.2(40.6%)、Claude-Sonnet-4.6(39.3%)和Seed-1.8(39.0%)。電腦操控型中成績(jī)最好的是Seed-1.8,進(jìn)度得分為39.8%,Claude-Sonnet-4.6以38.3%緊跟其后。

這些數(shù)字乍看不低,但和人類玩家一比就相形見(jiàn)絀了。研究團(tuán)隊(duì)找來(lái)了兩位計(jì)算機(jī)專業(yè)的研究生進(jìn)行對(duì)照測(cè)試,在相同的操作步數(shù)限制下,完全沒(méi)有接觸過(guò)這些游戲和任務(wù)的新手玩家平均進(jìn)度達(dá)到64.1%,成功率達(dá)到55.3%;而事先研究過(guò)游戲規(guī)則和任務(wù)細(xì)節(jié)的熟練玩家則達(dá)到了82.6%的進(jìn)度和77.1%的成功率。最好的AI模型和最差的人類玩家之間,仍然存在約22個(gè)百分點(diǎn)的進(jìn)度差距。

從游戲類型來(lái)看,AI在跑酷類游戲上的進(jìn)度普遍相對(duì)較高,而在模擬經(jīng)營(yíng)類游戲上幾乎所有模型都表現(xiàn)糟糕——后者要求長(zhǎng)期規(guī)劃和多目標(biāo)協(xié)調(diào),正好戳中了當(dāng)前AI的軟肋。解謎類游戲成績(jī)參差不齊,邏輯推理強(qiáng)的模型表現(xiàn)相對(duì)較好,但遇到需要精準(zhǔn)視覺(jué)判斷的場(chǎng)景(比如掃雷里讀取數(shù)字格局)仍然頻頻出錯(cuò)。

七、五個(gè)能力等級(jí)的剖析

光看總分還不夠,研究團(tuán)隊(duì)進(jìn)一步把34款游戲按照它們主要考驗(yàn)的能力類型,排列成一個(gè)五層的能力階梯,來(lái)診斷AI到底敗在哪里。

第一層叫做"基礎(chǔ)操控與時(shí)機(jī)把握",對(duì)應(yīng)的是最簡(jiǎn)單的動(dòng)作——在正確的時(shí)候按下正確的鍵。打磚塊、Core Ball、Stack這類游戲?qū)儆谶@一層,戰(zhàn)略負(fù)擔(dān)輕,主要考察AI能不能把視覺(jué)判斷轉(zhuǎn)化為準(zhǔn)確的操控動(dòng)作。

第二層叫做"系統(tǒng)一式即時(shí)反應(yīng)"(借用了心理學(xué)里的"系統(tǒng)一"概念,指的是快速、直覺(jué)性的判斷),對(duì)應(yīng)持續(xù)高頻的動(dòng)作決策,比如Chrome恐龍、Flappy Bird、神廟逃亡2等。這層考的是純粹的反應(yīng)速度和動(dòng)作穩(wěn)定性。

第三層叫做"系統(tǒng)二式空間導(dǎo)航",對(duì)應(yīng)需要思考路徑、規(guī)劃行進(jìn)方向的游戲,比如吃豆人、馬里奧、Wolfenstein 3D等。這里不只需要快,還需要在腦子里維持一個(gè)空間地圖。

第四層叫做"符號(hào)推理與策略",對(duì)應(yīng)解謎類游戲,需要AI理解規(guī)則、規(guī)劃多步棋局、在抽象狀態(tài)空間里做決策。Wordle、掃雷、2048、俄羅斯方塊屬于這一層。

第五層叫做"開(kāi)放世界協(xié)調(diào)與管理",對(duì)應(yīng)模擬經(jīng)營(yíng)類游戲,是最復(fù)雜的,要求AI同時(shí)追蹤多個(gè)目標(biāo)、管理資源、在長(zhǎng)時(shí)間跨度里保持策略一致性。

測(cè)試結(jié)果揭示了一個(gè)清晰的能力圖譜:無(wú)論是通用型還是電腦操控型AI,在第四層(策略推理)和第二層(即時(shí)反應(yīng))的成績(jī)相對(duì)較好,而在第一層(基礎(chǔ)時(shí)機(jī)把握)和第五層(長(zhǎng)期協(xié)調(diào))的成績(jī)則明顯偏低。換句話說(shuō),AI在做"想清楚該做什么"這件事上已經(jīng)有了相當(dāng)水平,但在"恰好在對(duì)的時(shí)刻做"和"幾十步之后還能記得最初目標(biāo)"這兩點(diǎn)上,仍然存在顯著短板。

八、重復(fù)測(cè)試:這個(gè)考場(chǎng)靠譜嗎

一套評(píng)測(cè)系統(tǒng)要有價(jià)值,首先要穩(wěn)定——同一個(gè)AI今天考和明天考,成績(jī)應(yīng)該大差不差,否則這個(gè)成績(jī)就沒(méi)有參考意義。研究團(tuán)隊(duì)對(duì)此進(jìn)行了嚴(yán)格驗(yàn)證,選取了Qwen3-VL-30B-A3B和Qwen3-VL-235B-A22B兩個(gè)開(kāi)源模型,每個(gè)模型在電腦操控和通用兩種接口下各運(yùn)行10次完整的全量測(cè)試,合計(jì)覆蓋170個(gè)任務(wù)的10輪重復(fù)。

結(jié)果顯示,四種搭配的整體進(jìn)度得分標(biāo)準(zhǔn)差都在1.1個(gè)百分點(diǎn)左右,成功率的波動(dòng)也同樣有限。這意味著GameWorld確實(shí)能夠作為一個(gè)穩(wěn)定的測(cè)量平臺(tái)來(lái)使用,而不是一次性的快照。當(dāng)然,也有少數(shù)游戲(比如Hextris、Cubefield、Wordle)表現(xiàn)出了更明顯的輪次間波動(dòng),這恰恰說(shuō)明這些游戲是真正有挑戰(zhàn)性、有區(qū)分度的項(xiàng)目,能夠捕捉到AI能力的細(xì)微差異。

九、記憶長(zhǎng)短的權(quán)衡:上下文越多越好?

研究團(tuán)隊(duì)還專門(mén)研究了AI的"記憶量"對(duì)成績(jī)的影響。每一步操作時(shí),AI可以選擇攜帶多少輪歷史記錄。記0輪意味著AI每次都像第一次看到游戲一樣,忘記了之前所有操作;記2輪意味著AI能看到最近兩輪的操作歷史。

測(cè)試結(jié)果揭示了一個(gè)有趣的分歧:對(duì)于通用型AI,記憶輪數(shù)從0增加到2時(shí),進(jìn)度得分有小幅提升;但對(duì)于電腦操控型AI,隨著記憶輪數(shù)增加,成績(jī)反而持續(xù)下降。背后的原因也不難理解——通用型AI的歷史記錄是語(yǔ)義化的("我上次向右走了"),信息密度高,有助于避免重復(fù)錯(cuò)誤;而電腦操控型AI的歷史記錄是底層坐標(biāo)和按鍵序列("我上次點(diǎn)擊了坐標(biāo)(512, 384)"),信息量雖大但語(yǔ)義稀疏,大量低價(jià)值的歷史信息反而成了干擾。

與此同時(shí),記憶量增加帶來(lái)的推理時(shí)間代價(jià)非常顯著。通用型AI從0輪記憶到2輪記憶,每步的平均時(shí)間從5.5秒增加到8.6秒,輸入的token數(shù)量從約1300增加到約3000;電腦操控型則從約1900 token增加到約5600 token,每步時(shí)間從7.2秒增加到12.8秒。記憶不是免費(fèi)的,使用時(shí)需要權(quán)衡。

十、指令遵守率:AI有時(shí)候會(huì)"忘記規(guī)則"

游戲測(cè)試?yán)镞€有一個(gè)微妙但重要的指標(biāo):AI發(fā)出的動(dòng)作是否在游戲允許的范圍之內(nèi)。研究團(tuán)隊(duì)統(tǒng)計(jì)了每個(gè)模型的"無(wú)效動(dòng)作率",也就是那些不符合規(guī)則、無(wú)法被執(zhí)行的動(dòng)作占所有動(dòng)作的比例。

結(jié)果顯示,大多數(shù)頂尖模型的無(wú)效動(dòng)作率極低,接近于零。但也有例外——GLM-4.6V的無(wú)效動(dòng)作率高達(dá)8.3%,主要問(wèn)題是它發(fā)出了自然語(yǔ)言文字而不是工具調(diào)用格式的指令,意思說(shuō)得清楚,但格式不對(duì);Qwen3-VL-30B-A3B的無(wú)效動(dòng)作率為2.7%,主要是在長(zhǎng)時(shí)間對(duì)話后"忘記"了當(dāng)前游戲允許的動(dòng)作范圍,調(diào)用了不存在的指令。UI-TARS-1.5-7B則有0.4%的動(dòng)作落在了游戲規(guī)定的操控范圍之外。這些數(shù)據(jù)揭示了一個(gè)實(shí)際問(wèn)題:在長(zhǎng)時(shí)間的交互序列中,模型有一定概率出現(xiàn)"指令漂移",忘記約束條件或者格式要求,這在實(shí)際應(yīng)用中是必須被重視的可靠性問(wèn)題。

十一、實(shí)時(shí)版的挑戰(zhàn):思考和行動(dòng)必須同時(shí)在線

GameWorld-RT版本的測(cè)試給出了一個(gè)清醒的提示。在不暫停的實(shí)時(shí)環(huán)境下,Qwen3-VL-30B-A3B平均每步只需要2.4秒(通用型)或2.4秒(電腦操控型),而Qwen3-VL-235B-A22B則需要6秒以上。速度快的小模型整體進(jìn)度約為33%,速度慢但更聰明的大模型整體進(jìn)度約為33-34%,兩者成績(jī)接近,說(shuō)明在實(shí)時(shí)環(huán)境里,單純的"想得快"或者"想得對(duì)"都不足以拉開(kāi)差距,真正的挑戰(zhàn)是同時(shí)做到兩者。

值得注意的是,實(shí)時(shí)版的成績(jī)不能和暫停版直接比較,因?yàn)樵趯?shí)時(shí)版里,AI思考的那幾秒游戲仍在繼續(xù)運(yùn)行,實(shí)際上等于給了AI更長(zhǎng)的"游戲時(shí)間"但更短的"有效決策窗口"。這兩個(gè)版本測(cè)量的是不同維度的能力,相輔相成。

十二、失敗的四種面孔

研究團(tuán)隊(duì)通過(guò)仔細(xì)分析失敗案例,歸納出了AI在游戲里失敗的四類典型模式,像是四種不同類型的"考試失分點(diǎn)"。

第一類是感知失誤:AI看錯(cuò)了畫(huà)面,把障礙物認(rèn)成了空地,或者誤判了自己角色的位置,導(dǎo)致錯(cuò)誤的決策。這類錯(cuò)誤在畫(huà)面復(fù)雜或者信息密集的場(chǎng)景里尤為突出。

第二類是精細(xì)動(dòng)作失誤:AI理解了該做什么,但在執(zhí)行層面出了問(wèn)題——跳晚了半拍、按鍵時(shí)間太短或太長(zhǎng)、組合鍵的時(shí)序不對(duì)。策略正確,執(zhí)行偏差。

第三類是指令遵循失誤:AI在長(zhǎng)時(shí)間交互后逐漸偏離了任務(wù)目標(biāo),開(kāi)始執(zhí)行一些無(wú)關(guān)動(dòng)作,或者嘗試調(diào)用不存在的操控指令,甚至忽視了任務(wù)的核心要求。

第四類是長(zhǎng)期記憶失誤:AI在多步任務(wù)里丟失了關(guān)鍵的歷史信息,陷入重復(fù)循環(huán)——比如一直走同一條路、一遍又一遍地做同樣的無(wú)效動(dòng)作,卻無(wú)法意識(shí)到自己在打轉(zhuǎn),更無(wú)法自我糾正。

這四類失敗模式提供了清晰的改進(jìn)方向:更好的視覺(jué)理解、更精準(zhǔn)的動(dòng)作控制、更強(qiáng)的長(zhǎng)期記憶,以及更穩(wěn)健的指令遵循能力。

歸根結(jié)底,GameWorld想要回答的問(wèn)題是:我們的AI,真的準(zhǔn)備好應(yīng)對(duì)復(fù)雜的現(xiàn)實(shí)世界了嗎?答案是:還沒(méi)有,但我們終于有了一把能夠精確量尺來(lái)持續(xù)丈量這段距離。

當(dāng)前最好的AI模型在游戲里的表現(xiàn),和一個(gè)沒(méi)有特別準(zhǔn)備的普通人相比,仍然有將近22個(gè)百分點(diǎn)的進(jìn)度差距。這個(gè)差距既存在于需要快速反應(yīng)的動(dòng)作層面,也存在于需要長(zhǎng)時(shí)間規(guī)劃的策略層面,更存在于在數(shù)十步操作之后仍然記得"我的最終目標(biāo)是什么"的記憶層面。

對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究意味著:當(dāng)你聽(tīng)說(shuō)某個(gè)AI"能玩游戲"的時(shí)候,不妨多問(wèn)一句——它能完成任務(wù)嗎,還是只是在隨機(jī)按鍵?而GameWorld這把尺子,正是為了讓這個(gè)問(wèn)題有一個(gè)清晰、可重復(fù)、可驗(yàn)證的答案而存在的。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)arXiv:2604.07429查閱完整研究報(bào)告。

Q&A

Q1:GameWorld基準(zhǔn)測(cè)試和其他AI游戲測(cè)試平臺(tái)有什么區(qū)別?

A:GameWorld最核心的區(qū)別在于評(píng)分方式。它不依賴截圖識(shí)別或另一個(gè)AI來(lái)判斷成績(jī),而是直接從游戲源代碼內(nèi)部讀取數(shù)據(jù),比如得分、坐標(biāo)、硬幣數(shù)等,評(píng)分結(jié)果完全確定、可重現(xiàn)。此外,它通過(guò)暫停機(jī)制把AI的思考速度和決策質(zhì)量分開(kāi)考察,確保評(píng)分公平,而不是讓反應(yīng)快的AI天然占優(yōu)。

Q2:GameWorld里哪類游戲?qū)I來(lái)說(shuō)最難?

A:模擬經(jīng)營(yíng)類游戲?qū)缀跛蠥I來(lái)說(shuō)都是最大的挑戰(zhàn),因?yàn)檫@類游戲需要同時(shí)協(xié)調(diào)多個(gè)目標(biāo)、管理資源,并在幾十步操作后仍然記得最初的策略方向。測(cè)試結(jié)果顯示,大多數(shù)模型在猴子超市、Minecraft這類游戲上的成功率接近于零,進(jìn)度得分也普遍偏低。

Q3:GameWorld測(cè)試用的是哪些AI模型,開(kāi)源模型表現(xiàn)怎么樣?

A:測(cè)試涵蓋了Claude、Gemini、GPT-5.2、Grok、Kimi等主流商業(yè)模型,以及Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B三款開(kāi)源模型。開(kāi)源模型的總體進(jìn)度得分在30%至31%之間,低于表現(xiàn)最好的商業(yè)模型約10個(gè)百分點(diǎn),但穩(wěn)定性經(jīng)過(guò)10輪重復(fù)測(cè)試驗(yàn)證,波動(dòng)在1.1%以內(nèi),表現(xiàn)具有可重現(xiàn)性。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
晚年米芾寫(xiě)出此大字神作,筆法縱橫莫測(cè),堪稱生平不世出的經(jīng)典

晚年米芾寫(xiě)出此大字神作,筆法縱橫莫測(cè),堪稱生平不世出的經(jīng)典

幸福娃3790
2026-04-09 11:55:20
你見(jiàn)過(guò)老板是怎么把生意干黃的?網(wǎng)友:拿了雙一次性筷子還追出來(lái)

你見(jiàn)過(guò)老板是怎么把生意干黃的?網(wǎng)友:拿了雙一次性筷子還追出來(lái)

夜深愛(ài)雜談
2026-04-20 09:31:31
蔚來(lái),我算是把你看清了

蔚來(lái),我算是把你看清了

汽車十三行
2026-04-21 11:56:48
為什么2026教育突然松綁了?網(wǎng)友:過(guò)度內(nèi)卷只會(huì)影響孩子心理健康

為什么2026教育突然松綁了?網(wǎng)友:過(guò)度內(nèi)卷只會(huì)影響孩子心理健康

另子維愛(ài)讀史
2026-04-21 20:14:40
中方禁令為何時(shí)隔百天才爆發(fā)?日本媒體不再隱瞞,遮羞布被揭下

中方禁令為何時(shí)隔百天才爆發(fā)?日本媒體不再隱瞞,遮羞布被揭下

誰(shuí)將笑到最后
2026-04-22 17:27:39
汪嘉偉之子汪崎:心疼母親鄧星,再難不“啃”父親,贏得繼母好評(píng)

汪嘉偉之子汪崎:心疼母親鄧星,再難不“啃”父親,贏得繼母好評(píng)

細(xì)品名人
2026-03-26 07:10:29
2105km續(xù)航,9.79萬(wàn)!比亞迪官宣:新車上市

2105km續(xù)航,9.79萬(wàn)!比亞迪官宣:新車上市

新浪財(cái)經(jīng)
2026-04-21 14:30:59
收拾完伊朗,下一個(gè)輪到中國(guó)?以色列發(fā)戰(zhàn)爭(zhēng)威脅,中方送出5個(gè)字

收拾完伊朗,下一個(gè)輪到中國(guó)?以色列發(fā)戰(zhàn)爭(zhēng)威脅,中方送出5個(gè)字

千羽解讀
2026-04-18 10:12:15
阿斯塔納航空將于6月3日開(kāi)通廣州—阿斯塔納直飛航線

阿斯塔納航空將于6月3日開(kāi)通廣州—阿斯塔納直飛航線

北京商報(bào)
2026-04-21 15:34:11
凱特致敬伊麗莎白女王,戴其生前珍珠項(xiàng)鏈亮相,細(xì)節(jié)盡顯高情商

凱特致敬伊麗莎白女王,戴其生前珍珠項(xiàng)鏈亮相,細(xì)節(jié)盡顯高情商

世界王室那些事
2026-04-22 17:29:57
港媒:兩岸已步入到“準(zhǔn)統(tǒng)一”階段,“西藏模式”更具參考!

港媒:兩岸已步入到“準(zhǔn)統(tǒng)一”階段,“西藏模式”更具參考!

娛樂(lè)圈的筆娛君
2026-04-21 17:59:45
美加州熱氣球耗盡燃料降民居后院 13乘客淡定揮手 房主:難以置信

美加州熱氣球耗盡燃料降民居后院 13乘客淡定揮手 房主:難以置信

環(huán)球趣聞分享
2026-04-22 13:40:09
我國(guó)肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

我國(guó)肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

岐黃傳人孫大夫
2026-04-12 06:30:03
特朗普下令“無(wú)限期停戰(zhàn)”,9千萬(wàn)伊朗人熬過(guò)最艱苦時(shí)刻?

特朗普下令“無(wú)限期停戰(zhàn)”,9千萬(wàn)伊朗人熬過(guò)最艱苦時(shí)刻?

牛鍋巴小釩
2026-04-22 16:01:58
603169,被證監(jiān)會(huì)立案!

603169,被證監(jiān)會(huì)立案!

證券時(shí)報(bào)e公司
2026-04-22 17:54:29
51歲李健,每天只吃一餐,每周4次健身,身體狀態(tài)像20歲小伙子

51歲李健,每天只吃一餐,每周4次健身,身體狀態(tài)像20歲小伙子

馬拉松跑步健身
2026-04-13 22:00:23
解秀梅大膽擁抱毛主席,多年后呂厚民回憶稱:主席可能被嚇到了

解秀梅大膽擁抱毛主席,多年后呂厚民回憶稱:主席可能被嚇到了

春秋硯
2026-04-22 11:40:08
iPhone 17突然降價(jià),這應(yīng)該是目前最香的iPhone了

iPhone 17突然降價(jià),這應(yīng)該是目前最香的iPhone了

劉奔跑
2026-04-19 23:10:21
蘋(píng)果8號(hào)員工干了49年:裁員名單繞著他走,因?yàn)橘r不起

蘋(píng)果8號(hào)員工干了49年:裁員名單繞著他走,因?yàn)橘r不起

世界圈
2026-04-04 13:13:03
發(fā)現(xiàn)了嗎,越是分床睡、經(jīng)濟(jì)AA制、不干涉對(duì)方隱私的夫妻,感情濃度往往越低,越把婚姻過(guò)成......

發(fā)現(xiàn)了嗎,越是分床睡、經(jīng)濟(jì)AA制、不干涉對(duì)方隱私的夫妻,感情濃度往往越低,越把婚姻過(guò)成......

LULU生活家
2026-04-21 19:20:03
2026-04-22 18:07:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

特朗普180°轉(zhuǎn)彎延長(zhǎng)停火 伊朗硬剛首次直接回絕談判

頭條要聞

特朗普180°轉(zhuǎn)彎延長(zhǎng)停火 伊朗硬剛首次直接回絕談判

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

手機(jī)
藝術(shù)
家居
游戲
房產(chǎn)

手機(jī)要聞

三劍齊發(fā)!華為nova 16系列已備案:Ultra版謝幕

藝術(shù)要聞

無(wú)花不風(fēng)景

家居要聞

極簡(jiǎn)繪夢(mèng) 克制和諧

性感美女韓游上線Steam!酥臉白腿嬌羞可愛(ài)

房產(chǎn)要聞

狂搶284輪!中海??谠倌弥匕跽兀?/h3>

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版