昆侖天工AI突破:游戲世界生成器實(shí)現(xiàn)實(shí)時可探索虛擬空間創(chuàng)建能力

2026-04-20 21:43:36　來源: 科技行者

北京舉報

分享至

這項(xiàng)由昆侖天工AI（Skywork AI）研究團(tuán)隊(duì)完成的研究以技術(shù)報告形式發(fā)布于2026年4月，論文編號為arXiv:2604.08995，有興趣深入了解的讀者可以通過該編號在arXiv平臺上查詢完整論文。

**當(dāng)AI開始"實(shí)時造世界"**

假設(shè)你正在玩一款從未存在過的電子游戲。你按下向左的方向鍵，游戲里的人物轉(zhuǎn)身，街道隨之出現(xiàn)；你向前走了一分鐘后折回原路，街角那棵彎曲的老樹還靜靜地在那里，一磚一瓦都和你離開時一模一樣。更神奇的是，這一切不是某個程序員預(yù)先設(shè)計好的——它是AI在你操作的瞬間憑空"想"出來的，而且每秒鐘能刷新40張畫面，比大多數(shù)電影的幀率還高。

這正是Matrix-Game 3.0想要實(shí)現(xiàn)的目標(biāo)。它是一個"交互式世界模型"——用更通俗的話說，就是一臺能根據(jù)你的實(shí)時操作不斷生成畫面的AI視頻引擎。你按鍵盤，它造場景；你轉(zhuǎn)動鼠標(biāo)，它調(diào)整鏡頭；你走過一片森林，轉(zhuǎn)身回望，它還記得那片森林長什么樣。

目前大多數(shù)AI視頻生成工具更像是"照片沖洗店"——你提交需求，等上幾秒甚至幾分鐘，才能拿到一段幾秒鐘的成品。這種方式用來制作廣告短片還行，但要真正讓人坐進(jìn)去"玩"，就完全不夠用了。Matrix-Game 3.0的野心在于打破這道壁壘：不僅要快，還要有記憶，還要能接受操控，還要清晰到720p的高清分辨率。

**一、為什么同時做到這三件事這么難？**

做過飯的人都知道，一道菜要同時做到"快"、"好吃"和"量大"，往往顧此失彼。AI視頻生成也面臨類似的三難困境。

第一難是速度?，F(xiàn)有的頂級視頻生成模型，比如Sora或Kling，生成質(zhì)量很高，但速度極慢，根本無法用于實(shí)時交互。要讓AI跟上人手操作的節(jié)奏，就必須大幅壓縮計算時間，而這通常意味著犧牲畫質(zhì)。

第二難是記憶。當(dāng)AI按段生成畫面時，它很容易"忘記"自己剛才生成了什么。你向前走了三十秒后折回，AI可能已經(jīng)不記得那條小巷的磚墻是紅色還是灰色了，于是畫出一個和之前完全不同的場景。這種"失憶"在短視頻里不明顯，但在需要持續(xù)幾分鐘乃至更長時間的交互體驗(yàn)中，會讓整個世界感覺支離破碎。

第三難是控制。讓AI根據(jù)用戶的鍵盤和鼠標(biāo)操作精準(zhǔn)生成對應(yīng)畫面，本身就是一個復(fù)雜的技術(shù)挑戰(zhàn)。按下"向前"鍵時，AI必須理解這意味著鏡頭推進(jìn)、背景縮小、新場景逐漸出現(xiàn)，而不是隨機(jī)生成一段不相關(guān)的畫面。

在Matrix-Game 3.0出現(xiàn)之前，已經(jīng)有一些研究在嘗試解決其中的一兩個難題。比如Matrix-Game 2.0和HY-Gamecraft-2實(shí)現(xiàn)了實(shí)時流式生成，但缺乏長期記憶；而LingBot-World通過擴(kuò)展上下文長度改善了長期一致性，但又很難做到實(shí)時流暢。沒有人能把三件事同時做好。

Matrix-Game 3.0的整體解題思路，是把這個問題拆成三個相互配合的子任務(wù)，分別在數(shù)據(jù)、模型結(jié)構(gòu)和推理加速三個層面上各個擊破，再把解決方案拼合成一個協(xié)調(diào)運(yùn)轉(zhuǎn)的完整系統(tǒng)。

**二、"世界的原材料"：數(shù)據(jù)引擎**

要訓(xùn)練一個AI造世界，首先得給它看足夠多、足夠好的"世界素材"。但這件事本身就不容易。

普通的網(wǎng)絡(luò)視頻沒有精確的攝像機(jī)位置信息，也沒有記錄"用戶按了什么鍵"的數(shù)據(jù)。這對于訓(xùn)練一個能響應(yīng)操作指令的世界模型來說，就好比想教一個廚師做菜，卻只給他看成品照片，不告訴他配方和步驟——根本沒法學(xué)。

昆侖天工團(tuán)隊(duì)因此構(gòu)建了一套工業(yè)級的數(shù)據(jù)生產(chǎn)流水線，從三個截然不同的源頭同時供貨。

第一個源頭是虛幻引擎（Unreal Engine 5）搭建的合成環(huán)境。團(tuán)隊(duì)在這套世界頂級的游戲引擎里建造了超過一千個虛擬場景，配備了精細(xì)的光照和幾何建模。在這套流水線里，每一幀畫面生成時，系統(tǒng)都同時記錄下畫面內(nèi)容、攝像機(jī)的精確位置和朝向、角色在世界中的坐標(biāo)，以及當(dāng)前按下的操作鍵——所有這些信息的時間誤差為零，因?yàn)樗鼈兌荚谕粋€引擎"心跳"里產(chǎn)生。相比之下，用外部攝像頭去錄制已有游戲的話，視頻和操作數(shù)據(jù)之間總會有難以消除的時間偏差。此外，團(tuán)隊(duì)還設(shè)計了一套角色外觀組合系統(tǒng)，可以隨機(jī)搭配衣服、鞋子、發(fā)型、配飾等各部分，理論上能產(chǎn)生超過一億種不同外觀的角色，確保訓(xùn)練數(shù)據(jù)在視覺上足夠多樣。

但合成環(huán)境終究比不上真實(shí)游戲的視覺豐富度。于是團(tuán)隊(duì)又搭建了第二套系統(tǒng)，專門從GTA V、荒野大鏢客2、幻獸帕魯、賽博朋克2077、霍格沃茨遺產(chǎn)等多款頂級商業(yè)游戲里自動錄制數(shù)據(jù)。這套系統(tǒng)采用了四層解耦架構(gòu)：最底層是游戲本身運(yùn)行的進(jìn)程，中間層負(fù)責(zé)控制游戲里的角色自動探索場景，錄制層用專業(yè)軟件按每60秒一段切片記錄畫面，最外層則負(fù)責(zé)把所有視頻和對應(yīng)的操作數(shù)據(jù)、攝像機(jī)參數(shù)打包成標(biāo)準(zhǔn)格式輸出。整套流程幾乎不需要人工干預(yù)，數(shù)據(jù)準(zhǔn)確率超過99%。更妙的是，這套架構(gòu)的擴(kuò)展性很好——如果要接入一款新游戲，只需要針對那款游戲?qū)懸粋€特定的"角色控制插件"，其余部分完全可以復(fù)用。

第三個數(shù)據(jù)來源是真實(shí)世界的視頻。團(tuán)隊(duì)引入了DL3DV-10K（一萬個4K高清場景序列）、RealEstate10K（室內(nèi)房產(chǎn)漫游視頻）、OmniWorld（城市街頭行走視頻）和SpatialVid（涵蓋步行、駕車、無人機(jī)航拍等多種視角的高清視頻）等數(shù)據(jù)集。這些真實(shí)視頻帶來了合成環(huán)境里難以復(fù)現(xiàn)的光線變化、材質(zhì)質(zhì)感和自然鏡頭運(yùn)動。為了消除不同數(shù)據(jù)集之間攝像機(jī)坐標(biāo)系不統(tǒng)一的問題，團(tuán)隊(duì)統(tǒng)一使用ViPE工具對所有真實(shí)視頻重新進(jìn)行了位姿標(biāo)注。

數(shù)據(jù)收集完成后，團(tuán)隊(duì)還對每一段視頻進(jìn)行了細(xì)粒度的文字描述標(biāo)注，采用四層層次化方案：整體敘述性描述、靜態(tài)場景外觀描述、逐段動態(tài)事件描述，以及從運(yùn)動流暢度、背景動態(tài)性、場景復(fù)雜度、物理合理性和整體質(zhì)量五個維度打分的感知質(zhì)量評分。最后，通過深度重投影誤差檢驗(yàn)、位移比例異常檢測和速度范圍過濾三重機(jī)制篩掉了約20%的低質(zhì)量片段，留下高質(zhì)量的訓(xùn)練集。

**三、"會自我糾錯的畫師"：基礎(chǔ)模型的設(shè)計**

數(shù)據(jù)準(zhǔn)備好了，接下來的核心問題是：AI模型本身該怎么設(shè)計，才能在生成連續(xù)畫面時不"跑偏"？

這里有一個技術(shù)上的經(jīng)典困境，叫做"曝光偏差"?？梢园阉斫獬蛇@樣一個困境：一個學(xué)生在練習(xí)寫作時，老師總是給他看完美的范文作為參考。他學(xué)會了根據(jù)完美范文續(xù)寫下一句。但到了真正考試時，他只能參考自己上一句寫的內(nèi)容，而他寫的內(nèi)容肯定不如老師的范文完美。這個誤差會不斷累積——他越寫越偏，因?yàn)樗麖膩頉]有練習(xí)過"從有缺陷的上文開始續(xù)寫"這個技能。

AI視頻模型的問題完全一樣。在訓(xùn)練時，它總是以真實(shí)的、完美的歷史幀作為參考來生成下一段；但在實(shí)際運(yùn)行時，它的參考只有它自己之前生成的畫面，而那些畫面難免有各種小錯誤。這些錯誤越積越多，最終導(dǎo)致畫面越來越不穩(wěn)定。

Matrix-Game 3.0通過一種叫做"錯誤感知訓(xùn)練"的機(jī)制來解決這個問題，其思路來自于Stable Video Infinity（SVI）這篇相關(guān)研究的啟發(fā)。具體做法是這樣的：在訓(xùn)練過程中，AI每生成一幀畫面，系統(tǒng)就計算這一幀和真實(shí)畫面之間的差異，把這個差異存入一個"錯誤緩沖區(qū)"。然后在訓(xùn)練下一批數(shù)據(jù)時，從緩沖區(qū)里隨機(jī)取出一個之前積攢的誤差，把它疊加到用作參考的歷史幀上，再讓AI試著從這個"已經(jīng)被污染"的參考畫面出發(fā)，生成正確的下一幀。久而久之，AI就學(xué)會了如何從"不完美的參考"里提取有用信息，生成依然穩(wěn)定連貫的畫面。這就像是專門訓(xùn)練廚師在食材質(zhì)量參差不齊的情況下也能做出一道合格的菜——而不是只在食材完美時才會做菜。

在操作控制方面，Matrix-Game 3.0繼承并改進(jìn)了前一代的設(shè)計思路。鍵盤按鍵（比如前進(jìn)、后退、跳躍、攻擊等離散的操作）通過一種叫做"交叉注意力"的機(jī)制注入模型，鼠標(biāo)移動（連續(xù)的方向控制）則通過"自注意力"機(jī)制直接影響畫面生成。兩種控制信號以不同的方式融入模型，讓AI對操作的響應(yīng)既精準(zhǔn)又自然。

模型架構(gòu)上，團(tuán)隊(duì)刻意選擇了讓"教師模型"和"學(xué)生模型"（后面會解釋這對概念）使用完全相同的雙向變換器結(jié)構(gòu)。這與很多其他方法不同——很多方法讓教師用一種架構(gòu)，學(xué)生用另一種架構(gòu)，結(jié)果兩者之間的理解方式存在根本性的差異，導(dǎo)致"知識傳授"時出現(xiàn)扭曲。昆侖天工團(tuán)隊(duì)的邏輯是：用同一種語言說話，溝通才最順暢。

**四、"帶地圖的旅行者"：長期記憶機(jī)制**

解決了單段畫面生成的穩(wěn)定性問題之后，更大的挑戰(zhàn)是如何讓AI在幾十秒乃至幾分鐘的連續(xù)生成中保持世界的一致性。

這個問題可以用一個旅行者的比喻來理解。假設(shè)你在一個巨大的城市里探索，每走過一個街區(qū)，你就把它的樣子拍下來存在口袋里。走了一大圈之后，你回到最初的那條街——你能認(rèn)出它，是因?yàn)槟阌兄芭牡恼掌?。但如果你口袋里只能裝最近走過的五個街區(qū)的照片，之前走過的地方的記憶就只能靠猜測了。

Matrix-Game 3.0的記憶機(jī)制要做的，就是讓AI在這個"口袋"里聰明地裝照片，并且知道什么時候該翻出哪張來參考。

團(tuán)隊(duì)在設(shè)計過程中先研究了兩種現(xiàn)有方案，發(fā)現(xiàn)各有缺陷。第一種是"隱式長上下文建模"——把所有歷史畫面都喂給模型，讓它自己從中找到相關(guān)的部分。這種方法的問題是：當(dāng)模型還在"噪聲很大"的早期生成階段時，它很難判斷哪些歷史信息是真正有用的，導(dǎo)致記憶選擇不穩(wěn)定，而且把所有歷史畫面都保存在內(nèi)存里，計算開銷也非常大。第二種是"外掛記憶分支"——單獨(dú)建一條記憶處理通道，通過交叉注意力把記憶信息注入到主生成流程里。但這種方式導(dǎo)致記憶特征和生成特征不在同一個語義空間里，特征對齊困難，收斂很慢，效果也有限。

Matrix-Game 3.0采用的解決方案更為優(yōu)雅：把記憶幀、近期歷史幀和當(dāng)前待生成的噪聲幀，全部放進(jìn)同一個注意力空間里一起處理。這就像是讓旅行者隨時都能把口袋里的所有照片鋪在桌上，和眼前的實(shí)際景色一起比對，而不是先單獨(dú)研究照片、再單獨(dú)看景色、最后靠大腦拼接。通過這種統(tǒng)一處理的方式，模型能在同一次計算中同時考慮短期連續(xù)性（來自近期歷史幀）和長期錨點(diǎn)信息（來自久遠(yuǎn)的記憶幀）。

但并非所有歷史畫面都值得記住。假設(shè)你在城市里探索，走進(jìn)了一條死胡同又退出來，那條胡同里的樣子對你接下來繼續(xù)向北走幫助不大。Matrix-Game 3.0引入了"攝像機(jī)感知的記憶檢索"機(jī)制——根據(jù)當(dāng)前攝像機(jī)的朝向和視野范圍，從歷史幀庫里挑出"視野重疊度最高"的那些幀作為記憶參考。簡單說，就是挑和當(dāng)前視角看到的東西最像的歷史畫面來參考。這樣既節(jié)省了計算資源，又確保了參考信息的相關(guān)性。

除此之外，團(tuán)隊(duì)還保留了序列里的"第一幀"作為持久性的全局錨點(diǎn)。這一幀始終在場，為整個生成序列提供穩(wěn)定的風(fēng)格和場景氛圍基調(diào)，就像旅行者出發(fā)時給城市全景拍的那張鳥瞰照片，無論之后走到哪里，總能想起這個城市大體長什么樣。

為了讓AI真正理解記憶幀和當(dāng)前幀之間的空間關(guān)系，團(tuán)隊(duì)還引入了"相對普呂克編碼"——這是一種把攝像機(jī)的相對位置和朝向用數(shù)學(xué)方式編碼進(jìn)模型輸入里的技術(shù)。打個比方，這就像是在給AI的參考照片上寫上備注："這張照片是在你當(dāng)前位置向東走50米、向左轉(zhuǎn)30度時拍的。"有了這個空間幾何信息，AI就能更準(zhǔn)確地判斷歷史畫面里的場景元素應(yīng)該出現(xiàn)在當(dāng)前視野的哪個位置，而不是把歷史記憶以一種視角錯亂的方式強(qiáng)行貼進(jìn)當(dāng)前畫面。

在位置編碼（負(fù)責(zé)告訴模型每一幀在時間序列里處于什么位置的機(jī)制）方面，團(tuán)隊(duì)發(fā)現(xiàn)了一個潛在問題：標(biāo)準(zhǔn)的旋轉(zhuǎn)位置編碼（RoPE）是周期性的，意味著時間間隔很遠(yuǎn)的兩幀有可能被誤認(rèn)為時間相近。為了解決這個問題，團(tuán)隊(duì)引入了"逐注意力頭擾動旋轉(zhuǎn)基底"技術(shù)——讓模型的不同"思考通道"（注意力頭）各自使用略有不同的時間刻度，就像用多塊走速不同的時鐘來共同判斷時間，避免所有時鐘同時走到整點(diǎn)、無法分辨具體時刻的情況。實(shí)驗(yàn)中的注意力熱力圖驗(yàn)證了這個設(shè)計的有效性：即使是時間上相距很遠(yuǎn)的記憶幀，在生成當(dāng)前幀時依然能獲得非?？捎^的注意力權(quán)重，證明模型確實(shí)在有效利用遠(yuǎn)距離的記憶信息。

**五、"讓快車也跑得準(zhǔn)"：知識蒸餾與推理加速**

基礎(chǔ)模型設(shè)計好了，但它還是一個需要多步反復(fù)計算才能生成高質(zhì)量畫面的"慢車"。要達(dá)到每秒40幀的實(shí)時速度，必須把它壓縮成一輛"快車"，同時盡量保住畫質(zhì)和記憶能力。

這個壓縮過程叫做"知識蒸餾"。通俗地說，就是用一個大而慢的"教師模型"來監(jiān)督訓(xùn)練一個小而快的"學(xué)生模型"，讓學(xué)生盡可能模仿教師的輸出質(zhì)量。

但在這里，團(tuán)隊(duì)遇到了一個前人研究中普遍忽視的問題：學(xué)生在學(xué)習(xí)時應(yīng)該模仿什么情況下的教師？如果總是讓學(xué)生參考"完美歷史幀"來學(xué)習(xí)，那到了實(shí)際推理時，學(xué)生面對的是自己生成的"不完美歷史幀"，兩種情況之間的鴻溝會導(dǎo)致學(xué)生發(fā)揮失常。

Matrix-Game 3.0的解決方案是"多段自生成推理方案"，整個設(shè)計思路借鑒了"分布匹配蒸餾"（DMD）的理論框架。具體做法是讓學(xué)生在學(xué)習(xí)過程中真正"滾動"起來：從隨機(jī)噪聲出發(fā)生成第一段畫面，然后把這段畫面的末尾當(dāng)作下一段的起點(diǎn)，繼續(xù)生成第二段……如此重復(fù)多次，形成一個真正的連續(xù)推理鏈。在訓(xùn)練時，隨機(jī)選取其中某一段畫面，把它同時送給教師模型和一個專門評判畫面質(zhì)量好壞的"評判者模型"，通過比較教師和學(xué)生在這一時刻的概率分布差異來計算損失、更新學(xué)生參數(shù)。

這套方案的聰明之處在于，學(xué)生從一開始就在"真實(shí)的推理環(huán)境"里學(xué)習(xí)，而不是在溫室里學(xué)習(xí)、到實(shí)際場景里才發(fā)現(xiàn)自己完全不適應(yīng)。訓(xùn)練分兩個階段進(jìn)行：第一階段（前600步）是"冷啟動"，使用單段推理、以真實(shí)歷史幀為參考，防止學(xué)生在訓(xùn)練早期因?yàn)橥耆蕾囎约荷傻脑愀猱嬅娑罎?；第二階段（后2400步）切換為真正的多段自生成推理，每次隨機(jī)選取1到6段的推理鏈長度，讓學(xué)生充分適應(yīng)各種長度的連續(xù)生成場景。

有了蒸餾好的學(xué)生模型，還需要一系列系統(tǒng)層面的工程優(yōu)化才能真正達(dá)到40FPS。

第一項(xiàng)優(yōu)化是對核心生成網(wǎng)絡(luò)（DiT）進(jìn)行INT8量化。量化是一種把模型計算精度從"高精度浮點(diǎn)數(shù)"降低為"低精度整數(shù)"的技術(shù)，類比于把一把萬分之一毫米精度的游標(biāo)卡尺換成一把精度夠用的普通尺子——計算速度快了很多，而對最終畫面質(zhì)量的影響在可接受范圍內(nèi)。團(tuán)隊(duì)只對最關(guān)鍵的注意力計算層做了量化，其他部分（前饋網(wǎng)絡(luò)、VAE、文本編碼器）保持原始精度，這樣能在速度和質(zhì)量之間取得最好的平衡。

第二項(xiàng)優(yōu)化是對VAE解碼器進(jìn)行剪枝。VAE（變分自編碼器）負(fù)責(zé)把模型在"潛在空間"里生成的壓縮表示轉(zhuǎn)換回人眼能看到的像素圖像，在高分辨率流式生成中，這個步驟會成為速度瓶頸。團(tuán)隊(duì)訓(xùn)練了一個叫做MG-LightVAE的輕量化版本，通過縮減解碼器內(nèi)部的隱藏層維度來壓縮計算量，同時保持整體架構(gòu)不變。團(tuán)隊(duì)提供了50%剪枝和75%剪枝兩個版本：50%剪枝版在測試集上的峰值信噪比（PSNR，衡量畫面重建質(zhì)量的指標(biāo)）從原始的33.79降至31.84，但解碼時間從0.76秒壓縮到0.30秒；75%剪枝版PSNR進(jìn)一步降至31.14，但解碼時間只需0.13秒，是原始的約六分之一，而結(jié)構(gòu)相似度（SSIM）在兩個版本中都保持在0.99，說明視覺上的整體結(jié)構(gòu)保真度依然極高。

第三項(xiàng)優(yōu)化，也是速度提升幅度最大的一項(xiàng)，是把記憶檢索從CPU搬到GPU上執(zhí)行。模型每生成一段畫面前，都需要從歷史幀庫里找出和當(dāng)前視角最相關(guān)的記憶幀，隨著生成時間越來越長，歷史幀庫也越來越大，在CPU上做這個檢索會越來越慢。GPU版本用一種基于隨機(jī)采樣的近似計算方法替代了精確的三維視錐體積交叉計算，速度大幅提升，而檢索準(zhǔn)確性依然足夠高。從消融實(shí)驗(yàn)數(shù)據(jù)來看，去掉GPU檢索后，系統(tǒng)幀率從約40FPS跌至6.60FPS，降幅高達(dá)33.40幀，是三項(xiàng)優(yōu)化里影響最大的一項(xiàng)。去掉INT8量化的影響為12.62幀，去掉MG-LightVAE的影響為14.21幀。三項(xiàng)優(yōu)化協(xié)同作用，共同撐起了40FPS的最終性能。

實(shí)際部署時，系統(tǒng)采用8+1的異步GPU分配方案：8塊GPU專門負(fù)責(zé)DiT推理，1塊GPU專門負(fù)責(zé)VAE解碼，兩個步驟并行執(zhí)行，互不等待，進(jìn)一步提升了流水線的整體吞吐量。

**六、"變大的世界"：規(guī)模擴(kuò)展到280億參數(shù)**

完成了5B（50億）參數(shù)模型的全套設(shè)計之后，團(tuán)隊(duì)還進(jìn)一步探索了把模型規(guī)模擴(kuò)展到28B（280億）參數(shù)的可能性，采用的是MoE（混合專家，Mixture of Experts）架構(gòu)，靈感來自于LingBot-World團(tuán)隊(duì)的相關(guān)工作。

在這個大模型的訓(xùn)練中，團(tuán)隊(duì)發(fā)現(xiàn)了一個有趣的規(guī)律：模型在處理"高噪聲階段"（即從噪聲逐漸恢復(fù)出畫面的早期階段）時，是學(xué)習(xí)操作控制的最佳時機(jī)；而"低噪聲階段"（即對畫面細(xì)節(jié)進(jìn)行精細(xì)調(diào)整的后期階段）則更適合學(xué)習(xí)如何提升視覺質(zhì)量?；谶@個觀察，團(tuán)隊(duì)把兩個階段的訓(xùn)練解耦：高噪聲階段的模型用精確標(biāo)注了操作數(shù)據(jù)的專業(yè)游戲視頻來訓(xùn)練，確保它準(zhǔn)確響應(yīng)玩家指令；低噪聲階段的模型則可以用互聯(lián)網(wǎng)上大量沒有操作標(biāo)注的普通視頻來訓(xùn)練，廣泛學(xué)習(xí)各種場景的視覺規(guī)律，提升畫面質(zhì)量和泛化能力。這種解耦讓海量無標(biāo)注數(shù)據(jù)的價值得到了充分利用。

此外，團(tuán)隊(duì)還注意到第一人稱視角（好像你直接通過角色的眼睛看世界）和第三人稱視角（你在角色背后跟隨它）的動態(tài)規(guī)律差異很大，很難用同一個模型同時學(xué)好。因此在28B版本里，團(tuán)隊(duì)為兩種視角分別訓(xùn)練了專門的高噪聲模型，但共享同一個低噪聲精細(xì)化模型，在資源利用效率和專業(yè)化能力之間取得平衡。

從定性實(shí)驗(yàn)結(jié)果來看，28B版本在場景多樣性、動態(tài)一致性和長時序穩(wěn)定性上都有明顯提升，在城市駕駛、騎馬穿越、夜間騎行、開放世界角色漫游等多種AAA游戲場景下，場景布局、角色身份和物體關(guān)系在長達(dá)30秒的序列里都保持了高度一致，同時運(yùn)動動態(tài)、光線變化和場景過渡也更為豐富自然。

**七、實(shí)驗(yàn)結(jié)果：這個世界有多真實(shí)、多穩(wěn)定？**

在基礎(chǔ)模型的測試中，研究者設(shè)計了一個特別有說服力的實(shí)驗(yàn)：讓AI生成一段視頻，前半段按某個方向探索場景，后半段的操作和前半段完全對稱地反向執(zhí)行，逼迫AI"回到原地"。如果AI的長期記憶有效，它應(yīng)該能還原出之前見過的場景；如果沒有，它只會生成一個全新的、和之前毫無關(guān)聯(lián)的畫面。

實(shí)驗(yàn)結(jié)果顯示，在多個測試場景里，當(dāng)鏡頭回到之前探索過的區(qū)域時，模型能夠忠實(shí)地還原出原有的場景結(jié)構(gòu)和視覺細(xì)節(jié)，包括局部幾何形狀、物體擺放、建筑立面紋樣以及材質(zhì)級別的細(xì)節(jié)——這些在實(shí)驗(yàn)結(jié)果圖中用紅色方框特別標(biāo)出，清晰地展示了記憶機(jī)制在起作用。

在蒸餾模型的測試中，研究者同樣設(shè)計了刻意回訪特定場景和內(nèi)容的動作序列。結(jié)果表明，蒸餾后的快速模型有效繼承了基礎(chǔ)模型的記憶能力：之前出現(xiàn)過后被遮擋的物體和場景，在鏡頭轉(zhuǎn)回時能夠被正確復(fù)原；同時對于新出現(xiàn)的場景，生成質(zhì)量同樣豐富準(zhǔn)確，在較長的序列末尾也沒有出現(xiàn)明顯的風(fēng)格漂移或內(nèi)容失真。

在加速實(shí)驗(yàn)的消融分析中，三項(xiàng)優(yōu)化措施的組合效果得到了量化驗(yàn)證：完整系統(tǒng)約40FPS，去掉INT8量化后降至27.38FPS，去掉MG-LightVAE后降至25.79FPS，去掉GPU檢索后僅剩6.60FPS。這組數(shù)據(jù)清楚地說明，速度是多項(xiàng)工程優(yōu)化共同作用的結(jié)果，任何一環(huán)的缺失都會顯著影響整體性能，而GPU記憶檢索是其中最不可或缺的一環(huán)。

說到底，Matrix-Game 3.0做的事，是把"AI實(shí)時造世界"這件曾經(jīng)看起來遙不可及的事推進(jìn)到了工程可行的邊界。它用工業(yè)規(guī)模的數(shù)據(jù)流水線解決了"沒有好材料"的問題，用錯誤感知訓(xùn)練解決了"AI容易跑偏"的問題，用統(tǒng)一注意力空間的記憶機(jī)制解決了"AI容易失憶"的問題，用多段自生成蒸餾解決了"快慢模型之間的鴻溝"問題，再加上量化、剪枝和GPU檢索等一系列工程優(yōu)化，把一切都壓縮進(jìn)了每秒40幀的實(shí)時體驗(yàn)里。

這對普通人意味著什么？短期來看，這類技術(shù)最直接的應(yīng)用場景是游戲和虛擬現(xiàn)實(shí)：未來的游戲也許不再需要預(yù)先設(shè)計好所有關(guān)卡，AI可以根據(jù)玩家的每一次操作實(shí)時生成從未有人見過的新場景。稍遠(yuǎn)一些，在機(jī)器人訓(xùn)練、工業(yè)仿真、沉浸式教育等領(lǐng)域，一個能快速響應(yīng)操作指令、保持長期一致性的虛擬環(huán)境生成器，可以大幅降低構(gòu)建真實(shí)訓(xùn)練場地的成本。更長遠(yuǎn)地看，當(dāng)AI能實(shí)時生成一個有記憶、有反應(yīng)的虛擬世界時，它本身就成了一種全新的計算媒介——不是展示預(yù)設(shè)內(nèi)容的屏幕，而是隨時根據(jù)你的意圖演化的活的世界。

不過也有一些值得思考的開放問題。目前Matrix-Game 3.0的訓(xùn)練數(shù)據(jù)以游戲和有限的真實(shí)場景為主，生成的世界在視覺風(fēng)格上還是以游戲畫風(fēng)為主；記憶機(jī)制目前主要依賴視角重疊度來檢索，對于物體隨時間發(fā)生的狀態(tài)變化（比如一扇門被打開后的狀態(tài)）的持久記憶還有改進(jìn)空間；而隨著生成序列越來越長，如何讓記憶庫的規(guī)模保持可管理，也是未來需要繼續(xù)探索的方向。

有興趣深入了解技術(shù)細(xì)節(jié)的讀者，可以通過arXiv編號2604.08995查閱完整技術(shù)報告。

Q&A

Q1：Matrix-Game 3.0和普通AI視頻生成工具有什么本質(zhì)區(qū)別？

A：普通AI視頻工具是"你輸入提示詞、它生成一段固定視頻"，用戶無法實(shí)時干預(yù)。Matrix-Game 3.0是一個實(shí)時響應(yīng)用戶操作的交互系統(tǒng)——你按下鍵盤或移動鼠標(biāo)，AI會在同一瞬間生成對應(yīng)的新畫面，同時還能記住幾十秒前看過的場景，在你回到原地時忠實(shí)還原。

Q2：Matrix-Game 3.0生成的畫面質(zhì)量怎么樣，真的能達(dá)到游戲級別嗎？

A：目前能達(dá)到720p分辨率、每秒40幀的生成速度，視覺風(fēng)格接近AAA游戲畫面。實(shí)驗(yàn)中5B參數(shù)模型在速度上已經(jīng)超過Genie 3報告的約24FPS，28B版本在場景豐富度和動態(tài)一致性上進(jìn)一步提升，但整體依然以游戲渲染風(fēng)格為主，與照片級真實(shí)感還有差距。

Q3：Matrix-Game 3.0的長期記憶是怎么實(shí)現(xiàn)的，它真的能記住幾十秒前的場景嗎？

A：記憶機(jī)制的核心是根據(jù)攝像機(jī)視角的重疊度從歷史幀庫中檢索最相關(guān)的歷史畫面，然后把這些記憶幀和近期歷史幀、當(dāng)前待生成幀放進(jìn)同一個注意力計算空間里聯(lián)合處理。實(shí)驗(yàn)中通過"探索后原路返回"的測試驗(yàn)證了其有效性，在30秒序列里能還原出建筑立面紋樣和物體擺放等材質(zhì)級別的細(xì)節(jié)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.