国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

昆侖天工AI突破:游戲世界生成器實(shí)現(xiàn)實(shí)時可探索虛擬空間創(chuàng)建能力

0
分享至


這項(xiàng)由昆侖天工AI(Skywork AI)研究團(tuán)隊(duì)完成的研究以技術(shù)報告形式發(fā)布于2026年4月,論文編號為arXiv:2604.08995,有興趣深入了解的讀者可以通過該編號在arXiv平臺上查詢完整論文。

**當(dāng)AI開始"實(shí)時造世界"**

假設(shè)你正在玩一款從未存在過的電子游戲。你按下向左的方向鍵,游戲里的人物轉(zhuǎn)身,街道隨之出現(xiàn);你向前走了一分鐘后折回原路,街角那棵彎曲的老樹還靜靜地在那里,一磚一瓦都和你離開時一模一樣。更神奇的是,這一切不是某個程序員預(yù)先設(shè)計好的——它是AI在你操作的瞬間憑空"想"出來的,而且每秒鐘能刷新40張畫面,比大多數(shù)電影的幀率還高。

這正是Matrix-Game 3.0想要實(shí)現(xiàn)的目標(biāo)。它是一個"交互式世界模型"——用更通俗的話說,就是一臺能根據(jù)你的實(shí)時操作不斷生成畫面的AI視頻引擎。你按鍵盤,它造場景;你轉(zhuǎn)動鼠標(biāo),它調(diào)整鏡頭;你走過一片森林,轉(zhuǎn)身回望,它還記得那片森林長什么樣。

目前大多數(shù)AI視頻生成工具更像是"照片沖洗店"——你提交需求,等上幾秒甚至幾分鐘,才能拿到一段幾秒鐘的成品。這種方式用來制作廣告短片還行,但要真正讓人坐進(jìn)去"玩",就完全不夠用了。Matrix-Game 3.0的野心在于打破這道壁壘:不僅要快,還要有記憶,還要能接受操控,還要清晰到720p的高清分辨率。

**一、為什么同時做到這三件事這么難?**

做過飯的人都知道,一道菜要同時做到"快"、"好吃"和"量大",往往顧此失彼。AI視頻生成也面臨類似的三難困境。

第一難是速度?,F(xiàn)有的頂級視頻生成模型,比如Sora或Kling,生成質(zhì)量很高,但速度極慢,根本無法用于實(shí)時交互。要讓AI跟上人手操作的節(jié)奏,就必須大幅壓縮計算時間,而這通常意味著犧牲畫質(zhì)。

第二難是記憶。當(dāng)AI按段生成畫面時,它很容易"忘記"自己剛才生成了什么。你向前走了三十秒后折回,AI可能已經(jīng)不記得那條小巷的磚墻是紅色還是灰色了,于是畫出一個和之前完全不同的場景。這種"失憶"在短視頻里不明顯,但在需要持續(xù)幾分鐘乃至更長時間的交互體驗(yàn)中,會讓整個世界感覺支離破碎。

第三難是控制。讓AI根據(jù)用戶的鍵盤和鼠標(biāo)操作精準(zhǔn)生成對應(yīng)畫面,本身就是一個復(fù)雜的技術(shù)挑戰(zhàn)。按下"向前"鍵時,AI必須理解這意味著鏡頭推進(jìn)、背景縮小、新場景逐漸出現(xiàn),而不是隨機(jī)生成一段不相關(guān)的畫面。

在Matrix-Game 3.0出現(xiàn)之前,已經(jīng)有一些研究在嘗試解決其中的一兩個難題。比如Matrix-Game 2.0和HY-Gamecraft-2實(shí)現(xiàn)了實(shí)時流式生成,但缺乏長期記憶;而LingBot-World通過擴(kuò)展上下文長度改善了長期一致性,但又很難做到實(shí)時流暢。沒有人能把三件事同時做好。

Matrix-Game 3.0的整體解題思路,是把這個問題拆成三個相互配合的子任務(wù),分別在數(shù)據(jù)、模型結(jié)構(gòu)和推理加速三個層面上各個擊破,再把解決方案拼合成一個協(xié)調(diào)運(yùn)轉(zhuǎn)的完整系統(tǒng)。

**二、"世界的原材料":數(shù)據(jù)引擎**

要訓(xùn)練一個AI造世界,首先得給它看足夠多、足夠好的"世界素材"。但這件事本身就不容易。

普通的網(wǎng)絡(luò)視頻沒有精確的攝像機(jī)位置信息,也沒有記錄"用戶按了什么鍵"的數(shù)據(jù)。這對于訓(xùn)練一個能響應(yīng)操作指令的世界模型來說,就好比想教一個廚師做菜,卻只給他看成品照片,不告訴他配方和步驟——根本沒法學(xué)。

昆侖天工團(tuán)隊(duì)因此構(gòu)建了一套工業(yè)級的數(shù)據(jù)生產(chǎn)流水線,從三個截然不同的源頭同時供貨。

第一個源頭是虛幻引擎(Unreal Engine 5)搭建的合成環(huán)境。團(tuán)隊(duì)在這套世界頂級的游戲引擎里建造了超過一千個虛擬場景,配備了精細(xì)的光照和幾何建模。在這套流水線里,每一幀畫面生成時,系統(tǒng)都同時記錄下畫面內(nèi)容、攝像機(jī)的精確位置和朝向、角色在世界中的坐標(biāo),以及當(dāng)前按下的操作鍵——所有這些信息的時間誤差為零,因?yàn)樗鼈兌荚谕粋€引擎"心跳"里產(chǎn)生。相比之下,用外部攝像頭去錄制已有游戲的話,視頻和操作數(shù)據(jù)之間總會有難以消除的時間偏差。此外,團(tuán)隊(duì)還設(shè)計了一套角色外觀組合系統(tǒng),可以隨機(jī)搭配衣服、鞋子、發(fā)型、配飾等各部分,理論上能產(chǎn)生超過一億種不同外觀的角色,確保訓(xùn)練數(shù)據(jù)在視覺上足夠多樣。

但合成環(huán)境終究比不上真實(shí)游戲的視覺豐富度。于是團(tuán)隊(duì)又搭建了第二套系統(tǒng),專門從GTA V、荒野大鏢客2、幻獸帕魯、賽博朋克2077、霍格沃茨遺產(chǎn)等多款頂級商業(yè)游戲里自動錄制數(shù)據(jù)。這套系統(tǒng)采用了四層解耦架構(gòu):最底層是游戲本身運(yùn)行的進(jìn)程,中間層負(fù)責(zé)控制游戲里的角色自動探索場景,錄制層用專業(yè)軟件按每60秒一段切片記錄畫面,最外層則負(fù)責(zé)把所有視頻和對應(yīng)的操作數(shù)據(jù)、攝像機(jī)參數(shù)打包成標(biāo)準(zhǔn)格式輸出。整套流程幾乎不需要人工干預(yù),數(shù)據(jù)準(zhǔn)確率超過99%。更妙的是,這套架構(gòu)的擴(kuò)展性很好——如果要接入一款新游戲,只需要針對那款游戲?qū)懸粋€特定的"角色控制插件",其余部分完全可以復(fù)用。

第三個數(shù)據(jù)來源是真實(shí)世界的視頻。團(tuán)隊(duì)引入了DL3DV-10K(一萬個4K高清場景序列)、RealEstate10K(室內(nèi)房產(chǎn)漫游視頻)、OmniWorld(城市街頭行走視頻)和SpatialVid(涵蓋步行、駕車、無人機(jī)航拍等多種視角的高清視頻)等數(shù)據(jù)集。這些真實(shí)視頻帶來了合成環(huán)境里難以復(fù)現(xiàn)的光線變化、材質(zhì)質(zhì)感和自然鏡頭運(yùn)動。為了消除不同數(shù)據(jù)集之間攝像機(jī)坐標(biāo)系不統(tǒng)一的問題,團(tuán)隊(duì)統(tǒng)一使用ViPE工具對所有真實(shí)視頻重新進(jìn)行了位姿標(biāo)注。

數(shù)據(jù)收集完成后,團(tuán)隊(duì)還對每一段視頻進(jìn)行了細(xì)粒度的文字描述標(biāo)注,采用四層層次化方案:整體敘述性描述、靜態(tài)場景外觀描述、逐段動態(tài)事件描述,以及從運(yùn)動流暢度、背景動態(tài)性、場景復(fù)雜度、物理合理性和整體質(zhì)量五個維度打分的感知質(zhì)量評分。最后,通過深度重投影誤差檢驗(yàn)、位移比例異常檢測和速度范圍過濾三重機(jī)制篩掉了約20%的低質(zhì)量片段,留下高質(zhì)量的訓(xùn)練集。

**三、"會自我糾錯的畫師":基礎(chǔ)模型的設(shè)計**

數(shù)據(jù)準(zhǔn)備好了,接下來的核心問題是:AI模型本身該怎么設(shè)計,才能在生成連續(xù)畫面時不"跑偏"?

這里有一個技術(shù)上的經(jīng)典困境,叫做"曝光偏差"??梢园阉斫獬蛇@樣一個困境:一個學(xué)生在練習(xí)寫作時,老師總是給他看完美的范文作為參考。他學(xué)會了根據(jù)完美范文續(xù)寫下一句。但到了真正考試時,他只能參考自己上一句寫的內(nèi)容,而他寫的內(nèi)容肯定不如老師的范文完美。這個誤差會不斷累積——他越寫越偏,因?yàn)樗麖膩頉]有練習(xí)過"從有缺陷的上文開始續(xù)寫"這個技能。

AI視頻模型的問題完全一樣。在訓(xùn)練時,它總是以真實(shí)的、完美的歷史幀作為參考來生成下一段;但在實(shí)際運(yùn)行時,它的參考只有它自己之前生成的畫面,而那些畫面難免有各種小錯誤。這些錯誤越積越多,最終導(dǎo)致畫面越來越不穩(wěn)定。

Matrix-Game 3.0通過一種叫做"錯誤感知訓(xùn)練"的機(jī)制來解決這個問題,其思路來自于Stable Video Infinity(SVI)這篇相關(guān)研究的啟發(fā)。具體做法是這樣的:在訓(xùn)練過程中,AI每生成一幀畫面,系統(tǒng)就計算這一幀和真實(shí)畫面之間的差異,把這個差異存入一個"錯誤緩沖區(qū)"。然后在訓(xùn)練下一批數(shù)據(jù)時,從緩沖區(qū)里隨機(jī)取出一個之前積攢的誤差,把它疊加到用作參考的歷史幀上,再讓AI試著從這個"已經(jīng)被污染"的參考畫面出發(fā),生成正確的下一幀。久而久之,AI就學(xué)會了如何從"不完美的參考"里提取有用信息,生成依然穩(wěn)定連貫的畫面。這就像是專門訓(xùn)練廚師在食材質(zhì)量參差不齊的情況下也能做出一道合格的菜——而不是只在食材完美時才會做菜。

在操作控制方面,Matrix-Game 3.0繼承并改進(jìn)了前一代的設(shè)計思路。鍵盤按鍵(比如前進(jìn)、后退、跳躍、攻擊等離散的操作)通過一種叫做"交叉注意力"的機(jī)制注入模型,鼠標(biāo)移動(連續(xù)的方向控制)則通過"自注意力"機(jī)制直接影響畫面生成。兩種控制信號以不同的方式融入模型,讓AI對操作的響應(yīng)既精準(zhǔn)又自然。

模型架構(gòu)上,團(tuán)隊(duì)刻意選擇了讓"教師模型"和"學(xué)生模型"(后面會解釋這對概念)使用完全相同的雙向變換器結(jié)構(gòu)。這與很多其他方法不同——很多方法讓教師用一種架構(gòu),學(xué)生用另一種架構(gòu),結(jié)果兩者之間的理解方式存在根本性的差異,導(dǎo)致"知識傳授"時出現(xiàn)扭曲。昆侖天工團(tuán)隊(duì)的邏輯是:用同一種語言說話,溝通才最順暢。

**四、"帶地圖的旅行者":長期記憶機(jī)制**

解決了單段畫面生成的穩(wěn)定性問題之后,更大的挑戰(zhàn)是如何讓AI在幾十秒乃至幾分鐘的連續(xù)生成中保持世界的一致性。

這個問題可以用一個旅行者的比喻來理解。假設(shè)你在一個巨大的城市里探索,每走過一個街區(qū),你就把它的樣子拍下來存在口袋里。走了一大圈之后,你回到最初的那條街——你能認(rèn)出它,是因?yàn)槟阌兄芭牡恼掌?。但如果你口袋里只能裝最近走過的五個街區(qū)的照片,之前走過的地方的記憶就只能靠猜測了。

Matrix-Game 3.0的記憶機(jī)制要做的,就是讓AI在這個"口袋"里聰明地裝照片,并且知道什么時候該翻出哪張來參考。

團(tuán)隊(duì)在設(shè)計過程中先研究了兩種現(xiàn)有方案,發(fā)現(xiàn)各有缺陷。第一種是"隱式長上下文建模"——把所有歷史畫面都喂給模型,讓它自己從中找到相關(guān)的部分。這種方法的問題是:當(dāng)模型還在"噪聲很大"的早期生成階段時,它很難判斷哪些歷史信息是真正有用的,導(dǎo)致記憶選擇不穩(wěn)定,而且把所有歷史畫面都保存在內(nèi)存里,計算開銷也非常大。第二種是"外掛記憶分支"——單獨(dú)建一條記憶處理通道,通過交叉注意力把記憶信息注入到主生成流程里。但這種方式導(dǎo)致記憶特征和生成特征不在同一個語義空間里,特征對齊困難,收斂很慢,效果也有限。

Matrix-Game 3.0采用的解決方案更為優(yōu)雅:把記憶幀、近期歷史幀和當(dāng)前待生成的噪聲幀,全部放進(jìn)同一個注意力空間里一起處理。這就像是讓旅行者隨時都能把口袋里的所有照片鋪在桌上,和眼前的實(shí)際景色一起比對,而不是先單獨(dú)研究照片、再單獨(dú)看景色、最后靠大腦拼接。通過這種統(tǒng)一處理的方式,模型能在同一次計算中同時考慮短期連續(xù)性(來自近期歷史幀)和長期錨點(diǎn)信息(來自久遠(yuǎn)的記憶幀)。

但并非所有歷史畫面都值得記住。假設(shè)你在城市里探索,走進(jìn)了一條死胡同又退出來,那條胡同里的樣子對你接下來繼續(xù)向北走幫助不大。Matrix-Game 3.0引入了"攝像機(jī)感知的記憶檢索"機(jī)制——根據(jù)當(dāng)前攝像機(jī)的朝向和視野范圍,從歷史幀庫里挑出"視野重疊度最高"的那些幀作為記憶參考。簡單說,就是挑和當(dāng)前視角看到的東西最像的歷史畫面來參考。這樣既節(jié)省了計算資源,又確保了參考信息的相關(guān)性。

除此之外,團(tuán)隊(duì)還保留了序列里的"第一幀"作為持久性的全局錨點(diǎn)。這一幀始終在場,為整個生成序列提供穩(wěn)定的風(fēng)格和場景氛圍基調(diào),就像旅行者出發(fā)時給城市全景拍的那張鳥瞰照片,無論之后走到哪里,總能想起這個城市大體長什么樣。

為了讓AI真正理解記憶幀和當(dāng)前幀之間的空間關(guān)系,團(tuán)隊(duì)還引入了"相對普呂克編碼"——這是一種把攝像機(jī)的相對位置和朝向用數(shù)學(xué)方式編碼進(jìn)模型輸入里的技術(shù)。打個比方,這就像是在給AI的參考照片上寫上備注:"這張照片是在你當(dāng)前位置向東走50米、向左轉(zhuǎn)30度時拍的。"有了這個空間幾何信息,AI就能更準(zhǔn)確地判斷歷史畫面里的場景元素應(yīng)該出現(xiàn)在當(dāng)前視野的哪個位置,而不是把歷史記憶以一種視角錯亂的方式強(qiáng)行貼進(jìn)當(dāng)前畫面。

在位置編碼(負(fù)責(zé)告訴模型每一幀在時間序列里處于什么位置的機(jī)制)方面,團(tuán)隊(duì)發(fā)現(xiàn)了一個潛在問題:標(biāo)準(zhǔn)的旋轉(zhuǎn)位置編碼(RoPE)是周期性的,意味著時間間隔很遠(yuǎn)的兩幀有可能被誤認(rèn)為時間相近。為了解決這個問題,團(tuán)隊(duì)引入了"逐注意力頭擾動旋轉(zhuǎn)基底"技術(shù)——讓模型的不同"思考通道"(注意力頭)各自使用略有不同的時間刻度,就像用多塊走速不同的時鐘來共同判斷時間,避免所有時鐘同時走到整點(diǎn)、無法分辨具體時刻的情況。實(shí)驗(yàn)中的注意力熱力圖驗(yàn)證了這個設(shè)計的有效性:即使是時間上相距很遠(yuǎn)的記憶幀,在生成當(dāng)前幀時依然能獲得非??捎^的注意力權(quán)重,證明模型確實(shí)在有效利用遠(yuǎn)距離的記憶信息。

**五、"讓快車也跑得準(zhǔn)":知識蒸餾與推理加速**

基礎(chǔ)模型設(shè)計好了,但它還是一個需要多步反復(fù)計算才能生成高質(zhì)量畫面的"慢車"。要達(dá)到每秒40幀的實(shí)時速度,必須把它壓縮成一輛"快車",同時盡量保住畫質(zhì)和記憶能力。

這個壓縮過程叫做"知識蒸餾"。通俗地說,就是用一個大而慢的"教師模型"來監(jiān)督訓(xùn)練一個小而快的"學(xué)生模型",讓學(xué)生盡可能模仿教師的輸出質(zhì)量。

但在這里,團(tuán)隊(duì)遇到了一個前人研究中普遍忽視的問題:學(xué)生在學(xué)習(xí)時應(yīng)該模仿什么情況下的教師?如果總是讓學(xué)生參考"完美歷史幀"來學(xué)習(xí),那到了實(shí)際推理時,學(xué)生面對的是自己生成的"不完美歷史幀",兩種情況之間的鴻溝會導(dǎo)致學(xué)生發(fā)揮失常。

Matrix-Game 3.0的解決方案是"多段自生成推理方案",整個設(shè)計思路借鑒了"分布匹配蒸餾"(DMD)的理論框架。具體做法是讓學(xué)生在學(xué)習(xí)過程中真正"滾動"起來:從隨機(jī)噪聲出發(fā)生成第一段畫面,然后把這段畫面的末尾當(dāng)作下一段的起點(diǎn),繼續(xù)生成第二段……如此重復(fù)多次,形成一個真正的連續(xù)推理鏈。在訓(xùn)練時,隨機(jī)選取其中某一段畫面,把它同時送給教師模型和一個專門評判畫面質(zhì)量好壞的"評判者模型",通過比較教師和學(xué)生在這一時刻的概率分布差異來計算損失、更新學(xué)生參數(shù)。

這套方案的聰明之處在于,學(xué)生從一開始就在"真實(shí)的推理環(huán)境"里學(xué)習(xí),而不是在溫室里學(xué)習(xí)、到實(shí)際場景里才發(fā)現(xiàn)自己完全不適應(yīng)。訓(xùn)練分兩個階段進(jìn)行:第一階段(前600步)是"冷啟動",使用單段推理、以真實(shí)歷史幀為參考,防止學(xué)生在訓(xùn)練早期因?yàn)橥耆蕾囎约荷傻脑愀猱嬅娑罎?;第二階段(后2400步)切換為真正的多段自生成推理,每次隨機(jī)選取1到6段的推理鏈長度,讓學(xué)生充分適應(yīng)各種長度的連續(xù)生成場景。

有了蒸餾好的學(xué)生模型,還需要一系列系統(tǒng)層面的工程優(yōu)化才能真正達(dá)到40FPS。

第一項(xiàng)優(yōu)化是對核心生成網(wǎng)絡(luò)(DiT)進(jìn)行INT8量化。量化是一種把模型計算精度從"高精度浮點(diǎn)數(shù)"降低為"低精度整數(shù)"的技術(shù),類比于把一把萬分之一毫米精度的游標(biāo)卡尺換成一把精度夠用的普通尺子——計算速度快了很多,而對最終畫面質(zhì)量的影響在可接受范圍內(nèi)。團(tuán)隊(duì)只對最關(guān)鍵的注意力計算層做了量化,其他部分(前饋網(wǎng)絡(luò)、VAE、文本編碼器)保持原始精度,這樣能在速度和質(zhì)量之間取得最好的平衡。

第二項(xiàng)優(yōu)化是對VAE解碼器進(jìn)行剪枝。VAE(變分自編碼器)負(fù)責(zé)把模型在"潛在空間"里生成的壓縮表示轉(zhuǎn)換回人眼能看到的像素圖像,在高分辨率流式生成中,這個步驟會成為速度瓶頸。團(tuán)隊(duì)訓(xùn)練了一個叫做MG-LightVAE的輕量化版本,通過縮減解碼器內(nèi)部的隱藏層維度來壓縮計算量,同時保持整體架構(gòu)不變。團(tuán)隊(duì)提供了50%剪枝和75%剪枝兩個版本:50%剪枝版在測試集上的峰值信噪比(PSNR,衡量畫面重建質(zhì)量的指標(biāo))從原始的33.79降至31.84,但解碼時間從0.76秒壓縮到0.30秒;75%剪枝版PSNR進(jìn)一步降至31.14,但解碼時間只需0.13秒,是原始的約六分之一,而結(jié)構(gòu)相似度(SSIM)在兩個版本中都保持在0.99,說明視覺上的整體結(jié)構(gòu)保真度依然極高。

第三項(xiàng)優(yōu)化,也是速度提升幅度最大的一項(xiàng),是把記憶檢索從CPU搬到GPU上執(zhí)行。模型每生成一段畫面前,都需要從歷史幀庫里找出和當(dāng)前視角最相關(guān)的記憶幀,隨著生成時間越來越長,歷史幀庫也越來越大,在CPU上做這個檢索會越來越慢。GPU版本用一種基于隨機(jī)采樣的近似計算方法替代了精確的三維視錐體積交叉計算,速度大幅提升,而檢索準(zhǔn)確性依然足夠高。從消融實(shí)驗(yàn)數(shù)據(jù)來看,去掉GPU檢索后,系統(tǒng)幀率從約40FPS跌至6.60FPS,降幅高達(dá)33.40幀,是三項(xiàng)優(yōu)化里影響最大的一項(xiàng)。去掉INT8量化的影響為12.62幀,去掉MG-LightVAE的影響為14.21幀。三項(xiàng)優(yōu)化協(xié)同作用,共同撐起了40FPS的最終性能。

實(shí)際部署時,系統(tǒng)采用8+1的異步GPU分配方案:8塊GPU專門負(fù)責(zé)DiT推理,1塊GPU專門負(fù)責(zé)VAE解碼,兩個步驟并行執(zhí)行,互不等待,進(jìn)一步提升了流水線的整體吞吐量。

**六、"變大的世界":規(guī)模擴(kuò)展到280億參數(shù)**

完成了5B(50億)參數(shù)模型的全套設(shè)計之后,團(tuán)隊(duì)還進(jìn)一步探索了把模型規(guī)模擴(kuò)展到28B(280億)參數(shù)的可能性,采用的是MoE(混合專家,Mixture of Experts)架構(gòu),靈感來自于LingBot-World團(tuán)隊(duì)的相關(guān)工作。

在這個大模型的訓(xùn)練中,團(tuán)隊(duì)發(fā)現(xiàn)了一個有趣的規(guī)律:模型在處理"高噪聲階段"(即從噪聲逐漸恢復(fù)出畫面的早期階段)時,是學(xué)習(xí)操作控制的最佳時機(jī);而"低噪聲階段"(即對畫面細(xì)節(jié)進(jìn)行精細(xì)調(diào)整的后期階段)則更適合學(xué)習(xí)如何提升視覺質(zhì)量?;谶@個觀察,團(tuán)隊(duì)把兩個階段的訓(xùn)練解耦:高噪聲階段的模型用精確標(biāo)注了操作數(shù)據(jù)的專業(yè)游戲視頻來訓(xùn)練,確保它準(zhǔn)確響應(yīng)玩家指令;低噪聲階段的模型則可以用互聯(lián)網(wǎng)上大量沒有操作標(biāo)注的普通視頻來訓(xùn)練,廣泛學(xué)習(xí)各種場景的視覺規(guī)律,提升畫面質(zhì)量和泛化能力。這種解耦讓海量無標(biāo)注數(shù)據(jù)的價值得到了充分利用。

此外,團(tuán)隊(duì)還注意到第一人稱視角(好像你直接通過角色的眼睛看世界)和第三人稱視角(你在角色背后跟隨它)的動態(tài)規(guī)律差異很大,很難用同一個模型同時學(xué)好。因此在28B版本里,團(tuán)隊(duì)為兩種視角分別訓(xùn)練了專門的高噪聲模型,但共享同一個低噪聲精細(xì)化模型,在資源利用效率和專業(yè)化能力之間取得平衡。

從定性實(shí)驗(yàn)結(jié)果來看,28B版本在場景多樣性、動態(tài)一致性和長時序穩(wěn)定性上都有明顯提升,在城市駕駛、騎馬穿越、夜間騎行、開放世界角色漫游等多種AAA游戲場景下,場景布局、角色身份和物體關(guān)系在長達(dá)30秒的序列里都保持了高度一致,同時運(yùn)動動態(tài)、光線變化和場景過渡也更為豐富自然。

**七、實(shí)驗(yàn)結(jié)果:這個世界有多真實(shí)、多穩(wěn)定?**

在基礎(chǔ)模型的測試中,研究者設(shè)計了一個特別有說服力的實(shí)驗(yàn):讓AI生成一段視頻,前半段按某個方向探索場景,后半段的操作和前半段完全對稱地反向執(zhí)行,逼迫AI"回到原地"。如果AI的長期記憶有效,它應(yīng)該能還原出之前見過的場景;如果沒有,它只會生成一個全新的、和之前毫無關(guān)聯(lián)的畫面。

實(shí)驗(yàn)結(jié)果顯示,在多個測試場景里,當(dāng)鏡頭回到之前探索過的區(qū)域時,模型能夠忠實(shí)地還原出原有的場景結(jié)構(gòu)和視覺細(xì)節(jié),包括局部幾何形狀、物體擺放、建筑立面紋樣以及材質(zhì)級別的細(xì)節(jié)——這些在實(shí)驗(yàn)結(jié)果圖中用紅色方框特別標(biāo)出,清晰地展示了記憶機(jī)制在起作用。

在蒸餾模型的測試中,研究者同樣設(shè)計了刻意回訪特定場景和內(nèi)容的動作序列。結(jié)果表明,蒸餾后的快速模型有效繼承了基礎(chǔ)模型的記憶能力:之前出現(xiàn)過后被遮擋的物體和場景,在鏡頭轉(zhuǎn)回時能夠被正確復(fù)原;同時對于新出現(xiàn)的場景,生成質(zhì)量同樣豐富準(zhǔn)確,在較長的序列末尾也沒有出現(xiàn)明顯的風(fēng)格漂移或內(nèi)容失真。

在加速實(shí)驗(yàn)的消融分析中,三項(xiàng)優(yōu)化措施的組合效果得到了量化驗(yàn)證:完整系統(tǒng)約40FPS,去掉INT8量化后降至27.38FPS,去掉MG-LightVAE后降至25.79FPS,去掉GPU檢索后僅剩6.60FPS。這組數(shù)據(jù)清楚地說明,速度是多項(xiàng)工程優(yōu)化共同作用的結(jié)果,任何一環(huán)的缺失都會顯著影響整體性能,而GPU記憶檢索是其中最不可或缺的一環(huán)。

說到底,Matrix-Game 3.0做的事,是把"AI實(shí)時造世界"這件曾經(jīng)看起來遙不可及的事推進(jìn)到了工程可行的邊界。它用工業(yè)規(guī)模的數(shù)據(jù)流水線解決了"沒有好材料"的問題,用錯誤感知訓(xùn)練解決了"AI容易跑偏"的問題,用統(tǒng)一注意力空間的記憶機(jī)制解決了"AI容易失憶"的問題,用多段自生成蒸餾解決了"快慢模型之間的鴻溝"問題,再加上量化、剪枝和GPU檢索等一系列工程優(yōu)化,把一切都壓縮進(jìn)了每秒40幀的實(shí)時體驗(yàn)里。

這對普通人意味著什么?短期來看,這類技術(shù)最直接的應(yīng)用場景是游戲和虛擬現(xiàn)實(shí):未來的游戲也許不再需要預(yù)先設(shè)計好所有關(guān)卡,AI可以根據(jù)玩家的每一次操作實(shí)時生成從未有人見過的新場景。稍遠(yuǎn)一些,在機(jī)器人訓(xùn)練、工業(yè)仿真、沉浸式教育等領(lǐng)域,一個能快速響應(yīng)操作指令、保持長期一致性的虛擬環(huán)境生成器,可以大幅降低構(gòu)建真實(shí)訓(xùn)練場地的成本。更長遠(yuǎn)地看,當(dāng)AI能實(shí)時生成一個有記憶、有反應(yīng)的虛擬世界時,它本身就成了一種全新的計算媒介——不是展示預(yù)設(shè)內(nèi)容的屏幕,而是隨時根據(jù)你的意圖演化的活的世界。

不過也有一些值得思考的開放問題。目前Matrix-Game 3.0的訓(xùn)練數(shù)據(jù)以游戲和有限的真實(shí)場景為主,生成的世界在視覺風(fēng)格上還是以游戲畫風(fēng)為主;記憶機(jī)制目前主要依賴視角重疊度來檢索,對于物體隨時間發(fā)生的狀態(tài)變化(比如一扇門被打開后的狀態(tài))的持久記憶還有改進(jìn)空間;而隨著生成序列越來越長,如何讓記憶庫的規(guī)模保持可管理,也是未來需要繼續(xù)探索的方向。

有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過arXiv編號2604.08995查閱完整技術(shù)報告。

Q&A

Q1:Matrix-Game 3.0和普通AI視頻生成工具有什么本質(zhì)區(qū)別?

A:普通AI視頻工具是"你輸入提示詞、它生成一段固定視頻",用戶無法實(shí)時干預(yù)。Matrix-Game 3.0是一個實(shí)時響應(yīng)用戶操作的交互系統(tǒng)——你按下鍵盤或移動鼠標(biāo),AI會在同一瞬間生成對應(yīng)的新畫面,同時還能記住幾十秒前看過的場景,在你回到原地時忠實(shí)還原。

Q2:Matrix-Game 3.0生成的畫面質(zhì)量怎么樣,真的能達(dá)到游戲級別嗎?

A:目前能達(dá)到720p分辨率、每秒40幀的生成速度,視覺風(fēng)格接近AAA游戲畫面。實(shí)驗(yàn)中5B參數(shù)模型在速度上已經(jīng)超過Genie 3報告的約24FPS,28B版本在場景豐富度和動態(tài)一致性上進(jìn)一步提升,但整體依然以游戲渲染風(fēng)格為主,與照片級真實(shí)感還有差距。

Q3:Matrix-Game 3.0的長期記憶是怎么實(shí)現(xiàn)的,它真的能記住幾十秒前的場景嗎?

A:記憶機(jī)制的核心是根據(jù)攝像機(jī)視角的重疊度從歷史幀庫中檢索最相關(guān)的歷史畫面,然后把這些記憶幀和近期歷史幀、當(dāng)前待生成幀放進(jìn)同一個注意力計算空間里聯(lián)合處理。實(shí)驗(yàn)中通過"探索后原路返回"的測試驗(yàn)證了其有效性,在30秒序列里能還原出建筑立面紋樣和物體擺放等材質(zhì)級別的細(xì)節(jié)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
港媒曝張曼玉“五官徹底分離”,61歲生圖惹爭議,倆部位面目全非

港媒曝張曼玉“五官徹底分離”,61歲生圖惹爭議,倆部位面目全非

冷紫葉
2026-04-20 17:12:17
格力回應(yīng)鋁線電機(jī)爭議:相關(guān)工程機(jī)已停產(chǎn),海信稱靠多三兩銅多500元時代已終結(jié)

格力回應(yīng)鋁線電機(jī)爭議:相關(guān)工程機(jī)已停產(chǎn),海信稱靠多三兩銅多500元時代已終結(jié)

紅星資本局
2026-04-21 20:40:16
取消午休,改成16點(diǎn)下班,你愿意嗎?網(wǎng)友吵翻!

取消午休,改成16點(diǎn)下班,你愿意嗎?網(wǎng)友吵翻!

魯中晨報
2026-04-22 14:28:23
偉偉道來 | 備戰(zhàn)

偉偉道來 | 備戰(zhàn)

經(jīng)濟(jì)觀察報
2026-04-22 14:26:02
伊朗公開展示對美以反擊“大殺器”

伊朗公開展示對美以反擊“大殺器”

新華社
2026-04-22 16:41:42
段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

阿鳧愛吐槽
2026-04-22 10:20:09
拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

燕梳樓頻道
2026-04-20 21:12:04
深度 |大限到期,一日之內(nèi)極限反轉(zhuǎn),特朗普為何延長?;??伊朗為何不領(lǐng)情?

深度 |大限到期,一日之內(nèi)極限反轉(zhuǎn),特朗普為何延長?;??伊朗為何不領(lǐng)情?

上觀新聞
2026-04-22 17:19:03
匈牙利爆出戲劇性消息,毛焦?fàn)柼崦材菟W爾班出任新政府外長

匈牙利爆出戲劇性消息,毛焦?fàn)柼崦材菟W爾班出任新政府外長

墜入二次元的海洋
2026-04-22 15:15:16
四十年來最大的謎:包產(chǎn)到戶后農(nóng)民馬上就吃上了飽飯,是真的嗎?

四十年來最大的謎:包產(chǎn)到戶后農(nóng)民馬上就吃上了飽飯,是真的嗎?

興趣知識
2026-04-22 03:35:27
吳京在《人民日報》發(fā)文

吳京在《人民日報》發(fā)文

新京報
2026-04-22 11:19:10
馬刺官宣:文班亞馬臉部重摔地板 觸發(fā)腦震蕩保護(hù)協(xié)議提前退賽

馬刺官宣:文班亞馬臉部重摔地板 觸發(fā)腦震蕩保護(hù)協(xié)議提前退賽

醉臥浮生
2026-04-22 09:17:19
爆料瘋傳!中南醫(yī)院“王護(hù)士長”被扒,她到底有沒有問題?

爆料瘋傳!中南醫(yī)院“王護(hù)士長”被扒,她到底有沒有問題?

墜入二次元的海洋
2026-04-22 10:14:47
一個消息震動中東,阿聯(lián)酋突然爆出大數(shù)字,美以這下捅了馬蜂窩

一個消息震動中東,阿聯(lián)酋突然爆出大數(shù)字,美以這下捅了馬蜂窩

流史歲月
2026-04-22 10:18:10
最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

夜深愛雜談
2026-04-21 07:45:20
比“漏奶裝”還炸裂!巴黎世家遇到對手了

比“漏奶裝”還炸裂!巴黎世家遇到對手了

營銷頭版
2026-04-22 16:04:48
G2湖人101-94戰(zhàn)勝火箭 球員評價:4人優(yōu)秀,3人及格,2人低迷

G2湖人101-94戰(zhàn)勝火箭 球員評價:4人優(yōu)秀,3人及格,2人低迷

籃球資訊達(dá)人
2026-04-22 13:27:16
保價2000元機(jī)蓋運(yùn)輸中損壞,德邦理賠只肯賠1300元;車主:我不要錢了,你賠我一個機(jī)蓋總可以吧

保價2000元機(jī)蓋運(yùn)輸中損壞,德邦理賠只肯賠1300元;車主:我不要錢了,你賠我一個機(jī)蓋總可以吧

大風(fēng)新聞
2026-04-20 19:12:04
中國籃協(xié):祝賀王治郅

中國籃協(xié):祝賀王治郅

新京報政事兒
2026-04-22 10:24:04
2026-04-22 18:04:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

特朗普180°轉(zhuǎn)彎延長?;?伊朗硬剛首次直接回絕談判

頭條要聞

特朗普180°轉(zhuǎn)彎延長?;?伊朗硬剛首次直接回絕談判

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
教育
親子
時尚

房產(chǎn)要聞

狂搶284輪!中海??谠倌弥匕跽?!

藝術(shù)要聞

無花不風(fēng)景

教育要聞

慣子如殺子!孩子這4種表現(xiàn)說明已經(jīng)被慣壞了,再不改就來不及了

親子要聞

這下完了,3個孩子不認(rèn)我這個外國媽!

初夏穿赫本的白褲子,清新又高級!

無障礙瀏覽 進(jìn)入關(guān)懷版