網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

浙大突破：普通視頻實(shí)現(xiàn)4D沉浸式自由漫游空間轉(zhuǎn)換能力提升突破

2026-04-16 20:25:01　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由浙江大學(xué)等機(jī)構(gòu)聯(lián)合開(kāi)發(fā)的研究成果，以技術(shù)報(bào)告形式于2026年4月發(fā)布在預(yù)印本平臺(tái)arXiv，編號(hào)為arXiv:2604.07209。研究團(tuán)隊(duì)將這套系統(tǒng)命名為INSPATIO-WORLD，旨在將一段普通的參考視頻轉(zhuǎn)變?yōu)橐粋€(gè)可以實(shí)時(shí)自由漫游的動(dòng)態(tài)四維世界。

假設(shè)你拍了一段客廳的視頻，現(xiàn)在不僅想從另一個(gè)角度看這個(gè)房間，還想自由地向前走兩步、向右轉(zhuǎn)頭看看窗邊的植物，甚至想讓時(shí)間快進(jìn)或倒退——而這一切都在你拍攝的那一刻之后才發(fā)生。這正是INSPATIO-WORLD試圖解決的核心問(wèn)題，也是整個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域長(zhǎng)期以來(lái)追求的夢(mèng)想。

一、我們?yōu)槭裁葱枰粋€(gè)"活的"視頻世界

普通相機(jī)拍出的視頻本質(zhì)上是時(shí)間和空間的一次"快照記錄"：你只能站在那個(gè)固定的位置，沿著那個(gè)固定的方向，看那段固定時(shí)間里發(fā)生的事情。想從另一個(gè)角度看看？抱歉，那個(gè)角度當(dāng)時(shí)沒(méi)有攝像機(jī)。這就像你參加了一場(chǎng)演唱會(huì)，只坐在左側(cè)第三排，演出結(jié)束后你想回味從舞臺(tái)正后方看到的景象，卻發(fā)現(xiàn)根本沒(méi)有這個(gè)視角的錄像。

現(xiàn)有的人工智能視頻生成技術(shù)雖然已經(jīng)能合成極為逼真的短片，但它們?cè)谶@個(gè)問(wèn)題上卻有三個(gè)讓人頭疼的短板。

第一個(gè)短板是"空間遺忘癥"?，F(xiàn)有的自動(dòng)生成框架缺乏有效的記憶機(jī)制，當(dāng)你從一個(gè)房間的一端走到另一端再回頭時(shí)，AI生成的畫(huà)面往往已經(jīng)"忘記"了起點(diǎn)的樣子，墻上的裝飾可能換了顏色，窗戶可能出現(xiàn)在了不該出現(xiàn)的地方，這種現(xiàn)象被研究者稱為空間持久性退化。

第二個(gè)短板是"塑料感"。很多AI視頻系統(tǒng)在真實(shí)場(chǎng)景數(shù)據(jù)極其有限的情況下，大量依賴電腦游戲引擎或三維建模軟件生成的合成數(shù)據(jù)來(lái)訓(xùn)練模型。這些數(shù)據(jù)雖然幾何結(jié)構(gòu)完美，但光照質(zhì)感、材質(zhì)紋理和真實(shí)世界存在明顯差異，最終輸出的畫(huà)面往往帶有一種奇怪的"塑料光澤"，一眼就能看出是假的。

第三個(gè)短板是"控制失靈"。現(xiàn)有模型普遍無(wú)法精確執(zhí)行用戶設(shè)定的攝像機(jī)路徑。你讓它向左平移一米，它可能斜移了也可能根本沒(méi)動(dòng)，這反映出這些模型在空間幾何推理能力上的根本性缺陷。

INSPATIO-WORLD的整個(gè)設(shè)計(jì)邏輯，就是圍繞這三個(gè)短板展開(kāi)的。

二、核心架構(gòu)：像大腦一樣同時(shí)記憶過(guò)去、感知現(xiàn)在、理解空間

研究團(tuán)隊(duì)為INSPATIO-WORLD設(shè)計(jì)了一套名為"時(shí)空自回歸框架"的核心架構(gòu)，英文縮寫(xiě)為STAR。理解這個(gè)架構(gòu)，可以把整個(gè)生成過(guò)程類比成一位經(jīng)驗(yàn)豐富的電影布景師在腦海中重建場(chǎng)景的方式。

這位布景師手中有三類信息可以參考。第一類是"原始劇本"，也就是參考視頻里的那些關(guān)鍵幀畫(huà)面，它們記錄了真實(shí)場(chǎng)景的樣子，是一切重建工作的"出發(fā)點(diǎn)"和最終的"對(duì)標(biāo)材料"。第二類是"施工記錄"，也就是之前已經(jīng)生成好的那些視頻幀，它們告訴布景師自己剛才走到了哪里、方才的畫(huà)面是什么樣的，用來(lái)保證運(yùn)動(dòng)的連續(xù)性和邏輯的合理性。第三類是"建筑藍(lán)圖"，也就是從參考視頻中提取出來(lái)的三維幾何信息，包括深度圖（每個(gè)像素距離攝像機(jī)有多遠(yuǎn)）和相機(jī)內(nèi)參（相當(dāng)于鏡頭的焦距和視角），這些信息讓布景師知道空間中每一塊磚瓦的精確位置。

每次需要生成一個(gè)新的視頻片段時(shí)，系統(tǒng)會(huì)把用戶的操作指令（比如"向前走"或"向左轉(zhuǎn)"）轉(zhuǎn)換成一個(gè)精確的六自由度相機(jī)姿態(tài)變換，通俗來(lái)說(shuō)就是告訴系統(tǒng)"攝像機(jī)現(xiàn)在應(yīng)該在空間中的哪個(gè)位置、朝向哪個(gè)方向"。然后系統(tǒng)會(huì)用這個(gè)姿態(tài)信息將參考視頻中的特征"重新投影"到新視角下，生成一張"幾何對(duì)齊的預(yù)覽圖"，同時(shí)附上一張"有效像素掩碼"來(lái)標(biāo)注哪些區(qū)域是真實(shí)可見(jiàn)的、哪些是被遮擋需要AI補(bǔ)全的。這三類信息被同時(shí)送入一個(gè)基于Transformer架構(gòu)的擴(kuò)散模型（可以把它理解為一個(gè)極強(qiáng)的"畫(huà)面補(bǔ)全引擎"），最終生成既符合幾何結(jié)構(gòu)、又有高度視覺(jué)真實(shí)性的新視角畫(huà)面。

三、時(shí)空緩存機(jī)制：永遠(yuǎn)不會(huì)"忘路之遠(yuǎn)近"的記憶系統(tǒng)

現(xiàn)有的自回歸視頻生成系統(tǒng)有一個(gè)根本性的問(wèn)題：隨著生成長(zhǎng)度的增加，系統(tǒng)對(duì)早期內(nèi)容的記憶會(huì)逐漸退化，就像一個(gè)長(zhǎng)途跋涉的旅人走得越遠(yuǎn)、越記不清自己從哪里出發(fā)。INSPATIO-WORLD用"時(shí)空緩存機(jī)制"來(lái)解決這個(gè)問(wèn)題，本質(zhì)上是為系統(tǒng)設(shè)計(jì)了一套"短期工作記憶加長(zhǎng)期空間錨點(diǎn)"的雙重記憶體系。

短期工作記憶負(fù)責(zé)處理運(yùn)動(dòng)的連續(xù)性。系統(tǒng)始終保留最近生成的那一批幀（用滑動(dòng)窗口的方式組織），確保從上一個(gè)鏡頭到當(dāng)前鏡頭的過(guò)渡自然流暢，不會(huì)出現(xiàn)突兀的跳變。

長(zhǎng)期空間錨點(diǎn)則負(fù)責(zé)處理場(chǎng)景的一致性。每次生成新內(nèi)容時(shí)，系統(tǒng)會(huì)從原始參考視頻中實(shí)時(shí)檢索對(duì)應(yīng)的參考幀，將其注入到生成過(guò)程中作為"全局空間坐標(biāo)原點(diǎn)"。這就好比你在一棟大樓里四處參觀，手里始終拿著一張建筑平面圖，不管走到哪個(gè)房間，你都能在平面圖上找到自己的位置，也能據(jù)此判斷其他房間應(yīng)該在哪個(gè)方向。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)微妙但重要的技術(shù)問(wèn)題：現(xiàn)有Transformer模型使用一種叫做"旋轉(zhuǎn)位置編碼"的機(jī)制來(lái)理解序列中各個(gè)元素的位置關(guān)系，但當(dāng)生成序列變得非常長(zhǎng)時(shí)，新生成內(nèi)容的位置編號(hào)會(huì)不斷增大，超出模型在訓(xùn)練時(shí)見(jiàn)過(guò)的范圍，導(dǎo)致它開(kāi)始"不知道自己在哪"。INSPATIO-WORLD采用了一種"位置索引錨定"策略，將當(dāng)前待生成塊、參考幀和歷史幀的起始位置索引都固定在同一個(gè)絕對(duì)坐標(biāo)原點(diǎn)上，讓模型始終在一個(gè)穩(wěn)定的表示空間內(nèi)工作，徹底解決了長(zhǎng)序列推斷時(shí)的數(shù)值不穩(wěn)定問(wèn)題。

四、幾何約束機(jī)制：給AI配一把精密測(cè)量尺

純靠記憶和直覺(jué)是不夠的，還需要精確的測(cè)量工具。INSPATIO-WORLD的"幾何感知顯式約束"模塊，扮演的正是這把精密測(cè)量尺的角色。

當(dāng)用戶按下"向前移動(dòng)"的鍵時(shí)，系統(tǒng)做的不是模糊地"生成一個(gè)看起來(lái)前進(jìn)了的畫(huà)面"，而是執(zhí)行一套嚴(yán)格的三維幾何計(jì)算流程。系統(tǒng)會(huì)調(diào)用前饋重建方法（一類可以從單張圖像快速估計(jì)三維結(jié)構(gòu)的技術(shù)，包括深度估計(jì)和相機(jī)參數(shù)恢復(fù)）從參考視頻中提取出場(chǎng)景的三維點(diǎn)云，然后根據(jù)精確計(jì)算出來(lái)的新相機(jī)姿態(tài)將這些三維點(diǎn)重新投影到新視角的二維畫(huà)面上，得到一張帶有真實(shí)幾何結(jié)構(gòu)的"骨架圖"，同時(shí)生成一張二值掩碼標(biāo)注出哪些像素是有效投影、哪些是因遮擋或視野外而無(wú)法投影的空白區(qū)域。

這張骨架圖和掩碼就像是建筑工人拿到的施工圖紙，AI不再需要憑空猜測(cè)新視角下門(mén)應(yīng)該在哪里、柱子應(yīng)該多粗，因?yàn)閹缀谓Y(jié)構(gòu)已經(jīng)被明確給定了，AI只需要負(fù)責(zé)"涂色"——填充真實(shí)的紋理、光照和細(xì)節(jié)。

更進(jìn)一步，INSPATIO-WORLD還支持一種"可選的顯式結(jié)構(gòu)記憶"模式：系統(tǒng)可以把每次生成的視頻內(nèi)容重建為三維點(diǎn)云，并動(dòng)態(tài)擴(kuò)展一張整體的場(chǎng)景點(diǎn)云地圖。這相當(dāng)于給AI配備了一個(gè)隨時(shí)更新的三維地圖，讓它在探索未知區(qū)域時(shí)也有空間結(jié)構(gòu)可以參考。

五、多條件因果初始化：教會(huì)AI正確理解"先有雞還是先有蛋"

在自回歸視頻生成領(lǐng)域，初始化策略的好壞直接決定了后續(xù)生成的質(zhì)量。一種主流方法（以CausVid為代表）是用因果注意力掩碼來(lái)強(qiáng)制模型遵循"當(dāng)前幀只能參考之前幀"的生成順序，但這種方法有一個(gè)根本缺陷：當(dāng)模型需要同時(shí)考慮歷史幀、參考圖像和幾何約束這三類截然不同的輸入時(shí)，簡(jiǎn)單的因果掩碼根本無(wú)法準(zhǔn)確描述這些信號(hào)之間復(fù)雜的依賴關(guān)系，強(qiáng)行使用往往導(dǎo)致生成質(zhì)量不理想。

INSPATIO-WORLD提出了"多條件因果初始化"策略。這個(gè)策略的核心思路是：與其一開(kāi)始就讓模型進(jìn)入"快速生成"模式，不如先讓它在真實(shí)數(shù)據(jù)或教師模型的軌跡上做充分的"多步預(yù)演"，確保模型在初始階段就建立起與各類輸入條件之間準(zhǔn)確的關(guān)聯(lián)理解。等到模型對(duì)"如何響應(yīng)參考視頻"、"如何響應(yīng)幾何約束"、"如何銜接歷史幀"都形成了穩(wěn)固的認(rèn)知之后，再進(jìn)入蒸餾階段（即加速生成階段），讓模型專注于提升速度和細(xì)節(jié)精度。

還有一個(gè)設(shè)計(jì)細(xì)節(jié)值得關(guān)注：通過(guò)通道拼接方式注入的幾何約束信息，被限制為只作用于當(dāng)前正在生成的視頻塊，歷史幀對(duì)應(yīng)的通道則用零填充。這個(gè)設(shè)計(jì)防止了過(guò)去的幾何信號(hào)污染歷史緩存，確保緩存里保存的始終是純粹的圖像信息，從而保證了整個(gè)時(shí)空自回歸過(guò)程的邏輯完整性。

六、聯(lián)合分布匹配蒸餾：讓AI同時(shí)向兩位老師學(xué)習(xí)

解決了架構(gòu)問(wèn)題，還剩下那個(gè)頑固的"塑料感"問(wèn)題——大量使用合成數(shù)據(jù)訓(xùn)練出來(lái)的模型，生成的畫(huà)面總是缺少真實(shí)世界的那種光影質(zhì)感和材質(zhì)細(xì)節(jié)。

INSPATIO-WORLD提出了一種叫做"聯(lián)合分布匹配蒸餾"（JDMD）的訓(xùn)練策略來(lái)解決這個(gè)問(wèn)題。要理解這個(gè)機(jī)制，可以參考這樣一個(gè)場(chǎng)景：有個(gè)學(xué)徒需要同時(shí)向兩位師父學(xué)習(xí)。師父甲是位精通測(cè)量和工程規(guī)范的建筑師，專門(mén)教徒弟如何按照精確的圖紙施工，確保房子的結(jié)構(gòu)毫厘不差——這對(duì)應(yīng)著以合成數(shù)據(jù)訓(xùn)練的"運(yùn)動(dòng)控制教師模型"，它能教模型如何精確地遵循相機(jī)軌跡。師父乙是位審美極高的室內(nèi)設(shè)計(jì)大師，專門(mén)教徒弟如何讓空間在視覺(jué)上顯得真實(shí)、溫暖、有質(zhì)感——這對(duì)應(yīng)著原始的Wan2.1文本生成視頻基礎(chǔ)模型，它是在海量真實(shí)世界視頻上預(yù)訓(xùn)練的，對(duì)真實(shí)視覺(jué)分布有深刻的"直覺(jué)"。

在訓(xùn)練過(guò)程中，這兩個(gè)任務(wù)交替激活、共享模型權(quán)重。當(dāng)執(zhí)行"可控視頻重渲染"任務(wù)（即給定參考視頻和幾何信息，生成新視角視頻）時(shí)，從合成數(shù)據(jù)教師那里獲得的梯度指導(dǎo)模型精確控制運(yùn)動(dòng)；當(dāng)執(zhí)行"文本生成視頻"任務(wù)時(shí)，從真實(shí)數(shù)據(jù)教師那里獲得的梯度指導(dǎo)模型校準(zhǔn)視覺(jué)分布，提升紋理和光照的真實(shí)感。

這個(gè)機(jī)制之所以有效，關(guān)鍵在于兩個(gè)任務(wù)的輸入結(jié)構(gòu)截然不同，因此梯度方向不會(huì)相互干擾：運(yùn)動(dòng)控制的優(yōu)化不會(huì)破壞視覺(jué)保真度的優(yōu)化，反之亦然。通過(guò)這種"雙師共訓(xùn)"，INSPATIO-WORLD最終實(shí)現(xiàn)了控制精度和視覺(jué)質(zhì)量的雙重保障。

從工程實(shí)現(xiàn)角度，研究團(tuán)隊(duì)還設(shè)計(jì)了一種"分塊反向傳播"策略來(lái)解決訓(xùn)練時(shí)的內(nèi)存瓶頸?，F(xiàn)有自回歸擴(kuò)散模型在計(jì)算分布匹配損失時(shí)，由于序列長(zhǎng)度增加導(dǎo)致內(nèi)存壓力暴增，往往不得不在KV緩存構(gòu)建時(shí)關(guān)閉梯度計(jì)算，這使得模型只能被動(dòng)地?cái)M合特征，限制了生成質(zhì)量的上限。分塊反向傳播策略將前向推斷和反向優(yōu)化解耦：第一階段用無(wú)梯度模式完整推斷全序列，只保留最終輸出用于計(jì)算損失；第二階段逐塊重新執(zhí)行前向計(jì)算并立即觸發(fā)反向傳播，每個(gè)塊的中間表示在梯度更新后立即釋放。這個(gè)"時(shí)間換空間"的策略將峰值內(nèi)存占用壓縮到單個(gè)塊的規(guī)模，同時(shí)保證了全鏈路的可微性。

七、實(shí)驗(yàn)結(jié)果：三項(xiàng)任務(wù)全面驗(yàn)證優(yōu)勢(shì)

研究團(tuán)隊(duì)在三個(gè)不同的評(píng)測(cè)任務(wù)上驗(yàn)證了INSPATIO-WORLD的能力，覆蓋了世界模型評(píng)測(cè)、長(zhǎng)期視頻生成和相機(jī)控制視頻重渲染三個(gè)維度。

在WorldScore-Dynamic基準(zhǔn)測(cè)試上，INSPATIO-WORLD以1.3B參數(shù)量在所有實(shí)時(shí)或交互式方法中排名第一，運(yùn)動(dòng)平滑度得分達(dá)到71.91，相機(jī)控制精度得分達(dá)到81.51，光度質(zhì)量得分達(dá)到93.00。對(duì)比數(shù)據(jù)尤為說(shuō)明問(wèn)題：同為實(shí)時(shí)交互方法的TeleWorld雖然在3D一致性上得分略高（87.35對(duì)84.18），但相機(jī)控制精度（76.58對(duì)81.51）和光度質(zhì)量（88.82對(duì)93.00）均明顯落后于INSPATIO-WORLD。而那些不支持實(shí)時(shí)交互的重量級(jí)模型，如FantasyWorld-1.0（71.39的總體動(dòng)態(tài)得分，采用非實(shí)時(shí)模式），則在整體動(dòng)態(tài)得分上略高于INSPATIO-WORLD（68.72），但其計(jì)算代價(jià)遠(yuǎn)超后者。

在RE10K長(zhǎng)視頻生成任務(wù)中，研究團(tuán)隊(duì)從RealEstate10K數(shù)據(jù)集中隨機(jī)選取了100段超過(guò)150幀的序列進(jìn)行評(píng)測(cè)。INSPATIO-WORLD取得了42.68的FID（衡量單幀圖像質(zhì)量與真實(shí)數(shù)據(jù)的分布差距，越低越好）和100.55的FVD（衡量視頻時(shí)序質(zhì)量，越低越好），顯著領(lǐng)先于排名第二的LingBot-World（64.84和173.02）。在相機(jī)運(yùn)動(dòng)精度上，INSPATIO-WORLD的軌跡誤差（旋轉(zhuǎn)誤差2.8762，平移誤差0.1398）相比LingBot-World（11.981和0.2064）有壓倒性的優(yōu)勢(shì)，體現(xiàn)了精確幾何約束帶來(lái)的控制精度提升。

在相機(jī)控制視頻重渲染任務(wù)上，系統(tǒng)在真實(shí)的OpenVid數(shù)據(jù)集和合成的Blender數(shù)據(jù)集上均表現(xiàn)出色。在Blender數(shù)據(jù)集上，F(xiàn)ID降至44.46，F(xiàn)VD降至110.11，與NeoVerse相比（FID 103.23，F(xiàn)VD 230.87）有大幅提升。在OpenVid數(shù)據(jù)集上，綜合視頻質(zhì)量得分（VBench六項(xiàng)指標(biāo)均值）達(dá)到0.8507，在所有對(duì)比方法中排名第一，且相機(jī)控制精度（旋轉(zhuǎn)誤差1.6000，平移誤差0.1240）與NeoVerse（1.5780和0.1340）持平，實(shí)現(xiàn)了視覺(jué)質(zhì)量和控制精度的同步領(lǐng)先。

從定性比較來(lái)看，對(duì)比實(shí)驗(yàn)中的基線方法各有不同的失敗模式：Infinite-World隨著生成序列增長(zhǎng)出現(xiàn)嚴(yán)重的結(jié)構(gòu)變形和幾何扭曲；HY-WorldPlay缺乏穩(wěn)定的運(yùn)動(dòng)控制，經(jīng)常退化成靜態(tài)幀重復(fù)；LingBot-World雖然單幀質(zhì)量尚可，但因相機(jī)姿態(tài)估計(jì)不準(zhǔn)確而無(wú)法精確跟隨預(yù)設(shè)軌跡。INSPATIO-WORLD則在整個(gè)長(zhǎng)序列中始終保持了幾何完整性和精確的相機(jī)控制。

八、工程實(shí)現(xiàn)：如何在普通顯卡上跑出24幀每秒

從研究原型到真正可用的實(shí)時(shí)系統(tǒng)，工程優(yōu)化同樣至關(guān)重要。

在數(shù)據(jù)方面，訓(xùn)練使用了多元化的數(shù)據(jù)源：包括大規(guī)模公開(kāi)互聯(lián)網(wǎng)視頻（如RealEstate10K）、虛幻引擎渲染的合成序列，以及公開(kāi)的ReCamMaster數(shù)據(jù)集。每段視頻都會(huì)被送入前饋重建模型來(lái)提取深度信息，為幾何約束的注入做準(zhǔn)備。

訓(xùn)練分為三個(gè)階段。第一階段是教師模型訓(xùn)練，使用2×10??的學(xué)習(xí)率，建立穩(wěn)定的性能基準(zhǔn)。第二階段是學(xué)生模型初始化階段，沿用相同的學(xué)習(xí)率，讓學(xué)生模型建立起自回歸推斷能力。第三階段是聯(lián)合分布匹配蒸餾階段，學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)率降至4.0×10??，判別網(wǎng)絡(luò)（負(fù)責(zé)辨別生成質(zhì)量好壞的子模塊）的學(xué)習(xí)率設(shè)為8.0×10??。

在推斷加速方面，團(tuán)隊(duì)采用了兩項(xiàng)措施：用輕量級(jí)的Tiny-VAE替換原有的Wan-VAE（VAE是負(fù)責(zé)將像素空間壓縮為潛在空間的編解碼器，輕量版雖然精度略有損失，但延遲大幅降低），以及使用PyTorch的圖級(jí)編譯優(yōu)化（torch.compile）減少運(yùn)行時(shí)開(kāi)銷。最終，搭載1.3B參數(shù)版本的INSPATIO-WORLD在專業(yè)級(jí)H系列NVIDIA GPU上實(shí)現(xiàn)了24幀每秒的實(shí)時(shí)生成，在消費(fèi)級(jí)RTX 4090上也能維持10幀每秒。

九、當(dāng)前的局限與未來(lái)的方向

研究團(tuán)隊(duì)對(duì)系統(tǒng)的局限性保持了相當(dāng)清醒的認(rèn)識(shí)，這一點(diǎn)頗為難得。

目前，INSPATIO-WORLD的空間記憶能力主要依賴于參考視頻提供的原始幾何骨架，對(duì)于那些在探索過(guò)程中新生成的區(qū)域（即超出原始參考視頻覆蓋范圍的新內(nèi)容），系統(tǒng)缺乏對(duì)精細(xì)紋理細(xì)節(jié)的持久記憶能力——它記住了房子的框架，卻可能忘記了新探索到的走廊墻上那幅畫(huà)的圖案。

此外，在處理寬角度、全方位視角轉(zhuǎn)換時(shí)，確保動(dòng)態(tài)元素（比如場(chǎng)景中運(yùn)動(dòng)的人物或飄動(dòng)的樹(shù)葉）在多視角之間保持時(shí)空一致性依然是一個(gè)開(kāi)放性難題。

針對(duì)這些局限，研究團(tuán)隊(duì)計(jì)劃在未來(lái)開(kāi)發(fā)更深層的語(yǔ)義記憶系統(tǒng)，探索幾何結(jié)構(gòu)與高維紋理特征的深度耦合，實(shí)現(xiàn)對(duì)生成區(qū)域更完整的記錄與重建。同時(shí)還計(jì)劃引入更強(qiáng)的物理先驗(yàn)約束，讓系統(tǒng)在大規(guī)模、高復(fù)雜度的動(dòng)態(tài)場(chǎng)景中實(shí)現(xiàn)真正意義上的物理正確的閉環(huán)仿真。

說(shuō)到底，INSPATIO-WORLD做的事情可以用一句話概括：把一段平凡的視頻變成一個(gè)你可以真正"走進(jìn)去"的四維世界。這件事聽(tīng)起來(lái)像科幻電影里的情節(jié)，但它已經(jīng)在一塊普通的消費(fèi)級(jí)顯卡上以每秒十幀的速度運(yùn)行著了。

對(duì)于機(jī)器人和自動(dòng)駕駛領(lǐng)域來(lái)說(shuō)，這意味著可以用最低成本從真實(shí)世界視頻中生成海量的訓(xùn)練數(shù)據(jù)，而不必為每種可能出現(xiàn)的視角都去真實(shí)采集。對(duì)于游戲和影視行業(yè)，這意味著一個(gè)新的內(nèi)容創(chuàng)作范式正在成形。對(duì)于普通用戶，或許有一天你手機(jī)里的旅游視頻，真的可以讓你在里面重新漫步一遍。

當(dāng)然，現(xiàn)在的系統(tǒng)還有明顯的短板，360度全方位漫游和動(dòng)態(tài)場(chǎng)景的長(zhǎng)期記憶是研究者明確承認(rèn)的兩道坎。但考慮到這套系統(tǒng)的代碼和模型已經(jīng)完全開(kāi)源（可在GitHub上通過(guò)inspatio/inspatio-world找到），學(xué)術(shù)社區(qū)接下來(lái)會(huì)以怎樣的速度填補(bǔ)這些空白，是一個(gè)相當(dāng)值得期待的問(wèn)題。

有興趣深入了解技術(shù)細(xì)節(jié)的讀者，可以通過(guò)arXiv編號(hào)2604.07209查閱完整論文。

Q&A

Q1：INSPATIO-WORLD和普通的AI視頻生成有什么區(qū)別？

A：普通AI視頻生成是給定文字或圖片后生成一段固定視角的視頻，看完就沒(méi)了。INSPATIO-WORLD不同，它能把一段已有的參考視頻變成一個(gè)可以實(shí)時(shí)交互的四維空間，用戶可以通過(guò)鍵盤(pán)或手柄控制攝像機(jī)方向，自由在場(chǎng)景中移動(dòng)漫游，就像在玩一個(gè)以真實(shí)視頻為背景的游戲，并且整個(gè)過(guò)程是實(shí)時(shí)生成的，消費(fèi)級(jí)顯卡上能跑到每秒10幀。

Q2：INSPATIO-WORLD是怎么解決生成畫(huà)面"塑料感"的問(wèn)題的？

A：核心方法是"聯(lián)合分布匹配蒸餾"（JDMD）。系統(tǒng)同時(shí)向兩個(gè)教師模型學(xué)習(xí)：一個(gè)是用合成數(shù)據(jù)訓(xùn)練的、擅長(zhǎng)精確幾何控制的教師，另一個(gè)是在海量真實(shí)視頻上預(yù)訓(xùn)練的、對(duì)真實(shí)視覺(jué)質(zhì)感有深度理解的教師。兩個(gè)任務(wù)共享模型權(quán)重但交替激活，真實(shí)數(shù)據(jù)教師的梯度持續(xù)校準(zhǔn)模型的視覺(jué)分布，讓它在生成時(shí)自動(dòng)向真實(shí)光照和材質(zhì)質(zhì)感靠攏，從而消除合成數(shù)據(jù)帶來(lái)的塑料感。

Q3：INSPATIO-WORLD需要什么硬件才能運(yùn)行，普通人用得上嗎？

A：系統(tǒng)針對(duì)不同硬件提供了不同的運(yùn)行體驗(yàn)。搭配專業(yè)級(jí)H系列NVIDIA GPU可以實(shí)現(xiàn)24幀每秒的真正實(shí)時(shí)運(yùn)行；在消費(fèi)級(jí)RTX 4090顯卡上也能維持10幀每秒，已經(jīng)可以用于交互式瀏覽。由于代碼和1.3B參數(shù)的模型已經(jīng)完全開(kāi)源，技術(shù)愛(ài)好者可以直接在GitHub上的inspatio/inspatio-world倉(cāng)庫(kù)下載使用，不需要購(gòu)買(mǎi)商業(yè)授權(quán)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.