国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

浙大突破:普通視頻實(shí)現(xiàn)4D沉浸式自由漫游空間轉(zhuǎn)換能力提升突破

0
分享至


這項(xiàng)由浙江大學(xué)等機(jī)構(gòu)聯(lián)合開(kāi)發(fā)的研究成果,以技術(shù)報(bào)告形式于2026年4月發(fā)布在預(yù)印本平臺(tái)arXiv,編號(hào)為arXiv:2604.07209。研究團(tuán)隊(duì)將這套系統(tǒng)命名為INSPATIO-WORLD,旨在將一段普通的參考視頻轉(zhuǎn)變?yōu)橐粋€(gè)可以實(shí)時(shí)自由漫游的動(dòng)態(tài)四維世界。

假設(shè)你拍了一段客廳的視頻,現(xiàn)在不僅想從另一個(gè)角度看這個(gè)房間,還想自由地向前走兩步、向右轉(zhuǎn)頭看看窗邊的植物,甚至想讓時(shí)間快進(jìn)或倒退——而這一切都在你拍攝的那一刻之后才發(fā)生。這正是INSPATIO-WORLD試圖解決的核心問(wèn)題,也是整個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域長(zhǎng)期以來(lái)追求的夢(mèng)想。

一、我們?yōu)槭裁葱枰粋€(gè)"活的"視頻世界

普通相機(jī)拍出的視頻本質(zhì)上是時(shí)間和空間的一次"快照記錄":你只能站在那個(gè)固定的位置,沿著那個(gè)固定的方向,看那段固定時(shí)間里發(fā)生的事情。想從另一個(gè)角度看看?抱歉,那個(gè)角度當(dāng)時(shí)沒(méi)有攝像機(jī)。這就像你參加了一場(chǎng)演唱會(huì),只坐在左側(cè)第三排,演出結(jié)束后你想回味從舞臺(tái)正后方看到的景象,卻發(fā)現(xiàn)根本沒(méi)有這個(gè)視角的錄像。

現(xiàn)有的人工智能視頻生成技術(shù)雖然已經(jīng)能合成極為逼真的短片,但它們?cè)谶@個(gè)問(wèn)題上卻有三個(gè)讓人頭疼的短板。

第一個(gè)短板是"空間遺忘癥"?,F(xiàn)有的自動(dòng)生成框架缺乏有效的記憶機(jī)制,當(dāng)你從一個(gè)房間的一端走到另一端再回頭時(shí),AI生成的畫(huà)面往往已經(jīng)"忘記"了起點(diǎn)的樣子,墻上的裝飾可能換了顏色,窗戶可能出現(xiàn)在了不該出現(xiàn)的地方,這種現(xiàn)象被研究者稱為空間持久性退化。

第二個(gè)短板是"塑料感"。很多AI視頻系統(tǒng)在真實(shí)場(chǎng)景數(shù)據(jù)極其有限的情況下,大量依賴電腦游戲引擎或三維建模軟件生成的合成數(shù)據(jù)來(lái)訓(xùn)練模型。這些數(shù)據(jù)雖然幾何結(jié)構(gòu)完美,但光照質(zhì)感、材質(zhì)紋理和真實(shí)世界存在明顯差異,最終輸出的畫(huà)面往往帶有一種奇怪的"塑料光澤",一眼就能看出是假的。

第三個(gè)短板是"控制失靈"。現(xiàn)有模型普遍無(wú)法精確執(zhí)行用戶設(shè)定的攝像機(jī)路徑。你讓它向左平移一米,它可能斜移了也可能根本沒(méi)動(dòng),這反映出這些模型在空間幾何推理能力上的根本性缺陷。

INSPATIO-WORLD的整個(gè)設(shè)計(jì)邏輯,就是圍繞這三個(gè)短板展開(kāi)的。

二、核心架構(gòu):像大腦一樣同時(shí)記憶過(guò)去、感知現(xiàn)在、理解空間

研究團(tuán)隊(duì)為INSPATIO-WORLD設(shè)計(jì)了一套名為"時(shí)空自回歸框架"的核心架構(gòu),英文縮寫(xiě)為STAR。理解這個(gè)架構(gòu),可以把整個(gè)生成過(guò)程類比成一位經(jīng)驗(yàn)豐富的電影布景師在腦海中重建場(chǎng)景的方式。

這位布景師手中有三類信息可以參考。第一類是"原始劇本",也就是參考視頻里的那些關(guān)鍵幀畫(huà)面,它們記錄了真實(shí)場(chǎng)景的樣子,是一切重建工作的"出發(fā)點(diǎn)"和最終的"對(duì)標(biāo)材料"。第二類是"施工記錄",也就是之前已經(jīng)生成好的那些視頻幀,它們告訴布景師自己剛才走到了哪里、方才的畫(huà)面是什么樣的,用來(lái)保證運(yùn)動(dòng)的連續(xù)性和邏輯的合理性。第三類是"建筑藍(lán)圖",也就是從參考視頻中提取出來(lái)的三維幾何信息,包括深度圖(每個(gè)像素距離攝像機(jī)有多遠(yuǎn))和相機(jī)內(nèi)參(相當(dāng)于鏡頭的焦距和視角),這些信息讓布景師知道空間中每一塊磚瓦的精確位置。

每次需要生成一個(gè)新的視頻片段時(shí),系統(tǒng)會(huì)把用戶的操作指令(比如"向前走"或"向左轉(zhuǎn)")轉(zhuǎn)換成一個(gè)精確的六自由度相機(jī)姿態(tài)變換,通俗來(lái)說(shuō)就是告訴系統(tǒng)"攝像機(jī)現(xiàn)在應(yīng)該在空間中的哪個(gè)位置、朝向哪個(gè)方向"。然后系統(tǒng)會(huì)用這個(gè)姿態(tài)信息將參考視頻中的特征"重新投影"到新視角下,生成一張"幾何對(duì)齊的預(yù)覽圖",同時(shí)附上一張"有效像素掩碼"來(lái)標(biāo)注哪些區(qū)域是真實(shí)可見(jiàn)的、哪些是被遮擋需要AI補(bǔ)全的。這三類信息被同時(shí)送入一個(gè)基于Transformer架構(gòu)的擴(kuò)散模型(可以把它理解為一個(gè)極強(qiáng)的"畫(huà)面補(bǔ)全引擎"),最終生成既符合幾何結(jié)構(gòu)、又有高度視覺(jué)真實(shí)性的新視角畫(huà)面。

三、時(shí)空緩存機(jī)制:永遠(yuǎn)不會(huì)"忘路之遠(yuǎn)近"的記憶系統(tǒng)

現(xiàn)有的自回歸視頻生成系統(tǒng)有一個(gè)根本性的問(wèn)題:隨著生成長(zhǎng)度的增加,系統(tǒng)對(duì)早期內(nèi)容的記憶會(huì)逐漸退化,就像一個(gè)長(zhǎng)途跋涉的旅人走得越遠(yuǎn)、越記不清自己從哪里出發(fā)。INSPATIO-WORLD用"時(shí)空緩存機(jī)制"來(lái)解決這個(gè)問(wèn)題,本質(zhì)上是為系統(tǒng)設(shè)計(jì)了一套"短期工作記憶加長(zhǎng)期空間錨點(diǎn)"的雙重記憶體系。

短期工作記憶負(fù)責(zé)處理運(yùn)動(dòng)的連續(xù)性。系統(tǒng)始終保留最近生成的那一批幀(用滑動(dòng)窗口的方式組織),確保從上一個(gè)鏡頭到當(dāng)前鏡頭的過(guò)渡自然流暢,不會(huì)出現(xiàn)突兀的跳變。

長(zhǎng)期空間錨點(diǎn)則負(fù)責(zé)處理場(chǎng)景的一致性。每次生成新內(nèi)容時(shí),系統(tǒng)會(huì)從原始參考視頻中實(shí)時(shí)檢索對(duì)應(yīng)的參考幀,將其注入到生成過(guò)程中作為"全局空間坐標(biāo)原點(diǎn)"。這就好比你在一棟大樓里四處參觀,手里始終拿著一張建筑平面圖,不管走到哪個(gè)房間,你都能在平面圖上找到自己的位置,也能據(jù)此判斷其他房間應(yīng)該在哪個(gè)方向。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)微妙但重要的技術(shù)問(wèn)題:現(xiàn)有Transformer模型使用一種叫做"旋轉(zhuǎn)位置編碼"的機(jī)制來(lái)理解序列中各個(gè)元素的位置關(guān)系,但當(dāng)生成序列變得非常長(zhǎng)時(shí),新生成內(nèi)容的位置編號(hào)會(huì)不斷增大,超出模型在訓(xùn)練時(shí)見(jiàn)過(guò)的范圍,導(dǎo)致它開(kāi)始"不知道自己在哪"。INSPATIO-WORLD采用了一種"位置索引錨定"策略,將當(dāng)前待生成塊、參考幀和歷史幀的起始位置索引都固定在同一個(gè)絕對(duì)坐標(biāo)原點(diǎn)上,讓模型始終在一個(gè)穩(wěn)定的表示空間內(nèi)工作,徹底解決了長(zhǎng)序列推斷時(shí)的數(shù)值不穩(wěn)定問(wèn)題。

四、幾何約束機(jī)制:給AI配一把精密測(cè)量尺

純靠記憶和直覺(jué)是不夠的,還需要精確的測(cè)量工具。INSPATIO-WORLD的"幾何感知顯式約束"模塊,扮演的正是這把精密測(cè)量尺的角色。

當(dāng)用戶按下"向前移動(dòng)"的鍵時(shí),系統(tǒng)做的不是模糊地"生成一個(gè)看起來(lái)前進(jìn)了的畫(huà)面",而是執(zhí)行一套嚴(yán)格的三維幾何計(jì)算流程。系統(tǒng)會(huì)調(diào)用前饋重建方法(一類可以從單張圖像快速估計(jì)三維結(jié)構(gòu)的技術(shù),包括深度估計(jì)和相機(jī)參數(shù)恢復(fù))從參考視頻中提取出場(chǎng)景的三維點(diǎn)云,然后根據(jù)精確計(jì)算出來(lái)的新相機(jī)姿態(tài)將這些三維點(diǎn)重新投影到新視角的二維畫(huà)面上,得到一張帶有真實(shí)幾何結(jié)構(gòu)的"骨架圖",同時(shí)生成一張二值掩碼標(biāo)注出哪些像素是有效投影、哪些是因遮擋或視野外而無(wú)法投影的空白區(qū)域。

這張骨架圖和掩碼就像是建筑工人拿到的施工圖紙,AI不再需要憑空猜測(cè)新視角下門(mén)應(yīng)該在哪里、柱子應(yīng)該多粗,因?yàn)閹缀谓Y(jié)構(gòu)已經(jīng)被明確給定了,AI只需要負(fù)責(zé)"涂色"——填充真實(shí)的紋理、光照和細(xì)節(jié)。

更進(jìn)一步,INSPATIO-WORLD還支持一種"可選的顯式結(jié)構(gòu)記憶"模式:系統(tǒng)可以把每次生成的視頻內(nèi)容重建為三維點(diǎn)云,并動(dòng)態(tài)擴(kuò)展一張整體的場(chǎng)景點(diǎn)云地圖。這相當(dāng)于給AI配備了一個(gè)隨時(shí)更新的三維地圖,讓它在探索未知區(qū)域時(shí)也有空間結(jié)構(gòu)可以參考。

五、多條件因果初始化:教會(huì)AI正確理解"先有雞還是先有蛋"

在自回歸視頻生成領(lǐng)域,初始化策略的好壞直接決定了后續(xù)生成的質(zhì)量。一種主流方法(以CausVid為代表)是用因果注意力掩碼來(lái)強(qiáng)制模型遵循"當(dāng)前幀只能參考之前幀"的生成順序,但這種方法有一個(gè)根本缺陷:當(dāng)模型需要同時(shí)考慮歷史幀、參考圖像和幾何約束這三類截然不同的輸入時(shí),簡(jiǎn)單的因果掩碼根本無(wú)法準(zhǔn)確描述這些信號(hào)之間復(fù)雜的依賴關(guān)系,強(qiáng)行使用往往導(dǎo)致生成質(zhì)量不理想。

INSPATIO-WORLD提出了"多條件因果初始化"策略。這個(gè)策略的核心思路是:與其一開(kāi)始就讓模型進(jìn)入"快速生成"模式,不如先讓它在真實(shí)數(shù)據(jù)或教師模型的軌跡上做充分的"多步預(yù)演",確保模型在初始階段就建立起與各類輸入條件之間準(zhǔn)確的關(guān)聯(lián)理解。等到模型對(duì)"如何響應(yīng)參考視頻"、"如何響應(yīng)幾何約束"、"如何銜接歷史幀"都形成了穩(wěn)固的認(rèn)知之后,再進(jìn)入蒸餾階段(即加速生成階段),讓模型專注于提升速度和細(xì)節(jié)精度。

還有一個(gè)設(shè)計(jì)細(xì)節(jié)值得關(guān)注:通過(guò)通道拼接方式注入的幾何約束信息,被限制為只作用于當(dāng)前正在生成的視頻塊,歷史幀對(duì)應(yīng)的通道則用零填充。這個(gè)設(shè)計(jì)防止了過(guò)去的幾何信號(hào)污染歷史緩存,確保緩存里保存的始終是純粹的圖像信息,從而保證了整個(gè)時(shí)空自回歸過(guò)程的邏輯完整性。

六、聯(lián)合分布匹配蒸餾:讓AI同時(shí)向兩位老師學(xué)習(xí)

解決了架構(gòu)問(wèn)題,還剩下那個(gè)頑固的"塑料感"問(wèn)題——大量使用合成數(shù)據(jù)訓(xùn)練出來(lái)的模型,生成的畫(huà)面總是缺少真實(shí)世界的那種光影質(zhì)感和材質(zhì)細(xì)節(jié)。

INSPATIO-WORLD提出了一種叫做"聯(lián)合分布匹配蒸餾"(JDMD)的訓(xùn)練策略來(lái)解決這個(gè)問(wèn)題。要理解這個(gè)機(jī)制,可以參考這樣一個(gè)場(chǎng)景:有個(gè)學(xué)徒需要同時(shí)向兩位師父學(xué)習(xí)。師父甲是位精通測(cè)量和工程規(guī)范的建筑師,專門(mén)教徒弟如何按照精確的圖紙施工,確保房子的結(jié)構(gòu)毫厘不差——這對(duì)應(yīng)著以合成數(shù)據(jù)訓(xùn)練的"運(yùn)動(dòng)控制教師模型",它能教模型如何精確地遵循相機(jī)軌跡。師父乙是位審美極高的室內(nèi)設(shè)計(jì)大師,專門(mén)教徒弟如何讓空間在視覺(jué)上顯得真實(shí)、溫暖、有質(zhì)感——這對(duì)應(yīng)著原始的Wan2.1文本生成視頻基礎(chǔ)模型,它是在海量真實(shí)世界視頻上預(yù)訓(xùn)練的,對(duì)真實(shí)視覺(jué)分布有深刻的"直覺(jué)"。

在訓(xùn)練過(guò)程中,這兩個(gè)任務(wù)交替激活、共享模型權(quán)重。當(dāng)執(zhí)行"可控視頻重渲染"任務(wù)(即給定參考視頻和幾何信息,生成新視角視頻)時(shí),從合成數(shù)據(jù)教師那里獲得的梯度指導(dǎo)模型精確控制運(yùn)動(dòng);當(dāng)執(zhí)行"文本生成視頻"任務(wù)時(shí),從真實(shí)數(shù)據(jù)教師那里獲得的梯度指導(dǎo)模型校準(zhǔn)視覺(jué)分布,提升紋理和光照的真實(shí)感。

這個(gè)機(jī)制之所以有效,關(guān)鍵在于兩個(gè)任務(wù)的輸入結(jié)構(gòu)截然不同,因此梯度方向不會(huì)相互干擾:運(yùn)動(dòng)控制的優(yōu)化不會(huì)破壞視覺(jué)保真度的優(yōu)化,反之亦然。通過(guò)這種"雙師共訓(xùn)",INSPATIO-WORLD最終實(shí)現(xiàn)了控制精度和視覺(jué)質(zhì)量的雙重保障。

從工程實(shí)現(xiàn)角度,研究團(tuán)隊(duì)還設(shè)計(jì)了一種"分塊反向傳播"策略來(lái)解決訓(xùn)練時(shí)的內(nèi)存瓶頸?,F(xiàn)有自回歸擴(kuò)散模型在計(jì)算分布匹配損失時(shí),由于序列長(zhǎng)度增加導(dǎo)致內(nèi)存壓力暴增,往往不得不在KV緩存構(gòu)建時(shí)關(guān)閉梯度計(jì)算,這使得模型只能被動(dòng)地?cái)M合特征,限制了生成質(zhì)量的上限。分塊反向傳播策略將前向推斷和反向優(yōu)化解耦:第一階段用無(wú)梯度模式完整推斷全序列,只保留最終輸出用于計(jì)算損失;第二階段逐塊重新執(zhí)行前向計(jì)算并立即觸發(fā)反向傳播,每個(gè)塊的中間表示在梯度更新后立即釋放。這個(gè)"時(shí)間換空間"的策略將峰值內(nèi)存占用壓縮到單個(gè)塊的規(guī)模,同時(shí)保證了全鏈路的可微性。

七、實(shí)驗(yàn)結(jié)果:三項(xiàng)任務(wù)全面驗(yàn)證優(yōu)勢(shì)

研究團(tuán)隊(duì)在三個(gè)不同的評(píng)測(cè)任務(wù)上驗(yàn)證了INSPATIO-WORLD的能力,覆蓋了世界模型評(píng)測(cè)、長(zhǎng)期視頻生成和相機(jī)控制視頻重渲染三個(gè)維度。

在WorldScore-Dynamic基準(zhǔn)測(cè)試上,INSPATIO-WORLD以1.3B參數(shù)量在所有實(shí)時(shí)或交互式方法中排名第一,運(yùn)動(dòng)平滑度得分達(dá)到71.91,相機(jī)控制精度得分達(dá)到81.51,光度質(zhì)量得分達(dá)到93.00。對(duì)比數(shù)據(jù)尤為說(shuō)明問(wèn)題:同為實(shí)時(shí)交互方法的TeleWorld雖然在3D一致性上得分略高(87.35對(duì)84.18),但相機(jī)控制精度(76.58對(duì)81.51)和光度質(zhì)量(88.82對(duì)93.00)均明顯落后于INSPATIO-WORLD。而那些不支持實(shí)時(shí)交互的重量級(jí)模型,如FantasyWorld-1.0(71.39的總體動(dòng)態(tài)得分,采用非實(shí)時(shí)模式),則在整體動(dòng)態(tài)得分上略高于INSPATIO-WORLD(68.72),但其計(jì)算代價(jià)遠(yuǎn)超后者。

在RE10K長(zhǎng)視頻生成任務(wù)中,研究團(tuán)隊(duì)從RealEstate10K數(shù)據(jù)集中隨機(jī)選取了100段超過(guò)150幀的序列進(jìn)行評(píng)測(cè)。INSPATIO-WORLD取得了42.68的FID(衡量單幀圖像質(zhì)量與真實(shí)數(shù)據(jù)的分布差距,越低越好)和100.55的FVD(衡量視頻時(shí)序質(zhì)量,越低越好),顯著領(lǐng)先于排名第二的LingBot-World(64.84和173.02)。在相機(jī)運(yùn)動(dòng)精度上,INSPATIO-WORLD的軌跡誤差(旋轉(zhuǎn)誤差2.8762,平移誤差0.1398)相比LingBot-World(11.981和0.2064)有壓倒性的優(yōu)勢(shì),體現(xiàn)了精確幾何約束帶來(lái)的控制精度提升。

在相機(jī)控制視頻重渲染任務(wù)上,系統(tǒng)在真實(shí)的OpenVid數(shù)據(jù)集和合成的Blender數(shù)據(jù)集上均表現(xiàn)出色。在Blender數(shù)據(jù)集上,F(xiàn)ID降至44.46,F(xiàn)VD降至110.11,與NeoVerse相比(FID 103.23,F(xiàn)VD 230.87)有大幅提升。在OpenVid數(shù)據(jù)集上,綜合視頻質(zhì)量得分(VBench六項(xiàng)指標(biāo)均值)達(dá)到0.8507,在所有對(duì)比方法中排名第一,且相機(jī)控制精度(旋轉(zhuǎn)誤差1.6000,平移誤差0.1240)與NeoVerse(1.5780和0.1340)持平,實(shí)現(xiàn)了視覺(jué)質(zhì)量和控制精度的同步領(lǐng)先。

從定性比較來(lái)看,對(duì)比實(shí)驗(yàn)中的基線方法各有不同的失敗模式:Infinite-World隨著生成序列增長(zhǎng)出現(xiàn)嚴(yán)重的結(jié)構(gòu)變形和幾何扭曲;HY-WorldPlay缺乏穩(wěn)定的運(yùn)動(dòng)控制,經(jīng)常退化成靜態(tài)幀重復(fù);LingBot-World雖然單幀質(zhì)量尚可,但因相機(jī)姿態(tài)估計(jì)不準(zhǔn)確而無(wú)法精確跟隨預(yù)設(shè)軌跡。INSPATIO-WORLD則在整個(gè)長(zhǎng)序列中始終保持了幾何完整性和精確的相機(jī)控制。

八、工程實(shí)現(xiàn):如何在普通顯卡上跑出24幀每秒

從研究原型到真正可用的實(shí)時(shí)系統(tǒng),工程優(yōu)化同樣至關(guān)重要。

在數(shù)據(jù)方面,訓(xùn)練使用了多元化的數(shù)據(jù)源:包括大規(guī)模公開(kāi)互聯(lián)網(wǎng)視頻(如RealEstate10K)、虛幻引擎渲染的合成序列,以及公開(kāi)的ReCamMaster數(shù)據(jù)集。每段視頻都會(huì)被送入前饋重建模型來(lái)提取深度信息,為幾何約束的注入做準(zhǔn)備。

訓(xùn)練分為三個(gè)階段。第一階段是教師模型訓(xùn)練,使用2×10??的學(xué)習(xí)率,建立穩(wěn)定的性能基準(zhǔn)。第二階段是學(xué)生模型初始化階段,沿用相同的學(xué)習(xí)率,讓學(xué)生模型建立起自回歸推斷能力。第三階段是聯(lián)合分布匹配蒸餾階段,學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)率降至4.0×10??,判別網(wǎng)絡(luò)(負(fù)責(zé)辨別生成質(zhì)量好壞的子模塊)的學(xué)習(xí)率設(shè)為8.0×10??。

在推斷加速方面,團(tuán)隊(duì)采用了兩項(xiàng)措施:用輕量級(jí)的Tiny-VAE替換原有的Wan-VAE(VAE是負(fù)責(zé)將像素空間壓縮為潛在空間的編解碼器,輕量版雖然精度略有損失,但延遲大幅降低),以及使用PyTorch的圖級(jí)編譯優(yōu)化(torch.compile)減少運(yùn)行時(shí)開(kāi)銷。最終,搭載1.3B參數(shù)版本的INSPATIO-WORLD在專業(yè)級(jí)H系列NVIDIA GPU上實(shí)現(xiàn)了24幀每秒的實(shí)時(shí)生成,在消費(fèi)級(jí)RTX 4090上也能維持10幀每秒。

九、當(dāng)前的局限與未來(lái)的方向

研究團(tuán)隊(duì)對(duì)系統(tǒng)的局限性保持了相當(dāng)清醒的認(rèn)識(shí),這一點(diǎn)頗為難得。

目前,INSPATIO-WORLD的空間記憶能力主要依賴于參考視頻提供的原始幾何骨架,對(duì)于那些在探索過(guò)程中新生成的區(qū)域(即超出原始參考視頻覆蓋范圍的新內(nèi)容),系統(tǒng)缺乏對(duì)精細(xì)紋理細(xì)節(jié)的持久記憶能力——它記住了房子的框架,卻可能忘記了新探索到的走廊墻上那幅畫(huà)的圖案。

此外,在處理寬角度、全方位視角轉(zhuǎn)換時(shí),確保動(dòng)態(tài)元素(比如場(chǎng)景中運(yùn)動(dòng)的人物或飄動(dòng)的樹(shù)葉)在多視角之間保持時(shí)空一致性依然是一個(gè)開(kāi)放性難題。

針對(duì)這些局限,研究團(tuán)隊(duì)計(jì)劃在未來(lái)開(kāi)發(fā)更深層的語(yǔ)義記憶系統(tǒng),探索幾何結(jié)構(gòu)與高維紋理特征的深度耦合,實(shí)現(xiàn)對(duì)生成區(qū)域更完整的記錄與重建。同時(shí)還計(jì)劃引入更強(qiáng)的物理先驗(yàn)約束,讓系統(tǒng)在大規(guī)模、高復(fù)雜度的動(dòng)態(tài)場(chǎng)景中實(shí)現(xiàn)真正意義上的物理正確的閉環(huán)仿真。

說(shuō)到底,INSPATIO-WORLD做的事情可以用一句話概括:把一段平凡的視頻變成一個(gè)你可以真正"走進(jìn)去"的四維世界。這件事聽(tīng)起來(lái)像科幻電影里的情節(jié),但它已經(jīng)在一塊普通的消費(fèi)級(jí)顯卡上以每秒十幀的速度運(yùn)行著了。

對(duì)于機(jī)器人和自動(dòng)駕駛領(lǐng)域來(lái)說(shuō),這意味著可以用最低成本從真實(shí)世界視頻中生成海量的訓(xùn)練數(shù)據(jù),而不必為每種可能出現(xiàn)的視角都去真實(shí)采集。對(duì)于游戲和影視行業(yè),這意味著一個(gè)新的內(nèi)容創(chuàng)作范式正在成形。對(duì)于普通用戶,或許有一天你手機(jī)里的旅游視頻,真的可以讓你在里面重新漫步一遍。

當(dāng)然,現(xiàn)在的系統(tǒng)還有明顯的短板,360度全方位漫游和動(dòng)態(tài)場(chǎng)景的長(zhǎng)期記憶是研究者明確承認(rèn)的兩道坎。但考慮到這套系統(tǒng)的代碼和模型已經(jīng)完全開(kāi)源(可在GitHub上通過(guò)inspatio/inspatio-world找到),學(xué)術(shù)社區(qū)接下來(lái)會(huì)以怎樣的速度填補(bǔ)這些空白,是一個(gè)相當(dāng)值得期待的問(wèn)題。

有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)arXiv編號(hào)2604.07209查閱完整論文。

Q&A

Q1:INSPATIO-WORLD和普通的AI視頻生成有什么區(qū)別?

A:普通AI視頻生成是給定文字或圖片后生成一段固定視角的視頻,看完就沒(méi)了。INSPATIO-WORLD不同,它能把一段已有的參考視頻變成一個(gè)可以實(shí)時(shí)交互的四維空間,用戶可以通過(guò)鍵盤(pán)或手柄控制攝像機(jī)方向,自由在場(chǎng)景中移動(dòng)漫游,就像在玩一個(gè)以真實(shí)視頻為背景的游戲,并且整個(gè)過(guò)程是實(shí)時(shí)生成的,消費(fèi)級(jí)顯卡上能跑到每秒10幀。

Q2:INSPATIO-WORLD是怎么解決生成畫(huà)面"塑料感"的問(wèn)題的?

A:核心方法是"聯(lián)合分布匹配蒸餾"(JDMD)。系統(tǒng)同時(shí)向兩個(gè)教師模型學(xué)習(xí):一個(gè)是用合成數(shù)據(jù)訓(xùn)練的、擅長(zhǎng)精確幾何控制的教師,另一個(gè)是在海量真實(shí)視頻上預(yù)訓(xùn)練的、對(duì)真實(shí)視覺(jué)質(zhì)感有深度理解的教師。兩個(gè)任務(wù)共享模型權(quán)重但交替激活,真實(shí)數(shù)據(jù)教師的梯度持續(xù)校準(zhǔn)模型的視覺(jué)分布,讓它在生成時(shí)自動(dòng)向真實(shí)光照和材質(zhì)質(zhì)感靠攏,從而消除合成數(shù)據(jù)帶來(lái)的塑料感。

Q3:INSPATIO-WORLD需要什么硬件才能運(yùn)行,普通人用得上嗎?

A:系統(tǒng)針對(duì)不同硬件提供了不同的運(yùn)行體驗(yàn)。搭配專業(yè)級(jí)H系列NVIDIA GPU可以實(shí)現(xiàn)24幀每秒的真正實(shí)時(shí)運(yùn)行;在消費(fèi)級(jí)RTX 4090顯卡上也能維持10幀每秒,已經(jīng)可以用于交互式瀏覽。由于代碼和1.3B參數(shù)的模型已經(jīng)完全開(kāi)源,技術(shù)愛(ài)好者可以直接在GitHub上的inspatio/inspatio-world倉(cāng)庫(kù)下載使用,不需要購(gòu)買(mǎi)商業(yè)授權(quán)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
滬上父母太頭疼!孩子直呼:感覺(jué)抬不起頭,不買(mǎi)就沒(méi)朋友!怎么破?

滬上父母太頭疼!孩子直呼:感覺(jué)抬不起頭,不買(mǎi)就沒(méi)朋友!怎么破?

新民晚報(bào)
2026-04-22 15:23:35
媽摔了一跤髖骨骨折,術(shù)后第3天突發(fā)肺栓塞,全家沒(méi)見(jiàn)上最后一面

媽摔了一跤髖骨骨折,術(shù)后第3天突發(fā)肺栓塞,全家沒(méi)見(jiàn)上最后一面

劉哥談體育
2026-04-22 19:38:47
CBA常規(guī)賽大結(jié)局!最后一輪這7支球隊(duì)輸球就變天,遼寧也不例外

CBA常規(guī)賽大結(jié)局!最后一輪這7支球隊(duì)輸球就變天,遼寧也不例外

寒律
2026-04-22 16:39:29
現(xiàn)實(shí)的回旋鏢!加盟皇馬后連遭四大皆空,姆巴佩還在為貪婪買(mǎi)單

現(xiàn)實(shí)的回旋鏢!加盟皇馬后連遭四大皆空,姆巴佩還在為貪婪買(mǎi)單

濤哥侃球
2026-04-22 21:50:50
為何鹿肉沒(méi)人吃?看懂狗肉館為啥不用偷來(lái)的狗就明白了

為何鹿肉沒(méi)人吃?看懂狗肉館為啥不用偷來(lái)的狗就明白了

超人強(qiáng)動(dòng)物俱樂(lè)部
2026-04-22 09:08:21
副省級(jí)城市兩位市委常委先后落馬

副省級(jí)城市兩位市委常委先后落馬

上觀新聞
2026-04-21 10:32:09
泰國(guó)潑水節(jié)一名15歲少女遭軍人尾隨進(jìn)公廁性侵,監(jiān)控曝光,嫌疑人已投案自首,將被移送軍事法庭

泰國(guó)潑水節(jié)一名15歲少女遭軍人尾隨進(jìn)公廁性侵,監(jiān)控曝光,嫌疑人已投案自首,將被移送軍事法庭

揚(yáng)子晚報(bào)
2026-04-21 22:25:47
日媒、外交部歐洲司發(fā)聲!如今的樊振東,完全證實(shí)劉國(guó)梁當(dāng)初的話

日媒、外交部歐洲司發(fā)聲!如今的樊振東,完全證實(shí)劉國(guó)梁當(dāng)初的話

阿纂看事
2026-04-21 18:17:13
周潤(rùn)發(fā)750萬(wàn)賣(mài)出50平米山頂豪宅,雜草叢生,曾叫價(jià)1.95億賣(mài)不掉

周潤(rùn)發(fā)750萬(wàn)賣(mài)出50平米山頂豪宅,雜草叢生,曾叫價(jià)1.95億賣(mài)不掉

螃蟹吃瓜攤
2026-04-20 20:15:05
人民幣再度貶值,匯率重回6.9,對(duì)中美GDP差距有何影響?

人民幣再度貶值,匯率重回6.9,對(duì)中美GDP差距有何影響?

壹號(hào)股權(quán)
2026-04-22 16:22:08
雷霆三少誰(shuí)賺得最多?哈登4.2億,杜蘭特5.9億,看到威少我服了

雷霆三少誰(shuí)賺得最多?哈登4.2億,杜蘭特5.9億,看到威少我服了

云隱南山
2026-04-22 03:15:00
長(zhǎng)治女子萬(wàn)達(dá)墜亡最新!警方定性,被曝是研究生,跳樓誘因太痛心

長(zhǎng)治女子萬(wàn)達(dá)墜亡最新!警方定性,被曝是研究生,跳樓誘因太痛心

哄動(dòng)一時(shí)啊
2026-04-21 12:01:22
京東員工:周圍同事不少得糖尿病呀,有點(diǎn)恐怖

京東員工:周圍同事不少得糖尿病呀,有點(diǎn)恐怖

螞蟻大喇叭
2026-04-22 09:54:02
五連敗切爾西徹底崩盤(pán)!主帥放豪言:6年合同在手,絕不下課!

五連敗切爾西徹底崩盤(pán)!主帥放豪言:6年合同在手,絕不下課!

田先生籃球
2026-04-22 06:57:15
JRTI迎來(lái)最后一收:告別獵鷹9號(hào),正式轉(zhuǎn)戰(zhàn)星艦時(shí)代

JRTI迎來(lái)最后一收:告別獵鷹9號(hào),正式轉(zhuǎn)戰(zhàn)星艦時(shí)代

三體引力波
2026-04-21 20:28:35
饒毅教授發(fā)文:“再刪試試看”

饒毅教授發(fā)文:“再刪試試看”

雙一流高校
2026-04-22 00:09:48
四川5月1日起實(shí)施最嚴(yán)禁煙新規(guī)

四川5月1日起實(shí)施最嚴(yán)禁煙新規(guī)

閃電新聞
2026-04-22 17:34:25
偉大的10-2!吳宜澤破百收工,復(fù)仇戰(zhàn)創(chuàng)2大紀(jì)錄,中國(guó)4人進(jìn)16強(qiáng)!

偉大的10-2!吳宜澤破百收工,復(fù)仇戰(zhàn)創(chuàng)2大紀(jì)錄,中國(guó)4人進(jìn)16強(qiáng)!

劉姚堯的文字城堡
2026-04-21 22:32:23
牟鵬飛神奇一戰(zhàn)!丟2球仍獲9.7分,本季僅次1人,7戰(zhàn)29撲

牟鵬飛神奇一戰(zhàn)!丟2球仍獲9.7分,本季僅次1人,7戰(zhàn)29撲

奧拜爾
2026-04-22 22:16:07
“東鵬0糖特飲”是商標(biāo),客服:商標(biāo)注冊(cè)為品牌保護(hù),原罐裝0糖特飲已暫停售賣(mài)

“東鵬0糖特飲”是商標(biāo),客服:商標(biāo)注冊(cè)為品牌保護(hù),原罐裝0糖特飲已暫停售賣(mài)

界面新聞
2026-04-22 21:43:04
2026-04-22 22:35:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8094文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

媒體:伊朗用“不怕死”三個(gè)字 勸退特朗普

頭條要聞

媒體:伊朗用“不怕死”三個(gè)字 勸退特朗普

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

醫(yī)院專家號(hào)"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

游戲
藝術(shù)
家居
本地
公開(kāi)課

寶可夢(mèng)被沖爛了!選手揮拳慶祝奪冠卻被判負(fù) 回應(yīng)來(lái)了

藝術(shù)要聞

無(wú)花不風(fēng)景

家居要聞

極簡(jiǎn)繪夢(mèng) 克制和諧

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版