港中文薛天帆團隊：實現(xiàn) 4K 全景視頻生成，普通視頻也能「長出空間」丨CVPR 2026

2026-04-09 19:59:14　來源: 雷峰網(wǎng)

北京舉報

分享至

很多人都經(jīng)歷過這樣一種落差。現(xiàn)實里的空間是立體的，是包圍人的，是可以轉(zhuǎn)身、抬頭、回望的，可一旦被手機或相機拍成視頻，世界立刻被壓縮成一個窄窄的取景框。

暴雨來臨前的天空并不只在鏡頭正前方，深夜街區(qū)的壓迫感也不只來自路面，商場中庭、地下車站、展館大廳、建筑內(nèi)部，這些真正讓人產(chǎn)生現(xiàn)場感的東西，往往恰恰存在于鏡頭之外。我們記錄下了事件，卻沒有真正留住空間，保存了畫面，卻沒有保存身處其中的感覺。

這也是今天沉浸式內(nèi)容產(chǎn)業(yè)最真實的困境之一。大家已經(jīng)越來越明確地意識到，未來的視頻不只是給人看，更是給人進入、環(huán)視和停留的。VR、數(shù)字展陳、虛擬空間、文旅體驗、游戲場景、線上看房、遠程教育，這些領域真正需要的都不是普通平面視頻，而是能夠承載空間感、方向感和臨場感的全景內(nèi)容。

問題在于，需求已經(jīng)跑在前面，生產(chǎn)方式卻還停在后面。要拍攝高質(zhì)量 360° 視頻，往往仍要依賴專門設備、多機位系統(tǒng)、復雜拼接流程和高昂成本，真正能穩(wěn)定產(chǎn)出的人和機構(gòu)始終有限。也就是說，沉浸式內(nèi)容的想象已經(jīng)很豐富，但它的供給能力并沒有跟上。

這也是沉浸式內(nèi)容行業(yè)一直沒有被真正做大的關鍵原因。市場越來越需要 360° 視頻，VR、虛擬空間、數(shù)字展陳、互動體驗都在等更豐富的內(nèi)容供給，可現(xiàn)實生產(chǎn)仍然依賴昂貴設備、復雜流程和高成本制作。大家都知道普通視頻是最豐富、最便宜、最容易獲取的素材，但怎樣把它真正擴展成高質(zhì)量全景視頻，始終是行業(yè)里最難啃的問題之一。

正是在這樣的背景下，香港中文大學的薛天帆團隊提出了 CubeComposer，并在論文《CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video》中，試圖回答一個真正有行業(yè)分量的問題，也就是普通視角視頻能否被直接擴展成原生 4K 的 360° 視頻，而且這種擴展不是表面上的放大，不是看起來清楚一點，而是能夠在空間連續(xù)性、時間穩(wěn)定性和整體真實感上都站得住。

這件事可以想得更具體一點。以后一個商場空間的宣傳視頻，也許不必再靠專門全景設備拍攝；一段城市夜景素材，也不只是單一方向的記錄，而可能被擴展成可以環(huán)視的沉浸式場景；很多原本只能平面觀看的內(nèi)容，未來都有機會變成能讓人重新進入其中的空間體驗。

CubeComposer 的價值，也正是在這里。它不是單純把模型性能往上推了一點，而是在普通視頻如何變成沉浸式內(nèi)容這件事上，給出了一條更接近現(xiàn)實應用的路。

論文鏈接：https://arxiv.org/pdf/2603.04291

真正拉開差距的，不只是分辨率

研究團隊在兩個數(shù)據(jù)集上對方法進行了測試，分別是自建的 4K360Vid 和公開數(shù)據(jù)集 ODV360。評價指標包括 LPIPS，數(shù)值越低表示結(jié)果越接近真實；CLIP，數(shù)值越高表示語義一致性越強；FID 和 FVD，用于衡量生成質(zhì)量；以及 VBench 中的美觀度、清晰度和一致性。

在 4K360Vid 上，與最強基線 Argus 相比，CubeComposer 的 LPIPS 從 0.4074 降到 0.3696，CLIP 從 0.8858 提高到 0.9234，F(xiàn)ID 從 141 降到 119，F(xiàn)VD 從 4.07 降到 3.90，說明生成結(jié)果在感知質(zhì)量、語義一致性以及視頻穩(wěn)定性上都有明顯提升。雷峰網(wǎng)

進一步看最關鍵的 4K 版本，F(xiàn)VD 繼續(xù)降到 2.22，清晰度指標 I.Q. 提升到 0.56 以上，美觀度指標 A.Q. 提升到 0.40 以上，這說明分辨率更高的同時，質(zhì)量不但沒有下降，反而進一步提升。

在 ODV360 上也呈現(xiàn)出同樣趨勢。LPIPS 大約從 0.43 降到 0.42，CLIP 從大約 0.88 提升到 0.90 以上，F(xiàn)ID 從大約 140 降到 123，F(xiàn)VD 更是從 Argus 的 12 以上降到 CubeComposer 的 3.5。這里尤其值得注意的是，F(xiàn)VD 從 12 降到 3.5，反映出視頻時序穩(wěn)定性和整體連貫性出現(xiàn)了非常顯著的提升。

研究人員還比較了這種方法與超分辨率方案之間的差別。以往常見做法是先生成 1K 視頻，再用 VEnhancer 放大到 2K，但這種方式并沒有真正帶來更高質(zhì)量的結(jié)果。例如 FID 會從 141 上升到 168，指標反而變差，視覺效果也更不自然。這說明后處理放大并不等于真正的高分辨率生成，CubeComposer體現(xiàn)的是原生高質(zhì)量，而不是放大之后形成的表面清晰。

除了定量結(jié)果，研究還給出了定性對比。傳統(tǒng)方法普遍存在遠處細節(jié)模糊的問題，例如樹木和建筑不夠清晰，運動過程中容易出現(xiàn)畫面抖動，拼接區(qū)域會出現(xiàn)斷裂，經(jīng)過超分辨率處理之后還會產(chǎn)生明顯的“涂抹感”。

相比之下，CubeComposer 生成的結(jié)果在遠景區(qū)域依然保持較高銳度，畫面運動更加連續(xù)，沒有明顯的拼接縫，整體觀感也更接近真實的 360° 視頻。這說明這種提升不僅體現(xiàn)在指標上，也能在視覺上直接感受到更強的真實性。

研究團隊還通過消融實驗驗證了核心機制的作用。對于上下文機制，研究人員比較了三種設置，分別是完整方法 Ours、去掉未來信息的 w/o future tokens，以及使用全量上下文的 Full tokens。

結(jié)果表明，一旦去掉未來信息，F(xiàn)VD 會從 4.25 上升到 6.03，性能明顯變差；而 Full tokens 的性能雖然與完整方法接近，但計算開銷更高。這說明未來信息對視頻生成非常關鍵，不過并不需要把所有未來信息全部輸入，只需要保留關鍵片段，就可以在性能和效率之間取得更好的平衡。

在連續(xù)性設計，也就是防止拼接痕跡的實驗中，研究人員同樣比較了三種版本，分別是去掉位置編碼、去掉 padding 和 blending，以及完整模型。結(jié)果顯示，只要去掉其中任意一個組件，F(xiàn)ID 就會從 157 上升到 190 以上，同時 LPIPS 也會變差，生成結(jié)果顯得更不真實。雷峰網(wǎng)

從可視化現(xiàn)象來看，最直接的問題就是邊界位置出現(xiàn)明顯裂縫。由此可以看出，連續(xù)性設計是 360° 視頻生成中非常關鍵的一部分，對于保證不同區(qū)域之間的自然銜接具有決定性作用。

一套不止于模型的完整打法

在數(shù)據(jù)集構(gòu)建方面，研究團隊首先建立了 4K360Vid 數(shù)據(jù)集。這一數(shù)據(jù)集包含 11,832 段視頻，分辨率均達到 4K 及以上，來源是在 Argus 數(shù)據(jù)集基礎上進一步擴展得到。

為提升數(shù)據(jù)可用性，研究人員使用 Qwen-VL 自動生成視頻描述，并對低質(zhì)量視頻進行了過濾，因此這個數(shù)據(jù)集具有高質(zhì)量、有語義標注、適合生成模型訓練等特點。除 4K360Vid 之外，研究中還使用了 ODV360 數(shù)據(jù)集，這是一套標準的 360° 視頻數(shù)據(jù)集，主要用于訓練和測試。

在訓練設置方面，研究團隊首先從 360° 視頻中構(gòu)造輸入數(shù)據(jù)。每個訓練樣本都經(jīng)歷了幾個步驟：先從原始 360° 視頻中隨機生成相機軌跡，再據(jù)此生成普通視角視頻，用來模擬手機或常規(guī)相機拍攝的效果，之后再把這種普通視角視頻轉(zhuǎn)換成帶缺失區(qū)域的 360° 視頻。

于是，模型面對的任務就變成了對缺失區(qū)域進行補全，同時還要保證時間上的一致性和空間上的一致性。為了更貼近真實拍攝場景，研究中將相機視角范圍設置為 60° 到 120°，軌跡由 3 到 5 個關鍵點構(gòu)成。

在訓練方法上，研究人員以 Wan 2.2 5B 視頻模型作為基礎模型。在具體訓練過程中，系統(tǒng)會隨機選擇一個時間窗口以及 cubemap 中的某一個面，然后圍繞這一目標構(gòu)建上下文信息，上下文由歷史信息、當前信息和未來信息共同組成，在這種條件下訓練模型去預測視頻內(nèi)容。

在推理，也就是生成階段，研究團隊采用分步生成策略。首先把整段視頻劃分成多個時間窗口，然后在每個時間窗口內(nèi)，按照 F、R、B、L、U、D 六個面的順序逐步生成內(nèi)容。

每一次生成時，系統(tǒng)都會利用上下文信息，尤其是歷史信息和未來信息，最后再把六個面重新拼接起來，形成完整的 360° 視頻。從本質(zhì)上看，這個過程就是把整個球形視頻一點一點補全出來。

在對比實驗設計上，研究團隊選擇了 Argus、Imagine360 和 ViewPoint 作為主要比較對象。為了保證對比公平，所有方法都使用相同的輸入視頻，并盡量控制在相同視角范圍，也就是 90°×45° 的設置下進行比較。由于 ViewPoint 只能處理 90°×90° 的輸入，因此研究人員針對這一方法單獨采用了相應設置。

在評測方式上，研究使用了三類指標。第一類是參考指標，包括 LPIPS 和 CLIP；第二類是分布指標，包括圖像層面的 FID 和視頻層面的 FVD；第三類是主觀質(zhì)量指標，也就是 VBench，其中包括美觀度 A.Q.、清晰度 I.Q. 和一致性 O.C.。研究人員還特別說明，為了避免比較不公平，每個模型都按照自身支持的分辨率進行評測。

從少數(shù)人能做，到更多人能用

回到實驗意義層面，這項研究并不只是把分辨率從 1K 提高到 4K，更重要的是研究團隊真正突破了 360° 視頻生成長期卡住的技術(shù)上限。

過去的擴散模型往往要一次性生成整段 360° 視頻，計算量非常大，顯存和算力壓力也極高，所以結(jié)果通常只能停留在較低分辨率，畫面細節(jié)不足，離真正可用還有明顯距離。

研究人員把原本整體生成的任務拆開，在空間上分成 6 個面，在時間上分成多個窗口，再按照順序逐步完成生成，這樣一來，原本難以承受的計算壓力就被分散了，高分辨率生成也從理論上的困難問題變成了實際可落地的方案。也就是說，這項研究的價值不只是生成得更清楚，而是證明了高質(zhì)量 360° 視頻生成這件事終于可以做成。

從研究方法來看，這項工作也提出了一種很有代表性的思路。以往很多生成模型追求一次性把完整內(nèi)容做出來，而研究團隊轉(zhuǎn)向了時空自回歸方式，把視頻生成理解為一個逐步推進、不斷補全的過程。

這種變化非常重要，因為它說明復雜的視頻生成任務未必一定要整體完成，也可以像寫文章、拼地圖一樣，一部分一部分地構(gòu)建起來。這樣的思路對未來的視頻生成、3D 生成，甚至世界模型研究都有啟發(fā)意義，因為很多更復雜的生成任務，本質(zhì)上都可能受益于這種分步驟、分區(qū)域、分時段的處理方式。

對于 360° 視頻本身，這項研究還真正碰到了最難的幾個核心問題，并且給出了比較完整的解決路徑。普通視頻只能拍到局部視野，所以生成 360° 內(nèi)容時最先遇到的問題就是看不見的區(qū)域怎么補。

不同方向上的內(nèi)容又必須彼此連貫，否則用戶一轉(zhuǎn)頭就會感覺場景是假的。再往下，多個區(qū)域拼接在一起時還很容易在邊界位置出現(xiàn)裂縫、錯位和跳變。研究團隊分別用上下文機制、未來信息、生成順序設計和連續(xù)性設計去處理這些問題，說明這項工作不是只在單一指標上提升，而是在朝著真正可觀看、可使用、可沉浸的 360° 視頻邁進。

更值得強調(diào)的是，這項研究對普通人的影響其實很直接。過去如果想做 360° 視頻，通常需要專門的 360° 相機或者復雜的多機位設備，成本高，操作門檻也高，真正能用的人并不多?，F(xiàn)在按照這項研究展示出來的方向，未來普通人拿著手機、運動相機，或者一臺普通攝像設備拍下來的視角視頻，就有可能被自動擴展成 360° 內(nèi)容。

這意味著很多原本只有專業(yè)團隊才能完成的事情，以后普通用戶也可能做到。比如旅行時拍的一段風景視頻，未來不只是平面的記錄，而可能被做成可以自由轉(zhuǎn)動視角的沉浸式回憶；家里的日常生活、聚會、演出、婚禮，也有機會被保存成更有現(xiàn)場感的內(nèi)容；老師、博物館、景區(qū)、創(chuàng)作者和小型工作室，也不一定非要購買昂貴設備，照樣有可能制作出更有沉浸感的展示材料。

從應用層面看，這項研究會影響的不只是實驗室里的模型性能，還會影響普通人接觸內(nèi)容的方式。對于 VR 內(nèi)容制作來說，它降低了制作門檻，讓更多內(nèi)容來源不再依賴專業(yè)拍攝設備。對于游戲和虛擬場景生成來說，它意味著環(huán)境構(gòu)建可能更快、更便宜。對于數(shù)字孿生和虛擬旅游來說，它意味著現(xiàn)實世界中的一個普通視頻片段，未來就有機會被擴展成更完整、更可交互的空間體驗。

換句話說，這項研究推動的不是單純的算法升級，而是讓沉浸式內(nèi)容從少數(shù)專業(yè)機構(gòu)手里，逐漸走向更多普通人可用、可看、可創(chuàng)作的方向。

從更深一層看，研究真正重要的地方在于三個關鍵設計被結(jié)合到了一起，也就是時空自回歸、包含未來信息的上下文機制，以及用來降低計算復雜度的稀疏注意力。單獨看其中任何一個設計，都很難徹底解決問題，但三者合在一起，才讓 4K 360° 視頻生成第一次真正具備了現(xiàn)實可行性。

所以，這項研究的意義不僅在于做出了一個效果更好的模型，更在于它給未來高分辨率沉浸式視頻生成提供了一條清晰可行的技術(shù)路線。

CubeComposer 背后的人

這篇文章的通訊錄作者為薛天帆，目前任職于香港中文大學信息工程系助理教授。他的研究主要集中在計算攝影、計算機視覺、機器學習以及計算機圖形學等方向，長期關注如何讓機器更好地理解和重建視覺世界。

在學術(shù)經(jīng)歷上，薛天帆本科畢業(yè)于清華大學，隨后在香港中文大學獲得碩士學位，并在麻省理工學院計算機科學與人工智能實驗室完成博士研究，師從計算機視覺領域知名學者 William T. Freeman。

在進入高校任教之前，他曾在 Google Research 工作多年，從事圖像與視頻處理相關研究，并參與多項實際落地的影像算法開發(fā)，例如移動設備夜景成像、圖像增強和編輯系統(tǒng)等，這些技術(shù)已經(jīng)被應用在真實產(chǎn)品中。

在科研成果方面，他在計算機視覺與圖形學頂級會議和期刊上發(fā)表了大量論文，研究方向覆蓋視頻生成、3D 重建、圖像增強等多個領域，累計被引用超過一萬次。同時，其團隊近年來在多個國際頂級會議中獲得重要認可，例如 SIGGRAPH、CVPR、NeurIPS 等會議的論文獎項和展示榮譽，體現(xiàn)出持續(xù)的研究影響力。

參考鏈接：https://tianfan.info/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.