網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

《現(xiàn)代電影技術(shù)》｜陳焱松等：空間智能技術(shù)在VR電影空間映射中的應(yīng)用探索

2025-03-21 12:38:28　來(lái)源: 電影技術(shù)微刊

北京舉報(bào)

分享至

本文刊發(fā)于《現(xiàn)代電影技術(shù)》2025年第2期

專家點(diǎn)評(píng)

人工智能（AI）的第三次浪潮正以空間智能（Spatial Intelligence）為核心掀起新一輪變革?？臻g智能即AI在三維空間中感知、推理和行動(dòng)的能力，其核心在于賦予機(jī)器理解物理世界的深度、距離、方位及動(dòng)態(tài)關(guān)系，從而在復(fù)雜環(huán)境中實(shí)現(xiàn)自主決策。VR電影作為空間智能技術(shù)的重要應(yīng)用場(chǎng)景，其借助計(jì)算機(jī)系統(tǒng)及傳感器技術(shù)生成三維環(huán)境，創(chuàng)造出一種嶄新的人機(jī)交互方式，模擬人的視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等感官功能，使觀眾沉浸在虛擬境界中。VR電影的全景式立體成像、環(huán)繞音響和人景交互，徹底沖破了傳統(tǒng)影院的維度，使觀眾在視覺(jué)和聽(tīng)覺(jué)上完全浸潤(rùn)于影片內(nèi)容，為觀眾帶來(lái)嶄新的沉浸式交互式觀影體驗(yàn)。隨著空間智能技術(shù)的發(fā)展與應(yīng)用，AI技術(shù)與VR技術(shù)的耦合程度越來(lái)越深，未來(lái)VR電影將通過(guò)復(fù)雜運(yùn)動(dòng)模擬、多模態(tài)數(shù)據(jù)融合和智能體動(dòng)態(tài)敘事等技術(shù)的綜合應(yīng)用，推動(dòng)其走向更加交互、更加沉浸和更富個(gè)性化的影像體驗(yàn)，并持續(xù)推動(dòng)敘事方式和交互模式的革新?！犊臻g智能技術(shù)在VR電影空間映射中的應(yīng)用探索》一文針對(duì)VR電影創(chuàng)制中面臨的如何在虛擬空間中實(shí)現(xiàn)對(duì)現(xiàn)實(shí)空間的動(dòng)態(tài)映射這一困境，基于空間定位、空間認(rèn)知和空間涌現(xiàn)的邏輯層級(jí)，從實(shí)時(shí)追蹤、多模態(tài)映射、三維生成和空間推理等維度，構(gòu)建VR電影的空間智能技術(shù)路徑，為VR電影中虛擬空間與現(xiàn)實(shí)空間的復(fù)雜交互問(wèn)題提供了解決思路，對(duì)相關(guān)研究人員具有較高的參考價(jià)值。

——潘志庚

教授

南京信息工程大學(xué)人工智能學(xué)院院長(zhǎng)

作者簡(jiǎn) 介

陳焱松

北京師范大學(xué)藝術(shù)與傳媒學(xué)院數(shù)字媒體系助理研究員、勵(lì)耘博士后，主要研究方向：數(shù)字影像技術(shù)與藝術(shù)、AI生成藝術(shù)。

北京師范大學(xué)藝術(shù)與傳媒學(xué)院碩士研究生在讀，主要研究方向：數(shù)字媒體。

蔡若彤

摘要

伴隨人工智能技術(shù)的持續(xù)發(fā)展迭代，以空間智能為核心的技術(shù)集群逐漸改變虛擬現(xiàn)實(shí)（VR）電影中對(duì)于現(xiàn)實(shí)空間和虛擬空間的雙重認(rèn)知方式，使VR電影創(chuàng)制進(jìn)入全新階段。為解決VR電影創(chuàng)制面臨的運(yùn)動(dòng)映射、身體映射、動(dòng)態(tài)交互映射等空間困境，本文通過(guò)對(duì)空間智能技術(shù)與VR電影間的關(guān)系梳理，基于空間定位技術(shù)、空間認(rèn)知技術(shù)與空間涌現(xiàn)技術(shù)的邏輯層級(jí)，從實(shí)時(shí)追蹤技術(shù)、多模態(tài)映射技術(shù)、三維生成技術(shù)、空間推理技術(shù)等維度，初步構(gòu)建VR電影的空間智能技術(shù)路徑，一定程度上解決了VR電影中虛擬空間與現(xiàn)實(shí)空間的復(fù)雜交互問(wèn)題，有助于持續(xù)推動(dòng)VR電影創(chuàng)制技術(shù)在空間映射中的革新，構(gòu)筑一個(gè)更富沉浸性的虛擬空間環(huán)境。

關(guān)鍵詞

空間智能；VR電影；空間映射；空間涌現(xiàn)；智能體（AI Agent）

1 引言

2024年4月，斯坦福大學(xué)教授李飛飛在溫哥華TED大會(huì)上首次向公眾詳細(xì)闡釋了空間智能（Spatial Intelligence）的相關(guān)概念[1]。這一概念最初來(lái)源于心理學(xué)，由霍華德·加德納（Howard Gardner）在其著作《心智框架》（Frames of Mind: The Theory of Multiple Intelligences, 1983）中的多元智能理論[2]所提出，主要指人類理解和利用空間關(guān)系的能力，包括空間感知、空間推理、空間表征和空間想象等。此后在人工智能技術(shù)與心理學(xué)的耦合下，結(jié)合計(jì)算機(jī)視覺(jué)（CV）、圖像處理、深度感知、空間映射以及機(jī)器學(xué)習(xí)（ML）和神經(jīng)網(wǎng)絡(luò)等技術(shù)，賦予機(jī)器感知、理解和導(dǎo)航物理世界的能力。與以往人工智能技術(shù)主要處理二維圖像（包含靜態(tài)和動(dòng)態(tài)）不同，空間智能相關(guān)概念及其支撐技術(shù)將人工智能技術(shù)帶入新的深水區(qū)，逐步發(fā)展出能夠解釋和推理三維空間的算法能力，邁向?qū)τ趧?dòng)態(tài)實(shí)時(shí)環(huán)境的深度感知與交互。

空間智能的認(rèn)知過(guò)程涉及對(duì)現(xiàn)實(shí)世界與抽象世界中的視覺(jué)信息進(jìn)行理解，以及對(duì)信息進(jìn)行想象的能力，其技術(shù)突破不僅推動(dòng)了智能導(dǎo)航、自動(dòng)駕駛和虛擬現(xiàn)實(shí)（VR）等領(lǐng)域的迅速發(fā)展，還為從科學(xué)研究到藝術(shù)創(chuàng)作的廣泛應(yīng)用場(chǎng)景提供了更多可能。尤其對(duì)VR電影而言，深度感知和空間映射技術(shù)為其提供了高度逼真的場(chǎng)景建模能力，機(jī)器學(xué)習(xí)則提升了VR電影系統(tǒng)實(shí)時(shí)優(yōu)化內(nèi)容生成與交互方式的能力?？梢哉f(shuō)，以空間智能為核心的系列技術(shù)逐漸改變了VR電影中對(duì)于現(xiàn)實(shí)空間和虛擬空間的雙重認(rèn)知方式，同時(shí)為各類媒介與技術(shù)的融合帶來(lái)深遠(yuǎn)影響。正如當(dāng)前的電影概念不再被簡(jiǎn)單定義為圖像與聲音的組合，不再局限于傳統(tǒng)線性敘事或非線性敘事，而是成為一個(gè)更具開(kāi)放屬性、更富多維動(dòng)態(tài)、更能復(fù)雜交互的涌現(xiàn)性影像系統(tǒng)[3]。VR電影的表達(dá)形式也伴隨技術(shù)發(fā)展不斷迭代，通過(guò)整合實(shí)時(shí)空間計(jì)算、人工智能及多模態(tài)交互技術(shù)，全面步入空間智能的新階段。

2 VR電影的空間困境

虛擬現(xiàn)實(shí)電影作為一種新興媒介，其核心在于構(gòu)建一個(gè)獨(dú)特且具備影像吸引力的數(shù)字世界，使觀眾能產(chǎn)生身臨其境的感受。然而，這種沉浸感的實(shí)現(xiàn)并非簡(jiǎn)單依賴于VR媒介本身的技術(shù)特性，而是建立在虛擬空間與現(xiàn)實(shí)空間之間復(fù)雜的交互技術(shù)機(jī)制之上。從認(rèn)知科學(xué)角度來(lái)看，沉浸感并非單純來(lái)源于虛擬空間所提供的構(gòu)想屬性，而是需建立在現(xiàn)實(shí)空間感知與大腦映射的和諧統(tǒng)一基礎(chǔ)之上。相關(guān)研究表明，無(wú)論是通過(guò)觸覺(jué)增強(qiáng)模擬物理觸感以提升虛擬環(huán)境中的真實(shí)感[4]，還是通過(guò)虛擬空間與現(xiàn)實(shí)空間的動(dòng)態(tài)對(duì)齊以減輕認(rèn)知負(fù)擔(dān)[5]，虛擬對(duì)象與物理對(duì)象的雙向交互能夠?qū)崿F(xiàn)真實(shí)行為映射，進(jìn)而顯著增強(qiáng)沉浸感。

因此，當(dāng)前VR電影創(chuàng)制中面臨的重要空間困境在于如何在虛擬空間中實(shí)現(xiàn)對(duì)現(xiàn)實(shí)空間的動(dòng)態(tài)映射，即當(dāng)VR創(chuàng)造出完全虛擬的環(huán)境時(shí)，觀眾的真實(shí)身體仍存在于現(xiàn)實(shí)世界中，如何彌合這種虛擬與現(xiàn)實(shí)、具身性與意向性之間的裂隙。從本質(zhì)來(lái)看，VR電影的空間困境實(shí)際是一個(gè)系統(tǒng)性的問(wèn)題，涉及計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)、電影學(xué)等多重領(lǐng)域，當(dāng)前空間智能技術(shù)能夠從空間定位、空間認(rèn)知、空間涌現(xiàn)等方面對(duì)VR電影空間進(jìn)行優(yōu)化設(shè)計(jì)，使觀眾能夠清晰地認(rèn)識(shí)“我”在虛擬情境中的位置、角色及規(guī)則，解決“觀眾是誰(shuí)、觀眾在哪、觀眾要到哪里去”等問(wèn)題。

2.1 空間定位技術(shù)與運(yùn)動(dòng)映射

運(yùn)動(dòng)映射是指將觀眾在現(xiàn)實(shí)世界中的運(yùn)動(dòng)行為（如行走、旋轉(zhuǎn)、跳躍）映射到虛擬環(huán)境中，使虛擬角色運(yùn)動(dòng)、視角等保持與真實(shí)運(yùn)動(dòng)一致。在VR電影的空間移動(dòng)中，由于VR定位和追蹤技術(shù)的限制，觀眾常被限制為一個(gè)靜態(tài)的觀察者，對(duì)于360°影像進(jìn)行全景觀看，缺少觀眾在這一空間中的位置感知與運(yùn)動(dòng)映射。此后，部分VR電影采用“瞬移式”交互，通過(guò)手柄點(diǎn)擊完成位置跳轉(zhuǎn)，以實(shí)現(xiàn)在VR空間中的大幅度移動(dòng)。這樣設(shè)計(jì)雖可解決虛擬空間的運(yùn)動(dòng)問(wèn)題，但缺乏現(xiàn)實(shí)運(yùn)動(dòng)的連續(xù)性，可能降低沉浸感，同時(shí)也容易引發(fā)觀眾的眩暈感或暈動(dòng)癥[6]，從而影響觀眾的體驗(yàn)。因此，靜態(tài)式觀察、程序化交互都限制了觀眾身體在VR空間中的實(shí)際移動(dòng)，從而降低了觀眾的運(yùn)動(dòng)映射感。

空間定位技術(shù)集群引入VR電影后，能將觀眾的真實(shí)運(yùn)動(dòng)與在虛擬空間中的運(yùn)動(dòng)進(jìn)行精準(zhǔn)映射，實(shí)現(xiàn)觀眾與虛擬世界間的空間一致性，被廣泛用于解決“觀眾在哪”的問(wèn)題，極大地推動(dòng)觀眾在場(chǎng)感的塑造。一般而言，空間定位技術(shù)涉及感知空間中的物體位置、自己的運(yùn)動(dòng)軌跡以及相對(duì)于周圍環(huán)境的關(guān)系。在基于人體的運(yùn)動(dòng)映射中，涉及旋轉(zhuǎn)、跳躍等復(fù)雜肢體運(yùn)動(dòng)的檢測(cè)，對(duì)精準(zhǔn)動(dòng)作捕捉技術(shù)提出了更高要求。然而，這種高精度追蹤往往需要額外的硬件支持，比如多個(gè)傳感器、攝像頭、慣性測(cè)量單元（IMU）或外骨骼設(shè)備。這會(huì)導(dǎo)致觀眾需佩戴較笨重的設(shè)備，可能也會(huì)限制觀眾的運(yùn)動(dòng)范圍，影響自然的跳躍或旋轉(zhuǎn)動(dòng)作。

2.2 空間認(rèn)知技術(shù)與身體映射

身體映射是指將觀眾在現(xiàn)實(shí)世界中的身體感知（如視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等感覺(jué)）行為映射到虛擬環(huán)境中，使虛擬角色的感知過(guò)程與觀眾的真實(shí)感知類似。在VR技術(shù)發(fā)展的初期，身體映射的設(shè)計(jì)和實(shí)現(xiàn)能力有限，尤其感官一致性是身體映射的難題之一。以觸覺(jué)設(shè)備為例，早期觸覺(jué)設(shè)備的功能多采用簡(jiǎn)單的振動(dòng)反饋，主要用于模擬單一的觸碰事件或物體邊緣的感知，缺乏對(duì)物體紋理、形狀和動(dòng)態(tài)變化的精細(xì)模擬，使觀眾的觸覺(jué)體驗(yàn)片面而生硬。而在觸覺(jué)之外的視覺(jué)、聽(tīng)覺(jué)等其他感官，也常會(huì)出現(xiàn)感知不同步的問(wèn)題。例如，觀眾在虛擬環(huán)境中抓取物體時(shí)，視覺(jué)上物體已移動(dòng)，但觸覺(jué)反饋可能延遲或完全缺失。這種感官不協(xié)調(diào)削弱了觀眾的沉浸感，甚至引發(fā)不適[7]。

當(dāng)空間定位技術(shù)解決了“觀眾在哪”的問(wèn)題之后，空間認(rèn)知技術(shù)需解決“觀眾是誰(shuí)”的問(wèn)題?？臻g認(rèn)知技術(shù)集群引入VR電影可增強(qiáng)觀眾對(duì)虛擬世界空間結(jié)構(gòu)、虛擬物品等之間的理解與感知。通過(guò)諸如認(rèn)知地圖映射[8]等技術(shù)框架，空間認(rèn)知技術(shù)能夠?qū)τ脩舾兄Ｊ胶驼J(rèn)知偏好進(jìn)行建模，實(shí)現(xiàn)虛擬場(chǎng)景的實(shí)時(shí)生成。例如，根據(jù)觀眾的視線焦點(diǎn)和注意力模式，動(dòng)態(tài)調(diào)整虛擬場(chǎng)景中的燈光、色彩或布局，確保觀眾的注意力集中在關(guān)鍵敘事點(diǎn)上。

2.3 空間涌現(xiàn)技術(shù)與動(dòng)態(tài)交互映射

動(dòng)態(tài)交互映射是指將觀眾在現(xiàn)實(shí)世界中的交互邏輯、交互動(dòng)作映射至動(dòng)態(tài)變化的虛擬環(huán)境及虛擬角色之上。以往 VR電影往往是運(yùn)用單一的交互反饋來(lái)表現(xiàn)虛擬環(huán)境的動(dòng)態(tài)屬性，但虛擬環(huán)境并非單一“觸發(fā)-反饋”的線性世界，而是隨著觀眾行為和敘事進(jìn)程實(shí)時(shí)變化的開(kāi)放世界。然而，構(gòu)建一個(gè)能夠動(dòng)態(tài)交互的虛擬空間，不僅需要龐大的數(shù)字資產(chǎn)支持，還要依托強(qiáng)大的計(jì)算能力，以實(shí)現(xiàn)從空間設(shè)計(jì)到交互響應(yīng)的完整功能。

當(dāng)空間定位技術(shù)解決了“觀眾在哪”問(wèn)題，空間認(rèn)知技術(shù)解決“觀眾是誰(shuí)”問(wèn)題之后，空間涌現(xiàn)技術(shù)實(shí)際上解決了“觀眾要到哪里去”的問(wèn)題?？臻g涌現(xiàn)技術(shù)集群引入VR電影后，通過(guò)實(shí)時(shí)的數(shù)據(jù)分析與模擬算法，提前預(yù)測(cè)出虛擬世界中的變化，并生成合適的環(huán)境反饋；與此同時(shí)，虛擬角色通過(guò)實(shí)時(shí)感知觀眾行為并生成相應(yīng)反饋，可使虛擬敘事系統(tǒng)更具沉浸感和交互性。然而，這種高度動(dòng)態(tài)、個(gè)性化的敘事反饋對(duì)開(kāi)發(fā)者提出了極高的技術(shù)要求，尤其是在復(fù)雜的交互場(chǎng)景下，如何保持動(dòng)態(tài)空間的一致性和降低復(fù)雜性，是一項(xiàng)技術(shù)難題。

3 構(gòu)建VR電影的空間智能技術(shù)路徑

針對(duì)VR電影的空間困境，本文基于空間智能技術(shù)集群進(jìn)行梳理，并從空間定位、空間認(rèn)知和空間涌現(xiàn)三個(gè)維度展開(kāi)探討。通過(guò)實(shí)時(shí)追蹤技術(shù)實(shí)現(xiàn)精確的空間定位，借助多模態(tài)映射技術(shù)優(yōu)化空間認(rèn)知，結(jié)合三維生成與空間推理技術(shù)推動(dòng)空間涌現(xiàn)?；诖?，本文構(gòu)建了VR電影的空間智能技術(shù)路徑，為VR電影的空間制作提供了系統(tǒng)性的技術(shù)框架（圖1）。

圖1　構(gòu)建VR電影的空間智能技術(shù)路徑

3.1 實(shí)時(shí)追蹤技術(shù)完成空間定位與地圖生成

在虛擬現(xiàn)實(shí)環(huán)境中，高精度實(shí)時(shí)追蹤技術(shù)是實(shí)現(xiàn)沉浸式體驗(yàn)的核心，其可通過(guò)追蹤觀眾的頭部、手部及全身姿態(tài)，定位觀眾在VR電影場(chǎng)景中的位置和方向，還可根據(jù)觀眾在虛擬環(huán)境中自由走動(dòng)、隨機(jī)運(yùn)動(dòng)和視角動(dòng)態(tài)調(diào)整進(jìn)行自適應(yīng)變化，將觀眾的物理運(yùn)動(dòng)與虛擬世界進(jìn)行精準(zhǔn)對(duì)接，從而保證虛擬環(huán)境與現(xiàn)實(shí)世界之間的無(wú)縫交互。

從技術(shù)路線上看，實(shí)時(shí)追蹤技術(shù)包含定位（Localization）、建圖（Mapping）、同步（Simultaneous）三個(gè)邏輯層級(jí)。以新近出現(xiàn)的VR SLAM算法為例，VR/AR代表性產(chǎn)品中微軟HoloLens、谷歌ProjectTango以及Magic Leap都應(yīng)用了同步定位與建圖（Simultaneous Localization and Mapping, SLAM）技術(shù)作為視覺(jué)增強(qiáng)手段，SLAM算法生成VR空間地圖的過(guò)程涉及感知環(huán)境、構(gòu)建地圖和優(yōu)化位姿等多個(gè)步驟[9]。

（1）定位，即確定VR頭顯在真實(shí)環(huán)境中的具體位置和方向。一方面需感知環(huán)境，SLAM在生成VR空間地圖時(shí)需采集環(huán)境信息，可通過(guò)深度相機(jī)、激光雷達(dá)等傳感器提供空間內(nèi)的環(huán)境數(shù)據(jù)，消費(fèi)級(jí)VR設(shè)備主要通過(guò)RGB攝像頭和IMU采集環(huán)境數(shù)據(jù)、幾何特征和位置關(guān)系。另一方面是特征提取與匹配，SLAM通過(guò)分析采集的數(shù)據(jù)，在深度學(xué)習(xí)（DL）支持下提取環(huán)境中的關(guān)鍵特征點(diǎn)，并進(jìn)行匹配以實(shí)現(xiàn)定位和建圖。

（2）建圖，即根據(jù)環(huán)境中的傳感器數(shù)據(jù)，構(gòu)建環(huán)境的動(dòng)態(tài)空間地圖。基于傳感器數(shù)據(jù)和特征匹配結(jié)果，使用深度信息與位置數(shù)據(jù)將環(huán)境特征轉(zhuǎn)換為三維點(diǎn)云，并通過(guò)逐幀疊加生成初步的三維模型，再進(jìn)行網(wǎng)格化處理，逐步完善VR大空間地圖，同時(shí)通過(guò)算法優(yōu)化提高地圖和定位的精度。

（3）同步，即定位和建圖是同步進(jìn)行的，建圖依賴定位的準(zhǔn)確性，而定位需基于實(shí)時(shí)更新的地圖。SLAM基于地圖建圖階段所輸出的三種類型地圖，包括三維點(diǎn)云地圖（記錄空間中每個(gè)點(diǎn)的位置和顏色信息）、網(wǎng)格地圖（適用于VR系統(tǒng)，提供連續(xù)的三角化表面）、語(yǔ)義地圖（標(biāo)注區(qū)域功能和物體類別，便于交互設(shè)計(jì)）。隨后，相關(guān)地圖被導(dǎo)入VR引擎（如Unity或Unreal Engine），結(jié)合設(shè)備的實(shí)時(shí)位置和方向，實(shí)現(xiàn)用戶在虛擬空間中的精準(zhǔn)定位與交互[10,11]。

以VR大空間體驗(yàn)《消失的法老》（Horizon of Khufu）為例，整個(gè)體驗(yàn)區(qū)域超過(guò)500平方米，可同時(shí)容納80余名觀眾在以1∶1比例還原的金字塔內(nèi)部場(chǎng)景中自由探索，與其他參與者實(shí)時(shí)交互，這需要實(shí)時(shí)精準(zhǔn)的空間定位、高效的網(wǎng)絡(luò)同步和低延遲的數(shù)據(jù)傳輸技術(shù)，以確保多人體驗(yàn)的流暢性和一致性。此后，2024年國(guó)內(nèi)相繼推出的VR大空間項(xiàng)目如《巴黎舞會(huì)》《永遠(yuǎn)的巴黎圣母院》《蒼蘭決》《秦潮覺(jué)醒》等都采用了空間定位技術(shù)，體驗(yàn)空間達(dá)幾十到幾百平方米不等。SLAM系統(tǒng)的空間支持范圍從數(shù)十平方米的室內(nèi)環(huán)境到數(shù)千平方米的室外場(chǎng)景，隨著技術(shù)的不斷進(jìn)步，SLAM在更大空間中的應(yīng)用也在持續(xù)拓展。

3.2 多模態(tài)映射技術(shù)增強(qiáng)空間映射的具身體驗(yàn)

在虛擬現(xiàn)實(shí)環(huán)境中，感知空間映射是一項(xiàng)關(guān)鍵的設(shè)計(jì)與技術(shù)挑戰(zhàn)。從根本上來(lái)說(shuō)，人類感知空間的過(guò)程深受海馬體映射的影響，諸如Aronov等[12]、Bao等[13]和Killian等[14]的研究表明，海馬體不僅可處理空間導(dǎo)航信息，還可結(jié)合多種感官輸入（如視覺(jué)圖像、聲音頻率、氣味等），將這些信息嵌入一個(gè)由感知特性定義的多維感知空間中。而從技術(shù)層面來(lái)看，前述對(duì)海馬體的影響實(shí)際上是以多模態(tài)映射的技術(shù)完成的，尤其是通過(guò)多模態(tài)感覺(jué)的輸入（如視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等）構(gòu)建沉浸式空間體驗(yàn)，幫助觀眾形成更自然的空間知覺(jué)，從而為VR環(huán)境中的感知空間映射提供了理論基礎(chǔ)。

（1）在視覺(jué)模態(tài)上，高分辨率圖像、動(dòng)態(tài)光影效果和三維深度感知技術(shù)，能夠增強(qiáng)視覺(jué)輸入與虛擬空間之間的位置關(guān)系，而實(shí)時(shí)調(diào)整視點(diǎn)、焦距和透視投影，可使用戶感受到真實(shí)的空間深度和物體間的距離關(guān)系。

（2）在聽(tīng)覺(jué)模態(tài)上，基于頭相關(guān)傳遞函數(shù)（HRTF）的三維音頻技術(shù)，VR系統(tǒng)能夠模擬聲音的空間位置及其在環(huán)境中的傳播特性[15]；在低光照或視覺(jué)信息不完整的情況下，空間化聽(tīng)覺(jué)可增強(qiáng)觀眾定向感，通過(guò)聲音的方向、強(qiáng)度和頻率變化來(lái)感知物體的遠(yuǎn)近和方位[16]；此外，動(dòng)態(tài)聲音設(shè)計(jì)還可引導(dǎo)觀眾的注意力到特定的虛擬場(chǎng)景區(qū)域，優(yōu)化空間探索體驗(yàn)。

（3）在觸覺(jué)模態(tài)上，通過(guò)力反饋設(shè)備和觸覺(jué)模擬技術(shù)，為觀眾提供與虛擬物體的直接觸感。例如，當(dāng)用戶在虛擬環(huán)境中觸碰墻壁、拾取物體或感受水流時(shí)，觸覺(jué)設(shè)備可實(shí)時(shí)傳遞對(duì)應(yīng)的振動(dòng)、壓力或溫度信息。這種感知不僅增強(qiáng)了觀眾的具身體驗(yàn)，還能通過(guò)觸覺(jué)的反饋細(xì)節(jié)進(jìn)一步豐富感知空間的層次感。

（4）在其他感官模態(tài)上，諸如嗅覺(jué)上，通過(guò)氣味模擬技術(shù)，能夠?qū)⒂筛惺芷骷せ畹碾娦盘?hào)傳遞至大腦，并調(diào)節(jié)大腦功能，包括記憶、想象與情緒等[17]。

正如早期的VR技術(shù)大多僅提供沉浸式的視覺(jué)體驗(yàn)，受制于有限的物理空間及無(wú)法充分發(fā)揮的交互技術(shù)之間的矛盾，而在沉浸式大空間創(chuàng)制中，觀者的身體動(dòng)作，如腳步行走、奔跑、跳躍等，都能通過(guò)觸覺(jué)和視覺(jué)的動(dòng)態(tài)協(xié)作映射至虛擬空間，從而生成一種空間知覺(jué)與身體運(yùn)動(dòng)的真實(shí)整合。以VR大空間作品《風(fēng)起洛陽(yáng)》為例，燈光爆閃，震動(dòng)模擬爆炸，風(fēng)感模擬風(fēng)雪和下降，溫感與氣味模擬環(huán)境變化等多模態(tài)感官刺激與映射，加速了敘事的情緒節(jié)奏。綜上所述，通過(guò)整合視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)等多模態(tài)感知輸入，VR環(huán)境能夠幫助觀眾建立一個(gè)動(dòng)態(tài)而多維的感知空間。這種感知空間映射不僅提升了觀眾的沉浸感和存在感，還可優(yōu)化虛擬敘事與交互體驗(yàn)。但多模態(tài)輸入的同步性與實(shí)時(shí)性需要更高效的技術(shù)支持，跨模態(tài)感知的設(shè)計(jì)還需深入研究觀眾的認(rèn)知特性，如何避免感官過(guò)載以優(yōu)化觀眾體驗(yàn)也是關(guān)鍵問(wèn)題之一。

3.3 三維生成技術(shù)構(gòu)建虛擬影像場(chǎng)景

VR電影中的虛擬影像場(chǎng)景綜合文本、圖像、視頻和三維模型等多種媒介形式，是一個(gè)融合多種媒介特征的復(fù)雜信息場(chǎng)域。其除了算力、資源、網(wǎng)絡(luò)等基礎(chǔ)要求外，往往同時(shí)需要算法驅(qū)動(dòng)，來(lái)完成快速生成高質(zhì)量的虛擬場(chǎng)景、動(dòng)態(tài)角色以及環(huán)境細(xì)節(jié)，從而為VR電影創(chuàng)造了可流動(dòng)、可動(dòng)態(tài)、可涌現(xiàn)的虛擬世界。當(dāng)前的空間智能技術(shù)集群為三維生成技術(shù)構(gòu)建虛擬影像場(chǎng)景提供了多重解決方案。

（1）圖像轉(zhuǎn)三維模型的技術(shù)集群，包括運(yùn)用攝影測(cè)量（Photogrammetry）、深度映射（Depth Mapping）、基于圖像的建模（Image?Based Modeling）等方式，以實(shí)現(xiàn)將二維圖像轉(zhuǎn)換為三維模型。首先，攝影測(cè)量通過(guò)拍攝多角度的照片來(lái)重建三維模型，算法通過(guò)識(shí)別單張圖像中的共視點(diǎn)和特征點(diǎn)，推算出它們?cè)谌S空間中的位置，進(jìn)而重建物體的三維形態(tài)，同時(shí)為了提高精度，使用多張圖片的結(jié)合最終構(gòu)建出完整的三維模型。其次，深度映射則通過(guò)為每個(gè)像素賦予一個(gè)深度值（即從觀察點(diǎn)到物體的距離），實(shí)現(xiàn)二維圖像向三維圖像的轉(zhuǎn)換。常見(jiàn)的深度映射方法包括立體視覺(jué)技術(shù)（Stereo Vision）和結(jié)構(gòu)光（Structured Light）掃描?；趫D像的建模技術(shù)通過(guò)分析單一或多張圖像的紋理、形狀和光照變化，推斷物體的深度和幾何特征，最終生成三維模型。這些技術(shù)通常依賴于計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)算法來(lái)識(shí)別和匹配圖像中的關(guān)鍵特征點(diǎn)，進(jìn)而推算三維結(jié)構(gòu)。再次，基于圖像的建模是將一組照片轉(zhuǎn)化為三維空間的邏輯，一方面它依賴于運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)（Structure from Motion, SfM）[18]，即一種基于多個(gè)二維圖像推導(dǎo)三維結(jié)構(gòu)的技術(shù)，通過(guò)檢測(cè)圖像間的匹配特征點(diǎn)來(lái)估算相機(jī)的相對(duì)位置和姿態(tài)以恢復(fù)場(chǎng)景中的三維點(diǎn)云或粗略表面模型。另一方面，它依賴于多視圖立體視覺(jué)（Multi?View Stereo, MVS）[19]底層算法，MVS在SfM基礎(chǔ)上進(jìn)一步優(yōu)化，通過(guò)對(duì)多個(gè)視角圖像中的每個(gè)像素高精度深度計(jì)算，生成更高分辨率的三維模型。兩種技術(shù)結(jié)合顯著提高了圖像到三維模型的轉(zhuǎn)換精度和效率。

（2）自然語(yǔ)言轉(zhuǎn)化為三維空間的技術(shù)集群。密歇根大學(xué)的研究人員提出了一個(gè)名為VRCopilot的系統(tǒng)，將預(yù)先訓(xùn)練的生成式 AI 模型集成至沉浸式創(chuàng)作中，以促進(jìn) VR 中的人機(jī)共創(chuàng)[20]。VRCopilot系統(tǒng)利用自然語(yǔ)言處理（NLP）技術(shù)將人類語(yǔ)言描述轉(zhuǎn)化為三維空間布局。例如，用戶可通過(guò)語(yǔ)音命令描述“創(chuàng)建一把椅子”，系統(tǒng)會(huì)基于AI模型生成多個(gè)供用戶選擇的模型線框，用戶隨后可通過(guò)語(yǔ)音命令進(jìn)一步優(yōu)化設(shè)計(jì)，或在虛擬地板使用手柄調(diào)整線框細(xì)節(jié)，最后將線框變成具體的椅子。目前的生成系統(tǒng)還處于需多模態(tài)規(guī)范生成內(nèi)容的階段，三維影像生成AI技術(shù)仍需更進(jìn)一步提升對(duì)人類自然語(yǔ)言描述的理解能力，以識(shí)別空間概念、物體關(guān)系以及布局要求。

（3）以神經(jīng)輻射場(chǎng)（NeRF）為代表的基于深度學(xué)習(xí)的三維空間生成方法。其通過(guò)神經(jīng)網(wǎng)絡(luò)建模場(chǎng)景中每個(gè)點(diǎn)的輻射屬性，從稀疏的二維圖像中重建逼真的三維場(chǎng)景，是完全區(qū)別于傳統(tǒng)三維模型生成路徑的電影空間場(chǎng)景建構(gòu)新方式。

3.4 空間推理技術(shù)模擬復(fù)雜運(yùn)動(dòng)與路徑

空間推理的核心是使模型能夠理解并處理關(guān)于物體、環(huán)境及其相互關(guān)系的三維空間信息，尤其是其賦予智能體（如虛擬角色、機(jī)器人或其他虛擬對(duì)象）理解三維空間環(huán)境、識(shí)別物體及其相互關(guān)系的能力，這不僅包括物體的靜態(tài)位置和方向，還涵蓋了動(dòng)態(tài)場(chǎng)景中的物體運(yùn)動(dòng)趨勢(shì)、路徑規(guī)劃及與環(huán)境的交互。在VR電影中，智能體（AI Agent）的行為模擬與運(yùn)動(dòng)路徑生成是增強(qiáng)沉浸感和交互性的關(guān)鍵因素之一，虛擬角色通常需在復(fù)雜的三維環(huán)境中自由移動(dòng)，并與其他物體或角色進(jìn)行交互。整體而言，空間推理技術(shù)通過(guò)深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)以及視覺(jué)-語(yǔ)言模型的結(jié)合，能夠?qū)崟r(shí)生成合理的運(yùn)動(dòng)軌跡和行為路徑。

（1）大模型空間語(yǔ)義推理。大語(yǔ)言模型不僅需識(shí)別圖像或視頻中的物體，還需基于語(yǔ)言指令或語(yǔ)境描述推斷物體的空間關(guān)系，如位置、方向、距離等。在動(dòng)態(tài)場(chǎng)景中，模型需進(jìn)一步理解物體的運(yùn)動(dòng)趨勢(shì)、預(yù)測(cè)未來(lái)位置，并結(jié)合時(shí)間序列信息進(jìn)行邏輯推理，為虛擬場(chǎng)景中的復(fù)雜行為生成提供了可能性。在這些能力的基礎(chǔ)上，空間技術(shù)可進(jìn)一步融合視覺(jué)信息與語(yǔ)言模態(tài)，通過(guò)多模態(tài)預(yù)訓(xùn)練架構(gòu)（如CLIP或Flamingo）學(xué)習(xí)跨模態(tài)的語(yǔ)義對(duì)齊關(guān)系，從而理解諸如“紅色蘋果在桌子上”這樣的描述[21,22]。這種語(yǔ)義理解不僅限于靜態(tài)認(rèn)知，還可用于動(dòng)態(tài)推理。例如，模型可基于語(yǔ)句“跟隨那個(gè)移動(dòng)的黃色方塊”實(shí)時(shí)生成跟蹤路徑，展現(xiàn)對(duì)場(chǎng)景的動(dòng)態(tài)感知與反應(yīng)能力。

（2）機(jī)器人語(yǔ)言智能交互。目前最大的開(kāi)源真實(shí)機(jī)器人數(shù)據(jù)集Open X?Embodiment Dataset[23]，由 DeepMind 和斯坦福大學(xué)等機(jī)構(gòu)聯(lián)合開(kāi)發(fā)，整合了來(lái)自全球 34 個(gè)實(shí)驗(yàn)室的 60 個(gè)機(jī)器人數(shù)據(jù)集?；谠摂?shù)據(jù)集，研究人員訓(xùn)練了兩個(gè)核心模型：一是RT?1 (Robotics Transformer 1)[24]，一個(gè)基于 Transformer 的高效架構(gòu)，專為機(jī)器人控制設(shè)計(jì)，能夠通過(guò)傳感器輸入和環(huán)境狀態(tài)計(jì)算智能體的最佳行動(dòng)路徑。圖2展示了RT?1模型從多個(gè)機(jī)器人收集數(shù)據(jù)時(shí)的訓(xùn)練方法，其中，藍(lán)色框內(nèi)表示機(jī)器人在日常任務(wù)（如桌面整理或物品分類）中收集視覺(jué)數(shù)據(jù)，紅色框表示使用 KUKA 機(jī)械臂收集的抓取任務(wù)數(shù)據(jù)。二是RT?2 (Robotics Transformer 2)[25]，一種視覺(jué)-語(yǔ)言模型，將機(jī)器人動(dòng)作與自然語(yǔ)言相結(jié)合，不僅生成運(yùn)動(dòng)路徑，還能生成與這些動(dòng)作相關(guān)的自然語(yǔ)言描述，提升了模型的理解和交互能力。利用這一模型，研究人員可在3D環(huán)境中訓(xùn)練機(jī)器人學(xué)習(xí)基于語(yǔ)言指令的操作（如“把蘋果放在布料旁邊、上面、罐頭和橙子中間”）。在這一訓(xùn)練過(guò)程中，機(jī)器人不僅能夠識(shí)別環(huán)境中的空間結(jié)構(gòu)，還能動(dòng)態(tài)規(guī)劃路徑，根據(jù)實(shí)時(shí)環(huán)境的變化完成復(fù)雜任務(wù)。這項(xiàng)技術(shù)為虛擬角色（如機(jī)器人或其他虛擬智能體）提供類似人類的空間認(rèn)知能力，有助于其在VR電影等復(fù)雜環(huán)境中自然移動(dòng)和交互。

圖2　RT?1模型從多個(gè)機(jī)器人收集數(shù)據(jù)時(shí)的訓(xùn)練方法[24]

（3）AI驅(qū)動(dòng)的智能體交互。智能體行為驅(qū)動(dòng)技術(shù)通過(guò)空間推理能力賦予虛擬角色類似人類的行動(dòng)能力。在虛擬環(huán)境中，智能體可根據(jù)劇情需求和場(chǎng)景特性生成動(dòng)態(tài)行為。例如，在VR電影或游戲中，角色行為可基于空間推理技術(shù)實(shí)時(shí)調(diào)整，如在追逐、探索或戰(zhàn)斗場(chǎng)景中，智能體會(huì)根據(jù)環(huán)境變化（如障礙物、目標(biāo)位置）生成合理的行為路徑。智能體不僅依賴于視覺(jué)信息來(lái)感知空間，還能通過(guò)多模態(tài)的聽(tīng)覺(jué)輸入（如指令或?qū)υ挘?qū)動(dòng)行為，使角色的動(dòng)作更具交互性和情感表達(dá)。在多人交互場(chǎng)景中，智能體之間的協(xié)同動(dòng)作更依賴于空間推理技術(shù)，確保多個(gè)角色間協(xié)調(diào)并高效完成復(fù)雜任務(wù)。在VR作品《半衰期：愛(ài)莉克斯》（Half?Life: Alyx）中，每個(gè)智能體都擁有各自的記憶模塊，能夠?qū)Ⅲw驗(yàn)玩家與其交互的方式（如選擇對(duì)話的內(nèi)容、玩家的情緒反應(yīng)）進(jìn)行記憶儲(chǔ)存，同時(shí)反饋出個(gè)性化的對(duì)話選項(xiàng)和動(dòng)態(tài)反應(yīng)。

4 VR電影技術(shù)展望

隨著人工智能技術(shù)與虛擬現(xiàn)實(shí)技術(shù)的耦合程度越來(lái)越深，未來(lái)VR電影技術(shù)將通過(guò)復(fù)雜運(yùn)動(dòng)模擬、多模態(tài)數(shù)據(jù)融合和智能體動(dòng)態(tài)敘事等技術(shù)的綜合應(yīng)用，推動(dòng)其走向更加交互、更加沉浸和更富個(gè)性化的影像體驗(yàn)，并持續(xù)推動(dòng)敘事方式和交互模式的革新。尤其是在虛擬世界復(fù)雜性不斷增強(qiáng)的當(dāng)下，如何在保證沉浸感的同時(shí)提升交互的連貫性和響應(yīng)速度，成為VR電影技術(shù)發(fā)展的關(guān)鍵挑戰(zhàn)。

（1）人工智能技術(shù)實(shí)現(xiàn)對(duì)觀眾運(yùn)行路徑的預(yù)測(cè)及預(yù)渲染。在VR電影空間中，系統(tǒng)可基于觀眾的歷史行為數(shù)據(jù)（如移動(dòng)路徑、交互頻率、動(dòng)作偏好）和當(dāng)前的動(dòng)態(tài)空間交互運(yùn)載環(huán)境，建立個(gè)性化的觀眾行為模型，預(yù)測(cè)觀眾將要轉(zhuǎn)向、駐足觀察某物體或繼續(xù)前行的可能性，進(jìn)而基于路徑預(yù)測(cè)的結(jié)果，提前渲染觀眾可能接觸到的虛擬場(chǎng)景和反饋機(jī)制，從而避免因加載延遲導(dǎo)致的視覺(jué)卡頓、反饋錯(cuò)位及沉浸感下降等問(wèn)題，提升交互連貫性和沉浸感。

（2）動(dòng)作捕捉技術(shù)持續(xù)提升模擬復(fù)雜運(yùn)動(dòng)的能力。傳統(tǒng)VR電影的運(yùn)動(dòng)映射十分有限，只能停留在相對(duì)小幅度的運(yùn)動(dòng)范圍，如行走、骨骼運(yùn)動(dòng)等。而VR大空間則運(yùn)用了線下大空間娛樂(lè)技術(shù)(Location?Based Entertainment, LBE)，其運(yùn)動(dòng)映射體驗(yàn)涉及射擊、大規(guī)模行走、跳躍等更為復(fù)雜的肢體動(dòng)作，但現(xiàn)有動(dòng)作捕捉技術(shù)存在精準(zhǔn)性和實(shí)時(shí)性等問(wèn)題，難以支撐具有復(fù)雜人物運(yùn)動(dòng)的敘事情節(jié)，如奔跑、跳躍、旋轉(zhuǎn)等。未來(lái)的運(yùn)動(dòng)映射技術(shù)需更加關(guān)注虛擬空間中運(yùn)動(dòng)的連續(xù)性，通過(guò)引入更先進(jìn)的路徑規(guī)劃算法與場(chǎng)景自適應(yīng)技術(shù)，以實(shí)現(xiàn)虛擬角色在空間中的平滑運(yùn)動(dòng)。當(dāng)然，在技術(shù)發(fā)展的同時(shí)相關(guān)設(shè)備需向小型化和輕量化方向邁進(jìn)。例如，通過(guò)整合可穿戴傳感器與嵌入式IMU，減少對(duì)外部攝像頭的依賴，實(shí)現(xiàn)更便捷的動(dòng)作捕捉。同時(shí)，探索無(wú)接觸的動(dòng)作識(shí)別技術(shù)，以顯著減少觀眾的佩戴負(fù)擔(dān)，為自由運(yùn)動(dòng)提供更大的可能性。

（3）智能體驅(qū)動(dòng)實(shí)現(xiàn)涌現(xiàn)敘事。智能體可結(jié)合真實(shí)機(jī)器人軌跡與虛擬環(huán)境，模擬復(fù)雜運(yùn)動(dòng)模式，學(xué)習(xí)如何繞過(guò)障礙物、與物體或角色交互，或依據(jù)虛擬場(chǎng)景特征（如重力、地形）調(diào)整行動(dòng)策略。這使VR電影敘事中的動(dòng)態(tài)行為生成成為可能。進(jìn)一步而言，智能體可根據(jù)劇情實(shí)時(shí)生成行動(dòng)路徑，并同時(shí)生成與這些行為相關(guān)的語(yǔ)言描述（如指令或?qū)υ挘?。例如，在追逐、逃跑、探索等?chǎng)景中，角色的行為可由模型動(dòng)態(tài)生成，使敘事更具交互性和隨機(jī)性。

5 結(jié)語(yǔ)

在空間智能技術(shù)的驅(qū)動(dòng)下，VR電影正在逐漸突破傳統(tǒng)影像的“空間困境”，構(gòu)建起與人類感知深度耦合的敘事范式，并通過(guò)實(shí)時(shí)追蹤技術(shù)、多模態(tài)映射技術(shù)、三維生成技術(shù)及空間推理技術(shù)等手段，使虛擬環(huán)境能夠更加自然地與觀眾的感知模型對(duì)接，從而帶來(lái)更加真實(shí)、連貫的沉浸體驗(yàn)。面向未來(lái)，在可持續(xù)發(fā)展與跨學(xué)科協(xié)作的深度框架下，VR電影也將不斷與人工智能、計(jì)算機(jī)視覺(jué)、空間計(jì)算、多模態(tài)交互等多領(lǐng)域技術(shù)相融合，并真正意義地全面邁入空間智能的新階段，成為VR電影創(chuàng)制的重要驅(qū)動(dòng)力。尤其是伴隨以DeepSeek為代表的AI大模型與多模態(tài)交互的底層技術(shù)轉(zhuǎn)型，空間智能技術(shù)集群不僅使虛擬世界能夠“理解”并“適應(yīng)”觀眾的凝視邏輯，更在深層次上重構(gòu)影像創(chuàng)作的本體論框架，為影像藝術(shù)的發(fā)展注入更多的前沿科技屬性。

參考文獻(xiàn)

（向下滑動(dòng)閱讀）

[1] LI F. With spatial intelligence, AI will understand the real world[EB/OL]. [2025?01?03].https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_

understand_the_real_world?subtitle=en.

[2] GARDNER H. Frames of Mind: The Theory of Multiple Intelligences. 10th Anniversary Edition (2nd ed.) [M]. New York: Basic Books, 1983: 179?215.

[3] 陳焱松,周雯.人工智能影像敘事的涌現(xiàn)化生成[J].當(dāng)代電影,2024(05):14?20.

[4] HOFFMAN H G. Physically touching virtual objects using tactile augmentation enhances the realism of virtual environments[C]//IEEE Virtual Reality Annual International Symposium. Atlanta, GA, USA: IEEE, 1998:59?63.

[5] THOMAS J, ROSENBERG E S. Reactive Alignment of Virtual and Physical Environments Using Redirected Walking[C]//IEEE Conference on Virtual Reality and 3D User Interfaces Abstracts and Workshops. Atlanta, GA, USA: IEEE, 2020:317?323.

[6] HEESEOK O, WOOKHO S. Cybersickness and Its Severity Arising from Virtual Reality Content: A Comprehensive Study[J]. Sensors (Basel), 2022, 22(4):1314.

[7] CREEM-REGEHR S H, STEFANUCCI J K, BODENHEIMER B. Perceiving distance in virtual reality: theoretical insights from contemporary technologies[J]. Philosophical Transactions of the Royal Society B: Biological Sciences, 2023, 378.

[8] 吳際,李會(huì)杰.認(rèn)知空間映射及其神經(jīng)機(jī)制[J].心理科學(xué)進(jìn)展,2025,33(01):62?76.

[9] KAUR D P, BHARDWAJ V, MALHOTRA P, et al. Vision?based intelligent systems: State of the art and perspectives[J]. AIP Conf. Proc., 2024, 3209(1).

[10] NGUYEN T H, YUAN S, XIE L. VR?SLAM: A Visual?Range Simultaneous Localization and Mapping System using Monocular Camera and Ultra?wideband Sensors[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2303.10903.

[11] LAI T. A Review on Visual?SLAM: Advancements from Geometric Modelling to Learning?based Semantic Scene Understanding[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2209.05222.

[12] ARONOV D, NEVERS R, TANK D W. Mapping of a non?spatial dimension by the hippocampal?entorhinal circuit[J]. Nature, 2017, 543(7647):719?722.

[13] BAO X, GJORGIEVA E, SHANAHAN L K, et al. Grid?like neural representations support olfactory navigation of a two?dimensional odor space[J]. Neuron, 2019, 102(5).

[14] KILLIAN N J, JUTRAS M J, BUFFALO E A. A map of visual space in the primate entorhinal cortex[J]. Nature, 2012, 491(7426):761?764.

[15] ZHAO J, ZHANG C. Acoustic rendering and spatialization of 3D sound in virtual environments[C]// Proceedings of the 11th Sound and Music Computing Conference, 2015: 85?91.

[16] KUMAR S, GREEN M. The impact of binaural audio cues on spatial perception in virtual reality[J]. Journal of Virtual Reality and Broadcasting, 2020, 17(2): 61?73.

[17] 陳焱松,王之綱.嗅覺(jué)的景觀：“氣味電影”的記憶、情感與敘事[J].藝術(shù)傳播研究, 2022(01):31?38.

[18] SNAVELY N, SEITZ S M, SZELISKI R. Photo tourism: Exploring photo collections in 3D[C]//ACM SIGGRAPH 2006 Papers. ACM, 2006:835?846.

[19] GOESELE M, SCHINDLER K. Multi?View Stereo[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3):625?633.

[20] ZHANG L, PAN J, GETTIG J, et al. VRCopilot: Authoring 3D Layouts with Generative AI Models in VR[EB/OL].(2024?08?18)[2025?01?21].https://arxiv.org/pdf/2408.09382.

[21] RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748?8763.

[22] ALAYRAC J B, DONAHUE J, LUC P, et al. Flamingo: a visual language model for few?shot learning[J]. Advances in neural information processing systems, 2022, 35: 23716?23736.

[23] O'NEILL A, REHMAN A, GUPTA A, et al. Open x?embodiment: Robotic learning datasets and rt?x models[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2310.08864.

[24] BROHAN A, BROWN N, CARBAJAL J, et al. Rt?1: Robotics transformer for real?world control at scale[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2212.06817.

[25] BROHAN A, BROWN N, CARBAJAL J, et al. Rt?2: Vision?language?action models transfer web knowledge to robotic control[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2307.15818.

【項(xiàng)目信息】中央高?；究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目“智能媒體時(shí)代中國(guó)文化對(duì)外傳播敘事策略與效果研究”（123330009）。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.