李飛飛最新長文：AI的下一個十年——構(gòu)建真正具備空間智能的機器

2025-11-12 16:44:37　來源: 算法與數(shù)學(xué)之美

北京舉報

分享至

就在昨晚，關(guān)于其投身的空間智能，斯坦福大學(xué)教授李飛飛發(fā)表了一篇長篇博客《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》。

在文中，李飛飛詳細(xì)解讀了「空間智能究竟是什么？它為什么重要？我們?nèi)绾螛?gòu)建它？我們又如何使用它？」她同時闡述了真正的空間智能世界模型必須實現(xiàn)的核心框架：構(gòu)建具有故事講述者想象力的 AI、具備第一響應(yīng)者流暢性的 AI 以及以科學(xué)精確性進行空間推理。

以下為全文翻譯：

1950 年，當(dāng)計算機還只是自動化的算術(shù)和簡單邏輯時，艾倫?圖靈提出了一個至今仍余音不絕的問題：機器能思考嗎？他擁有非凡的想象力，看到了一個超越時代的可能 —— 智能或許可以被「構(gòu)建」，而非「誕生」。這一洞見開啟了一個持久而偉大的科學(xué)征程 —— 人工智能（AI）。在我投身人工智能研究二十五年后的今天，圖靈的愿景仍讓我心懷敬意與靈感。但我們究竟走到了哪一步？答案并不簡單。

如今，以大語言模型（LLM）為代表的前沿 AI 技術(shù)，已經(jīng)開始改變我們獲取和運用抽象知識的方式。然而，它們依然像是「黑暗中的文匠」：能言善辯卻缺乏經(jīng)驗，知識豐富卻脫離現(xiàn)實。空間智能將徹底改變我們創(chuàng)造和交互現(xiàn)實與虛擬世界的方式 —— 它將重塑敘事、創(chuàng)意、機器人學(xué)、科學(xué)發(fā)現(xiàn)等領(lǐng)域。這正是 AI 的下一個前沿。

自我踏入這一領(lǐng)域以來，對視覺與空間智能的追求一直是我心中的北極星。這也是我花費多年時間創(chuàng)建 ImageNet 的原因 —— 這是首個大規(guī)模視覺學(xué)習(xí)與評測數(shù)據(jù)集，與神經(jīng)網(wǎng)絡(luò)算法和現(xiàn)代計算（如圖形處理器 GPU）一道，構(gòu)成了現(xiàn)代人工智能誕生的三大基石。這也是為什么我的斯坦福實驗室在過去十年中，持續(xù)探索將計算機視覺與機器人學(xué)習(xí)相結(jié)合。

而這一追求，也促使我與合伙人 Justin Johnson、Christoph Lassner、Ben Mildenhall 共同創(chuàng)立了 World Labs—— 在一年多前，我們立志首次將這一愿景徹底實現(xiàn)。在這篇文章中，我將闡述什么是空間智能、它為何重要，以及我們?nèi)绾螛?gòu)建能夠釋放空間智能潛力的世界模型 —— 這種能力將深刻影響創(chuàng)造力、具身智能與人類的未來進步。

空間智能：

人類認(rèn)知的腳手架

人工智能正處在前所未有的激動人心時刻。生成式 AI 模型 —— 例如大語言模型（LLM）—— 已經(jīng)從研究實驗室走入日常生活，成為數(shù)十億人創(chuàng)造、工作與溝通的工具。它們展現(xiàn)出了曾被認(rèn)為不可能的能力：能夠輕松生成連貫的文本、海量的代碼、逼真的圖像，甚至短視頻片段。如今，問題已不再是「人工智能是否會改變世界」，而是「它已經(jīng)如何改變了世界」。

然而，仍有許多目標(biāo)尚未觸及。自主機器人的愿景依舊令人神往，卻依然停留在推測階段，離未來學(xué)家長期描繪的日?，F(xiàn)實仍有距離。在疾病治療、新材料發(fā)現(xiàn)、粒子物理等領(lǐng)域，人工智能加速科研的夢想也尚未真正實現(xiàn)。而一種能夠真正理解并賦能人類創(chuàng)造者的 AI—— 無論是學(xué)習(xí)分子化學(xué)復(fù)雜概念的學(xué)生、構(gòu)思空間的建筑師、構(gòu)建世界的電影創(chuàng)作者，還是渴望沉浸式虛擬體驗的任何人 —— 這一承諾仍未兌現(xiàn)。

要理解這些能力為何依然難以實現(xiàn)，我們需要回溯空間智能的演化歷程，并審視它如何塑造了我們對世界的理解。

視覺一直是人類智能的基石，但它的力量源自更為根本的東西。早在動物學(xué)會筑巢、照料幼崽、用語言交流或建立文明之前，最簡單的「感知」行為，便悄然點燃了一場通向智能的進化旅程。

這種看似孤立的能力 —— 從外部世界中提取信息，無論是一道微光，還是一種觸感 —— 在感知與生存之間搭起了一座橋梁，并隨著世代更迭不斷加固、延展。神經(jīng)元層層疊加，沿著這座橋梁生長，形成了能解釋世界、協(xié)調(diào)生物體與環(huán)境互動的神經(jīng)系統(tǒng)。正因如此，許多科學(xué)家推測，感知與行動構(gòu)成了驅(qū)動智能演化的核心循環(huán)，也成為自然創(chuàng)造人類這一物種的根基 —— 一種集感知、學(xué)習(xí)、思考與行動于一體的終極體現(xiàn)。

空間智能在定義人類如何與物理世界互動中起著根本性的作用。每天，我們都依賴它完成最平常的行為：停車時通過想象車尾與路緣之間逐漸縮小的間隙來判斷距離；接住被人扔來的鑰匙；在人群密集的人行道上穿行而不相撞；或者在半睡半醒間不看杯子也能準(zhǔn)確地把咖啡倒進去。在更極端的情境中，消防員在濃煙彌漫、結(jié)構(gòu)不斷坍塌的建筑中穿行，瞬間判斷穩(wěn)定與危險，依靠手勢、身體語言以及一種無法用言語表達(dá)的職業(yè)直覺進行協(xié)作。

而嬰兒在還未學(xué)會說話的數(shù)月甚至數(shù)年中，正是通過與環(huán)境的嬉戲互動來認(rèn)識世界。所有這一切都在無意識間、自動地完成 —— 這種流暢性，是機器至今尚未具備的。

空間智能同樣是人類想象力與創(chuàng)造力的基礎(chǔ)。講故事的人在腦海中構(gòu)建獨特而豐富的世界，并借助各種視覺媒介將其傳達(dá)給他人 —— 從史前的洞穴壁畫，到現(xiàn)代電影，再到沉浸式電子游戲。無論是孩子在沙灘上筑起的沙堡，還是他們在電腦上玩《我的世界》所創(chuàng)造的空間，這種基于空間的想象力構(gòu)成了現(xiàn)實與虛擬世界中交互體驗的核心。而在眾多行業(yè)應(yīng)用中，對物體、場景和動態(tài)交互環(huán)境的模擬，正支撐著從工業(yè)設(shè)計到數(shù)字孿生再到機器人訓(xùn)練的無數(shù)關(guān)鍵業(yè)務(wù)場景。

縱觀歷史，空間智能在推動文明發(fā)展的關(guān)鍵時刻屢次扮演核心角色。在古希臘，埃拉托色尼通過幾何化陰影來揭示地球的尺度 —— 他在亞歷山大測量出七度的日影角度，并在太陽直射、影子消失的賽恩進行對比，計算出了地球的周長。哈格里夫斯通過一個空間構(gòu)想發(fā)明了「珍妮紡紗機」：將多個紡錘并列在同一架構(gòu)中，使一個工人能夠同時紡出多股紗線，生產(chǎn)效率因此提升八倍。沃森和克里克通過親手搭建三維分子模型、不斷調(diào)整金屬板與鐵絲的位置，最終發(fā)現(xiàn)了 DNA 的雙螺旋結(jié)構(gòu)。

當(dāng)科學(xué)家與發(fā)明家需要操縱物體、想象結(jié)構(gòu)、推理空間關(guān)系時，正是空間智能推動了人類文明的躍進 —— 而這些都無法僅憑文字所捕捉。

空間智能是支撐人類認(rèn)知的腳手架。無論我們是在被動觀察，還是主動創(chuàng)造，它都在發(fā)揮作用。它驅(qū)動我們的推理與規(guī)劃，哪怕是在最抽象的思維領(lǐng)域；它也是我們與他人、與環(huán)境進行互動 —— 無論通過語言還是行動 —— 所必不可少的能力。雖然我們大多數(shù)人并不會像埃拉托色尼那樣揭示新的宇宙真理，但我們幾乎每天都以相似的方式思考 —— 通過感官理解復(fù)雜的世界，并憑借對物理與空間規(guī)律的直覺掌握，來形成認(rèn)知與判斷。

遺憾的是，當(dāng)下的人工智能尚未具備這種思維方式。

過去幾年，AI 的確取得了巨大進步。多模態(tài)大語言模型（MLLM）在文本之外引入了海量的多媒體數(shù)據(jù)，使 AI 具備了初步的空間感知能力。如今，AI 已經(jīng)能夠分析圖像、回答相關(guān)問題，并生成高度逼真的圖片和短視頻。借助傳感器與觸覺技術(shù)的突破，最先進的機器人也開始能夠在高度受限的環(huán)境中操縱物體與工具。

然而，坦率地說，AI 的空間能力仍與人類相距甚遠(yuǎn)，這一差距顯而易見。最先進的多模態(tài)模型在估算距離、方向和大小等任務(wù)上，其表現(xiàn)往往僅略高于隨機水平；在「心智旋轉(zhuǎn)」（從不同角度重新生成物體）的測試中也極為有限。它們無法穿越迷宮，不能識別捷徑，也無法預(yù)測最基本的物理規(guī)律。AI 生成的視頻 —— 雖令人驚嘆，但往往在數(shù)秒后便失去連貫性。

當(dāng)前最先進的 AI 在閱讀、寫作、研究和數(shù)據(jù)模式識別方面表現(xiàn)出色，但在對物理世界的表征與交互上卻存在根本性局限。人類對世界的理解是整體性的 —— 不僅關(guān)乎我們「看見了什么」，還包括事物在空間上的關(guān)系、它們的意義以及彼此的關(guān)聯(lián)。通過想象、推理、創(chuàng)造與互動來理解世界，而非僅僅依賴語言描述，這正是空間智能的力量。沒有它，AI 就與它試圖理解的物理現(xiàn)實脫節(jié)，無法真正安全高效地駕駛汽車、引導(dǎo)家庭或醫(yī)院中的機器人，也難以實現(xiàn)學(xué)習(xí)與娛樂中的沉浸式互動體驗，更無法加速材料科學(xué)與醫(yī)學(xué)中的突破性發(fā)現(xiàn)。

哲學(xué)家維特根斯坦曾說，「我的語言的界限意味著我的世界的界限」。我不是哲學(xué)家，但我深知，對人工智能而言，世界遠(yuǎn)不止語言本身。空間智能代表著超越語言的前沿 —— 它連接了想象、感知與行動，開啟了機器真正賦能人類生活的可能，從醫(yī)療到創(chuàng)造力，從科學(xué)發(fā)現(xiàn)到日常助理。

AI 的下一個十年：

構(gòu)建真正具備空間智能的機器

那么，我們該如何打造具備空間智能的 AI？通往那樣的模型之路是什么樣的？它不僅能像埃拉托色尼那樣進行空間推理，像工業(yè)設(shè)計師那樣精準(zhǔn)構(gòu)造，像講故事的人那樣富于想象，還能像應(yīng)急救援人員那樣自然地與環(huán)境互動。

要實現(xiàn)空間智能，我們需要的遠(yuǎn)不止 LLM 那樣的體系，而是更具雄心的「世界模型」—— 一種新型生成式模型，能夠在語義、物理、幾何與動態(tài)等多重復(fù)雜世界（無論虛擬還是現(xiàn)實）中進行理解、推理、生成與交互。

這一領(lǐng)域仍處在萌芽階段，當(dāng)前的研究方法從抽象推理模型到視頻生成系統(tǒng)皆有涉及。World Labs 正是在這一信念之上，于 2024 年初創(chuàng)立：即世界模型的基礎(chǔ)方法尚在確立之中，而這正是未來十年人工智能的關(guān)鍵挑戰(zhàn)所在。

在這一新興領(lǐng)域中，最重要的是確立指導(dǎo)發(fā)展的基本原則。對于空間智能而言，我將「世界模型」定義為具備以下三種核心能力的系統(tǒng)：

一是生成性：世界模型能夠生成在感知、幾何與物理層面保持一致的世界。

要解鎖空間理解與推理的能力，世界模型必須能夠生成屬于自己的模擬世界。它需要具備創(chuàng)造出無限多樣的虛擬世界的能力，這些世界必須遵循語義或感知層面的指令，同時在幾何、物理和動態(tài)層面保持一致性 —— 無論這些世界對應(yīng)的是現(xiàn)實空間還是虛擬空間。研究界目前正積極探索這些世界的內(nèi)部幾何結(jié)構(gòu)應(yīng)當(dāng)以隱式還是顯式的方式表示。

除此之外，我認(rèn)為，除了強大的潛在表征之外，一個通用的世界模型還必須能夠生成明確、可觀測的世界狀態(tài)，以適配不同的應(yīng)用場景。尤其重要的是，它對當(dāng)前世界的理解，必須與過去保持連貫 —— 與導(dǎo)致這一現(xiàn)狀的先前世界狀態(tài)相一致。

二是多模態(tài)性：世界模型在設(shè)計上即是多模態(tài)的。

正如動物與人類一樣，世界模型應(yīng)能夠處理多種形式的輸入 —— 在生成式 AI 中通常被稱為提示詞。當(dāng)輸入信息不完整時，無論是圖像、視頻、深度圖、文本指令、手勢還是動作，世界模型都應(yīng)能夠預(yù)測或生成盡可能完整的世界狀態(tài)。這要求模型具備如真實視覺般處理視覺輸入的能力，同時又能同樣熟練地理解語義指令。這樣的能力使得智能體與人類能夠通過多樣化的輸入方式與模型就世界進行交流，并獲得多樣化的輸出反饋。

三是交互性：世界模型能夠根據(jù)輸入的動作生成下一個世界狀態(tài)。

當(dāng)動作和 / 或目標(biāo)成為世界模型的輸入提示時，其輸出必須包括世界的下一個狀態(tài) —— 可以是隱式的，也可以是顯式的。當(dāng)輸入僅包含一個動作，或者包含動作與目標(biāo)狀態(tài)時，世界模型應(yīng)能生成與先前世界狀態(tài)、預(yù)期目標(biāo)（若有）、語義含義、物理規(guī)律及動態(tài)行為相一致的輸出。隨著空間智能世界模型在推理與生成能力上的不斷增強，可以想見，在某些情況下，模型不僅能預(yù)測世界的下一狀態(tài)，還能基于這一新狀態(tài)，進一步預(yù)測實現(xiàn)目標(biāo)所需的下一步行動。

這一挑戰(zhàn)的規(guī)模，超出了人工智能以往所面對的一切。

語言只是人類認(rèn)知中一種純粹的生成現(xiàn)象，而「世界」則遵循著遠(yuǎn)為復(fù)雜的規(guī)律。在地球上，重力主宰著運動，原子結(jié)構(gòu)決定了光如何產(chǎn)生色彩與亮度，無數(shù)物理定律約束著每一次交互。即便是最奇幻、最具創(chuàng)造力的世界，其構(gòu)成的空間物體與行動主體，也都必須服從特定的物理法則與動態(tài)行為。要在語義、幾何、動態(tài)與物理層面上實現(xiàn)一致的統(tǒng)一與協(xié)調(diào)，需要全新的技術(shù)與理論路徑。

相較于語言這樣一維、順序性的信號，對「世界」的表征在維度與復(fù)雜度上要龐大得多。要讓世界模型具備人類所擁有的那種普適能力，必須突破多個艱巨的技術(shù)壁壘。在 World Labs，我們的研究團隊正致力于在這一目標(biāo)上取得根本性的進展。

以下是我們當(dāng)前的一些研究方向：

1、一種新的通用訓(xùn)練任務(wù)函數(shù)：

為世界模型定義一種像 LLM 中的「下一 token 預(yù)測」那樣簡潔優(yōu)雅的通用任務(wù)函數(shù)，一直是該領(lǐng)域的核心目標(biāo)之一。然而，由于世界模型在輸入與輸出空間上的復(fù)雜性，使得這種函數(shù)的構(gòu)建本身極具挑戰(zhàn)。盡管仍有大量未知有待探索，但這種目標(biāo)函數(shù)及其對應(yīng)的表征方式，必須能夠反映幾何與物理規(guī)律，體現(xiàn)世界模型作為聯(lián)結(jié)想象與現(xiàn)實的基礎(chǔ)性表征體系的本質(zhì)特征。

2、大規(guī)模訓(xùn)練數(shù)據(jù)：

訓(xùn)練世界模型所需的數(shù)據(jù)遠(yuǎn)比文本更為復(fù)雜。好消息是，大規(guī)模數(shù)據(jù)源已經(jīng)存在。互聯(lián)網(wǎng)上海量的圖像與視頻，提供了豐富且可獲取的訓(xùn)練材料，真正的挑戰(zhàn)在于如何研發(fā)能夠從二維圖像或視頻幀（即 RGB 信號）中提取更深層空間信息的算法。過去十年的研究表明，在語言模型中，數(shù)據(jù)量與模型規(guī)模之間存在明確的「scaling laws」；對于世界模型而言，關(guān)鍵在于構(gòu)建能夠在相似規(guī)模上充分利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。

此外，高質(zhì)量的合成數(shù)據(jù)，以及諸如深度信息與觸覺信息等額外模態(tài)，也將在訓(xùn)練過程中的關(guān)鍵階段發(fā)揮重要作用。但要實現(xiàn)這一目標(biāo)，我們?nèi)孕韪冗M的傳感系統(tǒng)、更穩(wěn)健的信號提取算法，以及更強大的神經(jīng)模擬方法。

3、新型模型架構(gòu)與表征學(xué)習(xí)：

世界模型的研究將不可避免地推動模型架構(gòu)與學(xué)習(xí)算法的革新，尤其是在超越當(dāng)前 MLLM 與視頻擴散模型范式的方向上?，F(xiàn)有方法通常將數(shù)據(jù)離散化為一維或二維序列，這使得一些簡單的空間任務(wù)變得不必要地困難 —— 比如統(tǒng)計短視頻中獨特的椅子數(shù)量，或記住一個房間一小時前的樣子。替代性架構(gòu)可能帶來突破，例如具備三維或四維感知能力的分詞、上下文和記憶機制。

以 World Labs 為例，我們最近開發(fā)的實時生成幀模型 RTFM（Real-Time Frame-based Model）正體現(xiàn)了這一方向的轉(zhuǎn)變。它將空間錨定的幀作為一種空間記憶形式，在保持生成世界連續(xù)性與一致性的同時，實現(xiàn)了高效的實時生成。

顯然，在通過世界模型徹底釋放空間智能之前，我們?nèi)悦媾R著艱巨的挑戰(zhàn)。這項研究不僅僅是理論探索，它將成為新一代創(chuàng)造力與生產(chǎn)力工具的核心引擎。而來自 World Labs 的最新進展令人振奮。我們近日首次向少量用戶展示了的早期成果 —— 這是首個能夠通過多模態(tài)輸入進行提示，從而生成并維持一致性三維環(huán)境的世界模型。用戶與創(chuàng)作者可以在其中探索、交互，并在創(chuàng)作流程中不斷擴展這一虛擬世界。我們也正全力推進，讓它盡快向公眾開放。

Marble 只是我們邁向真正具備空間智能的世界模型的第一步。隨著研究不斷加速，更多科學(xué)家、工程師、用戶與商業(yè)領(lǐng)袖開始意識到它所蘊含的巨大潛能。新一代的世界模型將使機器在空間智能方面達(dá)到全新的高度，這將開啟當(dāng)今 AI 系統(tǒng)仍普遍缺乏的關(guān)鍵能力。

利用世界模型，

為人類創(chuàng)造更美好的世界

人工智能的發(fā)展動力至關(guān)重要。作為推動現(xiàn)代人工智能時代到來的一名科學(xué)家，我的初心始終清晰：AI 應(yīng)當(dāng)增強人類能力，而非取而代之。多年來，我一直致力于讓 AI 的研發(fā)、應(yīng)用與治理與人類需求保持一致。如今，關(guān)于科技烏托邦或末日論的極端敘事層出不窮，但我依然堅持一種更務(wù)實的觀點：AI 由人類創(chuàng)造、由人類使用、也應(yīng)由人類治理。它必須始終尊重人的自主性與尊嚴(yán)。

AI 的真正魅力，在于擴展我們的能力，使我們變得更加富有創(chuàng)造力、更加緊密相連、更高效、更有成就感?？臻g智能正是這種愿景的體現(xiàn) —— 一種能讓創(chuàng)作者、照護者、科學(xué)家與夢想家實現(xiàn)曾經(jīng)不可能之事的 AI。這一信念，是我將空間智能視為人工智能下一個偉大前沿的根本動力。

空間智能的應(yīng)用涵蓋不同的時間維度。面向創(chuàng)作者的工具正在嶄露頭角 ——World Labs 的 Marble 已經(jīng)讓創(chuàng)作者與講述者能夠直接掌握這些能力。機器人學(xué)則代表了中期的雄心目標(biāo)，我們正不斷完善感知與行動之間的閉環(huán)。而那些最具變革性的科學(xué)應(yīng)用可能需要更長時間，但它們有望對人類的繁榮產(chǎn)生深遠(yuǎn)影響。

縱觀這些不同階段，有幾個領(lǐng)域格外值得關(guān)注，因為它們最有潛力重塑人類能力。要實現(xiàn)這一愿景，需要集體的巨大努力，遠(yuǎn)超任何一個團隊或公司的能力范圍。這需要整個 AI 生態(tài)系統(tǒng)的共同參與：研究者、創(chuàng)新者、企業(yè)家、公司，乃至政策制定者，都必須攜手朝著共同的愿景前進。而這一愿景，值得我們?nèi)σ愿?。接下來，讓我們看看這個未來將帶來什么。

創(chuàng)造力：賦能故事敘述與沉浸式體驗

「創(chuàng)造力是智力在享受樂趣?！惯@是我最喜愛的名言之一，出自我的精神偶像阿爾伯特?愛因斯坦。早在文字出現(xiàn)之前，人類就已經(jīng)在講述故事 —— 他們將故事繪在洞穴的石壁上，口耳相傳，代代延續(xù)，并以共同的敘事建構(gòu)出整個文化。故事是人類理解世界的方式，是跨越時空的紐帶，是我們探索「何為人」的途徑，更是我們在生命與愛中尋找意義的核心。

如今，空間智能有潛力徹底改變我們創(chuàng)造與體驗故事的方式 —— 不僅尊重敘事本身的根本價值，更將其影響力從娛樂延展到教育，從設(shè)計延伸到建筑，讓創(chuàng)造與體驗的邊界得到全新拓展。

World Labs 的 Marble 平臺正把前所未有的空間創(chuàng)造力與編輯控制力交到電影制作人、游戲設(shè)計師、建筑師以及各類敘事創(chuàng)作者手中，使他們能夠快速創(chuàng)建并迭代可自由探索的三維世界，而無需承擔(dān)傳統(tǒng) 3D 設(shè)計軟件所帶來的復(fù)雜成本。創(chuàng)作行為依然保持其獨特的人性與活力，而 AI 工具只是放大并加速了創(chuàng)作者能夠?qū)崿F(xiàn)的潛能。這其中包括：

在新維度中展開敘事體驗：電影制作人和游戲設(shè)計師正在利用 Marble 創(chuàng)造完整的世界，不再受制于預(yù)算或地理的限制，他們得以探索傳統(tǒng)制作流程中難以企及的場景與視角。隨著不同媒介與娛樂形式之間的界限逐漸模糊，我們正邁向一種全新的交互體驗形態(tài)，藝術(shù)、模擬與游戲的融合體。在這些個性化的世界中，不僅是大型工作室，任何人都可以創(chuàng)造并居住在屬于自己的故事里。隨著從概念與分鏡到完整體驗的生成過程變得更加快捷高效，敘事將不再局限于單一媒介，創(chuàng)作者可以自由地在多種平臺與載體之間，構(gòu)建互相關(guān)聯(lián)的世界與故事線。

通過設(shè)計講述空間敘事：幾乎所有的制造物與建筑空間，在被實體化之前，都必須先在虛擬三維世界中完成設(shè)計。這一過程迭代頻繁，且在時間與成本上代價高昂。借助具備空間智能的模型，建筑師可以在動工之前快速可視化建筑結(jié)構(gòu)，甚至漫步于尚未存在的空間中，從而以一種講故事的方式，探索人類未來的生活、工作與聚會方式。工業(yè)設(shè)計師與時尚設(shè)計師則能瞬間將想象轉(zhuǎn)化為形態(tài)，直觀地探索物體與人體及空間之間的關(guān)系。

全新的沉浸式與交互式體驗：體驗本身，是人類創(chuàng)造意義最深層的方式之一。在漫長的人類歷史中，我們共享的唯一三維世界是物理世界。直到近幾十年，隨著游戲與早期 VR 的出現(xiàn)，我們才開始窺見人類自造「平行世界」的可能。如今，空間智能結(jié)合 VR、XR 頭顯以及沉浸式顯示設(shè)備等新形態(tài)，將這種體驗提升到了前所未有的高度。我們正邁向一個時代 —— 走進一個完全實現(xiàn)的多維世界，將如同打開一本書般自然?？臻g智能讓「造世界」的能力不再只是專業(yè)團隊與大型工作室的特權(quán)，而是向個人創(chuàng)作者、教育者以及任何懷抱想象的人開放。

機器人：具身智能的實踐

從昆蟲到人類，動物都依賴空間智能來理解、導(dǎo)航并與周圍世界互動。機器人也將如此。自這一領(lǐng)域誕生以來，具備空間感知能力的機器一直是其終極目標(biāo) —— 這也包括我與斯坦福實驗室學(xué)生和合作伙伴多年來的研究工作。這正是我對 World Labs 正在構(gòu)建的世界模型充滿期待的原因之一，因為它們有望真正讓這一愿景成為現(xiàn)實。

通過世界模型擴展機器人的學(xué)習(xí)能力：

機器人的學(xué)習(xí)進步，取決于能否找到一種可擴展的訓(xùn)練數(shù)據(jù)解決方案。鑒于機器人在理解、推理、規(guī)劃與交互中所面對的龐大狀態(tài)空間，許多研究者推測，只有結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、合成仿真以及人類演示的真實捕獲，才能真正培育出具備泛化能力的機器人。

然而，與語言模型不同，目前機器人研究的數(shù)據(jù)極其匱乏。世界模型將在此發(fā)揮決定性作用。隨著其感知精度與計算效率的提升，世界模型的輸出能夠快速縮小模擬與現(xiàn)實之間的差距，從而幫助機器人在無數(shù)狀態(tài)、交互與環(huán)境的仿真中進行訓(xùn)練。

人類的伙伴與協(xié)作者：

作為人類的協(xié)作者，無論是在實驗臺前協(xié)助科學(xué)家，還是陪伴獨居長者，機器人都能在勞動力與生產(chǎn)力極度緊缺的領(lǐng)域中提供支持。但要做到這一點，它們必須具備空間智能 —— 既能感知、推理、規(guī)劃、行動，又能（這點最為重要）保持對人類目標(biāo)與行為的情感共鳴與理解。

例如，在實驗室中，機器人可以代替科學(xué)家操作儀器，讓人類專注于更需要靈巧與推理的任務(wù)；在家庭中，助理機器人可以幫助老人烹飪，而不削減他們的自主性與生活樂趣。真正具備空間智能的世界模型 —— 能夠預(yù)測下一狀態(tài)，甚至推測與之相符的行動 —— 是實現(xiàn)這一目標(biāo)的關(guān)鍵。

拓展具身智能的形態(tài)：

人形機器人在我們構(gòu)建的世界中確有其角色，但創(chuàng)新的全部潛力將來自更為多樣的設(shè)計形式：如可輸送藥物的納米機器人、能穿越狹窄空間的軟體機器人、以及適用于深?；蛲馓盏奶剿餍蜋C器。無論形態(tài)如何，未來的空間智能模型都必須同時整合機器人所處的環(huán)境與其自身的感知與運動方式。

然而，這類機器人的發(fā)展面臨的核心難題，是缺乏適用于多種具身形態(tài)的訓(xùn)練數(shù)據(jù)。世界模型將在這一過程中發(fā)揮關(guān)鍵作用 —— 它們將為仿真數(shù)據(jù)的生成、訓(xùn)練環(huán)境的構(gòu)建以及評測任務(wù)的制定提供基礎(chǔ)支撐。

更長遠(yuǎn)的視野：科學(xué)、醫(yī)療與教育

除了創(chuàng)意與機器人領(lǐng)域，空間智能的深遠(yuǎn)影響還將擴展至那些 AI 能夠以拯救生命、加速發(fā)現(xiàn)等方式增強人類能力的領(lǐng)域。以下我將重點談及三個具有深刻變革潛力的方向，但顯而易見，空間智能的應(yīng)用遠(yuǎn)不止于此，它將在更多行業(yè)中展現(xiàn)出廣闊的前景。

在科學(xué)研究中，具備空間智能的系統(tǒng)能夠模擬實驗、并行檢驗假設(shè)、探索人類難以到達(dá)的環(huán)境 —— 從深海到遙遠(yuǎn)的行星。這項技術(shù)將重塑氣候科學(xué)、材料研究等領(lǐng)域的計算建模方式。通過將多維度的仿真與真實世界的數(shù)據(jù)采集相結(jié)合，這類工具可以降低計算壁壘，拓展每一個實驗室的觀察與理解邊界。

在醫(yī)療領(lǐng)域，空間智能將從實驗室到病房，全面改變醫(yī)學(xué)實踐。在斯坦福，我與學(xué)生及合作伙伴多年來與醫(yī)院、養(yǎng)老機構(gòu)以及家庭患者緊密合作，這段經(jīng)歷讓我更加堅信空間智能在醫(yī)療中的變革潛力。AI 可以通過多維建模加速藥物發(fā)現(xiàn)；通過模式識別輔助放射科醫(yī)生提升影像診斷的準(zhǔn)確性；并通過環(huán)境感知式監(jiān)護系統(tǒng)支持患者與護理者，而不削弱康復(fù)所需的人際聯(lián)系。更不用說，具備空間智能的機器人也能在不同場景中，為醫(yī)護人員與患者提供強大的幫助。

在教育領(lǐng)域，空間智能能夠讓抽象或復(fù)雜的概念變得可感知、可體驗，從而實現(xiàn)沉浸式學(xué)習(xí)。它還能創(chuàng)造出與人類大腦與身體學(xué)習(xí)機制高度契合的迭代式學(xué)習(xí)體驗。在 AI 時代，更快、更高效的學(xué)習(xí)與再培訓(xùn)，對學(xué)生與成年人都至關(guān)重要。學(xué)生可以以多維視角探索細(xì)胞運作機制，或親身「走入」歷史事件；教師則能借助交互式環(huán)境實現(xiàn)個性化教學(xué)；而外科醫(yī)生、工程師等專業(yè)人士則可在逼真的仿真環(huán)境中安全練習(xí)復(fù)雜技能。

無論在哪個領(lǐng)域，空間智能所帶來的可能性幾乎沒有邊界，但目標(biāo)始終如一：讓 AI 增強人類的專業(yè)能力，加速人類的發(fā)現(xiàn)，放大人類的關(guān)懷 —— 而不是取代構(gòu)成人之為人的核心品質(zhì)：判斷力、創(chuàng)造力與共情力。

結(jié)語

在過去的十年里，人工智能已成為全球現(xiàn)象，并成為技術(shù)、經(jīng)濟乃至地緣政治的轉(zhuǎn)折點。然而，作為一名研究者、教育者以及如今的創(chuàng)業(yè)者，真正激勵我的，仍然是圖靈在 75 年前提出的那個問題背后的精神。我依然與他一樣，懷抱著對智能的驚奇與敬畏。正是這種好奇與挑戰(zhàn)的魅力，讓我每天都為空間智能的探索而充滿動力。

在人類歷史上，我們首次有能力構(gòu)建出與物理世界深度契合的機器，讓它們成為我們在應(yīng)對重大挑戰(zhàn)時值得信賴的伙伴。無論是加速我們在實驗室中對疾病的理解，革新我們講述故事的方式，還是在疾病、傷痛或衰老帶來的脆弱時刻給予支持，我們正站在一項能夠提升人類最珍視生活要素的技術(shù)門檻上。這是一個讓生命更加深刻、更加豐盈、更加有力量的愿景。

距自然在遠(yuǎn)古動物身上首次點燃空間智能的火花，已過去近五億年。而我們有幸身處這樣一個時代，或許很快，我們將讓機器也擁有同樣的能力；更幸運的是，我們能夠?qū)⑦@種能力用于造福全人類。如果沒有空間智能，我們對「真正智能機器」的夢想就永遠(yuǎn)無法完整。

原文鏈接：https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

文章來源：機器之心。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.