網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

李飛飛終于把空間智能講明白了：AI 的極限不是語言，世界遠比文字更廣闊！

2025-11-11 17:18:20　來源: AI科技大本營

北京舉報

分享至

出品丨AI 科技大本營（ID：rgznai100）

前不久，一場匯集了黃仁勛、Hinton、LeCun 等人工智能領域頂尖人物的圓桌討論，引發(fā)了不小的關注。當李飛飛與這些行業(yè)巨擘同臺時，也確實在社區(qū)里激起了一些討論——準確地說，是爭議。

各種社交媒體上，匯成了一個巨大的聲音：“她憑什么？”

它不是一句簡單的冒犯，更像是一種確認。在今天這個由參數(shù)、算力、模型規(guī)模定義的 AI 世界里，人們急于弄清楚，誰才是牌桌上真正的玩家。

而許多人眼里，王牌掌握在兩種人手中：一種是造出了像 GPT 這樣的大模型的人，另一種是造出了能讓這些模型飛速運轉(zhuǎn)的 GPU 的人。

在這個劇本里，李飛飛的角色就顯得有些模糊。

很多人對她的印象或許還停留在 ImageNet 時代。但 ImageNet 的意義，可能比我們想象的要深遠得多。它不僅僅是提供了一個龐大的數(shù)據(jù)集，更重要的是，它幾乎是以一己之力，為當時的計算機視覺領域建立了一套“標準賽道”，一種通過大規(guī)?；鶞蕼y試來驅(qū)動整個領域向前滾動的方法論?？梢哉f，今天大模型研究中“數(shù)據(jù)+算力+模型”并以 Benchmark 來衡量進展的范式，依然能看到當年 ImageNet 留下的深刻烙印。它不是某一個具體的算法，而是改變了游戲規(guī)則的基礎設施。

那么，在那個里程碑式的工作之后，當下的 AI 世界，幾乎所有人都擠在語言模型的賽道里狂奔時，李飛飛卻把目光投向了一個更廣闊、也更根本的領域：空間智能。

她敏銳地指出了當前 AI 范式的一個核心局限：語言終究是人類為了交流而創(chuàng)造出來的一種抽象信號。自然界中本沒有文字，物理世界遵循的是它自身的規(guī)律。AI 如果想要真正地理解世界、與世界互動，就不能只停留在文本的符號游戲里，做一個“黑暗中的文字大師”。它需要學會看、學會聽、學會理解三維空間中的物體、距離、物理關系和動態(tài)交互。

這解釋了很多人心中的第一層疑問：ImageNet 之后，李飛飛究竟在做什么？

她和她的團隊，以及新創(chuàng)辦的公司，正是試圖為 AI 補上“物理世界”這一課，讓智能走出屏幕，擁有對空間的感知、理解和交互能力。他們想做的，是構建所謂的“世界模型”，一個遠比語言模型宏大、復雜得多的目標。

這并非一個輕松的議題，甚至比單純擴大語言模型的規(guī)模要困難得多。它關乎人工智能的下一站將去往何方，是從一個勝利走向另一個勝利，還是需要一次根本性的范式轉(zhuǎn)換。

近日，李飛飛親自撰寫了一篇長文，第一次如此系統(tǒng)、完整地闡述了她對“空間智能”的全部構想，描繪了她眼中人工智能的新疆界。這篇文章，或許就是對外界所有好奇與疑問的最好回應，也終于解答了那個最大的問題：空間智能，到底是什么？

以下，是這篇文章的全文。

跨越語言，構筑世界：空間智能，人工智能的新疆界

1950 年，當計算還不過是自動化算術和簡單邏輯的代名詞時，艾倫·圖靈提出了一個至今仍引人深思的問題：機器能思考嗎？

能洞見他所預見的一切，需要非凡的想象力：智能或許某天可以被創(chuàng)造，而非與生俱來。這一洞見后來開啟了一場名為“人工智能”（AI）的不懈科學探索。在我投身人工智能領域的 25 年里，圖靈的遠見卓識至今仍讓我備受鼓舞。但我們距離這個目標還有多遠？答案并非一言以蔽之。

如今，以大語言模型（LLMs）為代表的頂尖人工智能技術，已經(jīng)開始改變我們獲取和處理抽象知識的方式。然而，它們?nèi)韵袷呛诎抵械奈淖执髱煟?strong>能言善辯卻缺乏經(jīng)驗，知識淵博卻脫離現(xiàn)實。空間智能將改變我們創(chuàng)造真實世界和虛擬世界以及與之互動的方式——為敘事、創(chuàng)造、機器人技術、科學發(fā)現(xiàn)等領域帶來革命性變化。這，就是人工智能的新疆界。

自進入這一領域以來，對視覺和空間智能的追求，一直是指引我的“北極星”。為此，我曾花費數(shù)年時間構建 ImageNet，它是首個大規(guī)模視覺學習和基準測試數(shù)據(jù)集；它與神經(jīng)網(wǎng)絡算法以及圖形處理器（GPU）等現(xiàn)代計算技術一道，成為催生現(xiàn)代人工智能的三大關鍵要素之一。

也正因如此，我在斯坦福的學術實驗室在過去十年間，一直致力于將計算機視覺與機器人學習相結合。同樣為此，我和我的聯(lián)合創(chuàng)始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 及我在一年多前創(chuàng)立了 World Labs：為了首次將這一可能性完全實現(xiàn)。

在本文中，我將解釋什么是空間智能、它為何重要，以及我們正在如何構建能夠解鎖它的“世界模型”——其影響將重塑創(chuàng)造力、具身智能和人類的進步。

空間智能：人類認知的腳手架

人工智能的發(fā)展從未像今天這樣激動人心。以大語言模型為代表的生成式AI模型已經(jīng)從實驗室走向日常生活，成為數(shù)十億人進行創(chuàng)造、提升生產(chǎn)力和溝通的工具。它們展現(xiàn)了曾被認為不可能實現(xiàn)的能力，能夠輕松生成連貫的文本、海量的代碼、逼真的圖像，甚至是簡短的視頻片段。人工智能是否會改變世界，這已不再是個問題。無論以何種標準衡量，它都已然做到了這一點。

然而，仍有許多目標遙不可及。自主機器人的愿景雖然引人入勝，但仍停留在構想階段，遠未成為未來學家長期承諾的那樣，在日常生活中普及開來。在疾病治療、新材料發(fā)現(xiàn)和粒子物理學等領域極大加速研究的夢想，在很大程度上仍未實現(xiàn)。而讓人工智能真正理解并賦能人類創(chuàng)造者的承諾——無論是幫助學生理解分子化學中復雜的概念，協(xié)助建筑師構想空間，支持電影制作人構建世界，還是為任何尋求完全沉浸式虛擬體驗的人提供服務——也依然未能兌現(xiàn)。

要理解為何這些能力依然遙不可及，我們需要探究空間智能是如何進化的，以及它如何塑造我們對世界的理解。

長期以來，視覺一直是人類智能的基石，但其力量源于一種更為根本的能力。遠在動物學會筑巢、照顧幼崽、用語言交流或建立文明之前，感知這一簡單的行為，悄然開啟了通往智能的進化之旅。

這種看似孤立的、從外部世界獲取信息（無論是一縷光線還是一絲觸感）的能力，在感知與生存之間架起了一座橋梁，并且隨著世代繁衍，這座橋梁變得愈發(fā)堅固和精巧。一層層的神經(jīng)元在這座橋梁上生長，形成了能夠解釋世界、并協(xié)調(diào)生物體與其環(huán)境互動的神經(jīng)系統(tǒng)。

因此，許多科學家推測，感知與行動構成了驅(qū)動智能進化的核心循環(huán)，也是大自然創(chuàng)造出我們這個集感知、學習、思考和行動于一體的終極物種的根基。

空間智能在定義我們?nèi)绾闻c物理世界互動方面扮演著根本性的角色。我們每天都依賴它完成最普通不過的動作：通過想象保險杠與路邊之間的間隙逐漸縮小來停放汽車；接住別人從房間另一頭扔過來的鑰匙；在擁擠的人行道上穿行而避免碰撞；或者睡眼惺忪地將咖啡倒入杯中，甚至無需直視。

在更極端的情況下，消防員在煙霧彌漫、不斷坍塌的建筑物中穿行，對結構的穩(wěn)定性和生存機會做出瞬時判斷，并通過手勢、身體語言和一種無法用語言替代的共同職業(yè)本能進行交流。而孩子們則在學會說話前的數(shù)月乃至數(shù)年里，通過與環(huán)境充滿趣味的互動來學習這個世界。所有這一切都發(fā)生得如此直觀、自然——這是機器尚未達到的流暢程度。

空間智能也是我們想象力和創(chuàng)造力的基礎。講故事的人在腦海中創(chuàng)造出獨特而豐富的世界，并利用從古代洞穴壁畫到現(xiàn)代電影再到沉浸式視頻游戲等多種視覺媒介，將這些世界呈現(xiàn)給他人。無論是孩子們在沙灘上堆砌沙堡，還是在電腦上玩《我的世界》，這種基于空間的想象力，構成了真實或虛擬世界中互動體驗的基礎。在許多行業(yè)應用中，對物體、場景和動態(tài)交互環(huán)境的模擬，為從工業(yè)設計到數(shù)字孿生再到機器人訓練等無數(shù)關鍵的商業(yè)應用提供了動力。

歷史上，空間智能在許多定義文明進程的時刻都扮演了核心角色。在古希臘，埃拉托斯特尼將影子轉(zhuǎn)化為幾何學——在太陽直射賽伊尼城（Syene）的同一時刻，他在亞歷山大港測得太陽光線有 7 度的夾角——從而計算出地球的周長。哈格里夫斯的“珍妮紡紗機”通過一個空間上的洞察徹底改變了紡織業(yè)：將多個紡錘并排布置在同一個框架中，使得一個工人能同時紡多根紗線，生產(chǎn)效率提高了八倍。沃森和克里克通過親手搭建三維分子模型發(fā)現(xiàn)了 DNA 的結構，他們不斷擺弄金屬板和金屬絲，直到最終找到了堿基對的空間排列方式。

在每一個案例中，當科學家和發(fā)明家需要操控物體、構想結構和對物理空間進行推理時，空間智能都推動了文明的進步——這些都無法僅靠文字來捕捉。

空間智能是我們構建認知所依賴的腳手架。無論我們是被動觀察還是主動創(chuàng)造，它都在發(fā)揮作用。它驅(qū)動著我們的推理和規(guī)劃，即便是在最抽象的議題上。它對于我們互動的方式——無論是口頭還是身體上的，無論是與同伴還是與環(huán)境本身——都至關重要。雖然我們大多數(shù)人并非每天都在做出埃拉托斯特尼級別的發(fā)現(xiàn)，但我們每天也都在以同樣的方式思考——通過感官來感知復雜的世界，然后利用對世界如何在物理和空間層面運作的直觀理解來認識它。

遺憾的是，今天的人工智能還無法像這樣思考。

過去幾年里，人工智能確實取得了巨大進步。多模態(tài)大語言模型（MLLMs）除了文本數(shù)據(jù)外，還利用海量的多媒體數(shù)據(jù)進行訓練，從而引入了一些基礎的空間感知能力，如今的人工智能已經(jīng)可以分析圖片、回答相關問題，并生成超逼真的圖像和短視頻。通過傳感器和觸覺技術的突破，我們最先進的機器人也開始能夠在高度受限的環(huán)境中操控物體和工具。

然而，坦率地說，人工智能的空間能力距離人類水平還相差甚遠。其局限性很快就會暴露出來。在估算距離、方向和尺寸，或通過從新角度重新生成圖像來“在腦中”旋轉(zhuǎn)物體時，當前最先進的多模態(tài)大語言模型的表現(xiàn)往往不比隨機猜測好多少。它們無法走出迷宮、識別捷徑或預測基本的物理現(xiàn)象。人工智能生成的視頻——盡管尚處起步階段，并且確實非?？帷趲酌腌姾缶褪ミB貫性。

盡管當前最先進的人工智能擅長閱讀、寫作、研究和數(shù)據(jù)中的模式識別，但這些模型在表現(xiàn)或與物理世界互動時，卻存在根本性的局限。我們看待世界的方式是整體性的——不僅關乎我們正在看什么，更關乎萬物在空間上如何關聯(lián)、其意義為何、其重要性何在。通過想象、推理、創(chuàng)造和互動——而不僅僅是描述——來理解這一切，正是空間智能的力量所在。沒有它，人工智能就與它試圖理解的物理現(xiàn)實脫節(jié)。它無法有效地駕駛我們的汽車，無法引導機器人在我們的家庭和醫(yī)院中服務，無法為學習和娛樂創(chuàng)造全新的沉浸式互動體驗，也無法加速材料科學和醫(yī)學領域的探索發(fā)現(xiàn)。

哲學家維特根斯坦曾寫道：“我語言的極限，意味著我世界的極限?！蔽也皇钦軐W家。但我知道，至少對人工智能而言，世界遠不止于語言。空間智能代表了超越語言的新疆界——它連接想象、感知與行動，為機器真正改善人類生活開辟了可能，從醫(yī)療健康到創(chuàng)意表達，從科學發(fā)現(xiàn)到日常輔助。

人工智能的下一個十年：構建真正具備空間智能的機器

那么，我們該如何構建具備空間智能的人工智能？要打造出能夠像埃拉托斯特尼那樣推理、像工業(yè)設計師那樣精密設計、像故事講述者那樣富有想象力地創(chuàng)造，并像急救人員那樣流暢地與環(huán)境互動的模型，其路徑何在？

構建具備空間智能的人工智能，需要比大語言模型更為宏大的目標：世界模型。這是一種新型的生成模型，其理解、推理、生成以及與語義、物理、幾何和動態(tài)上都極為復雜的虛擬或真實世界進行互動的能力，遠非當今的大語言模型所能及。該領域尚處萌芽階段，現(xiàn)有方法從抽象推理模型到視頻生成系統(tǒng)不一而足。World Labs 于 2024 年初正是基于這樣的信念而創(chuàng)立：基礎方法仍在建立之中，這使其成為未來十年最具決定性的挑戰(zhàn)。

在這個新興領域，最重要的是確立指導發(fā)展的原則。對于空間智能，我通過三個基本能力來定義世界模型：

生成性：世界模型能夠生成具有感知、幾何和物理一致性的世界
能夠解鎖空間理解和推理的世界模型，也必須能夠生成它們自己的模擬世界。它們必須能夠根據(jù)語義或感知指令，生成無窮無盡、多種多樣的模擬世界——無論是代表真實空間還是虛擬空間——同時保持幾何、物理和動態(tài)上的一致性。研究界正在積極探索，這些世界在內(nèi)在的幾何結構上，究竟應該被隱式表達還是顯式表達。此外，我相信，除了強大的潛在表示之外，一個通用的世界模型還必須能為許多不同的用例生成一個明確、可觀察的世界狀態(tài)。特別是，它對當下的理解必須與它的過去——即導致當前狀態(tài)的先前世界狀態(tài)——連貫地聯(lián)系在一起。
多模態(tài)：世界模型在設計上就是多模態(tài)的
正如動物和人類一樣，世界模型應該能夠處理多種形式的輸入——在生成式 AI 領域中稱為“提示詞”。在獲得部分信息的情況下——無論是圖像、視頻、深度圖、文本指令、手勢還是動作——世界模型都應能預測或生成盡可能完整的世界狀態(tài)。這要求它既能以真實視覺的保真度處理視覺輸入，又能同樣自如地解釋語義指令。這使得智能體和人類都能夠通過多樣的輸入與模型就世界進行溝通，并反過來接收多樣的輸出。
交互性：世界模型能夠根據(jù)輸入的動作輸出下一個狀態(tài)
最后，如果動作和/或目標是給到世界模型的提示詞的一部分，那么它的輸出必須包含世界的下一個狀態(tài)，無論是隱式還是顯式表示。當僅給定一個動作（無論有無目標狀態(tài)）作為輸入時，世界模型應該產(chǎn)生一個與世界先前狀態(tài)、預期的目標狀態(tài)（如果有的話），以及其語義含義、物理定律和動態(tài)行為相一致的輸出。隨著具備空間智能的世界模型在推理和生成能力上變得更加強大和穩(wěn)健，可以想見，在給定一個目標的情況下，世界模型本身將不僅能夠預測世界的下一個狀態(tài)，還能基于新狀態(tài)預測下一步的動作。

這一挑戰(zhàn)的范圍超過了人工智能以往面臨的任何挑戰(zhàn)。

語言純粹是人類認知的一種生成現(xiàn)象，而世界則遵循著遠為復雜的規(guī)則。例如，在地球上，引力支配著運動，原子結構決定了光如何產(chǎn)生顏色和亮度，無數(shù)的物理定律制約著每一次互動。即使是最奇幻、最具創(chuàng)意的世界，也是由遵守其自身物理定律和動態(tài)行為的空間物體和智能體構成的。

要將所有這些——語義、幾何、動態(tài)和物理——一致地協(xié)調(diào)起來，需要全新的方法。表示一個世界的維度，遠比表示像語言這樣的一維序列信號要復雜得多。要實現(xiàn)能夠提供我們?nèi)祟愃碛械哪欠N通用能力的世界模型，將需要克服幾個巨大的技術障礙。在 World Labs，我們的研究團隊正致力于朝著這個目標取得根本性的進展。

以下是我們當前研究課題的一些例子：

一種新的、通用的訓練任務函數(shù)： 定義一個像大語言模型中的“下一詞元預測”那樣簡潔優(yōu)雅的通用任務函數(shù)，一直是世界模型研究的核心目標。其輸入和輸出空間的復雜性，使得這樣一個函數(shù)的構建本身就更具難度。但盡管仍有許多未知尚待探索，這個目標函數(shù)及相應的表示方法必須能反映幾何與物理定律，尊重世界模型作為想象與現(xiàn)實的具身化表示這一根本性質(zhì)。
大規(guī)模訓練數(shù)據(jù)：訓練世界模型需要比文本整理復雜得多的數(shù)據(jù)。好消息是：海量的數(shù)據(jù)源已經(jīng)存在?；ヂ?lián)網(wǎng)規(guī)模的圖像和視頻集合代表了豐富且易于獲取的訓練材料——挑戰(zhàn)在于開發(fā)能夠從這些二維的、基于圖像或視頻幀的信號（即 RGB）中提取更深層空間信息的算法。過去十年的研究已經(jīng)顯示了在語言模型中，數(shù)據(jù)量和模型大小之間的“規(guī)模法則”的力量；解鎖世界模型的關鍵，在于構建能夠以同等規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構。此外，我不會低估高質(zhì)量合成數(shù)據(jù)以及深度和觸覺信息等額外模態(tài)的力量。它們在訓練過程的關鍵步驟中，對互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)起到了補充作用。但前進的道路依賴于更好的傳感器系統(tǒng)、更穩(wěn)健的信號提取算法，以及遠為強大的神經(jīng)模擬方法。
新的模型架構和表示學習：世界模型的研究將不可避免地推動模型架構和學習算法的進步，特別是超越當前的多模態(tài)大語言模型和視頻擴散范式。這兩種范式通常將數(shù)據(jù)標記化為一維或二維序列，這使得一些簡單的空間任務變得異常困難——比如，在一段短視頻中數(shù)出不重復的椅子數(shù)量，或者記住一個小時前房間的樣子。替代性架構可能會有所幫助，例如用于標記化、上下文和記憶的具備三維或四維感知能力的方法。例如，在 World Labs，我們最近在一款名為 RTFM（Real-Time Frame-based Model）的實時生成式幀基模型上的工作就展示了這種轉(zhuǎn)變，它使用基于空間的幀作為一種空間記憶形式，以實現(xiàn)高效的實時生成，同時保持生成世界中的持久性。

顯然，在我們能通過世界建模完全解鎖空間智能之前，仍面臨著艱巨的挑戰(zhàn)。這項研究不僅僅是一項理論探索，它是一個新型創(chuàng)意和生產(chǎn)力工具的核心引擎。而 World Labs 內(nèi)部的進展令人鼓舞。我們最近向少數(shù)用戶展示了 Marble 的一瞥，這是有史以來第一個可以通過多模態(tài)輸入提示，來生成并維持一致三維環(huán)境的世界模型，供用戶和故事講述者在他們的創(chuàng)意工作流中進行探索、互動和進一步構建。我們正在努力，希望很快能將其向公眾開放！

Marble 只是我們創(chuàng)造一個真正具備空間智能的世界模型的第一步。隨著進展加速，研究人員、工程師、用戶和商界領袖們都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新層面上實現(xiàn)空間智能——這一成就將解鎖當今人工智能系統(tǒng)中仍然普遍缺失的關鍵能力。

用世界模型為人類構建一個更美好的世界

發(fā)展人工智能的動機至關重要。作為幫助開啟現(xiàn)代人工智能時代的科學家之一，我的動機一直很明確：人工智能必須增強人類的能力，而非取而代之。

多年來，我一直致力于使人工智能的開發(fā)、部署和治理與人類的需求保持一致。如今，關于技術烏托邦和末日論的極端敘事比比皆是，但我繼續(xù)持有一種更為務實的觀點：人工智能由人開發(fā)，為人所用，并由人治理。它必須始終尊重人的能動性和尊嚴。它的魔力在于擴展我們的能力，讓我們更有創(chuàng)造力、更能互聯(lián)、更有效率、更有成就感。

空間智能代表了這一愿景——人工智能賦能人類的創(chuàng)造者、照護者、科學家和夢想家，去實現(xiàn)曾經(jīng)的不可能。正是這一信念，驅(qū)動著我將空間智能作為人工智能下一個偉大疆界的承諾。

空間智能的應用橫跨不同的時間線。創(chuàng)意工具正于此刻涌現(xiàn)——World Labs 的 Marble 已經(jīng)將這些能力交到了創(chuàng)造者和故事講述者的手中。隨著我們不斷完善感知與行動之間的循環(huán)，機器人技術代表了一個雄心勃勃的中期目標。而最具變革性的科學應用將需要更長的時間，但它們有望對人類的繁榮產(chǎn)生深遠影響。

在所有這些時間線中，有幾個領域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力，遠非一個團隊或一家公司所能實現(xiàn)。它需要整個 AI 生態(tài)系統(tǒng)的參與——研究人員、創(chuàng)新者、企業(yè)家、公司，甚至政策制定者——共同為一個共同的愿景而努力。但這個愿景值得我們?nèi)プ非蟆?/p>

以下是這個未來所包含的內(nèi)容：

創(chuàng)造力：為敘事和沉浸式體驗注入超能力

“創(chuàng)造力是智慧在玩耍?！?這是我的偶像阿爾伯特·愛因斯坦的名言之一，也是我最喜歡的一句話。遠在書面語言出現(xiàn)之前，人類就在講述故事——將它們畫在洞穴墻壁上，代代相傳，在共同的敘事之上建立起整個文化。故事是我們理解世界、跨越時空建立聯(lián)系、探索人性意義的方式，最重要的是，是我們尋找生命意義和內(nèi)心之愛的方式。今天，空間智能有潛力改變我們創(chuàng)造和體驗敘事的方式，這種方式既尊重其根本重要性，又將其影響從娛樂擴展到教育，從設計延伸到建筑。

World Labs 的 Marble 平臺將為電影制作人、游戲設計師、建筑師和各類故事講述者提供前所未有的空間能力和編輯可控性，讓他們能夠快速創(chuàng)建和迭代可完全探索的三維世界，而無需傳統(tǒng)三維設計軟件的繁重負擔。創(chuàng)造行為本身依然如故，充滿活力且富有人性；人工智能工具只是放大并加速了創(chuàng)造者所能達成的成就。這包括：

新維度的敘事體驗： 電影制作人和游戲設計師正在使用Marble來構想完整的世界，而不受預算或地理位置的限制，探索在傳統(tǒng)制作流程中難以實現(xiàn)的各種場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊，我們正在接近一種融合了藝術、模擬和游戲的全新互動體驗——個性化的世界，其中任何人，而不僅僅是工作室，都可以創(chuàng)造并棲居于自己的故事之中。隨著將概念和故事板提升為完整體驗的更新、更快捷的方式的出現(xiàn)，敘事將不再局限于單一媒介，創(chuàng)作者可以自由地在無數(shù)的界面和平臺上，構建擁有共同主線貫穿的世界。
通過設計實現(xiàn)空間敘事：基本上，每一個制造出來的物體或建造出的空間，在其實體化之前都必須在虛擬三維環(huán)境中進行設計。這個過程迭代性強，且在時間和金錢上都成本高昂。有了具備空間智能的模型，建筑師可以在投入數(shù)月進行設計之前快速構想結構，漫步于尚不存在的空間之中——這本質(zhì)上是在講述我們未來可能如何生活、工作和聚集的故事。工業(yè)設計師和時尚設計師可以瞬間將想象轉(zhuǎn)化為形態(tài)，探索物體如何與人體和空間互動。
全新的沉浸式和互動體驗：體驗本身，是我們這個物種創(chuàng)造意義最深刻的方式之一。在整個人類歷史中，只有一個單一的三維世界：我們共同生活的這個物理世界。直到近幾十年，通過游戲和早期的虛擬現(xiàn)實（VR），我們才開始瞥見共享我們自己創(chuàng)造的替代世界意味著什么?，F(xiàn)在，空間智能與VR和擴展現(xiàn)實（XR）頭顯、沉浸式顯示器等新形態(tài)設備相結合，以前所未有的方式提升了這些體驗。我們正邁向一個未來，在那里，步入一個完全實現(xiàn)的多維世界，將變得像打開一本書一樣自然?？臻g智能讓世界構建不再僅僅是擁有專業(yè)制作團隊的工作室的專利，而是面向個人創(chuàng)作者、教育者以及任何有愿景希望分享的人。

機器人技術：行動中的具身智能

從昆蟲到人類，動物都依賴空間智能來理解、導航并與它們的世界互動。機器人也不例外。自該領域誕生之初，擁有空間感知能力的機器就一直是人們的夢想，這也包括我和我的學生及合作者在斯坦福研究實驗室的工作。這也是為什么我對利用World Labs正在構建的這類模型來實現(xiàn)這一可能性感到如此興奮。

通過世界模型規(guī)?；瘷C器人學習： 機器人學習的進展取決于一個可行的、可規(guī)?；挠柧殧?shù)據(jù)解決方案?？紤]到機器人需要學習理解、推理、規(guī)劃和互動的可能性狀態(tài)空間極其巨大，許多人推測，需要結合互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬以及對人類演示的真實世界捕捉，才能真正創(chuàng)造出具有泛化能力的機器人。但與語言模型不同，當今的機器人研究缺乏訓練數(shù)據(jù)。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高，世界模型的輸出可以迅速彌合模擬與現(xiàn)實之間的差距。這反過來將有助于在無數(shù)的狀態(tài)、互動和環(huán)境模擬中訓練機器人。
伙伴與協(xié)作者：機器人作為人類的協(xié)作者，無論是在實驗室工作臺旁協(xié)助科學家，還是幫助獨居老人，都可以補充那些急需更多勞動力和生產(chǎn)力的領域。但要做到這一點，需要機器人具備能夠感知、推理、規(guī)劃和行動的空間智能，同時——這是最重要的——與人類的目標和行為保持共情的一致。例如，一個實驗室機器人可以處理儀器，讓科學家專注于需要靈巧性或推理的任務；而一個家庭助理可以幫助老年人做飯，而不會削弱他們的樂趣或自主性。能夠預測下一個狀態(tài)甚至可能是與這種期望相符的動作，這樣真正具備空間智能的世界模型，對于實現(xiàn)這一目標至關重要。
擴展具身形態(tài)：人形機器人在我們?yōu)樽约簶嫿ǖ氖澜缰邪缪葜欢ń巧?。但?chuàng)新的全部益處將來自更多樣化的設計：遞送藥物的納米機器人、穿越狹窄空間的軟體機器人，以及為深?；蛲馓战ㄔ斓臋C器。無論其形態(tài)如何，未來的空間智能模型都必須整合這些機器人所處的環(huán)境以及它們自身的具身感知和運動。但開發(fā)這些機器人的一個關鍵挑戰(zhàn)是，缺乏適用于這些多種多樣的具身形態(tài)的訓練數(shù)據(jù)。世界模型將在為這些努力提供模擬數(shù)據(jù)、訓練環(huán)境和基準測試任務方面發(fā)揮關鍵作用。

更長遠的未來：科學、醫(yī)療和教育

除了創(chuàng)意和機器人應用，空間智能的深遠影響還將延伸到那些人工智能可以增強人類能力、從而拯救生命和加速發(fā)現(xiàn)的領域。我將在下面重點介紹三個具有深度變革潛力的應用領域，但毋庸置疑，空間智能的用例在更多行業(yè)中都極為廣闊。

在科學研究中，具備空間智能的系統(tǒng)可以模擬實驗，并行測試假設，并探索人類無法進入的環(huán)境——從深海到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界數(shù)據(jù)收集相結合，這些工具可以降低計算門檻，并擴展每個實驗室能夠觀察和理解的范圍。

在醫(yī)療健康領域，空間智能將重塑從實驗室到病床邊的每一個環(huán)節(jié)。在斯坦福，我和我的學生及合作者多年來與醫(yī)院、養(yǎng)老機構以及居家患者共事。這段經(jīng)歷讓我確信空間智能在此處的變革潛力。人工智能可以通過多維度建模分子相互作用來加速藥物發(fā)現(xiàn)，通過幫助放射科醫(yī)生在醫(yī)學影像中發(fā)現(xiàn)模式來增強診斷，并實現(xiàn)環(huán)境監(jiān)測系統(tǒng)，在不取代治愈所必需的人文關懷的前提下，為患者和護理人員提供支持，更不用說機器人在各種不同場景下幫助我們的醫(yī)護人員和患者的潛力。

在教育領域，空間智能可以實現(xiàn)沉浸式學習，使抽象或復雜的概念變得具體可感，并創(chuàng)造出對我們大腦和身體學習方式至關重要的迭代式體驗。在人工智能時代，更快、更有效的學習和技能重塑的需求，對于學齡兒童和成年人都尤為重要。學生可以在多維度中探索細胞的運作機制或漫步于歷史事件之中。教師可以獲得通過互動環(huán)境進行個性化教學的工具。從外科醫(yī)生到工程師的專業(yè)人士，都可以在逼真的模擬中安全地練習復雜技能。

在所有這些領域，可能性是無限的，但目標始終如一：人工智能應增強人類的專業(yè)知識、加速人類的發(fā)現(xiàn)、并放大人類的關懷——而不是取代作為人類核心的判斷力、創(chuàng)造力和同理心。

結語

過去十年見證了人工智能成為一種全球現(xiàn)象，以及技術、經(jīng)濟乃至地緣政治的一個轉(zhuǎn)折點。但作為一名研究者、教育者，以及現(xiàn)在的創(chuàng)業(yè)者，最能激勵我的，仍然是圖靈 75 年前那個問題背后的精神。我依然懷有他那份好奇心。正是這份好奇心，讓我每天都為空間智能這一挑戰(zhàn)而充滿活力。

歷史上第一次，我們有望制造出與物理世界如此協(xié)調(diào)的機器，以至于我們可以依賴它們作為我們應對最大挑戰(zhàn)的真正伙伴。無論是在實驗室里加速我們對疾病的理解，徹底改變我們講述故事的方式，還是在我們因疾病、受傷或年老而最脆弱的時刻給予支持，我們正處在一項能夠提升我們最珍視的生活方面的技術的前沿。這是一個關于更深刻、更豐富、更強大的人生的愿景。

在自然界于近五億年前在遠古動物身上釋放出空間智能的第一縷微光之后，我們有幸成為這一代技術專家中的一員，或許很快就能賦予機器同樣的能力——并有幸利用這些能力為世界各地的人們謀福祉。我們對真正智能機器的夢想，若沒有空間智能，將是不完整的。

李飛飛原文鏈接：https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.