網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI教母李飛飛最新長文：空間智能是AI的下一個前沿「LLM太局限了，缺乏現(xiàn)實根基」

2025-11-11 08:15:26　來源: AI寒武紀(jì)

江蘇舉報

分享至

剛剛，AI教母、斯坦福大學(xué)教授李飛飛發(fā)表了一篇最新文章《從語言到世界：空間智能是AI的下一個前沿》，這篇文章是李飛飛對其25年AI生涯的深入思考

李飛飛認(rèn)為，盡管以LLM為代表的AI技術(shù)已深刻改變世界，但它們本質(zhì)上仍是“黑暗中的文字匠”——能言善辯但缺乏經(jīng)驗，知識淵博但缺乏現(xiàn)實根基

要讓AI真正理解并與物理世界互動，就必須突破語言的限制，邁向空間智能 (Spatial Intelligence)。

李飛飛認(rèn)為，空間智能將是AI的下一個前沿，它將賦能AI，使其擁有故事講述者的想象力、第一反應(yīng)者的行動力，以及科學(xué)家的空間推理精度。

為了實現(xiàn)這一目標(biāo)，她提出了構(gòu)建世界模型 的框架，并詳細(xì)闡述了其三大核心能力、面臨的技術(shù)挑戰(zhàn)以及廣闊的應(yīng)用前景

全文：《從語言到世界：空間智能是AI的下一個前沿》

https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

1950年，當(dāng)計算還不過是自動化算術(shù)和簡單邏輯時，艾倫·圖靈提出了一個至今仍回響不絕的問題：機器能思考嗎？他所預(yù)見的景象需要非凡的想象力：智能或許有朝一日可以被構(gòu)建，而非與生俱來。這一洞見后來開啟了一場名為人工智能（AI）的不懈科學(xué)探索。在我25年的人工智能生涯中，我依然被圖靈的遠(yuǎn)見所激勵。但我們離這個目標(biāo)還有多遠(yuǎn)？答案并不簡單

今天，以大語言模型（LLM）為代表的頂尖AI技術(shù)已經(jīng)開始改變我們獲取和處理抽象知識的方式。然而，它們?nèi)匀皇呛诎抵械奈淖纸常荒苎陨妻q但缺乏經(jīng)驗，知識淵博但缺乏現(xiàn)實根基。空間智能將改變我們創(chuàng)造和與真實及虛擬世界互動的方式——它將徹底革新故事敘述、創(chuàng)造力、機器人學(xué)、科學(xué)發(fā)現(xiàn)等領(lǐng)域。這，就是AI的下一個前沿。

追求視覺與空間智能，一直是指引我進(jìn)入這個領(lǐng)域的北極星。正因如此，我花費數(shù)年時間構(gòu)建了ImageNet，這是第一個大規(guī)模視覺學(xué)習(xí)和基準(zhǔn)測試數(shù)據(jù)集，也是與神經(jīng)網(wǎng)絡(luò)算法和現(xiàn)代計算（如圖形處理單元GPU）并列的、催生現(xiàn)代AI誕生的三大關(guān)鍵要素之一。正因如此，我在斯坦福的學(xué)術(shù)實驗室在過去十年里一直致力于將計算機視覺與機器人學(xué)習(xí)相結(jié)合。也正因如此，我和我的聯(lián)合創(chuàng)始人Justin Johnson、Christoph Lassner、Ben Mildenhall在一年多前創(chuàng)辦了World Labs：為了首次全面實現(xiàn)這一可能性。

在這篇文章中，我將解釋什么是空間智能，它為何重要，以及我們?nèi)绾螛?gòu)建能夠解鎖它的世界模型——其影響力將重塑創(chuàng)造力、具身智能和人類進(jìn)步

空間智能：人類認(rèn)知的腳手架

AI從未如此激動人心。像LLM這樣的生成式AI模型已經(jīng)從研究實驗室走向日常生活，成為數(shù)十億人創(chuàng)造、生產(chǎn)和交流的工具。它們展示了曾被認(rèn)為不可能的能力，能夠輕松生成連貫的文本、堆積如山的代碼、逼真的圖像，甚至是短視頻片段。AI是否會改變世界，已不再是一個問題。以任何合理的定義來看，它已經(jīng)做到了。

然而，仍有太多領(lǐng)域遙不可及。自主機器人的愿景依然引人入勝但仍停留在推測階段，遠(yuǎn)未成為未來學(xué)家長期承諾的日常設(shè)備。在疾病治療、新材料發(fā)現(xiàn)和粒子物理學(xué)等領(lǐng)域，大規(guī)模加速研究的夢想在很大程度上仍未實現(xiàn)。而讓AI真正理解并賦能人類創(chuàng)造者的承諾——無論是幫助學(xué)生學(xué)習(xí)分子化學(xué)的復(fù)雜概念，協(xié)助建筑師構(gòu)想空間，輔助電影制作人構(gòu)建世界，還是為任何尋求完全沉浸式虛擬體驗的人提供支持——也仍然無法實現(xiàn)。

要了解為何這些能力仍然遙不可及，我們需要審視空間智能是如何演化的，以及它如何塑造我們對世界的理解。

視覺長期以來一直是人類智能的基石，但其力量源于某種更為根本的東西。早在動物能夠筑巢、照顧幼崽、用語言交流或建立文明之前，簡單的感知行為就已經(jīng)悄然開啟了一段通往智能的演化之旅。

這種看似孤立的、從外部世界收集信息的能力，無論是微光一閃還是質(zhì)感的觸碰，都在感知與生存之間建立了一座橋梁，并且隨著世代更迭，這座橋梁變得越來越堅固和精細(xì)。一層又一層的神經(jīng)元從這座橋梁上生長出來，形成了能夠解釋世界并協(xié)調(diào)生物體與其環(huán)境互動的神經(jīng)系統(tǒng)。因此，許多科學(xué)家推測，感知與行動構(gòu)成了驅(qū)動智能演化的核心循環(huán)，也是自然創(chuàng)造我們這個物種——感知、學(xué)習(xí)、思考和行動的終極體現(xiàn)——的基礎(chǔ)。

空間智能在定義我們?nèi)绾闻c物理世界互動方面扮演著基礎(chǔ)性角色。每一天，我們都依賴它來完成最普通的行為：通過想象保險杠與路沿之間不斷縮小的間隙來停車，接住別人從房間另一頭扔過來的鑰匙，在擁擠的人行道上穿行而避免碰撞，或者睡眼惺忪地不看杯子就把咖啡倒進(jìn)去。在更極端的情況下，消防員在濃煙滾滾、不斷坍塌的建筑中穿行，對結(jié)構(gòu)的穩(wěn)定性和生存機會做出瞬間判斷，通過手勢、肢體語言和一種無法用語言替代的共同職業(yè)本能進(jìn)行交流。而孩子們則在他們能夠說話之前的數(shù)月或數(shù)年里，通過與環(huán)境的嬉戲互動來學(xué)習(xí)世界。所有這一切都發(fā)生得直觀而自然——這是機器尚未達(dá)到的流暢程度。

空間智能也是我們想象力和創(chuàng)造力的基礎(chǔ)。故事講述者在腦海中創(chuàng)造出異常豐富的世界，并利用多種視覺媒介將其呈現(xiàn)給他人，從古代的洞穴壁畫到現(xiàn)代電影，再到沉浸式視頻游戲。無論是孩子們在沙灘上堆沙堡，還是在電腦上玩《我的世界》，基于空間的想象力構(gòu)成了真實或虛擬世界中互動體驗的基礎(chǔ)。在許多工業(yè)應(yīng)用中，對物體、場景和動態(tài)交互環(huán)境的模擬，為從工業(yè)設(shè)計到數(shù)字孿生再到機器人訓(xùn)練等無數(shù)關(guān)鍵商業(yè)用例提供了動力。

歷史上充滿了空間智能發(fā)揮核心作用、定義文明進(jìn)程的時刻。在古希臘，埃拉托斯特尼將影子轉(zhuǎn)化為幾何學(xué)——在太陽直射賽伊尼城的那一刻，他在亞歷山大城測量出7度的夾角——從而計算出地球的周長。哈格里夫斯的“珍妮紡紗機”通過一個空間上的洞察徹底改變了紡織制造業(yè)：將多個紡錘并排布置在一個框架中，使得一個工人能同時紡多根線，生產(chǎn)效率提高了八倍。沃森和克里克通過親手搭建3D分子模型發(fā)現(xiàn)了DNA的結(jié)構(gòu)，他們不斷擺弄金屬片和金屬絲，直到堿基對的空間排列“咔噠”一聲完美契合。在每一個案例中，當(dāng)科學(xué)家和發(fā)明家需要操縱物體、構(gòu)想結(jié)構(gòu)并對物理空間進(jìn)行推理時，空間智能都推動了文明的進(jìn)步——這些都無法僅用文字來捕捉。

空間智能是我們認(rèn)知構(gòu)建的腳手架。無論我們是被動觀察還是主動創(chuàng)造，它都在發(fā)揮作用。它驅(qū)動著我們的推理和規(guī)劃，即使是在最抽象的話題上。它對于我們互動的方式至關(guān)重要——無論是口頭的還是身體的，無論是與同伴還是與環(huán)境本身。雖然我們大多數(shù)人并非每天都在揭示像埃拉托斯特尼那樣的宇宙真理，但我們?nèi)粘５乃伎挤绞脚c他并無二致——通過感官感知復(fù)雜的世界，然后利用一種直觀的、基于物理和空間術(shù)語的理解來領(lǐng)悟其運作方式。

不幸的是，今天的AI還不能像這樣思考。

過去幾年確實取得了巨大進(jìn)步。多模態(tài)大語言模型（MLLM）通過海量的多媒體數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行訓(xùn)練，引入了一些基礎(chǔ)的空間意識，今天的AI可以分析圖片、回答相關(guān)問題，并生成超逼真的圖像和短視頻。通過傳感器和觸覺技術(shù)的突破，我們最先進(jìn)的機器人已經(jīng)開始能夠在高度受限的環(huán)境中操縱物體和工具。

然而，坦率地說，AI的空間能力遠(yuǎn)未達(dá)到人類水平。其局限性很快就會顯現(xiàn)。在估算距離、方向和大小，或通過從新角度重新生成來“精神上”旋轉(zhuǎn)物體等任務(wù)上，最先進(jìn)的MLLM模型的表現(xiàn)很少能超過隨機猜測。它們無法導(dǎo)航迷宮、識別捷徑或預(yù)測基本的物理現(xiàn)象。AI生成的視頻——雖然處于初級階段，但確實非?？帷趲酌腌姾缶褪ミB貫性。

雖然當(dāng)前最先進(jìn)的AI在閱讀、寫作、研究和數(shù)據(jù)模式識別方面表現(xiàn)出色，但這些相同的模型在表示或與物理世界互動時，卻存在根本性的局限。我們對世界的看法是整體的——不僅是我們正在看什么，還包括萬物在空間上如何關(guān)聯(lián)，這意味著什么，以及為何重要。通過想象、推理、創(chuàng)造和互動——而不僅僅是描述——來理解這一切，正是空間智能的力量。沒有它，AI就與它試圖理解的物理現(xiàn)實脫節(jié)。它無法有效地駕駛我們的汽車，引導(dǎo)我們家庭和醫(yī)院中的機器人，為學(xué)習(xí)和娛樂創(chuàng)造全新的沉浸式和互動式體驗，或加速材料科學(xué)和醫(yī)學(xué)領(lǐng)域的發(fā)現(xiàn)。

哲學(xué)家維特根斯坦曾寫道：“我語言的極限，意味著我世界的極限?！蔽也皇钦軐W(xué)家。但我知道，至少對AI而言，世界遠(yuǎn)不止于語言?？臻g智能代表了超越語言的前沿——這種能力連接了想象、感知和行動，并為機器真正提升人類生活開辟了可能性，從醫(yī)療保健到創(chuàng)造力，從科學(xué)發(fā)現(xiàn)到日常輔助。

AI的下一個十年：構(gòu)建真正具備空間智能的機器

那么，我們?nèi)绾螛?gòu)建具備空間智能的AI？如何才能讓模型具備埃拉托斯特尼的洞察力進(jìn)行推理，擁有工業(yè)設(shè)計師的精度進(jìn)行工程設(shè)計，懷揣故事講述者的想象力進(jìn)行創(chuàng)造，并能像第一反應(yīng)者一樣流暢地與環(huán)境互動？

構(gòu)建具備空間智能的AI需要比LLM更宏大的目標(biāo)：世界模型，這是一種新型的生成式模型，其理解、推理、生成以及與語義、物理、幾何和動態(tài)上都極為復(fù)雜的世界（無論是虛擬還是真實）進(jìn)行交互的能力，遠(yuǎn)非當(dāng)今的LLM所能及。這個領(lǐng)域尚處于起步階段，當(dāng)前的方法從抽象推理模型到視頻生成系統(tǒng)不一而足。World Labs于2024年初成立，正是基于這樣的信念：基礎(chǔ)性方法仍在建立之中，這使其成為未來十年的決定性挑戰(zhàn)。

在這個新興領(lǐng)域，最重要的是確立指導(dǎo)發(fā)展的原則。對于空間智能，我通過三個核心能力來定義世界模型：

1.生成性 (Generative)：世界模型能夠生成在感知、幾何和物理上保持一致的世界

解鎖空間理解和推理的世界模型，也必須能夠生成它們自己的模擬世界。它們必須能夠生成無窮無盡、多種多樣的模擬世界，這些世界遵循語義或感知的指令，同時在幾何、物理和動態(tài)上保持一致——無論其代表的是真實空間還是虛擬空間。研究界正在積極探索這些世界應(yīng)該以隱式還是顯式的方式來表示其內(nèi)在的幾何結(jié)構(gòu)。此外，除了強大的潛在表示，我相信一個通用的世界模型，其輸出還必須能夠為許多不同的用例生成一個明確、可觀察的世界狀態(tài)。特別是，它對當(dāng)前狀態(tài)的理解必須與它的過去——即導(dǎo)致當(dāng)前狀態(tài)的世界先前狀態(tài)——連貫地聯(lián)系在一起。

2.多模態(tài) (Multimodal)：世界模型天生就是多模態(tài)的

正如動物和人類一樣，世界模型應(yīng)該能夠處理多種形式的輸入——在生成式AI領(lǐng)域被稱為“提示”。給定部分信息——無論是圖像、視頻、深度圖、文本指令、手勢還是動作——世界模型都應(yīng)預(yù)測或生成盡可能完整的世界狀態(tài)。這要求模型既能以真實視覺的保真度處理視覺輸入，又能以同等的能力解釋語義指令。這使得智能體和人類都能通過多樣化的輸入與模型就世界進(jìn)行交流，并反過來接收多樣化的輸出。

3.交互性 (Interactive)：世界模型能夠根據(jù)輸入的動作輸出下一個狀態(tài)

最后，如果動作和/或目標(biāo)是世界模型提示的一部分，其輸出必須包含世界的下一個狀態(tài)，無論是隱式還是顯式表示。當(dāng)只給定一個動作（無論有無目標(biāo)狀態(tài)）作為輸入時，世界模型應(yīng)該產(chǎn)生一個與世界先前狀態(tài)、預(yù)期的目標(biāo)狀態(tài)（如果有的話）及其語義含義、物理定律和動態(tài)行為相一致的輸出。隨著具備空間智能的世界模型在推理和生成能力上變得更加強大和穩(wěn)健，可以想見，在給定目標(biāo)的情況下，世界模型本身不僅能預(yù)測世界的下一個狀態(tài)，還能根據(jù)新狀態(tài)預(yù)測下一個動作。

這個挑戰(zhàn)的范圍超過了AI以往面臨的任何挑戰(zhàn)。

雖然語言是人類認(rèn)知中純粹的生成現(xiàn)象，但世界的運作規(guī)則要復(fù)雜得多。例如，在地球上，引力支配著運動，原子結(jié)構(gòu)決定了光如何產(chǎn)生顏色和亮度，無數(shù)的物理定律約束著每一次互動。即使是最奇幻、最有創(chuàng)意的世界，也是由遵循其自身物理定律和動態(tài)行為的空間物體和智能體組成的。要將所有這些——語義、幾何、動態(tài)和物理——一致地協(xié)調(diào)起來，需要全新的方法。表示一個世界的維度，遠(yuǎn)比表示像語言這樣的一維序列信號要復(fù)雜得多。要實現(xiàn)能夠提供我們?nèi)祟愃碛械哪欠N通用能力的世界模型，需要克服幾個巨大的技術(shù)障礙。在World Labs，我們的研究團隊正致力于為實現(xiàn)這一目標(biāo)取得根本性進(jìn)展。

以下是我們當(dāng)前研究課題的一些例子：

一個新的、通用的訓(xùn)練任務(wù)函數(shù)：定義一個像LLM中的“下一詞元預(yù)測”一樣簡潔優(yōu)雅的通用任務(wù)函數(shù)，一直是世界模型研究的核心目標(biāo)。其輸入和輸出空間的復(fù)雜性使得這樣一個函數(shù)在形式化上 inherently more difficult。盡管仍有許多待探索之處，但這個目標(biāo)函數(shù)和相應(yīng)的表示必須反映幾何和物理定律，尊重世界模型作為想象與現(xiàn)實的根基表示的根本性質(zhì)。

大規(guī)模訓(xùn)練數(shù)據(jù)：訓(xùn)練世界模型需要比文本整理復(fù)雜得多的數(shù)據(jù)。好消息是：海量的數(shù)據(jù)源已經(jīng)存在?；ヂ?lián)網(wǎng)規(guī)模的圖像和視頻集合代表了豐富、可及的訓(xùn)練材料——挑戰(zhàn)在于開發(fā)能夠從這些二維圖像或視頻幀信號（即RGB）中提取更深層次空間信息的算法。過去十年的研究已經(jīng)顯示了語言模型中數(shù)據(jù)量和模型大小之間的規(guī)模法則的力量；解鎖世界模型的關(guān)鍵在于構(gòu)建能夠以相當(dāng)規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。此外，我不會低估高質(zhì)量合成數(shù)據(jù)以及像深度和觸覺信息等額外模態(tài)的力量。它們在訓(xùn)練過程的關(guān)鍵步驟中補充了互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)。但前進(jìn)的道路依賴于更好的傳感器系統(tǒng)、更穩(wěn)健的信號提取算法，以及更強大的神經(jīng)模擬方法。

新的模型架構(gòu)和表示學(xué)習(xí)：世界模型研究將不可避免地推動模型架構(gòu)和學(xué)習(xí)算法的進(jìn)步，特別是超越當(dāng)前的MLLM和視頻擴散范式。這兩種范式通常將數(shù)據(jù)標(biāo)記化為一維或二維序列，這使得簡單的空間任務(wù)——如數(shù)清短視頻中不重復(fù)的椅子數(shù)量，或記住一個小時前房間的樣子——變得不必要地困難。替代架構(gòu)可能會有所幫助，例如用于標(biāo)記化、上下文和記憶的3D或4D感知方法。例如，在World Labs，我們最近關(guān)于一個名為RTFM的實時生成式基于幀的模型的工作就展示了這種轉(zhuǎn)變，它使用基于空間的幀作為一種空間記憶形式，以實現(xiàn)高效的實時生成，同時保持生成世界的持久性。

顯然，在通過世界建模完全解鎖空間智能之前，我們?nèi)匀幻媾R著艱巨的挑戰(zhàn)。這項研究不僅僅是理論練習(xí)，它是新一類創(chuàng)意和生產(chǎn)力工具的核心引擎。World Labs內(nèi)部的進(jìn)展令人鼓舞。我們最近與少數(shù)用戶分享了Marble的一瞥，這是有史以來第一個可以通過多模態(tài)輸入提示來生成和維持一致3D環(huán)境的世界模型，供用戶和故事講述者在他們的創(chuàng)意工作流中探索、互動和進(jìn)一步構(gòu)建。我們正在努力使其盡快向公眾開放！

Marble只是我們創(chuàng)造一個真正具備空間智能的世界模型的第一步。隨著進(jìn)展加速，研究人員、工程師、用戶和商界領(lǐng)袖都開始認(rèn)識到其非凡的潛力。下一代世界模型將使機器能夠在全新的水平上實現(xiàn)空間智能——這一成就將解鎖當(dāng)今AI系統(tǒng)中仍然普遍缺乏的核心能力。

使用世界模型為人們構(gòu)建一個更美好的世界

發(fā)展AI的動機至關(guān)重要。作為幫助開啟現(xiàn)代AI時代的科學(xué)家之一，我的動機一直很明確：AI必須增強人類的能力，而不是取代人類。多年來，我一直致力于將AI的開發(fā)、部署和治理與人類需求對齊。如今，技術(shù)烏托邦和末日論的極端敘事比比皆是，但我繼續(xù)持有一種更務(wù)實的觀點：AI由人開發(fā)，由人使用，由人治理。它必須始終尊重人的能動性和尊嚴(yán)。它的魔力在于擴展我們的能力；使我們更有創(chuàng)造力、更緊密連接、更高效、更有成就感?？臻g智能代表了這一愿景——AI賦能人類創(chuàng)造者、護理人員、科學(xué)家和夢想家，去實現(xiàn)曾經(jīng)不可能的事情。這一信念驅(qū)動著我將空間智能視為AI下一個偉大前沿的承諾。

空間智能的應(yīng)用橫跨不同的時間線。創(chuàng)意工具正在涌現(xiàn)——World Labs的Marble已經(jīng)將這些能力交到了創(chuàng)作者和故事講述者的手中。隨著我們完善感知與行動之間的循環(huán)，機器人學(xué)代表了一個雄心勃勃的中期目標(biāo)。最具變革性的科學(xué)應(yīng)用將需要更長時間，但有望對人類的繁榮產(chǎn)生深遠(yuǎn)影響。

在所有這些時間線上，有幾個領(lǐng)域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力，遠(yuǎn)非一個團隊或一家公司所能實現(xiàn)。它需要整個AI生態(tài)系統(tǒng)的參與——研究人員、創(chuàng)新者、企業(yè)家、公司，甚至政策制定者——共同努力實現(xiàn)一個共同的愿景。但這個愿景值得追求。以下是這個未來所包含的內(nèi)容：

創(chuàng)意：為故事敘述和沉浸式體驗注入超能力

“創(chuàng)造力是智慧在玩耍?！?這是我個人英雄阿爾伯特·愛因斯坦最喜歡的名言之一。早在書面語言出現(xiàn)之前，人類就在講述故事——將它們畫在洞穴墻壁上，代代相傳，在共同的敘事上建立起整個文化。故事是我們理解世界、跨越時空連接、探索人性意義的方式，最重要的是，在生活中尋找意義，在自我中發(fā)現(xiàn)愛。今天，空間智能有潛力改變我們創(chuàng)造和體驗敘事的方式，這種方式既尊重其根本重要性，又將其影響從娛樂擴展到教育，從設(shè)計擴展到建筑。

World Labs的Marble平臺將把前所未有的空間能力和編輯可控性交到電影制作人、游戲設(shè)計師、建筑師和各類故事講述者的手中，讓他們能夠快速創(chuàng)建和迭代完全可探索的3D世界，而無需傳統(tǒng)3D設(shè)計軟件的開銷。創(chuàng)造性行為仍然像以往一樣至關(guān)重要和人性化；AI工具只是放大和加速了創(chuàng)作者所能達(dá)到的成就。這包括：

新維度的敘事體驗：電影制作人和游戲設(shè)計師正在使用Marble來創(chuàng)造完整的世界，而不受預(yù)算或地理位置的限制，探索各種在傳統(tǒng)制作流程中難以處理的場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊，我們正在接近一種全新的互動體驗，它融合了藝術(shù)、模擬和游戲——個性化的世界，其中任何人，而不僅僅是工作室，都可以創(chuàng)造并棲居于自己的故事中。隨著將概念和故事板提升為完整體驗的更新、更快捷方式的興起，敘事將不再局限于單一媒介，創(chuàng)作者可以自由地在無數(shù)的界面和平臺上構(gòu)建具有共同主線貫穿的世界。

通過設(shè)計進(jìn)行空間敘事：基本上，每一個制造出來的物體或建造的空間，在其實體創(chuàng)造之前都必須在虛擬3D中進(jìn)行設(shè)計。這個過程迭代性強，且在時間和金錢上都成本高昂。有了具備空間智能的模型，建筑師可以在投入數(shù)月進(jìn)行設(shè)計之前快速可視化結(jié)構(gòu)，漫步于尚未存在的空間中——這本質(zhì)上是在講述我們可能如何生活、工作和聚集的故事。工業(yè)和時尚設(shè)計師可以立即將想象轉(zhuǎn)化為形式，探索物體如何與人體和空間互動。

全新的沉浸式與交互式體驗：體驗本身是我們作為一個物種創(chuàng)造意義的最深層次的方式之一。在整個人類歷史上，只有一個單一的3D世界：我們所有人共享的物理世界。直到最近幾十年，通過游戲和早期的虛擬現(xiàn)實（VR），我們才開始瞥見共享我們自己創(chuàng)造的替代世界意味著什么?，F(xiàn)在，空間智能與新的設(shè)備形態(tài)（如VR和擴展現(xiàn)實（XR）頭顯及沉浸式顯示器）相結(jié)合，以前所未有的方式提升了這些體驗。我們正接近一個未來，在這個未來中，踏入完全實現(xiàn)的多維世界將像打開一本書一樣自然?？臻g智能使世界構(gòu)建不再僅僅是擁有專業(yè)制作團隊的工作室的專利，而是對個人創(chuàng)作者、教育者和任何有愿景分享的人開放。

機器人：具身智能的實踐

從昆蟲到人類，動物都依賴空間智能來理解、導(dǎo)航和與它們的世界互動。機器人也不例外。具備空間感知能力的機器自該領(lǐng)域誕生之初就是其夢想，這也包括我自己與我的學(xué)生和合作者在斯坦福研究實驗室的工作。這也是為什么我如此興奮于利用World Labs正在構(gòu)建的這類模型來實現(xiàn)它們的可能性。

通過世界模型擴展機器人學(xué)習(xí)：機器人學(xué)習(xí)的進(jìn)展取決于一個可行的訓(xùn)練數(shù)據(jù)的可擴展解決方案。考慮到機器人必須學(xué)習(xí)去理解、推理、規(guī)劃和互動的巨大狀態(tài)空間，許多人推測，需要結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬和真實世界的人類演示捕捉，才能真正創(chuàng)造出具有泛化能力的機器人。但與語言模型不同，當(dāng)今機器人研究的訓(xùn)練數(shù)據(jù)稀缺。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高，世界模型的輸出可以迅速縮小模擬與現(xiàn)實之間的差距。這反過來將有助于在無數(shù)狀態(tài)、互動和環(huán)境的模擬中訓(xùn)練機器人。

成為伙伴與合作者：機器人作為人類的合作者，無論是輔助實驗室的科學(xué)家，還是協(xié)助獨居的老人，都可以擴充急需更多勞動力和生產(chǎn)力的部分勞動力市場。但要做到這一點，需要空間智能能夠感知、推理、規(guī)劃和行動，同時——這一點最重要——與人類的目標(biāo)和行為保持共情對齊。例如，一個實驗室機器人可以處理儀器，讓科學(xué)家專注于需要靈巧或推理的任務(wù)，而一個家庭助理可以幫助老年人做飯，而不會削弱他們的快樂或自主性。能夠預(yù)測與此期望一致的下一個狀態(tài)甚至可能是下一個動作的、真正具備空間智能的世界模型，對于實現(xiàn)這一目標(biāo)至關(guān)重要。

擴展具身智能的形式：人形機器人在我們?yōu)樽约簶?gòu)建的世界中扮演著一個角色。但創(chuàng)新的全部好處將來自更多樣化的設(shè)計：運送藥物的納米機器人，在狹窄空間中穿行的軟體機器人，以及為深海或外太空建造的機器。無論它們的形式如何，未來的空間智能模型都必須整合這些機器人所處的環(huán)境以及它們自身的具身感知和運動。但開發(fā)這些機器人的一個關(guān)鍵挑戰(zhàn)是，在這些各種各樣的具身形態(tài)因素中缺乏訓(xùn)練數(shù)據(jù)。世界模型將在模擬數(shù)據(jù)、訓(xùn)練環(huán)境和這些工作的基準(zhǔn)測試任務(wù)中發(fā)揮關(guān)鍵作用。

更長遠(yuǎn)的未來：科學(xué)、醫(yī)療和教育

除了創(chuàng)意和機器人應(yīng)用，空間智能的深遠(yuǎn)影響還將延伸到AI能夠以拯救生命和加速發(fā)現(xiàn)的方式增強人類能力的領(lǐng)域。我下面重點介紹三個可以帶來深刻變革的應(yīng)用領(lǐng)域，盡管不言而喻，空間智能的用例在更多行業(yè)中都非常廣泛。

在科學(xué)研究中，具備空間智能的系統(tǒng)可以模擬實驗，并行測試假說，并探索人類無法進(jìn)入的環(huán)境——從深海到遙遠(yuǎn)的行星。這項技術(shù)可以改變氣候科學(xué)和材料研究等領(lǐng)域的計算建模。通過將多維模擬與真實世界數(shù)據(jù)收集相結(jié)合，這些工具可以降低計算門檻，并擴展每個實驗室所能觀察和理解的范圍。

在醫(yī)療健康領(lǐng)域，空間智能將重塑從實驗室到病床的一切。在斯坦福，我的學(xué)生和合作者多年來一直與醫(yī)院、老年護理機構(gòu)和居家患者合作。這段經(jīng)歷讓我確信了空間智能在此處的變革潛力。AI可以通過多維建模分子相互作用來加速藥物發(fā)現(xiàn)，通過幫助放射科醫(yī)生在醫(yī)學(xué)影像中發(fā)現(xiàn)模式來增強診斷，并實現(xiàn)環(huán)境監(jiān)測系統(tǒng)，在不取代治愈所需的人際連接的情況下支持患者和護理人員，更不用說機器人在許多不同環(huán)境中幫助我們的醫(yī)護人員和患者的潛力。

在教育領(lǐng)域，空間智能可以實現(xiàn)沉浸式學(xué)習(xí)，使抽象或復(fù)雜的概念變得具體可感，并創(chuàng)造對于我們大腦和身體學(xué)習(xí)方式至關(guān)重要的迭代體驗。在AI時代，更快、更有效的學(xué)習(xí)和再培訓(xùn)的需求對學(xué)齡兒童和成年人都尤為重要。學(xué)生可以在多維度中探索細(xì)胞機制或漫步于歷史事件。教師獲得了通過互動環(huán)境進(jìn)行個性化教學(xué)的工具。專業(yè)人士——從外科醫(yī)生到工程師——可以在逼真的模擬中安全地練習(xí)復(fù)雜技能。

在所有這些領(lǐng)域中，可能性是無限的，但目標(biāo)始終如一：AI增強人類專長，加速人類發(fā)現(xiàn)，并放大人類關(guān)懷——而不是取代作為人類核心的判斷力、創(chuàng)造力和同理心。

結(jié)論

過去十年見證了AI成為一個全球現(xiàn)象，以及技術(shù)、經(jīng)濟乃至地緣政治的轉(zhuǎn)折點。但作為一名研究者、教育者，以及現(xiàn)在的創(chuàng)業(yè)者，最能激勵我的，仍然是圖靈在75年前提出的那個問題背后的精神。我仍然分享著他的那份驚奇感。正是這種感覺，讓我每天都為空間智能的挑戰(zhàn)而充滿活力。

歷史上第一次，我們有望構(gòu)建出與物理世界如此協(xié)調(diào)的機器，以至于我們可以依賴它們作為我們應(yīng)對所面臨的最大挑戰(zhàn)的真正伙伴。無論是在實驗室中加速我們對疾病的理解，徹底改變我們講述故事的方式，還是在我們因疾病、受傷或年老而最脆弱的時刻支持我們，我們正處在一個技術(shù)突破的關(guān)口，這項技術(shù)將提升我們最珍視的生活品質(zhì)。這是一個關(guān)于更深刻、更豐富、更強大生活的愿景。

在自然界于近五億年前在遠(yuǎn)古動物身上釋放出空間智能的第一縷微光之后，我們有幸成為可能很快將同樣能力賦予機器的那一代技術(shù)人員——并且有幸利用這些能力造福世界各地的人們。沒有空間智能，我們關(guān)于真正智能機器的夢想就不會完整

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.