国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李飛飛萬字長文解讀:AI真正的下一站是“空間智能” | 前沿在線

0
分享至



大模型會寫詩寫代碼,卻不會倒水開門。李飛飛萬字長文指出:AI真正的下一站,不是語言智能,而是空間智能——理解世界、預(yù)測變化、參與行動,才是真正的智能革命。

編輯:前沿在線 編輯部


為什么我們在討論“空間智能”?

過去幾年,大模型的快速演化讓我們習(xí)慣了一個“說得越來越像人”的AI世界。它能寫文案、能畫圖、能編代碼、能演講、能陪聊,仿佛進(jìn)入了智能的黃金時代。

但當(dāng)我們真正問自己一個問題:“這些AI,能走進(jìn)現(xiàn)實世界嗎?”答案依然是——還遠(yuǎn)著呢。


它能寫出十種喝水的方式,卻倒不好一杯水。它能生成極美的臥室圖,卻連“開門進(jìn)房間”的物理結(jié)構(gòu)都不理解。它能模擬醫(yī)生問診,卻不會扶老人過馬路。


這并不是AI不夠聰明,而是它的“聰明”停留在一種語言層面:理解句子、預(yù)測詞語、生成符號。這種“認(rèn)知智能”,其實是一種“屏幕里的智能”。


李飛飛這篇萬字長文中反復(fù)強(qiáng)調(diào)一點:AI 革命走到了一個被語言“封印”的天花板上。

現(xiàn)在的 AI,看起來能言善道,但實際上像“黑暗中的文豪”,對世界毫無經(jīng)驗。她直言:“AI 只會描述世界,但它不會生活在世界里?!?/strong>

而要讓 AI 真正走進(jìn)物理世界,具備“行動力”,空間智能(Spatial Intelligence)就是我們必須跨過的下一個臺階。


人類智能的起點:不是語言,而是空間

我們通常以為,語言是人類智能的起點。

但李飛飛提醒我們,事實剛好相反。一個嬰兒在學(xué)會說話之前,就已經(jīng)會做很多事了:抓玩具、摸輪廓、扔?xùn)|西、摔東西,甚至盯著水滴滾落發(fā)呆。


表面上看,這只是好奇心,實際上,這是空間智能在生長——通過觀察與試錯,嬰兒在“身體力行”地理解世界的規(guī)則。

空間智能,不是用來說話的,而是用來活著的。

在日常生活中,我們每一項動作,幾乎都建立在對空間的直覺理解上:停車靠邊,要判斷輪胎與馬路牙子的距離;接住飛來的鑰匙,需要估算速度與軌跡;

不看杯子倒水,依賴的是對物體形狀和位置的記憶。這些事情我們做得毫不費力,但背后都涉及復(fù)雜的空間計算。


更重要的是,人類文明的重大躍遷,往往就靠這類“空間感”觸發(fā)靈感。古希臘的埃拉托色尼通過觀察太陽影子的角度,測出了地球的圓周;


18世紀(jì)的哈格里夫斯將多個紡錘并列排布,創(chuàng)造出紡織效率提升八倍的“珍妮紡織機(jī)”;沃森與克里克則在擺弄鐵絲模型中,摸索出 DNA 的雙螺旋結(jié)構(gòu)——這些偉大發(fā)現(xiàn),不是“算”出來的,是“看”出來、是“擺”出來的,是靠空間理解而非語言邏輯建構(gòu)的。

李飛飛說得直接:空間智能是行動的基礎(chǔ),而不是表達(dá)的產(chǎn)物。語言幫助我們溝通,但空間理解才幫助我們生存、創(chuàng)造和進(jìn)步。


為什么當(dāng)前AI不具備空間智能?

盡管我們已經(jīng)擁有了令人驚嘆的AI語言能力、圖像生成能力和代碼編寫能力,但在“理解世界”這件事上,它依然像個紙上談兵的孩子。

李飛飛指出,今天的大模型,學(xué)到的是“語言的皮膚”,不是“世界的骨架”。


這是因為當(dāng)前AI的主流學(xué)習(xí)方式,都是基于“符號”——文字、標(biāo)簽、像素,它們學(xué)習(xí)的是詞與詞的關(guān)系、圖與圖的相似度,而不是物體與空間之間的真實互動關(guān)系。


它們并不知道“水會流下來”、“影子在光照下會變形”、“玻璃是透明的”,它們只是根據(jù)訓(xùn)練數(shù)據(jù)生成“看起來像的東西”。

于是你會發(fā)現(xiàn),AI生成的圖像雖然精美,但常出現(xiàn)奇怪的物理錯誤:水從杯子外流出來、影子方向反了、手有六根指頭。這不是算力的問題,而是“沒有物理常識”的問題。


再看機(jī)器人,表面上已經(jīng)能抓取、能行走,甚至能“裝配零件”但這些行為大多建立在“高度定制”的環(huán)境里——比如專用軌道、特定參數(shù)、腳本控制。換個場景,它就“手忙腳亂”。

機(jī)器人無法像人類那樣在復(fù)雜環(huán)境中做出泛化判斷,更無法真正理解“物體之間的關(guān)系”和“下一步該怎么做”。


AI在屏幕里看起來很聰明,一旦進(jìn)入現(xiàn)實世界,就會暴露“空間盲點”:不會判斷距離、不會識別障礙、不會預(yù)測結(jié)果。

李飛飛說,這是因為它們沒有“住在世界里”,它們只是“讀取了關(guān)于世界的描述”。而要讓AI真正走出“屏幕邊界”,它需要的不只是看圖說話,而是“參與世界”的能力。

這,正是空間智能的起點。


世界模型:讓 AI 走出屏幕,進(jìn)入現(xiàn)實

如果說語言智能讓AI學(xué)會“說話”,那么世界模型(World Models),就是讓AI開始“做事”的關(guān)鍵。

李飛飛在文章中提出,空間智能的核心載體,不是多模態(tài)大模型,而是具備世界建模能力的生成模型——這是一種全新的AI范式,它不再只生成文本、圖片或視頻,而是生成一個“可以持續(xù)存在、可以交互變化”的世界。

AI第一次從“語言描述”走向“物理構(gòu)建”。


她將世界模型的核心能力,拆解為三大要素,我們可以用一張“人類類比表”來幫助理解:


這背后的轉(zhuǎn)變非常關(guān)鍵:傳統(tǒng)大模型訓(xùn)練的是“下一句文本”,世界模型訓(xùn)練的則是“下一幀世界狀態(tài)”。

這意味著,AI不再是復(fù)述者、描述者,而是變成了一個“參與者”、“構(gòu)建者”,甚至是“行動者”。


想象一下:你告訴AI“請幫我布置一個適合8人聚會的客廳”,它不僅生成圖紙,而是直接生成一個完整、可交互的3D場景;

你說“把水壺拿給我”,它不是理解“語言”,而是理解你與水壺的空間關(guān)系,預(yù)測路徑、避障、抓取、遞交——這一切依賴的不是語言,而是具身感知+空間推理+行為預(yù)測的整體智能。

李飛飛創(chuàng)立的 World Labs 正是在做這件事。


他們開發(fā)的 Marble 系統(tǒng),正是一個能接收多模態(tài)輸入(語言、圖像、動作指令),并生成一致的3D交互場景的世界模型系統(tǒng)。

Marble 不再只是“生成畫面”,而是能“維持一個世界”,讓用戶在里面走動、探索、建構(gòu)。

世界模型,是讓AI走出屏幕、進(jìn)入現(xiàn)實的通道。它將AI從“會講故事”進(jìn)化為“能創(chuàng)造世界”的新物種。


空間智能會重做哪些行業(yè)?

當(dāng)AI擁有空間智能,它就不再是一個“內(nèi)容生成器”,而變成一個“現(xiàn)實世界的協(xié)作伙伴”。李飛飛認(rèn)為,這種能力的落地將帶來四個最重要的行業(yè)變革方向:

1)創(chuàng)意產(chǎn)業(yè):從“畫畫”到“構(gòu)建世界”

過去的AI創(chuàng)作,是生成圖像、生成音樂、生成短片——它們都停留在二維屏幕里。空間智能的加入,讓創(chuàng)作從“表現(xiàn)”走向“構(gòu)建”。

導(dǎo)演可以直接生成一個可進(jìn)入、可漫游的虛擬電影場景,而不是靠綠幕加后期;


游戲開發(fā)者可以快速模擬多種物理互動機(jī)制,加速劇情與環(huán)境的迭代;

建筑師可以提前“走進(jìn)”尚未建成的空間,對結(jié)構(gòu)與流線做出更人性化的優(yōu)化。

這一切的前提是:AI能理解空間邏輯、構(gòu)建三維世界,并支持與人互動。


李飛飛舉了一個生動的例子:過去我們是用圖紙“想象房子”,未來我們是“在AI生成的房子里走一圈再決定改哪里”。

2)機(jī)器人:從工具,走向協(xié)作伙伴

如果說空間智能是AI的核心感知能力,那么機(jī)器人就是其行動延伸。

未來的機(jī)器人,不再是機(jī)械臂、倉儲搬運、流水線操作員,而是具備空間理解力的“行動者”與“助手”。

比如家庭助手:它能理解你“剛喝完水”的動作,就去廚房拿水壺補(bǔ)滿杯子,而不是等你下指令;


比如實驗室助手:它能自主協(xié)作實驗流程,把研究者從重復(fù)性的操作中解放出來。

這種“看懂人+理解空間+預(yù)測行動”的協(xié)作能力,正是空間智能帶來的躍遷。

AI不是拿來“替你做事”的,而是“跟你一起做事”的。

3)科學(xué)與醫(yī)療:多維模擬,加速突破

很多科學(xué)突破依賴的是空間結(jié)構(gòu)的直覺。

例如藥物開發(fā),研究者需要理解分子的三維結(jié)合機(jī)制;材料設(shè)計,需要評估結(jié)構(gòu)變化對性能的影響;醫(yī)療影像,需要醫(yī)生在腦海中重建器官與病變位置。


空間智能 AI,可以在這些環(huán)節(jié)中扮演關(guān)鍵角色它可以模擬無數(shù)可能的空間組合,加速推演,縮短試錯周期。甚至在手術(shù)前,AI可以基于患者CT/MRI影像生成全息模型,讓醫(yī)生“預(yù)演手術(shù)”,提升成功率。

這是“從理解語言,到理解物體”的跨越,也是AI真正參與到“理解世界結(jié)構(gòu)”的開始。

4)教育:抽象知識,沉浸式體驗

空間智能,還會深刻改變教育方式。過去我們靠想象力“理解原子結(jié)構(gòu)”“看懂地球公轉(zhuǎn)”“學(xué)習(xí)電磁場的方向”。

但對于很多學(xué)生來說,這些“看不到、摸不著”的知識,始終停留在記憶層面。

而擁有空間智能的AI,可以構(gòu)建沉浸式教學(xué)場景:讓你走進(jìn)細(xì)胞內(nèi)部、繞著DNA結(jié)構(gòu)飛一圈、在古戰(zhàn)場上穿梭、在數(shù)學(xué)幾何中旋轉(zhuǎn)。

知識不再是講述的,而是“進(jìn)入”的。


教育變成一場“空間旅程”,不僅提升理解,更激發(fā)好奇心。

李飛飛總結(jié)得很清晰:空間智能不是炫技,而是真正的“新型生產(chǎn)力”。它重構(gòu)的不只是工具,而是重塑“人如何與世界互動”的方式。


為什么李飛飛強(qiáng)調(diào)“增強(qiáng)人,而不是替代人”?

當(dāng)“AI會說話”這件事變得越來越自然,我們開始焦慮“它是不是要搶我的工作”。

而李飛飛在這篇萬字長文中反復(fù)強(qiáng)調(diào)一個基本立場:“AI不是來替代人類的,而是來增強(qiáng)人類的。”


語言模型的崛起,讓不少職業(yè)變得不安全——寫PPT、寫郵件、寫腳本似乎都可以被AI代勞。

但這正是“語言智能”的局限:它只能處理符號,無法理解動機(jī)、情境與人本身。

而空間智能帶來的AI,則走向了另一個方向:從“替代”走向“協(xié)作”。李飛飛舉了許多例子:

  • 在護(hù)理機(jī)構(gòu)中,AI可以協(xié)助照護(hù)人員進(jìn)行環(huán)境監(jiān)控、搬運、提醒等操作,但不會剝奪老人的生活自主權(quán)。


  • 在科研實驗室中,AI機(jī)器人可以代替人類完成高度重復(fù)、標(biāo)準(zhǔn)化的操作,但發(fā)現(xiàn)科學(xué)規(guī)律的核心思考,依然由人來完成。


  • 在設(shè)計創(chuàng)作中,AI可以幫助快速生成空間草圖與可交互場景,但真正有情感、有文化語義的“表達(dá)”,仍然需要人類的靈感點燃。


這是一個本質(zhì)性的理念差異:語言AI是“你說我做”,而空間AI是“你做我?guī)汀薄?/strong>

后者強(qiáng)調(diào)配合、補(bǔ)位與增強(qiáng)——正如她所說的:“AI 的價值,不是取代人類的勞動,而是讓我們做到原本做不到的事?!?/strong>


這種“人機(jī)協(xié)作”的價值觀,不僅是李飛飛20多年AI研究者身份的總結(jié),也是她在創(chuàng)業(yè)中親自實踐的底層信念。

她不談AGI神話,也不渲染AI末日,她只關(guān)心一件事:AI要如何為人類賦能,為人的尊嚴(yán)、能力與選擇,留出更大的空間。


AI 的未來不是更好說話,而是更會做事

我們已經(jīng)見證了語言智能帶來的“認(rèn)知革命”——從GPT-3到GPT-4,再到多模態(tài)模型如GPT-4V、Claude 2、Gemini Ultra,AI變得越來越能說、越來越能寫。

但李飛飛在這篇文章中提醒我們:真正的智能,不止于“說得漂亮”,更要“做得正確”。


空間智能,將開啟另一場“行動革命”。它讓AI不再是坐在屏幕后講道理的“語文課代表”,而是走到現(xiàn)實中和人協(xié)同的“實習(xí)工程師”、”助理科學(xué)家“、”家庭照護(hù)員“、”創(chuàng)意導(dǎo)演“。

我們可以這樣描繪未來AI的三重躍遷

  1. 從閱讀世界:AI能理解人類語言、圖像、視頻等符號信息;

  2. 到理解世界:AI能建立空間模型、推理物理關(guān)系、預(yù)測動態(tài);

  3. 再到建設(shè)世界:AI能創(chuàng)造、操作、協(xié)同,成為現(xiàn)實行動的參與者。


這正是從“Words”走向“Worlds”的進(jìn)化。

而這場進(jìn)化,也正是李飛飛提出的下一站AI空間智能的意義所在。

不是為了打造另一個神一樣的AGI,而是為了讓人類更自由地生活、創(chuàng)造與關(guān)懷;不是為了更快地替代人類,而是更深地增強(qiáng)人類。

真正的智能,不是能背多少書,而是能用知識去觸碰現(xiàn)實。

真正的未來,不是更好說話,而是更會做事。


真正的AI,不是造一個語言的宇宙,而是建一個理解世界、參與世界的“新物種”。

這,就是李飛飛心中,AI的下一站。

完整原文:


空間智能:人工智能的下一個前沿

1950 年,當(dāng)計算機(jī)還僅能完成自動化算術(shù)運算和簡單邏輯處理時,艾倫?圖靈提出了一個至今仍發(fā)人深省的問題:機(jī)器能思考嗎?他憑借非凡的想象力預(yù)見了一個未來 —— 智能或許并非天生,而是可以被創(chuàng)造出來。


這一洞見隨后催生了一場名為人工智能(AI)的不懈科學(xué)探索。

在我投身人工智能領(lǐng)域的 25 年間,圖靈的愿景始終激勵著我。但我們究竟離這個目標(biāo)有多近?答案并非簡單一句話能概括。

如今,大型語言模型(LLMs)等領(lǐng)先 AI 技術(shù)已開始改變我們獲取和運用抽象知識的方式。

然而,它們就像 “黑暗中的文字大師”—— 言辭流利卻缺乏經(jīng)驗,學(xué)識淵博卻脫離現(xiàn)實根基。


空間智能將徹底重塑我們創(chuàng)造和交互真實與虛擬世界的方式,為敘事、創(chuàng)意、機(jī)器人技術(shù)、科學(xué)發(fā)現(xiàn)等領(lǐng)域帶來革命性變革。

這正是人工智能的下一個前沿陣地。

自進(jìn)入該領(lǐng)域以來,對視覺和空間智能的追求一直是指引我的北極星。

這也是我為何花費數(shù)年時間構(gòu)建 ImageNet 的原因 ——它是首個大規(guī)模視覺學(xué)習(xí)與基準(zhǔn)測試數(shù)據(jù)集,與神經(jīng)網(wǎng)絡(luò)算法、圖形處理器(GPUs)等現(xiàn)代計算技術(shù)共同構(gòu)成了現(xiàn)代人工智能誕生的三大核心支柱。

這也是我在斯坦福大學(xué)的學(xué)術(shù)實驗室過去十年間致力于將計算機(jī)視覺與機(jī)器人學(xué)習(xí)相結(jié)合的初衷。


更重要的是,這正是我與聯(lián)合創(chuàng)始人賈斯汀?約翰遜克里斯托夫?拉斯納、本?米爾登霍爾在一年多前創(chuàng)立 World Labs 的核心使命:首次全面實現(xiàn)這一可能性。

在本文中,我將闡釋空間智能的定義、其核心價值,以及我們?nèi)绾螛?gòu)建能夠解鎖空間智能的世界模型 ——這些模型將重塑創(chuàng)意表達(dá)、具身智能與人類進(jìn)步的軌跡。

空間智能:人類認(rèn)知的基石

人工智能從未如此令人振奮。以大型語言模型為代表的生成式 AI 已從研究實驗室走進(jìn)日常生活,成為數(shù)十億人用于創(chuàng)意創(chuàng)作、提升效率和溝通交流的工具。


它們展現(xiàn)出了曾被認(rèn)為不可能實現(xiàn)的能力,能夠輕松生成連貫文本、海量代碼、照片級逼真圖像,甚至短視頻片段。

人工智能是否會改變世界已不再是疑問 ——無論以何種合理標(biāo)準(zhǔn)衡量,它已然做到了。

然而,仍有諸多目標(biāo)遠(yuǎn)未達(dá)成。自主機(jī)器人的愿景雖引人遐想,卻仍停留在推測階段,與未來學(xué)家長期承諾的 “日常必備品” 相去甚遠(yuǎn);在疾病治療、新材料發(fā)現(xiàn)、粒子物理等領(lǐng)域?qū)崿F(xiàn)大規(guī)模加速研究的夢想,多半尚未實現(xiàn);

而真正理解并賦能人類創(chuàng)造者的 AI—— 無論是學(xué)習(xí)復(fù)雜分子化學(xué)概念的學(xué)生、可視化空間設(shè)計的建筑師、構(gòu)建虛擬世界的電影人,還是追求沉浸式虛擬體驗的普通人 —— 仍遙不可及。

要弄清為何這些能力難以實現(xiàn),我們需要先審視空間智能的進(jìn)化歷程,以及它如何塑造我們對世界的理解。

視覺長期以來一直是人類智能的基石,但其力量源自更為根本的能力。

早在動物學(xué)會筑巢、撫育后代、語言溝通或建立文明之前,這種從外部世界獲取信息的簡單行為(無論是一絲光線還是一種觸感),就搭建起了感知與生存之間的橋梁。


隨著世代更迭,這座橋梁不斷強(qiáng)化和完善,層層神經(jīng)元在此基礎(chǔ)上形成了神經(jīng)系統(tǒng),用于解讀世界并協(xié)調(diào)有機(jī)體與環(huán)境的互動。

因此,許多科學(xué)家推測,感知與行動構(gòu)成了驅(qū)動智能進(jìn)化的核心循環(huán),也是自然界創(chuàng)造人類這一“感知、學(xué)習(xí)、思考、行動”終極載體的基礎(chǔ)。

空間智能在定義人類與物理世界的交互方式中扮演著基礎(chǔ)性角色。

我們每天的普通行為都離不開它:通過想象保險杠與路沿之間逐漸縮小的間距來停車、接住從房間另一頭扔來的鑰匙、在擁擠的人行道上穿梭而不發(fā)生碰撞、或是閉著眼睛就能熟練地把咖啡倒進(jìn)杯子里。

在更極端的情況下,消防員在濃煙彌漫的坍塌建筑中導(dǎo)航,憑借對結(jié)構(gòu)穩(wěn)定性和生存概率的瞬間判斷,通過手勢、肢體語言以及無法用語言替代的專業(yè)直覺進(jìn)行溝通;


而嬰兒在學(xué)會說話前的數(shù)月甚至數(shù)年里,正是通過與環(huán)境的嬉戲互動來認(rèn)識世界。

這一切都源于直覺,自然而然地發(fā)生 —— 而這種熟練度,機(jī)器至今尚未掌握。

空間智能也是人類想象力與創(chuàng)造力的基礎(chǔ)。從遠(yuǎn)古洞穴壁畫到現(xiàn)代電影,再到沉浸式電子游戲,敘事者在腦海中構(gòu)建出獨特而豐富的世界,并通過多種視覺媒介將其呈現(xiàn)給他人。

無論是孩子們在沙灘上堆沙堡,還是在電腦上玩《我的世界》,基于空間的想象力都是真實或虛擬世界中交互體驗的核心。


在眾多行業(yè)應(yīng)用中,對物體、場景和動態(tài)交互環(huán)境的模擬,支撐著從工業(yè)設(shè)計、數(shù)字孿生到機(jī)器人訓(xùn)練等無數(shù)關(guān)鍵業(yè)務(wù)場景。

歷史上諸多定義文明進(jìn)程的時刻,空間智能都發(fā)揮了核心作用。

古希臘時期,埃拉托色尼將影子轉(zhuǎn)化為幾何工具 —— 在賽伊尼的太陽直射無影之時,測量亞歷山大城的日影角度為 7 度 —— 從而計算出地球周長;


哈格里夫斯的 “珍妮紡紗機(jī)” 通過一項空間洞察革新了紡織業(yè):將多個紡錘并排安裝在一個機(jī)架上,使一名工人能同時紡多根線,生產(chǎn)力提升了 8 倍;沃森和克里克通過搭建三維分子模型,不斷調(diào)整金屬片和金屬絲的位置,最終找到了堿基對的空間排列方式,從而發(fā)現(xiàn)了 DNA 的雙螺旋結(jié)構(gòu)。


在這些案例中,當(dāng)科學(xué)家和發(fā)明家需要操控物體、可視化結(jié)構(gòu)并對物理空間進(jìn)行推理時,空間智能成為推動文明前進(jìn)的動力——而這些能力,僅靠文本是無法實現(xiàn)的。

空間智能是人類認(rèn)知構(gòu)建的基石。無論是被動觀察還是主動創(chuàng)造,它都在發(fā)揮作用;它驅(qū)動著我們的推理和規(guī)劃,即便面對最抽象的議題亦是如此;它對于我們與他人、與環(huán)境的交互(無論是語言交流還是物理接觸)至關(guān)重要。


雖然大多數(shù)人并非每天都能像埃拉托色尼那樣揭示新的真理,但我們的思考方式本質(zhì)上是相通的 —— 通過感官感知復(fù)雜世界,再利用對其物理空間規(guī)律的直覺理解來賦予世界意義。

遺憾的是,如今的人工智能尚未具備這樣的思考能力。

過去幾年,AI 領(lǐng)域確實取得了巨大進(jìn)步。多模態(tài)大型語言模型(MLLMs)通過海量文本數(shù)據(jù)與多媒體數(shù)據(jù)的聯(lián)合訓(xùn)練,已具備初步的空間感知能力,如今的 AI 能夠分析圖像、回答相關(guān)問題,并生成超逼真的圖像和短視頻。


借助傳感器和觸覺技術(shù)的突破,最先進(jìn)的機(jī)器人已能在高度受限的環(huán)境中操控物體和工具。

但坦誠而言,AI 的空間能力與人類水平仍相去甚遠(yuǎn),其局限性也暴露無遺。

最先進(jìn)的多模態(tài)大型語言模型在估計距離、方位和尺寸,或是通過從新角度重建物體來實現(xiàn) “心理旋轉(zhuǎn)” 等任務(wù)上,表現(xiàn)幾乎與隨機(jī)猜測無異;

它們無法導(dǎo)航迷宮、識別捷徑,也無法預(yù)測基本的物理現(xiàn)象;AI 生成的視頻雖尚處萌芽階段且極具吸引力,但往往在幾秒后就會失去連貫性。

盡管當(dāng)前最先進(jìn)的 AI 在閱讀、寫作、研究和數(shù)據(jù)模式識別等方面表現(xiàn)出色,但這些模型在表征或交互物理世界時,仍存在根本性局限。

人類對世界的認(rèn)知是整體性的—— 不僅包括我們所看到的事物,還包括萬物之間的空間關(guān)系、其內(nèi)在意義及重要性。


通過想象、推理、創(chuàng)造和交互(而非僅僅通過描述)來理解世界,這正是空間智能的力量所在。缺乏空間智能,AI 便與它試圖理解的物理現(xiàn)實脫節(jié),無法有效駕駛汽車、在家庭和醫(yī)院中引導(dǎo)機(jī)器人、創(chuàng)造全新的沉浸式學(xué)習(xí)和娛樂交互方式,也無法加速材料科學(xué)和醫(yī)學(xué)領(lǐng)域的發(fā)現(xiàn)進(jìn)程。

哲學(xué)家維特根斯坦曾寫道:“我的語言的界限,意味著我的世界的界限?!?/strong>我并非哲學(xué)家,但我深知,至少對于人工智能而言,世界遠(yuǎn)不止于文字。


空間智能代表著語言之外的前沿領(lǐng)域 —— 它連接想象力、感知與行動,為機(jī)器真正改善人類生活開辟了可能性,從醫(yī)療健康到創(chuàng)意創(chuàng)作,從科學(xué)發(fā)現(xiàn)到日常輔助,無所不包。

人工智能的下一個十年:構(gòu)建真正具備空間智能的機(jī)器

那么,我們該如何構(gòu)建具備空間智能的人工智能?通往能夠像埃拉托色尼那樣洞察、像工業(yè)設(shè)計師那樣精準(zhǔn)設(shè)計、像敘事者那樣富有想象力、像急救人員那樣熟練與環(huán)境交互的模型,路徑何在?

構(gòu)建空間智能 AI 需要比大型語言模型更宏大的目標(biāo):世界模型(world models)。


這是一種新型生成式模型,其理解、推理、生成和交互語義、物理、幾何及動態(tài)復(fù)雜世界(無論是虛擬還是真實)的能力,遠(yuǎn)超當(dāng)前的大型語言模型。

該領(lǐng)域尚處萌芽階段,現(xiàn)有方法涵蓋從抽象推理模型到視頻生成系統(tǒng)等多個方向。World Labs 于 2024 年初成立,正是基于這樣一種信念:基礎(chǔ)方法仍在建立之中,這將是未來十年人工智能領(lǐng)域的核心挑戰(zhàn)。

在這一新興領(lǐng)域,最重要的是確立指導(dǎo)發(fā)展的原則。對于空間智能,我將世界模型定義為具備以下三項核心能力:

生成性:能夠生成具備感知、幾何和物理一致性的世界

解鎖空間理解與推理能力的世界模型,必須能夠自主生成模擬世界。它們需要能夠根據(jù)語義或感知指令,生成無限多樣的模擬世界,同時保持幾何、物理和動態(tài)的一致性 ——無論所表征的是真實空間還是虛擬空間。


研究界正在積極探索,這些世界是否應(yīng)該基于內(nèi)在幾何結(jié)構(gòu)進(jìn)行隱式或顯式表征。此外,除了強(qiáng)大的潛在表征能力,我認(rèn)為通用世界模型的輸出還應(yīng)能夠為多種應(yīng)用場景生成明確、可觀測的世界狀態(tài)。

特別是,它對當(dāng)前狀態(tài)的理解必須與過去(即導(dǎo)致當(dāng)前狀態(tài)的先前世界狀態(tài))保持連貫。

多模態(tài):天生具備多模態(tài)處理能力

與動物和人類一樣,世界模型應(yīng)能夠處理多種形式的輸入(在生成式 AI 領(lǐng)域被稱為 “提示詞”)。給定部分信息 ——無論是圖像、視頻、深度圖、文本指令、手勢還是動作—— 世界模型都應(yīng)能預(yù)測或生成盡可能完整的世界狀態(tài)。


這需要模型既能以真實視覺的保真度處理視覺輸入,又能同等熟練地解讀語義指令。這使得智能體和人類都能通過多樣化輸入與模型進(jìn)行關(guān)于世界的溝通,并獲得多樣化輸出。

交互性:能夠根據(jù)輸入動作輸出下一狀態(tài)

最后,如果動作和 / 或目標(biāo)是世界模型提示詞的一部分,其輸出必須包括世界的下一狀態(tài)(無論是隱式還是顯式表征)。


當(dāng)僅輸入動作(無論是否包含目標(biāo)狀態(tài))時,世界模型應(yīng)生成與世界先前狀態(tài)、預(yù)期目標(biāo)狀態(tài)(如有)、語義意義、物理定律和動態(tài)行為一致的輸出。

隨著具備空間智能的世界模型在推理和生成能力上變得更加強(qiáng)大和穩(wěn)健,未來當(dāng)給定目標(biāo)時,世界模型或許不僅能預(yù)測世界的下一狀態(tài),還能基于新狀態(tài)預(yù)測后續(xù)動作。

這一挑戰(zhàn)的規(guī)模遠(yuǎn)超人工智能以往面臨的任何任務(wù)。

語言是人類認(rèn)知中一種純粹的生成現(xiàn)象,但世界的運行遵循著復(fù)雜得多的規(guī)則。例如,在地球上,重力支配著運動,原子結(jié)構(gòu)決定了光線如何產(chǎn)生顏色和亮度,無數(shù)物理定律約束著每一次交互。

即便是最奇幻、最具創(chuàng)意的世界,其構(gòu)成的空間物體和智能體也必須遵循定義它們的物理定律和動態(tài)行為。


要始終如一地協(xié)調(diào)語義、幾何、動態(tài)和物理等多方面因素,需要全新的方法。

表征一個世界的維度復(fù)雜度,遠(yuǎn)高于語言這種一維序列信號。

要實現(xiàn)具備人類級通用能力的世界模型,需要克服多個嚴(yán)峻的技術(shù)障礙。在 World Labs,我們的研究團(tuán)隊正致力于朝著這一目標(biāo)取得基礎(chǔ)性進(jìn)展。

以下是我們當(dāng)前的部分研究方向:

一種新的通用訓(xùn)練任務(wù)函數(shù)

定義一種像大型語言模型中的下一個詞預(yù)測那樣簡單優(yōu)雅的通用任務(wù)函數(shù),長期以來一直是世界模型研究的核心目標(biāo)。


其輸入和輸出空間的復(fù)雜性使得這種函數(shù)的設(shè)計本身極具挑戰(zhàn)性。盡管仍有大量探索空間,但這一目標(biāo)函數(shù)及相應(yīng)表征必須反映幾何和物理定律,彰顯世界模型作為想象力與現(xiàn)實基礎(chǔ)表征的本質(zhì)。

大規(guī)模訓(xùn)練數(shù)據(jù)

訓(xùn)練世界模型需要比文本數(shù)據(jù)復(fù)雜得多的數(shù)據(jù)集。好消息是,海量數(shù)據(jù)來源已經(jīng)存在:互聯(lián)網(wǎng)規(guī)模的圖像和視頻集合構(gòu)成了豐富且易于獲取的訓(xùn)練材料——關(guān)鍵挑戰(zhàn)在于開發(fā)算法,能夠從這些二維圖像或視頻幀信號(即 RGB)中提取更深層次的空間信息。


過去十年的研究已經(jīng)證明了語言模型中數(shù)據(jù)量與模型規(guī)模之間的縮放定律;而世界模型的關(guān)鍵突破,在于構(gòu)建能夠以相當(dāng)規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。

此外,高質(zhì)量合成數(shù)據(jù)以及深度、觸覺等額外模態(tài)數(shù)據(jù)的潛力也不容小覷。它們在訓(xùn)練過程的關(guān)鍵階段對互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)起到補(bǔ)充作用。

但前進(jìn)的道路取決于更先進(jìn)的傳感器系統(tǒng)、更穩(wěn)健的信號提取算法,以及更強(qiáng)大的神經(jīng)模擬方法。

新的模型架構(gòu)與表征學(xué)習(xí)

世界模型研究必將推動模型架構(gòu)和學(xué)習(xí)算法的進(jìn)步,尤其是突破當(dāng)前多模態(tài)大型語言模型和視頻擴(kuò)散模型的范式。


這兩種模型通常將數(shù)據(jù) token 化為一維或二維序列,這使得簡單的空間任務(wù)(如統(tǒng)計短視頻中獨特椅子的數(shù)量,或記住一小時前房間的樣子)變得不必要地復(fù)雜。

替代架構(gòu)可能會有所幫助,例如用于 token 化、上下文處理和記憶的三維或四維感知方法。

例如,在 World Labs,我們最近推出的實時生成式幀基模型(RTFM)就體現(xiàn)了這一轉(zhuǎn)變 —— 它利用基于空間的幀作為空間記憶形式,實現(xiàn)高效的實時生成,同時保持生成世界的連續(xù)性。

顯然,要通過世界模型完全解鎖空間智能,我們?nèi)悦媾R巨大挑戰(zhàn)。但這項研究并非純理論探索,它是新型創(chuàng)意和生產(chǎn)力工具的核心引擎。而 World Labs 取得的進(jìn)展令人鼓舞。


我們最近向少數(shù)用戶展示了 Marble——首個能夠通過多模態(tài)輸入提示,生成并維持一致的三維環(huán)境,供用戶和敘事者在創(chuàng)意工作流中探索、交互和進(jìn)一步構(gòu)建的世界模型。我們正努力盡快將其向公眾開放!

Marble 只是我們構(gòu)建真正具備空間智能世界模型的第一步。隨著進(jìn)展加速,研究人員、工程師、用戶和企業(yè)領(lǐng)導(dǎo)者都開始認(rèn)識到其非凡潛力。

下一代世界模型將使機(jī)器在空間智能方面達(dá)到全新高度 —— 這一成就將解鎖當(dāng)前 AI 系統(tǒng)中仍大量缺失的關(guān)鍵能力。

利用世界模型構(gòu)建更美好的人類世界


人工智能的發(fā)展動力至關(guān)重要。

作為助力開啟現(xiàn)代人工智能時代的科學(xué)家之一,我的動機(jī)始終明確:人工智能必須增強(qiáng)人類能力,而非取代人類。多年來,我一直致力于使人工智能的開發(fā)、部署和治理與人類需求保持一致。

如今,技術(shù)烏托邦和世界末日的極端敘事層出不窮,但我依然秉持更務(wù)實的觀點:人工智能由人類開發(fā)、供人類使用、受人類監(jiān)管。

它必須始終尊重人類的能動性和尊嚴(yán)。其魅力在于拓展我們的能力邊界,讓我們更具創(chuàng)造力、更緊密相連、更高效且更有成就感。

空間智能正是這一愿景的體現(xiàn):人工智能賦能人類創(chuàng)造者、護(hù)理人員、科學(xué)家和夢想家,實現(xiàn)曾經(jīng)看似不可能的目標(biāo)。

這一信念驅(qū)動著我將空間智能視為人工智能的下一個偉大前沿。

空間智能的應(yīng)用跨越不同時間維度。

創(chuàng)意工具已嶄露頭角——World Labs 的 Marble 已將這些能力交付給創(chuàng)造者和敘事者;

機(jī)器人技術(shù)代表著中期的宏大愿景,我們正在完善感知與行動之間的循環(huán);而最具變革性的科學(xué)應(yīng)用雖需更長時間,但有望對人類福祉產(chǎn)生深遠(yuǎn)影響。

在所有這些時間維度中,有幾個領(lǐng)域尤其有望重塑人類能力。這需要集體的巨大努力,遠(yuǎn)非單個團(tuán)隊或公司所能獨立完成。

它需要整個人工智能生態(tài)系統(tǒng)的參與,研究人員、創(chuàng)新者、企業(yè)家、企業(yè)乃至政策制定者,朝著共同的愿景努力。

但這一愿景值得我們追求。

以下是未來的發(fā)展圖景:

創(chuàng)意領(lǐng)域:賦能敘事與沉浸式體驗

“創(chuàng)造力是智能在享受樂趣。”這是我個人偶像阿爾伯特?愛因斯坦的名言之一。


早在文字出現(xiàn)之前,人類就開始講故事 —— 將其繪制在洞穴墻壁上、代代相傳、在共同敘事的基礎(chǔ)上構(gòu)建整個文化。

故事是我們理解世界、跨越時空連接彼此、探索人性意義的方式,更重要的是,它讓我們在生活和愛中找到歸屬感。

如今,空間智能有望以尊重故事核心價值的方式,重塑我們創(chuàng)造和體驗敘事的方式,并將其影響從娛樂拓展至教育、設(shè)計和建筑等領(lǐng)域。

World LabsMarble平臺將前所未有的空間能力和編輯可控性交付給電影人、游戲設(shè)計師、建筑師和各類敘事者,使他們能夠快速創(chuàng)建和迭代可完全探索的三維世界,而無需承擔(dān)傳統(tǒng)三維設(shè)計軟件的高昂成本。

創(chuàng)意行為本身仍然保持著人類特有的生命力和核心地位;AI 工具只是放大和加速了創(chuàng)造者的成就。

這包括:

多維度敘事體驗

電影人和游戲設(shè)計師正利用 Marble 擺脫預(yù)算和地理限制,自由構(gòu)建整個世界,探索在傳統(tǒng)制作流程中難以實現(xiàn)的場景和視角。


隨著不同媒體和娛樂形式的界限逐漸模糊,我們正邁向一種融合藝術(shù)、模擬和游戲的全新交互式體驗 —— 個性化世界,讓任何人(而非僅僅是工作室)都能創(chuàng)造和棲息于自己的故事中。

隨著將概念和故事板快速轉(zhuǎn)化為完整體驗的方法不斷涌現(xiàn),敘事將不再局限于單一媒介,創(chuàng)造者可以自由構(gòu)建跨越多種平臺和載體、擁有共同主線的世界。

設(shè)計中的空間敘事

本質(zhì)上,幾乎所有人造物體或建筑空間在物理創(chuàng)建之前,都需要在虛擬三維環(huán)境中進(jìn)行設(shè)計。


這一過程具有高度迭代性,且在時間和金錢上成本高昂。借助具備空間智能的模型,建筑師可以在投入數(shù)月設(shè)計時間之前快速可視化結(jié)構(gòu),在尚未存在的空間中漫步 ——本質(zhì)上是講述我們可能如何生活、工作和聚集的故事。

工業(yè)設(shè)計師和時裝設(shè)計師可以將想象力瞬間轉(zhuǎn)化為實體形態(tài),探索物體與人體和空間的交互方式。

全新的沉浸式交互體驗

體驗本身是人類創(chuàng)造意義的最深刻方式之一。

在整個人類歷史中,我們只有一個統(tǒng)一的三維世界:我們共同生活的物理世界。

直到最近幾十年,通過游戲和早期虛擬現(xiàn)實(VR)技術(shù),我們才開始瞥見共享自己創(chuàng)造的替代世界的可能性。


如今,空間智能與虛擬現(xiàn)實(VR)、擴(kuò)展現(xiàn)實(XR)頭顯和沉浸式顯示器等新型設(shè)備相結(jié)合,以前所未有的方式提升了這些體驗。

我們正邁向一個未來。

前沿動態(tài)
前沿大會

前沿人物

「在看」,給前前加雞腿

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
剛奪冠就1輪游?塔猜亞首輪戰(zhàn)克星,或延續(xù)不勝紀(jì)錄,丁俊暉受益

剛奪冠就1輪游?塔猜亞首輪戰(zhàn)克星,或延續(xù)不勝紀(jì)錄,丁俊暉受益

劉姚堯的文字城堡
2026-03-25 08:38:43
45歲柳巖近況曝光!身材模樣變化大,被傳與大學(xué)初戀復(fù)合歸隱田園

45歲柳巖近況曝光!身材模樣變化大,被傳與大學(xué)初戀復(fù)合歸隱田園

章眽八卦
2026-03-25 11:30:37
寶格麗晚宴:劉亦菲兜不住副乳,海瑟薇手歪曲,金智媛生圖沒眼看

寶格麗晚宴:劉亦菲兜不住副乳,海瑟薇手歪曲,金智媛生圖沒眼看

嫹筆牂牂
2026-03-25 07:14:56
阿森納重磅目標(biāo)曝光!6000 萬飛翼愿主動加盟,廷貝爾岌岌可危

阿森納重磅目標(biāo)曝光!6000 萬飛翼愿主動加盟,廷貝爾岌岌可危

奶蓋熊本熊
2026-03-26 05:08:11
日本一留學(xué)生的帖子爆火!日本網(wǎng)友對不同國家和顏值的外國留學(xué)生,態(tài)度竟然差這么多?!

日本一留學(xué)生的帖子爆火!日本網(wǎng)友對不同國家和顏值的外國留學(xué)生,態(tài)度竟然差這么多?!

東京新青年
2026-03-25 18:41:06
中俄聯(lián)手都鎮(zhèn)不住高市早苗,知名學(xué)者判斷:中日一個月內(nèi)或有空戰(zhàn)

中俄聯(lián)手都鎮(zhèn)不住高市早苗,知名學(xué)者判斷:中日一個月內(nèi)或有空戰(zhàn)

安安說
2026-03-02 13:42:53
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
怕淪為大國盤中餐?新加坡赴京當(dāng)面砸場子!劍指中國一個特殊權(quán)利

怕淪為大國盤中餐?新加坡赴京當(dāng)面砸場子!劍指中國一個特殊權(quán)利

阿雹娛樂
2026-03-26 03:09:09
足壇1夜3重磅:薩拉赫宣布離隊,瓜帥離開曼城,格列茲曼簽新約!

足壇1夜3重磅:薩拉赫宣布離隊,瓜帥離開曼城,格列茲曼簽新約!

郝小小看體育
2026-03-25 09:05:25
華爾街大鱷稱:黃金正重演2008年劇本!金價將漲到11400美元?

華爾街大鱷稱:黃金正重演2008年劇本!金價將漲到11400美元?

王爺說圖表
2026-03-25 22:43:39
特朗普稱已向伊朗提出和平方案,中方回應(yīng)

特朗普稱已向伊朗提出和平方案,中方回應(yīng)

中國網(wǎng)
2026-03-25 16:04:21
成都又一幼兒園突然宣告將停辦,家長著急了

成都又一幼兒園突然宣告將停辦,家長著急了

天府觀察
2026-03-25 16:13:49
王毅判斷沒錯,短短三天中方見識了:比利時的虛偽、西班牙的真誠

王毅判斷沒錯,短短三天中方見識了:比利時的虛偽、西班牙的真誠

墨印齋
2026-03-26 01:52:13
淚目!張雪峰與001號員工萬霞:從3500月薪到不離不棄看哭無數(shù)人

淚目!張雪峰與001號員工萬霞:從3500月薪到不離不棄看哭無數(shù)人

喜歡歷史的阿繁
2026-03-25 20:44:01
馬筱梅低調(diào)為汪寶辦滿月,親戚一概沒出鏡,汪小菲盛贊岳母很辛苦

馬筱梅低調(diào)為汪寶辦滿月,親戚一概沒出鏡,汪小菲盛贊岳母很辛苦

小娛樂悠悠
2026-03-25 10:28:48
皇馬5-1曼城后0-1負(fù)弱旅,百年頑疾拖垮球隊

皇馬5-1曼城后0-1負(fù)弱旅,百年頑疾拖垮球隊

徐纗老表哥
2026-03-25 07:21:41
默克爾說得沒錯,俄烏沖突最大輸家已出現(xiàn):不是俄羅斯不是美國

默克爾說得沒錯,俄烏沖突最大輸家已出現(xiàn):不是俄羅斯不是美國

聞香閣
2026-03-25 22:35:54
伊朗倡議中東建立無美以聯(lián)盟,并質(zhì)問有美軍基地的國家:如果面臨以色列侵略,美國人會為你們開一槍嗎?

伊朗倡議中東建立無美以聯(lián)盟,并質(zhì)問有美軍基地的國家:如果面臨以色列侵略,美國人會為你們開一槍嗎?

瀟湘晨報
2026-03-25 16:26:29
“國家隊”275億持倉浮現(xiàn),新進(jìn)36股重倉化工、有色!險資繼續(xù)加倉紅利股

“國家隊”275億持倉浮現(xiàn),新進(jìn)36股重倉化工、有色!險資繼續(xù)加倉紅利股

時代周報
2026-03-25 21:50:25
黃仁勛呼吁所有人使用AI提升自己:大學(xué)生畢業(yè)時都要成AI專家

黃仁勛呼吁所有人使用AI提升自己:大學(xué)生畢業(yè)時都要成AI專家

快科技
2026-03-24 22:46:04
2026-03-26 06:19:00
前沿在線 incentive-icons
前沿在線
前沿在線官方賬號,關(guān)注AI、機(jī)器人、智能車等前沿領(lǐng)域;
125文章數(shù) 1235關(guān)注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關(guān)停

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場畫面披露

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場畫面披露

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

家居
游戲
房產(chǎn)
本地
公開課

家居要聞

輕奢堇天府 小資情調(diào)

PS6升級動力遭質(zhì)疑!玩家或當(dāng)“PS5釘子戶”

房產(chǎn)要聞

41億!259畝!建學(xué)?!齺嗊@個大城更,最新方案曝光!

本地新聞

來永泰同安 赴一場春天的約會

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版