国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

李飛飛李曼玲團(tuán)隊(duì)發(fā)布空間理論:AI的空間智能還在三歲小孩階段

0
分享至

1983 年,心理學(xué)家設(shè)計(jì)了一個(gè)簡單實(shí)驗(yàn):Sally 把彈珠放進(jìn)籃子然后離開,Anne 趁她不注意把彈珠挪到盒子里。問題是,Sally 回來后,會(huì)去哪里找彈珠?

四歲孩子能答對:去籃子,因?yàn)?Sally 不知道彈珠被移走了。三歲以下的孩子會(huì)答錯(cuò),他們分不清“自己知道”和“別人知道”的區(qū)別。這就是發(fā)展心理學(xué)里著名的 Sally-Anne 測試,它標(biāo)定了人類認(rèn)知發(fā)展的一道重要分水嶺。這種能力被稱為“心智理論”(Theory of Mind)。


(動(dòng)圖來源:受訪者)

四十多年后,美國斯坦福大學(xué)李飛飛教授和美國西北大學(xué)李曼玲教授團(tuán)隊(duì)把這個(gè)實(shí)驗(yàn)搬到了 AI 面前,只不過這次考察的是物理世界。他們設(shè)計(jì)了一套叫“空間理論”(Theory of Space)的評估框架,目的是想弄清楚一件事:當(dāng)大模型必須自己去探索、去發(fā)現(xiàn)、去拼湊信息時(shí),它的空間智能究竟進(jìn)化到了哪一級?


圖 | 從左到右:李飛飛、李曼玲(來源:資料圖)

從被動(dòng)答題到主動(dòng)探索,AI 掉了好幾個(gè)臺(tái)階

傳統(tǒng)測試 AI 空間能力的方式,有點(diǎn)像開卷考試。給一張圖,問里面物體的位置關(guān)系,模型答對了就算過關(guān)。前沿模型在這種測試?yán)锏梅侄疾诲e(cuò),讓人以為它們已經(jīng)挺懂空間了。

但李飛飛和李曼玲團(tuán)隊(duì)覺得這還不夠。真實(shí)世界不是開卷考,沒有人會(huì)把所有信息一次性擺在你面前。你推開一扇門只看到客廳一角,走過走廊瞥見臥室一角,要理解整個(gè)房子的布局,你得把這些碎片拼起來,還得知道自己還有什么沒看到,下一步該往哪看。

研究中,他們設(shè)計(jì)了一套測試環(huán)境,有文本版和視覺版兩種,讓模型在多個(gè)房間里主動(dòng)探索,收集信息,構(gòu)建腦海中的認(rèn)知地圖。過去評估只看最終答對答錯(cuò),這篇工作第一次能給 AI 大腦拍 X 光,他們讓模型顯式探測這張認(rèn)知地圖,在每個(gè)時(shí)間步輸出自己認(rèn)為物體都在什么位置。


(動(dòng)圖來源:受訪者)

結(jié)果發(fā)現(xiàn),模型在被動(dòng)模式下表現(xiàn)尚可,一旦切換到主動(dòng)探索模式,性能應(yīng)聲而落。以視覺世界為例,GPT-5.2 從 57.1% 掉到 46.0%,Gemini-3 Pro 從 60.5% 掉到 57.3%,而這就是他們所說的主動(dòng)被動(dòng)差距。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

差距從哪來?他們用一套精細(xì)的診斷工具來逐層拆解模型的認(rèn)知過程。

第一個(gè)問題是效率低。規(guī)則代理平均 9 步就能覆蓋整個(gè)環(huán)境,基礎(chǔ)模型往往需要 14 步以上,而且覆蓋率更低。GPT-5.2 有個(gè)毛病,一看到門就沖過去,經(jīng)常忘了把當(dāng)前房間看完。Gemini-3 Pro 好一些,會(huì)先原地旋轉(zhuǎn)觀察再移動(dòng),但也沒有規(guī)則代理高效。

第二個(gè)問題更致命。他們設(shè)計(jì)了一個(gè)錯(cuò)誤信念測試,在模型完成初次探索后,悄悄移動(dòng)或旋轉(zhuǎn)幾個(gè)物體。當(dāng)模型再次經(jīng)過并直接觀察到新布局時(shí),一個(gè)令人不安的現(xiàn)象出現(xiàn)了:GPT-5.2 在視覺世界中的朝向慣性高達(dá) 68.9%,即近七成的情況下仍然堅(jiān)持報(bào)告物體的舊朝向。同一模型在文本世界中慣性只有 5.5%。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

其實(shí)這就是信念慣性,模型親眼看到變化,但內(nèi)部表征缺乏足夠的可塑性來完成舊信念到新信念的覆寫,也就是它無法更新自己的認(rèn)知。這和 Sally-Anne 測試?yán)锶龤q幼兒的失敗何其相似,只不過幼兒失敗是因?yàn)檎J(rèn)知能力尚未發(fā)育,模型失敗是因?yàn)閮?nèi)部機(jī)制存在缺陷。

認(rèn)知地圖會(huì)漂移,視覺世界更高難

他們還發(fā)現(xiàn)一個(gè)叫信念漂移的現(xiàn)象。那就是模型在初次觀察物體時(shí)的感知誤差雖然存在,不過還沒嚴(yán)重到影響整體判斷。真正的問題是,這份初始保真度無法在后續(xù)步驟中維持。隨著探索推進(jìn)、信息增多,那些早先正確的記憶開始悄然退化,被后續(xù)步驟的錯(cuò)誤更新覆蓋,或者在拼接不同房間的信息時(shí)產(chǎn)生內(nèi)部矛盾。


(動(dòng)圖來源:受訪者)

最終認(rèn)知地圖的低準(zhǔn)確率,在很大程度上來自拼不住。模型缺乏穩(wěn)定維護(hù)長程空間信息的機(jī)制,新的觀察不僅沒有鞏固已有認(rèn)知,反而在不斷侵蝕它。這個(gè)特點(diǎn)可能人類也存在,比如筆者曾去參觀故宮,一個(gè)宮殿接一個(gè)地觀看,而這些宮殿又很相似,那么就很有可能看了下一個(gè)、忘記了上一個(gè)。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

但是,這些問題在視覺世界中會(huì)被放大。人類被試在視覺世界中的準(zhǔn)確率高達(dá) 96.4%(使用簡單工具后達(dá) 99.0%),在文本世界中是 86.7%。模型卻正好相反,文本表現(xiàn)遠(yuǎn)好于視覺。視覺信息對人類而言是天然、直覺的空間認(rèn)知通道,而當(dāng)前多模態(tài)模型尚未學(xué)會(huì)從像素中高效提取空間結(jié)構(gòu)。

尤其是物體朝向識(shí)別,模型幾乎接近隨機(jī)猜測。這解釋了為什么它們在視角推理任務(wù)(如 Perspective Taking)上得分慘淡,大約只有 36% 的準(zhǔn)確率。

而這套評估框架的價(jià)值,在于它把空間智能從會(huì)不會(huì)答這道題的二元判定,變成了一個(gè)可以逐級診斷的連續(xù)過程。它告訴我們的不只是模型還差多遠(yuǎn),更是它具體在哪一級開始失靈。

如果模型連“記住剛才看到的沙發(fā)在哪”都做不到,那指望它在一個(gè)真實(shí)環(huán)境里主動(dòng)導(dǎo)航,比如在災(zāi)區(qū)搜救中定位幸存者,還有很長的路要走。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

目前,相關(guān)論文已被機(jī)器學(xué)習(xí)頂級會(huì)議 ICLR 2026 接收。論文、代碼和數(shù)據(jù)集都已開源。該研究由西北大學(xué)、斯坦福大學(xué)、華盛頓大學(xué)與康奈爾大學(xué)聯(lián)合完成。研究團(tuán)隊(duì)里集齊了多位《麻省理工科技評論》“35 歲以下科技創(chuàng)新 35 人”的入選者,李曼玲教授是 2025 年全球入選者,美國斯坦福大學(xué)的吳佳俊教授和美國華盛頓大學(xué)的 Ranjay Krishna 教授分別入選了 2024 與 2025 年度亞太區(qū)名單。

參考資料:

相關(guān)論文 https://theory-of-space.github.io/paper/Theory_of_Space.pdf

https://limanling.github.io/

https://profiles.stanford.edu/fei-fei-li

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
西方眼紅了!科威特豪擲300億,將國運(yùn)全盤托付,指名只要中國干

西方眼紅了!科威特豪擲300億,將國運(yùn)全盤托付,指名只要中國干

閱識(shí)
2026-04-10 10:02:18
搶在鄭麗文返臺(tái)前,解放軍定調(diào)統(tǒng)一,長鷹8升空,航程超三千公里

搶在鄭麗文返臺(tái)前,解放軍定調(diào)統(tǒng)一,長鷹8升空,航程超三千公里

影孖看世界
2026-04-10 23:09:08
48架F-35壓境,美日撕破臉!王毅專機(jī)直插平壤,中朝抄了美軍后路

48架F-35壓境,美日撕破臉!王毅專機(jī)直插平壤,中朝抄了美軍后路

阿校談史
2026-04-11 09:09:07
一場4-0!讓熱刺跌入降級區(qū):后7場拿15分有望保級,森林有難

一場4-0!讓熱刺跌入降級區(qū):后7場拿15分有望保級,森林有難

體育知多少
2026-04-11 10:33:16
一戰(zhàn)定乾坤!U20女足亞洲杯8強(qiáng):中國vs烏茲別克斯坦 贏家晉級世青賽

一戰(zhàn)定乾坤!U20女足亞洲杯8強(qiáng):中國vs烏茲別克斯坦 贏家晉級世青賽

愛奇藝體育
2026-04-11 09:08:04
2026年江蘇省養(yǎng)老金調(diào)整前瞻:方案發(fā)布時(shí)間參考與個(gè)人金額推演!

2026年江蘇省養(yǎng)老金調(diào)整前瞻:方案發(fā)布時(shí)間參考與個(gè)人金額推演!

云鵬敘事
2026-04-11 12:14:51
鄭麗文:尊重2300萬臺(tái)灣人意愿,絕不能武統(tǒng)!洪秀柱:當(dāng)然可以打

鄭麗文:尊重2300萬臺(tái)灣人意愿,絕不能武統(tǒng)!洪秀柱:當(dāng)然可以打

剛哥說法365
2025-11-01 17:15:20
風(fēng)流成性 貪財(cái)好色,曾志偉與喬妹的合照,戳穿了內(nèi)娛的"隱形規(guī)則

風(fēng)流成性 貪財(cái)好色,曾志偉與喬妹的合照,戳穿了內(nèi)娛的"隱形規(guī)則

阿訊說天下
2026-04-11 10:55:13
你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

夜深愛雜談
2026-04-09 19:39:13
西部季后賽最有懸念的一場比賽 不僅關(guān)乎首輪對陣 還影響次輪對陣

西部季后賽最有懸念的一場比賽 不僅關(guān)乎首輪對陣 還影響次輪對陣

大話火箭隊(duì)
2026-04-11 14:46:34
毛主席時(shí)代建造的3座大橋,撞不倒、壓不塌、炸不壞,屹立至今

毛主席時(shí)代建造的3座大橋,撞不倒、壓不塌、炸不壞,屹立至今

豬小艷吖
2026-04-09 16:34:44
前國際級裁判:姆巴佩應(yīng)該得到一個(gè)點(diǎn)球;VAR不介入沒有問題

前國際級裁判:姆巴佩應(yīng)該得到一個(gè)點(diǎn)球;VAR不介入沒有問題

懂球帝
2026-04-11 07:05:10
汪寶兒回京落戶,祖母張?zhí)m全程操盤,父親汪小菲不見蹤影

汪寶兒回京落戶,祖母張?zhí)m全程操盤,父親汪小菲不見蹤影

人間煙火記事本
2026-04-11 11:29:51
報(bào)應(yīng)來了?歐美工廠大面積癱瘓,現(xiàn)在來求中國復(fù)工?晚了!

報(bào)應(yīng)來了?歐美工廠大面積癱瘓,現(xiàn)在來求中國復(fù)工?晚了!

月光作箋a
2026-04-10 21:14:58
國乒用人失誤!剛公布世乒賽陣容就出問題,鄧亞萍卻點(diǎn)出王皓無奈

國乒用人失誤!剛公布世乒賽陣容就出問題,鄧亞萍卻點(diǎn)出王皓無奈

三十年萊斯特城球迷
2026-04-10 21:16:39
越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

岐黃傳人孫大夫
2026-03-17 23:25:03
暴跌95%!一代神車退場了,比燃油車賣不掉更可怕的事正在發(fā)生

暴跌95%!一代神車退場了,比燃油車賣不掉更可怕的事正在發(fā)生

毒sir財(cái)經(jīng)
2026-04-10 16:25:00
后悔了!曼聯(lián)棄將的真情告白:與阿莫林決裂是職業(yè)生涯最大的錯(cuò)誤

后悔了!曼聯(lián)棄將的真情告白:與阿莫林決裂是職業(yè)生涯最大的錯(cuò)誤

體壇鑒春秋
2026-04-11 11:59:23
真敢說!伊朗談判團(tuán)抵達(dá)當(dāng)天,美國喊話稱中國有“義不容辭之責(zé)”

真敢說!伊朗談判團(tuán)抵達(dá)當(dāng)天,美國喊話稱中國有“義不容辭之責(zé)”

健身狂人
2026-04-11 13:41:45
這是15歲孩子?非洲學(xué)校賽事遭打假:奪冠后一群30歲大叔上臺(tái)領(lǐng)獎(jiǎng)

這是15歲孩子?非洲學(xué)校賽事遭打假:奪冠后一群30歲大叔上臺(tái)領(lǐng)獎(jiǎng)

風(fēng)過鄉(xiāng)
2026-04-11 07:40:31
2026-04-11 15:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16564文章數(shù) 514863關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

媒體:多套雷達(dá)系統(tǒng)受損 美國尷尬發(fā)現(xiàn)"又要求助中國"

頭條要聞

媒體:多套雷達(dá)系統(tǒng)受損 美國尷尬發(fā)現(xiàn)"又要求助中國"

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

浪姐7淘汰 該走的沒走,不該走的走了

財(cái)經(jīng)要聞

從日本翻身看:這次誰能扛住高油價(jià)?

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

游戲
旅游
藝術(shù)
本地
軍事航空

打架還會(huì)爆衣!國產(chǎn)大尺度新游登陸Steam 首發(fā)打85折

旅游要聞

藍(lán)色浪漫大片!上海這里已成夢幻花海,一秒走入偶像劇中!

藝術(shù)要聞

17位當(dāng)代青年畫家油畫欣賞

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進(jìn)入關(guān)懷版