国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李曼玲、李飛飛團(tuán)隊(duì)頂會新作:給大模型測「空間智商」

0
分享至



1. 真正的高級智能,在于認(rèn)知自己的 “無知”

如果把當(dāng)下最強(qiáng)的大模型(如 GPT-5.2、Gemini-3 Pro)丟進(jìn)一個從未去過的虛擬房間,讓它自己探索并構(gòu)建地圖,它能做到嗎?

一直以來,我們評估多模態(tài)大模型的標(biāo)準(zhǔn)就像是 “開卷考試”:給一張靜態(tài)圖片,問圖里有什么。在這樣的標(biāo)尺下,AI 似乎已經(jīng)無所不能。然而,在真實(shí)的物理世界中,無論是家庭服務(wù)機(jī)器人還是自動駕駛汽車,面臨的都是部分可觀測(Partial Observability)的未知環(huán)境。

人類在探索未知時,展現(xiàn)出了極高的 “空間智商”:當(dāng)你發(fā)現(xiàn)視野有盲區(qū)時,你的大腦會自動預(yù)測背后的 “不確定性(Uncertainty)”,并驅(qū)使你走上前去一探究竟,從而高效地獲取信息(Information Gain)。

為了探究 AI 是否具備這種人類級別的高階能力,西北大學(xué)李曼玲團(tuán)隊(duì)、斯坦福大學(xué)李飛飛與吳佳俊團(tuán)隊(duì),以及華盛頓大學(xué) Ranjay Krishna 團(tuán)隊(duì),共同提出了一項(xiàng)針對基礎(chǔ)模型的“空間智商測試”—— 空間理論 (Theory of Space)



Theory of Space:主動探索,信念探測以及任務(wù)評估。左側(cè)展示智能體在多房間局部觀測下的軌跡俯視圖;中間呈現(xiàn)其在文本或視覺環(huán)境中的 “移動 - 旋轉(zhuǎn) - 觀測” 閉環(huán),通過第一人稱觀測實(shí)時更新內(nèi)部信念;右側(cè)則通過空間任務(wù)及認(rèn)知地圖探測,對信念的利用與表征進(jìn)行深度評估。

該研究指出,衡量具身大模型的真正試金石,不在于它能否機(jī)械地回答 “看到” 了什么,而在于它能否主動預(yù)測并消除環(huán)境中的 “不確定性”。這才是通向通用人工智能(AGI)的必經(jīng)之路。



  • 論文標(biāo)題:Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
  • 論文鏈接: https://arxiv.org/abs/2602.07055
  • 代碼: https://github.com/mll-lab-nu/Theory-of-Space
  • 項(xiàng)目主頁: https://theory-of-space.github.io/
  • 數(shù)據(jù)集: https://huggingface.co/datasets/MLL-Lab/tos-data

2. 一場史無前例的 “空間 IQ 大考”

為了全方位、無死角地測量大模型的空間智商,研究團(tuán)隊(duì)精心打造了一個基于程序的 “多模態(tài)平行測試宇宙”。這個宇宙同時包含了象征純粹邏輯推理的純文本房間,以及基于 ThreeDWorld 引擎渲染的視覺房間。

模型只被賦予了幾項(xiàng)最基礎(chǔ)的本能動作:“移動”、“多角度旋轉(zhuǎn)” 和 “就地觀察”。它必須像一個真正的勘探者一樣,在有限的試錯成本下,自主規(guī)劃探測路徑,并判斷何時已經(jīng)獲取了足夠的信息來終止探索。

為了層層剝開 AI 空間認(rèn)知的底色,這一測試系統(tǒng)從三大核心維度對其展開了步步緊逼的 “拷問”:

  • 尋找未知(Construct): 面對 “盲人摸象” 般的局部碎片視野和極具挑戰(zhàn)的 3D 渲染光影,模型能否克服感知迷霧,主動、高效地搜集信息,在腦海里無縫連結(jié)出一張全局的 “認(rèn)知地圖”?
  • 敏銳糾錯(Revise): 如果視線之外的房間格局被暗中調(diào)換(這對動態(tài)物理世界再常見不過),模型在重新路過時能否立刻警覺,并果斷修改大腦里的舊數(shù)據(jù)?
  • 高階推演(Exploit): 建好地圖不是終點(diǎn),關(guān)鍵在于能否經(jīng)受住應(yīng)用層面的極致考驗(yàn)。研究團(tuán)隊(duì)精心設(shè)計(jì)了 9 大核心空間推理任務(wù),既有考察第一人稱代入感的 “路線級推理(Route-level)”(如視角轉(zhuǎn)換、根據(jù)連續(xù)動作推演最終視野),也有高度抽象的 “全局級推理(Survey-level)”(如挑戰(zhàn)腦海里的 360 度動態(tài)心智旋轉(zhuǎn)、構(gòu)建上帝視角的絕對坐標(biāo)構(gòu)圖)。



任務(wù)套件總覽圖

給大腦做 “X 光透視”:認(rèn)知地圖顯探測

過去的研究往往只能通過動作對錯來猜測 AI 的思路。而在 Theory of Space 中,研究團(tuán)隊(duì)創(chuàng)造性地引入了 “認(rèn)知地圖顯式探測(Cognitive Map Probing)” 機(jī)制

在模型每走一步時,都強(qiáng)制要求它以 JSON 格式默寫出腦海中的虛擬地圖分布,甚至直接在地圖上選出 “尚未探索過的盲區(qū)”。這使得 AI 對不確定性的建模過程徹底透明化!



3. 成績單出爐:面對不確定性,基礎(chǔ)模型四大底層缺陷盡顯

研究團(tuán)隊(duì)將 GPT-5.2, Gemini-3 Pro, Claude-4.5 Sonnet, GLM-4.6V, Qwen3-VL 等主流大模型送入考場。結(jié)果令人震撼:當(dāng) AI 面臨 “自主求解不確定性” 的任務(wù)時,看似強(qiáng)大的它們集體迷失,暴露出令人擔(dān)憂的四大深層病理。

缺陷一:毫無章法的試錯陷阱,主動探索得分暴跌

為了設(shè)立標(biāo)尺,研究者先用了一個 “策略腳本代理(Proxy Agent)” 去執(zhí)行探索,也就是被動探索模式,發(fā)現(xiàn)只需平均約 9 步就能完全掌控整個房間結(jié)構(gòu);而大模型自主行動時,卻往往耗費(fèi) 14 到 20 步以上,并且不停地在已安全觀測的區(qū)域里打轉(zhuǎn)。



這種 “無頭蒼蠅” 式的探索,導(dǎo)致最終構(gòu)建的地圖質(zhì)量嚴(yán)重受損。例如,面對同樣的視覺宇宙,GPT-5.2 的動作準(zhǔn)確率從被動接收信息的 57.1% 大幅下滑至主動探索的僅 46.0%。

癥結(jié)在于:大模型無法形成一種高效、有條理的探索策略,并且不能很好地感知自身知識的邊界,無法非常有效地標(biāo)出哪些區(qū)域是未知的。



任務(wù)準(zhǔn)確率 vs. 主動探索開銷,灰圖標(biāo)代表被動探索模式



視覺模態(tài)下,主動探索與被動探索存在鴻溝

缺陷二:脆弱的記憶與 “信念漂移”

通過給大模型做 “認(rèn)知透視”,研究者發(fā)現(xiàn)其內(nèi)部的空間信念呈現(xiàn)出極強(qiáng)的脆弱性。模型可能在第一眼準(zhǔn)確記住了一個沙發(fā)的坐標(biāo),但隨著它轉(zhuǎn)身去探索另一側(cè)的門,先前對沙發(fā)的 “信念” 就會迅速退化模糊,甚至被稍后收到的無關(guān)信息無端覆蓋。這種無法維持長效、穩(wěn)定認(rèn)知地圖的缺陷,被稱為極其致命的“信念漂移”。

缺陷三:細(xì)思極恐的 “信念慣性(Belief Inertia)”

在 “糾錯” 能力的測試中,研究人員復(fù)刻了心理學(xué)著名的 “錯誤信念” 實(shí)驗(yàn):等模型探索完一圈后,悄悄挪動了幾個關(guān)鍵物體的位置或朝向。

極其具有戲劇性的一幕出現(xiàn)了:當(dāng)大模型再次路過并親眼看到物體已經(jīng)不在原地時,它對物體位置的預(yù)測,居然仍固執(zhí)地偏向了老地方!數(shù)據(jù)顯示,GPT-5.2 在視覺模型中的 “信念慣性” 高達(dá) 68.9%。這說明當(dāng)前的 AI 缺乏認(rèn)知可塑性,極難用眼前的視覺新證據(jù)去推翻腦海中陳舊的語言先驗(yàn)。



缺陷四:難以跨越的 “模態(tài)鴻溝(Modality Gap)”

最終的統(tǒng)計(jì)數(shù)據(jù)指出了一條鴻溝:模型雖然在純文本構(gòu)建的虛擬房間中表現(xiàn)尚可(得益于長文本里強(qiáng)大的符號與語言邏輯),但一旦進(jìn)入基于 3D 渲染的視覺世界(Vision World),面對必須依靠像素感知來推斷深度的雙重壓力,得分直線下滑。

形成鮮明對比的是,人類在相同的視覺測試中,即使面對復(fù)雜布局,借助簡單的工具也能輕松達(dá)到 99.0% 的超高準(zhǔn)確率。總體來看,AI 在這方面仍與人類存在明顯差距。



主動探索下視覺與文本存在巨大性能落差

4. 邁向下一代具身智能:從 “死記硬背” 到構(gòu)建 “世界模型”

Theory of Space 這場大考絕不只是單純的找茬挑刺,它更像是一份詳盡的診斷書,指出了當(dāng)下大模型在走向真實(shí)場景(如家用機(jī)器人、自動駕駛)時,亟待填補(bǔ)的能力空白。要孕育出真正能在復(fù)雜現(xiàn)實(shí)中自如穿梭的通用人工智能(AGI),未來的研究必須在以下方向?qū)で蟾拘酝黄疲?/p>

突破一:培育具有強(qiáng)可塑性的 “空間長時記憶”

現(xiàn)有的多模態(tài)模型一旦轉(zhuǎn)移視線,記憶往往如流沙般流失(信念漂移);亦或是對陳舊的先驗(yàn)固執(zhí)己見(信念慣性)。未來的 AI 需要構(gòu)建類似人類海馬體般靈活的回溯機(jī)制,既能穩(wěn)固地鎖定絕對空間結(jié)構(gòu),又能根據(jù)即時的視覺線索精準(zhǔn)剔除 “過期報(bào)廢” 的錯誤記憶。

突破二:引入內(nèi)在 “好奇心” 驅(qū)動的強(qiáng)化探索

當(dāng)前的 AI 大部分仍處于 “你提問、我回答” 的被動反應(yīng)模式中。而破局的關(guān)鍵,在于引入對 “不確定性” 的感知與博弈(Uncertainty-Awareness)。智能體應(yīng)當(dāng)能夠主動評估哪些區(qū)域存在信息盲區(qū),在內(nèi)在 “好奇心” 的獎勵驅(qū)動下,規(guī)劃出信息增益最大化的探測軌跡。

突破三:真正擁抱 3D 物理法則的 “世界模型(World Models)”

如今的視覺語言模型依舊停留在 2D 像素層面的表面模式匹配,并未真正理解真實(shí)三維空間中的幾何剛體法則。一個強(qiáng)大的 “世界模型” 不僅僅是一張扁平的數(shù)據(jù)表,它應(yīng)該天然內(nèi)蘊(yùn)了物體的恒存性特征、視角變換間的物理恒等式。只有當(dāng)大模型能夠閉上眼睛,在腦海里無縫推演 “我向前走兩步再右轉(zhuǎn)最終會看到什么” 時,它才算真正獲得了通關(guān)物理世界的通行證。

學(xué)會認(rèn)知自身盲區(qū),并主動向不確定性出擊。這場以 “空間 IQ” 為坐標(biāo)的試煉,徹底穿透了常規(guī)刷題基準(zhǔn)下大模型虛增的表面分?jǐn)?shù)。預(yù)測未知,擁抱未知,這不僅是具身大模型打破瓶頸的起點(diǎn),更是未來 AGI 構(gòu)筑真實(shí)物理世界閉環(huán)的必由之路。

(本研究已被 ICLR 2026 接收為錄用論文,歡迎訪問項(xiàng)目主頁獲取完整的論文、代碼與數(shù)據(jù)集。)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中美日石油儲備對比:美國9100萬噸,日本8000萬噸,我國多少呢?

中美日石油儲備對比:美國9100萬噸,日本8000萬噸,我國多少呢?

有范又有料
2026-03-08 13:00:34
七國集團(tuán)將討論聯(lián)合釋放緊急石油儲備,計(jì)劃釋放3億桶應(yīng)對油價飆升

七國集團(tuán)將討論聯(lián)合釋放緊急石油儲備,計(jì)劃釋放3億桶應(yīng)對油價飆升

風(fēng)向觀察
2026-03-09 14:18:35
告訴大家一個壞消息:天津、沈陽已出現(xiàn)4大怪象,值得大家深思!

告訴大家一個壞消息:天津、沈陽已出現(xiàn)4大怪象,值得大家深思!

林子說事
2026-03-09 10:01:05
多地宣布停車費(fèi)下調(diào):降低起步價、延長免費(fèi)時段,短時停放更劃算

多地宣布停車費(fèi)下調(diào):降低起步價、延長免費(fèi)時段,短時停放更劃算

澎湃新聞
2026-03-08 23:42:26
父親聚餐后砸家后續(xù):原因曝光,女子爆更多荒唐事,妻子決心離婚

父親聚餐后砸家后續(xù):原因曝光,女子爆更多荒唐事,妻子決心離婚

阿纂看事
2026-03-09 11:49:40
2026年喪葬費(fèi)撫恤金迎上調(diào),企退滿30年和機(jī)關(guān)事業(yè),差距有多大?

2026年喪葬費(fèi)撫恤金迎上調(diào),企退滿30年和機(jī)關(guān)事業(yè),差距有多大?

貓叔東山再起
2026-03-09 10:20:06
左權(quán)女兒想考哈軍工卻政審不過關(guān),陳賡一看:你多填了個社會關(guān)系

左權(quán)女兒想考哈軍工卻政審不過關(guān),陳賡一看:你多填了個社會關(guān)系

北海史記
2026-03-08 18:47:20
恐怖!深圳一男子被確診艾滋病,傳染他的,是在上高中的17歲男生

恐怖!深圳一男子被確診艾滋病,傳染他的,是在上高中的17歲男生

火山詩話
2026-03-09 09:07:09
帶岳父岳母吃飯,結(jié)賬時服務(wù)員說共3桌,我懵了:我就訂了這一個包間

帶岳父岳母吃飯,結(jié)賬時服務(wù)員說共3桌,我懵了:我就訂了這一個包間

奶茶麥子
2026-03-09 11:53:07
驚魂24小時!美企中東大撤退,數(shù)據(jù)中心被炸,百億投資說扔就扔

驚魂24小時!美企中東大撤退,數(shù)據(jù)中心被炸,百億投資說扔就扔

通鑒史智
2026-03-09 11:36:43
劉美賢談退役復(fù)出后奪冠:如果我沒有跌落谷底,我就不可能爬上來

劉美賢談退役復(fù)出后奪冠:如果我沒有跌落谷底,我就不可能爬上來

互聯(lián)網(wǎng)大觀
2026-03-09 12:49:35
《生化危機(jī)9》里昂裸體mod再激起性別雙標(biāo)爭議

《生化危機(jī)9》里昂裸體mod再激起性別雙標(biāo)爭議

3DM游戲
2026-03-09 09:46:05
中國人口絕不能到億級體量之下

中國人口絕不能到億級體量之下

文青大叔說
2026-03-08 09:19:26
薛之謙被前女友舉報(bào)重婚后,妻子高磊鑫疑懷二胎,挺大肚現(xiàn)身婦產(chǎn)醫(yī)院,兩人兒子“小雪糕”已7歲

薛之謙被前女友舉報(bào)重婚后,妻子高磊鑫疑懷二胎,挺大肚現(xiàn)身婦產(chǎn)醫(yī)院,兩人兒子“小雪糕”已7歲

極目新聞
2026-03-09 14:05:37
最大內(nèi)鬼被挖出!俄媒:卡尼確認(rèn)完哈梅內(nèi)伊位置,會沒開完就溜了

最大內(nèi)鬼被挖出!俄媒:卡尼確認(rèn)完哈梅內(nèi)伊位置,會沒開完就溜了

天天熱點(diǎn)見聞
2026-03-09 06:51:26
訂單數(shù)十萬輛震驚世界,如今銷量暴跌,原形畢露了!

訂單數(shù)十萬輛震驚世界,如今銷量暴跌,原形畢露了!

柏銘銳談
2026-03-08 23:28:38
哈梅內(nèi)伊之子遇襲!伊朗總統(tǒng)道歉停止攻擊鄰國,恐引內(nèi)訌

哈梅內(nèi)伊之子遇襲!伊朗總統(tǒng)道歉停止攻擊鄰國,恐引內(nèi)訌

項(xiàng)鵬飛
2026-03-08 20:38:55
哈梅內(nèi)伊次子“冒死”接班:伊朗的核心領(lǐng)導(dǎo)層,目前還剩哪幾位?

哈梅內(nèi)伊次子“冒死”接班:伊朗的核心領(lǐng)導(dǎo)層,目前還剩哪幾位?

黃娜老師
2026-03-09 00:33:30
澳洲超18萬部手機(jī)被強(qiáng)制停機(jī), 直接變板磚! 華人收到警告短信: 國內(nèi)買的手機(jī)不能用了!

澳洲超18萬部手機(jī)被強(qiáng)制停機(jī), 直接變板磚! 華人收到警告短信: 國內(nèi)買的手機(jī)不能用了!

澳微Daily
2026-03-08 14:53:48
吳柳芳首次公開退役原因!8年15金16銀 不如管晨辰1枚奧運(yùn)金牌

吳柳芳首次公開退役原因!8年15金16銀 不如管晨辰1枚奧運(yùn)金牌

念洲
2026-03-09 12:21:54
2026-03-09 14:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12450文章數(shù) 142579關(guān)注度
往期回顧 全部

科技要聞

沖上熱搜,馬化騰說沒想到“龍蝦”這么火

頭條要聞

媒體:借口中東局勢 高市政府更明確要為武器出口松綁

頭條要聞

媒體:借口中東局勢 高市政府更明確要為武器出口松綁

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂要聞

姆巴佩戀情確認(rèn)!與26歲新歡共度良宵

財(cái)經(jīng)要聞

油價直逼120美元!

汽車要聞

對標(biāo)奔馳小號G級 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

家居
本地
數(shù)碼
健康
手機(jī)

家居要聞

獨(dú)棟獨(dú)院 精致親子墅

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

數(shù)碼要聞

郭明錤預(yù)測:蘋果第二代MacBook Neo將于2027年推出,或搭載觸摸屏

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機(jī)要聞

蘋果首款大折疊iPhone 3D渲染圖曝光,預(yù)計(jì)9月發(fā)布

無障礙瀏覽 進(jìn)入關(guān)懷版