国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

阿里高德發(fā)布SpatialGenEval,揭秘誰才是真正的文生圖大師

0
分享至



盡管目前文生圖模型(Text-to-Image Models)在生成高保真圖像上表現(xiàn)卓越,但在應(yīng)對空間感知、空間邏輯推理及多目標空間交互等貼合現(xiàn)實場景的復(fù)雜空間智能任務(wù)時往往力不從心,F(xiàn)有評估基準主要依賴簡短或信息稀疏的提示詞,難以覆蓋復(fù)雜的空間邏輯,導(dǎo)致模型在這些關(guān)鍵空間智能維度上的能力缺陷被嚴重低估。

來自阿里高德的一篇最新 ICLR 2026 中稿論文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生圖空間智能的系統(tǒng)性評估基準 SpatialGenEval,旨在通過長文本、高信息密度的 T2I prompt 設(shè)計,以及圍繞空間感知、空間推理和空間交互的 10 大空間智能能力維度設(shè)計,深入探測文生圖模型的空間智能能力邊界。



SpatialGenEval 將生圖空間智能能力細分為 4 大維度,10 個子維度,覆蓋 25 個現(xiàn)實應(yīng)用場景,基于 23 個 SOTA 模型的評估結(jié)果表明當前模型的空間智能能力仍有待大幅提升



  • 論文標題:Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models
  • 論文鏈接:https://arxiv.org/abs/2601.20354
  • 論文代碼:https://github.com/AMAP-ML/SpatialGenEval

核心挑戰(zhàn):目前 T2I 模型空間認知 “淺表化” 與邏輯缺失

現(xiàn)有文生圖模型雖然能夠很好地完成 “生成什么”(What)的語義對齊,但在處理 “空間位置在哪里”(Where)、“空間如何排列”(How)以及物理世界中的 “空間交互邏輯”(Why)時,面臨著從 “基礎(chǔ)感知” 到 “高階推理” 的全方位挑戰(zhàn),包括:

1. 空間基礎(chǔ)的 “屬性漂移” 與缺失:模型雖然能畫出物體,但在信息密集提示詞下,常出現(xiàn)物體漏畫或?qū)傩越壎ㄥe誤,無法維持 “萬物各司其職” 的基礎(chǔ)對齊能力。

2. 空間感知的 “幾何偏見”:在處理物體精確位置、朝向及特定排列布局時,模型往往傾向于生成 “默認姿態(tài)”(如正面視圖),難以跨越 2D 畫布實現(xiàn)精準的空間定位。

3. 空間推理的 “邏輯盲區(qū)”:這是當前模型最大的短板。在涉及相對數(shù)值比較(如 “紅椅比藍椅大兩倍”)、3D 遮擋關(guān)系及物理距離鄰近性時,模型得分接近隨機猜測,表明其缺乏對真實物理世界層級和深度的認知。

4. 空間交互的 “動態(tài)失真”:模型難以捕捉物體間的動態(tài)瞬間(如跳躍中的足球)或物理因果邏輯(如撞擊導(dǎo)致的破碎),無法將潛藏的物理動力學(xué)轉(zhuǎn)化為邏輯自洽的視覺圖像。



上:當前生成模型在感知、推理和交互上的錯誤樣例;下:當前評估基準存在信息稀疏 / 粗粒度 yes-or-no 評估

SpatialGenEval:涉及空間基礎(chǔ)、感知、推理和交互的空間智能 “全科掃描”

為了系統(tǒng)化地定義和評估文生圖模型 “空間智能” 能力,研究團隊構(gòu)建了一個層次化框架,將空間智能解構(gòu)為 4 大領(lǐng)域及 10 個關(guān)鍵子維度:

1. 空間基礎(chǔ) (S1/S2):多目標物體類別(S1)、多目標屬性綁定(S2)。

2. 空間感知 (S3/S4/S5):空間位置(S3)、空間朝向(S4)與空間布局(S5)。

3. 空間推理 (S6/S7/S8):空間大小 / 長度 / 高矮等比較(S6)、空間鄰近性(S7)與空間位置遮擋(S8)。

4. 空間交互 (S9/S10):空間運動交互(S9)與空間因果交互(S10)。

該基準測試覆蓋自然、室內(nèi)、戶外、人類活動及藝術(shù)設(shè)計等 25 個現(xiàn)實世界場景,為其精心構(gòu)建了 1,230 條 長文本、信息密集型提示詞。每個提示詞均深度融合了上述從基礎(chǔ)屬性、布局到高階遮擋、因果推理等 10 個空間子領(lǐng)域及對應(yīng)全維度問答。值得注意的是,每個提示詞長度約 60 詞,允許同時兼顧依賴 CLIP 編碼模型(77 tokens 限制)和保持高度信息密集。



SpatialGenEval 評估數(shù)據(jù)構(gòu)建流程



SpatialGenEval 所有 10 個空間維度的提示詞及其問題展示



核心發(fā)現(xiàn):空間推理仍是主要瓶頸

研究團隊對 23 款前沿的開源與閉源 T2I 模型進行了詳盡評估,揭示了以下行業(yè)現(xiàn)狀:

  • 空間推理是核心薄弱環(huán)節(jié):在涉及比較和遮擋的空間推理子任務(wù)中,多數(shù)模型的得分僅在 30% 左右,接近隨機猜測水平(20%),這表明目前的模型普遍缺乏對 3D 場景結(jié)構(gòu)和邏輯關(guān)系的理解。
  • 開源模型正快速追趕:評測顯示,最強的開源模型 Qwen-Image (60.6%) 表現(xiàn)已與頂級閉源模型 Seed Dream 4.0 (62.7%) 基本持平,但均僅達到及格線水平,空間智能仍有巨大提升空間。
  • 強大的文本編碼器至關(guān)重要:使用高性能 LLM(如 T5 或大型語言模型)作為文本編碼器的模型(如 FLUX.1),在解析復(fù)雜空間指令時顯著優(yōu)于僅依賴 CLIP 的模型。



基于 Qwen2.5-VL-72B-Instruct 的自動化評估結(jié)果



左:所有評估模型的錯誤類型分布;右:高優(yōu)模型的錯誤類型分布

數(shù)據(jù)中心范式:提升模型空間智能的有效路徑

除了評估,該研究還提出了一種基于已有生成圖像的改進方案。團隊通過多模態(tài)大模型(MLLM)重寫提示詞以確保圖文一致性,構(gòu)建了包含 15,400 對圖文數(shù)據(jù)的 SpatialT2I 數(shù)據(jù)集。對主流三大類模型(Diffusion-based, AR-based,Unified-based 模型)進行監(jiān)督微調(diào)結(jié)果在空間評估指標有顯著增益,生成的圖像在物理邏輯和空間布局上更具真實感。



微調(diào)模型后的生成結(jié)果對比

總結(jié)與展望

SpatialGenEval 為 T2I 模型從 “美學(xué)生成” 邁向 “邏輯感知” 建立了一條新的評估路線,只有讓模型真正理解 “萬物各得其所 (Everything in its place)”,生成式 AI 才能在機器人輔助、室內(nèi)設(shè)計、自動駕駛仿真等對空間維度有嚴苛要求的領(lǐng)域中釋放真正的生產(chǎn)力。

作者團隊介紹

阿里高德的機器學(xué)習(xí)研發(fā)部,承接公司重點業(yè)務(wù),包括本地生活場景中的廣告創(chuàng)意、商品理解、內(nèi)容智能創(chuàng)作和分發(fā),出行場景的 AI 智能化等,部門研究領(lǐng)域廣泛,包括但不限于以下方向:(1) 多模態(tài)大模型;(2) 圖像生成 / 編輯美化;(3) 視頻生成 / 理解;(4) Agent; (5) 時空數(shù)據(jù)挖掘;(6) 智能推薦;(7) 高性能推理等。團隊技術(shù)氛圍好,成長空間大,擁有充足的研發(fā)資源和大量的業(yè)務(wù)應(yīng)用數(shù)據(jù),多篇論文入選 paper digest 最有影響力論文名單。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國外媒體稱:一旦戰(zhàn)火爆發(fā),中國將會到達無人知曉的地步

國外媒體稱:一旦戰(zhàn)火爆發(fā),中國將會到達無人知曉的地步

古事尋蹤記
2025-12-10 07:11:27
連詹俊都在感嘆!凱恩賽季50球+德比雙響,英格蘭隊長想要更多

連詹俊都在感嘆!凱恩賽季50球+德比雙響,英格蘭隊長想要更多

里芃芃體育
2026-03-02 04:00:03
你干過哪些陰暗齷齪的事?網(wǎng)友:最后一個真的好炸裂好真實

你干過哪些陰暗齷齪的事?網(wǎng)友:最后一個真的好炸裂好真實

帶你感受人間冷暖
2026-02-17 01:00:24
在美華人感慨:凡是移民美國的華人精英,不出兩代,就變成普通人

在美華人感慨:凡是移民美國的華人精英,不出兩代,就變成普通人

鯨探所長
2026-02-26 19:27:43
咸魚還是太全面了,怪不得人稱國內(nèi)黑市

咸魚還是太全面了,怪不得人稱國內(nèi)黑市

另子維愛讀史
2025-12-20 17:07:20
第六波打擊!伊朗發(fā)起斬首行動,以總參謀部被炸,特朗普開始急了

第六波打擊!伊朗發(fā)起斬首行動,以總參謀部被炸,特朗普開始急了

墨印齋
2026-03-01 19:26:03
江蘇遍地是汽車工廠,真正能扛大旗的為什么只有常州一個

江蘇遍地是汽車工廠,真正能扛大旗的為什么只有常州一個

三農(nóng)老歷
2026-03-01 17:06:30
絞殺開始!荷蘭科技專家:當初中國囤的1000臺ASML光刻機,起作用了

絞殺開始!荷蘭科技專家:當初中國囤的1000臺ASML光刻機,起作用了

劉曠
2026-02-28 15:48:42
100%賴賬,這何嘗不是一種極致的誠信!

100%賴賬,這何嘗不是一種極致的誠信!

財經(jīng)保探長
2026-02-28 10:46:25
美國媒體:因芯片含有中國稀土,臺積電無法向美國供應(yīng)半導(dǎo)體芯片

美國媒體:因芯片含有中國稀土,臺積電無法向美國供應(yīng)半導(dǎo)體芯片

Thurman在昆明
2026-03-02 01:17:58
小泉振臂高呼:美國不用中國零件,日本以后也不用!日媒諷刺

小泉振臂高呼:美國不用中國零件,日本以后也不用!日媒諷刺

探史
2026-03-02 01:27:41
2月自主5強銷量盤點,吉利超20萬輛奪冠,多家同環(huán)比出現(xiàn)下滑

2月自主5強銷量盤點,吉利超20萬輛奪冠,多家同環(huán)比出現(xiàn)下滑

玩車專家1
2026-03-01 21:32:54
伊朗公布部分遇難高級將領(lǐng)名單

伊朗公布部分遇難高級將領(lǐng)名單

中國網(wǎng)
2026-03-01 16:43:09
營銷造假?有網(wǎng)友發(fā)現(xiàn)鴻蒙智行多個營銷視頻使用加速、倒放素材

營銷造假?有網(wǎng)友發(fā)現(xiàn)鴻蒙智行多個營銷視頻使用加速、倒放素材

新浪財經(jīng)
2026-02-28 22:28:30
謝賢前女友CoCo賬號被封禁

謝賢前女友CoCo賬號被封禁

娛小余
2026-03-01 20:27:30
3月2日消息!大滿貫落幕 國乒275萬獎金分配:王楚欽68萬,鰻魚34萬

3月2日消息!大滿貫落幕 國乒275萬獎金分配:王楚欽68萬,鰻魚34萬

皮皮觀天下
2026-03-02 03:45:55
黑豆立大功!醫(yī)生建議:心臟不好的老人,盡量常吃這9樣

黑豆立大功!醫(yī)生建議:心臟不好的老人,盡量常吃這9樣

橘子約定
2026-02-27 09:33:44
鎢價已瘋漲,銦才剛起步!2026小金屬風(fēng)口看懂不踩坑

鎢價已瘋漲,銦才剛起步!2026小金屬風(fēng)口看懂不踩坑

別人都叫我阿腈
2026-03-01 18:01:39
倒反天罡!不滿判罰,日本隊正式向國際籃聯(lián)申訴!中國隊或被處罰

倒反天罡!不滿判罰,日本隊正式向國際籃聯(lián)申訴!中國隊或被處罰

King迪哥侃球
2026-03-01 11:19:24
哈梅內(nèi)伊早就死了,根本沒躲進地堡,商量怎么讓步時被一鍋端

哈梅內(nèi)伊早就死了,根本沒躲進地堡,商量怎么讓步時被一鍋端

主宰未來
2026-03-01 18:06:10
2026-03-02 05:00:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

房產(chǎn)
健康
親子
教育
軍事航空

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

親子要聞

帶娃看醫(yī)生,聽懂這幾句話少走90%彎路!

教育要聞

初中階段的分化,從習(xí)慣悄悄開始

軍事要聞

伊朗前總統(tǒng)內(nèi)賈德遇襲身亡

無障礙瀏覽 進入關(guān)懷版