国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Gemini 3僅得33.6分!清華發(fā)布首個(gè)「約束流形」空間智能基準(zhǔn)

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】SSI-Bench是首個(gè)在約束流形中評(píng)估模型空間推理能力的基準(zhǔn),強(qiáng)調(diào)真實(shí)結(jié)構(gòu)與約束條件,通過(guò)排序任務(wù)考察模型是否能準(zhǔn)確理解三維結(jié)構(gòu)的幾何與拓?fù)潢P(guān)系,揭示當(dāng)前大模型在空間智能上嚴(yán)重依賴2D信息,實(shí)際表現(xiàn)遠(yuǎn)低于人類。研究指出,模型需提升三維構(gòu)型識(shí)別和約束推理能力,才能真正理解空間問(wèn)題。

如果你把一個(gè)在空間理解榜單上刷分很高的多模態(tài)大模型,直接丟進(jìn)真實(shí)世界,它很可能會(huì)在看起來(lái)很簡(jiǎn)單的問(wèn)題上翻車(chē)。

不是因?yàn)樗粫?huì)「看」,而是因?yàn)樗鼜膩?lái)沒(méi)有被迫真正尊重三維結(jié)構(gòu)的可行性——它可以靠2D相關(guān)性、外觀先驗(yàn)、數(shù)據(jù)集套路,走捷徑拿分。

而現(xiàn)實(shí)世界里,很多空間問(wèn)題的本質(zhì)恰恰相反:能怎么擺、怎么連、怎么受力,不是隨意的;可行解往往只存在于一個(gè)被幾何、拓?fù)洹⑽锢韽?qiáng)約束「壓扁」的空間里。

為此,清華大學(xué)的研究團(tuán)隊(duì)推出SSI-Bench,從AI與結(jié)構(gòu)工程的交叉視角出發(fā),為空間智能評(píng)估提供了一種新的場(chǎng)景化思路——將評(píng)測(cè)置于復(fù)雜三維結(jié)構(gòu)的約束流形中,系統(tǒng)檢驗(yàn)多模態(tài)大模型的空間智能表現(xiàn)。


項(xiàng)目主頁(yè):https://ssi-bench.github.io/

Arxiv論文:https://arxiv.org/abs/2602.07864

Hugging Face數(shù)據(jù)集:https://huggingface.co/datasets/cyang203912/SSI-Bench

Github代碼庫(kù):https://github.com/ccyydd/SSI-Bench

論文將這種能力明確界定為Constrained-Manifold Spatial Reasoning(CMSR,約束流形空間推理):

在此類任務(wù)中,潛在三維狀態(tài)并非可被任意「臆測(cè)」,而是受到顯式約束的限定,僅能落在一個(gè)可行解集合內(nèi)——既需要滿足等式約束(如幾何一致性、連接關(guān)系等),也需要滿足不等式約束(如非相交條件、支撐條件與物理可行性等)。

更重要的是,強(qiáng)約束會(huì)顯著收縮可行三維配置空間,使「高度、距離、最短路徑」等空間關(guān)系在不同合理解釋下更具穩(wěn)定性,從而使評(píng)測(cè)結(jié)果具備更好的可量化性與可比性

SSI-Bench正是在這一背景下提出:它不再將模型置于約束較弱、可自由組合的日常場(chǎng)景中,而是面向復(fù)雜真實(shí)工程結(jié)構(gòu)構(gòu)建評(píng)測(cè)環(huán)境,要求模型形成約束一致的三維結(jié)構(gòu)假設(shè),并在此基礎(chǔ)上完成空間推理。


聚焦復(fù)雜三維結(jié)構(gòu)

純?nèi)斯び埠舜蛟?/strong>

任務(wù)形式:用排序題「逼出」真3D

SSI-Bench不再讓模型做選擇題,而是統(tǒng)一成排序任務(wù):每題給出3或4個(gè)候選「構(gòu)件/構(gòu)件組」,要求在指定幾何/拓?fù)錅?zhǔn)則下輸出正確的全排列順序。

覆蓋能力:幾何+拓?fù)?多視角一致性

全基準(zhǔn)共1,000道排序題,任務(wù)分兩大類:

  • 幾何類(Geometric):Ground Height / Ground Angle / Dimension / Relative Distance / Area / Volume;

  • 拓?fù)漕悾═opological):Hop Distance / Cycle Length等圖結(jié)構(gòu)關(guān)系;

并額外引入多視角題目:以兩張圖配合,一張?zhí)峁﹨⒖紭?gòu)件,一張給出待比較目標(biāo),重點(diǎn)考察跨視角構(gòu)件對(duì)應(yīng)與整體結(jié)構(gòu)一致性。


構(gòu)建過(guò)程:十位研究者耗費(fèi)400+小時(shí)純?nèi)斯ご蚰?/strong>

為了保證數(shù)據(jù)集的質(zhì)量與多樣性,同時(shí)也由于缺乏真實(shí)結(jié)構(gòu)構(gòu)件的標(biāo)注數(shù)據(jù),SSI-Bench的構(gòu)建流程非常「硬核」——10位研究者投入超過(guò)400小時(shí),從大量真實(shí)結(jié)構(gòu)圖片中進(jìn)行人工篩選與題目設(shè)計(jì):

  • 數(shù)據(jù)收集:研究中共計(jì)審閱約20,000張結(jié)構(gòu)相關(guān)圖片,結(jié)構(gòu)形式包括空間網(wǎng)架、鐵塔、斜拉橋、木竹結(jié)構(gòu)、鋼筋籠、管道等,最終保留2,000+候選;主要來(lái)自免版稅來(lái)源(Unsplash / Pexels / Pixabay),多視角部分還補(bǔ)充了自采圖像。

  • 任務(wù)設(shè)計(jì):結(jié)合空間智能需求與結(jié)構(gòu)工程專業(yè)知識(shí),共精心設(shè)計(jì)2大類、10小類任務(wù)。

  • 元數(shù)據(jù)標(biāo)注:判斷每張圖片適用的任務(wù)類型,使用Label Studio提供構(gòu)件定位標(biāo)注;

  • 問(wèn)題生成:依據(jù)圖片色彩自動(dòng)選取標(biāo)注顏色,并按構(gòu)件位置自動(dòng)布局標(biāo)注文本;問(wèn)題生成后,由人工復(fù)核清晰度與遮擋情況。

  • 質(zhì)量檢驗(yàn):每題均由獨(dú)立檢查者復(fù)核,若存在分歧則交由第三人裁決。最終共獲得1,000道有效題目。


模型仍在起跑線

人類領(lǐng)先近六成

SSI-Bench系統(tǒng)評(píng)測(cè)了31個(gè)主流VLM,結(jié)論非常直接:人類幾乎「碾壓式領(lǐng)先」。

人類平均91.6%,最強(qiáng)閉源33.6%(Gemini-3-Flash),最強(qiáng)開(kāi)源22.2%(GLM-4.6V),隨機(jī)猜測(cè)基線12.85%

也就是說(shuō),哪怕拿到當(dāng)下最強(qiáng)大模型,人類仍然領(lǐng)先58個(gè)百分點(diǎn)(91.6 ? 33.6)。


更為關(guān)鍵的是,即使鼓勵(lì)模型生成更長(zhǎng)的推理過(guò)程,整體提升也多停留在邊際層面,難以觸及問(wèn)題的核心瓶頸。并且在部分高度依賴全局三維一致性的任務(wù)(如Multi-View、Volume)中,過(guò)度推理反而可能在錯(cuò)誤的結(jié)構(gòu)假設(shè)上持續(xù)累積偏差,使結(jié)果進(jìn)一步偏離正確答案。


從結(jié)果到機(jī)制

關(guān)鍵瓶頸在哪里?

論文對(duì)代表模型做了人工復(fù)盤(pán),歸納出四類高頻錯(cuò)誤:

  • 構(gòu)件范圍誤判:僅觀察到局部便誤認(rèn)為整體,或?qū)Χ它c(diǎn)位置產(chǎn)生錯(cuò)誤「補(bǔ)全」;遮擋越多,問(wèn)題越突出。

  • 構(gòu)件/節(jié)點(diǎn)識(shí)別錯(cuò)誤:混淆不同部件,方向判斷失準(zhǔn)(例如將傾斜構(gòu)件誤判為水平或垂直)。

  • 計(jì)算與比較邏輯錯(cuò)誤:在Area/Volume等任務(wù)中計(jì)算方式錯(cuò)誤(例如以2D投影替代3D體積),或采用不成立的簡(jiǎn)化假設(shè)。

  • 3D空間邏輯錯(cuò)誤:深度關(guān)系混亂、跨視角對(duì)應(yīng)失敗、關(guān)系組合不穩(wěn)定,進(jìn)而導(dǎo)致整體結(jié)構(gòu)假設(shè)不一致。

這也解釋了SSI-Bench的「硬核」并不在于題目刻意刁鉆,而在于它迫使模型直面并補(bǔ)齊兩項(xiàng)關(guān)鍵短板:三維結(jié)構(gòu)構(gòu)型識(shí)別約束一致的空間推理。


結(jié)語(yǔ)

SSI-Bench的價(jià)值,并不是再造一個(gè)「更難的VQA」,而是把空間智能評(píng)估拉回一個(gè)更接近現(xiàn)實(shí)的坐標(biāo)系:

當(dāng)場(chǎng)景是復(fù)雜真實(shí)結(jié)構(gòu)、當(dāng)可行解被強(qiáng)約束收縮、當(dāng)2D捷徑不再可靠——模型是否還能穩(wěn)定地構(gòu)建約束一致的3D結(jié)構(gòu)假設(shè)并完成推理?

從目前結(jié)果看,答案仍然很殘酷:模型還在起跑線,人類已在終點(diǎn)線附近。

但也正因如此,SSI-Bench給出了一個(gè)非常明確的研究方向:

讓空間智能體從「會(huì)看圖說(shuō)話」,走向「會(huì)在結(jié)構(gòu)里思考」。

參考資料:

https://ssi-bench.github.io/

Yang, C. (楊晨), Lin, G., He, Y., Chen, P., Liu, G., Mo, Y., Xu, Z., Wang, L., Zhang, G., Zhang, Z., Zeng, S., Wang, C. (王琛), & Fan, J. (樊健生) (2026). Thinking in structures: Evaluating spatial intelligence through reasoning on constrained manifolds. arXiv. https://arxiv.org/abs/2602.07864.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
押寶小鵬,廣州賭一把大的

押寶小鵬,廣州賭一把大的

拆神
2026-02-27 11:06:24
哈登新傷情出爐:將直接拖累騎士正在成型的化學(xué)反應(yīng)!

哈登新傷情出爐:將直接拖累騎士正在成型的化學(xué)反應(yīng)!

夜白侃球
2026-02-27 14:16:27
參宿四爆炸后,地球夜空會(huì)亮如白晝,至少半年不用開(kāi)燈了

參宿四爆炸后,地球夜空會(huì)亮如白晝,至少半年不用開(kāi)燈了

三農(nóng)老歷
2026-02-27 19:40:27
巴薩拿到了最好的抽簽結(jié)果,巴黎和皇馬是下下簽

巴薩拿到了最好的抽簽結(jié)果,巴黎和皇馬是下下簽

米奇兔
2026-02-27 19:59:50
72萬(wàn)個(gè)充電樁,年入40億,常州夫婦邊賺錢(qián)邊收割,如今要上市了

72萬(wàn)個(gè)充電樁,年入40億,常州夫婦邊賺錢(qián)邊收割,如今要上市了

毒sir財(cái)經(jīng)
2026-02-22 10:38:14
落下風(fēng),曼聯(lián)英超主場(chǎng)對(duì)水晶宮兩連敗,近6場(chǎng)輸4場(chǎng)

落下風(fēng),曼聯(lián)英超主場(chǎng)對(duì)水晶宮兩連敗,近6場(chǎng)輸4場(chǎng)

懂球帝
2026-02-28 04:51:00
美國(guó)被曝已決定對(duì)伊朗發(fā)動(dòng)軍事打擊,預(yù)計(jì)23日或24日

美國(guó)被曝已決定對(duì)伊朗發(fā)動(dòng)軍事打擊,預(yù)計(jì)23日或24日

每日經(jīng)濟(jì)新聞
2026-02-23 14:21:22
男子160萬(wàn)江景房被父母堆成“廢品站”:角落全是廢舊紙箱、多年不用的家電、瓶瓶罐罐,幾乎沒(méi)有下腳地,引發(fā)網(wǎng)友共鳴:同款爸媽,很難改

男子160萬(wàn)江景房被父母堆成“廢品站”:角落全是廢舊紙箱、多年不用的家電、瓶瓶罐罐,幾乎沒(méi)有下腳地,引發(fā)網(wǎng)友共鳴:同款爸媽,很難改

極目新聞
2026-02-27 13:11:18
賺大了!網(wǎng)友網(wǎng)購(gòu)一條32GB DDR5內(nèi)存 打開(kāi)包裹目瞪口呆:竟收到十條

賺大了!網(wǎng)友網(wǎng)購(gòu)一條32GB DDR5內(nèi)存 打開(kāi)包裹目瞪口呆:竟收到十條

快科技
2026-02-27 09:37:04
三名新任省委常委新職明確

三名新任省委常委新職明確

上觀新聞
2026-02-27 14:46:22
是時(shí)候重新認(rèn)識(shí)——西門(mén)子!

是時(shí)候重新認(rèn)識(shí)——西門(mén)子!

科學(xué)火箭叔
2025-12-09 20:38:29
山東一家事業(yè)單位注銷(xiāo)!

山東一家事業(yè)單位注銷(xiāo)!

萊蕪福禧今日信息
2026-02-27 06:33:18
別再死磕AI了!高盛預(yù)警:資金正瘋狂涌入“低淘汰”重資產(chǎn)

別再死磕AI了!高盛預(yù)警:資金正瘋狂涌入“低淘汰”重資產(chǎn)

流蘇晚晴
2026-02-27 18:14:47
郭書(shū)瑤東京吃拉面「突亮出奇葩私物」!友秒吐槽:有病哦 對(duì)話全曝光

郭書(shū)瑤東京吃拉面「突亮出奇葩私物」!友秒吐槽:有病哦 對(duì)話全曝光

ETtoday星光云
2026-02-26 13:50:05
原來(lái)不是AI!郭士強(qiáng)場(chǎng)邊搶斷富永啟生視頻曝光,球迷都看樂(lè)了!

原來(lái)不是AI!郭士強(qiáng)場(chǎng)邊搶斷富永啟生視頻曝光,球迷都看樂(lè)了!

籃球資訊達(dá)人
2026-02-27 11:57:39
《夜王》在香港賣(mài)瘋了?看完全片,我極其冷靜地,寫(xiě)下這篇文章

《夜王》在香港賣(mài)瘋了?看完全片,我極其冷靜地,寫(xiě)下這篇文章

小丸子的娛樂(lè)圈
2026-02-27 14:56:37
打人夫妻被正式批捕,女孩家就安全了嗎?或許還有這三點(diǎn)重要疑問(wèn)

打人夫妻被正式批捕,女孩家就安全了嗎?或許還有這三點(diǎn)重要疑問(wèn)

天天熱點(diǎn)見(jiàn)聞
2026-02-27 06:58:09
大爆冷!美國(guó)男籃僅兩人上雙主場(chǎng)輸多米尼加 吞世預(yù)賽首敗

大爆冷!美國(guó)男籃僅兩人上雙主場(chǎng)輸多米尼加 吞世預(yù)賽首敗

醉臥浮生
2026-02-27 13:14:39
北京家里翻出獨(dú)生子女證的,快查查!藏著幾筆錢(qián)

北京家里翻出獨(dú)生子女證的,快查查!藏著幾筆錢(qián)

小虎新車(chē)推薦員
2026-02-27 20:11:41
周冬雨自曝與余文樂(lè)錄戀綜全程走心 網(wǎng)友:十年售后來(lái)得猝不及防

周冬雨自曝與余文樂(lè)錄戀綜全程走心 網(wǎng)友:十年售后來(lái)得猝不及防

手工制作阿殲
2026-02-27 16:21:47
2026-02-28 07:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14604文章數(shù) 66646關(guān)注度
往期回顧 全部

數(shù)碼要聞

雷克沙1TB高速固態(tài)U盤(pán)首發(fā)1119元:USB 3.2-A/C雙接口

頭條要聞

特朗普警告伊朗:“有時(shí)候不得不打”

頭條要聞

特朗普警告伊朗:“有時(shí)候不得不打”

體育要聞

一場(chǎng)必須要贏的比賽,男籃何止擊敗了裁判

娛樂(lè)要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛(ài)

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

汽車(chē)要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

藝術(shù)
本地
游戲
手機(jī)
公開(kāi)課

藝術(shù)要聞

王個(gè)簃『清供圖』

本地新聞

津南好·四時(shí)總相宜

《寶可夢(mèng):冠軍》4月登陸NS 夏季登陸手機(jī)端

手機(jī)要聞

澎湃OS 3 Beta新版本,涵蓋5款機(jī)型,堆疊排布+超級(jí)小愛(ài)全落地

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版