国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

商湯開源SenseNova-SI-1.3,八大空間智能榜單綜合評(píng)分登頂

0
分享至

商湯科技正式開源空間智能模型日日新SenseNova-SI-1.3,在空間測量、視角轉(zhuǎn)換、綜合推理等核心任務(wù)中展現(xiàn)出顯著提升,另外對(duì)比之前的版本增強(qiáng)了回答簡答題的能力。在集成多項(xiàng)權(quán)威空間智能榜單的綜合評(píng)測平臺(tái)EASI上,SenseNova-SI-1.3綜合性能超越Gemini-3-Pro,均分?jǐn)孬@EASI-8(八個(gè)權(quán)威空間智能榜單的混合評(píng)測)標(biāo)準(zhǔn)第一,在多個(gè)高難度空間任務(wù)(尤其是視角轉(zhuǎn)換)中表現(xiàn)優(yōu)異。



刁鉆考題驗(yàn)證:SenseNova-SI-1.3精準(zhǔn)突破空間智能核心難點(diǎn)

EASI-8包含一系列專門考察空間理解能力的高難度測試題,讓Gemini-3-Pro等模型都頻頻踩坑。那么SenseNova-SI-1.3表現(xiàn)如何呢?(下列問題在測試模型時(shí)使用的原題為英文,為便于讀者理解翻譯為中文)。



題目要求統(tǒng)計(jì)兩張照片中建筑模型的總數(shù)量,核心難點(diǎn)是理解兩張圖的對(duì)應(yīng)關(guān)系,以此避免遮擋漏數(shù)和重復(fù)多數(shù)。圖2視角下顯現(xiàn)出圖 1 中被遮擋的深灰色建筑,且部分模型在兩圖中重復(fù)出現(xiàn)。Gemini-3-Pro未完全去重,誤數(shù)為 6 個(gè);SenseNova-SI-1.3則給出 “4 個(gè)”的準(zhǔn)確答案。



題目給出兩張書房局部照片,已知 iMac 位于房間北部,詢問學(xué)生寫作業(yè)區(qū)域的方位。需先理解兩張圖片屬于同一空間,再通過視覺線索拼接場景。Gemini-3-Pro誤判學(xué)習(xí)區(qū)在西側(cè);SenseNova-SI-1.3精準(zhǔn)定位 “西北角”,完全符合空間邏輯。



題目要求以 “未戴眼鏡男士的自身視角” 判斷身旁戴眼鏡男士的方位,考察 “參照系轉(zhuǎn)換” 能力,模型很容易以“觀察者視角”來判斷方向。Gemini-3-Pro就誤選了 “右邊”;SenseNova-SI-1.3則能正確給出 “左邊” 的正確答案。



題目給出粉色瓶子前、后、左、右 4 張照片,詢問圖 4 角度下瓶子左邊物體。這道題需整合多視角線索重構(gòu)房間全局布局,再切換至目標(biāo)視角判斷方位 —— 第 4 張照片中瓶子左側(cè)完全處于視覺盲區(qū),僅能通過前 3 張圖中的窗戶、床、衣柜等線索還原空間關(guān)系。Gemini-3-Pro誤選 “窗戶和藍(lán)色窗簾”,SenseNova-SI-1.3精準(zhǔn)鎖定正確答案 “衣柜和門”。



以雙層巴士與公交站的場景為題,需避免陷入“英國巴士靠左行駛,因此靠站的是左側(cè)”的常識(shí)陷阱,而是通過實(shí)際的視覺畫面判斷方位。Gemini-3-Pro誤判 “左側(cè)” 為答案;而 SenseNova-SI-1.3 則準(zhǔn)確理解 “右側(cè)” 為正確答案。

空間智能是極其獨(dú)特的多模態(tài)能力



Core Knowledge Deficits in Multi-Modal Language Models (2025)發(fā)現(xiàn)視角轉(zhuǎn)換任務(wù)與其它多模態(tài)任務(wù)的相關(guān)性(紅框內(nèi))呈藍(lán)色,即代表相關(guān)性較低

一篇2025年發(fā)表于機(jī)器學(xué)習(xí)頂會(huì)ICML的論文《Core Knowledge Deficits in Multi-Modal Language Models》揭示了一個(gè)有趣的發(fā)現(xiàn):視角轉(zhuǎn)換(Perspective)和所有傳統(tǒng)多模態(tài)模型的能力的相關(guān)性均異常得低,這代表主流算法路徑可能不是空間智能的形成的有效路徑,這也解釋了為什么領(lǐng)先的多模態(tài)大模型在空間智能相關(guān)的任務(wù)上表現(xiàn)不佳。



Core Knowledge Deficits in Multi-Modal Language Models (2025)發(fā)現(xiàn)增大模型尺寸對(duì)提升視角轉(zhuǎn)換任務(wù)效果不佳

這篇論文也發(fā)現(xiàn),空間智能似乎存在反尺度效應(yīng)的現(xiàn)象:更大的模型并不能更好地解決空間智能任務(wù)。另外,在EASI的官方報(bào)告中也可以找到相似的描述,指出視角轉(zhuǎn)換任務(wù)(Perspective-taking)依然是最具挑戰(zhàn)的基礎(chǔ)能力之一。

空間智能需要全新的學(xué)習(xí)范式。

從3D世界數(shù)據(jù)匱乏到空間智能的尺度效應(yīng)



空間智能的核心——視角轉(zhuǎn)換任務(wù)被拆解成了三個(gè)關(guān)鍵步驟:建立跨視角關(guān)聯(lián)、理解視角移動(dòng)、想象視角變換,并圍繞著解決這三個(gè)基礎(chǔ)能力構(gòu)造大量訓(xùn)練數(shù)據(jù)

學(xué)術(shù)界現(xiàn)有數(shù)據(jù)集多著重于目標(biāo)識(shí)別與場景理解,模型往往停留在圖像模式匹配階段,難以形成穩(wěn)定的空間理解能力?;谶@一洞察,想要解決空間智能尤其是視角轉(zhuǎn)換任務(wù),簡單擴(kuò)充相關(guān)數(shù)據(jù)規(guī)模是不夠的。為了解決這一根本問題,我們將視角轉(zhuǎn)換看作從二維視覺信息邁向三維空間關(guān)系理解的關(guān)鍵橋梁,并將其拆解為遞進(jìn)的能力階段,由易到難、難度遞增的三個(gè)任務(wù)層級(jí)(建立跨視角關(guān)聯(lián)、理解視角移動(dòng)、想象視角變換),并構(gòu)造大量且層次分明的訓(xùn)練數(shù)據(jù),使模型建立完備的空間理解能力。

同時(shí),在數(shù)據(jù)規(guī)模持續(xù)擴(kuò)大的過程中,SenseNova-SI團(tuán)隊(duì)挖掘并重組多視角學(xué)術(shù)數(shù)據(jù)資源,將許多過去未被充分利用的標(biāo)注轉(zhuǎn)化為視角轉(zhuǎn)換訓(xùn)練數(shù)據(jù)。例如,多目關(guān)聯(lián)數(shù)據(jù)集MessyTable提供了高物體復(fù)雜度場景,其中跨視角物體一致性信息與精確的相機(jī)位姿標(biāo)注,可用于訓(xùn)練物體對(duì)應(yīng)與相機(jī)運(yùn)動(dòng)推理能力;而部分室內(nèi)場景掃描數(shù)據(jù)如CA-1M中包含物體自身朝向標(biāo)注的樣本,則被用于補(bǔ)充模型進(jìn)行視角轉(zhuǎn)換與想象所需的稀缺數(shù)據(jù)。這種跨數(shù)據(jù)源的重組與再利用,使積累大量豐富而系統(tǒng)的空間理解數(shù)據(jù)成為可能。

轉(zhuǎn)載來源:商湯科技

本文為量子位獲授權(quán)轉(zhuǎn)載,觀點(diǎn)僅為原作者所有。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2026-02-25 16:31:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12199文章數(shù) 176392關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽跑親戚 老婆李白模特身材

財(cái)經(jīng)要聞

GEO亂象:誰為AI營銷的泡沫買單?

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

藝術(shù)
手機(jī)
時(shí)尚
旅游
本地

藝術(shù)要聞

這位藝術(shù)家的馬賽克畫讓人驚嘆不已!

手機(jī)要聞

消息稱OPPO Find N6是萊茵測過“全球最平整”折疊機(jī),首發(fā)無痕鈦合金鉸鏈+自修復(fù)記憶玻璃

普通人穿衣別太老氣橫秋!這些穿搭給你靈感,保暖耐看兩不誤

旅游要聞

櫻桃花開了!來烏當(dāng)赴一場春暖花開之約

本地新聞

津南好·四時(shí)總相宜

無障礙瀏覽 進(jìn)入關(guān)懷版