国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

橫掃室內(nèi)3D場景,港科大(廣州)打造單目開放詞匯占據(jù)預(yù)測新SOTA

0
分享至



在具身智能研究中,如何讓智能體精準(zhǔn)理解周圍環(huán)境的精細(xì)幾何結(jié)構(gòu)與開放語義信息,始終是具身感知的核心難題。近年來,語義占據(jù)預(yù)測(Semantic Occupancy Prediction) 將稠密幾何與語義信息統(tǒng)一到三維體素網(wǎng)格中,用于構(gòu)建 3D 語義占據(jù)地圖,為機(jī)器人的空間推理、導(dǎo)航與交互操作提供了場景表達(dá)基礎(chǔ)。

然而,現(xiàn)有方法大多建立在封閉詞匯(Closed-vocabulary) 設(shè)定下,模型只能識(shí)別訓(xùn)練階段預(yù)先定義好的有限類別。一旦進(jìn)入真實(shí)環(huán)境,場景中的語義往往是開放且長尾的 —— 用戶可能會(huì)直接問:「鞋子在哪兒?」「紙巾在哪兒?」「遙控器在哪兒?」 對于傳統(tǒng)占據(jù)預(yù)測方法而言,超出預(yù)定義類別的目標(biāo)幾乎無法被正確識(shí)別。面對「一個(gè)帶條紋的馬克杯」「一把破損的木椅」這類更細(xì)粒度、描述性更強(qiáng)的目標(biāo)時(shí),封閉詞匯模型往往無能為力。

近期,香港科技大學(xué)(廣州)陳昶昊教授團(tuán)隊(duì)聯(lián)合香港中文大學(xué)(深圳) 研究者提出了 LegoOcc,首次面向具身場景實(shí)現(xiàn)了單目開放詞匯三維占據(jù)預(yù)測。該工作被 CVPR 2026 收錄為 Oral(大會(huì)口頭報(bào)告)。

LegoOcc 以語言嵌入高斯(Language-embedded Gaussians) 作為統(tǒng)一的三維表示,在僅使用幾何標(biāo)簽(二值占據(jù)標(biāo)簽) 訓(xùn)練的情況下,便能支持任意文本描述的目標(biāo)類別查詢,實(shí)現(xiàn)開放詞匯的三維語義占據(jù)預(yù)測。

在 Occ-ScanNet 數(shù)據(jù)集上,LegoOcc 取得了 21.05 mIoU 和 59.50 IoU 的開放詞匯預(yù)測結(jié)果,相比此前最強(qiáng)的開放詞匯模型,mIoU 提升超過 2 倍;同時(shí)其整體幾何占據(jù)預(yù)測精度也超越了多種封閉詞匯方法,展現(xiàn)出極強(qiáng)的性能與泛化能力。



  • 論文標(biāo)題:Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes
  • 論文地址:https://arxiv.org/abs/2602.22667

為什么具身場景的開放語義占據(jù)預(yù)測更困難?

傳統(tǒng)的占據(jù)預(yù)測模型像僅僅背過單詞書,只能認(rèn)出學(xué)過的詞匯類別,而開放詞匯模型則掌握了語言能力,無論遇到什么新物體,都能根據(jù)文本描述進(jìn)行推理。下圖展示了這一差異:

  • 封閉詞匯模型- 只能識(shí)別「椅子」「桌子」等訓(xùn)練時(shí)見過的類別。
  • 開放詞匯模型(LegoOcc)- 可以響應(yīng)任意自然語言查詢,如「鞋子」「紙」等未定義物體,并生成對應(yīng)區(qū)域的熱力圖。



Figure 1 閉集 vs 開集 3D 占據(jù)預(yù)測

此外,室內(nèi)具身環(huán)境與戶外車輛駕駛場景也有不同:

  1. 室內(nèi)場景的幾何更稠密、結(jié)構(gòu)更復(fù)雜,有大量的細(xì)小物體以及遮擋,對幾何建模的精細(xì)度要求高。
  2. 室內(nèi)場景的物體類別繁多、細(xì)粒度要求更高且分布不均衡,很多類別在訓(xùn)練數(shù)據(jù)中只出現(xiàn)寥寥幾次。

因此,直接將室外開放詞匯占據(jù)預(yù)測模型遷移到室內(nèi),會(huì)出現(xiàn)性能下降,已有的少數(shù)室內(nèi)占據(jù)預(yù)測方法仍然依賴固定基類模型,無法支持開放詞匯類別推理。

LegoOCC 框架介紹



Figure 2 LegoOcc 整體算法框架

LegoOcc 將問題拆解為兩部分:幾何學(xué)習(xí)決定空間里哪里「被占據(jù)」,語義學(xué)習(xí)決定這些被占據(jù)區(qū)域「是什么」。為實(shí)現(xiàn)開放詞表場景表達(dá),LegoOcc 采用語言嵌入高斯(LE-Gaussians) 作為統(tǒng)一的中間表示:每個(gè)高斯同時(shí)攜帶幾何參數(shù)(位置、協(xié)方差、不透明度)與一個(gè)語言對齊的語義嵌入。

(1)從單目圖像生成語言嵌入的 3D 高斯

給定輸入圖像,LegoOcc 首先通過前饋網(wǎng)絡(luò)預(yù)測一組三維高斯,這里的每個(gè)高斯不僅包含位置、尺度、協(xié)方差和不透明度等幾何參數(shù),還攜帶一個(gè)與語言空間對齊的語義嵌入。LegoOcc 模型避免在幾何分支和語義分支中使用兩套獨(dú)立表示,而是讓同一組高斯同時(shí)服務(wù)于幾何建模和開放詞匯語義建模。由此,「空間哪里有東西」和「這個(gè)東西是什么」就被統(tǒng)一到了同一個(gè)場景表示框架中。

(2)泊松視角的高斯到占據(jù)轉(zhuǎn)換

在僅有二值占據(jù)監(jiān)督的設(shè)定下,進(jìn)一步研究如何將高斯表示穩(wěn)定地聚合為體素占據(jù)結(jié)果?,F(xiàn)有方法在這一環(huán)節(jié)易出現(xiàn)訓(xùn)練不穩(wěn)定,原因在于二維渲染時(shí)使用了基于不透明度的 α 混合,但三維占據(jù)聚合時(shí)卻可能忽略不透明度信息,導(dǎo)致二維渲染監(jiān)督與三維占據(jù)監(jiān)督之間存在優(yōu)化沖突。

為此,LegoOcc 提出了基于泊松過程的高斯到占據(jù)轉(zhuǎn)換(Poisson-based Gaussian-to-Occupancy, G2O),將每個(gè)高斯在某個(gè)體素位置的有效貢獻(xiàn)視作泊松事件強(qiáng)度,并將「該位置是否被占據(jù)」解釋為「至少發(fā)生一次事件」的概率。相比伯努利并集式聚合,基于泊松過程的建模方式在弱監(jiān)督條件下更穩(wěn)定,也不容易退化到無效的不透明度分配,從而提升了模型幾何學(xué)習(xí)階段的穩(wěn)定性與可優(yōu)化性。



(3)漸進(jìn)溫度衰減減少沿光線的特征混合

在語義學(xué)習(xí)部分,LegoOcc 采用高斯?jié)姙R將三維高斯的語義特征微渲染到圖像平面,再與一個(gè)無需訓(xùn)練的開放詞匯分割模型(文中采用 Trident)輸出的圖像特征進(jìn)行余弦相似度對齊。由于 α 混合會(huì)讓每個(gè)像素特征成為沿光線多個(gè)高斯嵌入的加權(quán)混合,然而室內(nèi)場景對象密集、投影重疊多,易導(dǎo)致監(jiān)督信號鼓勵(lì)「混合后的特征」對齊語言,而不是每個(gè)高斯本身對齊語言。

因此提出了漸進(jìn)溫度衰減(Progressive Temperature Decay ),用帶溫度的 sigmoid 函數(shù)控制不透明度,并在訓(xùn)練中把溫度從較高逐步退火到低,使不透明度逐漸變尖銳,減少了沿光線的特征混合,同時(shí)又保留連續(xù)梯度(區(qū)別于硬 Top?k 的離散選擇),提升語言監(jiān)督落到單個(gè)高斯上的精度,增強(qiáng)了模型在開放詞匯語義理解中的判別能力。



實(shí)驗(yàn)結(jié)果

論文從定量實(shí)驗(yàn)、消融實(shí)驗(yàn)和可視化結(jié)果三個(gè)方面驗(yàn)證了提出的 LegoOcc 模型有效性,LegoOcc 在開放語義占據(jù)預(yù)測、三維幾何占據(jù)預(yù)測和推理效率上都展現(xiàn)出了明顯優(yōu)勢。

(1)開放詞匯設(shè)定下 mIoU 超過此前最佳方法 2 倍

論文展示了閉集評測和開放詞匯評測兩種設(shè)定下的定量實(shí)驗(yàn)結(jié)果。在閉集評測中,LegoOcc 在 Occ-ScanNet 的 11 個(gè)固定類別上,預(yù)測與真實(shí)標(biāo)簽更為一致,幾何準(zhǔn)確、語義泛化能力強(qiáng)。在開放詞匯評測中,由視覺語言模型自動(dòng)抽取名詞作為文本查詢(如「鞋子」「洗手池」),模型生成對應(yīng)類別的三維語義占據(jù)結(jié)果,實(shí)現(xiàn)文本驅(qū)動(dòng)的任意語義類別定位。

在 Occ-ScanNet 數(shù)據(jù)集上,LegoOcc 在開放詞匯設(shè)定下取得了 21.05 mIoU 和 59.50 IoU 的結(jié)果。相比此前表現(xiàn)最好的開放詞匯方法 LOcc,LegoOcc 的 mIoU 提升了 11.80 個(gè)點(diǎn)(超過 2 倍),整體 IoU 提升了 22.80 個(gè)點(diǎn)。LegoOcc 的 59.50 IoU 不僅領(lǐng)先開放詞匯方法,甚至還超過了表中所有封閉詞匯模型的最佳整體 IoU。



(2)Poisson 聚合的作用驗(yàn)證

本工作對提出的泊松式高斯到占據(jù)轉(zhuǎn)換(Poisson-based G2O)進(jìn)行了消融實(shí)驗(yàn)。

在開放詞匯設(shè)定下,當(dāng)使用 GaussianFormer2 風(fēng)格聚合時(shí),結(jié)果幾乎退化到 0.00 mIoU / 0.00 IoU;當(dāng)使用 Bernoulli 聚合時(shí),性能恢復(fù)到 17.25 mIoU / 46.65 IoU;當(dāng)使用 Poisson 聚合時(shí),性能進(jìn)一步提升到 21.05 mIoU / 59.50 IoU。這表明引入 Poisson 聚合能夠讓模型在僅有幾何監(jiān)督條件下穩(wěn)定訓(xùn)練、有效學(xué)習(xí)。



(3)漸進(jìn)溫度衰減緩解特征混合問題

本文對溫度控制策略進(jìn)行了消融實(shí)驗(yàn):若訓(xùn)練和測試都固定高溫,雖然幾何 IoU 尚可,但 mIoU 明顯偏低,說明語義學(xué)習(xí)仍受特征混合影響;若訓(xùn)練時(shí)用高溫、測試時(shí)突然切換到低溫,則會(huì)出現(xiàn)訓(xùn)練測試不匹配(Train-test Mismatch);若從訓(xùn)練一開始就使用低溫,則優(yōu)化會(huì)困難,甚至直接退化;當(dāng)采用漸進(jìn)溫度衰減,模型能夠兼顧訓(xùn)練穩(wěn)定性與最終語義判別性,取得最佳結(jié)果。



(4)推理速度具備優(yōu)勢,更適合機(jī)器人平臺(tái)部署

在單張 RTX 4090 上,LegoOcc 的推理速度達(dá)到了 22.47 FPS,明顯快于多種對比方法。相比于自動(dòng)駕駛等場景,機(jī)器人平臺(tái)對推理速度和輕量化計(jì)算要求更高,因此 LegoOcc 更適用于具身機(jī)器人平臺(tái)。



(5)可視化結(jié)果

1. 閉集評測結(jié)果

在 Occ-ScanNet 的固定類別評測中,LegoOcc 的預(yù)測結(jié)果與真實(shí)標(biāo)簽更為一致,幾何和語義預(yù)測能力強(qiáng)。(a) 輸入圖像,(b) 真實(shí)標(biāo)簽,(c)LOcc(對比方法),(d)提出的 LegoOcc。



圖 3 Occ-ScanNet 閉集測試結(jié)果(Closed-vocabulary Results on Occ-ScanNet)

2. 開放詞匯測試結(jié)果

進(jìn)一步使用視覺語言模型(Vision-language Model)自動(dòng)從場景中提取名詞作為文本查詢,例如「鞋子」「洗手池」「顯示器」等,并讓模型生成對應(yīng)類別的三維語義占據(jù)預(yù)測結(jié)果。LegoOcc 不局限于訓(xùn)練時(shí)給定的固定類別,能夠根據(jù)自然語言描述進(jìn)行三維空間中的目標(biāo)識(shí)別,實(shí)現(xiàn)了文本驅(qū)動(dòng)的開放詞匯三維查詢。



圖 4 開放詞匯測試結(jié)果(Open-vocabulary Results)

展望與意義

面向具身室內(nèi)場景,本文提出 LegoOcc ,一種單目開放語義占據(jù)預(yù)測框架,采用語言嵌入的高斯統(tǒng)一表達(dá)幾何與語義場景信息。幾何側(cè)以泊松聚合穩(wěn)定弱監(jiān)督訓(xùn)練,語義側(cè)用漸進(jìn)溫度退火削弱特征混合,模型在無需體素語義標(biāo)注的前提下,實(shí)現(xiàn)了文本驅(qū)動(dòng)的三維語義占據(jù)預(yù)測。

未來的家用機(jī)器人能夠高效地將三維場景表達(dá)為體素網(wǎng)格,只需一句「幫我找一下茶幾上的遙控器」,即可在復(fù)雜空間中精準(zhǔn)定位目標(biāo)物體,而無需預(yù)先「學(xué)習(xí)」過遙控器這一類別。

作者介紹

周常青:香港科技大學(xué)(廣州)博士生,致力于高效且穩(wěn)定的三維場景理解方法研究,當(dāng)前重點(diǎn)關(guān)注端到端軌跡生成模型,以及面向?qū)Ш饺蝿?wù)的高效世界模型構(gòu)建。

張涵:香港科技大學(xué)(廣州)紅鳥碩士生,專注探索高效可靠的三維場景理解方法,現(xiàn)階段重點(diǎn)探索三維視覺語義定位方法,以及適配導(dǎo)航任務(wù)的高效世界模型構(gòu)建。

江澤宇:香港科技大學(xué)(廣州)博士生,主要研究方向?yàn)楦咝У目臻g物理智能體,專注于將通用空間智能注入現(xiàn)實(shí)開放環(huán)境的具身應(yīng)用場景。

陳昶昊(通訊作者):香港科技大學(xué)(廣州)智能交通學(xué)域和人工智能學(xué)域助理教授,博士生導(dǎo)師,香港科技大學(xué)跨學(xué)科學(xué)院聯(lián)署助理教授,從事具身智能感知、導(dǎo)航與交互研究,組建港科大(廣州)PEAK-Lab 課題組并擔(dān)任獨(dú)立 PI。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點(diǎn)
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應(yīng)為何如此激烈

偉偉道來 | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報(bào)
2026-05-06 11:40:46
吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國買房,50萬英鎊獎(jiǎng)金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國買房,50萬英鎊獎(jiǎng)金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個(gè)隱私,是性感嗎?

女性跑步:暴露這個(gè)隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場

在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場

侃故事的阿慶
2026-05-06 09:21:32
被延長的搶救時(shí)間,被卡住的工傷認(rèn)定

被延長的搶救時(shí)間,被卡住的工傷認(rèn)定

新京報(bào)
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動(dòng)筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動(dòng)筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報(bào)
2026-05-06 12:38:05
中美同時(shí)向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時(shí)向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

時(shí)尚
數(shù)碼
游戲
親子
本地

卷首語|這屆年輕人,全員渡劫奧德賽

數(shù)碼要聞

七彩虹戰(zhàn)斧B860M超級黑刃主板圖賞:899元的“千元旗艦”

掌控陰陽挑戰(zhàn)圣山!《生肖山Zodiac Mountain》登陸Steam牌組構(gòu)建游戲節(jié)

親子要聞

52歲王小騫做夢也沒想到,患上矮小癥的女兒,如今竟然迎來了逆襲

本地新聞

用青花瓷的方式,打開西溪濕地

無障礙瀏覽 進(jìn)入關(guān)懷版