国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

JanusVLN:雙重隱式記憶解耦語義與空間,開創(chuàng)視覺語言導(dǎo)航記憶新范式

0
分享至


JanusVLN通過雙重隱式記憶解耦語義與空間,實(shí)現(xiàn)高效視覺語言導(dǎo)。

01

引言

視覺-語言導(dǎo)航(Vision-and-Language Navigation, VLN)作為具身智能的關(guān)鍵研究領(lǐng)域,旨在賦予智能體根據(jù)自然語言指令在未知三維環(huán)境中導(dǎo)航的能力。近期,多模態(tài)大語言模型(MLLM)憑借其卓越的語義理解與推理能力,極大地推動(dòng)了VLN領(lǐng)域的發(fā)展。然而,當(dāng)前主流方法普遍依賴于構(gòu)建**顯式記憶**(如文本拓?fù)涞貓D或存儲歷史圖像序列),這一范式面臨三大核心挑戰(zhàn):

1. 空間信息損失:基于文本的記憶難以精確表征復(fù)雜的空間幾何關(guān)系。

2. 計(jì)算效率低下:重復(fù)處理歷史觀測數(shù)據(jù)導(dǎo)致巨大的計(jì)算冗余與推理延遲。

3. 記憶無限膨脹:記憶體積隨導(dǎo)航步數(shù)線性增長,阻礙了模型在長時(shí)序任務(wù)中的有效信息提取。

更根本的矛盾在于,現(xiàn)有模型大多沿用為2D圖文任務(wù)設(shè)計(jì)的視覺編碼器,未能充分利用RGB圖像中蘊(yùn)含的豐富3D空間線索(如透視、遮擋),從根本上限制了其三維空間感知能力。為突破這些瓶頸,我們從人類認(rèn)知科學(xué)中獲得啟發(fā)——人腦在導(dǎo)航時(shí),左右半球分別處理語義與空間信息,并形成高效的隱式表征。

基于此,我們提出了一種全新的VLN框架——JanusVLN。該框架首次引入雙重隱式神經(jīng)記憶(Dual Implicit Neural Memory),將視覺語義與空間幾何信息解耦,并將其建模為兩個(gè)獨(dú)立的、緊湊的、固定大小的神經(jīng)表征(neural representation)。JanusVLN僅需單目RGB視頻流,便能賦予模型強(qiáng)大的3D空間推理能力,并通過高效的增量式更新機(jī)制,在實(shí)現(xiàn)卓越性能的同時(shí),顯著降低了計(jì)算開銷。

論文標(biāo)題:JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

論文鏈接:https://arxiv.org/abs/2509.22548

項(xiàng)目主頁:https://miv-xjtu.github.io/JanusVLN.github.io/

代碼地址:https://github.com/MIV-XJTU/JanusVLN

02

JanusVLN:雙重隱式記憶框架


JanusVLN的核心創(chuàng)新在于其雙重隱式記憶框架,它將導(dǎo)航記憶從顯式、高維的原始數(shù)據(jù),轉(zhuǎn)變?yōu)殡[式、緊湊的神經(jīng)網(wǎng)絡(luò)內(nèi)部表征。

核心設(shè)計(jì)理念

1.**解耦的視覺感知:語義與空間**

為實(shí)現(xiàn)全面的環(huán)境理解,JanusVLN采用雙編碼器架構(gòu),分別處理“是什么”(語義)與“在哪里”(空間)的問題:

- **2D視覺語義編碼器**:采用Qwen2.5-VL的視覺編碼器,提取圖像中的高級語義特征。

- **3D空間幾何編碼器**:引入預(yù)訓(xùn)練的3D視覺幾何基礎(chǔ)模型(VGGT),僅從RGB視頻中便可推斷出蘊(yùn)含深度、遮擋等豐富3D結(jié)構(gòu)的幾何特征,賦予模型無需昂貴深度傳感器的3D感知能力。

2.**雙重隱式神經(jīng)記憶:以KV緩存為載體**

我們創(chuàng)新地將神經(jīng)網(wǎng)絡(luò)注意力模塊的鍵值對(Key-Value, KV)緩存作為記憶的載體。這種經(jīng)網(wǎng)絡(luò)深度處理的KV對是環(huán)境信息的高度抽象和濃縮,構(gòu)成了緊湊且高效的隱式記憶。JanusVLN分別為語義與空間編碼器維護(hù)獨(dú)立的KV緩存,形成了互補(bǔ)的雙重記憶。

3.**高效的混合增量更新**

為維持記憶的固定大小并兼顧全局與局部信息,我們設(shè)計(jì)了一種混合緩存更新策略:

- **滑動(dòng)窗口**:緩存最近幾幀的KV,確保對即時(shí)環(huán)境的敏銳感知。

- **初始窗口**:永久保留任務(wù)初始幾幀的KV。研究表明,這些初始幀如同“注意力接收器”,為長期任務(wù)提供關(guān)鍵的全局錨點(diǎn)。

該機(jī)制使得模型在每一步僅需處理當(dāng)前幀,并通過與固定大小的隱式記憶交互來復(fù)用歷史信息,徹底避免了對歷史幀的重復(fù)計(jì)算,從而解決了記憶膨脹問題并大幅提升了推理效率。


03


實(shí)驗(yàn)驗(yàn)證

1.定量性能對比

我們在權(quán)威的VLN-CE基準(zhǔn)上進(jìn)行了全面評估。實(shí)驗(yàn)結(jié)果表明,JanusVLN在各項(xiàng)指標(biāo)上均取得了SOTA性能。



- **超越SOTA方法**:與同樣僅使用RGB輸入的SOTA方法(如NaVILA, StreamVLN)相比,JanusVLN在成功率(SR)上取得了**3.6至10.8個(gè)點(diǎn)**的顯著提升,且使用了更少的外部訓(xùn)練數(shù)據(jù),驗(yàn)證了雙重隱式記憶范式的優(yōu)越性。

- **超越多模態(tài)輸入方法**:相較于依賴全景圖、深度圖等昂貴多模態(tài)輸入的方法,JanusVLN僅憑單目RGB輸入,便在SR指標(biāo)上實(shí)現(xiàn)了**10.5至35.5個(gè)點(diǎn)**的巨大優(yōu)勢。

- **強(qiáng)大的泛化能力**:在更具挑戰(zhàn)性的多語言RxR-CE數(shù)據(jù)集上,JanusVLN同樣刷新了SOTA記錄,展現(xiàn)了其卓越的泛化性能。

2.計(jì)算效率優(yōu)勢


*圖3:隨著序列長度增加,JanusVLN(Cached Memory)與基線方法(VGGT)的單幀推理時(shí)間對比*

如圖所示,JanusVLN的增量式更新機(jī)制使其推理時(shí)間幾乎不受導(dǎo)航步數(shù)影響,而VGGT由于需要重復(fù)處理整個(gè)序列,其計(jì)算成本呈指數(shù)級增長。這證明了JanusVLN在實(shí)現(xiàn)長時(shí)序?qū)Ш椒矫娴木薮鬂摿Α?/p>

3.空間推理能力定性分析


我們選取了幾個(gè)對空間理解要求極高的導(dǎo)航任務(wù),例如:

- **深度感知**(定位到“最遠(yuǎn)的”黃色凳子)

- **相對方位理解**(停在盆栽“旁邊”而非“前方”)

- **空間關(guān)聯(lián)推理**(找到橙色柜子“旁邊”的凳子)

實(shí)驗(yàn)表明,得益于空間幾何記憶提供的3D感知能力,JanusVLN能夠準(zhǔn)確理解這些復(fù)雜的空間指令,并成功完成任務(wù),而這正是傳統(tǒng)VLN模型面臨的主要挑戰(zhàn)。

04


總結(jié)與展望

本文提出的**JanusVLN**框架,通過引入開創(chuàng)性的**雙重隱式神經(jīng)記憶**,成功將視覺語義與空間幾何信息解耦,從根本上解決了傳統(tǒng)VLN方法在記憶機(jī)制上的核心瓶頸。該框架不僅實(shí)現(xiàn)了僅依靠RGB輸入進(jìn)行精確的3D空間感知,還通過高效的增量式更新大幅提升了計(jì)算效率。

全面的實(shí)驗(yàn)結(jié)果驗(yàn)證了JanusVLN的卓越性能與泛化能力。我們相信,這項(xiàng)工作將推動(dòng)VLN研究從“2D語義主導(dǎo)”的范式,邁向“3D空間與語義協(xié)同”的新階段,為構(gòu)建下一代具備高級空間認(rèn)知能力的具身智能體鋪平了道路。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
第二個(gè)李登輝出現(xiàn)了?她專門臥底國民黨內(nèi)部,目的就是摧毀國民黨

第二個(gè)李登輝出現(xiàn)了?她專門臥底國民黨內(nèi)部,目的就是摧毀國民黨

面包夾知識
2025-12-19 13:07:50
2025深圳企業(yè)500強(qiáng)榜單發(fā)布,中國平安、華為、比亞迪位列前三

2025深圳企業(yè)500強(qiáng)榜單發(fā)布,中國平安、華為、比亞迪位列前三

野武士
2025-12-19 11:38:04
已變光頭,雷霆前鋒托皮奇在接受睪丸癌化療手術(shù)后重返訓(xùn)練場

已變光頭,雷霆前鋒托皮奇在接受睪丸癌化療手術(shù)后重返訓(xùn)練場

懂球帝
2025-12-19 09:08:06
機(jī)關(guān)事業(yè)退休老人必看!60號文件,就是你的養(yǎng)老錢說明書

機(jī)關(guān)事業(yè)退休老人必看!60號文件,就是你的養(yǎng)老錢說明書

白淺娛樂聊
2025-12-19 10:25:20
傅作義拎著三斤黃金去面見毛澤東,主席說:“金子你拿回去,槍交出來!”

傅作義拎著三斤黃金去面見毛澤東,主席說:“金子你拿回去,槍交出來!”

老杉說歷史
2025-12-17 19:19:12
鄭國霖上海買巧克力豆,買三袋結(jié)賬時(shí)表情都變了,被網(wǎng)友笑大冤種

鄭國霖上海買巧克力豆,買三袋結(jié)賬時(shí)表情都變了,被網(wǎng)友笑大冤種

八怪娛
2025-12-16 19:52:14
上月剛升任縣委書記,在大會上我就被排擠,我準(zhǔn)備開始干部調(diào)動(dòng)

上月剛升任縣委書記,在大會上我就被排擠,我準(zhǔn)備開始干部調(diào)動(dòng)

秋風(fēng)專欄
2025-12-16 11:43:12
“姜子牙”飾演者,95歲的藍(lán)天野:白天當(dāng)演員,晚上當(dāng)間諜,隱姓埋名75年,他的人生,比電影還精彩

“姜子牙”飾演者,95歲的藍(lán)天野:白天當(dāng)演員,晚上當(dāng)間諜,隱姓埋名75年,他的人生,比電影還精彩

LULU生活家
2025-12-05 19:05:28
國產(chǎn)芯片光刻膠,70%以上依賴日本進(jìn)口,外媒:致命瓶頸!

國產(chǎn)芯片光刻膠,70%以上依賴日本進(jìn)口,外媒:致命瓶頸!

瘋狂小菠蘿
2025-12-19 13:33:16
罰球絕殺,勇士惜??!巴特勒31+3+3,賽后狄龍一把抱住布克

罰球絕殺,勇士惜??!巴特勒31+3+3,賽后狄龍一把抱住布克

擔(dān)酒
2025-12-19 12:46:31
50歲女士夜里翻身拿手機(jī),突然失去知覺,確診癱瘓!罪魁禍?zhǔn)拙故撬?>
    </a>
        <h3>
      <a href=上海女性
2025-12-18 19:10:56
這種碳水每天吃,4個(gè)月“洗掉”30%身體脂肪,讓70%的人悄悄瘦了

這種碳水每天吃,4個(gè)月“洗掉”30%身體脂肪,讓70%的人悄悄瘦了

時(shí)光派健康抗衰
2025-12-08 16:00:09
帶狗用餐視頻熱傳引眾怒!女子還配文:連盤底都舔了!網(wǎng)友直呼:太過分了……

帶狗用餐視頻熱傳引眾怒!女子還配文:連盤底都舔了!網(wǎng)友直呼:太過分了……

環(huán)球網(wǎng)資訊
2025-12-19 14:05:53
印度首富的家庭瑣事:小兒媳和大伯哥多次牽手,小兒子毫不在意

印度首富的家庭瑣事:小兒媳和大伯哥多次牽手,小兒子毫不在意

小書生吃瓜
2025-12-16 16:49:54
寧波“小洛熙媽媽”,2025年12月18日發(fā)布“四點(diǎn)澄清”——

寧波“小洛熙媽媽”,2025年12月18日發(fā)布“四點(diǎn)澄清”——

葉初七
2025-12-19 10:23:25
血虧5000萬?蘇富比稀世黃鉆“金絲雀”拍賣遇冷,業(yè)內(nèi):早有預(yù)料

血虧5000萬?蘇富比稀世黃鉆“金絲雀”拍賣遇冷,業(yè)內(nèi):早有預(yù)料

果殼
2025-12-19 14:25:00
陳坤廣告造型翻車,臉長鼻子扁像特效,網(wǎng)友:法拉利老了變夏利

陳坤廣告造型翻車,臉長鼻子扁像特效,網(wǎng)友:法拉利老了變夏利

蕾爸退休日記
2025-12-19 13:21:45
徐正源兒子:父親經(jīng)歷艱難的決定,成都永遠(yuǎn)是我們的第二故鄉(xiāng)

徐正源兒子:父親經(jīng)歷艱難的決定,成都永遠(yuǎn)是我們的第二故鄉(xiāng)

懂球帝
2025-12-18 23:14:30
你見過最清閑的事業(yè)編是啥?網(wǎng)友:還有一個(gè)供銷社,閑出病來

你見過最清閑的事業(yè)編是啥?網(wǎng)友:還有一個(gè)供銷社,閑出病來

帶你感受人間冷暖
2025-12-16 00:20:09
專家再次預(yù)測中國房價(jià)走勢,大概率又是對的,提前做好2個(gè)準(zhǔn)備

專家再次預(yù)測中國房價(jià)走勢,大概率又是對的,提前做好2個(gè)準(zhǔn)備

樂天閑聊
2025-12-19 10:52:46
2025-12-19 14:59:00
AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
7012文章數(shù) 20715關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

中戲院長郝戎被查 劉燁、章子怡、靳東等為其學(xué)生

頭條要聞

中戲院長郝戎被查 劉燁、章子怡、靳東等為其學(xué)生

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬

態(tài)度原創(chuàng)

手機(jī)
游戲
藝術(shù)
公開課
軍事航空

手機(jī)要聞

顏值實(shí)力雙在線 vivo S50 Pro mini小屏實(shí)力派

雙旦好禮巨獻(xiàn)!《極限競速》系列Steam冬促來襲!

藝術(shù)要聞

諸樂三的寫意花鳥

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

媒體:美方官宣史上對臺單筆最大軍售 野心藏不住了

無障礙瀏覽 進(jìn)入關(guān)懷版