国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenClaw帶火AI記憶,DeepMind用混合記憶把3D重建拉到近2萬(wàn)幀

0
分享至



編輯|杜偉

過(guò)去兩天,全球爆火的 Agent 私人助手 OpenClaw,接連更新了兩個(gè)版本,讓人直呼「開發(fā)團(tuán)隊(duì)是不睡覺(jué)了嗎?」

之所以如此爆火,很大程度上歸功于 OpenClaw 的長(zhǎng)期記憶能力,它能夠記住用戶的對(duì)話歷史、偏好設(shè)置、任務(wù)上下文、個(gè)性化調(diào)整、常用信息和數(shù)據(jù)、交互偏好,等等。更新之后,OpenClaw 實(shí)現(xiàn)了上下文管理(記憶)的自由插拔。

記憶機(jī)制是大模型處理復(fù)雜任務(wù)的重要能力之一。在聊天對(duì)話、自動(dòng)化工作流等場(chǎng)景中,模型需要通過(guò)記憶保持長(zhǎng)期上下文。而在 3D 重建領(lǐng)域,尤其是大范圍場(chǎng)景或長(zhǎng)序列視頻重建,跨幀信息的持續(xù)傳播同樣至關(guān)重要,記憶機(jī)制正是實(shí)現(xiàn)這一能力的重要手段。

現(xiàn)有的前饋 3D 重建模型往往依賴短時(shí)上下文窗口,難以有效建模長(zhǎng)序列中的依賴關(guān)系。隨著幾何基礎(chǔ)模型(如 DUSt3R、MonST3R、VGGT)的出現(xiàn),可以從大規(guī)模數(shù)據(jù)中提煉復(fù)雜的幾何先驗(yàn),使得即便在傳統(tǒng)方法較難處理的場(chǎng)景中,仍能實(shí)現(xiàn)穩(wěn)健的前饋推理。不過(guò),當(dāng)前模型仍然存在一個(gè)關(guān)鍵空白:盡管經(jīng)典處理流程可以擴(kuò)展到城市級(jí)別,但現(xiàn)有的前饋模型在處理更大規(guī)模的場(chǎng)景時(shí),仍然受到限制。

主要障礙源自兩個(gè)方面,即當(dāng)前架構(gòu)中固有的上下文壁壘和訓(xùn)練過(guò)程中嚴(yán)重的數(shù)據(jù)壁壘。從架構(gòu)角度看,雖然雙向注意力對(duì)于學(xué)習(xí)復(fù)雜的幾何先驗(yàn)至關(guān)重要,但其二次復(fù)雜度使得它只能應(yīng)用于短時(shí)上下文窗口。而從數(shù)據(jù)角度看,當(dāng)前的模型主要在短時(shí)上下文「氣泡」(幾十到一百多幀)上進(jìn)行訓(xùn)練,這使得它們?cè)谕评頃r(shí)無(wú)法有效整合長(zhǎng)距離依賴(數(shù)千到數(shù)萬(wàn)幀)。因此,像 FastVGGT 這樣的推理時(shí)啟發(fā)式方法,雖然成功緩解了內(nèi)存瓶頸,但仍無(wú)法在大規(guī)模 VBR 數(shù)據(jù)集上進(jìn)行泛化。

針對(duì)這一痛點(diǎn),近日,谷歌 DeepMind 聯(lián)合加州大學(xué)伯克利分校提出了 LoGeR(長(zhǎng)時(shí)上下文幾何重建)。這是一種新穎的架構(gòu),在無(wú)需后期優(yōu)化的情況下將密集的 3D 重建擴(kuò)展到極長(zhǎng)的序列。過(guò)程中,LoGeR 通過(guò)將視頻流分塊處理,利用強(qiáng)大的雙向先驗(yàn)進(jìn)行高保真度的塊內(nèi)推理。

為了應(yīng)對(duì)跨塊邊界一致性的挑戰(zhàn),研究者提出了一種基于學(xué)習(xí)的混合記憶模塊。這個(gè)雙組件系統(tǒng)結(jié)合了參數(shù)化的測(cè)試時(shí)訓(xùn)練(TTT)記憶模塊,用于錨定全局坐標(biāo)框架并防止尺度漂移,同時(shí)使用非參數(shù)化的滑動(dòng)窗口注意力(SWA)機(jī)制來(lái)保持未壓縮的上下文,從而實(shí)現(xiàn)高精度的相鄰塊對(duì)齊。



  • 論文標(biāo)題:LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory
  • arXiv 鏈接:https://arxiv.org/pdf/2603.03269
  • 項(xiàng)目地址:https://loger-project.github.io/

值得注意的是,這種記憶架構(gòu)使得 LoGeR 能夠在 128 幀的序列上進(jìn)行訓(xùn)練,并在推理過(guò)程中泛化到數(shù)千幀。

在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試和重新設(shè)計(jì)的 VBR 數(shù)據(jù)集(包含最多 19000 幀的序列)上進(jìn)行評(píng)估時(shí),LoGeR 明顯超越了先前的前饋方法,在 KITTI 數(shù)據(jù)集上將絕對(duì)軌跡誤差(ATE)降低了超過(guò) 74%,并且在前所未有的時(shí)間跨度上實(shí)現(xiàn)了穩(wěn)健、全球一致的重建。



視覺(jué)展示,在大規(guī)模真實(shí)場(chǎng)景(in-the-wild)以及 VBR 序列上的定性結(jié)果。本文的全前饋方法能夠在數(shù)千幀的長(zhǎng)序列中準(zhǔn)確保持大尺度結(jié)構(gòu),并實(shí)現(xiàn)穩(wěn)定的回環(huán)閉合。

方法概覽

為了將前饋密集型 3D 重建擴(kuò)展到分鐘級(jí)視頻,必須克服全局注意力的二次復(fù)雜度和長(zhǎng)時(shí)訓(xùn)練數(shù)據(jù)的稀缺問(wèn)題。端到端的分塊處理成為自然的解決方案,它嚴(yán)格限制了計(jì)算成本,并確保局部推理保持在現(xiàn)有短時(shí)上下文訓(xùn)練數(shù)據(jù)的分布范圍內(nèi)。然而,獨(dú)立處理每個(gè)塊會(huì)導(dǎo)致全局一致性的喪失。

因而需要這樣一種前饋架構(gòu),它能夠同時(shí)提供: (i) 強(qiáng)大的局部雙向推理能力,以保持密集的幾何保真度;(ii) 無(wú)損的短程信息傳遞通道,以保持跨相鄰塊邊界的高精度幾何對(duì)齊;(iii) 一個(gè)線性時(shí)間、固定大小的記憶機(jī)制,用于在數(shù)千幀的長(zhǎng)距離內(nèi)傳播全局信息。

研究者通過(guò)分塊順序處理輸入視頻流,如圖 1 和圖 2 所示。





為了在塊之間傳播信息,研究者引入了兩種互補(bǔ)的機(jī)制:

一是:通過(guò)分塊 TTT 實(shí)現(xiàn)長(zhǎng)時(shí)、有損壓縮

通過(guò)插入 TTT 層,保持跨多個(gè)塊的快速權(quán)重集 W。與分塊處理方式一致,研究者利用大塊測(cè)試時(shí)訓(xùn)練(LaCT),并證明它比標(biāo)準(zhǔn) TTT 更高效。在推理過(guò)程中,權(quán)重會(huì)對(duì)每個(gè)塊進(jìn)行更新和應(yīng)用操作。在應(yīng)用操作中,TTT 層利用存儲(chǔ)在權(quán)重中的歷史信息來(lái)調(diào)節(jié)網(wǎng)絡(luò)處理當(dāng)前塊的方式。

在更新操作中,權(quán)重會(huì)被編輯,存儲(chǔ)來(lái)自當(dāng)前塊的信息,從概念層面壓縮重要但冗余的幾何信息,例如粗略的幾何形狀和場(chǎng)景的尺度。雖然這些快速權(quán)重理論上提供了無(wú)限的接收?qǐng)?,但它們的?shí)際容量本質(zhì)上受到訓(xùn)練上下文長(zhǎng)度的限制。

二是:通過(guò)滑動(dòng)窗口注意力(SWA)實(shí)現(xiàn)短時(shí)、無(wú)損傳遞

單純依賴 TTT 樣式的狀態(tài)傳遞本質(zhì)上是有損的,這對(duì)于密集型 3D 重建尤其構(gòu)成問(wèn)題,因?yàn)樵谙噜弾g保持幾何一致性至關(guān)重要。為此,研究者以稀疏方式插入滑動(dòng)窗口注意力層,關(guān)注來(lái)自前一個(gè)和當(dāng)前塊的幀注意力層輸出的 tokens,即 C^m?1 ∪ C^m。

這建立了一個(gè)無(wú)損的信息傳遞通道,直接傳播來(lái)自前一個(gè)塊的高保真特征。值得注意的是,這一操作保持了有限的計(jì)算和內(nèi)存效率,因?yàn)榛瑒?dòng)窗口注意力僅應(yīng)用于相鄰塊之間,并且只插入在網(wǎng)絡(luò)的部分深度(僅四層)。

以上兩種跨塊路徑是互補(bǔ)的:TTT 提供了可擴(kuò)展的長(zhǎng)距離記憶,而 SWA 確保了相鄰塊之間的細(xì)粒度幾何一致性

接下來(lái)的重點(diǎn)是LoGeR 前饋對(duì)齊。盡管引入了 TTT 和 SWA,但在處理非常長(zhǎng)的流時(shí),仍可能積累預(yù)測(cè)誤差。

為了解決這一問(wèn)題,研究者提出了 LoGeR,它是一個(gè)變種模型,在原始預(yù)測(cè)中加入了純前饋對(duì)齊步驟,以確保預(yù)測(cè)結(jié)果與一致的全局坐標(biāo)系統(tǒng)對(duì)齊。

最后還要面臨「數(shù)據(jù)壁壘」和「課程學(xué)習(xí)」的挑戰(zhàn)。

研究者認(rèn)為,僅靠架構(gòu)上的改進(jìn)不足以實(shí)現(xiàn)無(wú)限上下文的重建。如圖 3 所示,像 VGGT 這樣的強(qiáng)基線方法,即使配備了推理時(shí)的架構(gòu)效率提升(如 FastVGGT),在僅使用短時(shí)上下文或小規(guī)模場(chǎng)景數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),依然無(wú)法很好地泛化到大規(guī)模場(chǎng)景。為了克服這個(gè)「數(shù)據(jù)壁壘」,研究者構(gòu)建了一個(gè)訓(xùn)練數(shù)據(jù)集,重點(diǎn)增加大規(guī)模場(chǎng)景數(shù)據(jù)集的比例,例如 TartanAirV2,它為學(xué)習(xí)有效的幾何壓縮提供了必要的長(zhǎng)時(shí)信號(hào)。



為了穩(wěn)定優(yōu)化遞歸 TTT 層的訓(xùn)練,研究者采用了漸進(jìn)式課程策略。通過(guò)從簡(jiǎn)單序列開始,并逐漸增加復(fù)雜度,迫使模型從局部的滑動(dòng)窗口注意力(SWA)轉(zhuǎn)向全局的 TTT 隱藏狀態(tài)。訓(xùn)練進(jìn)度分為三個(gè)階段: (1) 首先從 48 幀的序列開始,分成 4 個(gè)塊;(2) 然后逐步增加塊的密度,達(dá)到 12 個(gè)塊,同時(shí)保持序列長(zhǎng)度不變;(3) 最后,利用 H200 GPU,將上下文長(zhǎng)度擴(kuò)展到 128 幀,并逐步增加到 20 個(gè)塊。

對(duì)于 LoGeR,研究者從第一階段的模型開始,集成前饋對(duì)齊步驟,并在接下來(lái)的課程中進(jìn)行微調(diào)。

實(shí)驗(yàn)結(jié)果

首先,從定量結(jié)果來(lái)看,LoGeR 以及本文提出的基線方法 Pi3-Chunk,在 KITTI 基準(zhǔn)測(cè)試上均顯著優(yōu)于現(xiàn)有的前饋式方法(見表 2)。

值得注意的是,LoGeR 的平均性能甚至超過(guò)了當(dāng)前最強(qiáng)的基于優(yōu)化的方法 VGGT-Long,優(yōu)勢(shì)達(dá)到 32.5%。這一優(yōu)勢(shì)在開環(huán)場(chǎng)景中尤為明顯(如序列 01、03、04、08 和 10)。在這些場(chǎng)景下,LoGeR 無(wú)需依賴回環(huán)檢測(cè),就能夠有效抑制長(zhǎng)序列中不斷累積的漂移誤差。



在 VBR 基準(zhǔn)上,LoGeR 同樣表現(xiàn)出穩(wěn)定的性能提升。定量結(jié)果如圖 4 所示,定性結(jié)果如圖 5 所示。與基線方法相比,LoGeR 中的 TTT 模塊能夠天然錨定全局尺度,從而保持全局一致性。

從可視化結(jié)果可以看到,在長(zhǎng)達(dá) 2 萬(wàn)幀的超長(zhǎng)序列中,LoGeR 依然能夠保持穩(wěn)定的全局尺度,而基線方法在如此長(zhǎng)的序列中會(huì)出現(xiàn)明顯的尺度漂移問(wèn)題。





其次是短序列評(píng)測(cè)

在 TTT3R 的實(shí)驗(yàn)設(shè)置基礎(chǔ)上,研究者進(jìn)一步將評(píng)測(cè)擴(kuò)展到較短視頻序列(最長(zhǎng)約 1000 幀)。首先,在 7-Scenes 數(shù)據(jù)集上評(píng)估 3D 點(diǎn)云重建效果,序列長(zhǎng)度在 50 到 500 幀之間。

研究者將 LoGeR 與多種學(xué)習(xí)式的亞二次復(fù)雜度方法進(jìn)行對(duì)比,包括顯式狀態(tài)方法 Point3R、隱式狀態(tài)空間模型 CUT3R、TTT3R、StreamVGGT 以及雙向注意力基線模型 VGGT 與 π^3。在 7-Scenes 數(shù)據(jù)集上的結(jié)果如圖 6 和圖 7 所示:



在 ScanNetV2 和 TUM-Dynamics 數(shù)據(jù)集上的相機(jī)位姿評(píng)估結(jié)果,分別展示在圖 8 和圖 9 中:



整體來(lái)看,無(wú)論是在 3D 重建質(zhì)量還是位姿估計(jì)精度方面,LoGeR 及其提出的基線方法均顯著優(yōu)于現(xiàn)有方法。

更多實(shí)驗(yàn)結(jié)果請(qǐng)參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
重磅|2026QS世界大學(xué)學(xué)科排名正式發(fā)布!

重磅|2026QS世界大學(xué)學(xué)科排名正式發(fā)布!

新航道官方號(hào)
2026-03-25 19:41:30
2026年財(cái)運(yùn)大爆發(fā)!這三星座咸魚翻身!

2026年財(cái)運(yùn)大爆發(fā)!這三星座咸魚翻身!

別人都叫我阿螫
2026-03-26 00:41:27
李連杰當(dāng)面一句“我剛換了心臟”,謝苗臉唰一下白了,氣都不敢喘

李連杰當(dāng)面一句“我剛換了心臟”,謝苗臉唰一下白了,氣都不敢喘

西樓知趣雜談
2026-02-28 21:36:48
新郎婚禮遲到2個(gè)小時(shí),婆婆大方宣布:彩禮全退,新娘竟當(dāng)場(chǎng)退婚

新郎婚禮遲到2個(gè)小時(shí),婆婆大方宣布:彩禮全退,新娘竟當(dāng)場(chǎng)退婚

白云故事
2025-03-21 17:50:07
美媒承認(rèn)駐中東愛(ài)國(guó)者和薩德幾乎全軍覆沒(méi),中式殺傷鏈喜事將近?

美媒承認(rèn)駐中東愛(ài)國(guó)者和薩德幾乎全軍覆沒(méi),中式殺傷鏈喜事將近?

共工之錨
2026-03-26 01:07:03
摩根大通CEO竟鼓吹: 打贏這場(chǎng)戰(zhàn),才好跟中國(guó)對(duì)壘

摩根大通CEO竟鼓吹: 打贏這場(chǎng)戰(zhàn),才好跟中國(guó)對(duì)壘

觀察者網(wǎng)
2026-03-25 16:56:10
美國(guó)懸賞1000萬(wàn)美金,通緝一中國(guó)四川小伙,他到底做了什么?

美國(guó)懸賞1000萬(wàn)美金,通緝一中國(guó)四川小伙,他到底做了什么?

泠泠說(shuō)史
2026-03-16 18:10:44
周杰倫《太陽(yáng)之子》詞曲拉胯MV平庸,歌迷:完全記不住旋律

周杰倫《太陽(yáng)之子》詞曲拉胯MV平庸,歌迷:完全記不住旋律

光影新天地
2026-03-24 14:41:27
內(nèi)部人士:NBA或?qū)⑷∠齑?duì)科懷·倫納德的“無(wú)效”合同

內(nèi)部人士:NBA或?qū)⑷∠齑?duì)科懷·倫納德的“無(wú)效”合同

好火子
2026-03-25 23:51:43
突然爆火!和黃金一樣“一天一個(gè)價(jià)”,網(wǎng)友:終于不用放家里吃灰了

突然爆火!和黃金一樣“一天一個(gè)價(jià)”,網(wǎng)友:終于不用放家里吃灰了

山東教育電視臺(tái)
2026-03-25 21:09:16
英媒:阿森納在研究簽KK7的可能性,球員有意但大巴黎不放人

英媒:阿森納在研究簽KK7的可能性,球員有意但大巴黎不放人

懂球帝
2026-03-26 01:28:07
日本獻(xiàn)十九歲美貌藝伎拉攏印尼總統(tǒng),卻改寫了歷史走向

日本獻(xiàn)十九歲美貌藝伎拉攏印尼總統(tǒng),卻改寫了歷史走向

嘮叨說(shuō)歷史
2026-03-23 10:26:21
西班牙隊(duì)面臨幸福煩惱!擁有巴薩+阿森納門神 世界杯主力門將4選1

西班牙隊(duì)面臨幸福煩惱!擁有巴薩+阿森納門神 世界杯主力門將4選1

球場(chǎng)沒(méi)跑道
2026-03-25 14:34:19
親戚借車從不加油,這次他故意空著油箱給她,她老公卻急了:我上次不是剛加了600塊的油嗎!

親戚借車從不加油,這次他故意空著油箱給她,她老公卻急了:我上次不是剛加了600塊的油嗎!

品讀時(shí)刻
2026-03-25 09:04:33
余承東:?jiǎn)柦鏜6 24小時(shí)訂單突破60000臺(tái) 展車已到店

余承東:?jiǎn)柦鏜6 24小時(shí)訂單突破60000臺(tái) 展車已到店

CNMO科技
2026-03-24 17:14:29
奧迪突然官宣:32.29萬(wàn)起,新車正式上市

奧迪突然官宣:32.29萬(wàn)起,新車正式上市

高科技愛(ài)好者
2026-03-25 23:08:37
丟失巴黎主力位置,德轉(zhuǎn)預(yù)熱舍瓦利耶身價(jià):最低跌至2800萬(wàn)歐

丟失巴黎主力位置,德轉(zhuǎn)預(yù)熱舍瓦利耶身價(jià):最低跌至2800萬(wàn)歐

懂球帝
2026-03-25 07:57:05
重大利好,全線爆拉了!

重大利好,全線爆拉了!

君臨財(cái)富
2026-03-25 15:41:25
上海一男子每天3包煙,持續(xù)幾十年!醫(yī)生:全身沒(méi)一根血管是好的

上海一男子每天3包煙,持續(xù)幾十年!醫(yī)生:全身沒(méi)一根血管是好的

上觀新聞
2026-03-24 13:32:07
趙心童:謝菲爾德已成為我在英國(guó)的家,很高興將世錦賽留在這里

趙心童:謝菲爾德已成為我在英國(guó)的家,很高興將世錦賽留在這里

懂球帝
2026-03-25 12:33:08
2026-03-26 02:00:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收?qǐng)?,Sora宣布正式關(guān)停

頭條要聞

伊朗:正在搜捕逃亡美軍

頭條要聞

伊朗:正在搜捕逃亡美軍

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂(lè)要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

管濤:中東局勢(shì)如何影響人民幣匯率走勢(shì)?

汽車要聞

智己LS8放大招 30萬(wàn)內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

本地
家居
教育
數(shù)碼
旅游

本地新聞

來(lái)永泰同安 赴一場(chǎng)春天的約會(huì)

家居要聞

輕奢堇天府 小資情調(diào)

教育要聞

那些躺平的孩子,其實(shí)是看透了父母的偽裝

數(shù)碼要聞

蘋果macOS 26.4新增“慢速充電器”提示

旅游要聞

普度寺玉蘭盛開

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版