国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenClaw帶火AI記憶,DeepMind用混合記憶把3D重建拉到近2萬幀

0
分享至



編輯|杜偉

過去兩天,全球爆火的 Agent 私人助手 OpenClaw,接連更新了兩個版本,讓人直呼「開發(fā)團(tuán)隊是不睡覺了嗎?」

之所以如此爆火,很大程度上歸功于 OpenClaw 的長期記憶能力,它能夠記住用戶的對話歷史、偏好設(shè)置、任務(wù)上下文、個性化調(diào)整、常用信息和數(shù)據(jù)、交互偏好,等等。更新之后,OpenClaw 實(shí)現(xiàn)了上下文管理(記憶)的自由插拔。

記憶機(jī)制是大模型處理復(fù)雜任務(wù)的重要能力之一。在聊天對話、自動化工作流等場景中,模型需要通過記憶保持長期上下文。而在 3D 重建領(lǐng)域,尤其是大范圍場景或長序列視頻重建,跨幀信息的持續(xù)傳播同樣至關(guān)重要,記憶機(jī)制正是實(shí)現(xiàn)這一能力的重要手段。

現(xiàn)有的前饋 3D 重建模型往往依賴短時上下文窗口,難以有效建模長序列中的依賴關(guān)系。隨著幾何基礎(chǔ)模型(如 DUSt3R、MonST3R、VGGT)的出現(xiàn),可以從大規(guī)模數(shù)據(jù)中提煉復(fù)雜的幾何先驗(yàn),使得即便在傳統(tǒng)方法較難處理的場景中,仍能實(shí)現(xiàn)穩(wěn)健的前饋推理。不過,當(dāng)前模型仍然存在一個關(guān)鍵空白:盡管經(jīng)典處理流程可以擴(kuò)展到城市級別,但現(xiàn)有的前饋模型在處理更大規(guī)模的場景時,仍然受到限制。

主要障礙源自兩個方面,即當(dāng)前架構(gòu)中固有的上下文壁壘和訓(xùn)練過程中嚴(yán)重的數(shù)據(jù)壁壘。從架構(gòu)角度看,雖然雙向注意力對于學(xué)習(xí)復(fù)雜的幾何先驗(yàn)至關(guān)重要,但其二次復(fù)雜度使得它只能應(yīng)用于短時上下文窗口。而從數(shù)據(jù)角度看,當(dāng)前的模型主要在短時上下文「氣泡」(幾十到一百多幀)上進(jìn)行訓(xùn)練,這使得它們在推理時無法有效整合長距離依賴(數(shù)千到數(shù)萬幀)。因此,像 FastVGGT 這樣的推理時啟發(fā)式方法,雖然成功緩解了內(nèi)存瓶頸,但仍無法在大規(guī)模 VBR 數(shù)據(jù)集上進(jìn)行泛化。

針對這一痛點(diǎn),近日,谷歌 DeepMind 聯(lián)合加州大學(xué)伯克利分校提出了 LoGeR(長時上下文幾何重建)。這是一種新穎的架構(gòu),在無需后期優(yōu)化的情況下將密集的 3D 重建擴(kuò)展到極長的序列。過程中,LoGeR 通過將視頻流分塊處理,利用強(qiáng)大的雙向先驗(yàn)進(jìn)行高保真度的塊內(nèi)推理。

為了應(yīng)對跨塊邊界一致性的挑戰(zhàn),研究者提出了一種基于學(xué)習(xí)的混合記憶模塊。這個雙組件系統(tǒng)結(jié)合了參數(shù)化的測試時訓(xùn)練(TTT)記憶模塊,用于錨定全局坐標(biāo)框架并防止尺度漂移,同時使用非參數(shù)化的滑動窗口注意力(SWA)機(jī)制來保持未壓縮的上下文,從而實(shí)現(xiàn)高精度的相鄰塊對齊。



  • 論文標(biāo)題:LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory
  • arXiv 鏈接:https://arxiv.org/pdf/2603.03269
  • 項目地址:https://loger-project.github.io/

值得注意的是,這種記憶架構(gòu)使得 LoGeR 能夠在 128 幀的序列上進(jìn)行訓(xùn)練,并在推理過程中泛化到數(shù)千幀。

在標(biāo)準(zhǔn)基準(zhǔn)測試和重新設(shè)計的 VBR 數(shù)據(jù)集(包含最多 19000 幀的序列)上進(jìn)行評估時,LoGeR 明顯超越了先前的前饋方法,在 KITTI 數(shù)據(jù)集上將絕對軌跡誤差(ATE)降低了超過 74%,并且在前所未有的時間跨度上實(shí)現(xiàn)了穩(wěn)健、全球一致的重建。



視覺展示,在大規(guī)模真實(shí)場景(in-the-wild)以及 VBR 序列上的定性結(jié)果。本文的全前饋方法能夠在數(shù)千幀的長序列中準(zhǔn)確保持大尺度結(jié)構(gòu),并實(shí)現(xiàn)穩(wěn)定的回環(huán)閉合。

方法概覽

為了將前饋密集型 3D 重建擴(kuò)展到分鐘級視頻,必須克服全局注意力的二次復(fù)雜度和長時訓(xùn)練數(shù)據(jù)的稀缺問題。端到端的分塊處理成為自然的解決方案,它嚴(yán)格限制了計算成本,并確保局部推理保持在現(xiàn)有短時上下文訓(xùn)練數(shù)據(jù)的分布范圍內(nèi)。然而,獨(dú)立處理每個塊會導(dǎo)致全局一致性的喪失。

因而需要這樣一種前饋架構(gòu),它能夠同時提供: (i) 強(qiáng)大的局部雙向推理能力,以保持密集的幾何保真度;(ii) 無損的短程信息傳遞通道,以保持跨相鄰塊邊界的高精度幾何對齊;(iii) 一個線性時間、固定大小的記憶機(jī)制,用于在數(shù)千幀的長距離內(nèi)傳播全局信息。

研究者通過分塊順序處理輸入視頻流,如圖 1 和圖 2 所示。





為了在塊之間傳播信息,研究者引入了兩種互補(bǔ)的機(jī)制:

一是:通過分塊 TTT 實(shí)現(xiàn)長時、有損壓縮

通過插入 TTT 層,保持跨多個塊的快速權(quán)重集 W。與分塊處理方式一致,研究者利用大塊測試時訓(xùn)練(LaCT),并證明它比標(biāo)準(zhǔn) TTT 更高效。在推理過程中,權(quán)重會對每個塊進(jìn)行更新和應(yīng)用操作。在應(yīng)用操作中,TTT 層利用存儲在權(quán)重中的歷史信息來調(diào)節(jié)網(wǎng)絡(luò)處理當(dāng)前塊的方式。

在更新操作中,權(quán)重會被編輯,存儲來自當(dāng)前塊的信息,從概念層面壓縮重要但冗余的幾何信息,例如粗略的幾何形狀和場景的尺度。雖然這些快速權(quán)重理論上提供了無限的接收場,但它們的實(shí)際容量本質(zhì)上受到訓(xùn)練上下文長度的限制。

二是:通過滑動窗口注意力(SWA)實(shí)現(xiàn)短時、無損傳遞

單純依賴 TTT 樣式的狀態(tài)傳遞本質(zhì)上是有損的,這對于密集型 3D 重建尤其構(gòu)成問題,因?yàn)樵谙噜弾g保持幾何一致性至關(guān)重要。為此,研究者以稀疏方式插入滑動窗口注意力層,關(guān)注來自前一個和當(dāng)前塊的幀注意力層輸出的 tokens,即 C^m?1 ∪ C^m。

這建立了一個無損的信息傳遞通道,直接傳播來自前一個塊的高保真特征。值得注意的是,這一操作保持了有限的計算和內(nèi)存效率,因?yàn)榛瑒哟翱谧⒁饬H應(yīng)用于相鄰塊之間,并且只插入在網(wǎng)絡(luò)的部分深度(僅四層)。

以上兩種跨塊路徑是互補(bǔ)的:TTT 提供了可擴(kuò)展的長距離記憶,而 SWA 確保了相鄰塊之間的細(xì)粒度幾何一致性

接下來的重點(diǎn)是LoGeR 前饋對齊。盡管引入了 TTT 和 SWA,但在處理非常長的流時,仍可能積累預(yù)測誤差。

為了解決這一問題,研究者提出了 LoGeR,它是一個變種模型,在原始預(yù)測中加入了純前饋對齊步驟,以確保預(yù)測結(jié)果與一致的全局坐標(biāo)系統(tǒng)對齊。

最后還要面臨「數(shù)據(jù)壁壘」和「課程學(xué)習(xí)」的挑戰(zhàn)。

研究者認(rèn)為,僅靠架構(gòu)上的改進(jìn)不足以實(shí)現(xiàn)無限上下文的重建。如圖 3 所示,像 VGGT 這樣的強(qiáng)基線方法,即使配備了推理時的架構(gòu)效率提升(如 FastVGGT),在僅使用短時上下文或小規(guī)模場景數(shù)據(jù)進(jìn)行訓(xùn)練時,依然無法很好地泛化到大規(guī)模場景。為了克服這個「數(shù)據(jù)壁壘」,研究者構(gòu)建了一個訓(xùn)練數(shù)據(jù)集,重點(diǎn)增加大規(guī)模場景數(shù)據(jù)集的比例,例如 TartanAirV2,它為學(xué)習(xí)有效的幾何壓縮提供了必要的長時信號。



為了穩(wěn)定優(yōu)化遞歸 TTT 層的訓(xùn)練,研究者采用了漸進(jìn)式課程策略。通過從簡單序列開始,并逐漸增加復(fù)雜度,迫使模型從局部的滑動窗口注意力(SWA)轉(zhuǎn)向全局的 TTT 隱藏狀態(tài)。訓(xùn)練進(jìn)度分為三個階段: (1) 首先從 48 幀的序列開始,分成 4 個塊;(2) 然后逐步增加塊的密度,達(dá)到 12 個塊,同時保持序列長度不變;(3) 最后,利用 H200 GPU,將上下文長度擴(kuò)展到 128 幀,并逐步增加到 20 個塊。

對于 LoGeR,研究者從第一階段的模型開始,集成前饋對齊步驟,并在接下來的課程中進(jìn)行微調(diào)。

實(shí)驗(yàn)結(jié)果

首先,從定量結(jié)果來看,LoGeR 以及本文提出的基線方法 Pi3-Chunk,在 KITTI 基準(zhǔn)測試上均顯著優(yōu)于現(xiàn)有的前饋式方法(見表 2)。

值得注意的是,LoGeR 的平均性能甚至超過了當(dāng)前最強(qiáng)的基于優(yōu)化的方法 VGGT-Long,優(yōu)勢達(dá)到 32.5%。這一優(yōu)勢在開環(huán)場景中尤為明顯(如序列 01、03、04、08 和 10)。在這些場景下,LoGeR 無需依賴回環(huán)檢測,就能夠有效抑制長序列中不斷累積的漂移誤差。



在 VBR 基準(zhǔn)上,LoGeR 同樣表現(xiàn)出穩(wěn)定的性能提升。定量結(jié)果如圖 4 所示,定性結(jié)果如圖 5 所示。與基線方法相比,LoGeR 中的 TTT 模塊能夠天然錨定全局尺度,從而保持全局一致性。

從可視化結(jié)果可以看到,在長達(dá) 2 萬幀的超長序列中,LoGeR 依然能夠保持穩(wěn)定的全局尺度,而基線方法在如此長的序列中會出現(xiàn)明顯的尺度漂移問題。





其次是短序列評測

在 TTT3R 的實(shí)驗(yàn)設(shè)置基礎(chǔ)上,研究者進(jìn)一步將評測擴(kuò)展到較短視頻序列(最長約 1000 幀)。首先,在 7-Scenes 數(shù)據(jù)集上評估 3D 點(diǎn)云重建效果,序列長度在 50 到 500 幀之間。

研究者將 LoGeR 與多種學(xué)習(xí)式的亞二次復(fù)雜度方法進(jìn)行對比,包括顯式狀態(tài)方法 Point3R、隱式狀態(tài)空間模型 CUT3R、TTT3R、StreamVGGT 以及雙向注意力基線模型 VGGT 與 π^3。在 7-Scenes 數(shù)據(jù)集上的結(jié)果如圖 6 和圖 7 所示:



在 ScanNetV2 和 TUM-Dynamics 數(shù)據(jù)集上的相機(jī)位姿評估結(jié)果,分別展示在圖 8 和圖 9 中:



整體來看,無論是在 3D 重建質(zhì)量還是位姿估計精度方面,LoGeR 及其提出的基線方法均顯著優(yōu)于現(xiàn)有方法。

更多實(shí)驗(yàn)結(jié)果請參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
加圖索:我必須大聲說出來,我們要去參加這場決賽了!

加圖索:我必須大聲說出來,我們要去參加這場決賽了!

懂球帝
2026-03-27 06:20:37
伊朗要動真格了,北約前司令已經(jīng)發(fā)出警告:美軍進(jìn)去就是送死

伊朗要動真格了,北約前司令已經(jīng)發(fā)出警告:美軍進(jìn)去就是送死

補(bǔ)懂事的孩紙
2026-03-27 10:24:28
FIFA系列賽新規(guī):比賽需決出勝負(fù) 打平將互射點(diǎn)球

FIFA系列賽新規(guī):比賽需決出勝負(fù) 打平將互射點(diǎn)球

體壇周報
2026-03-26 15:53:18
伊朗:美方從要求無條件投降到談判就是認(rèn)輸

伊朗:美方從要求無條件投降到談判就是認(rèn)輸

看看新聞Knews
2026-03-26 11:29:02
1-2完敗!巴西新10號演砸了:國家隊7年僅進(jìn)8球,不及內(nèi)馬爾零頭

1-2完??!巴西新10號演砸了:國家隊7年僅進(jìn)8球,不及內(nèi)馬爾零頭

小火箭愛體育
2026-03-27 09:20:27
金融才女朱麗麗:一頓飯百萬,八年斂財十四億終落網(wǎng)

金融才女朱麗麗:一頓飯百萬,八年斂財十四億終落網(wǎng)

大眼妹妹
2026-03-27 01:38:29
文旅新地標(biāo)!潮州超級球,總投資超48億!

文旅新地標(biāo)!潮州超級球,總投資超48億!

潮州玩家
2026-03-26 23:59:08
4000噸稀土被轉(zhuǎn)運(yùn)美國?大陸停供臺灣稀土!臺學(xué)者:不如直接統(tǒng)一

4000噸稀土被轉(zhuǎn)運(yùn)美國?大陸停供臺灣稀土!臺學(xué)者:不如直接統(tǒng)一

小舟談歷史
2026-03-19 17:27:44
日媒曝光強(qiáng)闖我駐日使館不法之徒照片;案發(fā)前行動軌跡公布:乘坐新干線到達(dá)東京,在網(wǎng)吧過夜,現(xiàn)場發(fā)現(xiàn)的刀具,其稱是在車站附近購買

日媒曝光強(qiáng)闖我駐日使館不法之徒照片;案發(fā)前行動軌跡公布:乘坐新干線到達(dá)東京,在網(wǎng)吧過夜,現(xiàn)場發(fā)現(xiàn)的刀具,其稱是在車站附近購買

大風(fēng)新聞
2026-03-26 12:13:02
瞞天過海40年!李嘉誠成最大贏家,日產(chǎn)百萬桶,把石油全賣給中國

瞞天過海40年!李嘉誠成最大贏家,日產(chǎn)百萬桶,把石油全賣給中國

阿鳧愛吐槽
2026-03-24 00:54:18
1965年,毛主席點(diǎn)名讓彭德懷復(fù)出,背后有人拼命阻撓,這人后來判了18年

1965年,毛主席點(diǎn)名讓彭德懷復(fù)出,背后有人拼命阻撓,這人后來判了18年

史海孤雁
2026-03-25 18:31:11
前央視主持人趙普:警惕如今街頭巷尾泛濫的日本武士道風(fēng)格字體。

前央視主持人趙普:警惕如今街頭巷尾泛濫的日本武士道風(fēng)格字體。

南權(quán)先生
2026-03-24 15:25:48
上映4天,僅3個觀眾,總票房104元,2026年最慘電影誕生

上映4天,僅3個觀眾,總票房104元,2026年最慘電影誕生

錯過美好
2026-03-24 23:41:07
日本海上自衛(wèi)隊情報作戰(zhàn)集團(tuán)成立

日本海上自衛(wèi)隊情報作戰(zhàn)集團(tuán)成立

每日經(jīng)濟(jì)新聞
2026-03-26 00:11:42
伊朗議長和外長被移出美以清除名單,“時限4到5天”!專家:若達(dá)成協(xié)議最慌的是以色列!特朗普:油價漲、股市跌,我無所謂

伊朗議長和外長被移出美以清除名單,“時限4到5天”!專家:若達(dá)成協(xié)議最慌的是以色列!特朗普:油價漲、股市跌,我無所謂

每日經(jīng)濟(jì)新聞
2026-03-26 12:20:14
馬斯克最新回復(fù)來了

馬斯克最新回復(fù)來了

新浪財經(jīng)
2026-03-26 19:29:33
審問3小時,日本軍官底細(xì)被扒出,中方一錘定音,高市早苗看著辦

審問3小時,日本軍官底細(xì)被扒出,中方一錘定音,高市早苗看著辦

諦聽骨語本尊
2026-03-26 13:43:30
金價快速跳水!常州有人一次買10公斤金條!

金價快速跳水!常州有人一次買10公斤金條!

常州大喇叭
2026-03-26 10:54:28
突發(fā)!一國宣布與以色列結(jié)盟,準(zhǔn)備參戰(zhàn)打伊朗

突發(fā)!一國宣布與以色列結(jié)盟,準(zhǔn)備參戰(zhàn)打伊朗

大國之翼
2026-03-27 06:18:10
伊朗獲得強(qiáng)援,又一中東國家下場,還是美國親自送上門的幫手

伊朗獲得強(qiáng)援,又一中東國家下場,還是美國親自送上門的幫手

陳穟侃故事
2026-03-27 09:13:34
2026-03-27 11:16:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12612文章數(shù) 142595關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

媒體:內(nèi)塔尼亞胡夫人為兩個兒子訴苦 加沙兒童怎么看

頭條要聞

媒體:內(nèi)塔尼亞胡夫人為兩個兒子訴苦 加沙兒童怎么看

體育要聞

近29戰(zhàn)23勝!這支黃蜂有多強(qiáng)?

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

很反常!油價向上,黃金向下

汽車要聞

線控底盤+千問上車 智己LS8預(yù)售權(quán)益價25.98萬起

態(tài)度原創(chuàng)

藝術(shù)
健康
房產(chǎn)
家居
公開課

藝術(shù)要聞

2025“殊相”——中國油畫學(xué)會創(chuàng)作研修作品展 | 作品選刊(一)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

房產(chǎn)要聞

勁銷64億后,??谶@座改善標(biāo)桿盤,又要引爆樓市!

家居要聞

傍海而居 靜觀蝴蝶海

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版