国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

VGGT4D:無(wú)需訓(xùn)練,挖掘3D基礎(chǔ)模型潛力,實(shí)現(xiàn)4D動(dòng)態(tài)場(chǎng)景重建

0
分享至



如何讓針對(duì)靜態(tài)場(chǎng)景訓(xùn)練的 3D 基礎(chǔ)模型(3D Foundation Models)在不增加訓(xùn)練成本的前提下,具備處理動(dòng)態(tài) 4D 場(chǎng)景的能力?

來(lái)自香港科技大學(xué)(廣州)與地平線 (Horizon Robotics) 的研究團(tuán)隊(duì)提出了 VGGT4D。該工作通過深入分析 Visual Geometry Transformer (VGGT) 的內(nèi)部機(jī)制,發(fā)現(xiàn)并利用了隱藏在注意力層中的運(yùn)動(dòng)線索。



作為一種無(wú)需訓(xùn)練 (Training-free) 的框架,VGGT4D 在動(dòng)態(tài)物體分割、相機(jī)位姿估計(jì)及長(zhǎng)序列 4D 重建等任務(wù)上均取得了優(yōu)異性能。



  • 論文標(biāo)題: VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction
  • 論文鏈接:https://arxiv.org/abs/2511.19971
  • 項(xiàng)目主頁(yè): https://3dagentworld.github.io/vggt4d/
  • 代碼鏈接:https://github.com/3DAgentWorld/VGGT4D

研究背景

近年來(lái),以 VGGT、DUSt3R 為代表的 3D 基礎(chǔ)模型在靜態(tài)場(chǎng)景重建中表現(xiàn)出色。然而,面對(duì)包含移動(dòng)物體(如行人、車輛)的動(dòng)態(tài) 4D 場(chǎng)景時(shí),這些模型的性能往往顯著下降。動(dòng)態(tài)物體的運(yùn)動(dòng)不僅干擾背景幾何建模,還會(huì)導(dǎo)致嚴(yán)重的相機(jī)位姿漂移。

現(xiàn)有的解決方案通常面臨兩類挑戰(zhàn):

  • 計(jì)算或訓(xùn)練成本高:依賴繁重的測(cè)試時(shí)優(yōu)化 (Test-time Optimization) 或需要在大規(guī)模 4D 數(shù)據(jù)集上進(jìn)行微調(diào)。
  • 依賴外部先驗(yàn):通常需要引入光流、深度估計(jì)或語(yǔ)義分割等額外模塊,增加了系統(tǒng)的復(fù)雜性。

VGGT4D 的核心設(shè)想:能否在不進(jìn)行額外訓(xùn)練的前提下,直接從預(yù)訓(xùn)練的 3D 基礎(chǔ)模型中挖掘出 4D 感知能力?

核心洞察:VGGT 內(nèi)部的潛在運(yùn)動(dòng)線索

研究人員對(duì) VGGT 的注意力機(jī)制進(jìn)行了可視化分析,觀察到一個(gè)關(guān)鍵現(xiàn)象:VGGT 的不同網(wǎng)絡(luò)層對(duì)動(dòng)態(tài)區(qū)域表現(xiàn)出截然不同的響應(yīng)模式。

  • 淺層網(wǎng)絡(luò):傾向于捕捉語(yǔ)義上顯著的動(dòng)態(tài)物體。
  • 深層網(wǎng)絡(luò):則逐漸抑制幾何不一致的區(qū)域。



這一發(fā)現(xiàn)表明,VGGT 雖然是基于靜態(tài)假設(shè)訓(xùn)練的,但其內(nèi)部實(shí)際上已經(jīng) 隱式編碼 了豐富的動(dòng)態(tài)線索。



方法論:潛在運(yùn)動(dòng)線索的挖掘與解耦

VGGT4D 的核心貢獻(xiàn)在于提出了一套無(wú)需訓(xùn)練的注意力特征挖掘與掩膜精修機(jī)制。該方法深入特征流形內(nèi)部,利用 Gram 矩陣和梯度流實(shí)現(xiàn)了高精度的動(dòng)靜分離。



跨越投影間隙:基于 Gram 相似度的特征挖掘







基于投影雅可比矩陣的梯度流精修

為了解決 Attention Map 分辨率不足導(dǎo)致的邊界模糊問題,VGGT4D 引入了 投影梯度感知精修 (Projection Gradient-aware Refinement)。





分布內(nèi)早期掩膜策略(In-Distribution Early-Stage Masking)

在推理階段,直接的全層掩膜(Full Masking)會(huì)將模型推向分布外(OOD)狀態(tài),導(dǎo)致性能下降。

VGGT4D 提出了一種早期階段干預(yù)策略:僅在淺層抑制動(dòng)態(tài) Token 的 Key 向量。這種設(shè)計(jì)既在早期切斷了動(dòng)態(tài)信息對(duì)深層幾何推理的影響,又保證了深層 Transformer Block 依然在其預(yù)訓(xùn)練的特征流形上運(yùn)行,從而保證了位姿估計(jì)的魯棒性。

實(shí)驗(yàn)驗(yàn)證

研究團(tuán)隊(duì)針對(duì)動(dòng)態(tài)物體分割、相機(jī)位姿估計(jì)和 4D 點(diǎn)云重建三大核心任務(wù),在六個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了詳盡的定量和定性評(píng)估。

核心組件評(píng)估:動(dòng)態(tài)物體分割性能

實(shí)驗(yàn)首先評(píng)估了該方法的核心組件:動(dòng)態(tài)物體分割。





定性分析:定性結(jié)果清晰地展示了基線方法的不足:Easi3R 的掩碼較為粗糙且遺漏細(xì)節(jié);DAS3R 傾向于過度分割并滲入靜態(tài)背景;MonST3R 則常常分割不足。相比之下,VGGT4D 生成的掩碼更加準(zhǔn)確,且邊界更加清晰。這些結(jié)果有力地驗(yàn)證了研究團(tuán)隊(duì)的假設(shè):VGGT 的 Gram 相似度統(tǒng)計(jì)信息中嵌入了豐富的、可提取的運(yùn)動(dòng)線索。



魯棒性驗(yàn)證:相機(jī)位姿估計(jì)

強(qiáng)大的基線與持續(xù)改進(jìn):數(shù)據(jù)表明,原始 VGGT 已經(jīng)是一個(gè)非常強(qiáng)大的基線,其自身就優(yōu)于 MonST3R、DAS3R 等許多專門的 4D 重建方法。這表明 VGGT 的預(yù)訓(xùn)練隱式地使其對(duì)動(dòng)態(tài)物體具有一定的魯棒性。然而,這種魯棒性并不完美。 VGGT4D 在所有數(shù)據(jù)集上均持續(xù)改進(jìn)了這一強(qiáng)大的 VGGT 基線。例如在 VKITTI 數(shù)據(jù)集上,VGGT4D 的 ATE 僅為 0.164,而 MonST3R 高達(dá) 2.272。



長(zhǎng)序列魯棒性突破:在極具挑戰(zhàn)性的長(zhǎng)序列 Point Odyssey 基準(zhǔn)測(cè)試中,VGGT4D 在所有指標(biāo)上均取得了最佳結(jié)果,同時(shí)保持了高度效率。許多其他 4D 方法由于內(nèi)存不足(OOM)錯(cuò)誤甚至無(wú)法在該 500 幀序列上運(yùn)行。這表明 VGGT4D 提出的顯式、無(wú)需訓(xùn)練的動(dòng)態(tài) - 靜態(tài)分離方法成功地識(shí)別并消除了由運(yùn)動(dòng)引起的殘余位姿不一致性,從而實(shí)現(xiàn)了更穩(wěn)定、更準(zhǔn)確的相機(jī)軌跡,尤其是在長(zhǎng)且復(fù)雜的序列上。



最終目標(biāo):4D 點(diǎn)云重建質(zhì)量實(shí)驗(yàn)

在 DyCheck 數(shù)據(jù)集上的評(píng)估顯示,VGGT4D 在所有重建指標(biāo)(準(zhǔn)確度、完整度和距離)上均取得了最佳性能。與 VGGT 基線相比,中位準(zhǔn)確度誤差從 0.009 降低到 0.004,平均距離從 0.150 降低到 0.123。這證明了該方法不僅實(shí)現(xiàn)了精準(zhǔn)的動(dòng)靜分離,更能實(shí)質(zhì)性提升幾何重建質(zhì)量。





結(jié)語(yǔ)

VGGT4D 提出了一種無(wú)需訓(xùn)練的新范式,成功將 3D 基礎(chǔ)模型的能力擴(kuò)展至 4D 動(dòng)態(tài)場(chǎng)景。該工作證明了通過合理挖掘模型內(nèi)部的 Gram 相似度統(tǒng)計(jì)特性,可以有效解耦動(dòng)態(tài)與靜態(tài)信息。這不僅為低成本的 4D 重建提供了新思路,也展示了基礎(chǔ)模型在零樣本遷移任務(wù)中的潛力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
雷德利·斯科特回歸小熒幕,為何標(biāo)志一個(gè)時(shí)代終結(jié)?

雷德利·斯科特回歸小熒幕,為何標(biāo)志一個(gè)時(shí)代終結(jié)?

影視情報(bào)室
2026-04-19 02:15:08
伊萬(wàn)卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會(huì)禿嚕了皮呢?

伊萬(wàn)卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會(huì)禿嚕了皮呢?

一口娛樂
2026-04-18 13:00:29
一個(gè)害國(guó)害民的歷史罪人,老百姓還把他當(dāng)成英雄崇拜

一個(gè)害國(guó)害民的歷史罪人,老百姓還把他當(dāng)成英雄崇拜

小豫講故事
2026-04-19 06:00:10
50億保溫杯出口爆單:你以為老外愛養(yǎng)生,其實(shí)是中國(guó)工廠贏了

50億保溫杯出口爆單:你以為老外愛養(yǎng)生,其實(shí)是中國(guó)工廠贏了

隨遇而安之心
2026-04-20 03:17:52
與孔令輝分手12年,被黑人托在肩上的馬蘇,終是為自己的風(fēng)流買單

與孔令輝分手12年,被黑人托在肩上的馬蘇,終是為自己的風(fēng)流買單

情感大頭說說
2026-04-18 21:06:00
不愧是嫁給上海首富的美女主持人,54歲了還像30出頭的

不愧是嫁給上海首富的美女主持人,54歲了還像30出頭的

舊時(shí)光老師
2026-04-19 19:08:29
被豆包害慘了的大學(xué)生們!網(wǎng)友:豆包就是愚蠢且勤勞的老實(shí)人

被豆包害慘了的大學(xué)生們!網(wǎng)友:豆包就是愚蠢且勤勞的老實(shí)人

夜深愛雜談
2025-12-02 20:51:10
她是上海著名主持,堅(jiān)守一線工作30年,如今既是大學(xué)教授也是網(wǎng)紅

她是上海著名主持,堅(jiān)守一線工作30年,如今既是大學(xué)教授也是網(wǎng)紅

以茶帶書
2026-04-19 16:46:39
這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國(guó)女星搶鏡

這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國(guó)女星搶鏡

天天熱點(diǎn)見聞
2026-04-18 08:09:59
極端情況下,切爾西可能要靠輸給利物浦來(lái)獲得歐冠資格

極端情況下,切爾西可能要靠輸給利物浦來(lái)獲得歐冠資格

懂球帝
2026-04-20 00:22:46
性需求是人的活力來(lái)源,性需求是成年人最強(qiáng)大的生命力

性需求是人的活力來(lái)源,性需求是成年人最強(qiáng)大的生命力

加油丁小文
2026-04-03 11:30:07
新代言人火爆全球,以色列慌了

新代言人火爆全球,以色列慌了

俠客棧
2026-04-18 13:14:53
巴基斯坦總理與伊朗總統(tǒng)通話討論地區(qū)局勢(shì)

巴基斯坦總理與伊朗總統(tǒng)通話討論地區(qū)局勢(shì)

新華社
2026-04-20 04:39:03
超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

娛樂圈見解說
2026-04-18 14:54:03
停止焦慮最好的辦法,不是讀書,不是運(yùn)動(dòng),而是……

停止焦慮最好的辦法,不是讀書,不是運(yùn)動(dòng),而是……

壹心理
2026-04-19 11:03:36
抵京!首鋼新外援威廉姆斯:我是全能型,會(huì)去做球隊(duì)要求的一切

抵京!首鋼新外援威廉姆斯:我是全能型,會(huì)去做球隊(duì)要求的一切

懂球帝
2026-04-19 22:36:59
古斯塔沃傷病疑云!兩次稱病缺席,媒體人:降薪后欠薪落差太大

古斯塔沃傷病疑云!兩次稱病缺席,媒體人:降薪后欠薪落差太大

奧拜爾
2026-04-19 13:40:33
韓國(guó)一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

韓國(guó)一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

馬拉松跑步健身
2026-04-19 06:30:13
蘇州一對(duì)情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

蘇州一對(duì)情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

川渝視覺
2026-04-17 22:13:14
震驚!蘇州一公司全員放假61天,聲稱業(yè)務(wù)停滯停工,鼓勵(lì)員工離職

震驚!蘇州一公司全員放假61天,聲稱業(yè)務(wù)停滯停工,鼓勵(lì)員工離職

火山詩(shī)話
2026-04-19 15:02:27
2026-04-20 05:40:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機(jī)艙炸出一個(gè)洞

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機(jī)艙炸出一個(gè)洞

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

藝術(shù)
教育
親子
健康
旅游

藝術(shù)要聞

超模施特洛耶克寫真曝光,簡(jiǎn)直美到窒息,別錯(cuò)過!

教育要聞

南昌縣全民閱讀活動(dòng)在斗柏路小學(xué)開展

親子要聞

孩子總打噴嚏、起疹子,時(shí)過敏嗎?

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

旅游要聞

北京投入2.2億元建成和田“三館一院”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版