国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

徹底顛覆!谷歌4D世界模型來了,比SOTA快300倍!

0
分享至


來源:新智元

【導(dǎo)讀】谷歌 DeepMind 發(fā)布 D4RT,徹底顛覆了動(dòng)態(tài) 4D 重建范式。它拋棄了復(fù)雜的傳統(tǒng)流水線,用一個(gè)統(tǒng)一的「時(shí)空查詢」接口,同時(shí)搞定全像素追蹤、深度估計(jì)與相機(jī)位姿。不僅精度屠榜,速度更比現(xiàn)有 SOTA 快出 300 倍。這是具身智能與自動(dòng)駕駛以及 AR 的新基石,AI 終于能像人類一樣,實(shí)時(shí)看懂這個(gè)流動(dòng)的世界。

如果是幾年前,你問一位計(jì)算機(jī)視覺工程師:「我想把這段視頻里的所有東西——無論它是靜止的房子還是奔跑的狗——都在 3D 世界里重建出來,并且還能隨時(shí)知道它們下一秒會(huì)去哪兒,需要多久?」

他大概會(huì)遞給你一根煙,讓你先去買幾塊頂級(jí)顯卡,然后給你畫一個(gè)由四五個(gè)不同模型拼湊起來的流程圖:先算光流,再算深度,再估相機(jī)位姿,最后還得用一晚上的時(shí)間去跑優(yōu)化,祈禱結(jié)果別崩。

但谷歌 DeepMind 剛剛發(fā)布的D4RT(Dynamic 4D Reconstruction and Tracking),試圖終結(jié)這種混亂。


這篇論文在計(jì)算機(jī)視覺領(lǐng)域扔下了一枚關(guān)于「效率革命」的重磅炸彈。

它把原本割裂的 3D 重建、相機(jī)追蹤、動(dòng)態(tài)物體捕捉,統(tǒng)一成了一個(gè)極簡的「查詢」動(dòng)作。


更重要的是,它的速度比現(xiàn)有SOTA技術(shù)快了 18 到 300 倍


如果在你的認(rèn)知里,高質(zhì)量的 4D 重建還是好萊塢特效工作室里那些昂貴且緩慢的渲染農(nóng)場,耗費(fèi)漫長的時(shí)間等待生成完畢,那么 D4RT 正在把這種能力變成一種可以塞進(jìn)機(jī)器人大腦甚至 AR 眼鏡里的實(shí)時(shí)直覺。

Demo 演示

為了理解 D4RT 到底做到了什么,我們需要先看一眼它眼中的世界。

在論文展示的演示中,最直觀的震撼來自于對「動(dòng)態(tài)混亂」的駕馭能力。

想象一下這個(gè)畫面:一只天鵝在水面上劃過,或者一朵花在風(fēng)中快速綻放。

傳統(tǒng)的 3D 重建算法(比如 MegaSaM 或 )處理這種場景通常是一場災(zāi)難——因?yàn)樗鼈兗僭O(shè)世界是靜止的,所以它們往往會(huì)在 3D 空間里留下一串「重影」,就像老式膠片重疊曝光一樣,天鵝變成了長著幾十個(gè)脖子的怪物,或者花朵直接變成了一團(tuán)無法辨認(rèn)的噪點(diǎn)。

但 D4RT 給出的結(jié)果極其干凈。

它不僅可以精準(zhǔn)還原天鵝的 3D 形態(tài),還完美剝離了相機(jī)的運(yùn)動(dòng)和天鵝自身的運(yùn)動(dòng)。

在它的視野里,時(shí)間變成了一個(gè)可以隨意拖動(dòng)的滑塊。


更令人印象深刻的是它的全像素追蹤能力。

你可以點(diǎn)擊視頻中花瓣上的任意一個(gè)像素,D4RT 就能畫出這個(gè)點(diǎn)在過去和未來的完整 3D 軌跡,哪怕這個(gè)點(diǎn)在中間幾幀被蜜蜂遮擋了,或者跑到了畫面之外,模型依然能根據(jù)上下文「腦補(bǔ)」出它的去向。


這種視覺效果給人的感覺是:AI 不再是在一幀幀地「看」視頻,而是把整段視頻吞下去,在大腦里生成了一個(gè)完整的、流動(dòng)的全息全景圖,然后你可以隨意從任何角度、任何時(shí)間去檢視它。


模型能力對比圖

拆解「神話」

是真的快,還是文字游戲?

科技公司發(fā)論文,數(shù)據(jù)通常都很漂亮。

作為觀察者,我們需要?jiǎng)冸x PR 濾鏡,看看數(shù)據(jù)背后的定語。

谷歌聲稱 D4RT 比之前的 SOTA 快了300 倍,處理一分鐘的視頻只需要 5 秒鐘。

這是真的嗎?

答案是:在特定維度上,是真的。

這里的「300倍」指的是吞吐量,具體來說是「在保持相同幀率(FPS)的前提下,模型能同時(shí)追蹤多少條 3D 軌跡」。

  • 數(shù)據(jù)對比:在 24 FPS 的標(biāo)準(zhǔn)電影幀率下,之前的強(qiáng)者 SpatialTrackerV2 只能同時(shí)追蹤84條軌跡,再多就卡了;而 D4RT 可以輕松處理1570條。如果是和 DELTA 這種更慢的模型比,那就是314 倍的差距。


  • 實(shí)際意義:這意味著之前的技術(shù)可能只能盯著畫面里的主角(比如一個(gè)人),而 D4RT 可以同時(shí)盯著背景里走動(dòng)的路人、飄落的樹葉和遠(yuǎn)處的車流——即所謂的「全像素級(jí)感知」。

它比同類技術(shù)強(qiáng)在哪兒?

目前市面上的 4D 重建技術(shù)主要分兩派:

  1. 「拼裝派」(如 MegaSaM):把深度估計(jì)、光流、分割等多個(gè)現(xiàn)成模型串起來。雖然效果不錯(cuò),但不僅慢,而且一旦一個(gè)環(huán)節(jié)出錯(cuò)(比如光流飄了),后面全完。

  1. 「多頭派」(如 VGGT):雖然是一個(gè)大模型,但為了輸出不同的任務(wù)(深度、位姿、點(diǎn)云),需要掛載不同的解碼頭,結(jié)構(gòu)臃腫。

D4RT 的牛,在于它做到了架構(gòu)層面的統(tǒng)一。

它不需要為深度單獨(dú)做一個(gè)解碼器,也不需要為位姿單獨(dú)做一個(gè)。

它只用同一個(gè)接口解決所有問題。


有沒有代價(jià)?當(dāng)然有。

D4RT 的「快」主要體現(xiàn)在推理階段。

在訓(xùn)練階段,它依然是一個(gè)龐然大物。它的編碼器使用了 ViT-g,擁有10 億參數(shù),并且需要在 64 個(gè) TPU 芯片上訓(xùn)練兩天。

這絕不是普通開發(fā)者在自家車庫里能復(fù)現(xiàn)的玩具,它是典型的「大廠重武器」。

技術(shù)解碼

把 4D 重建變成「搜索引擎」

那么,D4RT 到底是怎么做到的?

論文的核心邏輯可以用一句話概括:先全局「閱讀」視頻,再按需「搜索」答案。

不再逐幀解碼,而是「全局記憶」

傳統(tǒng)的視頻處理往往是線性的,處理第 10 幀時(shí)可能已經(jīng)「忘」了第 1 幀的細(xì)節(jié)。

D4RT 的第一步是使用一個(gè)巨大的 Transformer 編碼器(Encoder),把整段視頻壓縮成一個(gè)全局場景表征(Global Scene Representation, F)

你可以把這個(gè)F想象成 AI 對這段視頻形成的「長期記憶」。

一旦這個(gè)記憶生成了,原本龐大的視頻數(shù)據(jù)就被濃縮在了這里。

「哪里不會(huì)點(diǎn)哪里」的查詢機(jī)制

這是 D4RT 最天才的設(shè)計(jì)。它發(fā)明了一種通用的查詢(Query)語言。

當(dāng) AI 想要知道某個(gè)像素的信息時(shí),它會(huì)向解碼器(Decoder)發(fā)送一個(gè)查詢 q:

這個(gè)公式翻譯成人話就是:

請告訴我:在這一幀圖像上坐標(biāo)為的那個(gè)點(diǎn),它在這個(gè)時(shí)間時(shí)刻,如果從這個(gè)相機(jī)的視角看過去,它的 3D 坐標(biāo)在哪里?」

  • 如果你想生成深度圖:就問「現(xiàn)在這個(gè)點(diǎn)在現(xiàn)在的相機(jī)里多遠(yuǎn)?」(讓 )。

  • 如果你想做軌跡追蹤:就問「這個(gè)點(diǎn)在第 1 幀、第 2 幀……第 N 幀都在哪?」(固定 ,改變 )。


  • 如果你想重建點(diǎn)云:就問「視頻里所有點(diǎn)在同一時(shí)刻的世界坐標(biāo)在哪?」(把所有點(diǎn)都映射到同一個(gè) )。


并行計(jì)算的藝術(shù)

因?yàn)槊恳粋(gè)查詢(Query)都是獨(dú)立的,D4RT 不需要像穿針引線一樣按順序計(jì)算。

它可以一次性扔出幾萬個(gè)問題,利用 GPU/TPU 的并行能力同時(shí)算出答案。

這就是為什么它能比別人快 300 倍的根本原因:它把一個(gè)復(fù)雜的串行幾何問題,變成了一個(gè)大規(guī)模并行的搜索問題。

關(guān)鍵的「作弊」技巧:9x9 Patch

論文作者還發(fā)現(xiàn)了一個(gè)有趣的細(xì)節(jié):如果只告訴解碼器坐標(biāo)點(diǎn),AI 有時(shí)候會(huì)「臉盲」,分不清紋理相似的區(qū)域。

于是,他們在查詢時(shí)順便把那個(gè)像素點(diǎn)周圍9x9的小方塊圖像(RGB Patch)也喂給了模型。


這就像是你讓人在人群中找人,光給個(gè)坐標(biāo)不行,還得給他一張那個(gè)人臉部的特寫照片。

消融實(shí)驗(yàn)證明,這個(gè)小小的設(shè)計(jì)極大地提升了重建的銳度和細(xì)節(jié)。


產(chǎn)業(yè)影響

谷歌的野心與具身智能的眼睛

D4RT 的出現(xiàn),對谷歌現(xiàn)有的業(yè)務(wù)版圖和未來的 AI 戰(zhàn)略有著極強(qiáng)的互補(bǔ)性。

具身智能與自動(dòng)駕駛的最后一塊拼圖

現(xiàn)在的機(jī)器人之所以笨,很大程度上是因?yàn)樗鼈儭缚床欢箘?dòng)態(tài)環(huán)境。

一個(gè)掃地機(jī)器人能避開沙發(fā),但很難預(yù)判一只正在跑過來的貓。

D4RT 提供的實(shí)時(shí)、密集、動(dòng)態(tài)的 4D 感知,正是機(jī)器人急需的技能。

它能讓機(jī)器人理解:那個(gè)東西不僅現(xiàn)在在那里,而且下一秒它會(huì)出現(xiàn)在我左邊。

對于自動(dòng)駕駛而言,這種對動(dòng)態(tài)物體(如行人、車輛)的像素級(jí)軌跡預(yù)測,是提升安全性的關(guān)鍵。

增強(qiáng)現(xiàn)實(shí)(AR)的基石

谷歌一直在 AR 領(lǐng)域?qū)ふ彝黄瓶冢◤漠?dāng)年的谷歌眼鏡,到現(xiàn)在的 Project Astra)。

要在眼鏡端實(shí)現(xiàn)逼真的 AR,必須要有極低延遲的場景理解。

D4RT 展示的高效推理能力(尤其是在移動(dòng)端芯片上的潛力),讓「實(shí)時(shí)把虛擬怪獸藏在真實(shí)沙發(fā)后面」變得在工程上可行。

對普通人的影響

視頻編輯的「魔法化」

對于普通用戶,這項(xiàng)技術(shù)最快落地的場景可能是手機(jī)相冊和視頻編輯軟件。

想象一下,你拍了一段孩子踢球的視頻。

有了 D4RT,你可以像在《黑客帝國》里一樣,在視頻播放過程中隨意旋轉(zhuǎn)視角(盡管你拍攝時(shí)并沒有移動(dòng)),或者輕易地把路人從復(fù)雜的背景中「扣」掉,甚至改變視頻中光源的方向。

這是 D4RT 這種 4D 重建技術(shù)成熟后的應(yīng)用之一。

結(jié)語

D4RT 讓我們看到了一種新的可能性:AI 對世界的理解,正在從二維的「圖像識(shí)別」跨越到四維的「時(shí)空洞察」。

它告訴我們,要看清這個(gè)流動(dòng)的世界,關(guān)鍵不在于每一幀都看得多仔細(xì),而在于如何建立一個(gè)能夠隨時(shí)回應(yīng)疑問的全局記憶。

AI的眼中,過去并沒有消逝,未來也不再不可捉摸,它們只是同一個(gè)四維坐標(biāo)系里,等待被查詢的兩個(gè)不同參數(shù)而已。

參考資料:

https://d4rt-paper.github.io/

https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

https://storage.googleapis.com/d4rt_assets/D4RT_paper.pdf

為偉大思想而生!

AI+時(shí)代,互聯(lián)網(wǎng)思想(wanging0123),

第一必讀自媒體

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
六臺(tái):阿爾瓦雷斯已經(jīng)告知馬競,自己想加盟巴薩

六臺(tái):阿爾瓦雷斯已經(jīng)告知馬競,自己想加盟巴薩

懂球帝
2026-04-28 15:10:14
演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

大眼妹妹
2025-12-15 10:39:19
《浪姐7》何宣林疑似被“孤立”,姐姐們的“人情世故”被玩透了

《浪姐7》何宣林疑似被“孤立”,姐姐們的“人情世故”被玩透了

娛樂圈筆娛君
2026-04-28 13:57:03
有一種頂級(jí)的認(rèn)知:這世上90%的事不需要贏,只需要脫身

有一種頂級(jí)的認(rèn)知:這世上90%的事不需要贏,只需要脫身

洞見
2026-04-10 09:45:26
朱琳老了,林芳兵面相變了,沈丹萍腫了,唯有她63歲看起來像36歲

朱琳老了,林芳兵面相變了,沈丹萍腫了,唯有她63歲看起來像36歲

小徐講八卦
2026-04-28 06:20:12
孟子義《奔跑吧》14宣傳片半球裸露被審判,網(wǎng)友:為了黑而黑

孟子義《奔跑吧》14宣傳片半球裸露被審判,網(wǎng)友:為了黑而黑

草莓解說體育
2026-04-26 10:58:37
江亞菲婚后9年沒有孩子,一張10年前的病歷單,讓王海洋秘密曝光

江亞菲婚后9年沒有孩子,一張10年前的病歷單,讓王海洋秘密曝光

卡西莫多的故事
2026-04-27 10:49:42
又一名前國腳球員,舉家移居日本,只為讓兒子走正規(guī)青訓(xùn)道路

又一名前國腳球員,舉家移居日本,只為讓兒子走正規(guī)青訓(xùn)道路

開成運(yùn)動(dòng)會(huì)
2026-04-28 23:08:53
李想稱理想L9 Livis比上汽大眾ID.ERA 9X至少領(lǐng)先兩代,大眾高管回應(yīng):理想僅價(jià)格和營銷水平領(lǐng)先,我們絕不會(huì)自稱是“500萬內(nèi)最好”產(chǎn)品

李想稱理想L9 Livis比上汽大眾ID.ERA 9X至少領(lǐng)先兩代,大眾高管回應(yīng):理想僅價(jià)格和營銷水平領(lǐng)先,我們絕不會(huì)自稱是“500萬內(nèi)最好”產(chǎn)品

魯中晨報(bào)
2026-04-27 11:28:06
北美當(dāng)個(gè)寶,國內(nèi)沒人鳥,投資13.7億的好萊塢大片被國人上了一課

北美當(dāng)個(gè)寶,國內(nèi)沒人鳥,投資13.7億的好萊塢大片被國人上了一課

八卦南風(fēng)
2026-04-28 14:39:59
打破杰拉德紀(jì)錄,凱恩成首位連續(xù)6場歐冠進(jìn)球的英格蘭球員

打破杰拉德紀(jì)錄,凱恩成首位連續(xù)6場歐冠進(jìn)球的英格蘭球員

懂球帝
2026-04-29 03:41:16
5月緊吃它,讓大腦更“年輕”的時(shí)令菜!全年僅此一季,鮮極了

5月緊吃它,讓大腦更“年輕”的時(shí)令菜!全年僅此一季,鮮極了

江江食研社
2026-04-28 22:30:07
網(wǎng)傳深圳東部華僑城結(jié)業(yè)、閉園?最新回應(yīng):不實(shí)

網(wǎng)傳深圳東部華僑城結(jié)業(yè)、閉園?最新回應(yīng):不實(shí)

魯中晨報(bào)
2026-04-28 17:08:10
科爾提議取消三分線?禪師菲爾·杰克遜:這事兒我憋了15年了

科爾提議取消三分線?禪師菲爾·杰克遜:這事兒我憋了15年了

仰臥撐FTUer
2026-04-28 09:58:02
我在中東教漢語,娶了三個(gè)本地女孩,雖然年入百萬,卻并不幸福

我在中東教漢語,娶了三個(gè)本地女孩,雖然年入百萬,卻并不幸福

千秋文化
2026-04-20 19:55:30
63歲李修平獨(dú)自逛太廟,素顏穿搭太樸素,退休生活太舒心

63歲李修平獨(dú)自逛太廟,素顏穿搭太樸素,退休生活太舒心

手工制作阿殲
2026-04-28 11:39:42
網(wǎng)傳五一后醫(yī)療行業(yè)被查,醫(yī)護(hù)人員人心惶惶,評論區(qū)呼聲十分強(qiáng)烈

網(wǎng)傳五一后醫(yī)療行業(yè)被查,醫(yī)護(hù)人員人心惶惶,評論區(qū)呼聲十分強(qiáng)烈

譚談社會(huì)
2026-04-27 23:01:22
70歲大媽坦言:到了晚年才明白,最親的人根本不是老伴

70歲大媽坦言:到了晚年才明白,最親的人根本不是老伴

惟來
2026-04-28 14:17:52
菲政壇大地震,莎拉取消五國行,67億贓款被扒,父女倆徹底栽了?

菲政壇大地震,莎拉取消五國行,67億贓款被扒,父女倆徹底栽了?

影孖看世界
2026-04-27 23:40:49
清醒到可怕!亞歷山大橫掃后語出驚人,雷霆衛(wèi)冕冠軍底蘊(yùn)拉滿!

清醒到可怕!亞歷山大橫掃后語出驚人,雷霆衛(wèi)冕冠軍底蘊(yùn)拉滿!

田先生籃球
2026-04-28 14:45:01
2026-04-29 04:51:00
互聯(lián)網(wǎng)思想 incentive-icons
互聯(lián)網(wǎng)思想
AI時(shí)代,互聯(lián)網(wǎng)思想觀察
2434文章數(shù) 16907關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

態(tài)度原創(chuàng)

旅游
藝術(shù)
本地
健康
公開課

旅游要聞

莫讓內(nèi)卷式競爭削弱旅游消費(fèi)信心

藝術(shù)要聞

京東浙江總部公示,99.99米高,中國第一民企落子民營大!

本地新聞

用青花瓷的方式,打開西溪濕地

干細(xì)胞治療燒燙傷三大優(yōu)勢!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版