国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中山大學(xué)HCP Lab聯(lián)合拓元智慧提出高效世界模型DDP-WM

0
分享至



基于預(yù)訓(xùn)練視覺表征構(gòu)建世界模型已成為具身智能領(lǐng)域的前沿研究方向。以 DINO-WM 為代表的先進研究成果表明,基于視覺 Transformer (ViT) 的架構(gòu)能夠精確捕捉復(fù)雜的物理動態(tài),并展現(xiàn)出強大的零樣本規(guī)劃能力。然而,這種不區(qū)分運動物體和靜態(tài)背景、對所有圖像塊應(yīng)用自注意力的密集計算范式導(dǎo)致了高昂的計算開銷,使得決策速度成為實際部署中一個巨大的挑戰(zhàn)。

具體來說,目前最先進的此類模型 (DINO-WM) 在處理 Push-T 等典型操作任務(wù)時,其模型預(yù)測控制 (MPC) 的單個決策循環(huán)耗時高達兩分鐘。顯然,這種延遲對于需要與物理世界持續(xù)高頻交互的現(xiàn)實場景應(yīng)用而言是不可接受的,阻礙了機器人的大規(guī)模、低成本端側(cè)設(shè)備部署。

近期,中山大學(xué)人機物智能融合實驗室 (HCP Lab) 聯(lián)合拓元智慧 X-Era AI 提出了一種新型的高效世界模型框架:DDP-WM (Disentangled Dynamics Prediction World Model)。該框架的核心思想是解耦動態(tài)預(yù)測。通過一套系統(tǒng)化的設(shè)計,將計算資源精確分配給場景中不同屬性的動態(tài)特性,從而在推理速度大幅提升的同時,還能顯著提升復(fù)雜操縱任務(wù)的規(guī)劃成功率。例如,將 Push-T 任務(wù)的規(guī)劃速度提升 9 倍的同時,成功率從 90% 提升至 98%。該工作為設(shè)計高效、高保真度的世界模型提供了一條新途徑。



  • 論文標(biāo)題:DDP-WM: Disentangled Dynamics Prediction for Efficient World Models
  • 論文鏈接:https://arxiv.org/abs/2602.01780
  • 代碼鏈接:https://github.com/HCPLab-SYSU/DDP-WM

I. 動機

DDP-WM 的設(shè)計源于對現(xiàn)有稠密計算范式的模型在當(dāng)前主流任務(wù)上工作模式的洞察。大多數(shù)場景的物理交互過程中,實際發(fā)生變化的區(qū)域面積占比很?。灰簿褪钦f,絕大部分的計算都浪費在對靜態(tài)背景的無效重復(fù)計算上。

為直觀地揭示這種計算冗余的本質(zhì),該研究團隊對密集模型的內(nèi)部工作機制及其處理的動態(tài)數(shù)據(jù)進行了深入分析。 圖 1(a) 使用主成分分析 (PCA) 可視化模型預(yù)測器中每一層特征的演變。例子中我們可以看到,在多層高成本計算的整個過程中,靜態(tài)背景區(qū)域的那些 token 幾乎沒有特征上的變化,直接證明了大量的計算能力浪費在了重復(fù)無效計算上。



圖 1(a): 密集模型中特征演變的 PCA 可視化,揭示了靜態(tài)背景區(qū)域中大量的冗余計算。

這種現(xiàn)象的根本在于:大規(guī)模預(yù)訓(xùn)練的視覺基礎(chǔ)模型潛在空間表征,對于稀疏的運動變化所產(chǎn)生差異具有固有的稀疏性。 將輸入到真實世界模型的相鄰兩幀的特征圖進行相減后可視化(圖 1(b)),只有極小部分特征能看到顯著變化。物理世界中稀疏的運動動態(tài)反映在特征層面上是高度稀疏且結(jié)構(gòu)化的,這與前文觀察到的靜態(tài)背景區(qū)域 token 層間一致性是相符的。



圖1(b): 相鄰真實特征之間差異的 PCA 可視化,展示了物理世界動力學(xué)在特征層面的固有稀疏性。

基于這種洞察,DDP-WM 確立了其解耦動態(tài)預(yù)測 (DDP)的核心設(shè)計理念。該理念認為,觀測場景的潛在狀態(tài)演化可以從根本上分解為兩種不同的動態(tài):一種是稀疏的主動態(tài),由物理交互直接引起而發(fā)生在少數(shù)前景物體上;另一種是上下文驅(qū)動的背景更新,由主動態(tài)引發(fā)而發(fā)生在更廣泛的區(qū)域內(nèi)。

II. 架構(gòu):動態(tài)分配系統(tǒng)



圖 2:DDP-WM 框架概述。

如圖 2 所示,預(yù)測過程首先用高效的歷史信息融合模塊,通過單層交叉注意力將速度、加速度等高階動態(tài)信息注入到當(dāng)前幀特征里,為之后精確預(yù)測提供必要的上下文信息。富含歷史信息的 tokens 經(jīng)過動態(tài)定位網(wǎng)絡(luò)來識別下一幀中的主動態(tài)所在區(qū)域;識別出的主動態(tài)區(qū)域通過強大的稀疏主動態(tài)預(yù)測器,變換成下一幀的主動態(tài)特征;其余背景 tokens 在低秩校正模塊中,在主動態(tài) tokens 的指導(dǎo)下高效地修正背景上的細微變化。

2.1 動態(tài)定位:精確識別主要動態(tài)區(qū)域

動態(tài)定位網(wǎng)絡(luò)的功能是高效、準(zhǔn)確地識別出下一幀中發(fā)生稀疏的主動態(tài)。輸入歷史信息融合后的 token 序列到輕量級視覺 Transformer (ViT),輸出一個稀疏的二值掩碼 M,該掩碼用于標(biāo)記出預(yù)期會發(fā)生核心物理交互的圖像塊,把計算資源引向最重要的部分。

2.2 稀疏預(yù)測:將計算能力集中于核心變化

主動態(tài)是物理交互的核心,其變化通常復(fù)雜且非線性,需要強大的模型能力才能捕捉。DDP-WM 使用了一個強大的稀疏主動態(tài)預(yù)測器。該模塊也使用多層 ViT 架構(gòu),但是它的所有計算資源只用于動態(tài)定位網(wǎng)絡(luò)識別出來的稀疏前景特征子集。這樣 DDP-WM 就避免了把計算能力浪費在大面積的靜態(tài)背景上,從而可以讓更深、更強的模型來對真正的物理過程進行建模。另外,該模塊采用自適應(yīng)長度調(diào)整的方式,可以適應(yīng)不同的場景中動態(tài)變化的稀疏輸入序列長度,使得模型能應(yīng)對大幅度運動導(dǎo)致的大面積畫面變化,在硬件效率和計算精度之間取得良好的平衡。

2.3 背景更新:低成本自洽校正

DDP-WM 對被視為近似靜態(tài)的大面積背景區(qū)域采用了一種高效的更新策略:用一個專門設(shè)計的低秩校正模塊 (LRM)來執(zhí)行低成本的自洽校正。其核心是一個單向交叉注意力機制,允許來自前一幀的背景特征查詢主預(yù)測器新生成的前景特征。通過這種方式,背景特征可以以最小的計算開銷進行微調(diào),從而反映前景物體運動引起的全局上下文變化。這種設(shè)計確保了整個潛在特征空間在演化過程中的一致性和平滑性,對下游規(guī)劃任務(wù)至關(guān)重要。

III. 實驗驗證:效率與性能的雙重優(yōu)勢

為了全面評估 DDP-WM 框架的有效性,研究團隊在五個具有不同動態(tài)特性和任務(wù)復(fù)雜度的仿真環(huán)境中進行了廣泛的實驗。這些環(huán)境涵蓋了從簡單的導(dǎo)航(PointMaze、Wall)到精確的桌面操作 (Push-T),再到柔性體 (Rope) 和多體系統(tǒng) (Granular) 之間復(fù)雜的交互等各種場景。評估主要集中在規(guī)劃成功率 (SR)、倒角距離 (CD) 和模型預(yù)測控制 (MPC) 的計算效率等核心指標(biāo)上。

3.1 性能超越現(xiàn)有最佳基準(zhǔn)

實驗結(jié)果表明,DDP-WM 在所有任務(wù)上的規(guī)劃性能均達到或超過當(dāng)前最先進的密集世界模型 DINO-WM。 如表 1 所示,DDP-WM 在 PointMaze 和 Wall 導(dǎo)航任務(wù)中分別取得了 100% 和 98% 的高成功率。在具有挑戰(zhàn)性的剛體操作任務(wù) Push-T 中,DDP-WM 的 MPC 成功率達到 98%,顯著優(yōu)于 DINO-WM 的 90%。這表明 DDP-WM 提供的高精度預(yù)測能夠為規(guī)劃器提供更好的決策支持。



表 1 :五種仿真環(huán)境下 MPC 規(guī)劃性能對比

在更為復(fù)雜的繩索和顆粒任務(wù)中,難以定義二元成功狀態(tài);因此,倒角距離被用作評估操作精度的指標(biāo)。DDP-WM 在這兩項任務(wù)中也取得了最低的倒角距離,這展現(xiàn)了其強大的理解高自由度非剛體變形和復(fù)雜多體動力學(xué)的能力。規(guī)劃性能的提升源于高保真的預(yù)測建模質(zhì)量。動圖中可以看到,稠密 DINO-WM 在多步預(yù)測后,其生成的 T 形物塊出現(xiàn)了明顯的視覺偽影,例如邊緣模糊羽化、或違背物理常識的軟體狀扭曲變形;也就是說,對物體剛體特性不能夠準(zhǔn)確地表征。而 DDP-WM 則在整個過程中保持物塊銳利邊界和物理一致的旋轉(zhuǎn)姿態(tài)。這證明聚焦預(yù)測核心變化區(qū)域能夠顯著提升預(yù)測質(zhì)量。



3.2 效率實現(xiàn)數(shù)量級提升

實驗數(shù)據(jù)從三個方面來度量 DDP-WM 的效率提升:理論計算成本 (FLOPs)、實際推理吞吐量、端到端 MPC 決策延遲。動態(tài)復(fù)雜的 Push-T 任務(wù)中,DDP-WM 的單步前向推理 FLOPs 為 2.5G,DINO-WM 的單步前向推理 FLOPs 為 23G,兩者之比約為 0.108。該理論上的優(yōu)勢被轉(zhuǎn)化成了實際推理速度的提高。在單步推理吞吐量測試中,DDP-WM 在 Push-T 任務(wù)上實現(xiàn)了每秒 1563 個樣本的吞吐量,相比 DINO-WM 提升了9.2 倍。如此顯著的速度優(yōu)越性在整個 MPC 決策循環(huán)中能夠更顯著地體現(xiàn);比如,在需要 30 次 CEM 迭代的 Push-T 任務(wù)中,DDP-WM 的單次決策時間從 DINO-WM 的兩分鐘顯著縮短至 16 秒,這就使得更高頻率的實時機器人控制成為了可能。

3.3 消融實驗

為對框架中各設(shè)計元素的有效性進行驗證,研究團隊對 Push-T 任務(wù)進行了一系列消融實驗。其核心結(jié)果是:當(dāng)去除低秩校正模塊 (LRM),并只進行稀疏預(yù)測,而將靜態(tài)區(qū)域的特征嚴格保持與上一幀不變時,雖然開環(huán)預(yù)測仍然能夠保持超越稠密預(yù)測的高保真建模,但是模型的 MPC 成功率從 98% 急劇下降到 70%。這說明 LRM 解決的并非簡單的開環(huán)預(yù)測精度問題。



IV. 分析:閉環(huán)規(guī)劃中的挑戰(zhàn)與低秩校正

消融實驗揭示了一個關(guān)鍵現(xiàn)象:雖然簡單的稀疏化方案(即去掉 LRM 的版本,僅預(yù)測前景并直接復(fù)制背景)在多步開環(huán)預(yù)測中表現(xiàn)良好,但在閉環(huán)規(guī)劃中性能急劇下降。研究團隊對不同模型為規(guī)劃器生成的優(yōu)化景觀進行了可視化分析。

4.1 優(yōu)化景觀



圖 6:MPC 成本函數(shù)景觀對比。(左圖)移除 LRM 后的稀疏模型生成了一個崎嶇不平、噪聲較大的成本景觀。 (右圖)完整的 DDP-WM 模型提供了一個平滑且易于優(yōu)化的漏斗狀地形。

移除 LRM 之后,模型產(chǎn)生的代價地形崎嶇不平,噪聲大,峰形呈鋸齒狀,沒有明顯的全局最小值(圖 6(a))。這種地形上任何基于采樣的優(yōu)化器都無法找到有效的下降方向,在閉環(huán)規(guī)劃中就會失敗。相反的是, 帶有 LRM 的 DDP-WM 模型生成的代價地形非常平滑,并且有明顯的漏斗狀宏觀結(jié)構(gòu),中間有一個深的、唯一的最小值(圖 6(b))。這種地形給優(yōu)化算法提供了一個清晰的引力井,從而可以穩(wěn)定地收斂到最優(yōu)解。

4.2 低秩結(jié)構(gòu)

研究團隊進一步假設(shè),這種看似復(fù)雜的全局背景更新本質(zhì)上是低秩的。為了驗證這一核心假設(shè)并檢驗 LRM 是否成功學(xué)習(xí)到這種結(jié)構(gòu),研究團隊對由真實特征圖做差得到的背景更新特征圖和 LRM 模塊生成的背景更新特征圖進行了主成分分析 (PCA)。 結(jié)果發(fā)現(xiàn),真實更新特征圖的累積解釋方差曲線隨著主成分數(shù)量的增加,呈現(xiàn)出急劇上升、快速飽和的趨勢(圖 7),有力地證明了真實特征圖的更新過程本身就是低秩的。另外也可以看到,LRM 模塊生成的更新特征圖的 PCA 曲線和真實值曲線非常相似。



圖 7:LRM 成功學(xué)習(xí)到真實的低維結(jié)構(gòu)。(左圖)LRM 預(yù)測的更新特征的 PCA 分析(右圖)真實更新特征的PCA 分析。

V. 總結(jié)與展望

DDP-WM 的成功表明,通過基于對潛在空間的運動模式的深刻洞察進行有針對性的結(jié)構(gòu)設(shè)計,完全可以在不犧牲甚至超越現(xiàn)有 SOTA 的前提下,顯著提高世界模型預(yù)測速度。這項工作對于推動具身智能走向?qū)嶋H應(yīng)用有重大意義。DDP-WM 把對計算資源的依賴降低了一個數(shù)量級之后,就有可能在更輕量級的邊緣硬件上部署更高頻、更復(fù)雜的模型來進行規(guī)劃,從而為工業(yè)生產(chǎn)和家政服務(wù)等實際場景中部署先進的自主機器人鋪平道路。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
理想高管:恭喜大眾成功量產(chǎn)“過時、不環(huán)保、潛力不大”的增程

理想高管:恭喜大眾成功量產(chǎn)“過時、不環(huán)保、潛力不大”的增程

IT之家
2026-03-04 11:28:39
94分鐘被狼隊1-2掀翻!利物浦被絕殺次數(shù)創(chuàng)記錄!到底哪出問題了

94分鐘被狼隊1-2掀翻!利物浦被絕殺次數(shù)創(chuàng)記錄!到底哪出問題了

落夜足球
2026-03-04 11:53:20
越鬧越大!段曦發(fā)長文說張杰出軌,男方發(fā)文否認,這瓜太亂了

越鬧越大!段曦發(fā)長文說張杰出軌,男方發(fā)文否認,這瓜太亂了

叨嘮
2026-03-03 22:09:11
詐騙團伙利用“7天無理由退貨”,買真退假,倒賣高價運動鞋

詐騙團伙利用“7天無理由退貨”,買真退假,倒賣高價運動鞋

南方都市報
2026-03-03 21:42:11
呼吁停止軍事行動,承諾繼續(xù)主持公道,中方與多國密集通話勸和阻戰(zhàn)

呼吁停止軍事行動,承諾繼續(xù)主持公道,中方與多國密集通話勸和阻戰(zhàn)

環(huán)球網(wǎng)資訊
2026-03-04 06:36:55
舒淇在節(jié)目里第一次承認,她和馮德倫為要孩子已經(jīng)折騰了整整九年

舒淇在節(jié)目里第一次承認,她和馮德倫為要孩子已經(jīng)折騰了整整九年

南權(quán)先生
2025-12-05 16:25:34
別因為涂指甲油,就低估這小子

別因為涂指甲油,就低估這小子

只關(guān)于籃球
2026-03-04 13:03:06
西媒:裁判界均認定呂迪格應(yīng)禁賽4-12場,當(dāng)值VAR重大失誤

西媒:裁判界均認定呂迪格應(yīng)禁賽4-12場,當(dāng)值VAR重大失誤

懂球帝
2026-03-04 00:39:13
剛剛!韓國股市暴跌!觸發(fā)熔斷

剛剛!韓國股市暴跌!觸發(fā)熔斷

證券時報e公司
2026-03-04 09:19:11
騎士113-109戰(zhàn)勝活塞 球員評價:3人優(yōu)秀,6人及格

騎士113-109戰(zhàn)勝活塞 球員評價:3人優(yōu)秀,6人及格

籃球資訊達人
2026-03-04 10:52:34
中組部人社部明確:公職人員違紀(jì)待遇標(biāo)準(zhǔn) 一文全理清

中組部人社部明確:公職人員違紀(jì)待遇標(biāo)準(zhǔn) 一文全理清

解說阿洎
2026-03-04 09:41:08
李雨桐再曝薛之謙黑料!數(shù)十位大咖被波及,趙麗穎、杜江夫婦躺槍

李雨桐再曝薛之謙黑料!數(shù)十位大咖被波及,趙麗穎、杜江夫婦躺槍

鄉(xiāng)野小珥
2026-03-03 15:16:53
蘇聯(lián)“人猿雜交”實驗:5名女孩與11只猩猩參與,結(jié)局如何?

蘇聯(lián)“人猿雜交”實驗:5名女孩與11只猩猩參與,結(jié)局如何?

談史論天地
2026-02-28 13:35:18
35歲女子覺得不夠緊做陰道緊縮手術(shù),縫合針突然斷體內(nèi),瞬間崩潰

35歲女子覺得不夠緊做陰道緊縮手術(shù),縫合針突然斷體內(nèi),瞬間崩潰

丫頭舫
2026-03-03 21:33:10
羅永浩不知要卸妝一年沒卸 結(jié)果長了黃褐斑 現(xiàn)狀已失控

羅永浩不知要卸妝一年沒卸 結(jié)果長了黃褐斑 現(xiàn)狀已失控

快科技
2026-03-02 09:27:07
太難了!中國女足艱難擊敗第112位孟加拉國:王霜進球后痛哭

太難了!中國女足艱難擊敗第112位孟加拉國:王霜進球后痛哭

邱澤云
2026-03-03 18:38:46
中紀(jì)委開年再放大招!這4種人重點打擊,直接終身追責(zé)!

中紀(jì)委開年再放大招!這4種人重點打擊,直接終身追責(zé)!

細說職場
2026-03-03 22:19:21
除夕夜我備滿桌菜被婆婆踹倒,丈夫默默扶起我:媽,以后靠你自己吧

除夕夜我備滿桌菜被婆婆踹倒,丈夫默默扶起我:媽,以后靠你自己吧

奶茶麥子
2026-03-03 19:29:10
伊朗555人遇難,美軍3架F15被打爆,特朗普要阻止中國主導(dǎo)全球?

伊朗555人遇難,美軍3架F15被打爆,特朗普要阻止中國主導(dǎo)全球?

薛小榮
2026-03-03 17:29:35
哈登18+6+7率隊擊敗東部第一,賽后提前離場,米切爾入場

哈登18+6+7率隊擊敗東部第一,賽后提前離場,米切爾入場

二爺臺球解說
2026-03-04 10:51:42
2026-03-04 13:23:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12406文章數(shù) 142578關(guān)注度
往期回顧 全部

科技要聞

新MacBook Pro首發(fā)M5 Pro/Max芯片 17999起

頭條要聞

從霍爾木茲海峽到地中海 伊朗首度攻擊歐盟國家

頭條要聞

從霍爾木茲海峽到地中海 伊朗首度攻擊歐盟國家

體育要聞

“頭鐵”拼圖在NBA也有生存環(huán)境

娛樂要聞

迪麗熱巴轉(zhuǎn)機滯留迪拜 錯過巴黎時裝周

財經(jīng)要聞

伊朗,正在打破特朗普的幻想

汽車要聞

比亞迪元PLUS遭導(dǎo)彈襲擊 車輛未起火/乘員均生還

態(tài)度原創(chuàng)

本地
游戲
家居
健康
旅游

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

《生化危機9》里昂配音不愿透露支持CP 怕被粉絲干掉!

家居要聞

極簡無界 靜居自安然

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

擂響“東方第一鼓”雅集翰墨繪團圓,浦東元宵游園會勁展“動”“靜”中國韻

無障礙瀏覽 進入關(guān)懷版