中山大學(xué)HCP Lab聯(lián)合拓元智慧提出高效世界模型DDP-WM

2026-03-03 15:46:36　來源: 機器之心Pro

河北舉報

分享至

基于預(yù)訓(xùn)練視覺表征構(gòu)建世界模型已成為具身智能領(lǐng)域的前沿研究方向。以 DINO-WM 為代表的先進研究成果表明，基于視覺 Transformer (ViT) 的架構(gòu)能夠精確捕捉復(fù)雜的物理動態(tài)，并展現(xiàn)出強大的零樣本規(guī)劃能力。然而，這種不區(qū)分運動物體和靜態(tài)背景、對所有圖像塊應(yīng)用自注意力的密集計算范式導(dǎo)致了高昂的計算開銷，使得決策速度成為實際部署中一個巨大的挑戰(zhàn)。

具體來說，目前最先進的此類模型 (DINO-WM) 在處理 Push-T 等典型操作任務(wù)時，其模型預(yù)測控制 (MPC) 的單個決策循環(huán)耗時高達兩分鐘。顯然，這種延遲對于需要與物理世界持續(xù)高頻交互的現(xiàn)實場景應(yīng)用而言是不可接受的，阻礙了機器人的大規(guī)模、低成本端側(cè)設(shè)備部署。

近期，中山大學(xué)人機物智能融合實驗室 (HCP Lab) 聯(lián)合拓元智慧 X-Era AI 提出了一種新型的高效世界模型框架：DDP-WM (Disentangled Dynamics Prediction World Model)。該框架的核心思想是解耦動態(tài)預(yù)測。通過一套系統(tǒng)化的設(shè)計，將計算資源精確分配給場景中不同屬性的動態(tài)特性，從而在推理速度大幅提升的同時，還能顯著提升復(fù)雜操縱任務(wù)的規(guī)劃成功率。例如，將 Push-T 任務(wù)的規(guī)劃速度提升 9 倍的同時，成功率從 90% 提升至 98%。該工作為設(shè)計高效、高保真度的世界模型提供了一條新途徑。

論文標(biāo)題：DDP-WM: Disentangled Dynamics Prediction for Efficient World Models
論文鏈接：https://arxiv.org/abs/2602.01780
代碼鏈接：https://github.com/HCPLab-SYSU/DDP-WM

I. 動機

DDP-WM 的設(shè)計源于對現(xiàn)有稠密計算范式的模型在當(dāng)前主流任務(wù)上工作模式的洞察。大多數(shù)場景的物理交互過程中，實際發(fā)生變化的區(qū)域面積占比很?。灰簿褪钦f，絕大部分的計算都浪費在對靜態(tài)背景的無效重復(fù)計算上。

為直觀地揭示這種計算冗余的本質(zhì)，該研究團隊對密集模型的內(nèi)部工作機制及其處理的動態(tài)數(shù)據(jù)進行了深入分析。圖 1(a) 使用主成分分析 (PCA) 可視化模型預(yù)測器中每一層特征的演變。例子中我們可以看到，在多層高成本計算的整個過程中，靜態(tài)背景區(qū)域的那些 token 幾乎沒有特征上的變化，直接證明了大量的計算能力浪費在了重復(fù)無效計算上。

圖 1(a)：密集模型中特征演變的 PCA 可視化，揭示了靜態(tài)背景區(qū)域中大量的冗余計算。

這種現(xiàn)象的根本在于：大規(guī)模預(yù)訓(xùn)練的視覺基礎(chǔ)模型潛在空間表征，對于稀疏的運動變化所產(chǎn)生差異具有固有的稀疏性。將輸入到真實世界模型的相鄰兩幀的特征圖進行相減后可視化（圖 1(b)），只有極小部分特征能看到顯著變化。物理世界中稀疏的運動動態(tài)反映在特征層面上是高度稀疏且結(jié)構(gòu)化的，這與前文觀察到的靜態(tài)背景區(qū)域 token 層間一致性是相符的。

圖1(b)：相鄰真實特征之間差異的 PCA 可視化，展示了物理世界動力學(xué)在特征層面的固有稀疏性。

基于這種洞察，DDP-WM 確立了其解耦動態(tài)預(yù)測 (DDP)的核心設(shè)計理念。該理念認為，觀測場景的潛在狀態(tài)演化可以從根本上分解為兩種不同的動態(tài)：一種是稀疏的主動態(tài)，由物理交互直接引起而發(fā)生在少數(shù)前景物體上；另一種是上下文驅(qū)動的背景更新，由主動態(tài)引發(fā)而發(fā)生在更廣泛的區(qū)域內(nèi)。

II. 架構(gòu)：動態(tài)分配系統(tǒng)

圖 2：DDP-WM 框架概述。

如圖 2 所示，預(yù)測過程首先用高效的歷史信息融合模塊，通過單層交叉注意力將速度、加速度等高階動態(tài)信息注入到當(dāng)前幀特征里，為之后精確預(yù)測提供必要的上下文信息。富含歷史信息的 tokens 經(jīng)過動態(tài)定位網(wǎng)絡(luò)來識別下一幀中的主動態(tài)所在區(qū)域；識別出的主動態(tài)區(qū)域通過強大的稀疏主動態(tài)預(yù)測器，變換成下一幀的主動態(tài)特征；其余背景 tokens 在低秩校正模塊中，在主動態(tài) tokens 的指導(dǎo)下高效地修正背景上的細微變化。

2.1 動態(tài)定位：精確識別主要動態(tài)區(qū)域

動態(tài)定位網(wǎng)絡(luò)的功能是高效、準(zhǔn)確地識別出下一幀中發(fā)生稀疏的主動態(tài)。輸入歷史信息融合后的 token 序列到輕量級視覺 Transformer (ViT)，輸出一個稀疏的二值掩碼 M，該掩碼用于標(biāo)記出預(yù)期會發(fā)生核心物理交互的圖像塊，把計算資源引向最重要的部分。

2.2 稀疏預(yù)測：將計算能力集中于核心變化

主動態(tài)是物理交互的核心，其變化通常復(fù)雜且非線性，需要強大的模型能力才能捕捉。DDP-WM 使用了一個強大的稀疏主動態(tài)預(yù)測器。該模塊也使用多層 ViT 架構(gòu)，但是它的所有計算資源只用于動態(tài)定位網(wǎng)絡(luò)識別出來的稀疏前景特征子集。這樣 DDP-WM 就避免了把計算能力浪費在大面積的靜態(tài)背景上，從而可以讓更深、更強的模型來對真正的物理過程進行建模。另外，該模塊采用自適應(yīng)長度調(diào)整的方式，可以適應(yīng)不同的場景中動態(tài)變化的稀疏輸入序列長度，使得模型能應(yīng)對大幅度運動導(dǎo)致的大面積畫面變化，在硬件效率和計算精度之間取得良好的平衡。

2.3 背景更新：低成本自洽校正

DDP-WM 對被視為近似靜態(tài)的大面積背景區(qū)域采用了一種高效的更新策略：用一個專門設(shè)計的低秩校正模塊 (LRM)來執(zhí)行低成本的自洽校正。其核心是一個單向交叉注意力機制，允許來自前一幀的背景特征查詢主預(yù)測器新生成的前景特征。通過這種方式，背景特征可以以最小的計算開銷進行微調(diào)，從而反映前景物體運動引起的全局上下文變化。這種設(shè)計確保了整個潛在特征空間在演化過程中的一致性和平滑性，對下游規(guī)劃任務(wù)至關(guān)重要。

III. 實驗驗證：效率與性能的雙重優(yōu)勢

為了全面評估 DDP-WM 框架的有效性，研究團隊在五個具有不同動態(tài)特性和任務(wù)復(fù)雜度的仿真環(huán)境中進行了廣泛的實驗。這些環(huán)境涵蓋了從簡單的導(dǎo)航（PointMaze、Wall）到精確的桌面操作 (Push-T)，再到柔性體 (Rope) 和多體系統(tǒng) (Granular) 之間復(fù)雜的交互等各種場景。評估主要集中在規(guī)劃成功率 (SR)、倒角距離 (CD) 和模型預(yù)測控制 (MPC) 的計算效率等核心指標(biāo)上。

3.1 性能超越現(xiàn)有最佳基準(zhǔn)

實驗結(jié)果表明，DDP-WM 在所有任務(wù)上的規(guī)劃性能均達到或超過當(dāng)前最先進的密集世界模型 DINO-WM。如表 1 所示，DDP-WM 在 PointMaze 和 Wall 導(dǎo)航任務(wù)中分別取得了 100% 和 98% 的高成功率。在具有挑戰(zhàn)性的剛體操作任務(wù) Push-T 中，DDP-WM 的 MPC 成功率達到 98%，顯著優(yōu)于 DINO-WM 的 90%。這表明 DDP-WM 提供的高精度預(yù)測能夠為規(guī)劃器提供更好的決策支持。

表 1 ：五種仿真環(huán)境下 MPC 規(guī)劃性能對比

在更為復(fù)雜的繩索和顆粒任務(wù)中，難以定義二元成功狀態(tài)；因此，倒角距離被用作評估操作精度的指標(biāo)。DDP-WM 在這兩項任務(wù)中也取得了最低的倒角距離，這展現(xiàn)了其強大的理解高自由度非剛體變形和復(fù)雜多體動力學(xué)的能力。規(guī)劃性能的提升源于高保真的預(yù)測建模質(zhì)量。動圖中可以看到，稠密 DINO-WM 在多步預(yù)測后，其生成的 T 形物塊出現(xiàn)了明顯的視覺偽影，例如邊緣模糊羽化、或違背物理常識的軟體狀扭曲變形；也就是說，對物體剛體特性不能夠準(zhǔn)確地表征。而 DDP-WM 則在整個過程中保持物塊銳利邊界和物理一致的旋轉(zhuǎn)姿態(tài)。這證明聚焦預(yù)測核心變化區(qū)域能夠顯著提升預(yù)測質(zhì)量。

3.2 效率實現(xiàn)數(shù)量級提升

實驗數(shù)據(jù)從三個方面來度量 DDP-WM 的效率提升：理論計算成本 (FLOPs)、實際推理吞吐量、端到端 MPC 決策延遲。動態(tài)復(fù)雜的 Push-T 任務(wù)中，DDP-WM 的單步前向推理 FLOPs 為 2.5G，DINO-WM 的單步前向推理 FLOPs 為 23G，兩者之比約為 0.108。該理論上的優(yōu)勢被轉(zhuǎn)化成了實際推理速度的提高。在單步推理吞吐量測試中，DDP-WM 在 Push-T 任務(wù)上實現(xiàn)了每秒 1563 個樣本的吞吐量，相比 DINO-WM 提升了9.2 倍。如此顯著的速度優(yōu)越性在整個 MPC 決策循環(huán)中能夠更顯著地體現(xiàn)；比如，在需要 30 次 CEM 迭代的 Push-T 任務(wù)中，DDP-WM 的單次決策時間從 DINO-WM 的兩分鐘顯著縮短至 16 秒，這就使得更高頻率的實時機器人控制成為了可能。

3.3 消融實驗

為對框架中各設(shè)計元素的有效性進行驗證，研究團隊對 Push-T 任務(wù)進行了一系列消融實驗。其核心結(jié)果是：當(dāng)去除低秩校正模塊 (LRM)，并只進行稀疏預(yù)測，而將靜態(tài)區(qū)域的特征嚴格保持與上一幀不變時，雖然開環(huán)預(yù)測仍然能夠保持超越稠密預(yù)測的高保真建模，但是模型的 MPC 成功率從 98% 急劇下降到 70%。這說明 LRM 解決的并非簡單的開環(huán)預(yù)測精度問題。

IV. 分析：閉環(huán)規(guī)劃中的挑戰(zhàn)與低秩校正

消融實驗揭示了一個關(guān)鍵現(xiàn)象：雖然簡單的稀疏化方案（即去掉 LRM 的版本，僅預(yù)測前景并直接復(fù)制背景）在多步開環(huán)預(yù)測中表現(xiàn)良好，但在閉環(huán)規(guī)劃中性能急劇下降。研究團隊對不同模型為規(guī)劃器生成的優(yōu)化景觀進行了可視化分析。

4.1 優(yōu)化景觀

圖 6：MPC 成本函數(shù)景觀對比。（左圖）移除 LRM 后的稀疏模型生成了一個崎嶇不平、噪聲較大的成本景觀。（右圖）完整的 DDP-WM 模型提供了一個平滑且易于優(yōu)化的漏斗狀地形。

移除 LRM 之后，模型產(chǎn)生的代價地形崎嶇不平，噪聲大，峰形呈鋸齒狀，沒有明顯的全局最小值（圖 6(a)）。這種地形上任何基于采樣的優(yōu)化器都無法找到有效的下降方向，在閉環(huán)規(guī)劃中就會失敗。相反的是，帶有 LRM 的 DDP-WM 模型生成的代價地形非常平滑，并且有明顯的漏斗狀宏觀結(jié)構(gòu)，中間有一個深的、唯一的最小值（圖 6(b)）。這種地形給優(yōu)化算法提供了一個清晰的引力井，從而可以穩(wěn)定地收斂到最優(yōu)解。

4.2 低秩結(jié)構(gòu)

研究團隊進一步假設(shè)，這種看似復(fù)雜的全局背景更新本質(zhì)上是低秩的。為了驗證這一核心假設(shè)并檢驗 LRM 是否成功學(xué)習(xí)到這種結(jié)構(gòu)，研究團隊對由真實特征圖做差得到的背景更新特征圖和 LRM 模塊生成的背景更新特征圖進行了主成分分析 (PCA)。結(jié)果發(fā)現(xiàn)，真實更新特征圖的累積解釋方差曲線隨著主成分數(shù)量的增加，呈現(xiàn)出急劇上升、快速飽和的趨勢（圖 7），有力地證明了真實特征圖的更新過程本身就是低秩的。另外也可以看到，LRM 模塊生成的更新特征圖的 PCA 曲線和真實值曲線非常相似。

圖 7：LRM 成功學(xué)習(xí)到真實的低維結(jié)構(gòu)。（左圖）LRM 預(yù)測的更新特征的 PCA 分析（右圖）真實更新特征的PCA 分析。

V. 總結(jié)與展望

DDP-WM 的成功表明，通過基于對潛在空間的運動模式的深刻洞察進行有針對性的結(jié)構(gòu)設(shè)計，完全可以在不犧牲甚至超越現(xiàn)有 SOTA 的前提下，顯著提高世界模型預(yù)測速度。這項工作對于推動具身智能走向?qū)嶋H應(yīng)用有重大意義。DDP-WM 把對計算資源的依賴降低了一個數(shù)量級之后，就有可能在更輕量級的邊緣硬件上部署更高頻、更復(fù)雜的模型來進行規(guī)劃，從而為工業(yè)生產(chǎn)和家政服務(wù)等實際場景中部署先進的自主機器人鋪平道路。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.