世界模型最新綜述！中科院聯(lián)合MBZ、NTU、Oxford系統(tǒng)梳理前沿進展

2026-03-24 17:38:06　來源: 機器之心Pro

河北舉報

分享至

從視頻生成、機器人控制，到自動駕駛、GUI 智能體，再到科學發(fā)現(xiàn)，世界模型正在成為 AI 邁向「會想、會推演、會規(guī)劃」的關鍵路線。它不再只是「看懂當下」，而是試圖讓模型學會在內部模擬世界如何演化，從而支持預測、規(guī)劃與決策。

近日，中國科學院沈陽自動化研究所聯(lián)合 MBZ、NTU，與陶大程、Ming-Hsuan Yang 以及 Philip Torr 等頂尖學者合作，系統(tǒng)梳理了世界模型建模范式、方法、關鍵功能，以及它們的關系，并且從更廣闊的角度總結了現(xiàn)有主要 WMs 及其核心數(shù)學公式的關鍵進化發(fā)展。同時，本文提供了一個更全面、完整的基準數(shù)據(jù)集、評估指標、模擬平臺和跨模型的性能對比。調研的最新進展截止至 2026 年 1 月。

摘要世界模型的核心目標，是通過學習環(huán)境狀態(tài)與觀測的演化規(guī)律，構建一個能夠進行未來預測、內部仿真、規(guī)劃搜索和行動決策的模型框架。與很多只聚焦單一場景或單一方法路線的文章不同，這篇綜述從整體視角系統(tǒng)回顧了 AI 中世界模型的發(fā)展，并將現(xiàn)有方法歸納為四大分支：觀測層生成式世界模型、潛空間世界模型、強化學習驅動的世界模型，以及對象中心世界模型。

在此基礎上，論文進一步梳理了世界模型在機器人、自動駕駛、科學發(fā)現(xiàn)、虛擬游戲仿真、GUI 智能體，以及可解釋性與可信性等領域的應用。同時還總結了基準數(shù)據(jù)集、評測指標、物理引擎與仿真平臺，以及不同方法間的性能對比。最后，論文討論了世界模型走向更通用智能所面臨的關鍵障礙，包括長期時序一致性、因果推理、物理與語義約束、泛化與可擴展性等問題。

論文題目：Learning to Model the World: A Survey of World Models in Artificial Intelligence
項目地址：
https://github.com/JiahuaDong/Awesome-World-Models
論文地址：
https://www.techrxiv.org/doi/full/10.36227/techrxiv.177274570.09578608/v1

1. 研究動機

隨著視頻生成、多模態(tài)基礎模型和大規(guī)模訓練的發(fā)展，世界模型正在重新成為構建通用智能系統(tǒng)的重要路線。

近幾年，世界模型相關研究迅速擴張，但對世界模型的討論分散在視頻生成、機器人學習、自動駕駛、強化學習、對象表示學習等不同社區(qū)中，技術路線和評測協(xié)議也并不統(tǒng)一。

世界模型天然連接感知、推理、控制與行動，是走向更高層次智能系統(tǒng)的一條重要范式。

2. 這篇綜述的特色，

以及與以往世界模型綜述有什么區(qū)別？

系統(tǒng)拆解世界模型：已有綜述大多要么只討論某個具體應用領域，比如自動駕駛、3D/4D 建模、視頻生成、安全或具身智能；要么停留在世界模型的基礎定義和一般性介紹層面。相比之下，本文從建模范式、數(shù)學形式、關鍵功能出發(fā)，對世界模型進行了更系統(tǒng)的分析。

清晰的技術分類以及數(shù)學化的建模：對現(xiàn)有世界模型進行了清晰的技術分類，將現(xiàn)有范式分為觀測層生成式世界模型、潛空間世界模型、強化學習驅動世界模型以及對象中心世界模型，并對世界建模范式、方法、關鍵功能以及預期的世界模型進行了深入和系統(tǒng)的概述。

內容覆蓋全面：除了四類基礎世界模型與對未來世界模型的討論，本文還系統(tǒng)回顧了世界模型在多個應用場景中的進展，包括機器人、自動駕駛、科學發(fā)現(xiàn)、虛擬游戲仿真、GUI-based agents，以及可解釋與可信世界模型；同時總結了 benchmark 數(shù)據(jù)集、評測指標、物理引擎和仿真平臺，以及不同方法的實驗對比。

圖 1.基礎世界模型的發(fā)展時間表

3. 基礎世界模型

本文從統(tǒng)一建模視角出發(fā)，將世界模型理解為一種利用歷史狀態(tài)、動作與觀測來預測未來環(huán)境狀態(tài)的函數(shù)，并將其核心作用放在仿真、規(guī)劃與決策這一連續(xù)鏈條中加以討論。

在這一框架下，論文沒有簡單按應用領域或代表工作展開羅列，而是圍繞「如何表示世界、如何建模演化、如何支持行動」對基礎世界模型進行系統(tǒng)劃分。這樣的章節(jié)安排不僅突出了不同范式各自關注的能力重點，也為后續(xù)應用分析、評測比較和未來方向討論建立了統(tǒng)一的分析基礎。

表 1.基礎世界模型的主要關注點和建模范式比較

圖 2.世界模型的基礎功能及其內部關系

觀測層生成式世界模型

直接在觀測層面建模未來世界的路線，將世界模型與圖像、視頻、語言以及更高維場景生成緊密聯(lián)系起來。觀測層生成式世界模型能夠直接生成未來觀測結果，因此在仿真表現(xiàn)和結果呈現(xiàn)上具有鮮明優(yōu)勢，也構成了當前世界模型研究中最直觀、最具生成色彩的一類基礎范式。

潛空間世界模型

相較于直接重建未來觀測，這一路線更強調內部表征、動態(tài)推演與高效預測。它在世界模型研究中提供了另一種更偏「抽象建模」的視角，也體現(xiàn)出從表層生成走向內部機制建模的研究趨勢。先壓縮到高維潛表示，再在潛空間中建模環(huán)境動態(tài)，更強調高效預測與規(guī)劃。

強化學習驅動的世界模型

通過引入動態(tài)建模與獎勵建模，使世界模型不再停留于「預測未來」，而是能夠在 imagined rollouts 的基礎上參與策略優(yōu)化與行動選擇。由此，這一范式體現(xiàn)了世界模型與智能體決策閉環(huán)之間的聯(lián)系。

對象中心的世界模型

強調以對象為基本單位來組織和理解環(huán)境，把復雜場景表示為一組可交互、可組合的對象結構，在可解釋性、組合泛化與結構建模方面呈現(xiàn)出更鮮明的研究價值。

預期的世界模型世界模型

不僅需要其內部從當前僅依賴觀測數(shù)據(jù)的「黑盒式」預測，轉向基于符號化方程、具備因果可驗證性且能持續(xù)更新的科學理論架構。表 2 清晰地對比了未來的世界模型與現(xiàn)有世界模型的區(qū)別。

表 2.未來與現(xiàn)有世界模型的范式比較

4. 世界模型的應用場景

本文將世界模型的應用系統(tǒng)地擴展到多個重要方向，不僅覆蓋機器人、自動駕駛和科學發(fā)現(xiàn)，還納入了虛擬游戲模擬、GUI 智能體，以及可解釋性與可信性分析，體現(xiàn)出世界模型正從單一任務建模走向更廣泛的通用智能場景。

機器人

本文將世界模型視為連接感知、預測、推理與行動的核心中樞，并從操作、導航、策略學習和運動控制四個方向展開，強調其在部分可觀測、強物理交互環(huán)境中的基礎作用。機器人操作中的世界模型不只是感知模塊的補充，而是直接參與控制閉環(huán)的關鍵組成部分。論文從控制——感知循環(huán)的角度重新組織這一方向，突出世界模型在動作想象、規(guī)劃搜索、統(tǒng)一動作建模和未來觀測預測中的不同角色。另外，從導航——推理循環(huán)出發(fā)，概括了世界模型如何支持前瞻式想象、記憶建模、神經(jīng)符號推理、測試時適應以及基于信念的建模，從而幫助機器人在動態(tài)環(huán)境中實現(xiàn)更穩(wěn)健的長期導航。

表 3.用于機器人操作的世界模型分類

表 4.用于機器人導航的世界模型分類

自動駕駛

本文從「世界模型如何進入駕駛決策閉環(huán)」的角度重新梳理自動駕駛中的相關研究，將其概括為連接交通場景建模、行為推演與行動選擇的關鍵模塊，并從預測建模、動作條件想象和決策中心集成三個方向展開，強調其在不確定交通環(huán)境中對未來場景預判和規(guī)劃決策的支撐作用。其中，預測建模將世界模型視為環(huán)境演化預測器，突出其在場景動態(tài)學習、預訓練和數(shù)據(jù)生成中的基礎價值；動作條件想象則進一步讓模型根據(jù)候選動作或高層意圖推演不同未來結果，從而支持反事實分析和行為比較；而決策中心集成則把世界模型直接嵌入規(guī)劃與策略學習過程，使其從被動預測器轉變?yōu)殚]環(huán)自動駕駛中的主動決策。

表 5.用于自動駕駛的世界模型分類

圖 3.用于科學 (a)、虛擬游戲模擬 (b) 和基于 GUI 的智能體 (c) 的世界模型分類

科學發(fā)現(xiàn)

本文將世界模型在科學中的應用概括為從「面向交互的環(huán)境模擬」進一步走向「面向復雜系統(tǒng)的數(shù)據(jù)驅動科學建模」，并從社會科學與社會經(jīng)濟系統(tǒng)、物理與自然科學兩個方向展開，強調其在部分可觀測系統(tǒng)中進行長期預測、模擬推演和不確定性分析的潛力。其中，社會科學與社會經(jīng)濟系統(tǒng)部分主要體現(xiàn)世界模型對群體行為模擬和政策評估的支持作用，而物理與自然科學部分則更突出其作為受物理約束的模擬器，在長期預測、規(guī)劃與科學發(fā)現(xiàn)中的價值。整體來看，這一部分展示了世界模型正在從智能體控制工具擴展為更廣義的科學建模框架，但同時也面臨數(shù)據(jù)偏差、可驗證性、物理保真度和跨訓練分布泛化等挑戰(zhàn)。

虛擬游戲模擬

虛擬游戲模擬作為世界模型最自然也最經(jīng)典的應用場景之一，本文從 2D 像素級觀測預測和 3D 網(wǎng)格級觀測預測兩個方向展開，體現(xiàn)出游戲世界模型從畫面級未來生成逐步走向具備幾何結構、交互能力與語義一致性的虛擬世界構建。在 2D 路線中，本文強調當前主流方法仍以像素層面的未來觀測預測為核心，但其目標已經(jīng)從早期偏任務導向的游戲模擬，逐漸轉向更通用、更生成式的交互世界建模；而在 3D 路線中，研究重點進一步轉向顯式幾何表示和可探索空間生成，使世界模型能夠支撐更具物理 grounding 和空間一致性的虛擬環(huán)境。

GUI 智能體

本文認為，世界模型能夠顯著增強 GUI 智能體的多步?jīng)Q策能力，因為它使智能體可以在執(zhí)行前先對界面變化進行內部模擬，從而完成前瞻規(guī)劃、方案比較與錯誤修正。圍繞這一點，論文將 GUI 智能體劃分為 Web agents 與操作系統(tǒng)/桌面 agents 兩類：前者面對大狀態(tài)空間和延遲反饋，更強調基于內部 rollouts 的搜索、推理與多步執(zhí)行優(yōu)化；后者則更突出把世界模型作為系統(tǒng)級內部模擬器，以支持不經(jīng)真實執(zhí)行的預判、規(guī)劃和設備控制。整體來看，這一部分強調了 GUI 場景中視覺與符號動態(tài)共同作用的特殊性，也說明世界模型正在成為界面智能體實現(xiàn)長期決策的重要基礎。

可解釋與可信的世界模型

本文在應用部分的最后，將世界模型的討論從性能與功能進一步推進到內部機制與可靠性層面，并從可解釋性與面向安全的可信性兩個方向展開，強調世界模型不僅要「預測得準」，還要具備能夠支撐長期泛化的結構化內部表征，以及在關鍵任務中保持穩(wěn)定可靠的安全保證。其中，可解釋性方向主要關注模型內部是否真正形成了可用于長期推理和開放世界泛化的因果性世界表征，而不是依賴表面相關性獲取預測優(yōu)勢；面向安全的可信性方向則強調，即便模型規(guī)模擴大可以提升穩(wěn)定性，它們仍可能在分布偏移、對抗擾動和部分可觀測條件下出現(xiàn)失效。整體上，這一部分揭示了世界模型在預測精度、因果真實性、可解釋性與可擴展性之間的核心張力。

5. 基準

很多綜述只做文獻羅列，但這篇文章還專門梳理了預訓練視頻基準、下游任務 benchmark、面向世界模型的一般性評測指標、物理引擎與仿真平臺，以及不同世界模型之間的性能比較。作者尤其強調，未來評測不應只看短期預測誤差，還應納入泛化能力、因果推理能力和長期一致性等更貼近世界模型本質的指標。

表 5.用于物理引擎和仿真平臺總結

表 6.WorldScore 數(shù)據(jù)集上觀測級生成 WMs 的性能比較

6. 挑戰(zhàn)與未來方向

走向「科學建模」，而不是只做黑箱預測

作者明確指出，當前很多世界模型本質上還是基于相關性的強大預測器，距離「可解釋、可驗證、可證偽」的科學世界模型還有很大距離。未來更理想的方向，是把符號知識、可驗證方程和神經(jīng)表示結合起來，讓模型不僅會預測「會發(fā)生什么」，還能夠回答「為什么會這樣」。

長時程一致性與因果推理

長時間滾動預測時的誤差累積、視覺漂移、物理交互失真，依然是世界模型的核心瓶頸。論文認為，未來需要在層次化時序建模、記憶機制、因果表示學習、反事實評測等方面繼續(xù)推進。

物理與語義約束的融合

很多模型在視覺上已經(jīng)很逼真，但仍可能違反物理規(guī)律，或者在對象關系和語義演化上不自洽。要讓世界模型真正服務機器人、自動駕駛和現(xiàn)實決策，就需要更多地引入 physics-informed priors、可微仿真器、符號知識和結構化語義圖。

泛化與可擴展性

目前不少世界模型依舊局限在狹窄任務或特定環(huán)境中，訓練成本也很高。論文提出，未來值得關注的方向包括：多模態(tài)大規(guī)模預訓練、數(shù)據(jù)高效學習、參數(shù)高效微調、持續(xù)學習，以及真實世界部署驗證。

更多的研究方向內容可以查閱原始論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.