網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

特斯拉再添一把火，「世界模型」如何重塑自動(dòng)駕駛？

2025-12-02 17:10:10　來源: HiEV

北京舉報(bào)

分享至

作者 |肖恩

編輯 |德新

兩年一度的計(jì)算機(jī)視覺頂會(huì)ICCV 10月在美國(guó)檀香山閉幕，今年的最佳論文頒給了卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)的BrickGPT，一種能從文本描述直接生成物理結(jié)構(gòu)穩(wěn)定并可實(shí)際搭建的積木機(jī)構(gòu)模型，這個(gè)成果展示了生成式AI在物理世界應(yīng)用的潛力。

對(duì)自動(dòng)駕駛從業(yè)者而言，這次會(huì)議上還有一個(gè)更令人矚目的消息——特斯拉AI部門副總裁Ashok Elluswamy在“基礎(chǔ)模型蒸餾與自動(dòng)駕駛”論壇中，分享了FSD的最新進(jìn)展。

自2022年在AI Day上分享了占用格柵網(wǎng)絡(luò)之后，特斯拉幾乎沒有在任何公開場(chǎng)合透露過FSD的內(nèi)幕，特別是進(jìn)入到端到端架構(gòu)之后，F(xiàn)SD的表現(xiàn)進(jìn)步神速，但是特斯拉對(duì)背后的技術(shù)始終諱莫如深。

Elluswamy此次分享給出了關(guān)鍵信息：系統(tǒng)以視頻為主的多模態(tài)輸入進(jìn)入端到端模型，直接輸出控制指令，感知 - 預(yù)測(cè) - 決策 - 控制在同一神經(jīng)網(wǎng)絡(luò)中耦合回傳；這一整體框架與近期熱議的“世界模型”思想高度相似。同時(shí)，在仿真?zhèn)?，世界模型被用于生成?duì)抗性場(chǎng)景，以實(shí)現(xiàn)閉環(huán)評(píng)測(cè)與迭代。

在此之前，圍繞VLA與世界模型的路線分歧已爭(zhēng)論不休，特斯拉的最新表態(tài)無疑又添一把火。無論最終范式如何定型，能夠“想象未來”的世界模型，幾乎注定將成為當(dāng)下自動(dòng)駕駛技術(shù)演進(jìn)的關(guān)鍵支點(diǎn)。

一、特斯拉FSD：端到端基礎(chǔ)模型與世界模型的融合

Elluswamy以“構(gòu)建未來的自動(dòng)化”為主題，首先闡述了FSD最近的一些進(jìn)展，包括Robotaxi的上線以及實(shí)現(xiàn)了從工廠到交付中心的全程自動(dòng)駕駛。

隨后，他介紹了特斯拉的端到端架構(gòu)，多攝像頭圖像、導(dǎo)航地圖、車輛運(yùn)動(dòng)信息和音頻信號(hào)等輸入到一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)內(nèi)，這個(gè)模型經(jīng)過海量的數(shù)據(jù)訓(xùn)練，支持長(zhǎng)序列的輸入，最后直接輸出控制信號(hào)。

這部分和國(guó)內(nèi)的技術(shù)方向基本一致，唯一的區(qū)別是增加了音頻信號(hào)的輸入。

為什么要使用端到端的架構(gòu)，他給出了幾點(diǎn)理由：

人類的駕駛行為很難用函數(shù)去描述，規(guī)則算法很容易顧此失彼；
傳統(tǒng)的感知 - 規(guī)劃 - 控制的結(jié)構(gòu)會(huì)有大量的信息損失；
端到端的擴(kuò)展性更強(qiáng)，更適合解決長(zhǎng)尾問題；
時(shí)延穩(wěn)定；
不需要依賴人類的經(jīng)驗(yàn)，而是依靠算力和數(shù)據(jù)；

如果要構(gòu)建一套出色的端到端系統(tǒng)，會(huì)遇到什么困難？Elluswamy提到了三大難題：

維度災(zāi)難

FSD需要處理高幀率、高分辨率、長(zhǎng)時(shí)上下文的多模態(tài)輸入：在以“5×5 像素塊”為輸入token的假設(shè)下，僅視覺就相當(dāng)于7個(gè)攝像頭×36 FPS×500萬像素×30秒；同時(shí)還要結(jié)合未來數(shù)英里的導(dǎo)航地圖與路徑、100 Hz的速度/IMU/里程計(jì)等運(yùn)動(dòng)學(xué)數(shù)據(jù)，以及48kHz的音頻數(shù)據(jù)。綜合起來約有20億個(gè)token，如果直接輸入到Transformer，token數(shù)量會(huì)在時(shí)間窗內(nèi)爆炸，無法滿足車端的時(shí)延要求。

特斯拉的做法是利用海量的車隊(duì)數(shù)據(jù)，從中總結(jié)出“關(guān)鍵token”，通過稀疏化和聚合保留最有用的信息，可在不顯著影響精度的情況下大幅降低推理的時(shí)延。

同時(shí)，特斯拉利用數(shù)據(jù)引擎從中抽取高質(zhì)量的數(shù)據(jù)樣本用于訓(xùn)練，讓系統(tǒng)能在各種極端或罕見場(chǎng)景中實(shí)現(xiàn)出色的泛化能力。

可解釋性與安全驗(yàn)證

為了避免“黑箱”AI，特斯拉在車端模型中加入了可解釋的中間輸出，既有全景分割和3D占據(jù)網(wǎng)絡(luò)，也有基于三維高斯渲染的場(chǎng)景重建和語(yǔ)言化輸出，從而輔助工程師審視推理過程。

圖片來源：特斯拉

其中Elluswamy重點(diǎn)介紹了特斯拉的生成式高斯噴濺（Generative Gaussian Splatting），和傳統(tǒng)的高斯噴濺相比，特斯拉GGS具有更強(qiáng)的泛化能力，生成場(chǎng)景僅需要220毫秒，無需初始化，可建模動(dòng)態(tài)物體，并能與端到端AI模型聯(lián)合訓(xùn)練。

閉環(huán)評(píng)測(cè)與仿真

最后、也是最具挑戰(zhàn)性的一步，是模型評(píng)估。

即使擁有高質(zhì)量的數(shù)據(jù)集，開環(huán)預(yù)測(cè)的損失函數(shù)下降，也未必意味著在真實(shí)世界中能有良好表現(xiàn)。評(píng)估體系必須多樣化且覆蓋不同模式，以支持快速的開發(fā)迭代。

為此，特斯拉開發(fā)了一個(gè)神經(jīng)世界模擬器（Neural World Simulator）。該模擬器基于特斯拉自建的海量數(shù)據(jù)集進(jìn)行訓(xùn)練，但與常規(guī)模型不同，它不是預(yù)測(cè)動(dòng)作，而是根據(jù)當(dāng)前狀態(tài)與下一步動(dòng)作生成未來狀態(tài)。從而與車端的端到端基礎(chǔ)模型閉環(huán)，做真實(shí)效果的評(píng)估。

圖片來源：特斯拉

神經(jīng)世界模擬器在駕駛策略的指令下，按因果關(guān)系生成可交互的未來：不僅能基于歷史數(shù)據(jù)重放并驗(yàn)證新的駕駛模型，還能系統(tǒng)地合成對(duì)抗性/極端場(chǎng)景，用于長(zhǎng)尾覆蓋與安全邊界測(cè)試。

在工程實(shí)現(xiàn)上，特斯拉也強(qiáng)調(diào)該模擬器可實(shí)時(shí)或近實(shí)時(shí)地產(chǎn)生高分辨率、因果一致的響應(yīng)，用于研發(fā)環(huán)節(jié)的快速驗(yàn)證。除此之外，這類視頻生成能力還可在閉環(huán)環(huán)境中進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)，以實(shí)現(xiàn)超越人類水平的表現(xiàn)。

圖片來源：特斯拉

盡管特斯拉并未在分享中明確使用“世界模型”這一稱呼，但從其神經(jīng)世界模擬器的能力與用法來看，它本質(zhì)上就是一個(gè)極其強(qiáng)大的世界模型。

與傳統(tǒng)云端世界模型不同，特斯拉的系統(tǒng)不僅具備高保真場(chǎng)景生成能力，更關(guān)鍵的是，它能夠在給定候選動(dòng)作的條件下，預(yù)測(cè)未來幾秒內(nèi)的世界演化，從而實(shí)現(xiàn)決策前瞻與安全驗(yàn)證。

模型不再只是“生成環(huán)境”，而是能“想象并評(píng)估行動(dòng)結(jié)果”的因果預(yù)測(cè)系統(tǒng)。

從特斯拉將“預(yù)測(cè)未來幾秒的世界演化”作為決策前瞻核心這一點(diǎn)出發(fā)，車端基礎(chǔ)模型很可能走的也是世界模型路線：在車端進(jìn)行實(shí)時(shí)的動(dòng)作條件未來預(yù)測(cè)，在云端以神經(jīng)世界模擬器進(jìn)行大規(guī)模場(chǎng)景重現(xiàn)與回歸驗(yàn)證，兩者在目標(biāo)與表征層面高度對(duì)齊，從而形成訓(xùn)練—評(píng)估—上線的一體化閉環(huán)。

二、何為世界模型?

端到端架構(gòu)能為自動(dòng)駕駛帶來更高的上限，這已經(jīng)是行業(yè)的共識(shí)。但是如何在端到端的框架下讓自動(dòng)駕駛達(dá)到甚至超越人類的駕駛水平，實(shí)現(xiàn)真正的無人駕駛，目前還沒有一個(gè)明確的方向，在多種技術(shù)路線中，世界模型無疑是其中重要的一支。

圖片來源：World Models for Autonomous Driving: An Initial Survey

世界模型并沒有一個(gè)標(biāo)準(zhǔn)的定義，但業(yè)內(nèi)逐漸形成了對(duì)它的共識(shí)，世界模型是一個(gè)生成式時(shí)空神經(jīng)系統(tǒng)，它將來自攝像頭、激光雷達(dá)、雷達(dá)和導(dǎo)航地圖等多模態(tài)輸入壓縮成潛在狀態(tài)，該狀態(tài)不僅編碼了幾何、語(yǔ)義信息，還攜帶因果上下文。

世界模型可以在潛在空間內(nèi)推演環(huán)境未來，并讓智能體在執(zhí)行動(dòng)作前“演練”整個(gè)軌跡。正因如此，有人將世界模型形象地稱為能夠在腦海里“想象未來”的模型。

世界模型通常覆蓋三類任務(wù)：

未來物理世界生成：基于傳感器數(shù)據(jù)和車輛歷史，生成場(chǎng)景的未來演化（包括物體運(yùn)動(dòng)、占據(jù)概率、點(diǎn)云或圖像級(jí)視頻）。
行為規(guī)劃與決策：結(jié)合預(yù)測(cè)結(jié)果為自車生成軌跡或動(dòng)作建議，實(shí)現(xiàn)決策與控制。
聯(lián)合預(yù)測(cè)與規(guī)劃：在潛在空間內(nèi)同時(shí)建模多主體交互，利用生成的未來對(duì)候選動(dòng)作進(jìn)行評(píng)估，從而實(shí)現(xiàn)閉環(huán)的行為優(yōu)化。

它不僅是感知或預(yù)測(cè)模塊的簡(jiǎn)單堆疊，而是一個(gè)統(tǒng)一的大腦：它將現(xiàn)實(shí)世界壓縮成可演化的內(nèi)部表示，并通過生成式推演支撐規(guī)劃與決策。它需要具備以下核心能力：

潛在時(shí)空表示

世界模型首先要將高維、多模態(tài)感知輸入映射到一個(gè)低維的潛在狀態(tài)。這一潛在表示既要包含環(huán)境中的幾何、語(yǔ)義信息，又要隨時(shí)間更新，使模型能夠在此空間內(nèi)捕捉環(huán)境狀態(tài)的轉(zhuǎn)移。該能力意味著模型不再依賴顯示的BEV或占據(jù)柵格，而是以更加抽象但富含語(yǔ)義的形式表示“世界”。

動(dòng)作條件的未來推演

在潛在狀態(tài)獲得之后，世界模型必須能夠在給定候選動(dòng)作（加速、制動(dòng)、變道等）的條件下，生成多步未來場(chǎng)景。這種生成不僅僅是時(shí)間上的外推，更是“假如我采取這個(gè)動(dòng)作，其他道路參與者會(huì)如何反應(yīng)、場(chǎng)景會(huì)如何變化”的因果推理。換言之，它不只是預(yù)測(cè)“將會(huì)發(fā)生什么”，更要回答“如果我這樣做，會(huì)發(fā)生什么”。

與規(guī)劃和控制的閉環(huán)耦合

世界模型的重要特征在于預(yù)測(cè)與規(guī)劃的深度耦合。模型生成的未來場(chǎng)景不僅提供參考，而是直接用于評(píng)估不同動(dòng)作的風(fēng)險(xiǎn)和收益，從而在潛在空間中完成候選動(dòng)作的比較—篩選—決策。這種閉環(huán)能力使世界模型能夠在端到端框架中直接輸出控制信號(hào)，就像特斯拉的“神經(jīng)世界模擬器”那樣，能在閉環(huán)仿真中評(píng)估新模型、生成對(duì)抗場(chǎng)景，并進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)來獲得超越人類的性能。

多主體交互與不確定性建模

真實(shí)的道路中不僅有自車，還有別的車和行人，大家的運(yùn)動(dòng)狀態(tài)會(huì)互相影響。世界模型要在“腦海里的狀態(tài)空間”里，把這些參與者的位置、速度、意圖表示出來，并且隨著時(shí)間跟蹤他們彼此之間的互動(dòng)。

同時(shí)，現(xiàn)實(shí)中的未來不是只有唯一的答案：前車可能并線，也可能減速。所以模型不能只給一條“最可能的軌跡”，而要給出一組可能的未來，讓系統(tǒng)在安全、效率、舒適之間做權(quán)衡。

長(zhǎng)期記憶與自我演化

世界模型應(yīng)當(dāng)具有長(zhǎng)期記憶和自我進(jìn)化能力——能夠積累駕駛經(jīng)驗(yàn)、持續(xù)擴(kuò)充其內(nèi)部世界，并在不同任務(wù)和場(chǎng)景間遷移。這使它不僅適用于某條路線或某種條件，而是可在多種條件下泛化。

正是世界模型強(qiáng)大的能力，讓它成為現(xiàn)在自動(dòng)駕駛領(lǐng)域最熱門的研究方向之一，很多人相信世界模型是通往L3和L4級(jí)別自動(dòng)駕駛的關(guān)鍵鑰匙。

三、中國(guó)的世界模型之路

作為自動(dòng)駕駛技術(shù)應(yīng)用最廣泛的中國(guó)，世界模型已經(jīng)生根發(fā)芽，既有像商湯這樣專注于云端，為自動(dòng)駕駛補(bǔ)充合成數(shù)據(jù)的技術(shù)公司，也有像蔚來和華為這樣堅(jiān)定的讓世界模型上車的整車廠。在中國(guó)，世界模型正扮演著越來越重要的角色。

蔚來NWM世界模型

蔚來汽車是較早公開將世界模型作為核心技術(shù)路線的公司之一。在2024年“NIO IN”發(fā)布會(huì)上，蔚來宣布了中國(guó)首個(gè)駕駛世界模型“NWM（Nio World Model）”，蔚來將其定義為“能夠全量理解多模態(tài)信息、生成新場(chǎng)景并預(yù)測(cè)未來的多元自回歸生成模型”。

圖片來源：蔚來

它在空間上完成“想象重建”（將感知到的物理世界逼真地重建為可編輯的虛擬世界），在時(shí)間上完成“想象推演”（在內(nèi)部時(shí)空中滾動(dòng)預(yù)演不同未來），進(jìn)而輸出可執(zhí)行的軌跡與動(dòng)作。并展示了其在車端的應(yīng)用。NWM可在100毫秒內(nèi)推理216種可能的駕駛場(chǎng)景并選取最優(yōu)決策。蔚來官方表示，模型可以用3秒的歷史視頻提示生成長(zhǎng)達(dá)20秒的未來視頻；世界模型通過生成式推演形成所謂“平行世界”，在這些想象出的未來中評(píng)估不同動(dòng)作的后果。除了純視覺輸入，NWM還融合激光雷達(dá)、地圖和自車運(yùn)動(dòng)信息，并能理解駕駛員的語(yǔ)言指令。

圖片來源：蔚來

蔚來在云端開發(fā)了NSim作為生成式神經(jīng)模擬器，NWM基于真實(shí)視頻進(jìn)行三維重建后，進(jìn)入NSim進(jìn)行可編輯的場(chǎng)景分解、深度與法向量檢查、視角任意切換，并把NWM的推演軌跡與NSim的仿真結(jié)果對(duì)齊比對(duì)，從“唯一真實(shí)軌跡的回放評(píng)測(cè)”升級(jí)為“海量平行世界的對(duì)照評(píng)測(cè)”，以此形成數(shù)據(jù)閉環(huán)和針對(duì)性對(duì)抗場(chǎng)景的生成。再結(jié)合蔚來的“群體智能”源源不斷的收集真實(shí)世界中的長(zhǎng)尾場(chǎng)景，形成雙輪驅(qū)動(dòng)，加速模型迭代。

NWM的首個(gè)版本已于今年6月推送，在主動(dòng)安全方面新增3大功能：

駕駛員失能處置

在高速/快速路場(chǎng)景，監(jiān)測(cè)到駕駛員無意識(shí)后，車輛緩慢減速并變道至最右側(cè)應(yīng)急車道，開啟雙閃 + SOS主動(dòng)介入，由“車道內(nèi)安全停車”升級(jí)為“自主安全靠邊”，顯著降低在車道內(nèi)停車帶來的追尾風(fēng)險(xiǎn)。

追尾預(yù)防與保護(hù)（首次將大模型用于被追尾場(chǎng)景）

在0–150km/h 范圍內(nèi)對(duì)后向潛在碰撞進(jìn)行警示；當(dāng)碰撞不可避免時(shí)，系統(tǒng)在500ms內(nèi)完成從感知決策到制動(dòng)建壓，最大可將被動(dòng)前移距離降低93%，減少二次事故風(fēng)險(xiǎn)。

通用障礙物預(yù)警增強(qiáng)

在轉(zhuǎn)彎、變道靠邊等動(dòng)作中，對(duì)抬桿/護(hù)墻/隔離柵/路沿等多類型障礙均可響應(yīng)，減少低速靠邊剮蹭、車庫(kù)盤樓剮蹭等常見事故。

高速領(lǐng)航新增了ETC場(chǎng)景智能通行和“智能駕享模式”（行車風(fēng)格更穩(wěn)健，跟車/變道更平順、更強(qiáng)的防御性駕駛，必要時(shí)可自主閃燈/鳴笛提醒周邊車輛）。

城區(qū)點(diǎn)到點(diǎn)領(lǐng)航新增2大功能：

車位收藏：停車后可收藏畫線車位，下次出發(fā)或駛?cè)霑r(shí)實(shí)現(xiàn)無間斷全域領(lǐng)航；若被占用，系統(tǒng)自動(dòng)尋找臨近空位臨時(shí)泊入。
停車場(chǎng)自主尋路：無需地圖/導(dǎo)航/記憶路線，可聽懂自然語(yǔ)義指令、識(shí)別標(biāo)識(shí)與文字，實(shí)現(xiàn)跨區(qū)/跨樓層尋找出口或樓棟門口。這是NWM認(rèn)知—理解—推理能力在復(fù)雜微結(jié)構(gòu)空間里的標(biāo)志性落地。

智能泊車更新為全模型化泊車輔助，360°全向車位識(shí)別、車位顯示范圍×4，可在任意位置發(fā)起泊入指令并長(zhǎng)距離漫游泊車，在不同車位間自動(dòng)騰挪切換；只要不被墻體完全阻隔，就能實(shí)現(xiàn)“可見即可選、可選即可泊”。

NWM的成功量產(chǎn)以及對(duì)智駕功能的全面升級(jí)，體現(xiàn)了世界模型在車端巨大的潛力。

華為WEWA 架構(gòu)

在圍繞世界模型的技術(shù)路線爭(zhēng)論中，作為國(guó)內(nèi)智駕領(lǐng)域的”帶頭大哥“，華為給出的答案是“WA（World?Action）”——一種強(qiáng)調(diào)直接感知到控制的世界模型路線。

圖片來源：華為

華為智能汽車解決方案BU總裁靳玉志公開表示，公司不會(huì)追隨VLA的潮流，而是堅(jiān)持以傳感器信號(hào)直接驅(qū)動(dòng)動(dòng)作的世界?行動(dòng)模型。

在華為看來，VLA利用大語(yǔ)言模型將視頻轉(zhuǎn)化為“語(yǔ)言 token”再生成控制命令，看似是捷徑，實(shí)則不能提供真正的自主能力；只有跳過語(yǔ)言層，直接從視覺、聲音等多模態(tài)感知信息生成駕駛指令，才能在空間感知和實(shí)時(shí)性上滿足高級(jí)自動(dòng)駕駛要求。

華為的ADS 4平臺(tái)基于WA原則進(jìn)一步演化出 WEWA（World Engine + World Action）架構(gòu)：

World Engine（云端世界引擎）在云端通過海量仿真與實(shí)車數(shù)據(jù)訓(xùn)練世界模型，并生成用于升級(jí)的模型參數(shù)。
World Action（車端世界行動(dòng)模型）在車輛側(cè)運(yùn)行，將感知數(shù)據(jù)直接映射為控制動(dòng)作，跳過語(yǔ)言解析過程。

WEWA省略了語(yǔ)言層避免了抽象化損失，并通過多顆激光雷達(dá)和高性能硬件確保模型獲得盡可能完整的環(huán)境信息。這樣雖然硬件成本更高，但靳玉志認(rèn)為這是實(shí)現(xiàn)安全可靠自動(dòng)駕駛的唯一道路。

華為強(qiáng)調(diào)，真正的世界模型不僅限于仿真，而是支撐車輛實(shí)時(shí)決策的核心。在WEWA架構(gòu)中，云端的World Engine使用大量仿真和實(shí)車數(shù)據(jù)對(duì)模型進(jìn)行“夢(mèng)境訓(xùn)練”，學(xué)習(xí)環(huán)境的演化規(guī)律并生成優(yōu)化后的參數(shù)；這些參數(shù)通過OTA下發(fā)到車端的World Action模型，使車輛在物理一致的“世界表示”上直接規(guī)劃和控制。為了獲得盡可能完整的環(huán)境感知，華為在車端使用多顆激光雷達(dá)和高性能硬件，在最新的問界M9和尊界S800上，已經(jīng)開始使用4個(gè)激光雷達(dá)的方案。

靳玉志強(qiáng)調(diào)，這條路線雖然成本更高，但能夠提供更強(qiáng)的空間理解和決策可靠性，是華為走向高級(jí)自動(dòng)駕駛的唯一道路。

商湯絕影：“開悟”世界模型與生成式仿真平臺(tái)

商湯科技旗下的自動(dòng)駕駛品牌絕影智駕推出了世界模型“開悟”并用于大規(guī)模仿真數(shù)據(jù)生成。2025年世界人工智能大會(huì)（WAIC）上，絕影發(fā)布了升級(jí)版的交互式世界模型產(chǎn)品平臺(tái)，以及業(yè)內(nèi)最大規(guī)模的生成式駕駛數(shù)據(jù)集WorldSim?Drive。這一平臺(tái)基于先進(jìn)世界模型技術(shù)，具備對(duì)物理規(guī)律的理解和對(duì)場(chǎng)景元素的控制能力，是面向車企和開發(fā)者開放試用的可交互產(chǎn)品。

圖片來源：商湯絕影

與蔚來的車端世界模型不同，絕影的“開悟”主要用于生成高保真仿真數(shù)據(jù)。開悟可在仿真場(chǎng)景中生成11個(gè)攝像頭視角的時(shí)空一致視頻，時(shí)長(zhǎng)可達(dá)150秒，分辨率達(dá)到專業(yè)級(jí)1080p。用戶可以在平臺(tái)上自由編輯場(chǎng)景的道路布局、參與體、天氣和光照等元素，一鍵生成風(fēng)險(xiǎn)極高的場(chǎng)景或多樣化組合。當(dāng)前，絕影正與上汽旗下的智己汽車合作，利用這個(gè)平臺(tái)構(gòu)建端到端數(shù)據(jù)工廠，針對(duì)加塞、追尾等高價(jià)值場(chǎng)景批量生成訓(xùn)練數(shù)據(jù)，并計(jì)劃推出覆蓋數(shù)百萬合成片段的場(chǎng)景庫(kù)。

在數(shù)據(jù)規(guī)模和效率方面，WorldSim?Drive數(shù)據(jù)集包含超過100萬段生成式駕駛片段，覆蓋50多種天氣與光照條件、200類交通標(biāo)識(shí)和300種道路連接場(chǎng)景，是迄今最大的自動(dòng)駕駛生成數(shù)據(jù)集之一。這些合成數(shù)據(jù)保持多視角時(shí)空一致性，時(shí)長(zhǎng)可達(dá)數(shù)分鐘，畫質(zhì)與真實(shí)數(shù)據(jù)一致。開悟的日生產(chǎn)能力僅用一塊A100 GPU就相當(dāng)于10輛真實(shí)車輛或100臺(tái)道路測(cè)試車輛的數(shù)據(jù)采集能力。目前，絕影已有20%的訓(xùn)練數(shù)據(jù)來自世界模型生成。

商湯絕影通過“開悟”世界模型搭建了數(shù)字世界到真實(shí)世界的橋梁：一方面在仿真平臺(tái)上支持文本或圖像提示，快速生成特定場(chǎng)景；另一方面與車企合作打造閉環(huán)數(shù)據(jù)工廠，用合成數(shù)據(jù)彌補(bǔ)長(zhǎng)尾場(chǎng)景不足。

開悟的成功展示了世界模型在仿真數(shù)據(jù)生成中的力量，不僅降低數(shù)據(jù)采集成本，還能針對(duì)高風(fēng)險(xiǎn)場(chǎng)景進(jìn)行定制化訓(xùn)練，為自動(dòng)駕駛提供可靠、安全的測(cè)試和訓(xùn)練環(huán)境。

四、世界模型 VS VLA：自動(dòng)駕駛終局路線之爭(zhēng)

隨著大模型時(shí)代的到來，以語(yǔ)言大模型LLM為核心的視覺-語(yǔ)言-行動(dòng)（VLA）模型開始在自動(dòng)駕駛領(lǐng)域嶄露頭角，理想、小米和元戎都是堅(jiān)定的VLA路線擁護(hù)者，在今年7月理想已經(jīng)開始率先推送量產(chǎn)的VLA版本。

VLA倡導(dǎo)將視覺輸入、自然語(yǔ)言理解與行動(dòng)生成融為一個(gè)大模型，通過語(yǔ)言增強(qiáng)情境理解和推理能力。和世界模型相比存在顯著差異：

結(jié)構(gòu)與表示

世界模型采用潛在時(shí)空表示，核心是一個(gè)可以隨時(shí)間演化的物理世界模擬器。它通過自監(jiān)督壓縮器將感知數(shù)據(jù)編碼為潛在狀態(tài)，并依靠生成式預(yù)測(cè)模塊在該狀態(tài)上演化未來
VLA模型則以視覺—語(yǔ)言—行動(dòng)統(tǒng)一架構(gòu)為特征。它引入大型語(yǔ)言模型為大腦，將高維視覺感知映射為自然語(yǔ)言表述，并利用語(yǔ)言鏈?zhǔn)酵评韥砩蓻Q策或動(dòng)作指令。VLA模型能夠在車輛控制前進(jìn)行語(yǔ)言層面的推理和解釋，使系統(tǒng)兼具快速反射和慢速思考的雙系統(tǒng)。

推理路徑

世界模型的推理依賴動(dòng)作條件的內(nèi)在仿真：模型將候選動(dòng)作注入潛在世界，生成不同未來場(chǎng)景，再用代價(jià)函數(shù)或風(fēng)險(xiǎn)評(píng)價(jià)選擇最佳動(dòng)作。這種推理方式像是在腦海中做實(shí)驗(yàn)，因此非常適合物理世界中的對(duì)抗和長(zhǎng)期評(píng)估。
VLA的推理則依賴語(yǔ)言鏈路：VLA利用大型語(yǔ)言模型的常識(shí)和邏輯推理能力，通過自然語(yǔ)言對(duì)觀察到的場(chǎng)景進(jìn)行解釋、制定規(guī)則，然后輸出控制信號(hào)。這賦予系統(tǒng)更強(qiáng)的可解釋性，但其物理推理通常依賴外部模塊。。

能力與應(yīng)用

世界模型著重于長(zhǎng)時(shí)域、多主體和物理一致性。它可以生成復(fù)雜環(huán)境的長(zhǎng)期演化，捕捉稀有事件、他車互動(dòng)和路況變化，并在潛在空間中形成真實(shí)動(dòng)作反饋。由于這種閉環(huán)特性，世界模型成為評(píng)估和優(yōu)化自動(dòng)駕駛策略的核心，如特斯拉的神經(jīng)世界模擬器通過閉環(huán)仿真生成對(duì)抗場(chǎng)景、進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。
VLA模型更強(qiáng)調(diào)語(yǔ)義推理與高層交互。它通過語(yǔ)言接口理解自然語(yǔ)言指令、交通規(guī)則和場(chǎng)景描述，具備鏈?zhǔn)剿伎寄芰?。VLA可以利用互聯(lián)網(wǎng)規(guī)模的語(yǔ)言數(shù)據(jù)注入常識(shí)，支持復(fù)雜推理和解釋。

“世界模型VS VLA”的路線之爭(zhēng)仍將持續(xù)。世界模型更貼近自動(dòng)駕駛的物理本質(zhì)，VLA則憑借通識(shí)能力在長(zhǎng)尾場(chǎng)景上具優(yōu)勢(shì)。最終的產(chǎn)業(yè)答案，很可能來自兩者的互補(bǔ)與融合。

最近AI領(lǐng)域的先驅(qū)李飛飛發(fā)表長(zhǎng)文討論空間智能，她認(rèn)為今天的大語(yǔ)言模型擅長(zhǎng)抽象知識(shí)處理，但在物理世界上仍像“黑暗中的文字匠”，缺乏對(duì)三維環(huán)境、因果與動(dòng)力學(xué)的扎實(shí)理解，難以安全地在現(xiàn)實(shí)世界中行動(dòng)。通過想象、推理、創(chuàng)造與互動(dòng)來理解世界，而非僅僅依賴語(yǔ)言描述，這正是空間智能的力量。

實(shí)現(xiàn)空間智能的答案是“世界模型”，能夠在語(yǔ)義、物理、幾何與動(dòng)態(tài)等多重復(fù)雜世界（無論虛擬還是現(xiàn)實(shí)）中進(jìn)行理解、推理、生成與交互。

她的觀點(diǎn)再次將世界模型推向AI領(lǐng)域的前沿，無論最終實(shí)現(xiàn)自動(dòng)駕駛的技術(shù)路徑是什么，在通往終點(diǎn)的路上，世界模型一定會(huì)留下濃墨重彩的一筆。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.