国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

特斯拉再添一把火,「世界模型」如何重塑自動(dòng)駕駛?

0
分享至

作者 |肖恩

編輯 |德新

兩年一度的計(jì)算機(jī)視覺頂會(huì)ICCV 10月在美國(guó)檀香山閉幕,今年的最佳論文頒給了卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)的BrickGPT,一種能從文本描述直接生成物理結(jié)構(gòu)穩(wěn)定并可實(shí)際搭建的積木機(jī)構(gòu)模型,這個(gè)成果展示了生成式AI在物理世界應(yīng)用的潛力。

對(duì)自動(dòng)駕駛從業(yè)者而言,這次會(huì)議上還有一個(gè)更令人矚目的消息——特斯拉AI部門副總裁Ashok Elluswamy在“基礎(chǔ)模型蒸餾與自動(dòng)駕駛”論壇中,分享了FSD的最新進(jìn)展。

自2022年在AI Day上分享了占用格柵網(wǎng)絡(luò)之后,特斯拉幾乎沒有在任何公開場(chǎng)合透露過FSD的內(nèi)幕,特別是進(jìn)入到端到端架構(gòu)之后,F(xiàn)SD的表現(xiàn)進(jìn)步神速,但是特斯拉對(duì)背后的技術(shù)始終諱莫如深。

Elluswamy此次分享給出了關(guān)鍵信息:系統(tǒng)以視頻為主的多模態(tài)輸入進(jìn)入端到端模型,直接輸出控制指令,感知 - 預(yù)測(cè) - 決策 - 控制在同一神經(jīng)網(wǎng)絡(luò)中耦合回傳;這一整體框架與近期熱議的“世界模型”思想高度相似。同時(shí),在仿真?zhèn)?,世界模型被用于生成?duì)抗性場(chǎng)景,以實(shí)現(xiàn)閉環(huán)評(píng)測(cè)與迭代。

在此之前,圍繞VLA與世界模型的路線分歧已爭(zhēng)論不休,特斯拉的最新表態(tài)無疑又添一把火。無論最終范式如何定型,能夠“想象未來”的世界模型,幾乎注定將成為當(dāng)下自動(dòng)駕駛技術(shù)演進(jìn)的關(guān)鍵支點(diǎn)。

一、特斯拉FSD:端到端基礎(chǔ)模型與世界模型的融合

Elluswamy以“構(gòu)建未來的自動(dòng)化”為主題,首先闡述了FSD最近的一些進(jìn)展,包括Robotaxi的上線以及實(shí)現(xiàn)了從工廠到交付中心的全程自動(dòng)駕駛。

隨后,他介紹了特斯拉的端到端架構(gòu),多攝像頭圖像、導(dǎo)航地圖、車輛運(yùn)動(dòng)信息和音頻信號(hào)等輸入到一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)內(nèi),這個(gè)模型經(jīng)過海量的數(shù)據(jù)訓(xùn)練,支持長(zhǎng)序列的輸入,最后直接輸出控制信號(hào)。

這部分和國(guó)內(nèi)的技術(shù)方向基本一致,唯一的區(qū)別是增加了音頻信號(hào)的輸入。

為什么要使用端到端的架構(gòu),他給出了幾點(diǎn)理由:

  1. 人類的駕駛行為很難用函數(shù)去描述,規(guī)則算法很容易顧此失彼;
  2. 傳統(tǒng)的感知 - 規(guī)劃 - 控制的結(jié)構(gòu)會(huì)有大量的信息損失;
  3. 端到端的擴(kuò)展性更強(qiáng),更適合解決長(zhǎng)尾問題;
  4. 時(shí)延穩(wěn)定;
  5. 不需要依賴人類的經(jīng)驗(yàn),而是依靠算力和數(shù)據(jù);

如果要構(gòu)建一套出色的端到端系統(tǒng),會(huì)遇到什么困難?Elluswamy提到了三大難題:

維度災(zāi)難

FSD需要處理高幀率、高分辨率、長(zhǎng)時(shí)上下文的多模態(tài)輸入:在以“5×5 像素塊”為輸入token的假設(shè)下,僅視覺就相當(dāng)于7個(gè)攝像頭×36 FPS×500萬像素×30秒;同時(shí)還要結(jié)合未來數(shù)英里的導(dǎo)航地圖與路徑、100 Hz的速度/IMU/里程計(jì)等運(yùn)動(dòng)學(xué)數(shù)據(jù),以及48kHz的音頻數(shù)據(jù)。綜合起來約有20億個(gè)token,如果直接輸入到Transformer,token數(shù)量會(huì)在時(shí)間窗內(nèi)爆炸,無法滿足車端的時(shí)延要求。

特斯拉的做法是利用海量的車隊(duì)數(shù)據(jù),從中總結(jié)出“關(guān)鍵token”,通過稀疏化和聚合保留最有用的信息,可在不顯著影響精度的情況下大幅降低推理的時(shí)延。

同時(shí),特斯拉利用數(shù)據(jù)引擎從中抽取高質(zhì)量的數(shù)據(jù)樣本用于訓(xùn)練,讓系統(tǒng)能在各種極端或罕見場(chǎng)景中實(shí)現(xiàn)出色的泛化能力。

可解釋性與安全驗(yàn)證

為了避免“黑箱”AI,特斯拉在車端模型中加入了可解釋的中間輸出,既有全景分割和3D占據(jù)網(wǎng)絡(luò),也有基于三維高斯渲染的場(chǎng)景重建和語(yǔ)言化輸出,從而輔助工程師審視推理過程。


圖片來源:特斯拉

其中Elluswamy重點(diǎn)介紹了特斯拉的生成式高斯噴濺(Generative Gaussian Splatting),和傳統(tǒng)的高斯噴濺相比,特斯拉GGS具有更強(qiáng)的泛化能力,生成場(chǎng)景僅需要220毫秒,無需初始化,可建模動(dòng)態(tài)物體,并能與端到端AI模型聯(lián)合訓(xùn)練。

閉環(huán)評(píng)測(cè)與仿真

最后、也是最具挑戰(zhàn)性的一步,是模型評(píng)估

即使擁有高質(zhì)量的數(shù)據(jù)集,開環(huán)預(yù)測(cè)的損失函數(shù)下降,也未必意味著在真實(shí)世界中能有良好表現(xiàn)。評(píng)估體系必須多樣化且覆蓋不同模式,以支持快速的開發(fā)迭代。

為此,特斯拉開發(fā)了一個(gè)神經(jīng)世界模擬器(Neural World Simulator)。該模擬器基于特斯拉自建的海量數(shù)據(jù)集進(jìn)行訓(xùn)練,但與常規(guī)模型不同,它不是預(yù)測(cè)動(dòng)作,而是根據(jù)當(dāng)前狀態(tài)與下一步動(dòng)作生成未來狀態(tài)。從而與車端的端到端基礎(chǔ)模型閉環(huán),做真實(shí)效果的評(píng)估。


圖片來源:特斯拉

神經(jīng)世界模擬器在駕駛策略的指令下,按因果關(guān)系生成可交互的未來:不僅能基于歷史數(shù)據(jù)重放并驗(yàn)證新的駕駛模型,還能系統(tǒng)地合成對(duì)抗性/極端場(chǎng)景,用于長(zhǎng)尾覆蓋與安全邊界測(cè)試。

在工程實(shí)現(xiàn)上,特斯拉也強(qiáng)調(diào)該模擬器可實(shí)時(shí)或近實(shí)時(shí)地產(chǎn)生高分辨率、因果一致的響應(yīng),用于研發(fā)環(huán)節(jié)的快速驗(yàn)證。除此之外,這類視頻生成能力還可在閉環(huán)環(huán)境中進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí),以實(shí)現(xiàn)超越人類水平的表現(xiàn)。


圖片來源:特斯拉

盡管特斯拉并未在分享中明確使用“世界模型”這一稱呼,但從其神經(jīng)世界模擬器的能力與用法來看,它本質(zhì)上就是一個(gè)極其強(qiáng)大的世界模型。

與傳統(tǒng)云端世界模型不同,特斯拉的系統(tǒng)不僅具備高保真場(chǎng)景生成能力,更關(guān)鍵的是,它能夠在給定候選動(dòng)作的條件下,預(yù)測(cè)未來幾秒內(nèi)的世界演化,從而實(shí)現(xiàn)決策前瞻與安全驗(yàn)證。

模型不再只是“生成環(huán)境”,而是能“想象并評(píng)估行動(dòng)結(jié)果”的因果預(yù)測(cè)系統(tǒng)。

從特斯拉將“預(yù)測(cè)未來幾秒的世界演化”作為決策前瞻核心這一點(diǎn)出發(fā),車端基礎(chǔ)模型很可能走的也是世界模型路線:在車端進(jìn)行實(shí)時(shí)的動(dòng)作條件未來預(yù)測(cè),在云端以神經(jīng)世界模擬器進(jìn)行大規(guī)模場(chǎng)景重現(xiàn)與回歸驗(yàn)證,兩者在目標(biāo)與表征層面高度對(duì)齊,從而形成訓(xùn)練—評(píng)估—上線的一體化閉環(huán)。

二、何為世界模型?

端到端架構(gòu)能為自動(dòng)駕駛帶來更高的上限,這已經(jīng)是行業(yè)的共識(shí)。但是如何在端到端的框架下讓自動(dòng)駕駛達(dá)到甚至超越人類的駕駛水平,實(shí)現(xiàn)真正的無人駕駛,目前還沒有一個(gè)明確的方向,在多種技術(shù)路線中,世界模型無疑是其中重要的一支。


圖片來源:World Models for Autonomous Driving: An Initial Survey

世界模型并沒有一個(gè)標(biāo)準(zhǔn)的定義,但業(yè)內(nèi)逐漸形成了對(duì)它的共識(shí),世界模型是一個(gè)生成式時(shí)空神經(jīng)系統(tǒng),它將來自攝像頭、激光雷達(dá)、雷達(dá)和導(dǎo)航地圖等多模態(tài)輸入壓縮成潛在狀態(tài),該狀態(tài)不僅編碼了幾何、語(yǔ)義信息,還攜帶因果上下文。

世界模型可以在潛在空間內(nèi)推演環(huán)境未來,并讓智能體在執(zhí)行動(dòng)作前“演練”整個(gè)軌跡。正因如此,有人將世界模型形象地稱為能夠在腦海里“想象未來”的模型。

世界模型通常覆蓋三類任務(wù):

  1. 未來物理世界生成:基于傳感器數(shù)據(jù)和車輛歷史,生成場(chǎng)景的未來演化(包括物體運(yùn)動(dòng)、占據(jù)概率、點(diǎn)云或圖像級(jí)視頻)。
  2. 行為規(guī)劃與決策:結(jié)合預(yù)測(cè)結(jié)果為自車生成軌跡或動(dòng)作建議,實(shí)現(xiàn)決策與控制。
  3. 聯(lián)合預(yù)測(cè)與規(guī)劃:在潛在空間內(nèi)同時(shí)建模多主體交互,利用生成的未來對(duì)候選動(dòng)作進(jìn)行評(píng)估,從而實(shí)現(xiàn)閉環(huán)的行為優(yōu)化。

它不僅是感知或預(yù)測(cè)模塊的簡(jiǎn)單堆疊,而是一個(gè)統(tǒng)一的大腦:它將現(xiàn)實(shí)世界壓縮成可演化的內(nèi)部表示,并通過生成式推演支撐規(guī)劃與決策。它需要具備以下核心能力:

潛在時(shí)空表示

世界模型首先要將高維、多模態(tài)感知輸入映射到一個(gè)低維的潛在狀態(tài)。這一潛在表示既要包含環(huán)境中的幾何、語(yǔ)義信息,又要隨時(shí)間更新,使模型能夠在此空間內(nèi)捕捉環(huán)境狀態(tài)的轉(zhuǎn)移。該能力意味著模型不再依賴顯示的BEV或占據(jù)柵格,而是以更加抽象但富含語(yǔ)義的形式表示“世界”。

動(dòng)作條件的未來推演

在潛在狀態(tài)獲得之后,世界模型必須能夠在給定候選動(dòng)作(加速、制動(dòng)、變道等)的條件下,生成多步未來場(chǎng)景。這種生成不僅僅是時(shí)間上的外推,更是“假如我采取這個(gè)動(dòng)作,其他道路參與者會(huì)如何反應(yīng)、場(chǎng)景會(huì)如何變化”的因果推理。換言之,它不只是預(yù)測(cè)“將會(huì)發(fā)生什么”,更要回答“如果我這樣做,會(huì)發(fā)生什么”。

與規(guī)劃和控制的閉環(huán)耦合

世界模型的重要特征在于預(yù)測(cè)與規(guī)劃的深度耦合。模型生成的未來場(chǎng)景不僅提供參考,而是直接用于評(píng)估不同動(dòng)作的風(fēng)險(xiǎn)和收益,從而在潛在空間中完成候選動(dòng)作的比較—篩選—決策。這種閉環(huán)能力使世界模型能夠在端到端框架中直接輸出控制信號(hào),就像特斯拉的“神經(jīng)世界模擬器”那樣,能在閉環(huán)仿真中評(píng)估新模型、生成對(duì)抗場(chǎng)景,并進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)來獲得超越人類的性能。

多主體交互與不確定性建模

真實(shí)的道路中不僅有自車,還有別的車和行人,大家的運(yùn)動(dòng)狀態(tài)會(huì)互相影響。世界模型要在“腦海里的狀態(tài)空間”里,把這些參與者的位置、速度、意圖表示出來,并且隨著時(shí)間跟蹤他們彼此之間的互動(dòng)。

同時(shí),現(xiàn)實(shí)中的未來不是只有唯一的答案:前車可能并線,也可能減速。所以模型不能只給一條“最可能的軌跡”,而要給出一組可能的未來,讓系統(tǒng)在安全、效率、舒適之間做權(quán)衡。

長(zhǎng)期記憶與自我演化

世界模型應(yīng)當(dāng)具有長(zhǎng)期記憶和自我進(jìn)化能力——能夠積累駕駛經(jīng)驗(yàn)、持續(xù)擴(kuò)充其內(nèi)部世界,并在不同任務(wù)和場(chǎng)景間遷移。這使它不僅適用于某條路線或某種條件,而是可在多種條件下泛化。

正是世界模型強(qiáng)大的能力,讓它成為現(xiàn)在自動(dòng)駕駛領(lǐng)域最熱門的研究方向之一,很多人相信世界模型是通往L3和L4級(jí)別自動(dòng)駕駛的關(guān)鍵鑰匙。

三、中國(guó)的世界模型之路

作為自動(dòng)駕駛技術(shù)應(yīng)用最廣泛的中國(guó),世界模型已經(jīng)生根發(fā)芽,既有像商湯這樣專注于云端,為自動(dòng)駕駛補(bǔ)充合成數(shù)據(jù)的技術(shù)公司,也有像蔚來和華為這樣堅(jiān)定的讓世界模型上車的整車廠。在中國(guó),世界模型正扮演著越來越重要的角色。

蔚來NWM世界模型

蔚來汽車是較早公開將世界模型作為核心技術(shù)路線的公司之一。在2024年“NIO IN”發(fā)布會(huì)上,蔚來宣布了中國(guó)首個(gè)駕駛世界模型“NWM(Nio World Model)”,蔚來將其定義為“能夠全量理解多模態(tài)信息、生成新場(chǎng)景并預(yù)測(cè)未來的多元自回歸生成模型”。


圖片來源:蔚來

它在空間上完成“想象重建”(將感知到的物理世界逼真地重建為可編輯的虛擬世界),在時(shí)間上完成“想象推演”(在內(nèi)部時(shí)空中滾動(dòng)預(yù)演不同未來),進(jìn)而輸出可執(zhí)行的軌跡與動(dòng)作。并展示了其在車端的應(yīng)用。NWM可在100毫秒內(nèi)推理216種可能的駕駛場(chǎng)景 并選取最優(yōu)決策。蔚來官方表示,模型可以用3秒的歷史視頻提示生成長(zhǎng)達(dá)20秒的未來視頻;世界模型通過生成式推演形成所謂“平行世界”,在這些想象出的未來中評(píng)估不同動(dòng)作的后果。除了純視覺輸入,NWM還融合激光雷達(dá)、地圖和自車運(yùn)動(dòng)信息,并能理解駕駛員的語(yǔ)言指令。


圖片來源:蔚來

蔚來在云端開發(fā)了NSim作為生成式神經(jīng)模擬器,NWM基于真實(shí)視頻進(jìn)行三維重建后,進(jìn)入NSim進(jìn)行可編輯的場(chǎng)景分解、深度與法向量檢查、視角任意切換,并把NWM的推演軌跡與NSim的仿真結(jié)果對(duì)齊比對(duì),從“唯一真實(shí)軌跡的回放評(píng)測(cè)”升級(jí)為“海量平行世界的對(duì)照評(píng)測(cè)”,以此形成數(shù)據(jù)閉環(huán)和針對(duì)性對(duì)抗場(chǎng)景的生成。再結(jié)合蔚來的“群體智能”源源不斷的收集真實(shí)世界中的長(zhǎng)尾場(chǎng)景,形成雙輪驅(qū)動(dòng),加速模型迭代。

NWM的首個(gè)版本已于今年6月推送,在主動(dòng)安全方面新增3大功能:

  1. 駕駛員失能處置

在高速/快速路場(chǎng)景,監(jiān)測(cè)到駕駛員無意識(shí)后,車輛緩慢減速并變道至最右側(cè)應(yīng)急車道,開啟雙閃 + SOS主動(dòng)介入,由“車道內(nèi)安全停車”升級(jí)為“自主安全靠邊”,顯著降低在車道內(nèi)停車帶來的追尾風(fēng)險(xiǎn)。

  1. 追尾預(yù)防與保護(hù)(首次將大模型用于被追尾場(chǎng)景)

在0–150km/h 范圍內(nèi)對(duì)后向潛在碰撞進(jìn)行警示;當(dāng)碰撞不可避免時(shí),系統(tǒng)在500ms內(nèi)完成從感知決策到制動(dòng)建壓,最大可將被動(dòng)前移距離降低93%,減少二次事故風(fēng)險(xiǎn)。

  1. 通用障礙物預(yù)警增強(qiáng)

在轉(zhuǎn)彎、變道靠邊等動(dòng)作中,對(duì)抬桿/護(hù)墻/隔離柵/路沿等多類型障礙均可響應(yīng),減少低速靠邊剮蹭、車庫(kù)盤樓剮蹭等常見事故。

高速領(lǐng)航新增了ETC場(chǎng)景智能通行和“智能駕享模式”(行車風(fēng)格更穩(wěn)健,跟車/變道更平順、更強(qiáng)的防御性駕駛,必要時(shí)可自主閃燈/鳴笛提醒周邊車輛)。

城區(qū)點(diǎn)到點(diǎn)領(lǐng)航新增2大功能:

  1. 車位收藏:停車后可收藏畫線車位,下次出發(fā)或駛?cè)霑r(shí)實(shí)現(xiàn)無間斷全域領(lǐng)航;若被占用,系統(tǒng)自動(dòng)尋找臨近空位臨時(shí)泊入。
  2. 停車場(chǎng)自主尋路:無需地圖/導(dǎo)航/記憶路線,可聽懂自然語(yǔ)義指令、識(shí)別標(biāo)識(shí)與文字,實(shí)現(xiàn)跨區(qū)/跨樓層尋找出口或樓棟門口。這是NWM認(rèn)知—理解—推理能力在復(fù)雜微結(jié)構(gòu)空間里的標(biāo)志性落地。

智能泊車更新為全模型化泊車輔助,360°全向車位識(shí)別、車位顯示范圍×4,可在任意位置發(fā)起泊入指令并長(zhǎng)距離漫游泊車,在不同車位間自動(dòng)騰挪切換;只要不被墻體完全阻隔,就能實(shí)現(xiàn)“可見即可選、可選即可泊”。

NWM的成功量產(chǎn)以及對(duì)智駕功能的全面升級(jí),體現(xiàn)了世界模型在車端巨大的潛力。

華為WEWA 架構(gòu)

在圍繞世界模型的技術(shù)路線爭(zhēng)論中,作為國(guó)內(nèi)智駕領(lǐng)域的”帶頭大哥“,華為給出的答案是“WA(World?Action)”——一種強(qiáng)調(diào)直接感知到控制的世界模型路線。


圖片來源:華為

華為智能汽車解決方案BU總裁靳玉志公開表示,公司不會(huì)追隨VLA的潮流,而是堅(jiān)持以傳感器信號(hào)直接驅(qū)動(dòng)動(dòng)作的世界?行動(dòng)模型。

在華為看來,VLA利用大語(yǔ)言模型將視頻轉(zhuǎn)化為“語(yǔ)言 token”再生成控制命令,看似是捷徑,實(shí)則不能提供真正的自主能力;只有跳過語(yǔ)言層,直接從視覺、聲音等多模態(tài)感知信息生成駕駛指令,才能在空間感知和實(shí)時(shí)性上滿足高級(jí)自動(dòng)駕駛要求。

華為的ADS 4平臺(tái)基于WA原則進(jìn)一步演化出 WEWA(World Engine + World Action)架構(gòu):

  1. World Engine(云端世界引擎)在云端通過海量仿真與實(shí)車數(shù)據(jù)訓(xùn)練世界模型,并生成用于升級(jí)的模型參數(shù)。
  2. World Action(車端世界行動(dòng)模型)在車輛側(cè)運(yùn)行,將感知數(shù)據(jù)直接映射為控制動(dòng)作,跳過語(yǔ)言解析過程。

WEWA省略了語(yǔ)言層避免了抽象化損失,并通過多顆激光雷達(dá)和高性能硬件確保模型獲得盡可能完整的環(huán)境信息。這樣雖然硬件成本更高,但靳玉志認(rèn)為這是實(shí)現(xiàn)安全可靠自動(dòng)駕駛的唯一道路。

華為強(qiáng)調(diào),真正的世界模型不僅限于仿真,而是支撐車輛實(shí)時(shí)決策的核心。在WEWA架構(gòu)中,云端的World Engine使用大量仿真和實(shí)車數(shù)據(jù)對(duì)模型進(jìn)行“夢(mèng)境訓(xùn)練”,學(xué)習(xí)環(huán)境的演化規(guī)律并生成優(yōu)化后的參數(shù);這些參數(shù)通過OTA下發(fā)到車端的World Action模型,使車輛在物理一致的“世界表示”上直接規(guī)劃和控制。為了獲得盡可能完整的環(huán)境感知,華為在車端使用多顆激光雷達(dá)和高性能硬件,在最新的問界M9和尊界S800上,已經(jīng)開始使用4個(gè)激光雷達(dá)的方案。

靳玉志強(qiáng)調(diào),這條路線雖然成本更高,但能夠提供更強(qiáng)的空間理解和決策可靠性,是華為走向高級(jí)自動(dòng)駕駛的唯一道路。

商湯絕影:“開悟”世界模型與生成式仿真平臺(tái)

商湯科技旗下的自動(dòng)駕駛品牌絕影智駕推出了世界模型“開悟”并用于大規(guī)模仿真數(shù)據(jù)生成。2025年世界人工智能大會(huì)(WAIC)上,絕影發(fā)布了升級(jí)版的交互式世界模型產(chǎn)品平臺(tái),以及業(yè)內(nèi)最大規(guī)模的生成式駕駛數(shù)據(jù)集WorldSim?Drive。這一平臺(tái)基于先進(jìn)世界模型技術(shù),具備對(duì)物理規(guī)律的理解和對(duì)場(chǎng)景元素的控制能力,是面向車企和開發(fā)者開放試用的可交互產(chǎn)品。


圖片來源:商湯絕影

與蔚來的車端世界模型不同,絕影的“開悟”主要用于生成高保真仿真數(shù)據(jù)。開悟可在仿真場(chǎng)景中生成11個(gè)攝像頭視角的時(shí)空一致視頻,時(shí)長(zhǎng)可達(dá)150秒,分辨率達(dá)到專業(yè)級(jí)1080p。用戶可以在平臺(tái)上自由編輯場(chǎng)景的道路布局、參與體、天氣和光照等元素,一鍵生成風(fēng)險(xiǎn)極高的場(chǎng)景或多樣化組合。當(dāng)前,絕影正與上汽旗下的智己汽車合作,利用這個(gè)平臺(tái)構(gòu)建端到端數(shù)據(jù)工廠,針對(duì)加塞、追尾等高價(jià)值場(chǎng)景批量生成訓(xùn)練數(shù)據(jù),并計(jì)劃推出覆蓋數(shù)百萬合成片段的場(chǎng)景庫(kù)。

在數(shù)據(jù)規(guī)模和效率方面,WorldSim?Drive數(shù)據(jù)集包含超過100萬段生成式駕駛片段,覆蓋50多種天氣與光照條件、200類交通標(biāo)識(shí)和300種道路連接場(chǎng)景,是迄今最大的自動(dòng)駕駛生成數(shù)據(jù)集之一。這些合成數(shù)據(jù)保持多視角時(shí)空一致性,時(shí)長(zhǎng)可達(dá)數(shù)分鐘,畫質(zhì)與真實(shí)數(shù)據(jù)一致。開悟的日生產(chǎn)能力僅用一塊A100 GPU就相當(dāng)于10輛真實(shí)車輛或100臺(tái)道路測(cè)試車輛的數(shù)據(jù)采集能力。目前,絕影已有20%的訓(xùn)練數(shù)據(jù)來自世界模型生成。

商湯絕影通過“開悟”世界模型搭建了數(shù)字世界到真實(shí)世界的橋梁:一方面在仿真平臺(tái)上支持文本或圖像提示,快速生成特定場(chǎng)景;另一方面與車企合作打造閉環(huán)數(shù)據(jù)工廠,用合成數(shù)據(jù)彌補(bǔ)長(zhǎng)尾場(chǎng)景不足。

開悟的成功展示了世界模型在仿真數(shù)據(jù)生成中的力量,不僅降低數(shù)據(jù)采集成本,還能針對(duì)高風(fēng)險(xiǎn)場(chǎng)景進(jìn)行定制化訓(xùn)練,為自動(dòng)駕駛提供可靠、安全的測(cè)試和訓(xùn)練環(huán)境。

四、世界模型 VS VLA:自動(dòng)駕駛終局路線之爭(zhēng)

隨著大模型時(shí)代的到來,以語(yǔ)言大模型LLM為核心的視覺-語(yǔ)言-行動(dòng)(VLA)模型開始在自動(dòng)駕駛領(lǐng)域嶄露頭角,理想、小米和元戎都是堅(jiān)定的VLA路線擁護(hù)者,在今年7月理想已經(jīng)開始率先推送量產(chǎn)的VLA版本

VLA倡導(dǎo)將視覺輸入、自然語(yǔ)言理解與行動(dòng)生成融為一個(gè)大模型,通過語(yǔ)言增強(qiáng)情境理解和推理能力。和世界模型相比存在顯著差異:

結(jié)構(gòu)與表示

  1. 世界模型采用潛在時(shí)空表示,核心是一個(gè)可以隨時(shí)間演化的物理世界模擬器。它通過自監(jiān)督壓縮器將感知數(shù)據(jù)編碼為潛在狀態(tài),并依靠生成式預(yù)測(cè)模塊在該狀態(tài)上演化未來
  2. VLA模型則以 視覺—語(yǔ)言—行動(dòng)統(tǒng)一架構(gòu)為特征。它引入大型語(yǔ)言模型為大腦,將高維視覺感知映射為自然語(yǔ)言表述,并利用語(yǔ)言鏈?zhǔn)酵评韥砩蓻Q策或動(dòng)作指令。VLA模型能夠在車輛控制前進(jìn)行語(yǔ)言層面的推理和解釋,使系統(tǒng)兼具快速反射和慢速思考的雙系統(tǒng)。

推理路徑

  1. 世界模型的推理依賴動(dòng)作條件的內(nèi)在仿真:模型將候選動(dòng)作注入潛在世界,生成不同未來場(chǎng)景,再用代價(jià)函數(shù)或風(fēng)險(xiǎn)評(píng)價(jià)選擇最佳動(dòng)作。這種推理方式像是在腦海中做實(shí)驗(yàn),因此非常適合物理世界中的對(duì)抗和長(zhǎng)期評(píng)估。
  2. VLA的推理則依賴語(yǔ)言鏈路:VLA利用大型語(yǔ)言模型的常識(shí)和邏輯推理能力,通過自然語(yǔ)言對(duì)觀察到的場(chǎng)景進(jìn)行解釋、制定規(guī)則,然后輸出控制信號(hào)。這賦予系統(tǒng)更強(qiáng)的可解釋性,但其物理推理通常依賴外部模塊。。

能力與應(yīng)用

  1. 世界模型著重于長(zhǎng)時(shí)域、多主體和物理一致性。它可以生成復(fù)雜環(huán)境的長(zhǎng)期演化,捕捉稀有事件、他車互動(dòng)和路況變化,并在潛在空間中形成真實(shí)動(dòng)作反饋。由于這種閉環(huán)特性,世界模型成為評(píng)估和優(yōu)化自動(dòng)駕駛策略的核心,如特斯拉的神經(jīng)世界模擬器通過閉環(huán)仿真生成對(duì)抗場(chǎng)景、進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。
  2. VLA模型更強(qiáng)調(diào)語(yǔ)義推理與高層交互。它通過語(yǔ)言接口理解自然語(yǔ)言指令、交通規(guī)則和場(chǎng)景描述,具備鏈?zhǔn)剿伎寄芰?。VLA可以利用互聯(lián)網(wǎng)規(guī)模的語(yǔ)言數(shù)據(jù)注入常識(shí),支持復(fù)雜推理和解釋。

“世界模型VS VLA”的路線之爭(zhēng)仍將持續(xù)。世界模型更貼近自動(dòng)駕駛的物理本質(zhì),VLA則憑借通識(shí)能力在長(zhǎng)尾場(chǎng)景上具優(yōu)勢(shì)。最終的產(chǎn)業(yè)答案,很可能來自兩者的互補(bǔ)與融合。

最近AI領(lǐng)域的先驅(qū)李飛飛發(fā)表長(zhǎng)文討論空間智能,她認(rèn)為今天的大語(yǔ)言模型擅長(zhǎng)抽象知識(shí)處理,但在物理世界上仍像“黑暗中的文字匠”,缺乏對(duì)三維環(huán)境、因果與動(dòng)力學(xué)的扎實(shí)理解,難以安全地在現(xiàn)實(shí)世界中行動(dòng)。通過想象、推理、創(chuàng)造與互動(dòng)來理解世界,而非僅僅依賴語(yǔ)言描述,這正是空間智能的力量。

實(shí)現(xiàn)空間智能的答案是“世界模型”,能夠在語(yǔ)義、物理、幾何與動(dòng)態(tài)等多重復(fù)雜世界(無論虛擬還是現(xiàn)實(shí))中進(jìn)行理解、推理、生成與交互。

她的觀點(diǎn)再次將世界模型推向AI領(lǐng)域的前沿,無論最終實(shí)現(xiàn)自動(dòng)駕駛的技術(shù)路徑是什么,在通往終點(diǎn)的路上,世界模型一定會(huì)留下濃墨重彩的一筆。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女子相親帶男閨蜜蹭飯,狂點(diǎn)8000元海鮮,男方逃單失聯(lián),警方介入

女子相親帶男閨蜜蹭飯,狂點(diǎn)8000元海鮮,男方逃單失聯(lián),警方介入

離離言幾許
2026-03-07 15:52:24
人社部: 將加大對(duì)外貿(mào)、建筑、住宿、餐飲等勞動(dòng)密集型行業(yè)就業(yè)扶持

人社部: 將加大對(duì)外貿(mào)、建筑、住宿、餐飲等勞動(dòng)密集型行業(yè)就業(yè)扶持

證券時(shí)報(bào)
2026-03-07 10:51:24
可以基本確定,伊朗已經(jīng)贏了

可以基本確定,伊朗已經(jīng)贏了

大樹鄉(xiāng)談
2026-03-06 23:32:06
商務(wù)部:如再次引發(fā)全球半導(dǎo)體產(chǎn)供鏈危機(jī),荷方必須對(duì)此承擔(dān)全部責(zé)任

商務(wù)部:如再次引發(fā)全球半導(dǎo)體產(chǎn)供鏈危機(jī),荷方必須對(duì)此承擔(dān)全部責(zé)任

每日經(jīng)濟(jì)新聞
2026-03-07 21:14:20
很多人還不知道,原來只要知道對(duì)方手機(jī)號(hào)碼,就可以查到對(duì)方位置了!

很多人還不知道,原來只要知道對(duì)方手機(jī)號(hào)碼,就可以查到對(duì)方位置了!

CG說科技
2026-03-05 16:59:05
特朗普:伊朗“今天將遭到極其猛烈的打擊”

特朗普:伊朗“今天將遭到極其猛烈的打擊”

新華社
2026-03-07 19:52:04
中東打仗,駐韓美軍異動(dòng)?

中東打仗,駐韓美軍異動(dòng)?

新民周刊
2026-03-07 09:17:30
深度揭秘?|?受賄5401萬余元,上海市徐匯區(qū)委原書記鮑炳章,獲刑14年!揭發(fā)他人犯罪,具有立功表現(xiàn)

深度揭秘?|?受賄5401萬余元,上海市徐匯區(qū)委原書記鮑炳章,獲刑14年!揭發(fā)他人犯罪,具有立功表現(xiàn)

一分為三看人生
2026-03-08 00:07:21
伊朗:強(qiáng)力打擊造成美第五艦隊(duì)21人死亡,阿聯(lián)酋美軍基地200人死傷!特朗普:伊朗今天將遭“極其猛烈”打擊,考慮擴(kuò)大打擊范圍

伊朗:強(qiáng)力打擊造成美第五艦隊(duì)21人死亡,阿聯(lián)酋美軍基地200人死傷!特朗普:伊朗今天將遭“極其猛烈”打擊,考慮擴(kuò)大打擊范圍

每日經(jīng)濟(jì)新聞
2026-03-07 21:34:38
A股:緊急提醒2.5億股民!從下周起,或許牛市歷史總是驚人的相似

A股:緊急提醒2.5億股民!從下周起,或許牛市歷史總是驚人的相似

另子維愛讀史
2026-03-07 19:02:07
中國(guó)散貨船“鐵娘子”號(hào)通過霍爾木茲海峽,我們?nèi)チ怂谏虾F謻|的運(yùn)營(yíng)公司

中國(guó)散貨船“鐵娘子”號(hào)通過霍爾木茲海峽,我們?nèi)チ怂谏虾F謻|的運(yùn)營(yíng)公司

上觀新聞
2026-03-07 17:17:07
黃仁勛:智能體AI成行業(yè)拐點(diǎn),OpenClaw三周超越Linux

黃仁勛:智能體AI成行業(yè)拐點(diǎn),OpenClaw三周超越Linux

環(huán)球網(wǎng)資訊
2026-03-07 11:23:08
網(wǎng)紅安靜公主自曝肛裂,今年手術(shù)做太多,被建議休息半個(gè)月再檢查

網(wǎng)紅安靜公主自曝肛裂,今年手術(shù)做太多,被建議休息半個(gè)月再檢查

君笙的拂兮
2026-03-05 07:22:01
文旅部部長(zhǎng):7名外國(guó)游客到上海旅游,買了40箱中國(guó)貨;“成為中國(guó)人”成了網(wǎng)絡(luò)熱詞,老外愛上喝開水吃火鍋等中式生活

文旅部部長(zhǎng):7名外國(guó)游客到上海旅游,買了40箱中國(guó)貨;“成為中國(guó)人”成了網(wǎng)絡(luò)熱詞,老外愛上喝開水吃火鍋等中式生活

新民晚報(bào)
2026-03-07 15:00:52
兩名美軍飛行員拒絕執(zhí)行任務(wù)被捕:軍隊(duì)不是表達(dá)個(gè)人立場(chǎng)的地方

兩名美軍飛行員拒絕執(zhí)行任務(wù)被捕:軍隊(duì)不是表達(dá)個(gè)人立場(chǎng)的地方

沉光映雪
2026-03-07 15:24:16
抵達(dá)長(zhǎng)沙,王治郅履新新崗位,薪酬曝光,宮魯鳴力薦再展才華

抵達(dá)長(zhǎng)沙,王治郅履新新崗位,薪酬曝光,宮魯鳴力薦再展才華

卿子書
2026-03-07 09:12:13
我踏瑪?shù)亩伎殳偭耍?>
    </a>
        <h3>
      <a href=一個(gè)壞土豆
2026-03-07 01:12:44
芒果立大功!中國(guó)科學(xué)家最新研究:連續(xù)補(bǔ)充26天 生存時(shí)間延長(zhǎng)23%

芒果立大功!中國(guó)科學(xué)家最新研究:連續(xù)補(bǔ)充26天 生存時(shí)間延長(zhǎng)23%

思思夜話
2026-03-06 15:59:05
以色列狂轟濫炸黎巴嫩首都!馬克龍放話:敢派地面部隊(duì),我就出手

以色列狂轟濫炸黎巴嫩首都!馬克龍放話:敢派地面部隊(duì),我就出手

達(dá)文西看世界
2026-03-07 16:36:01
馬斯克評(píng)比亞迪:產(chǎn)能跌破50%是"巨大痛苦",BYD連續(xù)六個(gè)月銷量下滑

馬斯克評(píng)比亞迪:產(chǎn)能跌破50%是"巨大痛苦",BYD連續(xù)六個(gè)月銷量下滑

新浪財(cái)經(jīng)
2026-03-07 20:46:51
2026-03-08 03:56:49
HiEV incentive-icons
HiEV
新一代智能汽車創(chuàng)新研究平臺(tái)
1044文章數(shù) 80關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

選舉24小時(shí)內(nèi)舉行 伊朗今天或選出最高領(lǐng)袖

頭條要聞

選舉24小時(shí)內(nèi)舉行 伊朗今天或選出最高領(lǐng)袖

體育要聞

塔圖姆298天走完這段路 只用27分鐘征服這座城

娛樂要聞

汪小菲曝親媽猛料,張?zhí)m公開財(cái)產(chǎn)分配

財(cái)經(jīng)要聞

針對(duì)"不敢休、不讓休"怪圈 國(guó)家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

旅游
教育
親子
時(shí)尚
房產(chǎn)

旅游要聞

從生態(tài)園到網(wǎng)紅公園 上海再添小眾“森林秘境”

教育要聞

原來走讀生更容易學(xué)壞!家長(zhǎng)曬初中叛逆女兒,網(wǎng)友:可能已經(jīng)懷孕

親子要聞

長(zhǎng)輩勸你生娃的重要性尤其是女性!網(wǎng)友:年輕不懂,老了一定懂

2026春夏一定要擁有的6只包,好看又百搭

房產(chǎn)要聞

傳統(tǒng)學(xué)區(qū)房熄火?2月??诙址勘鸬陌鍓K竟然是…

無障礙瀏覽 進(jìn)入關(guān)懷版