国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

特斯拉再添一把火,「世界模型」如何重塑自動駕駛?

0
分享至

作者 |肖恩

編輯 |德新

兩年一度的計算機視覺頂會ICCV 10月在美國檀香山閉幕,今年的最佳論文頒給了卡內(nèi)基梅隆大學(xué)團隊的BrickGPT,一種能從文本描述直接生成物理結(jié)構(gòu)穩(wěn)定并可實際搭建的積木機構(gòu)模型,這個成果展示了生成式AI在物理世界應(yīng)用的潛力。

對自動駕駛從業(yè)者而言,這次會議上還有一個更令人矚目的消息——特斯拉AI部門副總裁Ashok Elluswamy在“基礎(chǔ)模型蒸餾與自動駕駛”論壇中,分享了FSD的最新進展。

自2022年在AI Day上分享了占用格柵網(wǎng)絡(luò)之后,特斯拉幾乎沒有在任何公開場合透露過FSD的內(nèi)幕,特別是進入到端到端架構(gòu)之后,F(xiàn)SD的表現(xiàn)進步神速,但是特斯拉對背后的技術(shù)始終諱莫如深。

Elluswamy此次分享給出了關(guān)鍵信息:系統(tǒng)以視頻為主的多模態(tài)輸入進入端到端模型,直接輸出控制指令,感知 - 預(yù)測 - 決策 - 控制在同一神經(jīng)網(wǎng)絡(luò)中耦合回傳;這一整體框架與近期熱議的“世界模型”思想高度相似。同時,在仿真?zhèn)?,世界模型被用于生成對抗性場景,以實現(xiàn)閉環(huán)評測與迭代。

在此之前,圍繞VLA與世界模型的路線分歧已爭論不休,特斯拉的最新表態(tài)無疑又添一把火。無論最終范式如何定型,能夠“想象未來”的世界模型,幾乎注定將成為當(dāng)下自動駕駛技術(shù)演進的關(guān)鍵支點。

一、特斯拉FSD:端到端基礎(chǔ)模型與世界模型的融合

Elluswamy以“構(gòu)建未來的自動化”為主題,首先闡述了FSD最近的一些進展,包括Robotaxi的上線以及實現(xiàn)了從工廠到交付中心的全程自動駕駛。

隨后,他介紹了特斯拉的端到端架構(gòu),多攝像頭圖像、導(dǎo)航地圖、車輛運動信息和音頻信號等輸入到一個端到端的神經(jīng)網(wǎng)絡(luò)內(nèi),這個模型經(jīng)過海量的數(shù)據(jù)訓(xùn)練,支持長序列的輸入,最后直接輸出控制信號。

這部分和國內(nèi)的技術(shù)方向基本一致,唯一的區(qū)別是增加了音頻信號的輸入。

為什么要使用端到端的架構(gòu),他給出了幾點理由:

  1. 人類的駕駛行為很難用函數(shù)去描述,規(guī)則算法很容易顧此失彼;
  2. 傳統(tǒng)的感知 - 規(guī)劃 - 控制的結(jié)構(gòu)會有大量的信息損失;
  3. 端到端的擴展性更強,更適合解決長尾問題;
  4. 時延穩(wěn)定;
  5. 不需要依賴人類的經(jīng)驗,而是依靠算力和數(shù)據(jù);

如果要構(gòu)建一套出色的端到端系統(tǒng),會遇到什么困難?Elluswamy提到了三大難題:

維度災(zāi)難

FSD需要處理高幀率、高分辨率、長時上下文的多模態(tài)輸入:在以“5×5 像素塊”為輸入token的假設(shè)下,僅視覺就相當(dāng)于7個攝像頭×36 FPS×500萬像素×30秒;同時還要結(jié)合未來數(shù)英里的導(dǎo)航地圖與路徑、100 Hz的速度/IMU/里程計等運動學(xué)數(shù)據(jù),以及48kHz的音頻數(shù)據(jù)。綜合起來約有20億個token,如果直接輸入到Transformer,token數(shù)量會在時間窗內(nèi)爆炸,無法滿足車端的時延要求。

特斯拉的做法是利用海量的車隊數(shù)據(jù),從中總結(jié)出“關(guān)鍵token”,通過稀疏化和聚合保留最有用的信息,可在不顯著影響精度的情況下大幅降低推理的時延。

同時,特斯拉利用數(shù)據(jù)引擎從中抽取高質(zhì)量的數(shù)據(jù)樣本用于訓(xùn)練,讓系統(tǒng)能在各種極端或罕見場景中實現(xiàn)出色的泛化能力。

可解釋性與安全驗證

為了避免“黑箱”AI,特斯拉在車端模型中加入了可解釋的中間輸出,既有全景分割和3D占據(jù)網(wǎng)絡(luò),也有基于三維高斯渲染的場景重建和語言化輸出,從而輔助工程師審視推理過程。


圖片來源:特斯拉

其中Elluswamy重點介紹了特斯拉的生成式高斯噴濺(Generative Gaussian Splatting),和傳統(tǒng)的高斯噴濺相比,特斯拉GGS具有更強的泛化能力,生成場景僅需要220毫秒,無需初始化,可建模動態(tài)物體,并能與端到端AI模型聯(lián)合訓(xùn)練。

閉環(huán)評測與仿真

最后、也是最具挑戰(zhàn)性的一步,是模型評估

即使擁有高質(zhì)量的數(shù)據(jù)集,開環(huán)預(yù)測的損失函數(shù)下降,也未必意味著在真實世界中能有良好表現(xiàn)。評估體系必須多樣化且覆蓋不同模式,以支持快速的開發(fā)迭代。

為此,特斯拉開發(fā)了一個神經(jīng)世界模擬器(Neural World Simulator)。該模擬器基于特斯拉自建的海量數(shù)據(jù)集進行訓(xùn)練,但與常規(guī)模型不同,它不是預(yù)測動作,而是根據(jù)當(dāng)前狀態(tài)與下一步動作生成未來狀態(tài)。從而與車端的端到端基礎(chǔ)模型閉環(huán),做真實效果的評估。


圖片來源:特斯拉

神經(jīng)世界模擬器在駕駛策略的指令下,按因果關(guān)系生成可交互的未來:不僅能基于歷史數(shù)據(jù)重放并驗證新的駕駛模型,還能系統(tǒng)地合成對抗性/極端場景,用于長尾覆蓋與安全邊界測試。

在工程實現(xiàn)上,特斯拉也強調(diào)該模擬器可實時或近實時地產(chǎn)生高分辨率、因果一致的響應(yīng),用于研發(fā)環(huán)節(jié)的快速驗證。除此之外,這類視頻生成能力還可在閉環(huán)環(huán)境中進行大規(guī)模強化學(xué)習(xí),以實現(xiàn)超越人類水平的表現(xiàn)。


圖片來源:特斯拉

盡管特斯拉并未在分享中明確使用“世界模型”這一稱呼,但從其神經(jīng)世界模擬器的能力與用法來看,它本質(zhì)上就是一個極其強大的世界模型。

與傳統(tǒng)云端世界模型不同,特斯拉的系統(tǒng)不僅具備高保真場景生成能力,更關(guān)鍵的是,它能夠在給定候選動作的條件下,預(yù)測未來幾秒內(nèi)的世界演化,從而實現(xiàn)決策前瞻與安全驗證。

模型不再只是“生成環(huán)境”,而是能“想象并評估行動結(jié)果”的因果預(yù)測系統(tǒng)。

從特斯拉將“預(yù)測未來幾秒的世界演化”作為決策前瞻核心這一點出發(fā),車端基礎(chǔ)模型很可能走的也是世界模型路線:在車端進行實時的動作條件未來預(yù)測,在云端以神經(jīng)世界模擬器進行大規(guī)模場景重現(xiàn)與回歸驗證,兩者在目標(biāo)與表征層面高度對齊,從而形成訓(xùn)練—評估—上線的一體化閉環(huán)。

二、何為世界模型?

端到端架構(gòu)能為自動駕駛帶來更高的上限,這已經(jīng)是行業(yè)的共識。但是如何在端到端的框架下讓自動駕駛達(dá)到甚至超越人類的駕駛水平,實現(xiàn)真正的無人駕駛,目前還沒有一個明確的方向,在多種技術(shù)路線中,世界模型無疑是其中重要的一支。


圖片來源:World Models for Autonomous Driving: An Initial Survey

世界模型并沒有一個標(biāo)準(zhǔn)的定義,但業(yè)內(nèi)逐漸形成了對它的共識,世界模型是一個生成式時空神經(jīng)系統(tǒng),它將來自攝像頭、激光雷達(dá)、雷達(dá)和導(dǎo)航地圖等多模態(tài)輸入壓縮成潛在狀態(tài),該狀態(tài)不僅編碼了幾何、語義信息,還攜帶因果上下文。

世界模型可以在潛在空間內(nèi)推演環(huán)境未來,并讓智能體在執(zhí)行動作前“演練”整個軌跡。正因如此,有人將世界模型形象地稱為能夠在腦海里“想象未來”的模型。

世界模型通常覆蓋三類任務(wù):

  1. 未來物理世界生成:基于傳感器數(shù)據(jù)和車輛歷史,生成場景的未來演化(包括物體運動、占據(jù)概率、點云或圖像級視頻)。
  2. 行為規(guī)劃與決策:結(jié)合預(yù)測結(jié)果為自車生成軌跡或動作建議,實現(xiàn)決策與控制。
  3. 聯(lián)合預(yù)測與規(guī)劃:在潛在空間內(nèi)同時建模多主體交互,利用生成的未來對候選動作進行評估,從而實現(xiàn)閉環(huán)的行為優(yōu)化。

它不僅是感知或預(yù)測模塊的簡單堆疊,而是一個統(tǒng)一的大腦:它將現(xiàn)實世界壓縮成可演化的內(nèi)部表示,并通過生成式推演支撐規(guī)劃與決策。它需要具備以下核心能力:

潛在時空表示

世界模型首先要將高維、多模態(tài)感知輸入映射到一個低維的潛在狀態(tài)。這一潛在表示既要包含環(huán)境中的幾何、語義信息,又要隨時間更新,使模型能夠在此空間內(nèi)捕捉環(huán)境狀態(tài)的轉(zhuǎn)移。該能力意味著模型不再依賴顯示的BEV或占據(jù)柵格,而是以更加抽象但富含語義的形式表示“世界”。

動作條件的未來推演

在潛在狀態(tài)獲得之后,世界模型必須能夠在給定候選動作(加速、制動、變道等)的條件下,生成多步未來場景。這種生成不僅僅是時間上的外推,更是“假如我采取這個動作,其他道路參與者會如何反應(yīng)、場景會如何變化”的因果推理。換言之,它不只是預(yù)測“將會發(fā)生什么”,更要回答“如果我這樣做,會發(fā)生什么”。

與規(guī)劃和控制的閉環(huán)耦合

世界模型的重要特征在于預(yù)測與規(guī)劃的深度耦合。模型生成的未來場景不僅提供參考,而是直接用于評估不同動作的風(fēng)險和收益,從而在潛在空間中完成候選動作的比較—篩選—決策。這種閉環(huán)能力使世界模型能夠在端到端框架中直接輸出控制信號,就像特斯拉的“神經(jīng)世界模擬器”那樣,能在閉環(huán)仿真中評估新模型、生成對抗場景,并進行大規(guī)模強化學(xué)習(xí)來獲得超越人類的性能。

多主體交互與不確定性建模

真實的道路中不僅有自車,還有別的車和行人,大家的運動狀態(tài)會互相影響。世界模型要在“腦海里的狀態(tài)空間”里,把這些參與者的位置、速度、意圖表示出來,并且隨著時間跟蹤他們彼此之間的互動。

同時,現(xiàn)實中的未來不是只有唯一的答案:前車可能并線,也可能減速。所以模型不能只給一條“最可能的軌跡”,而要給出一組可能的未來,讓系統(tǒng)在安全、效率、舒適之間做權(quán)衡。

長期記憶與自我演化

世界模型應(yīng)當(dāng)具有長期記憶和自我進化能力——能夠積累駕駛經(jīng)驗、持續(xù)擴充其內(nèi)部世界,并在不同任務(wù)和場景間遷移。這使它不僅適用于某條路線或某種條件,而是可在多種條件下泛化。

正是世界模型強大的能力,讓它成為現(xiàn)在自動駕駛領(lǐng)域最熱門的研究方向之一,很多人相信世界模型是通往L3和L4級別自動駕駛的關(guān)鍵鑰匙。

三、中國的世界模型之路

作為自動駕駛技術(shù)應(yīng)用最廣泛的中國,世界模型已經(jīng)生根發(fā)芽,既有像商湯這樣專注于云端,為自動駕駛補充合成數(shù)據(jù)的技術(shù)公司,也有像蔚來和華為這樣堅定的讓世界模型上車的整車廠。在中國,世界模型正扮演著越來越重要的角色。

蔚來NWM世界模型

蔚來汽車是較早公開將世界模型作為核心技術(shù)路線的公司之一。在2024年“NIO IN”發(fā)布會上,蔚來宣布了中國首個駕駛世界模型“NWM(Nio World Model)”,蔚來將其定義為“能夠全量理解多模態(tài)信息、生成新場景并預(yù)測未來的多元自回歸生成模型”。


圖片來源:蔚來

它在空間上完成“想象重建”(將感知到的物理世界逼真地重建為可編輯的虛擬世界),在時間上完成“想象推演”(在內(nèi)部時空中滾動預(yù)演不同未來),進而輸出可執(zhí)行的軌跡與動作。并展示了其在車端的應(yīng)用。NWM可在100毫秒內(nèi)推理216種可能的駕駛場景 并選取最優(yōu)決策。蔚來官方表示,模型可以用3秒的歷史視頻提示生成長達(dá)20秒的未來視頻;世界模型通過生成式推演形成所謂“平行世界”,在這些想象出的未來中評估不同動作的后果。除了純視覺輸入,NWM還融合激光雷達(dá)、地圖和自車運動信息,并能理解駕駛員的語言指令。


圖片來源:蔚來

蔚來在云端開發(fā)了NSim作為生成式神經(jīng)模擬器,NWM基于真實視頻進行三維重建后,進入NSim進行可編輯的場景分解、深度與法向量檢查、視角任意切換,并把NWM的推演軌跡與NSim的仿真結(jié)果對齊比對,從“唯一真實軌跡的回放評測”升級為“海量平行世界的對照評測”,以此形成數(shù)據(jù)閉環(huán)和針對性對抗場景的生成。再結(jié)合蔚來的“群體智能”源源不斷的收集真實世界中的長尾場景,形成雙輪驅(qū)動,加速模型迭代。

NWM的首個版本已于今年6月推送,在主動安全方面新增3大功能:

  1. 駕駛員失能處置

在高速/快速路場景,監(jiān)測到駕駛員無意識后,車輛緩慢減速并變道至最右側(cè)應(yīng)急車道,開啟雙閃 + SOS主動介入,由“車道內(nèi)安全停車”升級為“自主安全靠邊”,顯著降低在車道內(nèi)停車帶來的追尾風(fēng)險。

  1. 追尾預(yù)防與保護(首次將大模型用于被追尾場景)

在0–150km/h 范圍內(nèi)對后向潛在碰撞進行警示;當(dāng)碰撞不可避免時,系統(tǒng)在500ms內(nèi)完成從感知決策到制動建壓,最大可將被動前移距離降低93%,減少二次事故風(fēng)險。

  1. 通用障礙物預(yù)警增強

在轉(zhuǎn)彎、變道靠邊等動作中,對抬桿/護墻/隔離柵/路沿等多類型障礙均可響應(yīng),減少低速靠邊剮蹭、車庫盤樓剮蹭等常見事故。

高速領(lǐng)航新增了ETC場景智能通行和“智能駕享模式”(行車風(fēng)格更穩(wěn)健,跟車/變道更平順、更強的防御性駕駛,必要時可自主閃燈/鳴笛提醒周邊車輛)。

城區(qū)點到點領(lǐng)航新增2大功能:

  1. 車位收藏:停車后可收藏畫線車位,下次出發(fā)或駛?cè)霑r實現(xiàn)無間斷全域領(lǐng)航;若被占用,系統(tǒng)自動尋找臨近空位臨時泊入。
  2. 停車場自主尋路:無需地圖/導(dǎo)航/記憶路線,可聽懂自然語義指令、識別標(biāo)識與文字,實現(xiàn)跨區(qū)/跨樓層尋找出口或樓棟門口。這是NWM認(rèn)知—理解—推理能力在復(fù)雜微結(jié)構(gòu)空間里的標(biāo)志性落地。

智能泊車更新為全模型化泊車輔助,360°全向車位識別、車位顯示范圍×4,可在任意位置發(fā)起泊入指令并長距離漫游泊車,在不同車位間自動騰挪切換;只要不被墻體完全阻隔,就能實現(xiàn)“可見即可選、可選即可泊”。

NWM的成功量產(chǎn)以及對智駕功能的全面升級,體現(xiàn)了世界模型在車端巨大的潛力。

華為WEWA 架構(gòu)

在圍繞世界模型的技術(shù)路線爭論中,作為國內(nèi)智駕領(lǐng)域的”帶頭大哥“,華為給出的答案是“WA(World?Action)”——一種強調(diào)直接感知到控制的世界模型路線。


圖片來源:華為

華為智能汽車解決方案BU總裁靳玉志公開表示,公司不會追隨VLA的潮流,而是堅持以傳感器信號直接驅(qū)動動作的世界?行動模型。

在華為看來,VLA利用大語言模型將視頻轉(zhuǎn)化為“語言 token”再生成控制命令,看似是捷徑,實則不能提供真正的自主能力;只有跳過語言層,直接從視覺、聲音等多模態(tài)感知信息生成駕駛指令,才能在空間感知和實時性上滿足高級自動駕駛要求。

華為的ADS 4平臺基于WA原則進一步演化出 WEWA(World Engine + World Action)架構(gòu):

  1. World Engine(云端世界引擎)在云端通過海量仿真與實車數(shù)據(jù)訓(xùn)練世界模型,并生成用于升級的模型參數(shù)。
  2. World Action(車端世界行動模型)在車輛側(cè)運行,將感知數(shù)據(jù)直接映射為控制動作,跳過語言解析過程。

WEWA省略了語言層避免了抽象化損失,并通過多顆激光雷達(dá)和高性能硬件確保模型獲得盡可能完整的環(huán)境信息。這樣雖然硬件成本更高,但靳玉志認(rèn)為這是實現(xiàn)安全可靠自動駕駛的唯一道路。

華為強調(diào),真正的世界模型不僅限于仿真,而是支撐車輛實時決策的核心。在WEWA架構(gòu)中,云端的World Engine使用大量仿真和實車數(shù)據(jù)對模型進行“夢境訓(xùn)練”,學(xué)習(xí)環(huán)境的演化規(guī)律并生成優(yōu)化后的參數(shù);這些參數(shù)通過OTA下發(fā)到車端的World Action模型,使車輛在物理一致的“世界表示”上直接規(guī)劃和控制。為了獲得盡可能完整的環(huán)境感知,華為在車端使用多顆激光雷達(dá)和高性能硬件,在最新的問界M9和尊界S800上,已經(jīng)開始使用4個激光雷達(dá)的方案。

靳玉志強調(diào),這條路線雖然成本更高,但能夠提供更強的空間理解和決策可靠性,是華為走向高級自動駕駛的唯一道路。

商湯絕影:“開悟”世界模型與生成式仿真平臺

商湯科技旗下的自動駕駛品牌絕影智駕推出了世界模型“開悟”并用于大規(guī)模仿真數(shù)據(jù)生成。2025年世界人工智能大會(WAIC)上,絕影發(fā)布了升級版的交互式世界模型產(chǎn)品平臺,以及業(yè)內(nèi)最大規(guī)模的生成式駕駛數(shù)據(jù)集WorldSim?Drive。這一平臺基于先進世界模型技術(shù),具備對物理規(guī)律的理解和對場景元素的控制能力,是面向車企和開發(fā)者開放試用的可交互產(chǎn)品。


圖片來源:商湯絕影

與蔚來的車端世界模型不同,絕影的“開悟”主要用于生成高保真仿真數(shù)據(jù)。開悟可在仿真場景中生成11個攝像頭視角的時空一致視頻,時長可達(dá)150秒,分辨率達(dá)到專業(yè)級1080p。用戶可以在平臺上自由編輯場景的道路布局、參與體、天氣和光照等元素,一鍵生成風(fēng)險極高的場景或多樣化組合。當(dāng)前,絕影正與上汽旗下的智己汽車合作,利用這個平臺構(gòu)建端到端數(shù)據(jù)工廠,針對加塞、追尾等高價值場景批量生成訓(xùn)練數(shù)據(jù),并計劃推出覆蓋數(shù)百萬合成片段的場景庫。

在數(shù)據(jù)規(guī)模和效率方面,WorldSim?Drive數(shù)據(jù)集包含超過100萬段生成式駕駛片段,覆蓋50多種天氣與光照條件、200類交通標(biāo)識和300種道路連接場景,是迄今最大的自動駕駛生成數(shù)據(jù)集之一。這些合成數(shù)據(jù)保持多視角時空一致性,時長可達(dá)數(shù)分鐘,畫質(zhì)與真實數(shù)據(jù)一致。開悟的日生產(chǎn)能力僅用一塊A100 GPU就相當(dāng)于10輛真實車輛或100臺道路測試車輛的數(shù)據(jù)采集能力。目前,絕影已有20%的訓(xùn)練數(shù)據(jù)來自世界模型生成。

商湯絕影通過“開悟”世界模型搭建了數(shù)字世界到真實世界的橋梁:一方面在仿真平臺上支持文本或圖像提示,快速生成特定場景;另一方面與車企合作打造閉環(huán)數(shù)據(jù)工廠,用合成數(shù)據(jù)彌補長尾場景不足。

開悟的成功展示了世界模型在仿真數(shù)據(jù)生成中的力量,不僅降低數(shù)據(jù)采集成本,還能針對高風(fēng)險場景進行定制化訓(xùn)練,為自動駕駛提供可靠、安全的測試和訓(xùn)練環(huán)境。

四、世界模型 VS VLA:自動駕駛終局路線之爭

隨著大模型時代的到來,以語言大模型LLM為核心的視覺-語言-行動(VLA)模型開始在自動駕駛領(lǐng)域嶄露頭角,理想、小米和元戎都是堅定的VLA路線擁護者,在今年7月理想已經(jīng)開始率先推送量產(chǎn)的VLA版本。

VLA倡導(dǎo)將視覺輸入、自然語言理解與行動生成融為一個大模型,通過語言增強情境理解和推理能力。和世界模型相比存在顯著差異:

結(jié)構(gòu)與表示

  1. 世界模型采用潛在時空表示,核心是一個可以隨時間演化的物理世界模擬器。它通過自監(jiān)督壓縮器將感知數(shù)據(jù)編碼為潛在狀態(tài),并依靠生成式預(yù)測模塊在該狀態(tài)上演化未來
  2. VLA模型則以 視覺—語言—行動統(tǒng)一架構(gòu)為特征。它引入大型語言模型為大腦,將高維視覺感知映射為自然語言表述,并利用語言鏈?zhǔn)酵评韥砩蓻Q策或動作指令。VLA模型能夠在車輛控制前進行語言層面的推理和解釋,使系統(tǒng)兼具快速反射和慢速思考的雙系統(tǒng)。

推理路徑

  1. 世界模型的推理依賴動作條件的內(nèi)在仿真:模型將候選動作注入潛在世界,生成不同未來場景,再用代價函數(shù)或風(fēng)險評價選擇最佳動作。這種推理方式像是在腦海中做實驗,因此非常適合物理世界中的對抗和長期評估。
  2. VLA的推理則依賴語言鏈路:VLA利用大型語言模型的常識和邏輯推理能力,通過自然語言對觀察到的場景進行解釋、制定規(guī)則,然后輸出控制信號。這賦予系統(tǒng)更強的可解釋性,但其物理推理通常依賴外部模塊。。

能力與應(yīng)用

  1. 世界模型著重于長時域、多主體和物理一致性。它可以生成復(fù)雜環(huán)境的長期演化,捕捉稀有事件、他車互動和路況變化,并在潛在空間中形成真實動作反饋。由于這種閉環(huán)特性,世界模型成為評估和優(yōu)化自動駕駛策略的核心,如特斯拉的神經(jīng)世界模擬器通過閉環(huán)仿真生成對抗場景、進行強化學(xué)習(xí)訓(xùn)練。
  2. VLA模型更強調(diào)語義推理與高層交互。它通過語言接口理解自然語言指令、交通規(guī)則和場景描述,具備鏈?zhǔn)剿伎寄芰?。VLA可以利用互聯(lián)網(wǎng)規(guī)模的語言數(shù)據(jù)注入常識,支持復(fù)雜推理和解釋。

“世界模型VS VLA”的路線之爭仍將持續(xù)。世界模型更貼近自動駕駛的物理本質(zhì),VLA則憑借通識能力在長尾場景上具優(yōu)勢。最終的產(chǎn)業(yè)答案,很可能來自兩者的互補與融合。

最近AI領(lǐng)域的先驅(qū)李飛飛發(fā)表長文討論空間智能,她認(rèn)為今天的大語言模型擅長抽象知識處理,但在物理世界上仍像“黑暗中的文字匠”,缺乏對三維環(huán)境、因果與動力學(xué)的扎實理解,難以安全地在現(xiàn)實世界中行動。通過想象、推理、創(chuàng)造與互動來理解世界,而非僅僅依賴語言描述,這正是空間智能的力量。

實現(xiàn)空間智能的答案是“世界模型”,能夠在語義、物理、幾何與動態(tài)等多重復(fù)雜世界(無論虛擬還是現(xiàn)實)中進行理解、推理、生成與交互。

她的觀點再次將世界模型推向AI領(lǐng)域的前沿,無論最終實現(xiàn)自動駕駛的技術(shù)路徑是什么,在通往終點的路上,世界模型一定會留下濃墨重彩的一筆。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
瑞典,挪威,芬蘭北歐三國地處惡劣寒地,經(jīng)濟實力為何如此強大呢

瑞典,挪威,芬蘭北歐三國地處惡劣寒地,經(jīng)濟實力為何如此強大呢

向航說
2025-12-17 00:05:03
15分鐘16+3記三分!火箭僅曬伊森數(shù)據(jù)暗示不滿 休媒盛贊最準(zhǔn)之人

15分鐘16+3記三分!火箭僅曬伊森數(shù)據(jù)暗示不滿 休媒盛贊最準(zhǔn)之人

顏小白的籃球夢
2025-12-22 14:16:09
中超最新消息:李霄鵬離開海牛!16隊有8隊換帥,帶隊奪冠也下課

中超最新消息:李霄鵬離開海牛!16隊有8隊換帥,帶隊奪冠也下課

小火箭愛體育
2025-12-22 18:16:35
南京博物院越扒瓜越大!監(jiān)守自盜僅冰山一角,官方出手大快人心

南京博物院越扒瓜越大!監(jiān)守自盜僅冰山一角,官方出手大快人心

王姐懶人家常菜
2025-12-22 04:29:56
央企“最牛女副處長”落馬:兩年與上司開房410次,細(xì)節(jié)曝光

央企“最牛女副處長”落馬:兩年與上司開房410次,細(xì)節(jié)曝光

西門老爹
2025-12-16 15:35:31
云星業(yè)主拒絕漲價,廣西金瑞物業(yè)宣布撤場

云星業(yè)主拒絕漲價,廣西金瑞物業(yè)宣布撤場

廣西地產(chǎn)
2025-12-22 16:40:07
中國不挽留,美國拒絕接納,身處兩難境地的李嘉誠,撐不住局面了

中國不挽留,美國拒絕接納,身處兩難境地的李嘉誠,撐不住局面了

一個有靈魂的作者
2025-08-27 17:08:06
2026銀行存款大改!存款50萬以上的,這5件事沒弄明白別亂存!

2026銀行存款大改!存款50萬以上的,這5件事沒弄明白別亂存!

今朝牛馬
2025-12-22 15:55:02
江南春買家扒出,90年拿走建館,南博6800元甩賣國際認(rèn)證藏品!

江南春買家扒出,90年拿走建館,南博6800元甩賣國際認(rèn)證藏品!

眼光很亮
2025-12-22 01:57:00
奪冠后卻被開除,每月拿600,如今為法國14次奪冠,已成法國媳婦

奪冠后卻被開除,每月拿600,如今為法國14次奪冠,已成法國媳婦

古木之草記
2025-12-15 14:31:43
中國海南封關(guān),才是新加坡站隊美日一方的真正原因!

中國海南封關(guān),才是新加坡站隊美日一方的真正原因!

南權(quán)先生
2025-12-19 16:34:50
黎智英女兒叫囂,如果她父親能夠獲釋,他會把重心放在家庭上

黎智英女兒叫囂,如果她父親能夠獲釋,他會把重心放在家庭上

百態(tài)人間
2025-12-20 05:25:03
正式上任!劉國梁官宣新身份,這次他讓樊振東和整個乒壇刮目相看

正式上任!劉國梁官宣新身份,這次他讓樊振東和整個乒壇刮目相看

林輕吟
2025-11-26 08:56:02
空降的市長是我爸老部下的兒子,我只是副處長,聚餐時我主動喊大哥

空降的市長是我爸老部下的兒子,我只是副處長,聚餐時我主動喊大哥

張道陵秘話
2025-12-13 22:30:14
亂!U16國足隊長前女友成韓國少年國腳女友 曾爆料盧琦政出軌裸聊

亂!U16國足隊長前女友成韓國少年國腳女友 曾爆料盧琦政出軌裸聊

念洲
2025-12-22 13:44:57
官方:海港助理教練阿洛伊西正式出任浙江隊主帥

官方:海港助理教練阿洛伊西正式出任浙江隊主帥

懂球帝
2025-12-22 15:42:09
你可以不管孩子作業(yè),但請接受“放任”的代價!家長該醒醒了

你可以不管孩子作業(yè),但請接受“放任”的代價!家長該醒醒了

另子維愛讀史
2025-12-22 16:57:52
這個零食,對腎特別好!每天吃幾顆,全身炎癥、癌癥風(fēng)險都降低

這個零食,對腎特別好!每天吃幾顆,全身炎癥、癌癥風(fēng)險都降低

岐黃傳人孫大夫
2025-12-11 09:16:58
女性的矜持:性感隱顯的修辭

女性的矜持:性感隱顯的修辭

疾跑的小蝸牛
2025-12-17 15:48:50
三甲醫(yī)院院士坦言:3種病其實是“福氣”,不用宣稱治療

三甲醫(yī)院院士坦言:3種病其實是“福氣”,不用宣稱治療

橘子約定
2025-12-12 21:59:21
2025-12-22 20:40:49
HiEV incentive-icons
HiEV
新一代智能汽車創(chuàng)新研究平臺
1021文章數(shù) 79關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場 痛批主流機器人技術(shù)大錯

頭條要聞

特朗普任命格陵蘭島特使 特使稱要將格陵蘭島并入美國

頭條要聞

特朗普任命格陵蘭島特使 特使稱要將格陵蘭島并入美國

體育要聞

戴琳,中國足球的反向代言人

娛樂要聞

張柏芝不再隱瞞,三胎生父早有答案?

財經(jīng)要聞

央行信用新政:為失信者提供"糾錯"通道

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

態(tài)度原創(chuàng)

親子
旅游
教育
手機
房產(chǎn)

親子要聞

央視原主持人王小騫曝11歲女兒極端飲食,有類似困擾的還有……

旅游要聞

當(dāng)中國游客集體轉(zhuǎn)身,日本旅游業(yè)的“海嘯”來了

教育要聞

為什么越來越多孩子開始憎惡父母?

手機要聞

vivo S50主攝級長焦與創(chuàng)意Live影像,打破拍攝邊界!

房產(chǎn)要聞

封關(guān)之后!第一波先漲起來的,是海南股市!

無障礙瀏覽 進入關(guān)懷版