国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

并行還是融合?世界模型與 VLA 技術(shù)路線,正在重構(gòu)智能駕駛的未來格局

0
分享至


在智能駕駛技術(shù)加速迭代的當(dāng)下,“智駕平權(quán)” 與 “端到端” 技術(shù)浪潮正推動(dòng)行業(yè)從單點(diǎn)突破向全域進(jìn)化。從智能駕駛行駛業(yè)務(wù)的發(fā)展回溯,到 “端到端” 智駕在多階段的演進(jìn)與技術(shù)路徑分化,行業(yè)已進(jìn)入多元技術(shù)路線并行的關(guān)鍵期。其中,VLA 技術(shù)路線與世界模型技術(shù)路線作為兩大核心技術(shù)方向,各自經(jīng)歷了獨(dú)特的演進(jìn)歷程,既呈現(xiàn)出差異化的核心特征,也面臨著共性與個(gè)性交織的發(fā)展痛點(diǎn)。為深入剖析這兩條技術(shù)路線的發(fā)展脈絡(luò)、核心邏輯與未來趨勢(shì),明晰其對(duì)智能駕駛產(chǎn)業(yè)格局的深遠(yuǎn)影響,本報(bào)告聚焦 “世界模型與 VLA 技術(shù)路線并行發(fā)展” 這一命題,通過梳理二者的演進(jìn)歷程、解構(gòu)核心特征與痛點(diǎn)、研判發(fā)展趨勢(shì),為智能駕駛領(lǐng)域的技術(shù)研發(fā)、產(chǎn)業(yè)決策提供深度洞察與價(jià)值參考。


一、“平權(quán)+端到端”,智能駕駛加速進(jìn)化

1.1 智能駕駛行業(yè)發(fā)展回顧(智能駕駛滲透加速篇)

智能駕駛滲透持續(xù)加快,新能源車銷量與智駕功能構(gòu)建協(xié)同增長閉環(huán)

  • 新能源車的高增長帶動(dòng)智能駕駛快速滲透。中國在全球汽車電動(dòng)化、智能化變革中,是積極的倡導(dǎo)者與關(guān)鍵引領(lǐng)者。近年來,中國新能源汽車市場(chǎng)的銷量與滲透率均呈穩(wěn)步上升趨勢(shì),整體增速超出預(yù)期?;仡?2019 至 2025 年上半年,雖受全球宏觀環(huán)境及周期性因素影響有小幅波動(dòng),但新能源汽車銷量總體保持增長,尤其在 2023 至 2024 年實(shí)現(xiàn)顯著放量,市場(chǎng)份額明顯提升;同時(shí),新能源汽車滲透率從 2019 年的較低水平逐步攀升,先后突破 10%、30%、50% 等關(guān)鍵節(jié)點(diǎn),體現(xiàn)出新能源車型在整體汽車市場(chǎng)中的占比不斷提高。消費(fèi)者對(duì)新能源產(chǎn)品的接受度和認(rèn)知度持續(xù)提升,產(chǎn)業(yè)發(fā)展進(jìn)入加速普及階段。

  • 智能駕駛配套水平隨之同步發(fā)展,與此同時(shí),中國新能源汽車 L2 級(jí)別智能駕駛功能的滲透率也快速提升。從 2019 年約 7% 的水平起步,到 2025 年上半年已升至約 65%,其普及率和性能較技術(shù)革新前的配套應(yīng)用均呈現(xiàn)穩(wěn)步加速的趨勢(shì)。從邏輯層面分析,國內(nèi)新能源汽車銷量與滲透率的提升,以及新能源汽車自身的發(fā)展擴(kuò)張,帶動(dòng)了智駕配套滲透率的上升,這揭示了市場(chǎng)智能化技術(shù)配套的同步發(fā)展進(jìn)程。隨著新能源車保有量持續(xù)增長,車企為增強(qiáng)產(chǎn)品競(jìng)爭(zhēng)力、實(shí)現(xiàn)差異化定位并改善用戶體驗(yàn),越來越多的車型開始標(biāo)配或選配智能駕駛功能。另一方面,消費(fèi)者在購買新能源車后,接觸智能駕駛的機(jī)會(huì)大幅增加,對(duì)智能化功能的認(rèn)知和使用意愿也同步增強(qiáng),形成了自下而上的市場(chǎng)反饋機(jī)制。


1.1 智能駕駛行業(yè)發(fā)展回顧(產(chǎn)業(yè)規(guī)模擴(kuò)張篇)

智能駕駛產(chǎn)業(yè)規(guī)模持續(xù)擴(kuò)大,價(jià)值鏈環(huán)節(jié)協(xié)同增速,創(chuàng)新活力加速釋放智能駕駛市場(chǎng)擴(kuò)張勢(shì)頭迅猛,增長動(dòng)能持續(xù)釋放。

  • 智能駕駛所驅(qū)動(dòng)的市場(chǎng)發(fā)展空間正不斷拓展。在汽車產(chǎn)業(yè)智能化與電動(dòng)化深度融合的背景下,2024 年我國智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)規(guī)模已增至 11082 億元,同比增長 34%,且展現(xiàn)出顯著的增長彈性與外溢效益。隨著車輛智能化滲透率持續(xù)提高、產(chǎn)業(yè)鏈各環(huán)節(jié)技術(shù)協(xié)同不斷深化,智能化市場(chǎng)正處于由需求牽引和供給共同驅(qū)動(dòng)的雙輪增長階段。從中長期趨勢(shì)判斷,產(chǎn)業(yè)發(fā)展并非線性,隨著汽車平臺(tái)升級(jí)以及多元化場(chǎng)景的持續(xù)拓展,預(yù)計(jì)到 2030 年,產(chǎn)業(yè)規(guī)模有望突破 5 萬億元,產(chǎn)業(yè)鏈上下游將進(jìn)一步深化分工與協(xié)作,行業(yè)競(jìng)爭(zhēng)格局也將加速重塑。

  • 形成有價(jià)值的循環(huán)閉環(huán),功能模塊遞進(jìn)清晰。從產(chǎn)業(yè)化生態(tài)來看,智能駕駛的價(jià)值鏈已逐漸清晰,核心能力圍繞 “聯(lián)網(wǎng) — 感知 — 執(zhí)行 — 決策” 四大功能模塊有序構(gòu)建:聯(lián)網(wǎng)模塊為數(shù)據(jù)交互提供基礎(chǔ)支撐;感知模塊借助多模態(tài)傳感器實(shí)現(xiàn)高精度的環(huán)境識(shí)別;執(zhí)行模塊負(fù)責(zé)車輛控制和反饋響應(yīng);決策模塊則基于算法與算力平臺(tái)完成復(fù)雜場(chǎng)景下的路徑規(guī)劃和智能調(diào)度。隨著整車智能化程度的不斷提升,這一生態(tài)結(jié)構(gòu)呈現(xiàn)出從協(xié)同性向耦合性發(fā)展的趨勢(shì),為后續(xù)技術(shù)落地和商業(yè)模式創(chuàng)新奠定了基礎(chǔ)。

  • 產(chǎn)業(yè)主體持續(xù)擴(kuò)容,技術(shù)創(chuàng)新活力不斷提升。截至 2025 年 6 月,受益于技術(shù)成熟度逐步提高、政策環(huán)境持續(xù)優(yōu)化、商業(yè)應(yīng)用路徑日益清晰,我國智能駕駛產(chǎn)業(yè)主體數(shù)量快速增長,注冊(cè)相關(guān)企業(yè)已超過 7000 家,這些企業(yè)分布在芯片研發(fā)、傳感器制造、軟件算法設(shè)計(jì)、整車集成及出行服務(wù)等多個(gè)關(guān)鍵領(lǐng)域,形成了較為完整的產(chǎn)業(yè)鏈條。在行業(yè)競(jìng)爭(zhēng)日益激烈的同時(shí),研發(fā)投入強(qiáng)度同步加大,各類企業(yè)紛紛加快智能駕駛核心技術(shù)布局,力求在技術(shù)架構(gòu)、產(chǎn)品能力和商業(yè)模式上實(shí)現(xiàn)差異化突破。產(chǎn)業(yè)創(chuàng)新活力持續(xù)迸發(fā),推動(dòng)行業(yè)整體向更高技術(shù)水平、更豐富應(yīng)用場(chǎng)景演進(jìn)。


1.2 智駕沿 “端到端”、“智駕平權(quán)” 加速邁進(jìn)(2024 關(guān)鍵詞篇)

回顧 2024 年以來智能駕駛的兩大關(guān)鍵詞:端到端、智駕平權(quán)

  • 端到端:2024 年 3 月特斯拉率先推出 “端到端” 智駕方案后,國內(nèi)造車新勢(shì)力迅速跟進(jìn),掀起技術(shù)架構(gòu)革新熱潮。小鵬汽車在 “520 AIDAY” 發(fā)布會(huì)上宣布,其國內(nèi)首個(gè) “端到端” 大模型已實(shí)現(xiàn)量產(chǎn)裝車;同年 7 月,理想汽車進(jìn)一步發(fā)布基于 “端到端” 模型、VLM 視覺語言模型與世界模型的全新自動(dòng)駕駛技術(shù)架構(gòu),加速高階智駕技術(shù)的落地。端到端技術(shù)在感知、決策與控制全鏈路中,顯著減少了傳統(tǒng)分區(qū)分治模式下高價(jià)高功耗的運(yùn)算環(huán)節(jié),實(shí)現(xiàn)了更高效的場(chǎng)景泛化與模型學(xué)習(xí)能力。這一架構(gòu)的快速推廣,有效降低了車企在算法開發(fā)及部署與控制閉環(huán)構(gòu)建的門檻,使得城區(qū) NOA 等高階智駕功能得以低成本加速落地。受此推動(dòng),高階智駕(L2 及以上)功能普及率從 2025 年 1 - 4 月的 11.8% 躍升至同期的 18.6%。

  • 智駕平權(quán):比亞迪、吉利、奇瑞、長安等四大自主車企陸續(xù)推出重磅智能駕駛方案,在實(shí)現(xiàn)技術(shù)突破的同時(shí),進(jìn)一步拉低了智能駕駛的價(jià)值門檻,加速 “智駕平權(quán)” 進(jìn)程。例如,比亞迪秦 PLUS 智駕版(11.98 萬元)已配備高速 NOA 功能;吉利銀河 E8 插混版(18 萬元)實(shí)現(xiàn)了 “車端到車位” 全場(chǎng)景自主功能的加速落地。與造車新勢(shì)力主要聚焦中高端車型不同,自主車企通過規(guī)?;a(chǎn)、供應(yīng)鏈整合及自研芯片等路徑,推動(dòng)智能駕駛技術(shù)的價(jià)格下探與普惠普及。其中長期目標(biāo)明確:在 10 萬元級(jí)別車型上實(shí)現(xiàn)高速 NOA 的全面標(biāo)配。隨著這一戰(zhàn)略的推進(jìn),中高階智駕(高速 NOA)搭載率從 2024 年 1 - 4 月的 11.8% 提升至 2025 年同期的 18.6%,市場(chǎng)覆蓋范圍持續(xù)擴(kuò)大。


1.2 智駕沿 “端到端”、“智駕平權(quán)” 加速邁進(jìn)(城市 NOA 滲透篇)

城市 NOA(L2+)已成為 20 萬元以上產(chǎn)品 “必配配置”,并滲透至 15 - 20 萬元區(qū)間

  • 中價(jià)位段智駕滲透速度加快,競(jìng)爭(zhēng)加速向低端市場(chǎng)下沉。根據(jù) NE 時(shí)代新能源數(shù)據(jù),2024 年第一季度,20 - 30 萬元價(jià)位段汽車的 L2 + 智能駕駛功能搭載率僅為 25.15%;到 2025 年 4 - 5 月,該數(shù)值已升至 47.1%,實(shí)現(xiàn)了近乎翻倍的增長。搭載率的快速提升,表明城區(qū) NOA 正進(jìn)入大規(guī)模普及階段,20 - 25 萬元價(jià)位段逐漸成為車企在智駕功能配備上競(jìng)爭(zhēng)的關(guān)鍵區(qū)間。相較于此前對(duì)高端市場(chǎng)的過高預(yù)期,中端市場(chǎng)的動(dòng)態(tài)滲透不僅釋放了更大的消費(fèi)潛力,也推動(dòng)了技術(shù)落地成本的進(jìn)一步降低。

  • 智駕功能價(jià)格下探趨勢(shì)仍將持續(xù),中低端市場(chǎng)加速滲透。智駕功能成本的持續(xù)下降,為市場(chǎng)擴(kuò)張?zhí)峁┝酥匾?。搭載高階智駕功能(城區(qū) NOA)的車輛在保持售價(jià)下探的同時(shí),車企將智駕滲透率拓展至 15 萬元左右的車型,降低了消費(fèi)者的進(jìn)入門檻,推動(dòng)智能駕駛的 “科技平權(quán)” 進(jìn)程。進(jìn)入 2025 年后,隨著小鵬、比亞迪等車企加大在中低價(jià)位車型的智能駕駛投入,10 - 20 萬元價(jià)位段汽車的城市 NOA 搭載率快速上升,技術(shù)普及節(jié)奏明顯加快,市場(chǎng)覆蓋范圍持續(xù)擴(kuò)大。


二、端到端智能駕駛復(fù)盤


2.1 端到端智能駕駛演進(jìn)歷程

當(dāng)前,端到端自動(dòng)駕駛架構(gòu)的演進(jìn)可劃分為四個(gè)主要階段:

  • 第一階段:感知 “端到端”/“BEV+ transformer”(2021 年由特斯拉提出):自動(dòng)駕駛架構(gòu)被拆解為感知與預(yù)測(cè)決策規(guī)劃兩大模塊。感知模塊借助多傳感器融合的 BEV 技術(shù)實(shí)現(xiàn)模塊級(jí) “端到端”,引入 transformer 與 crossattention 方案,顯著提升檢測(cè)精度與穩(wěn)定性,而規(guī)劃決策模塊仍以傳統(tǒng)的 Rule-based 方法為主導(dǎo)。

  • 第二階段:決策規(guī)劃模型化 /“占用網(wǎng)絡(luò)”(2022 年由特斯拉提出):架構(gòu)模塊組成保持不變,感知端延續(xù)上一代的解決方案。預(yù)測(cè)決策規(guī)劃模塊迎來重大革新,將預(yù)測(cè)、決策、規(guī)劃功能整合到同一神經(jīng)網(wǎng)絡(luò)。盡管感知與決策規(guī)劃均采用深度學(xué)習(xí),但模塊間的接口仍依據(jù)人類理解定義,各模塊依舊獨(dú)立訓(xùn)練。

  • 第三階段:功能模塊化全網(wǎng)絡(luò)一統(tǒng)式回路:(感知、決策、規(guī)劃深度運(yùn)用學(xué)習(xí))整體結(jié)構(gòu)與上一階段相似,但網(wǎng)絡(luò)結(jié)構(gòu)細(xì)節(jié)和訓(xùn)練方案卻有很大不同。感知模塊不再輸出人類可理解的結(jié)果,轉(zhuǎn)而輸出特征向量,預(yù)測(cè)決策規(guī)劃模塊依據(jù)該向量生成運(yùn)動(dòng)規(guī)劃。由于兩模塊輸出形式發(fā)生變化,訓(xùn)練時(shí)必須通過梯度傳導(dǎo),實(shí)現(xiàn)跨模塊聯(lián)合訓(xùn)練。

  • 第四階段:OneModel / 一體式端到端:可基于強(qiáng)化學(xué)習(xí)、Mononit(當(dāng)前應(yīng)用方向)實(shí)現(xiàn)。此階段打破了感知、決策規(guī)劃等功能的界限,從原始信號(hào)輸入到最終規(guī)劃軌跡輸出,全程由單一深度學(xué)習(xí)模型完成。OneModel 可基于新型技術(shù)、理想方案或模仿學(xué)習(xí)實(shí)現(xiàn),也可從專家發(fā)力方向入手。


2.2 端到端智能駕駛第一階段(技術(shù)定義篇)

第一階段:感知 “端到端”/“BEV+ transformer”

  • 定義:BEV(Bird’s Eye View,鳥瞰圖視角)是在自動(dòng)駕駛多攝像頭與多模態(tài)融合的背景下形成的一種關(guān)鍵視角表達(dá)方式。其核心思路是將傳統(tǒng)基于 2D 圖像與測(cè)距的信息整合到采集的 3D 場(chǎng)景框架中。在此過程中,如何高效融合來自不同傳感器(如攝像頭、毫米波雷達(dá)、激光雷達(dá)等)的特征信息,實(shí)現(xiàn)最優(yōu)化的表達(dá)與空間映射,是技術(shù)實(shí)現(xiàn)的重點(diǎn)與難點(diǎn)。

  • Transformer 是另一項(xiàng)推動(dòng)智能駕駛感知能力快速發(fā)展的核心技術(shù)。它是一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由谷歌于 2017 年提出。與傳統(tǒng)的 RNN、CNN 不同,Transformer 不依賴串行數(shù)據(jù)處理,而是通過注意力機(jī)制挖掘序列中不同元素的關(guān)聯(lián)關(guān)系,具備出色的特征提取與長依賴建模能力。這一特性使得 Transformer 能夠在智能駕駛的不同架構(gòu)與不同結(jié)構(gòu)的輸入信號(hào)中,在多傳感器融合和環(huán)境建模方面展現(xiàn)出顯著優(yōu)勢(shì)。

  • 在感知端技術(shù)模塊中,感知端的端到端是最早應(yīng)用端到端方法的,也是實(shí)現(xiàn)自動(dòng)駕駛能力提升的關(guān)鍵部分。在早期的智能駕駛系統(tǒng)中,端到端技術(shù)主要集中在感知層,用于高效、實(shí)時(shí)地提取并融合環(huán)境信息。隨著算法和算力的持續(xù)發(fā)展,決策規(guī)劃等后端模塊也開始逐步引入端到端方法,推動(dòng)整體架構(gòu)從分層式向一體化方向發(fā)展。


2.2 端到端智能駕駛第一階段(技術(shù)影響篇)

第一階段:感知 “端到端”/“BEV+ transformer” 帶來的影響

  • 實(shí)現(xiàn)全面視野覆蓋,顯著增強(qiáng)環(huán)境感知能力。BEV 感知通過融合車輛各方向的多類型傳感器數(shù)據(jù)(包括毫米波雷達(dá)、攝像頭、激光雷達(dá)等),形成 360° 全方位、無死角的感知視野。這種全局視角突破了單一傳感器的局限性,使車輛在復(fù)雜路況下能獲取更完整的環(huán)境信息,不僅對(duì)周邊目標(biāo)的識(shí)別更清晰,還能提前感知潛在風(fēng)險(xiǎn),提高駕駛系統(tǒng)的環(huán)境適應(yīng)精度與響應(yīng)速度。

  • 簡(jiǎn)化決策路徑,提升系統(tǒng)運(yùn)行效率。通過將 3D 場(chǎng)景表征統(tǒng)一映射到 2D 平面,BEV 技術(shù)有效降低了數(shù)據(jù)處理的復(fù)雜度,顯著減少了傳統(tǒng)感知到?jīng)Q策規(guī)劃的中間轉(zhuǎn)換環(huán)節(jié)。這種信息表達(dá)方式讓路徑規(guī)劃、障礙物識(shí)別與避讓、車輛行為預(yù)測(cè)等決策過程更直接、高效。結(jié)合 Transformer 的注意力機(jī)制,系統(tǒng)可對(duì)關(guān)鍵區(qū)域進(jìn)行聚焦處理,實(shí)現(xiàn)更靈活、更精準(zhǔn)的動(dòng)態(tài)決策能力,為端到端架構(gòu)在實(shí)際駕駛場(chǎng)景中的落地奠定了基礎(chǔ)。

  • 提升定位精度,強(qiáng)化復(fù)雜交通場(chǎng)景適應(yīng)能力。BEV 感知能幫助自動(dòng)駕駛系統(tǒng)更準(zhǔn)確地估計(jì)自身與周圍車輛、行人及障礙物的相對(duì)位置,尤其在城市道路、十字路口、交通高峰等復(fù)雜場(chǎng)景中優(yōu)勢(shì)明顯。這種高精度空間感知能力提升了系統(tǒng)在動(dòng)態(tài)環(huán)境下的穩(wěn)定性與魯棒性,也為高階智能駕駛功能(如城區(qū) NOA)提供了必要的技術(shù)支撐。

  • 技術(shù)進(jìn)步與標(biāo)準(zhǔn)化加速產(chǎn)業(yè)成熟進(jìn)程。同時(shí),隨著深度學(xué)習(xí)算法持續(xù)迭代、芯片算力大幅提升,BEV 感知算法在精度、效率和泛化能力上進(jìn)一步提升,可處理更復(fù)雜的交通環(huán)境和更大規(guī)模的數(shù)據(jù)流。未來,數(shù)據(jù)融合技術(shù)將成為研究重點(diǎn),如何在多模態(tài)傳感器的異構(gòu)數(shù)據(jù)間實(shí)現(xiàn)高效融合,是提高系統(tǒng)魯棒性和精確性的關(guān)鍵。


2.3 端到端智能駕駛第二階段(技術(shù)定義篇)

第二階段:決策規(guī)劃模型化 /“占用網(wǎng)絡(luò)”

  • 占用網(wǎng)絡(luò)重塑環(huán)境感知,夯實(shí)智能駕駛基礎(chǔ)能力。占用網(wǎng)絡(luò)(Occupancy Network)是自動(dòng)駕駛 “環(huán)境感知” 環(huán)節(jié)的重要底層技術(shù),其核心思路是通過對(duì)三維空間進(jìn)行體素級(jí)劃分與占用預(yù)測(cè),構(gòu)建更高精度的全場(chǎng)景環(huán)境表征。與傳統(tǒng)感知方法相比,占用網(wǎng)絡(luò)能有效彌補(bǔ)在 “遮擋處理”“形狀描述建模”“全局環(huán)境認(rèn)知” 等方面的不足,為后續(xù)的路徑規(guī)劃和行為決策提供更完整、更穩(wěn)定的環(huán)境輸入。隨著算力持續(xù)提升與網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化(如動(dòng)態(tài)體素、稀疏卷積等),占用網(wǎng)絡(luò)正逐漸成為高階智能駕駛系統(tǒng)中的關(guān)鍵模塊,尤其適用于結(jié)構(gòu)復(fù)雜、目標(biāo)密集的城市道路場(chǎng)景。

  • 體素級(jí)空間建模提升環(huán)境感知能力。從本質(zhì)上看,Occupancy Network 算法是一種 3D 空間分割任務(wù)。它通過將待感知的三維空間劃分為固定大小的體素網(wǎng)格,利用目標(biāo)預(yù)測(cè)每個(gè)體素被目標(biāo)類別占用的概率,實(shí)現(xiàn)對(duì)全場(chǎng)景的空間建模。這種方法不僅可以精確刻畫已知的車輛、行人等目標(biāo),還能識(shí)別數(shù)據(jù)中未被標(biāo)注的 “泛目標(biāo)”(如土墩、石塊等),從而實(shí)現(xiàn)開放場(chǎng)景的目標(biāo)檢測(cè),提升系統(tǒng)的環(huán)境理解力。同時(shí),與直接輸出 3D 目標(biāo)的算法相比,占用網(wǎng)絡(luò)能對(duì)空間中的每個(gè)體素單元進(jìn)行建模,因此對(duì)于不規(guī)則形狀或邊緣模糊的目標(biāo),可通過更豐富的幾何細(xì)節(jié)和結(jié)構(gòu)信息增強(qiáng)整體環(huán)境表達(dá)能力。

  • 占用網(wǎng)絡(luò)強(qiáng)化三維建模,優(yōu)于傳統(tǒng) BEV 方法。與 BEV 方法相比,占用網(wǎng)絡(luò)的顯著優(yōu)勢(shì)體現(xiàn)在目標(biāo)表示方式上。BEV 采用二維平面投影,易丟失高度信息與空間結(jié)構(gòu)特征;而占用網(wǎng)絡(luò)基于三維體素化網(wǎng)格,將物體分解為大量小立方體單元,能更準(zhǔn)確地刻畫形狀特征,環(huán)境還原更接近真實(shí)。占用預(yù)測(cè)本身可與 BEV 結(jié)合 —— 通過將體素化特征映射到鳥瞰圖,在實(shí)現(xiàn)完整空間信息的同時(shí)增強(qiáng)可用性。體素感知使環(huán)境更直觀可查,場(chǎng)景還原也更接近真實(shí)。


2.3 端到端智能駕駛第二階段(技術(shù)影響篇)

第二階段:決策規(guī)劃模型化 /“占用網(wǎng)絡(luò)” 帶來的影響

  • 占用網(wǎng)絡(luò)強(qiáng)化識(shí)別能力,夯實(shí)自動(dòng)駕駛安全根基。研究占用網(wǎng)絡(luò)對(duì)強(qiáng)化自動(dòng)駕駛系統(tǒng)的環(huán)境感知能力具有深遠(yuǎn)的戰(zhàn)略意義。一方面,通過對(duì)場(chǎng)景三維占用率的深入分析,系統(tǒng)能更精確地識(shí)別前景目標(biāo)的位置、形狀與姿態(tài),有效降低因目標(biāo)識(shí)別偏差帶來的潛在安全風(fēng)險(xiǎn)。例如,在城市道路或拱橋等交通環(huán)境中,占用網(wǎng)絡(luò)可顯著提升對(duì)復(fù)雜三維特征(如異形車輛、不規(guī)則路障、非標(biāo)準(zhǔn)結(jié)構(gòu)涵洞等)的識(shí)別精度,為車輛提供更具置信度的區(qū)分與理解能力,減少背景誤識(shí)帶來的冗余干擾。當(dāng)前,特斯拉、Waymo、百度 Apollo 等頭部研發(fā)團(tuán)隊(duì)正探索更高效的 BEV-Occupancy Network 感知與融合方案,以在真實(shí)道路環(huán)境中實(shí)現(xiàn)更高的識(shí)別精度與動(dòng)態(tài)場(chǎng)景適應(yīng)能力,這一方向被視為推動(dòng)高級(jí)別智能駕駛發(fā)展的重要突破口之一。

  • 另一方面,三維占用率的預(yù)測(cè)不僅有助于提升目標(biāo)檢測(cè)的準(zhǔn)確性,還能增強(qiáng)系統(tǒng)對(duì)背景環(huán)境的區(qū)分與理解能力,減少背景誤識(shí)別帶來的冗余干擾。當(dāng)前,特斯拉、Waymo、百度 Apollo 等頭部研發(fā)團(tuán)隊(duì)正探索更高效的 BEV-Occupancy Network 感知與融合方案,以在真實(shí)道路環(huán)境中實(shí)現(xiàn)更高的識(shí)別精度與動(dòng)態(tài)場(chǎng)景適應(yīng)能力,這一方向被視為高級(jí)別智能駕駛發(fā)展的重要標(biāo)桿之一。

  • 此外,占用網(wǎng)絡(luò)對(duì)場(chǎng)景檢測(cè)的賦能也十分顯著。借助對(duì)全三維場(chǎng)景的精確刻畫,車輛可實(shí)現(xiàn)更細(xì)致、更靈活的路徑規(guī)劃策略,尤其在多車交匯、動(dòng)態(tài)障礙物復(fù)雜變道等困難場(chǎng)景下,展現(xiàn)出更強(qiáng)的環(huán)境適應(yīng)能力。為全面提升性能,面對(duì)多樣化且不確定性較高的交通環(huán)境,占用網(wǎng)絡(luò)的引入顯著增強(qiáng)了自動(dòng)駕駛系統(tǒng)的魯棒性與穩(wěn)定性,使其在積水、雨雪、施工區(qū)域等復(fù)雜工況下仍能保持可靠的感知與決策性能。這類能力對(duì)于真正實(shí)現(xiàn) L4/L5 級(jí)自動(dòng)駕駛至關(guān)重要,也被視為高階智駕量產(chǎn)落地的關(guān)鍵技術(shù)基礎(chǔ)。


2.4 端到端智能駕駛第三及第四階段

第三及第四階段:OneModel / 模塊化端到端

  • 模塊化端到端(OneModel)通過深度學(xué)習(xí)將傳統(tǒng) “感知 — 規(guī)劃 — 控制” 流程統(tǒng)一映射到單一模型中,減少因任務(wù)分解產(chǎn)生的累積誤差,實(shí)現(xiàn)整體優(yōu)化。目前,特斯拉、Wayve、百度 Apollo、小鵬等企業(yè)均在加速布局相關(guān)技術(shù)路徑,這一方向正成為高階智能駕駛的重要演進(jìn)路線。

  • 技術(shù)原理上,一般端到端模型通常包含四大核心模塊:(1)感知編碼器:基于 CNN 或 VIT 提取攝像頭、激光雷達(dá)、毫米波雷達(dá)等傳感器的多尺度特征;(2)環(huán)境理解模塊:通過時(shí)序建模(RNN、時(shí)間卷積、Temporal Attention)融合多模態(tài)信息,識(shí)別動(dòng)態(tài)目標(biāo)、道路結(jié)構(gòu)與交通信號(hào);(3)決策預(yù)測(cè)層:輸出減速趨勢(shì)、變道意圖、轉(zhuǎn)向方向等駕駛決策;(4)控制生成器:將決策結(jié)果轉(zhuǎn)化為執(zhí)行信號(hào),實(shí)現(xiàn)車輛實(shí)時(shí)響應(yīng)。

  • 架構(gòu)類型主要分為兩類:可解釋端到端(模塊化控制):在端到端框架下保留中間感知或預(yù)測(cè)模塊輸出,兼顧可調(diào)試性與安全性,Wayve、小鵬等多采用此類架構(gòu);黑盒端到端(One Model):直接輸出軌跡或控制信號(hào),以特斯拉 FSD 為代表,技術(shù)上極度簡(jiǎn)化但可解釋性和調(diào)用可預(yù)見性較弱。


2.4 端到端智能駕駛第三及第四階段

第三及第四階段:OneModel / 模塊化端到端技術(shù)的影響,主要體現(xiàn)在三方面

  • 數(shù)據(jù)驅(qū)動(dòng)是端到端自動(dòng)駕駛的核心支撐:端到端自動(dòng)駕駛系統(tǒng)可分為強(qiáng)化學(xué)習(xí)與模仿學(xué)習(xí)兩類。強(qiáng)化學(xué)習(xí)依賴數(shù)百萬級(jí)樣本訓(xùn)練,讓算法自主學(xué)習(xí)駕駛策略,對(duì)數(shù)據(jù)規(guī)模和算力要求極高;模仿學(xué)習(xí)則通過大規(guī)模標(biāo)注數(shù)據(jù)與離線仿真,使算法快速復(fù)刻人類駕駛經(jīng)驗(yàn),更適配量產(chǎn)場(chǎng)景的快速迭代。

  • 大規(guī)模數(shù)據(jù)與云端依賴構(gòu)筑技術(shù)壁壘:端到端技術(shù)以數(shù)據(jù)為核心,需通過海量標(biāo)注或無標(biāo)注數(shù)據(jù)構(gòu)建完整環(huán)境表征。尤其在高階智能駕駛場(chǎng)景中,云端訓(xùn)練因能處理超大規(guī)模數(shù)據(jù)成為關(guān)鍵環(huán)節(jié)。數(shù)據(jù)體量、算力資源與云端訓(xùn)練架構(gòu)共同構(gòu)成企業(yè)技術(shù)護(hù)城河,盡管端到端技術(shù)上限高、優(yōu)化潛力大,但中心式系統(tǒng)也使其面臨算力與數(shù)據(jù)的持續(xù)投入壓力。

  • 數(shù)據(jù)成為智能駕駛行業(yè)的核心競(jìng)爭(zhēng)資產(chǎn):智能網(wǎng)聯(lián)汽車時(shí)代,數(shù)據(jù)是融合感知、決策、用戶體驗(yàn)的關(guān)鍵紐帶。車企通過傳感器矩陣與云端構(gòu)建數(shù)據(jù)閉環(huán),數(shù)據(jù)的規(guī)模與質(zhì)量直接決定智能駕駛能力的上限。智能駕駛的技術(shù)進(jìn)步,本質(zhì)是 “數(shù)據(jù) — 算法 — 算力” 的循環(huán)迭代,優(yōu)質(zhì)數(shù)據(jù)閉環(huán)已成為車企競(jìng)爭(zhēng)的核心壁壘。


2.5 端到端智能駕駛已分化出兩種核心路徑

當(dāng)前智能駕駛技術(shù)格局已明確分化為VLA與世界模型兩條核心演進(jìn)路徑:

  • 2024 年夏季以來,端到端(End-to-End)智能駕駛技術(shù)從 2023 年的 “單一路線主導(dǎo)”,發(fā)展為雙路徑并行的新格局。第一條路徑以 “視覺 — 語言 — 行為”(Vision-Language-Action,VLA)技術(shù)為核心,強(qiáng)調(diào)多模態(tài)信息的深度融合;第二條路徑聚焦物理級(jí)環(huán)境建模能力,即世界模型(World Model) 路線,其核心并非 “單一感知鏈路”,而是通過多組件并行實(shí)現(xiàn)對(duì)環(huán)境的全局理解與動(dòng)態(tài)決策。

  • VLA 路徑:短期落地速度快,技術(shù)架構(gòu)呈現(xiàn) “感知 — 決策 — 控制” 的強(qiáng)邏輯鏈條,可拆解為四步:先通過圖像傳感器完成環(huán)境感知并生成符合人類視覺邏輯的特征;再將特征轉(zhuǎn)化為語言類 Token(如 “前方 50 米有靜止車輛,需變道至相鄰車道”);接著由大模型基于語言 Token 進(jìn)行推理;最終將推理結(jié)果轉(zhuǎn)化為車輛執(zhí)行信號(hào),全程依賴數(shù)據(jù)驅(qū)動(dòng)與大模型的泛化能力。

  • 世界模型路徑:與 VLA 的 “語言中介” 邏輯不同,它通過對(duì)物理環(huán)境的直接建模輸出決策。例如將攝像頭、激光雷達(dá)等多源感知數(shù)據(jù)輸入大模型,在云端完成物理規(guī)律建模(如車輛、行人運(yùn)動(dòng)軌跡預(yù)測(cè)),再結(jié)合車端實(shí)時(shí)感知數(shù)據(jù),形成 “云端世界引擎 + 車端世界行為模型” 的架構(gòu),更側(cè)重對(duì)物理場(chǎng)景的深層理解與動(dòng)態(tài)預(yù)測(cè)。


三、VLA技術(shù)路線

3.1 VLA 技術(shù)路線演進(jìn)歷程

驅(qū)動(dòng)自動(dòng)駕駛范式變革的核心力量

  • VLA 模型的快速發(fā)展正成為智能駕駛與通用機(jī)器人領(lǐng)域范式革新的核心動(dòng)力。Vision-Language-Action(VLA)模型融合視覺(Vision)、語言(Language)與動(dòng)作(Action)三大模態(tài),構(gòu)建統(tǒng)一的多模態(tài)表征與訓(xùn)練框架,可將 “感知 — 理解 — 決策 — 控制” 的三階邏輯直接整合,實(shí)現(xiàn)感知、決策、控制的一體化。相較于傳統(tǒng) “模塊化 / 兩段式端到端” 技術(shù)路線,VLA 的核心優(yōu)勢(shì)在于多模態(tài)信息的深度融合,減少了中間信息丟失與人工規(guī)則依賴,成為感知、語義、決策與控制的統(tǒng)一載體;同時(shí)具備長時(shí)序記憶與跨場(chǎng)景泛化能力,是通用機(jī)器人與自動(dòng)駕駛技術(shù)融合的關(guān)鍵基礎(chǔ)。

  • 從發(fā)展階段看,2023 年 7 月,關(guān)鍵論文《Mind the GAP》將 VLA 框架引入自動(dòng)駕駛領(lǐng)域,通過融合大語言模型與多模態(tài)數(shù)據(jù)訓(xùn)練,實(shí)現(xiàn)了任務(wù)理解與執(zhí)行能力的顯著躍升,驗(yàn)證了語言與動(dòng)作深度融合的技術(shù)有效性,為智能駕駛技術(shù)路線的演進(jìn)指明了方向。近期,學(xué)術(shù)界將 VLA 發(fā)展劃分為 Pre-VLA、Modular VLA、End-to-End VLA 與 Augmented VLA 四個(gè)階段,清晰梳理了其技術(shù)特征與演進(jìn)脈絡(luò),為產(chǎn)業(yè)落地提供了明確指引。


3.1 VLA 技術(shù)路線演進(jìn)歷程

在 VLA 技術(shù)的量產(chǎn)落地進(jìn)程中,小鵬與理想成為行業(yè)標(biāo)桿

  • 技術(shù)路徑差異:2024 年 6 月,小鵬汽車在 G7 車型發(fā)布會(huì)上宣布 VLA 技術(shù)量產(chǎn)上車,7 月 29 日發(fā)布完整技術(shù)方案,其創(chuàng)始人將傳統(tǒng)端到端與 VLA 的區(qū)別類比為 “小腦” 與 “大腦”—— 傳統(tǒng)方案依賴 “運(yùn)動(dòng)小腦” 實(shí)現(xiàn)單一動(dòng)作決策,VLA 則通過 “語言與世界模型” 實(shí)現(xiàn) “大腦級(jí)” 的全局理解與決策。同期,理想汽車采取 “云端強(qiáng)化學(xué)習(xí) + 端側(cè)模型蒸餾” 路徑:先在云端完成大模型強(qiáng)化學(xué)習(xí),再將輕量化模型部署至車端,體現(xiàn)出企業(yè)在模型規(guī)模、數(shù)據(jù)閉環(huán)與推理效率上的技術(shù)取舍差異。

  • 工程化訓(xùn)練進(jìn)展:小鵬汽車于 2025 年 5 月完成工廠化訓(xùn)練體系搭建,VLA 技術(shù)加速驅(qū)動(dòng)智能駕駛能力迭代。在數(shù)據(jù)與模型優(yōu)化上,小鵬實(shí)現(xiàn)了 “物理化 VLA 小模型” 與 “邏輯上分解的大模型” 協(xié)同訓(xùn)練;理想汽車則同步推進(jìn)三大訓(xùn)練場(chǎng)景:車云同訓(xùn)聚焦復(fù)雜場(chǎng)景,車端單卡訓(xùn)練實(shí)現(xiàn)多場(chǎng)景覆蓋,小模型系統(tǒng)適配更多車型。隨著 VLA 部署的標(biāo)準(zhǔn)化與工程化,端到端自動(dòng)駕駛在實(shí)際場(chǎng)景中的環(huán)境理解力、動(dòng)作生成能力與泛化性將顯著提升,行業(yè)智能化曲線加速邁進(jìn)。


3.1 VLA 技術(shù)路線:頭部玩家與代表方案

  • 小米 ORION:屬于典型的三段式 VLA 架構(gòu),由 QT-Former、大語言模型(LLM)及生成式規(guī)劃器組成。流程為:先通過視覺編碼器對(duì)圖像進(jìn)行編碼;再由 QT-Former 實(shí)現(xiàn)前后文關(guān)聯(lián),連接視覺空間與 LLM 的多模態(tài)語義空間;最后由 LLM 整合場(chǎng)景特征、歷史視覺信息、用戶指令等多源信息,預(yù)測(cè)并輸出合理的駕駛規(guī)劃與控制信號(hào)。

  • 理想 MindVLA:是理想汽車自研的自動(dòng)駕駛大模型,融合視覺、語言與行為智能,采用 3D 高維表征模塊與云端統(tǒng)一世界模型架構(gòu),具備對(duì)復(fù)雜交通標(biāo)志的強(qiáng)識(shí)別能力。技術(shù)上基于 “視覺 - 語言 - 行為” 融合模型(VLM),包含三維空間編碼器、自聽 MSE 建模模塊及擴(kuò)散模型軌跡優(yōu)化模塊,可通過多模態(tài)自然語言交互實(shí)現(xiàn)高效人機(jī)溝通。

  • Waymo EMA:屬于模型驅(qū)動(dòng)型方案,由編碼器與大語言模型構(gòu)成。感知部分通過 EMA Gemini 大語言模型處理圖像、圖像描述等多源信息,再將多模態(tài)內(nèi)容整合為統(tǒng)一語言框架,同時(shí)完成駕駛決策、場(chǎng)景理解等多任務(wù),兼顧駕駛安全性與場(chǎng)景泛化能力。

  • 小鵬 XNGP VLA:聚焦 “去強(qiáng)依賴化 + 端側(cè)適配”,強(qiáng)調(diào)通過閉環(huán)體系實(shí)現(xiàn)大模型工程化落地。感知端采用多模態(tài)傳感器融合技術(shù),構(gòu)建環(huán)境三維語義;決策端通過多模態(tài)大模型實(shí)現(xiàn)環(huán)境理解;控制端將端側(cè) VLA 模型與車輛控制系統(tǒng)深度耦合,形成 “感知 — 認(rèn)知 — 行動(dòng)” 一體化閉環(huán),兼顧端側(cè)推理速度與實(shí)時(shí)性。


3.2 VLA 技術(shù)路線核心特征與當(dāng)下痛點(diǎn):

VLA 技術(shù)落地依賴3D 中間表征、長時(shí)序記憶、多模態(tài)融合三大關(guān)鍵抓手:

  • 3D 中間表征:實(shí)現(xiàn) “感知 — 決策 — 控制” 的一體化。VLA 在車端與云端的高效運(yùn)行依賴精準(zhǔn)的 3D 中間表征,它是連接感知層與決策層的抽象載體,不僅能呈現(xiàn)場(chǎng)景的語義、結(jié)構(gòu)、空間關(guān)系,還能融合感知與控制的動(dòng)態(tài)交互信息。通過 “環(huán)境感知與決策” 的統(tǒng)一載體,支持復(fù)雜場(chǎng)景的時(shí)空推理與閉環(huán)控制,增強(qiáng)模型泛化性與魯棒性,也為路徑規(guī)劃、避障等多任務(wù)協(xié)同提供基礎(chǔ)。

  • 長時(shí)序記憶:應(yīng)對(duì)動(dòng)態(tài)場(chǎng)景的核心機(jī)制。自動(dòng)駕駛決策需依賴長時(shí)序信息,大語言模型的天然長時(shí)記憶能力可彌補(bǔ)傳統(tǒng)算法的不足,使系統(tǒng)在多交互場(chǎng)景中理解交通流變化、預(yù)測(cè)突發(fā)狀況,提升決策準(zhǔn)確性與可解釋性。

  • 多模態(tài)融合:是 VLA 環(huán)境理解的核心。它整合視覺、語義、運(yùn)動(dòng)等多源信息,通過 “感知層多模態(tài)融合→決策層車端運(yùn)動(dòng)狀態(tài)融合→控制層交通語義融合” 的多階段信息傳遞,實(shí)現(xiàn)對(duì)復(fù)雜場(chǎng)景的全面理解,提升模型對(duì)環(huán)境的動(dòng)態(tài)適應(yīng)與魯棒性,為環(huán)島、多車交互等多任務(wù)協(xié)同提供統(tǒng)一信息載體。


3.2 VLA 技術(shù)路線工程化難點(diǎn)與當(dāng)下痛點(diǎn)

VLA 在工程化落地中面臨三大核心痛點(diǎn):

  • 極端工況下的模型穩(wěn)健性:在暴雨、強(qiáng)光、隧道明暗突變等場(chǎng)景中,感知模塊性能會(huì)明顯下降,語言指令也可能因識(shí)別誤差產(chǎn)生語義歧義。需解決環(huán)境動(dòng)態(tài)變化下的模型自適應(yīng)問題,例如在復(fù)雜工況中平衡感知精度與響應(yīng)速度,避免因感知延遲或語義歧義導(dǎo)致決策失誤,這是 VLA 從 “可用” 到 “可靠” 的關(guān)鍵挑戰(zhàn)。

  • 長尾場(chǎng)景的泛化能力:對(duì)夜間施工、動(dòng)物橫穿等小眾 “長尾場(chǎng)景” 的泛化是技術(shù)難點(diǎn)。大模型雖具備強(qiáng)語義表達(dá)能力,但在少樣本或零樣本場(chǎng)景下對(duì)特殊場(chǎng)景的理解仍有不足。需通過無標(biāo)注數(shù)據(jù)學(xué)習(xí)、語義分解等方法增強(qiáng)模型對(duì)長尾場(chǎng)景的適配性,這是實(shí)現(xiàn) “人 - 車 - 路” 動(dòng)態(tài)融合的核心痛點(diǎn)。

  • 多源數(shù)據(jù)時(shí)序?qū)R與時(shí)空一致性:VLA 高效運(yùn)行依賴攝像頭、雷達(dá)、語音指令等多傳感器的時(shí)序與空間同步,但實(shí)際工程中傳感器采集頻率、時(shí)序存在天然差異,導(dǎo)致數(shù)據(jù)不同步。需引入動(dòng)態(tài)緩存、模態(tài)對(duì)齊中間表征等策略,這對(duì)系統(tǒng)架構(gòu)設(shè)計(jì)、算力調(diào)度與實(shí)時(shí)性提出了更高要求。


3.3 VLA 技術(shù)路線發(fā)展趨勢(shì)研判:

VLA 技術(shù)在與傳統(tǒng) E2E(端到端)、VLM(視覺語言模型)的對(duì)比中,呈現(xiàn)出獨(dú)特的技術(shù)優(yōu)勢(shì)與演進(jìn)方向

  • 與 E2E/VLM 的本質(zhì)差異:傳統(tǒng) E2E、VLM 存在感知精度受限、信息傳輸損耗、模塊協(xié)同不足等問題,而 VLA 通過多模態(tài)信息的深度融合,實(shí)現(xiàn) “感知 — 決策 — 控制” 的一體化,在復(fù)雜場(chǎng)景中能更好地處理動(dòng)態(tài)交互,既提升信息傳遞效率,又增強(qiáng)決策的可解釋性與魯棒性,是從 “感知決策” 到 “感知 - 理解 - 推理 - 行動(dòng)” 的范式升級(jí)。

  • 與 “E2E+VLM” 融合方案的對(duì)比:在 “E2E+VLM(松耦合)” 方案中,E2E 負(fù)責(zé)感知層數(shù)據(jù)處理,VLM 作為系統(tǒng)級(jí)推理器,二者在架構(gòu)上相對(duì)獨(dú)立;而 VLA 是 “感知 - 語義 - 動(dòng)作” 的深度一體化,當(dāng)接收到駕駛指令時(shí),感知、決策、動(dòng)作信號(hào)同步進(jìn)入模型,在內(nèi)部完成多模態(tài)信息融合,實(shí)現(xiàn)精準(zhǔn)、實(shí)時(shí)的決策執(zhí)行,是更高效的端到端技術(shù)路徑。

  • 技術(shù)演進(jìn)方向:VLA 并非 “E2E+VLM” 的簡(jiǎn)單疊加,而是向 “感知 - 理解 - 推理” 一體化的技術(shù)進(jìn)階。它將高維感知與物理規(guī)律融入模型預(yù)測(cè),從 “信號(hào)傳遞” 轉(zhuǎn)向 “認(rèn)知驅(qū)動(dòng)”,成為頭部車企長期技術(shù)布局的核心方向。從產(chǎn)業(yè)視角看,VLA 的出現(xiàn)標(biāo)志著自動(dòng)駕駛從 “功能實(shí)現(xiàn)” 向 “類人決策” 的架構(gòu)轉(zhuǎn)型,是技術(shù)突破的關(guān)鍵路徑。


3.3 VLA 技術(shù)路線發(fā)展趨勢(shì)研判:圍繞 “空間 - 時(shí)間 - 成本” 的系統(tǒng)化演進(jìn)

VLA 技術(shù)演進(jìn)將圍繞空間精度、時(shí)間維度、成本優(yōu)化三條核心路徑展開系統(tǒng)化升級(jí):

  • 空間維度:從二維感知向三維語義世界進(jìn)階。通過引入 3D 中間表征與 3D Gaussian Splatting 等技術(shù),實(shí)現(xiàn)從傳統(tǒng)二維感知到高精度三維語義的跨越,為場(chǎng)景理解、動(dòng)態(tài)預(yù)測(cè)提供更豐富的空間信息,推動(dòng) “感知 - 理解 - 推理” 一體化空間語義鏈路的形成。未來主機(jī)廠與 Tier1 將在該領(lǐng)域加速技術(shù)整合,構(gòu)建自主的空間語義技術(shù)壁壘。

  • 時(shí)間維度:從短時(shí)記憶向長時(shí)歷史溯源升級(jí)。傳統(tǒng)端到端模型受限于短時(shí)記憶,而 VLA 通過大模型的長時(shí)序記憶能力,實(shí)現(xiàn)對(duì)歷史場(chǎng)景的 “檢索 - 關(guān)聯(lián) - 預(yù)測(cè)”(例如車輛進(jìn)入復(fù)雜路口時(shí),模型可調(diào)用歷史場(chǎng)景經(jīng)驗(yàn)輔助決策),從 “當(dāng)前感知” 延伸到 “未來預(yù)演”,大幅提升系統(tǒng)對(duì)動(dòng)態(tài)場(chǎng)景的適應(yīng)與預(yù)判能力。

  • 成本維度:從算力依賴向輕量化與高效化轉(zhuǎn)型。當(dāng)前端側(cè)大模型部署受限于算力與功耗,需通過 Moe(Mixture of Experts)、端云協(xié)同推理等技術(shù),在保證性能的前提下降低端側(cè)部署成本,同時(shí)為 OTA 快速迭代預(yù)留算力空間。Moe 與端云協(xié)同將成為高階智駕普及的關(guān)鍵技術(shù)支撐。


四、世界模型技術(shù)路線

4.1 世界模型技術(shù)路線演進(jìn)歷程:從 “看見當(dāng)下” 到 “內(nèi)化世界”

  • 世界模型的本質(zhì)是通過對(duì)真實(shí)世界的高維認(rèn)知建模,賦予智能體環(huán)境理解、預(yù)測(cè)與規(guī)劃的能力。World Model 是一類能模擬、推演真實(shí)環(huán)境狀態(tài)的 AI 框架,它不只是對(duì)輸入信息的被動(dòng)融合,而是通過還原物理規(guī)律構(gòu)建 “虛擬世界”,實(shí)現(xiàn)對(duì)現(xiàn)實(shí)世界的 “內(nèi)在理解” 與主動(dòng)推理。與 “E2E/VLA” 不同,世界模型的核心在于對(duì)環(huán)境的 “內(nèi)在建?!薄?允許系統(tǒng)在不依賴外部信號(hào)的前提下,在 “內(nèi)部虛擬世界” 中完成對(duì)未來的演繹與規(guī)劃,類似人類駕駛時(shí)的 “預(yù)判” 能力,使智能體在復(fù)雜場(chǎng)景中具備更強(qiáng)的魯棒性與泛化性。

  • 當(dāng)前,特斯拉、蔚來、鴻蒙智行等車企正加速布局世界模型技術(shù)路線,通過多傳感器融合、物理規(guī)律建模(如車輛 / 行人運(yùn)動(dòng)軌跡預(yù)測(cè))、場(chǎng)景動(dòng)態(tài)推演等方向推進(jìn)。其與 VLA 的核心差異在于:VLA 依賴 “語言中介” 實(shí)現(xiàn)跨模態(tài)融合,而世界模型更聚焦 “真實(shí)環(huán)境的內(nèi)在結(jié)構(gòu)建模”,通過構(gòu)建與真實(shí)世界高度擬合的 “心算模型”,使車輛在復(fù)雜工況下的決策更接近人類駕駛員的認(rèn)知邏輯。


4.1 世界模型技術(shù)路線演進(jìn)歷程 - 演進(jìn)脈絡(luò):重建→生成→可交互仿真

  • 階段一:Dyna 算法奠定理論基礎(chǔ)(1990 年代)世界模型的思想起源于強(qiáng)化學(xué)習(xí)領(lǐng)域。1990 年 Richard S. Sutton 提出的 Dyna 算法,通過 “學(xué)習(xí) — 規(guī)劃 — 反應(yīng)” 一體化框架,讓智能體不僅依賴真實(shí)環(huán)境交互,還能借助內(nèi)部模型生成虛擬經(jīng)驗(yàn),強(qiáng)化 “學(xué)習(xí)與模型雙向反饋” 的邏輯,為后續(xù)世界模型在復(fù)雜場(chǎng)景(如自動(dòng)駕駛)的應(yīng)用埋下理論伏筆,核心是 “虛擬環(huán)境推演” 的初步探索。

  • 階段二:理論向落地技術(shù)深度進(jìn)階(2018 年)2018 年 David Ha 與 Jürgen Schmidhuber 發(fā)布《World Models》論文,標(biāo)志世界模型從理論走向落地。該階段將其引入深度強(qiáng)化學(xué)習(xí)領(lǐng)域,構(gòu)建 “感知 — 建模 — 規(guī)劃” 閉環(huán),使智能體在自動(dòng)駕駛等動(dòng)態(tài)場(chǎng)景中可通過 “內(nèi)部模擬” 做規(guī)劃決策。相比 Dyna,此階段世界模型的表征能力、預(yù)測(cè)精度顯著提升,初步展現(xiàn)落地可行性。

  • 階段三:以 Dreamer 系列為代表的技術(shù)加速落地(2019 年至今)2019 年 Dreamer、Muzero 算法,2022 年 LoRn 提出的 JEPA 模型,以及 2023-2024 年的 DreamerV3、Daydream、Vita 的 Ultralight 等視頻生成與語言融合型世界模型持續(xù)迭代。核心是讓自動(dòng)駕駛系統(tǒng)實(shí)現(xiàn) “感知 — 決策 — 控制” 閉環(huán),“虛擬世界推演” 成為主流,使智能體突破 “感知 — 決策” 的端到端局限,具備更強(qiáng)大的場(chǎng)景泛化與決策能力。


4.1 世界模型技術(shù)路線演進(jìn)歷程 - 頭部玩家與代表方案

  • Waymo(Waymo Foundation Model)采用 “云端大模型 + 車端小模型” 的 “教師 — 學(xué)生” 架構(gòu)實(shí)現(xiàn)高效部署:云端模型負(fù)責(zé)大規(guī)模場(chǎng)景模擬與推理,車端模型在實(shí)際行駛中實(shí)時(shí)完成感知、預(yù)測(cè)與決策,并按需進(jìn)化能力與響應(yīng)速度。該方案具備強(qiáng)環(huán)境泛化能力,可應(yīng)對(duì)雨天、極端光照、道路施工等 “長尾場(chǎng)景”;同時(shí)依托自研 Depots 運(yùn)營體系,深度融合世界模型與車輛運(yùn)營,實(shí)現(xiàn)自動(dòng)進(jìn)出停車場(chǎng)、充電與快速調(diào)度,大幅降低 L4 級(jí)自動(dòng)駕駛落地成本,驗(yàn)證了技術(shù)商用價(jià)值。

  • 華為(MagicDriveVIT)MagicDriveVIT是華為聯(lián)合高校推出的新一代 DIT 架構(gòu),核心是通過時(shí)空條件式大氣語言模型,將環(huán)境語義與動(dòng)態(tài)要素統(tǒng)一建模,實(shí)現(xiàn)場(chǎng)景高維理解與聯(lián)合推理。相比傳統(tǒng)端到端方案,其在多車協(xié)同、變道及惡劣天氣下的泛化能力更突出,可在 100 毫秒內(nèi)推演 216 種軌跡并生成 120 秒預(yù)測(cè)視野,兼具高效性與可解釋性,是無地圖自動(dòng)駕駛的關(guān)鍵技術(shù)路徑之一。

  • 蔚來(NOMM)由蔚來自動(dòng)駕駛團(tuán)隊(duì)研發(fā),具備全量語義理解與多無軌運(yùn)動(dòng)預(yù)測(cè)能力,可在閉環(huán)系統(tǒng)內(nèi)支撐 16 類戰(zhàn)術(shù)避障并生成 120 秒預(yù)測(cè)視野。算力層面依托 4×Orin-X 芯片、高通 SA8195P、英偉達(dá) Nadrade 2.0 架構(gòu)實(shí)現(xiàn)群體智能協(xié)同,為智能駕駛提供強(qiáng)大算力支撐。新 NOMM 系統(tǒng)支持自動(dòng)泊車、高速變道避障、車位級(jí)導(dǎo)航等 30 + 場(chǎng)景,系統(tǒng)能力持續(xù)迭代,是蔚來高階智駕的核心技術(shù)壁壘。


? 如欲獲取完整版PDF文件,可以關(guān)注鈦祺汽車官網(wǎng)—>智庫,也可以添加鈦祺小助理微信,回復(fù)“報(bào)告名稱:智能駕駛深度報(bào)告:世界模型與VLA技術(shù)路線并行發(fā)展 ”。

點(diǎn)擊下方,查看近期熱門行業(yè)研究報(bào)告

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國民黨中央委員選舉結(jié)果出爐,朱立倫狂喜,要拿捏鄭麗文?

國民黨中央委員選舉結(jié)果出爐,朱立倫狂喜,要拿捏鄭麗文?

叮當(dāng)當(dāng)科技
2025-12-28 04:57:08
她和奧運(yùn)冠軍馬琳離婚分走千萬,再婚嫁給金融學(xué)霸,如今怎樣了?

她和奧運(yùn)冠軍馬琳離婚分走千萬,再婚嫁給金融學(xué)霸,如今怎樣了?

優(yōu)趣紀(jì)史記
2025-12-28 14:47:11
姜昆視頻風(fēng)波后續(xù):視頻拍攝者曝真相,姜昆頻繁去美國有“苦衷”

姜昆視頻風(fēng)波后續(xù):視頻拍攝者曝真相,姜昆頻繁去美國有“苦衷”

阿纂看事
2025-12-27 09:24:01
姜昆助理辟謠不到24小時(shí),慘遭網(wǎng)友"打臉",視頻拍攝者:等吃官司

姜昆助理辟謠不到24小時(shí),慘遭網(wǎng)友"打臉",視頻拍攝者:等吃官司

奇思妙想草葉君
2025-12-27 10:34:04
貴州女子參加抓豬比賽,一年抓22頭豬帶回家,最重的一頭146斤,豬圈都關(guān)滿了

貴州女子參加抓豬比賽,一年抓22頭豬帶回家,最重的一頭146斤,豬圈都關(guān)滿了

極目新聞
2025-12-28 13:59:09
丈夫?yàn)橹蹲踊?0萬買車,我淡然提離婚,他冷笑簽字以為我在演戲

丈夫?yàn)橹蹲踊?0萬買車,我淡然提離婚,他冷笑簽字以為我在演戲

小秋情感說
2025-12-28 14:09:25
29歲兒子突發(fā)心梗離世,家里上萬斤蔬菜滯銷!大伯絕望痛哭,短短一天后迎來轉(zhuǎn)機(jī)

29歲兒子突發(fā)心梗離世,家里上萬斤蔬菜滯銷!大伯絕望痛哭,短短一天后迎來轉(zhuǎn)機(jī)

瀟湘晨報(bào)
2025-12-28 14:46:18
83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆 給阿森納施壓

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆 給阿森納施壓

葉青足球世界
2025-12-27 22:22:52
高低壓相差60,活不久?一直被忽視的脈壓,原來這么重要

高低壓相差60,活不久?一直被忽視的脈壓,原來這么重要

健康之光
2025-12-12 13:21:46
結(jié)果出爐!連勝武獲勝,四藍(lán)委落敗,鄭麗文拋重磅,侯友宜尷尬了

結(jié)果出爐!連勝武獲勝,四藍(lán)委落敗,鄭麗文拋重磅,侯友宜尷尬了

南宮一二
2025-12-28 15:09:48
內(nèi)訌了?洛夫頓發(fā)文:都不相信我,我要回母校,網(wǎng)友: 趕緊滾吧!

內(nèi)訌了?洛夫頓發(fā)文:都不相信我,我要回母校,網(wǎng)友: 趕緊滾吧!

南海浪花
2025-12-28 12:32:59
畸形兒風(fēng)波反轉(zhuǎn)!醫(yī)院回應(yīng)透露2個(gè)關(guān)鍵信息 闞清子的沉默早有預(yù)兆

畸形兒風(fēng)波反轉(zhuǎn)!醫(yī)院回應(yīng)透露2個(gè)關(guān)鍵信息 闞清子的沉默早有預(yù)兆

瓜汁橘長Dr
2025-12-28 16:39:19
CBA最新消息!陳盈駿骨折,洛夫頓提出離隊(duì),遼寧有意馬修斯

CBA最新消息!陳盈駿骨折,洛夫頓提出離隊(duì),遼寧有意馬修斯

體壇瞎白話
2025-12-28 14:48:23
不造車的第五年:2025 年,車企已無法回避華為

不造車的第五年:2025 年,車企已無法回避華為

鈦媒體APP
2025-12-28 09:59:19
突發(fā)!中國銀行某省分行行長被查

突發(fā)!中國銀行某省分行行長被查

摩登財(cái)經(jīng)
2025-12-28 11:10:38
A股:周末突發(fā)11利空+5大核彈級(jí)利好!周一很可能迎更大級(jí)別大行情?

A股:周末突發(fā)11利空+5大核彈級(jí)利好!周一很可能迎更大級(jí)別大行情?

股市皆大事
2025-12-28 16:51:32
18分8助攻,謝潑德球權(quán)首發(fā)級(jí)別 妙傳帶動(dòng)射手群 火箭隊(duì)2將邊緣化

18分8助攻,謝潑德球權(quán)首發(fā)級(jí)別 妙傳帶動(dòng)射手群 火箭隊(duì)2將邊緣化

替補(bǔ)席看球
2025-12-28 11:20:41
1勝3負(fù),申真谞出局,韓棋手創(chuàng)最差戰(zhàn)績,棋仙戰(zhàn)4強(qiáng)韓僅樸廷桓出戰(zhàn)

1勝3負(fù),申真谞出局,韓棋手創(chuàng)最差戰(zhàn)績,棋仙戰(zhàn)4強(qiáng)韓僅樸廷桓出戰(zhàn)

L76號(hào)
2025-12-28 15:17:47
1978 年,中央為彭德懷舉行追悼大會(huì),其侄子侄女聯(lián)名要求:不準(zhǔn)她參加

1978 年,中央為彭德懷舉行追悼大會(huì),其侄子侄女聯(lián)名要求:不準(zhǔn)她參加

老杉說歷史
2025-12-21 14:29:12
戴佩妮哽咽宣布取消北京廣州演唱會(huì),承認(rèn)自己做不好,明年1月杭州站成為內(nèi)地演唱會(huì)最后一場(chǎng)

戴佩妮哽咽宣布取消北京廣州演唱會(huì),承認(rèn)自己做不好,明年1月杭州站成為內(nèi)地演唱會(huì)最后一場(chǎng)

都市快報(bào)橙柿互動(dòng)
2025-12-28 12:41:21
2025-12-28 19:31:00
數(shù)字巨變家
數(shù)字巨變家
專注數(shù)字化轉(zhuǎn)型,將復(fù)雜數(shù)據(jù)化為創(chuàng)新力量。與我共探數(shù)字未來!
2350文章數(shù) 2786關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

手機(jī)
本地
房產(chǎn)
公開課
軍事航空

手機(jī)要聞

蘋果越戰(zhàn)越勇,小米、vivo、OPPO呢?

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

與特朗普會(huì)晤前 澤連斯基亮明“紅線”

無障礙瀏覽 進(jìn)入關(guān)懷版