国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

VLA與世界模型有什么不同?

0
分享至

[首發(fā)于智駕最前沿微信公眾號(hào)]當(dāng)前自動(dòng)駕駛行業(yè),各車企的技術(shù)路徑普遍選擇了單車智能方向。而在實(shí)際落地過(guò)程中,不同企業(yè)選擇了差異化的技術(shù)實(shí)現(xiàn)方式,部分車企側(cè)重于視覺(jué)—語(yǔ)言—?jiǎng)幼髂P停╒ision Language Action,VLA),另一些則致力于構(gòu)建并應(yīng)用世界模型(World Model)。這兩種路徑有什么不同?

什么是VLA,什么是世界模型

先說(shuō)說(shuō)VLA。VLA是英文Vision-Language-Action的縮寫(xiě),即視覺(jué)—語(yǔ)言—?jiǎng)幼鳌R簿褪钦f(shuō),這種模型把視覺(jué)感知、語(yǔ)言/語(yǔ)義理解/推理和動(dòng)作/控制輸出這三步融合到一個(gè)端到端(end-to-end)的體系里。



圖片源自:網(wǎng)絡(luò)

VLA先通過(guò)攝像頭(或其他傳感器)獲取環(huán)境信息,再用視覺(jué)編碼器把它轉(zhuǎn)成特征向量,然后把這些視覺(jué)特征“翻譯”到類似語(yǔ)言模型(LLM,large language model)可以理解的語(yǔ)義空間里,通過(guò)語(yǔ)言模型進(jìn)行高層推理、判斷(如識(shí)別車道線、行人、交通標(biāo)志,甚至判斷行人的意圖、交通規(guī)則優(yōu)先級(jí)、當(dāng)前場(chǎng)景該采取什么策略等等),語(yǔ)言模型的“結(jié)論”將會(huì)被送到動(dòng)作生成模塊,直接輸出控制指令(例如轉(zhuǎn)向、加減速、軌跡規(guī)劃)。

VLA的主要作用就是讓自動(dòng)駕駛汽車具備“看、想、做”的能力,從視覺(jué)信息到動(dòng)作輸出,中間有進(jìn)行了思考、推理、語(yǔ)義理解的環(huán)節(jié),而不是簡(jiǎn)單的感知→規(guī)劃→控制那種模塊化規(guī)則的方式。

再說(shuō)世界模型。世界模型的核心,是在模型大腦中里構(gòu)建一個(gè)對(duì)外部世界的虛擬、內(nèi)部模型。也就是說(shuō),它不只是看到當(dāng)前路況,而是嘗試?yán)斫馐澜绲奈锢硪?guī)律、交通規(guī)則、各種動(dòng)態(tài)變化,然后在這個(gè)內(nèi)部模型里模擬、推演、預(yù)測(cè)未來(lái)可能的場(chǎng)景。如可以預(yù)測(cè)前方那輛車會(huì)不會(huì)突然轉(zhuǎn)向、行人是否會(huì)沖出、天氣或光線變化會(huì)有怎樣影響等,通過(guò)對(duì)交通環(huán)境的預(yù)測(cè),可以輔助決策、規(guī)劃、甚至策略驗(yàn)證。

世界模型常被用來(lái)做仿真、模擬,通過(guò)大規(guī)模模擬極端、稀有場(chǎng)景、長(zhǎng)尾場(chǎng)景,為自動(dòng)駕駛系統(tǒng)訓(xùn)練、驗(yàn)證、生成數(shù)據(jù)。也能讓系統(tǒng)在內(nèi)部預(yù)演并判斷風(fēng)險(xiǎn),而不僅僅依賴當(dāng)前看到的畫(huà)面。

簡(jiǎn)而言之:

VLA=視覺(jué)+語(yǔ)言(語(yǔ)義)+動(dòng)作,通過(guò)一個(gè)端到端體系,把“看、理解、做”連起來(lái)。

世界模型=在“腦子里”建立對(duì)世界的模型、仿真,讓系統(tǒng)可以想象未來(lái)、做預(yù)測(cè)/推理,從而判斷風(fēng)險(xiǎn)。

為什么車企會(huì)選擇這兩個(gè)方向?

現(xiàn)階段眾多車企在這兩個(gè)方向并行投入,都期望這兩項(xiàng)技術(shù)能給自動(dòng)駕駛的落地帶來(lái)更多可能。之所以會(huì)這樣,是因?yàn)樽詣?dòng)駕駛對(duì)復(fù)雜性、不確定性、安全性、長(zhǎng)尾場(chǎng)景的高要求,傳統(tǒng)的模塊化+規(guī)則/規(guī)劃+靜態(tài)預(yù)測(cè)模式在真實(shí)交通場(chǎng)景中無(wú)法完全應(yīng)對(duì)。

傳統(tǒng)的自動(dòng)駕駛系統(tǒng),主流架構(gòu)普遍采用“感知→規(guī)劃→控制”的模塊化設(shè)計(jì)。其通過(guò)攝像頭、毫米波雷達(dá)、激光雷達(dá)等傳感器采集環(huán)境數(shù)據(jù),交由感知模塊進(jìn)行目標(biāo)檢測(cè)、分類與跟蹤,識(shí)別如行人、車輛、車道線等關(guān)鍵信息;規(guī)劃模塊再依據(jù)感知結(jié)果,結(jié)合預(yù)設(shè)規(guī)則與預(yù)測(cè)模型,生成軌跡、速度及加減速等決策;控制模塊將根據(jù)決策執(zhí)行具體的轉(zhuǎn)向、油門及制動(dòng)指令。



圖片源自:網(wǎng)絡(luò)

但隨著自動(dòng)駕駛車輛在道路上應(yīng)用越來(lái)越多,復(fù)雜的路況、場(chǎng)景的動(dòng)態(tài)多變以及邊緣案例的持續(xù)涌現(xiàn),讓基于固定規(guī)則與靜態(tài)預(yù)測(cè)的串聯(lián)式架構(gòu)局限凸顯,難以覆蓋所有潛在場(chǎng)景,尤其在長(zhǎng)尾與極端情況下,系統(tǒng)的適應(yīng)能力與魯棒性面臨顯著挑戰(zhàn)。

于是,人們希望自動(dòng)駕駛系統(tǒng)能像老司機(jī)一樣,不只是看見(jiàn)世界,還能“理解”、能“推理”、能“預(yù)測(cè)未來(lái)”、能“靈活應(yīng)對(duì)變化”。VLA和世界模型正是基于此出現(xiàn)的。

各自優(yōu)勢(shì)與局限

1)VLA的優(yōu)勢(shì)

  • 語(yǔ)義理解+可解釋性

因?yàn)閂LA將視覺(jué)信息“翻譯”成語(yǔ)義(類似語(yǔ)言描述),所以它更貼近人類理解世界的方式。對(duì)于如行人、騎車人、交通標(biāo)志、交互意圖等復(fù)雜交通場(chǎng)景,VLA的語(yǔ)言推理能力就表現(xiàn)出其優(yōu)勢(shì)性。

  • 端到端+整體優(yōu)化

端到端模型中,從感知到動(dòng)作的流程都被統(tǒng)一在一個(gè)模型里,中間沒(méi)有太多手工設(shè)定的規(guī)則和模塊邊界,使得它理論上可以通過(guò)大數(shù)據(jù)訓(xùn)練、學(xué)習(xí),從經(jīng)驗(yàn)里學(xué)會(huì)開(kāi)車該怎樣反應(yīng),從而體現(xiàn)出較強(qiáng)的泛化能力。

  • 適合復(fù)雜語(yǔ)義場(chǎng)景+人機(jī)交互

自動(dòng)駕駛系統(tǒng)需要實(shí)現(xiàn)與人類的高效協(xié)同,如準(zhǔn)確理解請(qǐng)?jiān)谇胺奖憷昱R時(shí)停車等自然語(yǔ)言指令,或在必要時(shí)向用戶解釋因左側(cè)行人突然靠近而制動(dòng)等決策原因。VLA技術(shù)所具備的多模態(tài)語(yǔ)義對(duì)齊與自然語(yǔ)言處理能力顯現(xiàn)出其獨(dú)特價(jià)值。其架構(gòu)天然支持復(fù)雜語(yǔ)義的解析、推理與生成,能夠?yàn)槿藱C(jī)交互提供直觀、可解釋的溝通界面,從而增強(qiáng)系統(tǒng)的可理解性與用戶體驗(yàn)。

2)VLA的局限

  • 對(duì)環(huán)境物理動(dòng)態(tài)+長(zhǎng)尾、稀有場(chǎng)景的預(yù)測(cè)能力弱

VLA本質(zhì)是“看到+推理+輸出”,如果只是基于當(dāng)前畫(huà)面做判斷,沒(méi)有對(duì)未來(lái)可能變化(比如前方車輛突然緊急剎車、行人沖出、雨雪、光照變化等)做足夠仿真及預(yù)測(cè),就可能反應(yīng)不夠及時(shí)或不夠安全。

  • 監(jiān)督信號(hào)稀疏/學(xué)習(xí)不充分

一些最新研究指出,僅靠動(dòng)作輸出(方向盤(pán)轉(zhuǎn)角/加速/制動(dòng))作為監(jiān)督,對(duì)于一個(gè)容量很大的VLA模型來(lái)說(shuō)可能遠(yuǎn)遠(yuǎn)不夠,有可能讓模型的大部分潛能無(wú)法利用。近期就有研究提出把世界建模(預(yù)測(cè)未來(lái)畫(huà)面)加到VLA的訓(xùn)練中,以獲得更豐富、更密集的監(jiān)督信號(hào)。

  • 實(shí)時(shí)性、計(jì)算資源消耗

端到端大模型整合了多模態(tài)感知與直接動(dòng)作生成,若進(jìn)一步要求其具備長(zhǎng)短時(shí)預(yù)測(cè)與復(fù)雜場(chǎng)景推理能力,將面臨算力需求、實(shí)時(shí)延遲及能效挑戰(zhàn)。這在車載嵌入式平臺(tái)上尤為突出,這樣成為其實(shí)際落地應(yīng)用中必須攻克的難題。



圖片源自:網(wǎng)絡(luò)

3)世界模型的優(yōu)勢(shì)

  • 對(duì)未來(lái)、動(dòng)態(tài)、復(fù)雜場(chǎng)景的“預(yù)測(cè)+仿真+規(guī)劃”能力強(qiáng)

通過(guò)在內(nèi)部建立對(duì)世界的模型,系統(tǒng)可以不僅看到當(dāng)下,還可以推演未來(lái),從而實(shí)現(xiàn)如模擬前車可能剎車、行人可能穿過(guò)、光照/天氣可能變、車輛可能并線等等預(yù)測(cè),然后提前規(guī)劃最安全/穩(wěn)妥的動(dòng)作。這對(duì)于自動(dòng)駕駛尤其重要,因?yàn)檎鎸?shí)道路環(huán)境充滿變化、不確定和突發(fā)性。

  • 適合大規(guī)模訓(xùn)練/長(zhǎng)尾/極端場(chǎng)景生成

在真實(shí)交通環(huán)境中,某些危險(xiǎn)或極端情況很難大量收集(比如夜間雨雪、大霧、極端行人行為、突發(fā)障礙物等),但用世界模型可以“仿真”這些情況,用來(lái)訓(xùn)練、驗(yàn)證、測(cè)試自動(dòng)駕駛系統(tǒng),增強(qiáng)其魯棒性和安全性。

  • 提供冗余、安全校驗(yàn)機(jī)制

即使主系統(tǒng)(決策/動(dòng)作模塊)出現(xiàn)問(wèn)題,世界模型也能作為“虛擬大腦”進(jìn)行冗余判斷、風(fēng)險(xiǎn)分析、仿真校驗(yàn)。某些設(shè)計(jì)還會(huì)把輕量世界模型放到車端,用作校驗(yàn)及安全網(wǎng)。

4)世界模型的局限

  • 構(gòu)建和訓(xùn)練復(fù)雜

要讓世界模型準(zhǔn)確反映真實(shí)的交通環(huán)境,必須對(duì)車輛動(dòng)力學(xué)、交通規(guī)則、不確定性因素及行人行為等多維要素進(jìn)行高保真度建模。這種對(duì)物理、社會(huì)及動(dòng)態(tài)規(guī)則的高精度模擬,對(duì)數(shù)據(jù)質(zhì)量、計(jì)算規(guī)模與系統(tǒng)設(shè)計(jì)均提出了極高要求。正因如此,早期世界模型在實(shí)現(xiàn)實(shí)時(shí)推理與高效部署時(shí)存在諸多問(wèn)題,尤其在GPU算力加速與車規(guī)級(jí)延遲約束下,其工程化應(yīng)用受到較大限制。

  • 與語(yǔ)義理解/規(guī)則/常識(shí)融合較弱

純世界模型偏重物理+動(dòng)態(tài)+預(yù)測(cè)/仿真/規(guī)劃,但對(duì)復(fù)雜語(yǔ)義、交通規(guī)則、行人意圖、社會(huì)交互規(guī)則這些語(yǔ)義+常識(shí)+規(guī)則+語(yǔ)言的范疇不一定做得很好。對(duì)于某些需要語(yǔ)義理解、規(guī)則判斷、解釋及交互的場(chǎng)景,表現(xiàn)將不夠靈活。

  • 可解釋性/透明性可能較差

世界模型的核心機(jī)制在于對(duì)物理規(guī)律與動(dòng)態(tài)場(chǎng)景進(jìn)行內(nèi)部仿真與數(shù)值化概率推演,其決策過(guò)程依賴于高維隱式狀態(tài)空間的建模與計(jì)算。但這種基于數(shù)值模擬的推理方式,在對(duì)外輸出時(shí)難以轉(zhuǎn)化為人類可直觀理解的語(yǔ)義解釋。在自動(dòng)駕駛的安全驗(yàn)證、法規(guī)合規(guī)、責(zé)任界定與系統(tǒng)可審計(jì)性等實(shí)際落地要求中,這種“黑箱”特性成為了不得不去面對(duì)的問(wèn)題。

最后的話

VLA和世界模型,看起來(lái)像是自動(dòng)駕駛領(lǐng)域里兩種不同的“腦子設(shè)計(jì)方式”,VLA讓車具備“看到+理解+判斷+動(dòng)作”的能力;世界模型則給車提供了一個(gè)“內(nèi)部虛擬世界+預(yù)測(cè)/仿真/推演未來(lái)”的能力。但在方向選擇上,智駕最前沿以為,如果能把兩條路結(jié)合起來(lái)、互補(bǔ)使用,或許可以讓自動(dòng)駕駛真正安全、智能、穩(wěn)定地落地。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
震驚!網(wǎng)傳重慶某酒店提及年輕人的性張力,吃完火鍋還有勁折騰…

震驚!網(wǎng)傳重慶某酒店提及年輕人的性張力,吃完火鍋還有勁折騰…

火山詩(shī)話
2026-01-11 08:30:39
高市大概沒(méi)料到,中方拒絕撤回制裁后,又對(duì)日本啟動(dòng)新一輪反制

高市大概沒(méi)料到,中方拒絕撤回制裁后,又對(duì)日本啟動(dòng)新一輪反制

井普椿的獨(dú)白
2026-01-11 19:37:31
4-0橫掃蒯曼進(jìn)決賽!中國(guó)女乒28歲王牌再閃耀:對(duì)決朱雨玲沖冠

4-0橫掃蒯曼進(jìn)決賽!中國(guó)女乒28歲王牌再閃耀:對(duì)決朱雨玲沖冠

李喜林籃球絕殺
2026-01-11 19:18:53
曝李大雙和李琳離婚,現(xiàn)任是外國(guó)美女,已生兒子,丁克23年被拋棄

曝李大雙和李琳離婚,現(xiàn)任是外國(guó)美女,已生兒子,丁克23年被拋棄

天天熱點(diǎn)見(jiàn)聞
2026-01-10 16:30:29
45歲男星曬上海新家!4萬(wàn)電視柜,15萬(wàn)沙發(fā),沒(méi)戲拍日子照樣舒坦

45歲男星曬上海新家!4萬(wàn)電視柜,15萬(wàn)沙發(fā),沒(méi)戲拍日子照樣舒坦

瓜汁橘長(zhǎng)Dr
2026-01-09 17:44:33
西方越想越害怕!俄軍榛樹(shù)高超不用彈頭,170億立方米天然氣泄漏

西方越想越害怕!俄軍榛樹(shù)高超不用彈頭,170億立方米天然氣泄漏

小宸說(shuō)歷史
2026-01-11 08:20:06
最新 | 岳云鵬透露今年不上央視春晚

最新 | 岳云鵬透露今年不上央視春晚

天津廣播
2026-01-11 12:14:15
郭晶晶沒(méi)想到,被國(guó)家隊(duì)開(kāi)除的田亮,如今以這種方式讓人刮目相看

郭晶晶沒(méi)想到,被國(guó)家隊(duì)開(kāi)除的田亮,如今以這種方式讓人刮目相看

無(wú)心小姐姐
2026-01-09 17:46:24
閆學(xué)晶“哭窮”后多平臺(tái)賬號(hào)禁止關(guān)注 其代言調(diào)料品牌老總:將向她索賠 不再請(qǐng)明星代言

閆學(xué)晶“哭窮”后多平臺(tái)賬號(hào)禁止關(guān)注 其代言調(diào)料品牌老總:將向她索賠 不再請(qǐng)明星代言

紅星新聞
2026-01-10 14:19:18
經(jīng)濟(jì)專家魏文烈,舍棄重慶副市長(zhǎng)轉(zhuǎn)投商海,卻給國(guó)家造成巨大損失

經(jīng)濟(jì)專家魏文烈,舍棄重慶副市長(zhǎng)轉(zhuǎn)投商海,卻給國(guó)家造成巨大損失

搜史君
2026-01-11 08:20:11
皇馬將與贊助商續(xù)約:3大金主 每年貢獻(xiàn)3億!高居世界第1

皇馬將與贊助商續(xù)約:3大金主 每年貢獻(xiàn)3億!高居世界第1

葉青足球世界
2026-01-11 16:33:40
男子創(chuàng)業(yè)失敗負(fù)債700萬(wàn),無(wú)家可歸住橋洞,網(wǎng)友:看完我不折騰了

男子創(chuàng)業(yè)失敗負(fù)債700萬(wàn),無(wú)家可歸住橋洞,網(wǎng)友:看完我不折騰了

唐小糖說(shuō)情感
2026-01-05 12:10:38
中國(guó)最高齡產(chǎn)婦盛海琳:丈夫已離世,女兒才15歲,我爭(zhēng)取活到104

中國(guó)最高齡產(chǎn)婦盛海琳:丈夫已離世,女兒才15歲,我爭(zhēng)取活到104

林雁飛
2026-01-10 13:46:21
中方“大反攻”正式開(kāi)始!勒令完全解除武裝,日本美夢(mèng)徹底破碎

中方“大反攻”正式開(kāi)始!勒令完全解除武裝,日本美夢(mèng)徹底破碎

琴音似君語(yǔ)
2026-01-09 20:34:42
紀(jì)實(shí):湖南漂亮18歲女大學(xué)生和父親西藏自駕游,回來(lái)后母親崩潰了

紀(jì)實(shí):湖南漂亮18歲女大學(xué)生和父親西藏自駕游,回來(lái)后母親崩潰了

紅豆講堂
2024-10-09 11:15:47
中方廣發(fā)邀請(qǐng)?zhí)?,多?guó)積極派兵,1國(guó)拒絕派兵,金磚內(nèi)部冒出刺頭

中方廣發(fā)邀請(qǐng)?zhí)鄧?guó)積極派兵,1國(guó)拒絕派兵,金磚內(nèi)部冒出刺頭

時(shí)時(shí)有聊
2026-01-11 19:26:09
留幾手為閆學(xué)晶叫屈?稱抖音用戶都自卑又敏感,評(píng)論區(qū)炸鍋了

留幾手為閆學(xué)晶叫屈?稱抖音用戶都自卑又敏感,評(píng)論區(qū)炸鍋了

小徐講八卦
2026-01-11 16:10:03
“最佳血壓” 數(shù)值多少?醫(yī)生提醒:76 歲以后,血壓控制在這范圍

“最佳血壓” 數(shù)值多少?醫(yī)生提醒:76 歲以后,血壓控制在這范圍

新時(shí)代的兩性情感
2026-01-11 17:01:57
天空體育記者:我感覺(jué)格伊?xí)用税⑸{!槍手將開(kāi)啟多人續(xù)約談判

天空體育記者:我感覺(jué)格伊?xí)用税⑸{!槍手將開(kāi)啟多人續(xù)約談判

足球偵探
2026-01-11 18:06:15
54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

小徐講八卦
2025-11-17 07:29:28
2026-01-11 20:27:00
智駕最前沿
智駕最前沿
自動(dòng)駕駛領(lǐng)域?qū)I(yè)的技術(shù)、資訊分享平臺(tái)。我們的slogan是:聚焦智能駕駛 ,緊盯行業(yè)前沿。
322文章數(shù) 11關(guān)注度
往期回顧 全部

汽車要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬(wàn)起

頭條要聞

小學(xué)生留遺書(shū)在家中服藥自殺 母親起訴學(xué)校和英語(yǔ)老師

頭條要聞

小學(xué)生留遺書(shū)在家中服藥自殺 母親起訴學(xué)校和英語(yǔ)老師

體育要聞

詹皇曬照不滿打手沒(méi)哨 裁判報(bào)告最后兩分鐘無(wú)誤判

娛樂(lè)要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣平臺(tái)"燒錢搶存量市場(chǎng)"迎來(lái)終局?

科技要聞

“我們與美國(guó)的差距也許還在拉大”

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
手機(jī)
公開(kāi)課
軍事航空

數(shù)碼要聞

智能廚電成CES最卷品類:AI接管一切,人人都能當(dāng)「甩手掌柜」

藝術(shù)要聞

謝森 2025年風(fēng)景油畫(huà)寫(xiě)生

手機(jī)要聞

消息稱三星Galaxy S26系列手機(jī)將首次提供2400萬(wàn)像素切換開(kāi)關(guān)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄大使:馬杜羅夫婦被控制時(shí)身邊沒(méi)人

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版