都在吹小鵬二代VLA，它到底厲害在哪？

2026-04-05 20:14:39　來源: 百車全說

江蘇舉報

分享至

百車全說

別人研究車，而我研究你！

今天咱們聊聊，前不久小鵬發(fā)布的第二代VLA，也就是第二代VLA物理世界大模型。沒關(guān)注智駕領(lǐng)域的人可能都聽不懂這是個什么東西，關(guān)注智駕的朋友，可能聽起來不明覺厲，但也很難說清楚好在哪里，背后是什么原理，今后買車如果更看重智駕，小鵬帶有二代VLA的車型，是不是應(yīng)該優(yōu)先考慮？

今天這篇文章，咱們詳細聊聊這玩意到底是真厲害，還是說只是停留在概念上而已，是吹的天花亂墜，還是真有兩把刷子？

什么是VLA

VLA就是“Vision-Language-Action”，視覺-語言-行動模型，一聽就懂，相當于看到了什么-用文字描述出來-再根據(jù)文字執(zhí)行動作。之前大家經(jīng)常聽到“端到端”智能駕駛，就肯定會聽到VLA這個詞，對吧?，F(xiàn)在大家買車，只要帶智駕的，無非是有激光雷達，沒有激光雷達兩個版本。沒有激光雷達的智駕走純視覺路線，有激光雷達的智駕，他其實主要也是靠視覺，只不過帶了激光雷達，相當于多了一重保障，走的是融合感知方案。但無論哪種方案，有了更先進的硬件做基礎(chǔ)，所以這兩年各家都在VLA這條路上一路狂飆。

小鵬二代VLA之前，智駕經(jīng)歷的三個階段

而在智駕領(lǐng)域，小鵬的二代VLA技術(shù)出來之前，還經(jīng)歷過三個階段。

第一個階段，是典型的模塊化方案加高精地圖。說白了，就是把感知、預(yù)測、規(guī)劃、控制拆成一個個模塊，再靠人工編寫規(guī)則把它們串起來。車先靠傳感器識別車道線、紅綠燈、路牌、障礙物，再結(jié)合高精地圖，去判斷自己現(xiàn)在在哪、該往哪走、下一步該怎么做。這套方案的問題在于，規(guī)則是人提前寫死的，地圖也是提前標好的，所以它對已知場景處理得還行，但一旦碰到?jīng)]見過的、沒覆蓋到的、或者地圖和現(xiàn)實有偏差的情況，系統(tǒng)就容易發(fā)懵。它不是不會開車，它是只會開自己提前背過答案的那條路。早期自動駕駛廣泛采用這種模塊化棧，而且高度依賴精準定位與高精地圖，這也是后來行業(yè)越來越想擺脫它的重要原因。

第二個階段，就開始從人工寫規(guī)則，升級到讓模型通過海量駕駛數(shù)據(jù)去學習，也就是大家常說的端到端、或者偏端到端的數(shù)據(jù)驅(qū)動方案。你可以理解成，第一階段是老師把答案寫在黑板上，讓車背下來。第二階段是把大量人類司機怎么開車的數(shù)據(jù)喂給它，讓它自己去學輸入和輸出之間的關(guān)系。比如，前面看到什么畫面，后面就打多少方向、踩多大油門、剎多大力度。

這個階段比第一階段確實先進，因為它減少了人工規(guī)則堆砌，提升了訓練和迭代效率，但它本質(zhì)上還是一種映射學習。也就是說，它更像是在模仿，而不是在真正理解。換句話說，訓練里見過的場景，它會越來越熟。但是訓練里沒見過的長尾場景，它照樣可能不會。

而且第二階段還有個很致命的問題，就是黑箱。你看到的是它做出了動作，但你很難準確說清楚，它為什么這么做。出了問題，往往只能看到結(jié)果不對，卻很難一層一層地追溯，到底是感知錯了，還是理解錯了，還是規(guī)劃錯了。換句話說，它會開，但它不太會解釋。它像一個做題很快的學生，答案可能能寫出來，但你讓他把解題過程完整復(fù)述出來，他不一定講得清楚。對于智駕這種高安全要求的系統(tǒng)來說，這件事就很麻煩，因為你不光要它會做，還要知道它為什么這么做，出了問題怎么查，怎么改，怎么驗證。

接下來，就到了第三個階段，也就是一代VLA，視覺—語言—行動模型。

這一代跟前面最大的區(qū)別，不是它終于看得更清楚了，而是它開始試著先理解，再行動。以前的系統(tǒng)，很多時候是看到畫面，直接輸出動作，中間像一根線，輸入接輸出，快是快了，但到底理解了多少，不好說。VLA不一樣，它把視覺信息、語言知識和行動決策放進了一個更統(tǒng)一的框架里。它不僅想知道前面有車、有燈、有行人，它還想進一步理解，這個場景里誰更危險，哪個目標更關(guān)鍵，這個行人是在等待，還是準備突然橫穿，這輛電瓶車接下來大概率會不會并線，這個路口真正該優(yōu)先處理的矛盾是什么。

VLA的核心就是把視覺感知、語義理解、語言推理和軌跡/動作輸出更緊地連起來，而不是只做機械的畫面到動作映射。

所以總結(jié)來講，第一階段，是把規(guī)則寫死，像查字典、翻說明書開車。題庫里有，它就會。題庫里沒有，它就愣住。

第二階段，是通過數(shù)據(jù)去模仿，像看別人怎么開，自己照著學。學得多了，很多常見題也能做得不錯，但它更像小鎮(zhèn)做題家，不是真正理解題意，只是為了刷到過，填上了正確答案而已。題目稍微拐個彎，或者換個沒見過的說法，它還是容易翻車。

第三階段，也就是一代VLA，才開始往理解題意這個方向走。它不是單純記住：看到這個畫面就該往左打一把，看到那個路口就該踩一腳剎車。它開始嘗試回答另一個更關(guān)鍵的問題：我為什么要這么做。它會把環(huán)境里的視覺信息，和更高層的語義知識、行為邏輯結(jié)合起來，再去生成動作或者軌跡。

所以理論上，它對陌生場景、長尾場景、復(fù)雜交互場景，會比前兩代更有潛力。現(xiàn)在很多VLA論文都在強調(diào)一件事，就是想讓車不只是會反應(yīng)，還要會推理，會解釋，會按更接近人類駕駛邏輯的方式處理復(fù)雜場景。

所以，在VLA之前：感知≠理解，只能“看到”，不能“看懂”；動作≠推理，只會“條件反射”，不會“思考”。在VLA之后：視覺+語言+動作深度融合，具備語義理解、常識推理、泛化能力，能看懂路牌、理解場景、推理因果、應(yīng)對未知障礙，基本實現(xiàn)了“看懂+聽懂+做對”。

小鵬二代VLA有什么不同

如果說一代VLA，解決的是車開始試著看懂這個世界，那二代VLA，解決的就是車看懂以后，能不能像人一樣把前因后果串起來，再決定下一步該怎么做。這個差別看上去只是從能理解，到更會理解，但本質(zhì)上已經(jīng)不是同一個層級了。

一代更像一個已經(jīng)挺聰明的實習生。你把場景給它，它能大致看明白，也能做出八九不離十的動作。它知道前面是路口，旁邊有行人，左邊有車插進來，這時候該減速，該觀察，該避讓。它比前兩代強的地方，在于不再只會背題，而是開始會讀題了?？蓡栴}在于，它很多時候還是停留在看懂這一層。它知道發(fā)生了什么，但對為什么會這樣，接下來大概率會怎樣，理解還不夠深。

二代VLA想做的，是從看懂眼前，往看穿局勢再走一步。它不只是識別這是不是一個路口，這是不是一個行人，這是不是一個施工錐桶。它還要判斷，這個行人是準備過，還是只是站著等人；這臺電動車是在正常靠邊，還是下一秒就要突然斜切；前方這臺車減速，是因為擁堵，還是因為它也發(fā)現(xiàn)了前面有風險；甚至一個交警抬手的動作，到底是在讓你停，還是讓對向先走。說白了，一代更像是把場景翻譯成動作，二代開始試著把場景翻譯成意圖。

拿同一個最典型的場景來說，前方是個沒有明確保護的路口，右側(cè)有個大車遮擋視線，路邊站著一個人，身后還跟著個小孩。這個場景，一代VLA大概率也會減速，也會謹慎，也知道這里有鬼探頭風險。但它更像是一種經(jīng)驗性反應(yīng)，因為它識別到了危險構(gòu)型，所以先保守一點。二代VLA如果做得更成熟，它不是單純知道危險，而是會進一步推理，這個大人站位靠前，頭朝路口，小孩身體有前傾趨勢，而且兩個人之間沒有明顯牽手約束，那下一秒小孩突然沖出來的概率就高。它的動作就不只是減速，而是更早收油，更堅決備剎，甚至在通過這個遮擋區(qū)之前就把整套風險預(yù)案先擺出來。表面看都是慢一點，背后其實完全不是一個思路。一個是看見風險再應(yīng)對，一個是預(yù)判風險要發(fā)生，所以提前站位。

再比如一個更復(fù)雜的城市場景。前面紅燈被雪覆蓋住了，路口還有交警在指揮。對一代VLA來說，它也許能識別出交警動作，也能結(jié)合周圍車流做出一個相對合理的選擇，但這個過程更像是把多個信號拼起來，哪個信號更明顯，更有把握，它就聽誰的。

二代VLA追求的則是對交通秩序優(yōu)先級本身的理解。它不是簡單地看見一個人在揮手，而是知道在這個時刻，現(xiàn)場人工指揮的權(quán)重高于被遮擋的信號燈，高于地圖預(yù)期，高于靜態(tài)交通規(guī)則。它不只是識別了動作，而是理解了這個動作在整個交通系統(tǒng)里的角色。所以它給出的動作不像一代VLA，靠蒙，而應(yīng)該更接近人類老司機那種我知道現(xiàn)在該聽誰的判斷。

再往下說，同樣是施工繞行場景，一代VLA可能會表現(xiàn)得像個很謹慎的好學生。它看到錐桶，看見臨時改道，看見地面線和導航線對不上，就開始小心翼翼往前蹭。只要場景還在它理解邊界內(nèi)，它也能過。

但二代如果真做起來了，它會表現(xiàn)得更像一個經(jīng)驗豐富的司機。它會知道這里雖然地上還是舊線，但大家都在跟著臨時導流牌走；雖然左邊理論上能走，但前車軌跡、護欄開口、施工人員站位都在告訴它正確路線其實是往右借道。這個時候它不只是避障，而是在還原現(xiàn)場臨時秩序。一個是在復(fù)雜場景里勉強不犯錯，一個是在復(fù)雜場景里主動找到真正的通行邏輯。

所以，一代和二代最大的區(qū)別，不是識別精度從九十分提到九十五分，也不是剎車更柔了、轉(zhuǎn)向更順了。這些都只是結(jié)果。真正的核心差別在于，一代主要還是在做場景到動作的映射，二代開始做場景到意圖，再到動作的推演。前者更像經(jīng)驗驅(qū)動，后者更像世界模型驅(qū)動。前者是我見過類似的，所以我知道大概怎么辦。后者是即便我沒見過一模一樣的，我也能根據(jù)這件事為什么會發(fā)生，推出來接下來應(yīng)該怎么做。

所以你看，這背后邏輯其實也不難理解。因為真實道路最難的，從來不是那些標準題，而是那些沒有標準答案的半開放題。紅綠燈誰都能認，車道線誰都能看，難的是線被磨沒了、燈被擋住了、人不按套路來、車和人都在互相試探。

你要真想把智駕往上推，不可能永遠靠擴題庫。題庫擴得再大，也擋不住現(xiàn)實世界每天都在出新題。所以一代VLA是讓車第一次開始擺脫死記硬背，二代VLA則是繼續(xù)往前走，試著讓它具備一點舉一反三的能力。

當然，你也可以把它理解成，一代是在讓車從條件反射進化到初步理解，二代是在讓車從初步理解進化到連續(xù)推理。前者解決的是別再像機器人一樣開車，后者解決的是能不能像人一樣，把這個路口前后三秒鐘會發(fā)生什么，在腦子里先過一遍，也就是我們說的防御型駕駛。

說到底，誰更接近真正的比老司機還老司機的智駕，不在于它吹得多玄，而在于預(yù)判的準確。

哪些車可以升級VLA二代，有什么區(qū)別

聽完上面這段，你是不是會覺得，神了，小鵬的VLA二代等于自己有思想了啊，這豈不是離自動駕駛更進一步了嗎？但依我看，這里面問題還是有很多的。

首先，按小鵬目前官方披露的信息，第二代VLA除了推送給三顆圖靈芯片的Ultra版，也會推送給雙圖靈的UltraSE，以及部分單圖靈的Max，只是版本和推送節(jié)奏不一樣。比如小鵬P7官方寫得很清楚，UltraSE是2顆圖靈AI芯片+第二代VLA，Ultra是3顆圖靈AI芯片+第二代VLA和VLM大模型。

小鵬G6的說法更直白。官方明確說，Ultra、UltraSE版本會在4月開啟第二代VLA全量推送；Max版也會在今年下半年推送蒸餾后的版本。也就是說，單圖靈的Max不是完全上不了，而是上的不是和Ultra完全同一檔的版本，你可以把蒸餾版，理解為閹割版、殘血版。

至于更老的平臺，尤其不是圖靈芯片那一代的老車，目前我沒有看到小鵬官方給出能直接升級到第二代VLA的明確承諾，我看也有媒體說，未來會給雙Orin-X推蒸餾版。

目前，三顆圖靈芯片的包含：P7Ultra、G7Ultra、X9Ultra、G6Ultra等

兩個圖靈芯片的包含：X9UltraSE、G7UltraSE、G6UltraSE等。少了未來的座艙融合能力，其他全一樣。

一顆圖靈芯片的包含：P7Max、G7Max、G6Max等。只覆蓋高速、城市主干道，沒有全場景、沒有極端場景能力。

記得小鵬剛亮相三顆圖靈芯片的時候，我還不太建議大家入手Ultra版本，我覺得以當時小鵬的智駕能力，三顆圖靈芯片完全是性能過剩。但現(xiàn)在看到二代VLA的能力，我覺得當下如果你要買小鵬的車，三顆圖靈芯片的Ultra版應(yīng)該是首選。

三顆圖靈芯片分工非常明確，兩塊芯片組成一個超強的計算單元，專門負責自動駕駛，所有的感知融合、規(guī)劃決策都在這里完成；另一塊芯片獨立出來，專門負責所謂的智能座艙，也就是你的語音助手、車載娛樂、導航地圖、手勢識別等功能。

為什么要這么做？

因為以前很多車的自動駕駛和娛樂系統(tǒng)是共享計算資源的。就像在一個家庭里，哥哥和弟弟用同一臺電腦，哥哥要寫畢業(yè)論文，弟弟非要看動畫片。結(jié)果就是：你可能在高速上讓車自己開，同時又想導航、聽周杰倫的歌。就在你喊出“播放《聽媽媽的話》”時，系統(tǒng)為了渲染歌詞、字幕或加載高清MV，占用了GPU的一點點資源。就這零點幾秒的反應(yīng)延遲，可能在遇到緊急情況時導致一腳急剎。你以為是前面有危險，其實是系統(tǒng)內(nèi)部的資源沖突、內(nèi)存被打斷導致的“幽靈剎車”。

小鵬的這個三芯片方案，就是用最物理、最直接的方式解決問題：開車的歸開車，聽歌的歸聽歌，兩個大腦互不干擾。

這是一種典型的垂直整合工匠思維：從最底層的硬件到最上層的軟件，每一個環(huán)節(jié)都要自己掌控，做到極致優(yōu)化。這種做法的好處是將性能榨干到極致：

小鵬這三塊“圖靈芯片”并聯(lián)的總算力達到了2250TOPS。

(a)作為對比，NVIDIA下一代旗艦平臺DriveThor的算力是2000TOPS。

(b)這意味著小鵬的自研方案在量產(chǎn)車上，紙面參數(shù)比芯片巨頭NVIDIA的下一代產(chǎn)品還要高。

配備了總共216GB的超大內(nèi)存，這導致了一個質(zhì)變：

(a)他們可以把一個高達300億參數(shù)的大語言模型完整地塞進車里，實現(xiàn)本地化運行。

(b)以前的車只能跑幾十億參數(shù)的模型，遇到復(fù)雜問題（如看不清前方事故）需要把數(shù)據(jù)傳到云端計算再傳回，這一來一回可能半秒鐘就過去了。

在開車的世界里，半秒鐘就是生與死的距離。小鵬的XREA2.0因為模型在本地，整個思考過程（從發(fā)現(xiàn)問題到執(zhí)行決策）在50到100毫秒內(nèi)就能完成，甚至比人類的反應(yīng)還要快很多。這就是垂直整合、死磕硬件帶來的巨大優(yōu)勢。

那么，NVIDIA又是怎么操作的呢？

比如說，你可以給系統(tǒng)加一個語言提示，就像給AI大廚一個指令：“今天做菜，安全和舒適是第一位的，不要追求速度?！比缓笳麄€車的駕駛風格就會變得更柔和、更保守。這就是一種“水平擴展”的平臺思維。它的優(yōu)勢在于：

1. 讓更多的車企能更快用上最先進的技術(shù)

2. 給了車企定制化的空間（這在歐洲、日本這些法規(guī)嚴格且獨特的地方尤其重要）

所以這里就出現(xiàn)了兩條完全不同的路徑：

小鵬：像是一個頂級的工匠。他要親手打造一把完美的寶劍，從煉鋼、鍛打到開刃，每一個細節(jié)都自己來。雖然能打造出鋒利無比的劍，但很有可能這把劍只有他自己用得最順手。

NVIDIA：像是一個軍火商。他打造了一個可以生產(chǎn)各種武器的兵工廠，把圖紙和生產(chǎn)線開放給你，讓你自己去造適合自己的槍炮。所以這場硬件的戰(zhàn)爭，可能沒有絕對的誰贏誰輸，它更像是一場關(guān)于未來的哲學辯論：是把一輛車本身打磨得越來越聰明，最終成為一個接近完美的個體；還是創(chuàng)造一個生態(tài)，讓世界上所有的車都能更容易地接入到這個智能網(wǎng)絡(luò)里？是不是有點蘋果跟安卓的感覺了？

前面聊的是硬件方面的不同思路，下面再講講關(guān)于軟件方面。在VLA這個大的框架下，其實不同的公司對智能的理解，也會有一些不同的分化。這里面會出現(xiàn)兩種有意思的AI人格，一種是預(yù)言家，另一種是自省者。

我們先說預(yù)言家，它的代表就是理想汽車。理想汽車它有一套系統(tǒng)叫做MindVLA-o1。它比較厲害的地方在于，它不僅能看清楚現(xiàn)在，而且它能生成未來。

什么意思呢？傳統(tǒng)的自動駕駛是“看到，然后再反應(yīng)”這種模式。我看到一個行人，我計算它的速度和方向，然后我決定是剎車還是繞行。但理想的這套系統(tǒng)，它在看到那個行人的瞬間，它的大腦里面，或者說它的計算模型里面會立刻生成好幾個未來三秒鐘的3D動畫短片。第一個短片里面，這個行人停下來看手機；在另一個短片里面，他突然加速跑向馬路對面；在第三個短片里面，他可能被旁邊的一輛自行車嚇到，往后退了一步。那么系統(tǒng)可能會同時推演十幾種可能性，并且給每一種可能性分配一個概率。然后它會選擇一個無論在哪種未來里都最安全的駕駛策略。

這就跟下圍棋一樣，圍棋的高手落子之前腦子里面，已經(jīng)推演了后面十幾步甚至幾十步的所有變化。那么這種能力在處理一些比如像行人鬼探頭，或者路口闖紅燈的電動自行車，會有非常大優(yōu)勢。因為它不是在反應(yīng)，而是在預(yù)判。它在毫秒之間就已經(jīng)看到了那個潛在的危險，并且提前做好了規(guī)避動作。

那么這種生成式世界模型的技術(shù)背后，就是有著3D高斯濺射這樣非常前沿的圖形學和AI技術(shù)。它構(gòu)建的不是一個平面的鳥瞰圖，而是一個可以被推演，可以被想象的活生生的三維世界。當然了，這么做的代價就是算力的消耗極大。但是理想汽車賭的是對未來的判斷，所以他們覺得，這帶來的那一點點安全冗余是值得的。

所以，理想汽車這是預(yù)言家，也就是向外看，試圖窮盡世界的所有可能性。

那么自省者是什么意思呢？

自省者，它的代表是一家叫做DeepRoute.ai元戎啟行的公司。他們在GTC大會上展示了他們的VLA模型，一個高達400億參數(shù)的龐然大物，這個模型最有意思的是它的架構(gòu)。他們的系統(tǒng)在開車的時候可以一心三用，你可以想象它有三種人格：司機、分析師和批評家。是不是有點像狼人殺？

1.司機

他負責實時開車處理眼前的路況，能夠做出轉(zhuǎn)向、剎車、加速的指令，這是他的本職工作

2.分析師

他在后臺默默地觀察著司機的一舉一動，并且不斷地分析周圍的環(huán)境。當遇到了一些關(guān)鍵的、復(fù)雜的或者危險的場景時，比如說一次緊急避讓或者一個處理的不太完美的變道，那么分析師就會立刻把這個場景記下來，并且進行因果分析。剛才為什么會差點撞上了，是因為我沒看到他，還是因為我預(yù)判錯了他的意圖？

3.批評家

他不關(guān)心具體的操作，他只負責評價司機開的好不好。他會從三個維度來打分：安全、舒適，還有是否自然。比如說，剛才那個變道雖然安全，但是動作太生硬，讓乘客不舒服，要扣分。這一次過路口讓行讓得太猶豫了，像一個新手不夠果斷，扣分

所以，這三個人格同時工作，形成一個完美的閉環(huán)。

司機在開車，分析師在找問題，批評家在打分。然后那些被標記出來的壞案例和有價值的案例會被系統(tǒng)自動優(yōu)先提取出來，進入下一輪的模型訓練，這就形成了一種自我進化的機制。他不再需要成千上萬的人工標注員，去從海量的視頻數(shù)據(jù)里面大海撈針一樣，去找那些有用的訓練素材，他自己就成了自己最嚴格的老師，自己給自己找茬，自己給自己改作業(yè)。

所以這個模式最終帶來的結(jié)果是驚人的。

傳統(tǒng)車企的數(shù)據(jù)迭代周期可能是一周甚至更長，而元戎啟行就宣稱他們的迭代周期，可以縮短到只要12個小時。那么這就意味著他們的AI司機學習和進步的速度，是別的企業(yè)的4倍到14倍。他可能今天犯的錯，明天就不會再犯了。

所以你看，理想的預(yù)言家是向外看，要理解預(yù)測這個復(fù)雜的世界。而元戎啟行是自省者，是向內(nèi)看，試圖反思和完善自己的人格。他們其實都在用VLA，都在用語言和邏輯來解釋這個世界，但一個在預(yù)測未來，一個在反思過去。

所以你說哪個更能接近我們?nèi)祟愴敿馑緳C的駕駛直覺呢？其實我覺得可能兩者都有。一個優(yōu)秀的司機既要眼觀六路，預(yù)判風險，也要在每次開車后默默地復(fù)盤自己哪里做得不好。所以這兩種AI人格的沖突和融合可能就是通往真正通用人工智能的一條必經(jīng)之路。

真正的難點

前面聊了那么多，大家聽了應(yīng)該也很興奮，覺得離自動駕駛越來越近了。但是大家想過一個問題沒有？技術(shù)再厲害，算力再強，數(shù)據(jù)再多，最終還是要解決一個最根本的問題，就是我們作為人類敢不敢用它，敢不敢把自己的生命交到一個機器手里。

畢竟在大馬路上和坐在高鐵里，它是完全不一樣的。開車沒有軌道，沒有固定的路線，它沒有一個不受干擾的封閉的環(huán)境，一切都是開放的。但你發(fā)現(xiàn)沒有，當開車環(huán)境無法改變的時候，通往自動駕駛最核心的一個環(huán)節(jié)，其實是“可解釋性”帶來的信任重構(gòu)。

過去幾年自動駕駛的事故，每一次都鬧得沸沸揚揚。出了事，車企的工程師站出來，面對監(jiān)管機構(gòu)和媒體的質(zhì)問，他們能做什么呢？他們只能是攤開手給你看一堆復(fù)雜的神經(jīng)網(wǎng)絡(luò)權(quán)重圖，或者幾百頁的日志代碼，然后告訴你，根據(jù)我們的模型分析，當時系統(tǒng)的決策在概率上是最優(yōu)解。這種解釋你聽得懂嗎？普通人都聽不懂，所以監(jiān)管者也很頭疼。

這就像一個醫(yī)生做完手術(shù)，病人出了問題，家屬問他，為什么？他說我們嚴格按照一本你看不懂的醫(yī)學操作手冊進行的，書上說這么做成功率是最高。你說這個解釋你能接受嗎？你肯定不會啊，你只會覺得他在推卸責任。

而二代VLA的出現(xiàn)徹底解決了這個問題。那么再回到我們開頭說的那個場景，現(xiàn)在如果監(jiān)管機構(gòu)問小鵬，你的車在那個路口為什么減速，你的依據(jù)是什么？工程師不用再甩出一堆的圖表，他可以直接播放車里的那一段車載語音，語音里說：

“我觀察到前方有臨時路牌，但是信號燈被積雪覆蓋無法識別。因此，我會根據(jù)前方穿著制服的交警，他的手勢指引慢速通過?！?/p>

這是一個清晰、有邏輯、符合人類常識的解釋。那么監(jiān)管者一聽就明白了，原來你當時的這個動作，你的判斷是這么想的，這個思路很合理很安全。甚至于他們可以進一步討論，如果當時沒有一個交警站在那邊去指揮，你會怎么做？VLA系統(tǒng)甚至可以回答：

“如果沒有人指揮，無法確認路權(quán)，那么我的策略就是停車等待，直到確認安全，或者請求人類接管?！?/p>

所以你看，當機器可以用語言來解釋自己的決策邏輯的時候，它就不再是一個冰冷的、不可知的“它”，而變成了一個可以溝通、可以理解的伙伴。

這種可解釋性帶來的影響是連鎖反應(yīng)：

1.監(jiān)管層面

中國的監(jiān)管機構(gòu)現(xiàn)在已經(jīng)開始批準L3級別的自動駕駛上路，他們的審批要求里面很重要的一條，就是決策的可解釋性和透明度。這幾乎是在倒逼所有的車企，必須往VLA這個方向走。

2.保險公司

保險公司有資深人士透露，他們正在開發(fā)新的車險產(chǎn)品，未來能夠提供清晰決策日志、能夠解釋自己行為的車輛，保費會大大降低。而那些還在使用黑盒子的系統(tǒng)，保費可能會高得離譜。為什么呢？因為責任清晰了，出了事故，一看日志，是系統(tǒng)判斷失誤，還是硬件故障，一目了然。這對于保險公司來說，就降低了最大的不確定性。所以這是一個巨大的經(jīng)濟杠桿。

3.公眾的信任

最后，也是最重要的，是公眾的信任。當你坐在一輛自動駕駛的車里，他突然靠邊停車，在你正不太理解這個動作時，車內(nèi)語音告訴你：“不要擔心，我正在為右后方快速接近的救護車讓路?！边@時候你會怎么想？無數(shù)次解答你的疑惑，你會發(fā)現(xiàn)，這種透明是任何參數(shù)、任何技術(shù)參數(shù)都換不來的信任構(gòu)建的過程。

所以，2026年這一場自動駕駛的革命，我覺得最核心的關(guān)鍵詞不是算力，不是模型參數(shù)，而是解釋。這不是算法的勝利，是人類語言的勝利。語言，這個我們?nèi)祟愖罟爬稀⒆罨A(chǔ)的溝通工具，在AI時代重新成為了連接技術(shù)與社會、機器與人心的那一座最重要的橋梁。

我們今天聊那么多，從硬件的戰(zhàn)爭到算法的靈魂，再到數(shù)據(jù)的洪流，最后落到信任的重建。這一切都指向一個結(jié)論：2026年確實是自動駕駛歷史上的一個巨大拐點。這個轉(zhuǎn)折不僅僅是車變得更聰明，而是車終于學會了用一種我們能聽懂的方式，來解釋它為什么會變聰明。

所以說，關(guān)于更宏大的所謂“物理AI”這個概念，我們不能簡單的把VLA這個架構(gòu)，理解為只是用于自動駕駛。你想一想，一個能理解視覺、能運用語言、能夠做出行動的AI核心，把它從車里拿出來，放到一個機器人里，它是不是能做更多的事情？

所以，小鵬為什么同時在做汽車的自動駕駛，也在做人形機器人？現(xiàn)在想想，大家就都明白了。因為自動駕駛上取得的每一個突破，幾乎都可以無縫地遷移到機器人、工業(yè)自動化等等所有需要與物理世界打交道的領(lǐng)域。我們其實在見證的可能不僅僅是一場交通工具的革命，而是通用物理智能的黎明。所以，小鵬這家公司的價值也在被重構(gòu)。

第二代VLA發(fā)布后資本市場的反應(yīng)就是很好的證明，摩根士丹利、美國銀行、匯豐銀行同步給出“買入”評級，摩根士丹利的研究報告中指出：小鵬第二代VLA的落地，使其具備與特斯拉在全球市場直接競爭的能力，全球智能汽車產(chǎn)業(yè)的格局或迎來新的變量。

你看，現(xiàn)在一臺車已經(jīng)從一個把我們從A點送到B點的鐵皮盒子，變成了一個可以和你溝通、幫你思考，甚至比你更了解這個物理世界的推理引擎。當我們還在討論AI會不會取代我們工作的時候，一種新的能夠理解并且改造物理世界的智能，已經(jīng)悄悄地融入我們最日常的生活里。這意味著什么？沒人能說得清。但這種感覺是不是就像我們第一次看到iPhone，或者第一次連上互聯(lián)網(wǎng)一樣？你知道世界將因此而改變，只是這一次改變的可能不只是信息世界，而是我們身處的這個實實在在的物理世界本身。

想和三刀做朋友？想和三刀的讀者做朋友？

平時不能說，不方便說的

咱們在這里暢快聊~

高質(zhì)量答疑，高含金量資訊，自媒體學習

全在三刀的知識星球

BBA不裝了，豪車的好日子結(jié)束了

徹底殺死燃油車的全固態(tài)電池，真的要來了嗎？
大換代的日產(chǎn)軒逸（參數(shù)丨圖片），油車也要跟電車拼智商了？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.