国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

都在吹小鵬二代VLA,它到底厲害在哪?

0
分享至

百車全說

別人研究車,而我研究你!

今天咱們聊聊,前不久小鵬發(fā)布的第二代VLA,也就是第二代VLA物理世界大模型。沒關(guān)注智駕領(lǐng)域的人可能都聽不懂這是個什么東西,關(guān)注智駕的朋友,可能聽起來不明覺厲,但也很難說清楚好在哪里,背后是什么原理,今后買車如果更看重智駕,小鵬帶有二代VLA的車型,是不是應(yīng)該優(yōu)先考慮?

今天這篇文章,咱們詳細聊聊這玩意到底是真厲害,還是說只是停留在概念上而已,是吹的天花亂墜,還是真有兩把刷子?


什么是VLA

VLA就是“Vision-Language-Action”,視覺-語言-行動模型,一聽就懂,相當于看到了什么-用文字描述出來-再根據(jù)文字執(zhí)行動作。之前大家經(jīng)常聽到“端到端”智能駕駛,就肯定會聽到VLA這個詞,對吧?,F(xiàn)在大家買車,只要帶智駕的,無非是有激光雷達,沒有激光雷達兩個版本。沒有激光雷達的智駕走純視覺路線,有激光雷達的智駕,他其實主要也是靠視覺,只不過帶了激光雷達,相當于多了一重保障,走的是融合感知方案。但無論哪種方案,有了更先進的硬件做基礎(chǔ),所以這兩年各家都在VLA這條路上一路狂飆。


小鵬二代VLA之前,智駕經(jīng)歷的三個階段

而在智駕領(lǐng)域,小鵬的二代VLA技術(shù)出來之前,還經(jīng)歷過三個階段。

第一個階段,是典型的模塊化方案加高精地圖。說白了,就是把感知、預(yù)測、規(guī)劃、控制拆成一個個模塊,再靠人工編寫規(guī)則把它們串起來。車先靠傳感器識別車道線、紅綠燈、路牌、障礙物,再結(jié)合高精地圖,去判斷自己現(xiàn)在在哪、該往哪走、下一步該怎么做。這套方案的問題在于,規(guī)則是人提前寫死的,地圖也是提前標好的,所以它對已知場景處理得還行,但一旦碰到?jīng)]見過的、沒覆蓋到的、或者地圖和現(xiàn)實有偏差的情況,系統(tǒng)就容易發(fā)懵。它不是不會開車,它是只會開自己提前背過答案的那條路。早期自動駕駛廣泛采用這種模塊化棧,而且高度依賴精準定位與高精地圖,這也是后來行業(yè)越來越想擺脫它的重要原因。

第二個階段,就開始從人工寫規(guī)則,升級到讓模型通過海量駕駛數(shù)據(jù)去學習,也就是大家常說的端到端、或者偏端到端的數(shù)據(jù)驅(qū)動方案。你可以理解成,第一階段是老師把答案寫在黑板上,讓車背下來。第二階段是把大量人類司機怎么開車的數(shù)據(jù)喂給它,讓它自己去學輸入和輸出之間的關(guān)系。比如,前面看到什么畫面,后面就打多少方向、踩多大油門、剎多大力度。


這個階段比第一階段確實先進,因為它減少了人工規(guī)則堆砌,提升了訓練和迭代效率,但它本質(zhì)上還是一種映射學習。也就是說,它更像是在模仿,而不是在真正理解。換句話說,訓練里見過的場景,它會越來越熟。但是訓練里沒見過的長尾場景,它照樣可能不會。

而且第二階段還有個很致命的問題,就是黑箱。你看到的是它做出了動作,但你很難準確說清楚,它為什么這么做。出了問題,往往只能看到結(jié)果不對,卻很難一層一層地追溯,到底是感知錯了,還是理解錯了,還是規(guī)劃錯了。換句話說,它會開,但它不太會解釋。它像一個做題很快的學生,答案可能能寫出來,但你讓他把解題過程完整復(fù)述出來,他不一定講得清楚。對于智駕這種高安全要求的系統(tǒng)來說,這件事就很麻煩,因為你不光要它會做,還要知道它為什么這么做,出了問題怎么查,怎么改,怎么驗證。

接下來,就到了第三個階段,也就是一代VLA,視覺—語言—行動模型。


這一代跟前面最大的區(qū)別,不是它終于看得更清楚了,而是它開始試著先理解,再行動。以前的系統(tǒng),很多時候是看到畫面,直接輸出動作,中間像一根線,輸入接輸出,快是快了,但到底理解了多少,不好說。VLA不一樣,它把視覺信息、語言知識和行動決策放進了一個更統(tǒng)一的框架里。它不僅想知道前面有車、有燈、有行人,它還想進一步理解,這個場景里誰更危險,哪個目標更關(guān)鍵,這個行人是在等待,還是準備突然橫穿,這輛電瓶車接下來大概率會不會并線,這個路口真正該優(yōu)先處理的矛盾是什么。

VLA的核心就是把視覺感知、語義理解、語言推理和軌跡/動作輸出更緊地連起來,而不是只做機械的畫面到動作映射。


所以總結(jié)來講,第一階段,是把規(guī)則寫死,像查字典、翻說明書開車。題庫里有,它就會。題庫里沒有,它就愣住。

第二階段,是通過數(shù)據(jù)去模仿,像看別人怎么開,自己照著學。學得多了,很多常見題也能做得不錯,但它更像小鎮(zhèn)做題家,不是真正理解題意,只是為了刷到過,填上了正確答案而已。題目稍微拐個彎,或者換個沒見過的說法,它還是容易翻車。

第三階段,也就是一代VLA,才開始往理解題意這個方向走。它不是單純記住:看到這個畫面就該往左打一把,看到那個路口就該踩一腳剎車。它開始嘗試回答另一個更關(guān)鍵的問題:我為什么要這么做。它會把環(huán)境里的視覺信息,和更高層的語義知識、行為邏輯結(jié)合起來,再去生成動作或者軌跡。

所以理論上,它對陌生場景、長尾場景、復(fù)雜交互場景,會比前兩代更有潛力。現(xiàn)在很多VLA論文都在強調(diào)一件事,就是想讓車不只是會反應(yīng),還要會推理,會解釋,會按更接近人類駕駛邏輯的方式處理復(fù)雜場景。

所以,在VLA之前:感知≠理解,只能“看到”,不能“看懂”;動作≠推理,只會“條件反射”,不會“思考”。在VLA之后:視覺+語言+動作深度融合,具備語義理解、常識推理、泛化能力,能看懂路牌、理解場景、推理因果、應(yīng)對未知障礙,基本實現(xiàn)了“看懂+聽懂+做對”。

小鵬二代VLA有什么不同

如果說一代VLA,解決的是車開始試著看懂這個世界,那二代VLA,解決的就是車看懂以后,能不能像人一樣把前因后果串起來,再決定下一步該怎么做。這個差別看上去只是從能理解,到更會理解,但本質(zhì)上已經(jīng)不是同一個層級了。


一代更像一個已經(jīng)挺聰明的實習生。你把場景給它,它能大致看明白,也能做出八九不離十的動作。它知道前面是路口,旁邊有行人,左邊有車插進來,這時候該減速,該觀察,該避讓。它比前兩代強的地方,在于不再只會背題,而是開始會讀題了??蓡栴}在于,它很多時候還是停留在看懂這一層。它知道發(fā)生了什么,但對為什么會這樣,接下來大概率會怎樣,理解還不夠深。

二代VLA想做的,是從看懂眼前,往看穿局勢再走一步。它不只是識別這是不是一個路口,這是不是一個行人,這是不是一個施工錐桶。它還要判斷,這個行人是準備過,還是只是站著等人;這臺電動車是在正常靠邊,還是下一秒就要突然斜切;前方這臺車減速,是因為擁堵,還是因為它也發(fā)現(xiàn)了前面有風險;甚至一個交警抬手的動作,到底是在讓你停,還是讓對向先走。說白了,一代更像是把場景翻譯成動作,二代開始試著把場景翻譯成意圖。

拿同一個最典型的場景來說,前方是個沒有明確保護的路口,右側(cè)有個大車遮擋視線,路邊站著一個人,身后還跟著個小孩。這個場景,一代VLA大概率也會減速,也會謹慎,也知道這里有鬼探頭風險。但它更像是一種經(jīng)驗性反應(yīng),因為它識別到了危險構(gòu)型,所以先保守一點。二代VLA如果做得更成熟,它不是單純知道危險,而是會進一步推理,這個大人站位靠前,頭朝路口,小孩身體有前傾趨勢,而且兩個人之間沒有明顯牽手約束,那下一秒小孩突然沖出來的概率就高。它的動作就不只是減速,而是更早收油,更堅決備剎,甚至在通過這個遮擋區(qū)之前就把整套風險預(yù)案先擺出來。表面看都是慢一點,背后其實完全不是一個思路。一個是看見風險再應(yīng)對,一個是預(yù)判風險要發(fā)生,所以提前站位。

再比如一個更復(fù)雜的城市場景。前面紅燈被雪覆蓋住了,路口還有交警在指揮。對一代VLA來說,它也許能識別出交警動作,也能結(jié)合周圍車流做出一個相對合理的選擇,但這個過程更像是把多個信號拼起來,哪個信號更明顯,更有把握,它就聽誰的。


二代VLA追求的則是對交通秩序優(yōu)先級本身的理解。它不是簡單地看見一個人在揮手,而是知道在這個時刻,現(xiàn)場人工指揮的權(quán)重高于被遮擋的信號燈,高于地圖預(yù)期,高于靜態(tài)交通規(guī)則。它不只是識別了動作,而是理解了這個動作在整個交通系統(tǒng)里的角色。所以它給出的動作不像一代VLA,靠蒙,而應(yīng)該更接近人類老司機那種我知道現(xiàn)在該聽誰的判斷。

再往下說,同樣是施工繞行場景,一代VLA可能會表現(xiàn)得像個很謹慎的好學生。它看到錐桶,看見臨時改道,看見地面線和導航線對不上,就開始小心翼翼往前蹭。只要場景還在它理解邊界內(nèi),它也能過。

但二代如果真做起來了,它會表現(xiàn)得更像一個經(jīng)驗豐富的司機。它會知道這里雖然地上還是舊線,但大家都在跟著臨時導流牌走;雖然左邊理論上能走,但前車軌跡、護欄開口、施工人員站位都在告訴它正確路線其實是往右借道。這個時候它不只是避障,而是在還原現(xiàn)場臨時秩序。一個是在復(fù)雜場景里勉強不犯錯,一個是在復(fù)雜場景里主動找到真正的通行邏輯。


所以,一代和二代最大的區(qū)別,不是識別精度從九十分提到九十五分,也不是剎車更柔了、轉(zhuǎn)向更順了。這些都只是結(jié)果。真正的核心差別在于,一代主要還是在做場景到動作的映射,二代開始做場景到意圖,再到動作的推演。前者更像經(jīng)驗驅(qū)動,后者更像世界模型驅(qū)動。前者是我見過類似的,所以我知道大概怎么辦。后者是即便我沒見過一模一樣的,我也能根據(jù)這件事為什么會發(fā)生,推出來接下來應(yīng)該怎么做。


所以你看,這背后邏輯其實也不難理解。因為真實道路最難的,從來不是那些標準題,而是那些沒有標準答案的半開放題。紅綠燈誰都能認,車道線誰都能看,難的是線被磨沒了、燈被擋住了、人不按套路來、車和人都在互相試探。

你要真想把智駕往上推,不可能永遠靠擴題庫。題庫擴得再大,也擋不住現(xiàn)實世界每天都在出新題。所以一代VLA是讓車第一次開始擺脫死記硬背,二代VLA則是繼續(xù)往前走,試著讓它具備一點舉一反三的能力。

當然,你也可以把它理解成,一代是在讓車從條件反射進化到初步理解,二代是在讓車從初步理解進化到連續(xù)推理。前者解決的是別再像機器人一樣開車,后者解決的是能不能像人一樣,把這個路口前后三秒鐘會發(fā)生什么,在腦子里先過一遍,也就是我們說的防御型駕駛。

說到底,誰更接近真正的比老司機還老司機的智駕,不在于它吹得多玄,而在于預(yù)判的準確。


哪些車可以升級VLA二代,有什么區(qū)別

聽完上面這段,你是不是會覺得,神了,小鵬的VLA二代等于自己有思想了啊,這豈不是離自動駕駛更進一步了嗎?但依我看,這里面問題還是有很多的。

首先,按小鵬目前官方披露的信息,第二代VLA除了推送給三顆圖靈芯片的Ultra版,也會推送給雙圖靈的UltraSE,以及部分單圖靈的Max,只是版本和推送節(jié)奏不一樣。比如小鵬P7官方寫得很清楚,UltraSE是2顆圖靈AI芯片+第二代VLA,Ultra是3顆圖靈AI芯片+第二代VLA和VLM大模型。

小鵬G6的說法更直白。官方明確說,Ultra、UltraSE版本會在4月開啟第二代VLA全量推送;Max版也會在今年下半年推送蒸餾后的版本。也就是說,單圖靈的Max不是完全上不了,而是上的不是和Ultra完全同一檔的版本,你可以把蒸餾版,理解為閹割版、殘血版。


至于更老的平臺,尤其不是圖靈芯片那一代的老車,目前我沒有看到小鵬官方給出能直接升級到第二代VLA的明確承諾,我看也有媒體說,未來會給雙Orin-X推蒸餾版。

目前,三顆圖靈芯片的包含:P7Ultra、G7Ultra、X9Ultra、G6Ultra等

兩個圖靈芯片的包含:X9UltraSE、G7UltraSE、G6UltraSE等。少了未來的座艙融合能力,其他全一樣。

一顆圖靈芯片的包含:P7Max、G7Max、G6Max等。只覆蓋高速、城市主干道,沒有全場景、沒有極端場景能力。

記得小鵬剛亮相三顆圖靈芯片的時候,我還不太建議大家入手Ultra版本,我覺得以當時小鵬的智駕能力,三顆圖靈芯片完全是性能過剩。但現(xiàn)在看到二代VLA的能力,我覺得當下如果你要買小鵬的車,三顆圖靈芯片的Ultra版應(yīng)該是首選。


三顆圖靈芯片分工非常明確,兩塊芯片組成一個超強的計算單元,專門負責自動駕駛,所有的感知融合、規(guī)劃決策都在這里完成;另一塊芯片獨立出來,專門負責所謂的智能座艙,也就是你的語音助手、車載娛樂、導航地圖、手勢識別等功能。

為什么要這么做?

因為以前很多車的自動駕駛和娛樂系統(tǒng)是共享計算資源的。就像在一個家庭里,哥哥和弟弟用同一臺電腦,哥哥要寫畢業(yè)論文,弟弟非要看動畫片。結(jié)果就是:你可能在高速上讓車自己開,同時又想導航、聽周杰倫的歌。就在你喊出“播放《聽媽媽的話》”時,系統(tǒng)為了渲染歌詞、字幕或加載高清MV,占用了GPU的一點點資源。就這零點幾秒的反應(yīng)延遲,可能在遇到緊急情況時導致一腳急剎。你以為是前面有危險,其實是系統(tǒng)內(nèi)部的資源沖突、內(nèi)存被打斷導致的“幽靈剎車”。


小鵬的這個三芯片方案,就是用最物理、最直接的方式解決問題:開車的歸開車,聽歌的歸聽歌,兩個大腦互不干擾。

這是一種典型的垂直整合工匠思維:從最底層的硬件到最上層的軟件,每一個環(huán)節(jié)都要自己掌控,做到極致優(yōu)化。這種做法的好處是將性能榨干到極致:

小鵬這三塊“圖靈芯片”并聯(lián)的總算力達到了2250TOPS。

(a)作為對比,NVIDIA下一代旗艦平臺DriveThor的算力是2000TOPS。

(b)這意味著小鵬的自研方案在量產(chǎn)車上,紙面參數(shù)比芯片巨頭NVIDIA的下一代產(chǎn)品還要高。

配備了總共216GB的超大內(nèi)存,這導致了一個質(zhì)變:

(a)他們可以把一個高達300億參數(shù)的大語言模型完整地塞進車里,實現(xiàn)本地化運行。

(b)以前的車只能跑幾十億參數(shù)的模型,遇到復(fù)雜問題(如看不清前方事故)需要把數(shù)據(jù)傳到云端計算再傳回,這一來一回可能半秒鐘就過去了。


在開車的世界里,半秒鐘就是生與死的距離。小鵬的XREA2.0因為模型在本地,整個思考過程(從發(fā)現(xiàn)問題到執(zhí)行決策)在50到100毫秒內(nèi)就能完成,甚至比人類的反應(yīng)還要快很多。這就是垂直整合、死磕硬件帶來的巨大優(yōu)勢。

那么,NVIDIA又是怎么操作的呢?

比如說,你可以給系統(tǒng)加一個語言提示,就像給AI大廚一個指令:“今天做菜,安全和舒適是第一位的,不要追求速度?!比缓笳麄€車的駕駛風格就會變得更柔和、更保守。這就是一種“水平擴展”的平臺思維。它的優(yōu)勢在于:

1. 讓更多的車企能更快用上最先進的技術(shù)

2. 給了車企定制化的空間(這在歐洲、日本這些法規(guī)嚴格且獨特的地方尤其重要)

所以這里就出現(xiàn)了兩條完全不同的路徑:

小鵬:像是一個頂級的工匠。他要親手打造一把完美的寶劍,從煉鋼、鍛打到開刃,每一個細節(jié)都自己來。雖然能打造出鋒利無比的劍,但很有可能這把劍只有他自己用得最順手。


NVIDIA:像是一個軍火商。他打造了一個可以生產(chǎn)各種武器的兵工廠,把圖紙和生產(chǎn)線開放給你,讓你自己去造適合自己的槍炮。所以這場硬件的戰(zhàn)爭,可能沒有絕對的誰贏誰輸,它更像是一場關(guān)于未來的哲學辯論:是把一輛車本身打磨得越來越聰明,最終成為一個接近完美的個體;還是創(chuàng)造一個生態(tài),讓世界上所有的車都能更容易地接入到這個智能網(wǎng)絡(luò)里?是不是有點蘋果跟安卓的感覺了?

前面聊的是硬件方面的不同思路,下面再講講關(guān)于軟件方面。在VLA這個大的框架下,其實不同的公司對智能的理解,也會有一些不同的分化。這里面會出現(xiàn)兩種有意思的AI人格,一種是預(yù)言家,另一種是自省者。

我們先說預(yù)言家,它的代表就是理想汽車。理想汽車它有一套系統(tǒng)叫做MindVLA-o1。它比較厲害的地方在于,它不僅能看清楚現(xiàn)在,而且它能生成未來。


什么意思呢?傳統(tǒng)的自動駕駛是“看到,然后再反應(yīng)”這種模式。我看到一個行人,我計算它的速度和方向,然后我決定是剎車還是繞行。但理想的這套系統(tǒng),它在看到那個行人的瞬間,它的大腦里面,或者說它的計算模型里面會立刻生成好幾個未來三秒鐘的3D動畫短片。第一個短片里面,這個行人停下來看手機;在另一個短片里面,他突然加速跑向馬路對面;在第三個短片里面,他可能被旁邊的一輛自行車嚇到,往后退了一步。那么系統(tǒng)可能會同時推演十幾種可能性,并且給每一種可能性分配一個概率。然后它會選擇一個無論在哪種未來里都最安全的駕駛策略。

這就跟下圍棋一樣,圍棋的高手落子之前腦子里面,已經(jīng)推演了后面十幾步甚至幾十步的所有變化。那么這種能力在處理一些比如像行人鬼探頭,或者路口闖紅燈的電動自行車,會有非常大優(yōu)勢。因為它不是在反應(yīng),而是在預(yù)判。它在毫秒之間就已經(jīng)看到了那個潛在的危險,并且提前做好了規(guī)避動作。

那么這種生成式世界模型的技術(shù)背后,就是有著3D高斯濺射這樣非常前沿的圖形學和AI技術(shù)。它構(gòu)建的不是一個平面的鳥瞰圖,而是一個可以被推演,可以被想象的活生生的三維世界。當然了,這么做的代價就是算力的消耗極大。但是理想汽車賭的是對未來的判斷,所以他們覺得,這帶來的那一點點安全冗余是值得的。

所以,理想汽車這是預(yù)言家,也就是向外看,試圖窮盡世界的所有可能性。


那么自省者是什么意思呢?

自省者,它的代表是一家叫做DeepRoute.ai元戎啟行的公司。他們在GTC大會上展示了他們的VLA模型,一個高達400億參數(shù)的龐然大物,這個模型最有意思的是它的架構(gòu)。他們的系統(tǒng)在開車的時候可以一心三用,你可以想象它有三種人格:司機、分析師和批評家。是不是有點像狼人殺?

1.司機

他負責實時開車處理眼前的路況,能夠做出轉(zhuǎn)向、剎車、加速的指令,這是他的本職工作

2.分析師

他在后臺默默地觀察著司機的一舉一動,并且不斷地分析周圍的環(huán)境。當遇到了一些關(guān)鍵的、復(fù)雜的或者危險的場景時,比如說一次緊急避讓或者一個處理的不太完美的變道,那么分析師就會立刻把這個場景記下來,并且進行因果分析。剛才為什么會差點撞上了,是因為我沒看到他,還是因為我預(yù)判錯了他的意圖?

3.批評家

他不關(guān)心具體的操作,他只負責評價司機開的好不好。他會從三個維度來打分:安全、舒適,還有是否自然。比如說,剛才那個變道雖然安全,但是動作太生硬,讓乘客不舒服,要扣分。這一次過路口讓行讓得太猶豫了,像一個新手不夠果斷,扣分

所以,這三個人格同時工作,形成一個完美的閉環(huán)。

司機在開車,分析師在找問題,批評家在打分。然后那些被標記出來的壞案例和有價值的案例會被系統(tǒng)自動優(yōu)先提取出來,進入下一輪的模型訓練,這就形成了一種自我進化的機制。他不再需要成千上萬的人工標注員,去從海量的視頻數(shù)據(jù)里面大海撈針一樣,去找那些有用的訓練素材,他自己就成了自己最嚴格的老師,自己給自己找茬,自己給自己改作業(yè)。

所以這個模式最終帶來的結(jié)果是驚人的。


傳統(tǒng)車企的數(shù)據(jù)迭代周期可能是一周甚至更長,而元戎啟行就宣稱他們的迭代周期,可以縮短到只要12個小時。那么這就意味著他們的AI司機學習和進步的速度,是別的企業(yè)的4倍到14倍。他可能今天犯的錯,明天就不會再犯了。

所以你看,理想的預(yù)言家是向外看,要理解預(yù)測這個復(fù)雜的世界。而元戎啟行是自省者,是向內(nèi)看,試圖反思和完善自己的人格。他們其實都在用VLA,都在用語言和邏輯來解釋這個世界,但一個在預(yù)測未來,一個在反思過去。

所以你說哪個更能接近我們?nèi)祟愴敿馑緳C的駕駛直覺呢?其實我覺得可能兩者都有。一個優(yōu)秀的司機既要眼觀六路,預(yù)判風險,也要在每次開車后默默地復(fù)盤自己哪里做得不好。所以這兩種AI人格的沖突和融合可能就是通往真正通用人工智能的一條必經(jīng)之路。


真正的難點

前面聊了那么多,大家聽了應(yīng)該也很興奮,覺得離自動駕駛越來越近了。但是大家想過一個問題沒有?技術(shù)再厲害,算力再強,數(shù)據(jù)再多,最終還是要解決一個最根本的問題,就是我們作為人類敢不敢用它,敢不敢把自己的生命交到一個機器手里。

畢竟在大馬路上和坐在高鐵里,它是完全不一樣的。開車沒有軌道,沒有固定的路線,它沒有一個不受干擾的封閉的環(huán)境,一切都是開放的。但你發(fā)現(xiàn)沒有,當開車環(huán)境無法改變的時候,通往自動駕駛最核心的一個環(huán)節(jié),其實是“可解釋性”帶來的信任重構(gòu)。


過去幾年自動駕駛的事故,每一次都鬧得沸沸揚揚。出了事,車企的工程師站出來,面對監(jiān)管機構(gòu)和媒體的質(zhì)問,他們能做什么呢?他們只能是攤開手給你看一堆復(fù)雜的神經(jīng)網(wǎng)絡(luò)權(quán)重圖,或者幾百頁的日志代碼,然后告訴你,根據(jù)我們的模型分析,當時系統(tǒng)的決策在概率上是最優(yōu)解。這種解釋你聽得懂嗎?普通人都聽不懂,所以監(jiān)管者也很頭疼。

這就像一個醫(yī)生做完手術(shù),病人出了問題,家屬問他,為什么?他說我們嚴格按照一本你看不懂的醫(yī)學操作手冊進行的,書上說這么做成功率是最高。你說這個解釋你能接受嗎?你肯定不會啊,你只會覺得他在推卸責任。


而二代VLA的出現(xiàn)徹底解決了這個問題。那么再回到我們開頭說的那個場景,現(xiàn)在如果監(jiān)管機構(gòu)問小鵬,你的車在那個路口為什么減速,你的依據(jù)是什么?工程師不用再甩出一堆的圖表,他可以直接播放車里的那一段車載語音,語音里說:

“我觀察到前方有臨時路牌,但是信號燈被積雪覆蓋無法識別。因此,我會根據(jù)前方穿著制服的交警,他的手勢指引慢速通過?!?/p>

這是一個清晰、有邏輯、符合人類常識的解釋。那么監(jiān)管者一聽就明白了,原來你當時的這個動作,你的判斷是這么想的,這個思路很合理很安全。甚至于他們可以進一步討論,如果當時沒有一個交警站在那邊去指揮,你會怎么做?VLA系統(tǒng)甚至可以回答:

“如果沒有人指揮,無法確認路權(quán),那么我的策略就是停車等待,直到確認安全,或者請求人類接管?!?/p>

所以你看,當機器可以用語言來解釋自己的決策邏輯的時候,它就不再是一個冰冷的、不可知的“它”,而變成了一個可以溝通、可以理解的伙伴。


這種可解釋性帶來的影響是連鎖反應(yīng):

1.監(jiān)管層面

中國的監(jiān)管機構(gòu)現(xiàn)在已經(jīng)開始批準L3級別的自動駕駛上路,他們的審批要求里面很重要的一條,就是決策的可解釋性和透明度。這幾乎是在倒逼所有的車企,必須往VLA這個方向走。

2.保險公司

保險公司有資深人士透露,他們正在開發(fā)新的車險產(chǎn)品,未來能夠提供清晰決策日志、能夠解釋自己行為的車輛,保費會大大降低。而那些還在使用黑盒子的系統(tǒng),保費可能會高得離譜。為什么呢?因為責任清晰了,出了事故,一看日志,是系統(tǒng)判斷失誤,還是硬件故障,一目了然。這對于保險公司來說,就降低了最大的不確定性。所以這是一個巨大的經(jīng)濟杠桿。

3.公眾的信任

最后,也是最重要的,是公眾的信任。當你坐在一輛自動駕駛的車里,他突然靠邊停車,在你正不太理解這個動作時,車內(nèi)語音告訴你:“不要擔心,我正在為右后方快速接近的救護車讓路?!边@時候你會怎么想?無數(shù)次解答你的疑惑,你會發(fā)現(xiàn),這種透明是任何參數(shù)、任何技術(shù)參數(shù)都換不來的信任構(gòu)建的過程。

所以,2026年這一場自動駕駛的革命,我覺得最核心的關(guān)鍵詞不是算力,不是模型參數(shù),而是解釋。這不是算法的勝利,是人類語言的勝利。語言,這個我們?nèi)祟愖罟爬稀⒆罨A(chǔ)的溝通工具,在AI時代重新成為了連接技術(shù)與社會、機器與人心的那一座最重要的橋梁。

我們今天聊那么多,從硬件的戰(zhàn)爭到算法的靈魂,再到數(shù)據(jù)的洪流,最后落到信任的重建。這一切都指向一個結(jié)論:2026年確實是自動駕駛歷史上的一個巨大拐點。這個轉(zhuǎn)折不僅僅是車變得更聰明,而是車終于學會了用一種我們能聽懂的方式,來解釋它為什么會變聰明。


所以說,關(guān)于更宏大的所謂“物理AI”這個概念,我們不能簡單的把VLA這個架構(gòu),理解為只是用于自動駕駛。你想一想,一個能理解視覺、能運用語言、能夠做出行動的AI核心,把它從車里拿出來,放到一個機器人里,它是不是能做更多的事情?

所以,小鵬為什么同時在做汽車的自動駕駛,也在做人形機器人?現(xiàn)在想想,大家就都明白了。因為自動駕駛上取得的每一個突破,幾乎都可以無縫地遷移到機器人、工業(yè)自動化等等所有需要與物理世界打交道的領(lǐng)域。我們其實在見證的可能不僅僅是一場交通工具的革命,而是通用物理智能的黎明。所以,小鵬這家公司的價值也在被重構(gòu)。

第二代VLA發(fā)布后資本市場的反應(yīng)就是很好的證明,摩根士丹利、美國銀行、匯豐銀行同步給出“買入”評級,摩根士丹利的研究報告中指出:小鵬第二代VLA的落地,使其具備與特斯拉在全球市場直接競爭的能力,全球智能汽車產(chǎn)業(yè)的格局或迎來新的變量。

你看,現(xiàn)在一臺車已經(jīng)從一個把我們從A點送到B點的鐵皮盒子,變成了一個可以和你溝通、幫你思考,甚至比你更了解這個物理世界的推理引擎。當我們還在討論AI會不會取代我們工作的時候,一種新的能夠理解并且改造物理世界的智能,已經(jīng)悄悄地融入我們最日常的生活里。這意味著什么?沒人能說得清。但這種感覺是不是就像我們第一次看到iPhone,或者第一次連上互聯(lián)網(wǎng)一樣?你知道世界將因此而改變,只是這一次改變的可能不只是信息世界,而是我們身處的這個實實在在的物理世界本身。


想和三刀做朋友?想和三刀的讀者做朋友?

平時不能說,不方便說的

咱們在這里暢快聊~

高質(zhì)量答疑,高含金量資訊,自媒體學習

全在三刀的知識星球


BBA不裝了,豪車的好日子結(jié)束了

徹底殺死燃油車的全固態(tài)電池,真的要來了嗎?
大換代的日產(chǎn)軒逸參數(shù)圖片),油車也要跟電車拼智商了?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
普通家庭能給孩子最好的托舉是什么?網(wǎng)友:真的說到點上了

普通家庭能給孩子最好的托舉是什么?網(wǎng)友:真的說到點上了

夜深愛雜談
2025-11-21 20:20:12
許家印昔日辦公室內(nèi)景曝光,房間一個接著一個很奢華,像迷宮一樣

許家印昔日辦公室內(nèi)景曝光,房間一個接著一個很奢華,像迷宮一樣

娛樂團長
2026-04-16 20:26:02
山東省淄博市人大常委會原副主任王樹槐接受審查調(diào)查

山東省淄博市人大常委會原副主任王樹槐接受審查調(diào)查

界面新聞
2026-04-16 11:05:48
許家印大兒的加拿大生活:無錢但自由、每天抽中華、二弟前途未卜

許家印大兒的加拿大生活:無錢但自由、每天抽中華、二弟前途未卜

茶喝多了睡不著
2026-04-15 22:15:05
交警提醒:新交規(guī)落地,高速143km/h不扣分,龜速行車直接扣3分!

交警提醒:新交規(guī)落地,高速143km/h不扣分,龜速行車直接扣3分!

復(fù)轉(zhuǎn)這些年
2026-04-14 12:14:50
我媽被姑姑扇了6耳光,我爸靜了2秒,轉(zhuǎn)身把427萬的拆遷款給我媽

我媽被姑姑扇了6耳光,我爸靜了2秒,轉(zhuǎn)身把427萬的拆遷款給我媽

楓紅染山徑
2026-04-11 12:25:56
普京敲定訪華,特朗普緊急下命令,中國通告全球,無懼美國威脅

普京敲定訪華,特朗普緊急下命令,中國通告全球,無懼美國威脅

書紀文譚
2026-04-16 18:08:02
維拉失點仍轟7-1!雙殺意甲勁旅+9連勝創(chuàng)紀錄 埃梅里沖歐聯(lián)第5冠

維拉失點仍轟7-1!雙殺意甲勁旅+9連勝創(chuàng)紀錄 埃梅里沖歐聯(lián)第5冠

我愛英超
2026-04-17 06:39:10
保姆帶著十歲的兒子,住進了雇主家,這樣的結(jié)局讓人很糾結(jié)

保姆帶著十歲的兒子,住進了雇主家,這樣的結(jié)局讓人很糾結(jié)

李蘇章
2026-04-16 08:03:07
李在明認清了大勢,承認有中俄做靠山,朝鮮的苦日子已經(jīng)熬出頭了

李在明認清了大勢,承認有中俄做靠山,朝鮮的苦日子已經(jīng)熬出頭了

藍色海邊
2026-04-17 08:23:58
震驚!20名中國學者赴美參加學術(shù)會議,竟被集體遣返

震驚!20名中國學者赴美參加學術(shù)會議,竟被集體遣返

大洛杉磯LA
2026-04-17 06:41:14
來個胸透,專治各種嘴硬的

來個胸透,專治各種嘴硬的

飛娛日記
2026-04-17 08:49:47
許家印認罪后老家的功德碑還在,村民:一定會永久保留

許家印認罪后老家的功德碑還在,村民:一定會永久保留

映射生活的身影
2026-04-16 19:18:33
樂極生悲?奪冠僅1周,王楚欽傳來“噩耗”

樂極生悲?奪冠僅1周,王楚欽傳來“噩耗”

籃球看比賽
2026-04-16 09:55:21
復(fù)活節(jié)的鮮血與教皇的沉默:為何對川普憤怒,卻對屠殺失聲?

復(fù)活節(jié)的鮮血與教皇的沉默:為何對川普憤怒,卻對屠殺失聲?

斌聞天下
2026-04-16 07:25:03
深度解析歐冠潰?。夯蜀R巴薩雙雙出局,兩大豪門命運卻已天差地別

深度解析歐冠潰?。夯蜀R巴薩雙雙出局,兩大豪門命運卻已天差地別

夜白侃球
2026-04-17 09:15:25
參考封面|伊朗戰(zhàn)爭加速美國霸權(quán)衰落

參考封面|伊朗戰(zhàn)爭加速美國霸權(quán)衰落

參考消息
2026-04-16 16:49:03
湖火能打幾場?“東里”何時歸隊是關(guān)鍵!火箭要將籃板優(yōu)勢最大化

湖火能打幾場?“東里”何時歸隊是關(guān)鍵!火箭要將籃板優(yōu)勢最大化

小七說籃球
2026-04-17 10:18:17
吳昕鄭凱戀情曝光,兩人疑已相戀7年,女方曾談婚戀觀:戀愛可以談,結(jié)婚得慎重

吳昕鄭凱戀情曝光,兩人疑已相戀7年,女方曾談婚戀觀:戀愛可以談,結(jié)婚得慎重

魯中晨報
2026-04-16 18:08:04
奇怪!飛機改成硬座、高鐵也在降速,交通工具為何集體降級?

奇怪!飛機改成硬座、高鐵也在降速,交通工具為何集體降級?

丁丁鯉史紀
2026-04-16 14:07:38
2026-04-17 10:48:49
百車全說
百車全說
聽三刀說車事
4599文章數(shù) 5073關(guān)注度
往期回顧 全部

汽車要聞

埃安N60預(yù)售11.58萬起 標配激光雷達/零重力座椅

頭條要聞

男子快遞被人力資源女同事私自拆開 幾天后反被開除

頭條要聞

男子快遞被人力資源女同事私自拆開 幾天后反被開除

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

態(tài)度原創(chuàng)

教育
數(shù)碼
本地
公開課
軍事航空

教育要聞

從“陪練”到“引路”:我們是如何陪孩子跳出冠軍與學霸雙軌的——王亮家教好故事

數(shù)碼要聞

Alienware聯(lián)合Team Liquid推出《星球大戰(zhàn)》主題鍵帽、鼠標墊

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美宣布黎以?;?0天 以方稱不會撤軍

無障礙瀏覽 進入關(guān)懷版