国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

FSD V14的技術(shù)突破——ICCV Ashok技術(shù)分享解析

0
分享至

Tesla FSD V14系列推出約兩周以來,已連續(xù)迭代了4個小版本,展現(xiàn)了快速的進(jìn)化節(jié)奏。初始版本14.1在駕駛AI能力上實現(xiàn)了顯著突破,讓人初步窺見“覺醒”的駕駛AI的雛形。隨后的14.1.1版本重點優(yōu)化了初版存在的剎車頓挫問題;14.1.2引入了廣受好評的極致高效的Mad Max模式;而14.1.3則擴大了對Model S/X車型的支持,并開始向更廣泛的非KOL用戶推送。這種高速的版本迭代表明,自動駕駛技術(shù)在融入其他AI領(lǐng)域的進(jìn)展后,正進(jìn)入一個加速演化的新階段。

在14.1版本發(fā)布后不久,我曾撰寫了一篇V14的初步探索文章,匯總了相關(guān)傳聞和實車表現(xiàn)亮點。感興趣的朋友可以點擊鏈接閱讀。端到端架構(gòu)下的FSD實車體驗進(jìn)步迅猛,但自2022年AI Day后,Tesla對其自動駕駛技術(shù)的詳細(xì)進(jìn)展披露甚少。在10月20日于夏威夷舉辦的ICCV國際計算機視覺學(xué)術(shù)會議上,Tesla AI副總裁Ashok分享了公司自動駕駛技術(shù)的最新進(jìn)展,為我們解析Tesla的端到端自動駕駛理念以及V14可能整合的技術(shù)升級提供了寶貴信息。


Tesla端到端自動駕駛理念

從V12版本開始,Tesla FSD轉(zhuǎn)向了全面的端到端架構(gòu),這也帶動了業(yè)界對端到端技術(shù)的研究熱潮。端到端本質(zhì)就是馬老板時常掛在嘴邊的“Photon In,Control Out”,也就是從傳感器像素輸入到車輛控制信號(如油門、剎車)輸出,都由一個宏觀意義上的神經(jīng)網(wǎng)絡(luò)模型完成。該架構(gòu)減少了中間規(guī)則處理環(huán)節(jié),使得模型訓(xùn)練的梯度能夠從輸出端無縫反向傳播至感知端,從而實現(xiàn)模型各部分的整體協(xié)同優(yōu)化。以此類模型為核心的自動駕駛系統(tǒng)即為端到端系統(tǒng)。業(yè)界目睹了Tesla V12版本帶來的擬人化、絲滑的駕駛體驗后,紛紛加大了對端到端系統(tǒng)的投入。而直到此次分享,Tesla AI團(tuán)隊才更系統(tǒng)地闡釋了采用端到端方案解決自動駕駛問題的核心理由。


編碼人類價值判斷的復(fù)雜性:Ashok現(xiàn)場舉例說明了自動駕駛中常見的兩難抉擇,例如車輛在遇到路邊水坑的雙向單車道上,是應(yīng)該稍微偏離車道繞開水坑,還是嚴(yán)格避免侵入對向車道?基于預(yù)設(shè)規(guī)則很難完美定義此類情境下的合理行為。而端到端系統(tǒng)通過大量學(xué)習(xí)人類駕駛數(shù)據(jù),能夠掌握這些細(xì)微的價值權(quán)衡,在恰當(dāng)時機做出類似“借道繞行”的決策。


感知與決策規(guī)劃間的接口定義難題:傳統(tǒng)模塊化自動駕駛系統(tǒng)中,各模塊間通過預(yù)設(shè)接口通信,例如使用邊界框(Bounding Box)定義車輛行人,用多段線描述車道線。但Ashok展示的FSD應(yīng)對雞、鵝等動物過馬路的實拍視頻表明,傳統(tǒng)感知接口難以定義這些動物的類型、過馬路意圖等屬性。既定接口會形成信息瓶頸,而端到端模型中神經(jīng)網(wǎng)絡(luò)間的直接信息傳遞,能最大程度減少這種信息損失,確保決策模塊獲取更全面的環(huán)境信息


模塊化自動駕駛功能模塊間通過預(yù)設(shè)的接口進(jìn)行通信

應(yīng)對現(xiàn)實世界的長尾問題:此優(yōu)勢直接源于上述信息瓶頸的解決。端到端模型確保在罕見場景下,決策系統(tǒng)仍能基于豐富的輸入信息做出合理判斷,并通過學(xué)習(xí)人類駕駛行為獲得處理長尾場景的能力。

同構(gòu)計算帶來的確定性延遲:自動駕駛系統(tǒng)對時延極其敏感。傳統(tǒng)基于規(guī)則和優(yōu)化的規(guī)控方案,其求解時間受環(huán)境復(fù)雜性、初始解質(zhì)量等多種因素影響,難以保證穩(wěn)定。而端到端神經(jīng)網(wǎng)絡(luò)具有固定的模型結(jié)構(gòu)和參數(shù)量,其單幀計算延遲是確定性的,有利于控制系統(tǒng)的時間波動。

更好地契合AI領(lǐng)域的數(shù)據(jù)規(guī)模效應(yīng):端到端自動駕駛是徹底的數(shù)據(jù)驅(qū)動范式,它摒棄了大量人為設(shè)計的規(guī)則和評價指標(biāo)(即Sutton在“Bitter Lesson”中提及的“人類知識”),從而能更充分地利用計算力和數(shù)據(jù)的增長來提升系統(tǒng)性能。

端到端自動駕駛的三大挑戰(zhàn)

端到端模型維度詛咒



Ashok指出,一個理想的端到端模型結(jié)構(gòu)看似簡單:輸入包括過去30秒時間窗口內(nèi)以36Hz頻率采集的7路500萬像素攝像頭視頻、長達(dá)數(shù)英里的導(dǎo)航地圖、100Hz的車速與IMU信息,甚至包括48KHz的音頻信息(可能為FSD V14新增),其信息維度相當(dāng)于20億token。而輸出僅為方向盤和加減速信號,約等于2個token。因此端到端系統(tǒng)要解決的是一個從極高維度到極低維度的映射問題,而高維到低維的映射本質(zhì)上是多對一的,這個映射還要反饋正確邏輯,這就好比要從一團(tuán)亂麻中要找到最終指引向出口的那唯一的一根,其訓(xùn)練難度可想而知。


Tesla通過強大的數(shù)據(jù)引擎(Data Engine)來應(yīng)對此挑戰(zhàn),致力于采集大量高質(zhì)量數(shù)據(jù)。Tesla車隊每日可產(chǎn)生相當(dāng)于500年駕駛時長的數(shù)據(jù),但其中多數(shù)為常規(guī)場景。為此,Tesla采用了復(fù)雜的觸發(fā)機制來回傳長尾場景數(shù)據(jù),如使用專用模型采集特殊車輛數(shù)據(jù)、基于預(yù)測偏差回傳bad cases、收集所有用戶接管數(shù)據(jù),以及感知狀態(tài)突變的場景。高效的數(shù)據(jù)篩選與回傳機制,使得Tesla能收集海量的極端場景和主動避險數(shù)據(jù),確保FSD模型具備極強的泛化能力。

VLA架構(gòu)端到端保障可解釋性和安全性

簡單的端到端系統(tǒng)作為“黑箱”,在問題分析、行為解釋和安全驗證方面存在隱患。Ashok介紹說,Tesla的端到端系統(tǒng)并非徹頭徹尾的“黑箱”系統(tǒng),他看起來更加像是下圖的樣子。


可以看到這樣的端到端系統(tǒng)不僅輸出了下一個駕駛控制指令,還在決策規(guī)劃信號前輸出了很多中間結(jié)果,包括了帶速度信號的3D占據(jù)網(wǎng)格,3D高斯特征,車輛,行人,騎行人等動態(tài)障礙物,交通信號燈,信號牌,道路邊沿、車道線等靜態(tài)物體,還有限速,道路屬性,以及語言模式表達(dá)的決策信息。


這些中間結(jié)果信息不僅僅用于車機可視化渲染,更加可以通過條件概率,也就是大語言模型中廣泛應(yīng)用的思維鏈COT(Chain-of-Thought)形式以及過程校驗手段,確保了最終輸出駕駛控制信號的正確性。Tesla是強視覺方案,具備語言形式的決策輸出,還有動作控制信號輸出,不用說大家可能也意識到了,Tesla FSD V14很可能采用的就是基于VLA的端到端技術(shù)方案,而這一技術(shù)路線其實與國內(nèi)頭部自動駕駛團(tuán)隊不謀而合,比如理想、小鵬都在最新的智駕功能中采用了VLA為核心的技術(shù)方案。


國內(nèi)頭部智駕公司也不謀而合的采用了VLA的技術(shù)架構(gòu)

在所有COT中間輸出中,自然語言決策和3D高斯表征尤為引人注目。

1. 自然語言實現(xiàn)了慢系統(tǒng)思考


Ashok在分享中給出了一個利用快慢雙系統(tǒng)思維中慢思考應(yīng)對施工長尾場景的實際例子。在這個場景中,Tesla駕駛AI不僅通過文字識別道路封路(Road Closed)標(biāo)志,還通過邏輯推理得出無法直行,并識別左側(cè)繞行標(biāo)志,最終做出左轉(zhuǎn)決策,展現(xiàn)了邏輯推理能力在復(fù)雜決策中的關(guān)鍵作用。

2. Feedforward 3D Gaussian提供豐富的監(jiān)督信號和空間理解能力

Ashok還在分享中展示了Tesla基于生成重建范式FeedForward 3D Gaussian,在生成效率,初始化條件,動態(tài)物體重建,還有新視角生成上都有著非常明顯的優(yōu)勢。

這里簡單介紹下3D Gaussian,它是目前在3D重建領(lǐng)域非常流行的一種表征方式,基本上他利用了眾多具備位置信息,作用范圍(協(xié)方差),以及相應(yīng)顏色,透明度屬性的高斯橢球體對場景進(jìn)行表征,然后再利用投影關(guān)系將可微分性能良好的高斯橢球投影到圖像平面進(jìn)行可微分渲染,并利用渲染出來的圖像與相機捕捉的真實圖像差異作為監(jiān)督信號對場景重建表征進(jìn)行優(yōu)化,最終達(dá)到照片級的逼真場景重建效果。相比點云或多邊形,3D高斯表達(dá)更高效可微;相比NeRF等隱式表達(dá),其幾何信息更明確,因此3D Gaussian成為了目前自動駕駛領(lǐng)域最主流的場景重建表征。


3D Gaussian自動駕駛場景重建,圖片來自Street Gaussians: Modeling Dynamic UrbanScenes with Gaussian Splatting

然而一般的3D場景重建需要進(jìn)行逐場景優(yōu)化,重建效率仍舊是比較低的。最近的一些工作則通過利用神經(jīng)網(wǎng)絡(luò)模型的泛化能力,通過重建模型的前向推理推導(dǎo)出場景幾何信息和顏色屬性,不需要點云的初始化,在重建效率上獲得了極大提升,并且對于新視角生成有非常大的靈活性。從Tesla的效果上看,不僅重建過程生成了語義分割信息,還能夠支持非常大的新角度渲染,這樣的能力一方面解決了Tesla端到端模型訓(xùn)練時候單純監(jiān)督駕駛動作監(jiān)督信號過于稀疏單一的問題,也確保了Tesla對周圍環(huán)境的良好空間理解,類似的重建技術(shù)也支撐了Tesla實現(xiàn)閉環(huán)仿真系統(tǒng)。

評測體系是實現(xiàn)端到端系統(tǒng)的核心壁壘


Ashok本次分享的最重要的觀點莫過于完善的評測體系對于端到端系統(tǒng)的重要性了。上面這頁PPT可以說每一條信息都代表了Tesla AI團(tuán)隊對于端到端自動駕駛的核心認(rèn)知。

  • 無論數(shù)據(jù)集質(zhì)量多高,訓(xùn)練Loss不能代表端到端模型性能(合理的評測指標(biāo)是關(guān)鍵)

  • 開環(huán)指標(biāo)不能保證閉環(huán)性能(所以閉環(huán)的評測是必要的)

  • 自動駕駛存在多種駕駛行為來避免駕駛失敗,評測指標(biāo)需要正確的反應(yīng)這種駕駛行為的多模態(tài)性(對不起L2 Loss,你還差得遠(yuǎn)呢)

  • 一種方法是來評估對駕駛行為結(jié)果的預(yù)測(個人理解意思是類似Maximize Reward + Imitation Loss)

  • 一個平衡且全面的評測集非常關(guān)鍵(數(shù)據(jù),核心關(guān)鍵還是數(shù)據(jù))

  • 枯燥乏味,但是告訴你個秘密,評測至關(guān)重要(都跟你說是秘密,要不要重點關(guān)注由你)



Tesla完善的評測體系中的核心就是基于神經(jīng)網(wǎng)絡(luò)的閉環(huán)仿真系統(tǒng)。這個仿真系統(tǒng)可以通過收集大量廉價的離線狀態(tài)-動作數(shù)據(jù)對進(jìn)行訓(xùn)練。Ashok展示了這樣的閉環(huán)仿真系統(tǒng)的幾大作用:

1. 利用閉環(huán)仿真驗證端到端Policy的正確性

2. 利用場景編輯生成能力生成對抗樣本檢驗?zāi)P湍芰?/strong>

3. 利用模擬器在閉環(huán)仿真系統(tǒng)中獲取人駕真值

從Tesla閉環(huán)仿真分享中我們可以發(fā)現(xiàn)Tesla的場景重建,生成,編輯能力都非常強大,不過Tesla的所有場景都是基于真實場景進(jìn)行訓(xùn)練,編輯修改而來。我想這很好的解答了為什么無論世界模型/世界引擎多么強大,豐富多樣的真實數(shù)據(jù)永遠(yuǎn)都是自動駕駛中的核心資源,因為無論多強大的世界模型,其訓(xùn)練數(shù)據(jù)都來自于真實數(shù)據(jù),訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量決定世界模型的性能。而無論世界模型的性能多么強大,單純坐在辦公室的研發(fā)工程師無法想象真實世界的駕駛場景可以變得多么多樣且復(fù)雜,所以最復(fù)雜的長尾場景一定是基于真實數(shù)據(jù)衍生來的,而不能無中生有。因此在自動駕駛領(lǐng)域,擁有眾多豐富多樣真實數(shù)據(jù)的車企,就是在端到端數(shù)據(jù)驅(qū)動的自動駕駛系統(tǒng)研發(fā)中擁有巨大的優(yōu)勢。

最后Tesla的強大閉環(huán)仿真引擎同樣可以遷移到機器人領(lǐng)域,而機器人Optimus和自動駕駛FSD技術(shù)棧的統(tǒng)一,也為后續(xù)Cross Embodiment帶來的更泛化的具身AI發(fā)展帶了巨大的想象空間!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

釋凡電影
2025-08-14 09:33:19
特朗普下令,真正的較量開始,美國選好主戰(zhàn)場,要與中國一決高下

特朗普下令,真正的較量開始,美國選好主戰(zhàn)場,要與中國一決高下

空天力量
2025-12-24 17:06:37
這樣的尊榮感,的確讓人感到反胃

這樣的尊榮感,的確讓人感到反胃

清書先生
2025-12-24 17:03:56
曝徐湖平已被帶走,前一天晚開了一夜燈,更多謊言被戳穿

曝徐湖平已被帶走,前一天晚開了一夜燈,更多謊言被戳穿

古希臘掌管松餅的神
2025-12-24 13:29:23
攤牌了,日本反咬美國,用“自殺式豪賭”拉美國下水!

攤牌了,日本反咬美國,用“自殺式豪賭”拉美國下水!

局勢帝
2025-12-24 15:32:32
快手瘋了?大量直播間直播淫穢視頻,還有女主播“袒胸露乳”吸粉無數(shù)

快手瘋了?大量直播間直播淫穢視頻,還有女主播“袒胸露乳”吸粉無數(shù)

三言科技
2025-12-23 00:24:15
廣東陽江一船廠3死2傷爆炸事故整改落實情況評估報告公布,實控人已被判刑

廣東陽江一船廠3死2傷爆炸事故整改落實情況評估報告公布,實控人已被判刑

澎湃新聞
2025-12-24 16:42:27
南博事件升級!鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡,徐院長真攤上事了

南博事件升級!鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡,徐院長真攤上事了

火山詩話
2025-12-24 14:29:42
中央廣播電視總臺3個頻率同日停播

中央廣播電視總臺3個頻率同日停播

阿廢冷眼觀察所
2025-12-24 15:43:28
上海多區(qū)發(fā)布預(yù)警!已確認(rèn):上海天氣即將轉(zhuǎn)折!

上海多區(qū)發(fā)布預(yù)警!已確認(rèn):上海天氣即將轉(zhuǎn)折!

魯中晨報
2025-12-24 16:28:11
正式官宣!CBA第二位下課主帥確定,遼寧名宿走馬上任

正式官宣!CBA第二位下課主帥確定,遼寧名宿走馬上任

體壇瞎白話
2025-12-24 13:54:08
江西49歲女園長駕車墜泥塘致8死,小兒也在車上,丈夫是校車司機

江西49歲女園長駕車墜泥塘致8死,小兒也在車上,丈夫是校車司機

Mr王的飯后茶
2025-12-24 15:40:24
中越戰(zhàn)爭驚人細(xì)節(jié):中國五日不撤軍,諒山主力覆沒,戰(zhàn)事結(jié)局如何

中越戰(zhàn)爭驚人細(xì)節(jié):中國五日不撤軍,諒山主力覆沒,戰(zhàn)事結(jié)局如何

磊子講史
2025-12-22 16:29:02
尷尬!龐叔令稱央視《文明之旅》出現(xiàn)的龐戎,與南潯虛齋龐氏無關(guān)

尷尬!龐叔令稱央視《文明之旅》出現(xiàn)的龐戎,與南潯虛齋龐氏無關(guān)

火山詩話
2025-12-24 15:32:49
失業(yè)的人越來越多了

失業(yè)的人越來越多了

曹多魚的財經(jīng)世界
2025-12-24 14:56:20
令人震驚!柬埔寨生命科學(xué)院,院里面全都是中文的服務(wù)(多圖)

令人震驚!柬埔寨生命科學(xué)院,院里面全都是中文的服務(wù)(多圖)

微微熱評
2025-12-24 12:22:04
36歲好萊塢童星落魄街頭!拒絕食物索要違禁品,自知“我完了”

36歲好萊塢童星落魄街頭!拒絕食物索要違禁品,自知“我完了”

譯言
2025-12-24 08:58:48
中國網(wǎng)貸公司在印度幾乎全軍覆沒,違約率最高達(dá)80%!

中國網(wǎng)貸公司在印度幾乎全軍覆沒,違約率最高達(dá)80%!

胡華成
2025-12-24 16:47:03
請保留住民眾低俗的權(quán)利

請保留住民眾低俗的權(quán)利

細(xì)雨中的呼喊
2025-12-23 16:34:15
1-0絕殺!中國隊勢不可擋,U23亞洲杯前7戰(zhàn)僅輸1場,抽到絕世好簽

1-0絕殺!中國隊勢不可擋,U23亞洲杯前7戰(zhàn)僅輸1場,抽到絕世好簽

侃球熊弟
2025-12-24 09:21:34
2025-12-25 05:35:00
問問馬斯克AskMusk incentive-icons
問問馬斯克AskMusk
了解馬斯克,關(guān)注我們就對了
234文章數(shù) 567關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會跟進(jìn)?

汽車要聞

“運動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

房產(chǎn)
本地
數(shù)碼
公開課
軍事航空

房產(chǎn)要聞

硬核!央企??谝痪€江景頂流紅盤,上演超預(yù)期交付!

本地新聞

云游安徽|一川江水潤安慶,一塔一戲一城史

數(shù)碼要聞

AMD Zen 6與Intel Nova Lake或?qū)⑸涎?88 MB 3D緩存“大戰(zhàn)”

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

軍事專家:"特朗普級"戰(zhàn)艦設(shè)計疑大量借鑒中國055大驅(qū)

無障礙瀏覽 進(jìn)入關(guān)懷版