国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

小鵬聯(lián)合北大為VLA模型定制視覺(jué)token剪枝方法,讓自動(dòng)駕駛更高效

0
分享至



VLA 模型正被越來(lái)越多地應(yīng)用于端到端自動(dòng)駕駛系統(tǒng)中。然而,VLA 模型中冗長(zhǎng)的視覺(jué) token 極大地增加了計(jì)算成本。但現(xiàn)有的視覺(jué) token 剪枝方法都不是專為自動(dòng)駕駛設(shè)計(jì)的,在自動(dòng)駕駛場(chǎng)景中都具有局限性。

小鵬汽車聯(lián)合北京大學(xué)計(jì)算機(jī)科學(xué)學(xué)院多媒體信息處理國(guó)家重點(diǎn)實(shí)驗(yàn)室發(fā)表論文《FastDriveVLA》,不僅為自動(dòng)駕駛 VLA 模型中的高效視覺(jué) token 剪枝建立了新的范式,也為特定任務(wù)的剪枝策略提供了有價(jià)值的洞察。

受人類駕駛員主要關(guān)注前景區(qū)域而非背景區(qū)域的啟發(fā),研究團(tuán)隊(duì)做出假設(shè):對(duì)于自動(dòng)駕駛而言,與前景信息相關(guān)的視覺(jué) token 比與背景內(nèi)容相關(guān)的視覺(jué) token 更有價(jià)值。為了驗(yàn)證這個(gè)假設(shè),研究團(tuán)隊(duì)構(gòu)建了大規(guī)模自動(dòng)駕駛標(biāo)注數(shù)據(jù)集nuScenes-FG(包含來(lái)自 6 個(gè)攝像頭視角的、帶有前景區(qū)域標(biāo)注的 24.1 萬(wàn)個(gè)圖像 - 掩碼對(duì)),通過(guò) MAE 風(fēng)格的像素重建策略和新穎的對(duì)抗性前景 - 背景重建策略,訓(xùn)練出了一個(gè)適用于不同 VLA 模型的、可以即插即用的視覺(jué) token 剪枝器 ReconPruner

實(shí)驗(yàn)結(jié)果顯示,在不同剪枝比例下,F(xiàn)astDriveVLA 在 nuScenes 開(kāi)環(huán)規(guī)劃基準(zhǔn)測(cè)試中均取得了 SOTA 性能。FastDriveVLA 也非常高效,當(dāng)視覺(jué) token 數(shù)量從 3249 減少至 812 時(shí),F(xiàn)astDriveVLA 的 FLOPs 直降約 7.5 倍;在 CUDA 推理延遲方面,F(xiàn)astDriveVLA 將預(yù)填充(prefill)時(shí)間減少了 3.7 倍、將解碼(decode)時(shí)間減少了 1.3 倍,顯著提升了推理效率。

該篇論文被 AAAI 2026 錄用。



  • 論文標(biāo)題:FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning
  • 論文鏈接:https://arxiv.org/pdf/2507.23318

研究背景與問(wèn)題

端到端自動(dòng)駕駛最近展現(xiàn)出巨大潛力,有望徹底改變未來(lái)的交通系統(tǒng)。與傳統(tǒng)的模塊化自動(dòng)駕駛系統(tǒng)不同,端到端方法在一個(gè)統(tǒng)一的框架中學(xué)習(xí)整個(gè)駕駛流程,這種設(shè)計(jì)不僅減少了模塊之間信息傳遞時(shí)的誤差,還增強(qiáng)了系統(tǒng)的簡(jiǎn)潔性。

然而,現(xiàn)有的 VLA 模型通常將視覺(jué)輸入轉(zhuǎn)換為大量的視覺(jué) token,這種方法導(dǎo)致了巨大的計(jì)算開(kāi)銷和推理延遲的增加,對(duì)真實(shí)場(chǎng)景的車端部署提出了重大挑戰(zhàn),因?yàn)橛?jì)算資源和推理速度都受到嚴(yán)重限制。

已經(jīng)有大量研究嘗試通過(guò)減少視覺(jué) token 來(lái)加速 VLM 的推理,但在自動(dòng)駕駛場(chǎng)景中都具有局限性:引入新設(shè)計(jì)的多模態(tài)投影器需要重新訓(xùn)練整個(gè)模型,基于注意力的剪枝策略容易受到無(wú)關(guān)信息的影響,基于相似性的剪枝策略會(huì)錯(cuò)誤保留與駕駛無(wú)關(guān)的信息。

為了解決這些挑戰(zhàn),我們專為端到端自動(dòng)駕駛 VLA 模型定制了一個(gè)新型的、基于重建的視覺(jué) token 剪枝框架 FastDriveVLA。



圖 1:不同視覺(jué) token 剪枝策略的對(duì)比,(c)為基于重建的剪枝策略

方法與創(chuàng)新

nuScenes-FG 數(shù)據(jù)集

受人類駕駛員主要關(guān)注前景區(qū)域而非背景區(qū)域的啟發(fā),我們首先對(duì)自動(dòng)駕駛場(chǎng)景中的「前景區(qū)域」進(jìn)行了明確定義。這些區(qū)域包括行人、道路、車輛、交通標(biāo)志(含交通信號(hào)燈)以及交通障礙物(如位于車道上或緊鄰車道的障礙物)等對(duì)駕駛決策具有直接影響的元素。相比之下,建筑物、天空、行道樹(shù)等背景區(qū)域即使被完全遮擋,通常也不會(huì)顯著影響人類駕駛員的判斷。然后,借助 Grounded-SAM 對(duì) nuScenes 場(chǎng)景進(jìn)行細(xì)粒度、語(yǔ)義一致的前景分割,構(gòu)建了 nuScenes-FG 數(shù)據(jù)集。



圖 2:nuScenes-FG 數(shù)據(jù)集,為 nuScenes 場(chǎng)景提供了 24.1 萬(wàn)個(gè)前景分割標(biāo)注。

基于重建的剪枝器 ReconPruner

我們提出了一種輕量級(jí)的、可即插即用的剪枝器 ReconPruner,主要目標(biāo)是讓 ReconPruner 能夠有效識(shí)別并選擇包含有意義前景信息的視覺(jué) token,因此借鑒 Masked Image Modeling(掩碼圖像建模)方法設(shè)計(jì)了 MAE 風(fēng)格的像素重建策略。在訓(xùn)練過(guò)程中,我們選取 ReconPruner 預(yù)測(cè)的可獲得高分的視覺(jué) token 子集,用于掩碼前景重建。該子集上的重建誤差作為監(jiān)督信號(hào),鼓勵(lì) ReconPruner 為真正對(duì)應(yīng)前景內(nèi)容的視覺(jué) token 打高分。



圖 3:FastDriveVLA 框架。在訓(xùn)練階段,提出了一種新穎的「前景 - 背景對(duì)抗重建」策略,以增強(qiáng) ReconPruner 對(duì)前景視覺(jué) token 的感知能力;在推理階段,ReconPruner 可直接嵌入自動(dòng)駕駛 VLA 模型,用于 token 剪枝。

對(duì)抗性前景 - 背景重建策略

但若僅僅依賴前景重建,ReconPruner 可能會(huì)采取捷徑,不加區(qū)分地為所有視覺(jué) token 打高分。我們從生成對(duì)抗網(wǎng)絡(luò)(GANs)中汲取靈感,提出了對(duì)抗性前景 - 背景重建策略。具體來(lái)說(shuō),ReconPruner 還需要使用獲得低分的視覺(jué) token 來(lái)重建背景區(qū)域。這種對(duì)抗性設(shè)置增強(qiáng)了 ReconPruner 區(qū)分前景 token 和背景 token 的能力。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置

我們采用 Impromptu-VLA 作為視覺(jué) token 剪枝的基礎(chǔ)模型,在專為城區(qū)自動(dòng)駕駛設(shè)計(jì)的大規(guī)模基準(zhǔn)測(cè)試數(shù)據(jù)集 nuScenes 上對(duì)不同剪枝方法進(jìn)行了評(píng)估。nuScenes 數(shù)據(jù)集包含 1000 個(gè)駕駛場(chǎng)景、每個(gè)場(chǎng)景約持續(xù) 20 秒。測(cè)試時(shí),我們總計(jì)使用了 6019 個(gè)測(cè)試樣本,并通過(guò) L2 軌跡誤差、碰撞率、路外率三個(gè)指標(biāo)來(lái)評(píng)估開(kāi)環(huán)規(guī)劃的性能。

我們使用余弦調(diào)度器以 2e-5 的學(xué)習(xí)率訓(xùn)練 FastDriveVLA,總計(jì)進(jìn)行了 10 輪訓(xùn)練,僅在兩塊 H800 GPU 上運(yùn)行 3 小時(shí)就完成了訓(xùn)練。

不同剪枝方法在 nuScenes 數(shù)據(jù)集上的對(duì)比



FastV、SparseVLM 是基于注意力的基線,DivPrune、VisPruner 是基于相似性的基線。

  • 當(dāng)剪枝 25% 時(shí),F(xiàn)astDriveVLA 在所有評(píng)估指標(biāo)上均表現(xiàn)最佳,尤其在 L2 軌跡誤差和碰撞指標(biāo)上分別比未剪枝的原始模型低了 0.1% 和 1.0%,這證明了聚焦于與前景相關(guān)的視覺(jué) token 是提升自動(dòng)駕駛性能的關(guān)鍵。
  • 當(dāng)剪枝 50% 時(shí),F(xiàn)astDriveVLA 在碰撞指標(biāo)上的表現(xiàn)優(yōu)于剪枝 25%。
  • 當(dāng)剪枝 75% 時(shí),F(xiàn)astDriveVLA 在路外率指標(biāo)上的表現(xiàn)優(yōu)于剪枝 50%。

總體來(lái)看,F(xiàn)astDriveVLA 在各種剪枝比例下均優(yōu)于現(xiàn)有方法。特別值得注意的是,當(dāng)剪枝 50% 時(shí),F(xiàn)astDriveVLA 在所有指標(biāo)上的表現(xiàn)都更加均衡。因此,我們建議,在實(shí)際部署自動(dòng)駕駛系統(tǒng)時(shí)采用 50% 這一剪枝比例,以實(shí)現(xiàn)性能與效率的最佳平衡。

效率分析

為了展示 FastDriveVLA 的高效,我們從 FLOPs 與 CUDA 延遲的角度對(duì)不同剪枝方法進(jìn)行了效率分析。當(dāng)視覺(jué) token 數(shù)量從 3249 減少至 812 時(shí),F(xiàn)astDriveVLA 的 FLOPs 直降約 7.5 倍。在 CUDA 推理延遲方面,F(xiàn)astDriveVLA 將預(yù)填充提速 3.7 倍、解碼提速 1.3 倍,實(shí)際推理效率顯著提升。



定性可視化分析

ReconPruner 幾乎完整留下了前景 token ,把背景壓成極稀疏的色塊,重建畫(huà)面依舊清晰,證明它能在減少 token 冗余的同時(shí)保留關(guān)鍵信息,如圖 4 所示。

再把 FastV(基于注意力)、DivPrune(基于相似性)和 FastDriveVLA 放到圖 5 中進(jìn)行對(duì)比,可以看到:我們的點(diǎn)密密麻麻落在車道、車道線和車身;FastV 幾乎漏掉了車輛;DivPrune 雖然撒點(diǎn)更多,卻幾乎沒(méi)往車道線上靠。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中美局勢(shì)可能發(fā)生大反轉(zhuǎn),最先超過(guò)美國(guó)的竟不是經(jīng)濟(jì)

中美局勢(shì)可能發(fā)生大反轉(zhuǎn),最先超過(guò)美國(guó)的竟不是經(jīng)濟(jì)

華人星光
2026-01-07 13:32:47
美媒爆:特朗普提前放出消息

美媒爆:特朗普提前放出消息

環(huán)球時(shí)報(bào)國(guó)際
2026-01-07 00:12:46
中國(guó)的某些軍事專家和“神棍” 差不多!

中國(guó)的某些軍事專家和“神棍” 差不多!

回旋鏢
2026-01-04 17:00:38
玩套路了!蘇州一工廠迎新,基本工資漲至2660,崗位獎(jiǎng)金等額下調(diào)

玩套路了!蘇州一工廠迎新,基本工資漲至2660,崗位獎(jiǎng)金等額下調(diào)

火山詩(shī)話
2026-01-07 07:37:29
長(zhǎng)城汽車正式取消“大小周”,全面落實(shí)雙休制度,員工:剛開(kāi)始聽(tīng)到消息,以為是謠言不敢信

長(zhǎng)城汽車正式取消“大小周”,全面落實(shí)雙休制度,員工:剛開(kāi)始聽(tīng)到消息,以為是謠言不敢信

大風(fēng)新聞
2026-01-06 16:58:03
善惡有報(bào),2025年塌房的六大網(wǎng)紅,為了流量各種作妖,不值得同情

善惡有報(bào),2025年塌房的六大網(wǎng)紅,為了流量各種作妖,不值得同情

單手搓核彈
2026-01-06 14:04:34
厲害了!江蘇這 7 個(gè)鎮(zhèn)即將代表中國(guó)走向世界!快看有沒(méi)有你老家!

厲害了!江蘇這 7 個(gè)鎮(zhèn)即將代表中國(guó)走向世界!快看有沒(méi)有你老家!

劉哥談體育
2026-01-07 14:26:31
撒切爾夫人在回憶錄中坦言:當(dāng)年并不想歸還香港,考慮過(guò)發(fā)動(dòng)戰(zhàn)爭(zhēng)

撒切爾夫人在回憶錄中坦言:當(dāng)年并不想歸還香港,考慮過(guò)發(fā)動(dòng)戰(zhàn)爭(zhēng)

泠泠說(shuō)史
2025-12-15 18:05:17
芬蘭公司宣布量產(chǎn)全球首款全固態(tài)電池,5分鐘可充滿,能量密度400Wh/kg

芬蘭公司宣布量產(chǎn)全球首款全固態(tài)電池,5分鐘可充滿,能量密度400Wh/kg

金融界
2026-01-06 14:03:20
你見(jiàn)過(guò)的最沉得住氣的人是怎樣?網(wǎng)?友:五分鐘連超10萬(wàn)人的奇跡

你見(jiàn)過(guò)的最沉得住氣的人是怎樣?網(wǎng)?友:五分鐘連超10萬(wàn)人的奇跡

夜深愛(ài)雜談
2026-01-04 23:05:06
特斯拉開(kāi)卷了 !剛官宣這騷操作,炸翻全網(wǎng)!

特斯拉開(kāi)卷了 !剛官宣這騷操作,炸翻全網(wǎng)!

科技狐
2026-01-06 22:39:58
田樸珺回應(yīng)和王石離婚!王思聰罕見(jiàn)發(fā)聲,翻出12年前微博諷刺!

田樸珺回應(yīng)和王石離婚!王思聰罕見(jiàn)發(fā)聲,翻出12年前微博諷刺!

生性灑脫
2026-01-06 15:12:34
李圣龍剛官宣離開(kāi)上港一線隊(duì),他就敲定新去向,本賽季將出戰(zhàn)中乙

李圣龍剛官宣離開(kāi)上港一線隊(duì),他就敲定新去向,本賽季將出戰(zhàn)中乙

張麗說(shuō)足球
2026-01-07 10:45:32
女子攀爬江蘇一景區(qū)野道不慎墜崖?官方回應(yīng):事發(fā)點(diǎn)不到2米高

女子攀爬江蘇一景區(qū)野道不慎墜崖?官方回應(yīng):事發(fā)點(diǎn)不到2米高

半島晨報(bào)
2026-01-05 21:00:03
CBA最新消息!北控男籃更換教練,湯普森被裁掉,崔永熙跟隊(duì)訓(xùn)練

CBA最新消息!北控男籃更換教練,湯普森被裁掉,崔永熙跟隊(duì)訓(xùn)練

體壇瞎白話
2026-01-07 09:11:42
官媒發(fā)文,宗馥莉再破天花板,讓親叔宗澤后和整個(gè)商界沉默了

官媒發(fā)文,宗馥莉再破天花板,讓親叔宗澤后和整個(gè)商界沉默了

李健政觀察
2026-01-07 09:30:29
外交部回應(yīng)美方“這是我們的半球”言論:劃分勢(shì)力范圍、制造地緣對(duì)抗不會(huì)使一個(gè)國(guó)家更加安全

外交部回應(yīng)美方“這是我們的半球”言論:劃分勢(shì)力范圍、制造地緣對(duì)抗不會(huì)使一個(gè)國(guó)家更加安全

界面新聞
2026-01-07 15:32:29
0:4+0:11慘??!21歲陳熠多哈賽硬仗掉鏈子,沖冠遇考驗(yàn)

0:4+0:11慘?。?1歲陳熠多哈賽硬仗掉鏈子,沖冠遇考驗(yàn)

阿晞體育
2026-01-07 12:23:07
12分17板3帽+2記三分!開(kāi)拓者21歲2米18神塔進(jìn)化:楊瀚森上位好難

12分17板3帽+2記三分!開(kāi)拓者21歲2米18神塔進(jìn)化:楊瀚森上位好難

李喜林籃球絕殺
2026-01-06 15:07:43
YU7新車未出店,后備箱就打不開(kāi),車主要退車!小米回應(yīng)

YU7新車未出店,后備箱就打不開(kāi),車主要退車!小米回應(yīng)

都市快報(bào)橙柿互動(dòng)
2026-01-06 18:17:35
2026-01-07 17:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12073文章數(shù) 142530關(guān)注度
往期回顧 全部

科技要聞

豪擲世界第一"球" 楊元慶亮出聯(lián)想AI護(hù)城河

頭條要聞

中方被問(wèn)是否計(jì)劃采取行動(dòng)幫助馬杜羅夫婦 外交部回應(yīng)

頭條要聞

中方被問(wèn)是否計(jì)劃采取行動(dòng)幫助馬杜羅夫婦 外交部回應(yīng)

體育要聞

賣水果、搬磚的小伙,與哈蘭德?tīng)?zhēng)英超金靴

娛樂(lè)要聞

2026年央視春晚彩排:沈騰確定回歸

財(cái)經(jīng)要聞

農(nóng)大教授科普:無(wú)需過(guò)度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

蔚來(lái)2025百萬(wàn)臺(tái)收官 一場(chǎng)遲到的自我修復(fù)

態(tài)度原創(chuàng)

教育
藝術(shù)
手機(jī)
時(shí)尚
軍事航空

教育要聞

中字頭央企四川分公司2026校招246人,成都錦城學(xué)院成最大贏家

藝術(shù)要聞

David Grossmann:不一樣的風(fēng)景畫(huà)

手機(jī)要聞

消息稱三星2月25日發(fā)布Galaxy S26系列手機(jī)

看起來(lái)很好親的唇,能養(yǎng)出來(lái)?

軍事要聞

特朗普政府正在討論獲取格陵蘭島的方案 包括軍事選項(xiàng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版