国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓自動(dòng)駕駛AI學(xué)會(huì)“聚焦重點(diǎn)",速度提升7倍卻更加安全

0
分享至

當(dāng)你開車行駛在城市街道上,眼睛會(huì)自動(dòng)忽略路邊的廣告牌、遠(yuǎn)處的高樓和天空中的云彩,而把注意力集中在前方的車輛、行人、紅綠燈和車道線上。這種人類與生俱來的"選擇性注意"能力,恰恰是目前自動(dòng)駕駛AI最欠缺的技能之一。


來自北京大學(xué)多媒體信息處理國家重點(diǎn)實(shí)驗(yàn)室和小鵬汽車的研究團(tuán)隊(duì)發(fā)布了一項(xiàng)重要研究成果,提出了一種名為FastDriveVLA的創(chuàng)新框架,讓自動(dòng)駕駛AI能夠像人類司機(jī)一樣,學(xué)會(huì)在紛繁復(fù)雜的道路場景中快速識(shí)別并聚焦于真正重要的視覺信息。


這項(xiàng)研究的核心突破在于:通過一種巧妙的"圖像重建"訓(xùn)練方法,研究團(tuán)隊(duì)開發(fā)出了一個(gè)極其輕量級(jí)的"視覺篩選器",它能夠像經(jīng)驗(yàn)豐富的老司機(jī)一樣,在看到道路畫面的瞬間就判斷出哪些信息值得關(guān)注、哪些可以忽略。更重要的是,這個(gè)篩選器一旦訓(xùn)練完成,就可以像USB設(shè)備一樣"即插即用"地安裝到各種自動(dòng)駕駛系統(tǒng)中,無需對(duì)原有系統(tǒng)做任何重新訓(xùn)練。在nuScenes這個(gè)權(quán)威的自動(dòng)駕駛測試基準(zhǔn)上,F(xiàn)astDriveVLA不僅將視覺處理速度提升了7倍以上,在某些配置下甚至比不做任何精簡的原始模型表現(xiàn)得更好——這個(gè)看似矛盾的結(jié)果恰恰印證了一個(gè)深刻的道理:少即是多,專注才能卓越。

為什么自動(dòng)駕駛AI需要學(xué)會(huì)"做減法"

要理解這項(xiàng)研究的價(jià)值,我們需要先了解當(dāng)前自動(dòng)駕駛AI面臨的一個(gè)核心困境。

近年來,一種被稱為"視覺-語言-動(dòng)作模型"(簡稱VLA模型)的技術(shù)在自動(dòng)駕駛領(lǐng)域掀起了革命。這種模型借鑒了ChatGPT等大型語言模型的架構(gòu),能夠同時(shí)理解視覺圖像和自然語言指令,并據(jù)此生成駕駛動(dòng)作。相比傳統(tǒng)的模塊化自動(dòng)駕駛系統(tǒng)——需要分別處理感知、預(yù)測和規(guī)劃三個(gè)環(huán)節(jié)——VLA模型實(shí)現(xiàn)了真正的"端到端"學(xué)習(xí):從攝像頭看到的原始畫面直接輸出方向盤轉(zhuǎn)角和油門剎車指令,中間不需要任何人工設(shè)定的規(guī)則。

這種一體化設(shè)計(jì)帶來了兩個(gè)顯著優(yōu)勢。其一,它消除了傳統(tǒng)系統(tǒng)中模塊之間的"信息斷層"——當(dāng)感知模塊把三維空間中的車輛誤認(rèn)為是廣告牌時(shí),這個(gè)錯(cuò)誤會(huì)像多米諾骨牌一樣傳導(dǎo)到后續(xù)的每一個(gè)模塊,最終導(dǎo)致整個(gè)系統(tǒng)做出危險(xiǎn)決策。端到端模型則讓所有這些"翻譯"過程在一個(gè)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)內(nèi)部完成,減少了誤差累積的機(jī)會(huì)。其二,這種設(shè)計(jì)大大簡化了系統(tǒng)架構(gòu),使得工程師可以專注于收集更多高質(zhì)量的駕駛數(shù)據(jù),而不是在各個(gè)模塊的接口處修修補(bǔ)補(bǔ)。

然而,VLA模型有一個(gè)致命的軟肋:它們太"貪心"了。為了充分理解一幅道路場景圖像,這類模型通常會(huì)把圖像切割成數(shù)千個(gè)小塊,每個(gè)小塊都會(huì)被轉(zhuǎn)換成一個(gè)"視覺令牌"(類似于語言模型處理文字時(shí)的"單詞"概念)。以本研究采用的Impromptu-VLA模型為例,一張分辨率為1596×1596的道路圖像會(huì)產(chǎn)生多達(dá)3249個(gè)視覺令牌。這意味著什么呢?用一個(gè)形象的比喻來說,如果把AI處理每個(gè)令牌的工作比作閱讀一個(gè)漢字,那么這個(gè)AI每看一眼前方道路,就要"閱讀"相當(dāng)于一篇3000多字文章的信息量。


問題在于,這3000多個(gè)"漢字"中,真正與駕駛決策相關(guān)的可能只有幾百個(gè)——那些表示車輛、行人、車道線、紅綠燈的部分。剩下的大部分信息都在描述天空有多藍(lán)、路邊的樹葉有多綠、遠(yuǎn)處的建筑是什么風(fēng)格這些與安全駕駛毫無關(guān)系的內(nèi)容。但AI并不天然知道這一點(diǎn),它會(huì)老老實(shí)實(shí)地把每一個(gè)令牌都認(rèn)真"讀"一遍,耗費(fèi)了大量的計(jì)算資源和時(shí)間。

在實(shí)驗(yàn)室環(huán)境下,這種"過度閱讀"或許還可以容忍。但在真實(shí)的自動(dòng)駕駛場景中,每一毫秒的延遲都可能意味著生死之差。當(dāng)車輛以每小時(shí)60公里的速度行駛時(shí),50毫秒的延遲意味著車輛會(huì)在AI"思考"的時(shí)間里向前沖出近1米。如果前方突然有行人闖入,這1米的距離可能就是能否及時(shí)剎住車的關(guān)鍵。

因此,如何讓VLA模型學(xué)會(huì)"抓重點(diǎn)"——在保證駕駛安全的前提下,大幅減少需要處理的視覺令牌數(shù)量——就成了一個(gè)迫在眉睫的技術(shù)難題。

現(xiàn)有方案為何在自動(dòng)駕駛場景中水土不服

在FastDriveVLA出現(xiàn)之前,研究者們已經(jīng)提出了多種減少視覺令牌的方法,但這些方法在自動(dòng)駕駛這個(gè)特殊領(lǐng)域都表現(xiàn)不佳。


第一類方法被稱為"基于注意力的剪枝"。這類方法的核心思想是:既然VLA模型內(nèi)部本來就有一個(gè)"注意力機(jī)制"——用來判斷視覺信息和文字指令之間的相關(guān)性——那為什么不直接利用這個(gè)機(jī)制來篩選重要的視覺令牌呢?具體來說,這些方法會(huì)觀察模型在處理用戶指令(比如"預(yù)測未來3秒的行車軌跡")時(shí),哪些視覺令牌得到了更多的"關(guān)注",然后保留這些被關(guān)注的令牌,丟棄那些被忽視的。FastV和SparseVLM是這類方法的典型代表。

這個(gè)思路在處理類似"圖片里有幾只貓"這樣的視覺問答任務(wù)時(shí)效果很好,因?yàn)橛脩舻膯栴}("貓")和圖片中的關(guān)鍵內(nèi)容(貓的圖像)之間有非常直接的語義關(guān)聯(lián)。但在自動(dòng)駕駛場景中,這種關(guān)聯(lián)就變得非常薄弱了。想象一下,自動(dòng)駕駛AI收到的指令通常是什么?無非是"規(guī)劃未來行車路徑"或者"預(yù)測下一步的駕駛動(dòng)作"這樣固定且抽象的句子。這些文字和具體的道路場景之間幾乎沒有什么可以"配對(duì)"的元素——"規(guī)劃"這個(gè)詞既不會(huì)讓AI更關(guān)注紅綠燈,也不會(huì)讓它更注意路邊的行人。結(jié)果就是,基于注意力的方法在自動(dòng)駕駛?cè)蝿?wù)中幾乎成了"瞎指揮",它選中的令牌往往并不是真正重要的那些。

第二類方法被稱為"基于相似度的剪枝"。這類方法的邏輯完全不同:它假設(shè)圖像中相似的區(qū)域是冗余的,因此應(yīng)該盡量保留那些"不同"的視覺令牌,以覆蓋圖像中盡可能多樣化的信息。VisPruner和DivPrune采用的就是這種策略。打個(gè)比方,如果把視覺令牌想象成一盒彩色糖果,這類方法的目標(biāo)是挑出顏色盡可能不重復(fù)的糖果,確保每種顏色都有代表。

在處理內(nèi)容豐富但沒有明確重點(diǎn)的圖像時(shí),這種"求異"策略確實(shí)能夠較好地保留全局信息。但自動(dòng)駕駛場景恰恰是有非常明確重點(diǎn)的——那些與行車安全相關(guān)的"前景"區(qū)域(車道、車輛、行人等)遠(yuǎn)比其他區(qū)域重要得多。基于相似度的方法并不理解這種重要性的差異,它可能會(huì)認(rèn)為天空中的一朵特殊形狀的云彩和路面上的一個(gè)普通車輛同樣"獨(dú)特",于是保留了云彩而丟棄了車輛。在計(jì)算資源有限的情況下,這種"不分輕重"的篩選策略顯然會(huì)損害駕駛安全。

更糟糕的是,還有一些方法試圖通過設(shè)計(jì)新的"多模態(tài)投影器"來從源頭上壓縮視覺令牌的數(shù)量。這類方法雖然可能效果不錯(cuò),但有一個(gè)致命的缺陷:它們需要對(duì)整個(gè)VLA模型進(jìn)行重新訓(xùn)練??紤]到當(dāng)前頂尖VLA模型的訓(xùn)練成本——?jiǎng)虞m需要數(shù)十塊高端GPU運(yùn)行數(shù)周時(shí)間——這種方案在實(shí)際應(yīng)用中幾乎不可行。

FastDriveVLA的核心洞見:讓AI學(xué)會(huì)"看重點(diǎn)"

FastDriveVLA的創(chuàng)新來自一個(gè)非常符合直覺的觀察:人類司機(jī)是如何開車的?

當(dāng)你手握方向盤行駛在公路上時(shí),你的視覺系統(tǒng)并不是在平等地處理視野中的每一個(gè)像素。相反,你的注意力會(huì)高度集中在那些對(duì)駕駛決策至關(guān)重要的區(qū)域——前方車輛的位置和速度、路面上的車道標(biāo)線、交通信號(hào)燈的顏色、可能穿過馬路的行人。與此同時(shí),遠(yuǎn)處的山巒、路邊的廣告牌、天空中的飛鳥——這些信息雖然也進(jìn)入了你的視網(wǎng)膜,但大腦幾乎不會(huì)對(duì)它們進(jìn)行深入處理。即使突然有人把你眼前的天空換成完全不同的顏色,你可能都不會(huì)注意到,因?yàn)槟歉静辉谀愕?關(guān)注雷達(dá)"范圍內(nèi)。

研究團(tuán)隊(duì)將這種人類的注意力分配模式總結(jié)為一個(gè)簡潔的原則:在自動(dòng)駕駛場景中,"前景"信息(包括人、道路、車輛、交通標(biāo)志和交通障礙物)對(duì)駕駛決策至關(guān)重要,而"背景"信息(建筑物、天空、路邊樹木等)則基本可以忽略。如果能讓AI也學(xué)會(huì)這種"重點(diǎn)篩選"能力,就可以在大幅減少計(jì)算量的同時(shí)保持甚至提高駕駛性能。

但如何讓AI學(xué)會(huì)區(qū)分前景和背景呢?研究團(tuán)隊(duì)想到了一個(gè)巧妙的方法:圖像重建。

想象你是一位藝術(shù)系的學(xué)生,老師給你看了一幅城市街景照片幾秒鐘,然后要求你僅憑記憶把它畫出來。由于時(shí)間有限,你不可能記住畫面中的每一個(gè)細(xì)節(jié),只能優(yōu)先記住那些最重要、最顯眼的元素。如果你的任務(wù)是"盡可能準(zhǔn)確地畫出街道上的所有車輛和行人",那么你的注意力自然會(huì)集中在這些前景物體上,而忽略背景中的建筑細(xì)節(jié)。這個(gè)過程中,"需要重建什么"這個(gè)任務(wù)本身就在隱式地教會(huì)你"應(yīng)該關(guān)注什么"。

FastDriveVLA正是利用了這個(gè)原理。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)輕量級(jí)的"視覺令牌篩選器",給它取名叫ReconPruner(重建剪枝器)。這個(gè)篩選器的工作方式是:首先給每個(gè)視覺令牌打一個(gè)"重要性分?jǐn)?shù)",然后只保留分?jǐn)?shù)最高的那些令牌,嘗試用這些令牌來"重建"原始圖像的前景區(qū)域。如果重建出來的前景畫面和原圖很接近,說明這些高分令牌確實(shí)包含了前景的關(guān)鍵信息;如果重建效果很差,說明篩選器"看走了眼",遺漏了重要的前景令牌。通過不斷調(diào)整打分策略,篩選器逐漸學(xué)會(huì)了把高分給予那些真正承載前景信息的令牌。

這種訓(xùn)練方式借鑒了計(jì)算機(jī)視覺領(lǐng)域一種叫做"掩碼自編碼器"(MAE)的技術(shù)。在MAE中,模型需要從被部分遮擋的圖像中恢復(fù)出完整圖像,這個(gè)過程迫使模型學(xué)習(xí)圖像的本質(zhì)結(jié)構(gòu)特征。FastDriveVLA把這個(gè)思想應(yīng)用到了視覺令牌篩選上:讓篩選器選出的令牌來重建前景,就相當(dāng)于在訓(xùn)練篩選器"找出真正重要的視覺信息"。

對(duì)抗訓(xùn)練策略:防止AI"偷懶"

然而,僅僅要求篩選器重建前景還不夠。研究團(tuán)隊(duì)在實(shí)驗(yàn)中發(fā)現(xiàn)了一個(gè)有趣的問題:如果只用前景重建質(zhì)量來訓(xùn)練篩選器,它會(huì)學(xué)會(huì)一種"投機(jī)取巧"的策略——給所有視覺令牌都打高分。這樣一來,雖然前景重建的效果會(huì)很好(因?yàn)榍熬靶畔⒖隙ǘ急槐A袅耍?,但篩選器就完全失去了"篩選"的意義,我們還是要處理全部的視覺令牌。

用一個(gè)生活化的比喻來解釋這個(gè)現(xiàn)象:假設(shè)你是一個(gè)公司的HR,老板讓你從100份簡歷中篩選出最優(yōu)秀的10位候選人來面試。如果老板只根據(jù)"被選中的人有多優(yōu)秀"來評(píng)估你的工作,你可能會(huì)干脆把所有100份簡歷都遞上去——反正最優(yōu)秀的那幾位肯定在里面,你的KPI穩(wěn)穩(wěn)達(dá)成。但這顯然違背了"篩選"的初衷。

為了防止ReconPruner學(xué)會(huì)這種"偷懶"策略,研究團(tuán)隊(duì)引入了一個(gè)"對(duì)抗性前景-背景重建策略"。這個(gè)策略的核心是:不僅要求用高分令牌重建前景,還要求用低分令牌重建背景。也就是說,篩選器不僅要能"選對(duì)"重要的令牌,還要能"排除"不重要的令牌——那些被打了低分的令牌應(yīng)該主要包含背景信息,用它們來重建背景應(yīng)該也有不錯(cuò)的效果。

這種雙向約束徹底堵死了"偷懶"的路。如果篩選器給所有令牌都打高分,那就沒有令牌來重建背景了,背景重建任務(wù)會(huì)徹底失敗。如果篩選器給所有令牌都打低分,前景重建任務(wù)又會(huì)失敗。只有真正學(xué)會(huì)區(qū)分前景和背景,兩個(gè)任務(wù)才能同時(shí)完成得很好。

這種設(shè)計(jì)靈感來自于著名的"生成對(duì)抗網(wǎng)絡(luò)"(GAN)思想。在GAN中,兩個(gè)神經(jīng)網(wǎng)絡(luò)相互"對(duì)抗"——一個(gè)負(fù)責(zé)生成假圖片,另一個(gè)負(fù)責(zé)辨別真假——正是這種對(duì)抗讓生成器越來越擅長制作以假亂真的圖像。FastDriveVLA借用了這種"在對(duì)抗中成長"的理念,通過前景和背景重建任務(wù)的相互制約,讓篩選器的判斷能力不斷精進(jìn)。

nuScenes-FG數(shù)據(jù)集:為AI標(biāo)記道路上的"重點(diǎn)區(qū)域"

俗話說"巧婦難為無米之炊",再好的算法也需要高質(zhì)量的數(shù)據(jù)來訓(xùn)練。為了教會(huì)ReconPruner區(qū)分前景和背景,研究團(tuán)隊(duì)首先需要大量標(biāo)注了前景區(qū)域的自動(dòng)駕駛場景圖像。


nuScenes是自動(dòng)駕駛研究領(lǐng)域最權(quán)威的公開數(shù)據(jù)集之一,包含1000個(gè)駕駛場景、六個(gè)攝像頭視角的完整記錄。然而,nuScenes原有的標(biāo)注主要是車輛和行人的三維包圍盒——也就是在三維空間中用一個(gè)立方體框住目標(biāo)物體。這種標(biāo)注方式有一個(gè)問題:包圍盒是"粗略"的,它不僅包含了目標(biāo)物體本身,還包含了目標(biāo)周圍的一些背景區(qū)域。而且,nuScenes的地圖擴(kuò)展包雖然提供了11類語義標(biāo)注,但仍然無法覆蓋所有與駕駛相關(guān)的前景要素。

為了解決這個(gè)問題,研究團(tuán)隊(duì)利用最新的Grounded-SAM技術(shù),對(duì)整個(gè)nuScenes數(shù)據(jù)集進(jìn)行了精細(xì)的前景分割標(biāo)注。Grounded-SAM是一種結(jié)合了語言理解和圖像分割能力的AI工具,它可以根據(jù)文字描述(如"道路"、"車輛"、"行人"等)自動(dòng)在圖像中勾勒出對(duì)應(yīng)物體的精確輪廓,比傳統(tǒng)的包圍盒標(biāo)注精細(xì)得多。

研究團(tuán)隊(duì)將自動(dòng)駕駛場景中的前景定義為五類:人、道路、車輛、交通標(biāo)志(包括紅綠燈)和交通障礙物(如路面上的障礙墩、施工護(hù)欄等)。其他區(qū)域——建筑物、天空、樹木等——?jiǎng)t被歸類為背景?;谶@個(gè)定義,他們使用Grounded-SAM對(duì)nuScenes的全部場景進(jìn)行了處理,最終得到了一個(gè)包含24.1萬張圖像-掩碼對(duì)的大規(guī)模數(shù)據(jù)集,并將其命名為nuScenes-FG(FG代表Foreground,即前景)。

nuScenes-FG數(shù)據(jù)集涵蓋了六個(gè)攝像頭視角(前、后、左前、右前、左后、右后),每張圖像都配有精確的像素級(jí)前景標(biāo)注。這意味著AI可以準(zhǔn)確地知道圖像中的每一個(gè)像素是屬于前景還是背景,為ReconPruner的訓(xùn)練提供了理想的監(jiān)督信號(hào)。研究團(tuán)隊(duì)表示,這個(gè)數(shù)據(jù)集也將開放給其他研究者使用,有望推動(dòng)自動(dòng)駕駛前景感知領(lǐng)域的進(jìn)一步發(fā)展。

ReconPruner的技術(shù)架構(gòu):小身材大能量

ReconPruner的設(shè)計(jì)充分體現(xiàn)了"輕量高效"的理念。它的整體參數(shù)量只有0.07億(700萬),相比動(dòng)輒數(shù)十億參數(shù)的VLA主模型,簡直是"九牛一毛"。這種輕量級(jí)設(shè)計(jì)確保了篩選過程本身不會(huì)成為新的計(jì)算瓶頸。

ReconPruner由兩個(gè)核心組件構(gòu)成:PrunerLayer(剪枝層)和Scorer(評(píng)分器)。

PrunerLayer的作用是讓視覺令牌之間"交流信息",為后續(xù)的評(píng)分做準(zhǔn)備。它采用的是Qwen2.5-VL-3B模型中單個(gè)解碼層的結(jié)構(gòu)——這是目前性能優(yōu)異的視覺語言模型之一。在PrunerLayer中,研究團(tuán)隊(duì)引入了一個(gè)特殊的"查詢令牌",這個(gè)令牌就像一個(gè)"偵察兵",它的任務(wù)是在與所有視覺令牌交互的過程中,探測出整個(gè)場景中哪些區(qū)域包含前景信息。

具體來說,查詢令牌和所有視覺令牌一起被送入PrunerLayer,通過注意力機(jī)制進(jìn)行信息融合。處理完成后,每個(gè)視覺令牌都會(huì)"吸收"一部分來自查詢令牌的信息,這些信息編碼了"這個(gè)令牌與前景區(qū)域相關(guān)程度"的判斷。

接下來,Scorer登場了。Scorer是一個(gè)極其簡單的單層前饋網(wǎng)絡(luò),它接收PrunerLayer的輸出,為每個(gè)視覺令牌計(jì)算一個(gè)"顯著性分?jǐn)?shù)"——分?jǐn)?shù)越高,表示這個(gè)令牌越可能包含重要的前景信息。這個(gè)評(píng)分過程通過一個(gè)數(shù)學(xué)運(yùn)算叫做"Hadamard乘積"來實(shí)現(xiàn):將每個(gè)視覺令牌與查詢令牌逐元素相乘,然后通過Scorer輸出一個(gè)標(biāo)量分?jǐn)?shù)。

在訓(xùn)練階段,ReconPruner會(huì)根據(jù)顯著性分?jǐn)?shù)將視覺令牌分為兩組:高分組和低分組。高分組的令牌被送入重建解碼器來重建前景圖像,低分組的令牌則被用來重建背景圖像。重建解碼器由六層Qwen2.5-VL-3B解碼層和一個(gè)前饋重建頭組成。通過比較重建圖像與真實(shí)圖像的差異,系統(tǒng)可以計(jì)算出重建損失,這個(gè)損失信號(hào)會(huì)反向傳播回ReconPruner,指導(dǎo)它調(diào)整評(píng)分策略。

重建損失的計(jì)算結(jié)合了兩種常用的圖像質(zhì)量評(píng)估指標(biāo):均方誤差(MSE)和結(jié)構(gòu)相似性指數(shù)(SSIM)。MSE關(guān)注的是像素級(jí)的精確匹配,而SSIM則更注重人眼感知的結(jié)構(gòu)相似性。研究團(tuán)隊(duì)發(fā)現(xiàn),將這兩種損失以2:8的比例組合,可以獲得最好的訓(xùn)練效果。前景重建損失和背景重建損失則以1:1的比例相加,確保篩選器不會(huì)偏向任何一方。

值得一提的是,訓(xùn)練過程中有一個(gè)技術(shù)細(xì)節(jié)需要特別處理:根據(jù)顯著性分?jǐn)?shù)將令牌分組是一個(gè)"非連續(xù)"的操作——分?jǐn)?shù)高于某個(gè)閾值的歸入高分組,否則歸入低分組。這種非連續(xù)操作會(huì)阻斷梯度的反向傳播,讓神經(jīng)網(wǎng)絡(luò)無法通過常規(guī)方法學(xué)習(xí)。為了解決這個(gè)問題,研究團(tuán)隊(duì)采用了"直通估計(jì)器"(STE)技術(shù):在前向計(jì)算時(shí)使用真正的離散分組,在反向傳播時(shí)則用連續(xù)的近似值來傳遞梯度。這是深度學(xué)習(xí)中處理離散操作的標(biāo)準(zhǔn)技巧。

推理階段:即插即用的效率提升

ReconPruner最吸引人的特性之一是它的"即插即用"能力。一旦訓(xùn)練完成,它可以無縫地插入到任何使用相同視覺編碼器的VLA模型中,而不需要對(duì)這些模型進(jìn)行任何額外的訓(xùn)練或微調(diào)。

在推理階段,工作流程非常簡潔。首先,道路圖像被送入VLA模型的視覺編碼器,產(chǎn)生大量的視覺令牌(比如前面提到的3249個(gè))。接著,ReconPruner對(duì)這些令牌進(jìn)行評(píng)分,根據(jù)預(yù)設(shè)的剪枝比例(比如保留50%),選出顯著性分?jǐn)?shù)最高的那些令牌。最后,只有被選中的令牌會(huì)被送入VLA模型的語言模型部分進(jìn)行后續(xù)處理,生成駕駛動(dòng)作預(yù)測。

這個(gè)過程中有一個(gè)細(xì)節(jié)值得注意:為了保持被選中令牌的空間語義信息,ReconPruner會(huì)同時(shí)保留它們對(duì)應(yīng)的位置編碼。位置編碼是Transformer架構(gòu)中的關(guān)鍵組成部分,它告訴模型每個(gè)令牌在原始圖像中的位置。如果丟失了位置信息,模型就無法知道"前方有一輛車"到底是在畫面的左邊還是右邊,這對(duì)于駕駛決策來說是災(zāi)難性的。

實(shí)際部署時(shí),研究團(tuán)隊(duì)推薦使用50%的剪枝比例——也就是保留一半的視覺令牌。這個(gè)比例在各項(xiàng)性能指標(biāo)上實(shí)現(xiàn)了最好的平衡:既獲得了顯著的效率提升,又幾乎沒有損失駕駛性能。研究團(tuán)隊(duì)也測試了25%和75%的剪枝比例:25%的剪枝相對(duì)保守,效率提升有限但性能幾乎無損甚至略有提升;75%的剪枝則比較激進(jìn),效率大幅提升但會(huì)帶來一定的性能下降。由于自動(dòng)駕駛是安全關(guān)鍵型應(yīng)用,研究團(tuán)隊(duì)建議在實(shí)際部署時(shí)優(yōu)先考慮性能保障,不宜使用過于激進(jìn)的剪枝策略。

實(shí)驗(yàn)結(jié)果:全面超越現(xiàn)有方法

研究團(tuán)隊(duì)在nuScenes數(shù)據(jù)集上對(duì)FastDriveVLA進(jìn)行了全面評(píng)估,并與現(xiàn)有的主流視覺令牌剪枝方法進(jìn)行了對(duì)比。基準(zhǔn)模型選用的是Impromptu-VLA——目前公認(rèn)性能最強(qiáng)的端到端自動(dòng)駕駛VLA模型之一,它基于Qwen2.5-VL架構(gòu)構(gòu)建。

評(píng)估采用的是"開環(huán)規(guī)劃"范式,測試數(shù)據(jù)集包含6019個(gè)樣本。研究團(tuán)隊(duì)使用三個(gè)核心指標(biāo)來衡量模型性能:軌跡預(yù)測的L2誤差(預(yù)測軌跡與真實(shí)軌跡之間的歐氏距離,單位為厘米)、碰撞率(預(yù)測軌跡與其他道路使用者發(fā)生碰撞的概率)、以及越界率(預(yù)測軌跡駛出道路邊界的概率)。這三個(gè)指標(biāo)都是"越低越好"的類型。

對(duì)比的基線方法包括兩類:基于注意力的FastV和SparseVLM,以及基于相似度的VisPruner和DivPrune。這四種方法都發(fā)表在頂級(jí)學(xué)術(shù)會(huì)議上(ECCV、ICML、ICCV、CVPR),代表了當(dāng)前的技術(shù)前沿。

實(shí)驗(yàn)結(jié)果令人印象深刻。在保留75%視覺令牌(剪枝25%)的設(shè)置下,F(xiàn)astDriveVLA在所有三項(xiàng)指標(biāo)上都超過了全部基線方法。更令人驚喜的是,它在L2誤差和越界率這兩項(xiàng)指標(biāo)上甚至比完全不做剪枝的原始Impromptu-VLA模型還要好——L2誤差從31.83厘米降低到31.80厘米,越界率從2.80%降低到2.77%。這個(gè)"負(fù)剪枝"效應(yīng)有力地證明了研究團(tuán)隊(duì)的核心假設(shè):專注于前景視覺信息不僅不會(huì)損害性能,反而有助于模型做出更好的決策。那些被剪掉的背景令牌實(shí)際上一直在"干擾"模型,去除它們反而讓模型的注意力更加集中。

在保留50%視覺令牌的設(shè)置下,F(xiàn)astDriveVLA繼續(xù)保持全面領(lǐng)先,平均L2誤差為32.10厘米,碰撞率為0.25%,越界率為2.94%。與原始模型相比,這些數(shù)字意味著FastDriveVLA只用一半的視覺信息就保持了超過99%的軌跡預(yù)測精度、97%的碰撞避免能力和95%的道路邊界遵守能力??紤]到計(jì)算量的大幅下降,這是一個(gè)非常出色的權(quán)衡。

即使在激進(jìn)的75%剪枝設(shè)置下(只保留25%的視覺令牌),F(xiàn)astDriveVLA的優(yōu)勢依然明顯。它的平均L2誤差為32.64厘米,而四種基線方法的最優(yōu)值為32.77厘米;碰撞率為0.29%,而基線最優(yōu)值為0.31%;越界率為2.91%,而基線最優(yōu)值為2.93%。雖然性能相比保守剪枝有所下降,但FastDriveVLA始終是表現(xiàn)最好的方法。

效率分析:速度提升看得見

除了性能指標(biāo),研究團(tuán)隊(duì)還對(duì)各種剪枝方法的計(jì)算效率進(jìn)行了詳細(xì)分析。

當(dāng)視覺令牌從3249個(gè)減少到812個(gè)(剪枝75%)時(shí),F(xiàn)astDriveVLA的浮點(diǎn)運(yùn)算次數(shù)(FLOPs)從38.2萬億次降低到5.1萬億次,減少了約7.5倍。這意味著AI的"思考量"減少到了原來的七分之一左右。

更直觀的是實(shí)際運(yùn)行時(shí)間的變化。在GPU上測量的"預(yù)填充時(shí)間"(AI首次看到圖像到開始生成輸出之間的延遲)從187毫秒降低到51毫秒,加速了約3.7倍。"解碼時(shí)間"(生成每個(gè)輸出令牌所需的時(shí)間)從23毫秒降低到18毫秒,加速了約1.3倍。預(yù)填充時(shí)間的大幅降低對(duì)自動(dòng)駕駛尤其重要,因?yàn)檫@直接決定了系統(tǒng)對(duì)新路況的響應(yīng)速度。

有趣的是,雖然FastDriveVLA引入了一個(gè)額外的參數(shù)化篩選器(ReconPruner),理論上會(huì)增加一些計(jì)算開銷,但由于ReconPruner的設(shè)計(jì)極其輕量,加上它帶來的令牌數(shù)量大幅減少,總體效率反而比一些"無參數(shù)"的剪枝方法更高。這體現(xiàn)了研究團(tuán)隊(duì)在架構(gòu)設(shè)計(jì)上的精妙考量。

消融實(shí)驗(yàn):每個(gè)設(shè)計(jì)都有其必要性

為了驗(yàn)證FastDriveVLA各個(gè)組成部分的貢獻(xiàn),研究團(tuán)隊(duì)進(jìn)行了一系列消融實(shí)驗(yàn)。

首先,他們測試了用"前景掩碼預(yù)測"代替"像素重建"的效果。前景掩碼預(yù)測是一種更簡單的訓(xùn)練目標(biāo):讓篩選器學(xué)習(xí)預(yù)測每個(gè)視覺令牌是屬于前景還是背景,而不是去重建圖像內(nèi)容。實(shí)驗(yàn)結(jié)果顯示,這種簡化方案在所有指標(biāo)上都不如像素重建。研究團(tuán)隊(duì)分析認(rèn)為,掩碼預(yù)測只提供了二元的"是/否"監(jiān)督信號(hào),無法區(qū)分前景區(qū)域內(nèi)各個(gè)令牌的重要性差異——一個(gè)包含模糊路面紋理的令牌和一個(gè)包含清晰車輛輪廓的令牌會(huì)被同等對(duì)待。而像素重建任務(wù)則隱式地對(duì)不同復(fù)雜度的視覺內(nèi)容賦予了不同的權(quán)重:復(fù)雜且信息豐富的區(qū)域(如車輛)如果被遺漏,重建誤差會(huì)很大;簡單的均勻區(qū)域(如路面)即使被遺漏,重建誤差也相對(duì)較小。

其次,他們測試了移除"對(duì)抗性前景-背景重建策略"的影響——也就是只進(jìn)行前景重建訓(xùn)練,不要求低分令牌重建背景。這個(gè)配置的性能下降更為明顯,證實(shí)了前文分析的"偷懶"問題確實(shí)存在:沒有背景重建的約束,篩選器傾向于給更多令牌打高分,失去了有效區(qū)分前景和背景的能力。

另一組有趣的實(shí)驗(yàn)是將FastDriveVLA與"直接使用前景掩碼剪枝"進(jìn)行對(duì)比。既然研究團(tuán)隊(duì)已經(jīng)建立了nuScenes-FG數(shù)據(jù)集,為什么不直接把前景掩碼縮放到視覺令牌的分辨率,然后根據(jù)掩碼來決定保留哪些令牌呢?這看起來是一個(gè)簡單直接的方案。

實(shí)驗(yàn)結(jié)果顯示,基于掩碼的剪枝確實(shí)比純粹基于文本注意力的剪枝有所改進(jìn),證明了"前景令牌更重要"這個(gè)假設(shè)是正確的。但FastDriveVLA的效果仍然更好。研究團(tuán)隊(duì)指出了兩個(gè)原因:第一,前景掩碼只提供二元判斷,無法對(duì)不同令牌的重要性進(jìn)行細(xì)粒度排序,因此難以適應(yīng)不同的剪枝比例需求;第二,更重要的是,視覺編碼器產(chǎn)生的視覺令牌與原始圖像之間存在"空間錯(cuò)位"——這是Vision Transformer架構(gòu)的一個(gè)已知問題,令牌的感受野并不精確對(duì)應(yīng)圖像中的特定區(qū)域。直接用圖像級(jí)的掩碼來篩選令牌會(huì)引入系統(tǒng)性的偏差,而FastDriveVLA通過端到端學(xué)習(xí)回避了這個(gè)問題。

此外,使用Grounded-SAM在線生成前景掩碼還有一個(gè)實(shí)際困難:每張圖像的處理大約需要3秒,這對(duì)于實(shí)時(shí)駕駛系統(tǒng)來說是無法接受的延遲。而訓(xùn)練好的ReconPruner可以在毫秒級(jí)時(shí)間內(nèi)完成令牌評(píng)分,完全滿足實(shí)時(shí)性要求。

可視化分析:看看AI到底在關(guān)注什么

為了直觀展示FastDriveVLA的效果,研究團(tuán)隊(duì)提供了豐富的可視化結(jié)果。


在前景和背景重建的可視化中,可以清晰地看到ReconPruner的工作效果。給定一張道路場景輸入圖像,ReconPruner選出的高分令牌能夠重建出包含車道線、車輛、交通標(biāo)志等元素的前景圖像,而低分令牌重建出的則是去除了這些前景元素的背景圖像——主要是天空、建筑物和路邊植被。兩張重建圖像幾乎完美互補(bǔ),說明ReconPruner確實(shí)學(xué)會(huì)了精準(zhǔn)區(qū)分前景和背景。

在與其他方法的對(duì)比可視化中,差異更加明顯。FastV(基于注意力的方法)選擇保留的視覺令牌分布比較零散,而且明顯遺漏了圖像中的部分車輛——這對(duì)于自動(dòng)駕駛來說是致命的疏忽。DivPrune(基于相似度的方法)保留的令牌雖然數(shù)量不少,但空間分布過于分散,對(duì)車道區(qū)域的覆蓋不夠集中,可能影響軌跡規(guī)劃的準(zhǔn)確性。相比之下,F(xiàn)astDriveVLA選擇的令牌高度聚焦在車道線、前方車輛、交通標(biāo)志等關(guān)鍵區(qū)域,分布緊湊而有序,與人類司機(jī)的注意力模式高度吻合。

至頂AI實(shí)驗(yàn)室洞見

盡管FastDriveVLA取得了優(yōu)異的性能,研究團(tuán)隊(duì)也坦誠地討論了當(dāng)前工作的一些局限性。

首先,ReconPruner的訓(xùn)練依賴于預(yù)先定義的"前景"概念。雖然研究團(tuán)隊(duì)的定義覆蓋了大多數(shù)駕駛相關(guān)要素,但在某些特殊場景下可能不夠全面。例如,道路施工現(xiàn)場的臨時(shí)標(biāo)識(shí)、動(dòng)物穿越馬路、或者極端天氣條件下的特殊視覺線索,可能并不完全符合"人、車、路、標(biāo)志、障礙物"這五類定義。未來的工作可以考慮引入更靈活的前景定義機(jī)制,或者讓模型自適應(yīng)地學(xué)習(xí)場景相關(guān)的重要性判斷。

其次,當(dāng)前的評(píng)估主要基于開環(huán)規(guī)劃指標(biāo),也就是在固定的測試樣本上比較預(yù)測軌跡與真實(shí)軌跡的差異。雖然這是自動(dòng)駕駛研究中廣泛使用的評(píng)估范式,但它無法完全反映系統(tǒng)在真實(shí)閉環(huán)駕駛中的表現(xiàn)——在閉環(huán)場景中,車輛的實(shí)際運(yùn)動(dòng)會(huì)影響后續(xù)的感知輸入,形成復(fù)雜的反饋循環(huán)。研究團(tuán)隊(duì)表示,后續(xù)會(huì)在更接近真實(shí)場景的閉環(huán)仿真環(huán)境中進(jìn)一步驗(yàn)證FastDriveVLA的效果。

第三,雖然FastDriveVLA的"即插即用"特性是一大優(yōu)勢,但它目前僅限于使用相同視覺編碼器的VLA模型。如果未來出現(xiàn)了采用全新視覺編碼器架構(gòu)的模型,可能需要為新架構(gòu)重新訓(xùn)練ReconPruner。不過,由于ReconPruner的訓(xùn)練成本很低(只需要兩塊H800 GPU訓(xùn)練3小時(shí)),這個(gè)限制在實(shí)際中并不算嚴(yán)重。

這項(xiàng)研究最重要的貢獻(xiàn)可能不在于具體的技術(shù)方案,而在于它揭示的深層道理:有時(shí)候,"少"確實(shí)就是"多"。在自動(dòng)駕駛這樣的復(fù)雜任務(wù)中,讓AI學(xué)會(huì)忽略無關(guān)信息,與讓它學(xué)會(huì)理解重要信息同等重要。FastDriveVLA用一種優(yōu)雅的方式實(shí)現(xiàn)了這個(gè)目標(biāo),為高效、安全的自動(dòng)駕駛系統(tǒng)開辟了新的可能。

對(duì)于普通人來說,這項(xiàng)研究意味著未來的自動(dòng)駕駛汽車可能會(huì)變得更加"聰明"——不是因?yàn)樗鼈兡芴幚砀嗟男畔?,而是因?yàn)樗鼈儗W(xué)會(huì)了像人類老司機(jī)一樣,知道什么時(shí)候該關(guān)注什么,什么信息可以安全地忽略。這種"智慧的專注"或許正是通往真正可靠自動(dòng)駕駛的關(guān)鍵一步。

本文來自至頂AI實(shí)驗(yàn)室,一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動(dòng)生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場景,為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。

Q&A

Q1:FastDriveVLA是什么?

A:FastDriveVLA是北京大學(xué)和小鵬汽車聯(lián)合開發(fā)的一種自動(dòng)駕駛AI加速框架。它通過一個(gè)名為ReconPruner的輕量級(jí)視覺令牌篩選器,讓自動(dòng)駕駛系統(tǒng)學(xué)會(huì)像人類司機(jī)一樣只關(guān)注道路上的重要信息(如車輛、行人、車道線、交通標(biāo)志),自動(dòng)過濾掉不重要的背景信息,從而在保持甚至提升駕駛性能的同時(shí),將視覺處理速度提升約7倍。

Q2:ReconPruner為什么能準(zhǔn)確區(qū)分道路上的重要和不重要信息?

A:ReconPruner采用了一種獨(dú)特的"圖像重建"訓(xùn)練方法。它被要求用高分令牌重建前景(車輛、道路等),同時(shí)用低分令牌重建背景(天空、建筑等)。這種雙向約束迫使它精準(zhǔn)學(xué)習(xí)什么是重要信息。如果分類錯(cuò)誤,重建質(zhì)量就會(huì)明顯下降,系統(tǒng)會(huì)據(jù)此不斷調(diào)整評(píng)分策略。

Q3:nuScenes-FG數(shù)據(jù)集包含哪些內(nèi)容?

A:nuScenes-FG是研究團(tuán)隊(duì)專門為訓(xùn)練ReconPruner構(gòu)建的大規(guī)模數(shù)據(jù)集,包含24.1萬張圖像及其配套的前景分割標(biāo)注。數(shù)據(jù)涵蓋六個(gè)攝像頭視角,每張圖像都精確標(biāo)注了五類前景要素:人、道路、車輛、交通標(biāo)志和交通障礙物。該數(shù)據(jù)集將對(duì)外開放,供自動(dòng)駕駛研究者使用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
早就想打!日媒首次爆料:中國雙航母出動(dòng)時(shí)日軍戰(zhàn)機(jī)已做戰(zhàn)斗準(zhǔn)備

早就想打!日媒首次爆料:中國雙航母出動(dòng)時(shí)日軍戰(zhàn)機(jī)已做戰(zhàn)斗準(zhǔn)備

詩意世界
2025-08-21 13:13:50
《用武之地》還是《匿殺》?元旦五部電影,哪部都不想看

《用武之地》還是《匿殺》?元旦五部電影,哪部都不想看

影視口碑榜
2025-12-31 17:31:30
史上最快暴富!90后中國小伙,10天狂賺數(shù)百億……

史上最快暴富!90后中國小伙,10天狂賺數(shù)百億……

功夫財(cái)經(jīng)
2025-12-31 08:26:37
凱迪拉克多款車型推限時(shí)優(yōu)惠 全新CT5售19.99萬元起

凱迪拉克多款車型推限時(shí)優(yōu)惠 全新CT5售19.99萬元起

太平洋汽車
2025-12-31 15:14:35
1956年不愿被提及的羅源灣空戰(zhàn),原志愿軍王牌飛行員被擊落犧牲

1956年不愿被提及的羅源灣空戰(zhàn),原志愿軍王牌飛行員被擊落犧牲

興趣知識(shí)
2025-12-31 02:34:52
娛樂圈真是一個(gè)圈!白百何老公不要的前妻,竟在張繼科那光芒四射

娛樂圈真是一個(gè)圈!白百何老公不要的前妻,竟在張繼科那光芒四射

凡知
2025-12-05 04:58:03
普京險(xiǎn)遭"斬首",24小時(shí)后,4國收到特殊來信,中方對(duì)烏措辭變了

普京險(xiǎn)遭"斬首",24小時(shí)后,4國收到特殊來信,中方對(duì)烏措辭變了

阿器談史
2026-01-01 06:39:11
失業(yè)的人越來越多了

失業(yè)的人越來越多了

曹多魚的財(cái)經(jīng)世界
2025-12-24 14:56:20
庫里獲專屬榮譽(yù)!擁有自己名字命名立交樞紐 調(diào)侃想把路牌偷回家

庫里獲專屬榮譽(yù)!擁有自己名字命名立交樞紐 調(diào)侃想把路牌偷回家

羅說NBA
2026-01-01 06:32:32
他判刑13年至死未平反,10萬人送行墓前立百碑,百姓說不能忘了他

他判刑13年至死未平反,10萬人送行墓前立百碑,百姓說不能忘了他

來科點(diǎn)譜
2025-12-10 09:03:06
從無視陳夢握手,到2次投訴后輩蒯曼,國乒某名將的風(fēng)評(píng)越來越差

從無視陳夢握手,到2次投訴后輩蒯曼,國乒某名將的風(fēng)評(píng)越來越差

譚顳愛搞笑
2025-12-30 21:35:03
陳方“痛并快樂著”,新賽季女排人才井噴,整體實(shí)力不降反升!

陳方“痛并快樂著”,新賽季女排人才井噴,整體實(shí)力不降反升!

吳锎旅行ing
2026-01-01 05:34:53
劉亦菲在家玩自拍!不料被鏡子“出賣”了,網(wǎng)友直呼:好女人??!

小欣欣聊體育
2025-12-18 20:44:37

“半價(jià)版”理想L9,配置高的嚇人,續(xù)航2000km,4月上市,不火都難

“半價(jià)版”理想L9,配置高的嚇人,續(xù)航2000km,4月上市,不火都難

隔壁說車?yán)贤?/span>
2025-12-30 06:09:51
數(shù)千輛“巨無霸”,每天綿延幾公里!滬上公路引發(fā)“安全之憂”,相關(guān)部門回應(yīng)

數(shù)千輛“巨無霸”,每天綿延幾公里!滬上公路引發(fā)“安全之憂”,相關(guān)部門回應(yīng)

新民晚報(bào)
2025-12-30 19:23:40
3大國家保密中成藥:中風(fēng)急救、心??祻?fù),心血管的護(hù)身符!

3大國家保密中成藥:中風(fēng)急救、心??祻?fù),心血管的護(hù)身符!

展望云霄
2025-12-25 21:39:14
跨年晚會(huì)現(xiàn)場,演員李川求婚錘娜麗莎

跨年晚會(huì)現(xiàn)場,演員李川求婚錘娜麗莎

瀟湘晨報(bào)
2025-12-31 23:29:09
周蘇紅:前夫癱瘓后,再嫁富豪仍照顧前夫,如今女兒認(rèn)前夫當(dāng)干爹

周蘇紅:前夫癱瘓后,再嫁富豪仍照顧前夫,如今女兒認(rèn)前夫當(dāng)干爹

籃球看比賽
2025-12-31 11:58:00
卡扎菲次子賽義夫:被囚6年,前女友不離不棄,最終將其解救出獄

卡扎菲次子賽義夫:被囚6年,前女友不離不棄,最終將其解救出獄

小熊侃史
2025-12-31 11:57:54
因長得像中國人,印度男青年在街頭被圍毆打死!

因長得像中國人,印度男青年在街頭被圍毆打死!

荊楚寰宇文樞
2025-12-31 21:59:57
2026-01-01 07:36:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
895文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

土耳其宣布對(duì)持普通護(hù)照中國公民免簽

頭條要聞

土耳其宣布對(duì)持普通護(hù)照中國公民免簽

體育要聞

羅馬諾:內(nèi)馬爾與桑托斯就續(xù)約達(dá)成協(xié)議,合同期至2026年12月

娛樂要聞

官宣才兩天就翻車?七七被連環(huán)爆料

財(cái)經(jīng)要聞

高培勇:分配制度改革是提振消費(fèi)的抓手

汽車要聞

凱迪拉克純電中型SUV 售價(jià)不足24萬/33寸曲面屏

態(tài)度原創(chuàng)

親子
教育
時(shí)尚
旅游
數(shù)碼

親子要聞

新西蘭小小傘液體鈣,讓每一滴營養(yǎng)都化為成長動(dòng)力

教育要聞

父母常說的3句話,會(huì)嚴(yán)重破壞孩子的內(nèi)動(dòng)力

靈感集結(jié),能量共振

旅游要聞

哈瓦那街巷里的堅(jiān)韌與希望

數(shù)碼要聞

國家廣電總局:2025年圓滿完成插入式微型機(jī)頂盒千萬級(jí)規(guī)模部署

無障礙瀏覽 進(jìn)入關(guān)懷版