国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

元戎啟行發(fā)布VLA模型,起點是讓AI學會害怕?|附CEO對話實錄

0
分享至


VLA,這是 2025 年最熱的輔助駕駛技術路線之一,理想 i8 已經(jīng)量產(chǎn),小鵬 P7 緊追不舍,而華為卻說我們不用這個技術。

就在昨天,VLA 陣營又一位新玩家來了,元戎啟行發(fā)布全新一代輔助駕駛平臺——DeepRoute IO 2.0,并搭載自研的 VLA(Vision-Language-Action)模型。

元戎啟行 CEO 周光透露,開發(fā) VLA 模型的起點是讓 AI 學會害怕。傳感器看不見,并不代表沒有危險,這也是在之前端到端時代輔助駕駛的局限。

經(jīng)常使用輔助駕駛的司機一定有這樣的體驗,在駕駛員覺得危險的場景(例如遮擋、轉彎、車道合并)之下,輔助駕駛反而信心滿滿,快速通過。更嚴重的問題是,這樣的表現(xiàn)卻通常被駕駛員認為輔助駕駛的效率高于人類,造成過度信賴。隨著搭載輔助駕駛車型的不斷增多,任何問題都有可能被放大。

究其原因,AI 沒有學會害怕。


元戎啟行的 VLA 模型就有四大功能,分別是空間語義理解、異形障礙物識別、文字類引導牌理解、記憶語音控車。


其中,空間語義理解就成為了最核心的功能。在輔助駕駛過程中,車輛對前視攝像頭的畫面進行語義理解(Vision-Language),當車輛行駛到遮擋、復雜路口、橋洞等視野盲區(qū)時,系統(tǒng)可以進行預防性判斷,最終決策降低車速(Action)。

異形障礙物識別使系統(tǒng)能夠識別并靈活應對如施工錐桶、超載小貨車等非結構化障礙;文字類引導牌識別讓系統(tǒng)看懂路標,解析潮汐車道、公交專用道等文字信息;記憶語音控車功能支持自然語言指令交互,并逐步學習用戶偏好,實現(xiàn)個性化與擬人化的駕駛體驗。


周光透露,DeepRoute IO 2.0 平臺適配「多模態(tài)+多芯片+多車型」,支持激光雷達與純視覺版本。目前,基于 DeepRoute IO 2.0 平臺,元戎啟行已達成 5 個車型的定點合作項目,首批量產(chǎn)車即將進入市場。

對話周光:VLA 最大難點在思維鏈和長時序推理

一場簡短的發(fā)布后,元戎啟行 CEO 周光接受了 42 號車庫等多家媒體的共同采訪。


聚焦元戎啟行 VLA 模型的技術細節(jié),周光表示,基于英偉達 Thor 芯片,VLA 能夠以每秒幾 Hz 的水平運行,可以做到實時響應。

在 VLA 研發(fā)過程中,最大的難點是思維鏈(Chain of Thought, CoT)和長時序推理。周光認為:「這才是 VLA 真正的核心能力。思維鏈是這類架構的基本要求。沒有它,就不能算是 VLA。」

最近,業(yè)內針輔助駕駛究竟要不要激光雷達,VLA 路線是不是輔助駕駛更優(yōu)的方案展開了相當多的討論。而發(fā)起這兩個討論的,一個是馬斯克,另一個是華為。

周光認為,激光雷達目前對通用障礙物識別仍有重要作用。但隨著大模型技術的發(fā)展,視覺會在感知中扮演越來越重要的角色,大模型有望逐步解決現(xiàn)在依賴激光雷達的部分任務。

那么輔助駕駛真的需要 VLA 嗎?周光認為,真正要實現(xiàn)思維鏈(COT)就需要走 VLA 方向,除非算力不足,可能會選擇別的路徑。

在一小時的深度交流中,周光談到了元戎啟行 VLA 模型的技術細節(jié)、VLA 訓練,并針對行業(yè)熱點問題進行了一一回應,我們將對話全程進行了整理,在不改變愿意的前提下略有刪減,供大家參考。

量產(chǎn) VLA 的其他技術細節(jié)

Q:量產(chǎn) VLA 模型的目標運行幀率是多少?

A:目前是每秒幾赫茲的水平,具體數(shù)值不便透露,但肯定能做到實時響應,不會出現(xiàn)幾秒一幀的情況。

Q:VLA 模型針對不同芯片平臺,在算法和訓練上做了哪些優(yōu)化?技術架構是否有前瞻性布局?

A:VLA 模型的研發(fā)和訓練本身與芯片無關,訓練完成后才會進行部署適配。不同芯片平臺主要影響的是工程部署的工作量,并不會反過來改變訓練方式或模型架構。

Q:元戎啟行支持多種芯片平臺,是否有具體范圍?隨著國產(chǎn)芯片(如地平線)和車企自研芯片的發(fā)展,這些是否都能適配?車企能指定芯片嗎?

A:芯片適配有一定要求,比如基礎算力、帶寬等。模型訓練完成后會經(jīng)過蒸餾和量化,適配需要滿足基本條件。合作中車廠可以提出芯片需求,適配成本(時間、資金、數(shù)據(jù))都是可協(xié)商的。我們目前以某款芯片為起點,未來會支持更多芯片,并不局限于一家。

Q:目前行業(yè)明確走 VLA 路線的似乎只有元戎啟行和理想。也有觀點認為,大語言模型雖強于文本推理,但在空間感知上并非強項。您如何看待這種說法?

A:更準確地說,VLA 本質是「基于 GPT 的端到端模型」。目前堅持投入大算力的公司,包括小鵬,其實都在朝這個方向走。比如特斯拉最新芯片算力達 2,500 TOPS,CNN 模型根本不需要如此大規(guī)模的算力,只有 GPT 架構才需要大參數(shù)和大算力支持。CNN 模型參數(shù)量有限,而 GPT 架構天然適合擴展,這才是未來方向。

Q:關于語音控車,您提到它屬于基礎功能。那么在 VLA 模型中,真正難的是什么?

A:最難的是思維鏈(Chain of Thought, CoT)和長時序推理。這才是 VLA 真正的核心能力。

Q:是否可通過思維鏈的表現(xiàn)來評價 VLA 模型的好壞?

A:思維鏈是這類架構的基本要求。沒有它,就不能算是 VLA。目前行業(yè)還沒有像 NLP 那樣統(tǒng)一的評測基準,但未來可能會建立基于物理場景的專用 Benchmark。

Q:從車機界面能否直觀判斷 VLA 模型的優(yōu)劣?

A:現(xiàn)階段我們還是聚焦于解決 0 到 1 的問題。像特斯拉的交互已經(jīng)做得很成熟,但我們需要先確保核心能力落地,再優(yōu)化用戶體驗。

Q:車端實際能跑多大的模型?

A:參數(shù)量暫不方便透露。不過受車規(guī)算力和功耗限制,即便是上車的 GPT 模型,也仍屬于“小模型”范疇。

Q:VLA 模型是否也會出現(xiàn)幻覺?如何降低這類風險?

A:預訓練階段確實可能產(chǎn)生幻覺,但通過后訓練對齊技術,已經(jīng)能極大抑制這一現(xiàn)象?,F(xiàn)在主流大模型(如豆包、千問)幻覺現(xiàn)象已經(jīng)很少,這方面已有較好的解決方案。

Q:隨著 VLA、VLM 等技術推進,輔助駕駛能力基線普遍提升,各家方案是否會出現(xiàn)趨同?元戎啟行如何保持自身特色?

A:端到端技術確實存在趨同,差別更多體現(xiàn)在推進節(jié)奏上。元戎在防御性駕駛等方面布局較早,半年前就已強調這一方向。技術判斷的準確性是關鍵,尤其在 VLA 這種廣度較大的領域。

Q:VLA 模型幀率目前低于某些端到端方案(10 - 20 幀),這是現(xiàn)階段的限制嗎?是否有補償方式?

A:幀率影響本質是延遲問題。從 100 毫秒降至 50 毫秒已有明顯收益,VLA 初期幀率稍低是正?,F(xiàn)象。幀率并非越高越好,預判能力增強也能彌補幀率限制。

Q:如果持續(xù)提升 VLA 的推理(Reasoning)能力,未來可能帶來哪些突破?

A:VLA 目前還未完全實現(xiàn)思維鏈(COT),這是關鍵差距。長遠來看,語言和推理能力是實現(xiàn)完全無人化自動駕駛的核心。比如遇到「左轉不受燈控」這種臨時標識,依賴地圖更新是不夠的,第一次遇到就需實時理解。VLA 在這條路上任重道遠,需要更多技術沉淀。特斯拉之所以投入十倍算力和參數(shù),正是因為 GPT 架構是明確方向,CNN 無法支撐這種擴展。

Q:請問 VLA 模型系統(tǒng)最低可適配什么價位的車型?哪些車型能夠應用?

A:目前 15 萬元以上的車型都可以適配,10 萬元級別的車型通過優(yōu)化也有機會搭載。端到端方案成本更低,而 VLA 模型目前更依賴算力支持。傳感器方面,11 個攝像頭正成為主流配置,像特斯拉就堅持純視覺路線。行業(yè)整體在提升算力,下一代芯片將達到 5,000 TOPS,甚至 10,000 TOPS 級別也不遠了。

Q:VLA 模型相比端到端方案會貴多少?成本差距大嗎?

A:主要成本差異在芯片,其余部分基本一致。芯片成本取決于制程工藝,目前千T級芯片算力時代已經(jīng)到來,例如特斯拉 2,500 TOPS 芯片,雙芯片即可實現(xiàn) 5,000 TOPS。

Q:上次車展聽您提到 VLA 模型不止用于車,還會拓展至機器人。能否多分享一些?是人形機器人還是無人駕駛?是否有相關合作?車用和機器人用的 VLA 模型是同一套嗎?

A:是的,VLA 模型本身是通用架構,不再為特定場景定制。正如我們年初發(fā)布的 RoadAGI 策略所說,未來這一技術可泛化至多種移動場景——包括小區(qū)、電梯、辦公室等室內外環(huán)境?,F(xiàn)在的機器人很多還依賴遙控或巡線技術,而我們希望能實現(xiàn)真正自主、通用的移動能力。

Q:您給當前版本打幾分(滿分10分)?最大挑戰(zhàn)是什么?

A:我個人打 6 分,剛及格。VLA 模型仍處于早期,相當于「幼年期」,但上限遠高于端到端方案。新一代架構需要新一代芯片支持,這不是 CNN 時代可比的。

Q:非 VLA 架構也可實現(xiàn)防御性駕駛,VLA 是必須的嗎?

A:統(tǒng)計方法能部分實現(xiàn)防御策略,但復雜場景需真正推理能力。VLA 因具備 CoT 和語言推理,能更徹底解決這些問題。BEV 在空間理解上存在天然局限。

VLA 是如何訓練的?

Q:元戎啟行 VLA 的基礎模型是千問嗎?

A:我們會采用多種模型進行蒸餾,千問是開源模型中比較優(yōu)秀的,我們也嘗試過基于千問以及自研蒸餾的方案。所以并不完全依賴于某一特定模型,也有來自千問的技術成分,但不完全一致。

Q:您沒有提到云端世界模型和仿真數(shù)據(jù)。目前行業(yè)普遍使用仿真路徑,元戎如何應對推理卡資源問題?

A:VLA 與第一代端到端最根本的區(qū)別是模型架構變了——從 CNN 轉向 GPT。訓練方法比如是否引入 RL,只是策略問題。CNN 架構本身無法實現(xiàn)類似人類的推理和泛化能力。

Q:訓練數(shù)據(jù)來源是什么?是否來自自有測試車隊和長城?

A:數(shù)據(jù)來源是多方面的:包括自有測試車隊、量產(chǎn)車數(shù)據(jù),以及生成數(shù)據(jù)。要實現(xiàn) GPT 架構的預訓練,必須依賴大規(guī)模、多樣化數(shù)據(jù)集,這是 CNN 模型無法勝任的。

Q:關于 VLA 模型對訓練資源的需求,有廠商表示需要數(shù)萬張卡。元戎啟行如何看待這種巨大的資源消耗?是否會帶來成本壓力?另外,為什么現(xiàn)在行業(yè)都在強調強化學習和 AI 訓練?

A:強化學習只是模型訓練的一種手段,屬于「后訓練」階段的一部分。如今行業(yè)已進入后訓練時代,但這本身并不值得過度強調——就像 GPT 或 Waymo 也不會單獨強調強化學習。元戎在技術選型上一直較為精準,VLA 是一個全新領域,方向選擇很多,如果有清晰的技術判斷,資源消耗完全可以更高效。事實上,輔助駕駛場景的 GPT 模型規(guī)模相對可控,比如 7B 模型并不需要極端龐大的算力。

Q:仿真測試方面,有廠商大幅減少實車測試、增加仿真里程,這是行業(yè)趨勢嗎?

A:我們更專注于自身技術路線。仿真是數(shù)據(jù)來源的一種,關鍵不在于是真實還是仿真,而在于數(shù)據(jù)質量。高質量數(shù)據(jù)集才是模型優(yōu)化的核心。

Q:長期看仿真數(shù)據(jù)在訓練中的占比會達到多少?仿真數(shù)據(jù)生成能力會成為壁壘嗎?

A:仿真需基于真實數(shù)據(jù),否則無法有效模擬?,F(xiàn)實數(shù)據(jù)仍是主體,仿真作為補充。從預訓練到后訓練階段,仿真比例會逐漸提升。行業(yè)應關注大模型整體發(fā)展,避免局限在自動駕駛領域。技術本質是相通的,就像人腦神經(jīng)元結構并無太大差異。

對行業(yè)熱點的看法

Q:最近馬斯克提到「激光雷達會讓自動駕駛越來越不安全」,您怎么看?

A:激光雷達目前對通用障礙物識別仍有重要作用,正如之前提到的,大模型的知識庫能力可以識別很多未知障礙物。我相信隨著大模型技術的發(fā)展,視覺會在感知中扮演越來越重要的角色。短期來看,激光雷達受限于技術發(fā)展和數(shù)據(jù)集的成熟度,仍有其價值;長期來看,大模型有望逐步解決現(xiàn)在依賴激光雷達的部分任務。

Q:如何看待其他車企推出 VLA 模型?比如小鵬。元戎的差異化優(yōu)勢在哪里?

A:小鵬的 VLA 進展也不錯,他們基于千問模型做出了實打實的成果。VLA 涵蓋面很廣,不像端到端那樣直接,更需要精準的技術判斷和持續(xù)積累。

Q:從規(guī)則算法、端到端 1.0 到 VLA 模型,如果現(xiàn)在車企或供應商想自研輔助駕駛系統(tǒng),能否可以直接切入 VLA?是否需要完整經(jīng)歷之前的研發(fā)階段?您研發(fā)端到端時是否預見到其上限?

A:每個階段都無法跳過,從有圖、無圖、端到端到 VLA 模型,整個發(fā)展過程必不可少,最多只能壓縮某些階段的時間,但不可能完全繞過。至于 VLA 模型的上限,目前其下限已經(jīng)超過端到端方案的上限。

Q:過去幾年,國內外廠商推出的智駕芯片對于 Transformer 模型的支持都不是很好。既然 VLA 是一個 GPT based E2E 架構,這是不是意味著:以后各家廠商在研發(fā)高階智能輔助駕駛芯片時,除了做到數(shù)千 TOPS 的算力,還必須將對 Transformer 模型的原生、高效支持作為核心設計指標?

A:確實如此。早期芯片主要針對 CNN 設計,未來一定會加強對 Transformer 的支持,尤其是在 FP4、FP6 等精度的優(yōu)化上。

Q:華為不走 VLA 路線,您怎么看?

A:若算力不足,確實可能選擇其他路徑。但真正要實現(xiàn)思維鏈(CoT)仍需 VLA 方向。

Q:作為行業(yè)參與者,如何共同將智駕蛋糕做大?除技術外還需哪些助力?

A:宣傳需理性,避免過度承諾,尤其在安全方面。技術發(fā)展需時間,需正確引導用戶預期。監(jiān)管與行業(yè)自律也很重要。

Q:元戎是否會參與 L4 競爭?目前進展如何?

A:傳統(tǒng)自動駕駛等級劃分已過時,真正的無人駕駛需推理能力,純規(guī)則系統(tǒng)無法應對「紅燈可左轉」這類問題。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
高層下場,蓋子捂不住了!

高層下場,蓋子捂不住了!

亞哥談古論今
2025-12-21 18:19:33
西甲:弗里克力挺,巴薩核心用表現(xiàn)“打臉”FIFA!

西甲:弗里克力挺,巴薩核心用表現(xiàn)“打臉”FIFA!

星耀國際足壇
2025-12-23 23:50:27
快手出現(xiàn)大量色情直播!有直播間13萬人觀看,官方回應被黑客入侵

快手出現(xiàn)大量色情直播!有直播間13萬人觀看,官方回應被黑客入侵

火山詩話
2025-12-23 05:28:27
前萬科集團的副總稱,不建議購買2018年以后建的房子,質量不好

前萬科集團的副總稱,不建議購買2018年以后建的房子,質量不好

我心縱橫天地間
2025-12-22 20:19:01
弘一法師:永遠不去責怪你生命里的任何人,好人給你快樂,壞人是

弘一法師:永遠不去責怪你生命里的任何人,好人給你快樂,壞人是

木言觀
2025-12-23 15:30:49
春晚大瓜:不演小品也不唱歌,網(wǎng)友建議把春晚變成直播問政?

春晚大瓜:不演小品也不唱歌,網(wǎng)友建議把春晚變成直播問政?

民間平哥
2025-12-23 19:53:59
軍隊再強大,經(jīng)濟再富足,武器再尖端,沒有偉大領袖,全都白瞎

軍隊再強大,經(jīng)濟再富足,武器再尖端,沒有偉大領袖,全都白瞎

南權先生
2025-12-23 16:58:45
胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

岐黃傳人孫大夫
2025-12-20 11:45:03
湖南平江某店百萬黃金被盜,警方30小時內抓獲2名犯罪嫌疑人!現(xiàn)場查獲:尚未銷贓的黃金手鐲55件、已被熔化的黃金1坨

湖南平江某店百萬黃金被盜,警方30小時內抓獲2名犯罪嫌疑人!現(xiàn)場查獲:尚未銷贓的黃金手鐲55件、已被熔化的黃金1坨

揚子晚報
2025-12-23 12:33:22
牛掰!再見弗拉格!人家才是NBA最強新秀

牛掰!再見弗拉格!人家才是NBA最強新秀

籃球實戰(zhàn)寶典
2025-12-23 21:00:03
錢多有什么用?42歲離婚無兒無女的尼格買提,走上了另外一條道路

錢多有什么用?42歲離婚無兒無女的尼格買提,走上了另外一條道路

古事尋蹤記
2025-12-20 07:13:47
王心凌武漢演唱會翻車?小腹贅肉出圈,網(wǎng)友反而集體破防,真實感

王心凌武漢演唱會翻車?小腹贅肉出圈,網(wǎng)友反而集體破防,真實感

阿廢冷眼觀察所
2025-12-23 09:09:52
收手吧沈騰,新片耗資1億,請來20位明星出演,預售票房僅15萬

收手吧沈騰,新片耗資1億,請來20位明星出演,預售票房僅15萬

靠譜電影君
2025-12-21 22:00:32
柬埔寨生命科學院被中國醫(yī)院指控冒用合作名義,卷入器官販賣傳聞

柬埔寨生命科學院被中國醫(yī)院指控冒用合作名義,卷入器官販賣傳聞

環(huán)球熱點快評
2025-12-23 08:48:32
1956年毛主席罕見發(fā)問:東來順羊肉咋回事?陳云一查,根子不在師傅,問題出在“新規(guī)矩”

1956年毛主席罕見發(fā)問:東來順羊肉咋回事?陳云一查,根子不在師傅,問題出在“新規(guī)矩”

歷史回憶室
2025-12-23 10:19:17
刺激夜:62歲穆帥率隊1-0,那不勒斯2-0奪冠,薩拉赫率隊2-1絕殺

刺激夜:62歲穆帥率隊1-0,那不勒斯2-0奪冠,薩拉赫率隊2-1絕殺

側身凌空斬
2025-12-23 06:53:14
空調巨頭剛達成“鋁管降本”,格力反手在包裝上印了“銅管”二字

空調巨頭剛達成“鋁管降本”,格力反手在包裝上印了“銅管”二字

百態(tài)人間
2025-12-23 16:45:58
貝佐斯為桑切斯慶生!前首富斷崖式衰老像圣誕老人,倆人都很招搖

貝佐斯為桑切斯慶生!前首富斷崖式衰老像圣誕老人,倆人都很招搖

丁丁鯉史紀
2025-12-23 21:31:01
中央組織部決定:中信銀行行長蘆葦,履新中國郵政集團

中央組織部決定:中信銀行行長蘆葦,履新中國郵政集團

上觀新聞
2025-12-23 20:12:05
丁偉:我們重點限制洛夫頓做的比較好,但外線漏了李弘權和福格

丁偉:我們重點限制洛夫頓做的比較好,但外線漏了李弘權和福格

狼叔評論
2025-12-23 22:34:12
2025-12-24 01:16:49
42號車庫
42號車庫
和你一起探索未來汽車
941文章數(shù) 902關注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強黑產(chǎn)攻擊

頭條要聞

美國全面禁售外國無人機 消費者正瘋狂囤貨大疆無人機

頭條要聞

美國全面禁售外國無人機 消費者正瘋狂囤貨大疆無人機

體育要聞

楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

娛樂要聞

朱孝天回應阿信感謝,自曝沒再收到邀約

財經(jīng)要聞

祥源系百億產(chǎn)品爆雷 浙金中心18人被拘

汽車要聞

四款新車集中發(fā)布 星途正式走進3.0時代

態(tài)度原創(chuàng)

手機
教育
游戲
旅游
軍事航空

手機要聞

榮耀Win系列:標配超聲波指紋+5920Hz高頻PWM,或力壓競品!

教育要聞

一定要讓孩子明白,什么是無效學習

任天堂獨占!Bloober恐怖新作即將揭曉:生化粉肯定愛

旅游要聞

日照五蓮:五蓮山滑雪場開板點燃冬日活力

軍事要聞

俄烏沖突關鍵人物在莫斯科被炸死 烏方尚未公開認領

無障礙瀏覽 進入關懷版