国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

理想GTC亮出新基礎模型!李想發(fā)文解讀,破解VLA三大痛點

0
分享至

作者 | 張睿
編輯 |志豪

理想汽車發(fā)布新自動駕駛基礎模型,李想與基座模型一把手出面詳解。

車東西3月18日消息,今日,理想汽車CEO李想與理想汽車基座模型負責人詹錕交流了理想汽車發(fā)布的新基礎模型。



▲李想(圖左)與詹錕(圖右)

理想汽車在NVIDIA GTC 2026上發(fā)布的理想汽車下一代自動駕駛基礎模型MindVLA-o1,而根據詹錕的介紹,MindVLA-o1以原生多模態(tài)MoETransformer為核心,通過五大技術——3D空間理解、多模態(tài)思考、統一行為生成、閉環(huán)強化學習(Closed-loop RL)和軟硬件協同設計(Hardware–Software Co-Design),讓自動駕駛看得更遠、想得更深、行得更穩(wěn)、進化更快、部署更高效。



▲MindVLA-o1基礎模型

而李想問詹錕,理想自研的馬赫M100芯片能不能“扛得住”最新的模型,詹錕則透露道馬赫M100芯片的性能很強,在標準的矩陣層計算任務上比上一代芯片強三倍,同時詹錕覺得到今年年中新模型就將具備一定的思維鏈能力。



▲理想汽車基座模型負責人詹錕

同時根據詹錕的說法,MindVLA-o1基礎模型正在向具身智能通用模型進化,他表示:“當我們把視覺、語言和行動統一到一個模型中時,它已不再只是自動駕駛模型,而是在逐漸演化為面向物理世界的通用智能體?;谕惶譜LA模型,不僅可以控制車輛,也能夠擴展到機器人。因此,自動駕駛只是物理AI的起點,未來這類基礎模型將驅動新的具身智能范式?!?/p>

李想本人也在社交媒體上發(fā)文,進一步解讀了MindVLA-o1。



▲李想在社交媒體上發(fā)文

李想在視頻中還提到了對于AI的看法,他認為AI對所有人都是一個杠桿,必須主動擁抱。

對一家公司而言,如果所在領域里,AI無法創(chuàng)造新需求,往往只能用AI替代人力、降低成本。

但是對于理想汽車這樣的企業(yè),李想表示,理想目前布局了汽車、機器人、芯片等領域,目前年收入1000多億,而全球汽車行業(yè)規(guī)模超過10萬億,機器人、算力、下一代終端等領域加起來也是幾十萬億的市場。

因此,理想汽車思考的不是用AI去替代人,而是把AI這個杠桿用起來,用今天的三萬多員工,做到1萬億的收入。

一、VLA方案存在三大挑戰(zhàn)效率仍不夠理想

自2021年啟動輔助駕駛自研以來,理想輔助駕駛技術架構經歷了多輪迭代,2025年理想汽車推出了VLA司機大模型,并于8月隨理想i8交付正式推送,9月向AD Max用戶全量推送。

而詹錕表示,當進一步觀察當前業(yè)界VLA方案時,理想汽車發(fā)現VLA方案仍然存在三個非常關鍵的挑戰(zhàn):

1、3D空間語言思考和行為之間存在對齊效率不夠理想。

詹錕提到在自動駕駛系統中,模型需要同時完成三件事情,理解3D空間、進行語義層面的思考和推理、輸出具體的駕駛行為軌跡,如何讓這三個過程在同一個隱空間中高效對齊是非常困難的事情。

如果對齊的不夠好,就會出現兩類問題。第一是語義理解和行為出現了偏差,模型能夠理解場景,但最后生成的軌跡并不符合預期。

第二是決策延遲,視覺語言行動之間的傳遞鏈路過長,導致反應速度下降。

詹錕舉了一個例子,當車輛前方出現了一個行駛較慢的車時,系統不僅需要理解這個場景,還要快速推理,是要立即變道還是持續(xù)跟隨,而且變道的時候速度應該如何控制。

如果空間理解、語言推理和行為決策對齊效率不夠高,最后的生成的軌跡可能就并不是最優(yōu),因此需要提升3D空間理解能力,讓語義和行為之間對齊精度和整體推理效率進一步提升。

2、長尾場景問題。

詹錕表示,在自動駕駛中很多關鍵問題都來自極少發(fā)生的長尾場景,僅僅依靠真實數據的規(guī)模擴展很難覆蓋這些場景。

比如山區(qū)道路的突發(fā)落石、高速上的小動物竄出,這些場景在真實數據中占比較低,但卻是用戶實際駕駛中可能遇到的風險點。

理想汽車發(fā)現必須需要結合合成數據與強化學習,在架構設計初就必須考慮好強化學習的范式特點,通過仿真環(huán)境進行大規(guī)模的訓練,才能讓系統真正具備泛化能力和魯棒性。

3、計算效率和系統成本。

詹錕表示,VLA模型往往包含大規(guī)模的語言能力,這會帶來非常高的計算和內存開銷。

這會帶來兩方面的問題,一方面如果遇到算力不足的情況,可能影響輔助駕駛使用體驗;另一方面,高計算開銷也會推高車企的硬件成本,要么導致車型定價上漲,要么壓縮其他配置的成本,最終影響用戶購車決策。

在車端系統中,如何在有限的計算資源下運行VLA,詹錕認為這是非?,F實的問題,未來的方向必須是軟硬協同的架構設計,通過聯合優(yōu)化模型架構、推理系統以及硬件能力,才能讓VLA真正在車端規(guī)?;穆涞?。



▲詹錕提出的VLA方案三大挑戰(zhàn)

二、基于五大技術 多方面提升自動駕駛性能

為了解決上文提到的三大問題,理想汽車提出了下一代自動駕駛基礎模型MindVLA-o1。具體來看,理想汽車自動駕駛基礎模型MindVLA-o1有以下五大技術要點:

1、具備3D空間理解能力,使模型看得更遠。

在感知層面,理想汽車采用以視覺為核心的3D ViT Encoder(3D視覺模型編碼器),用于對真實世界三維結構進行直接建模。詹錕介紹到,3D ViT Encoder并不是簡單的將2D圖像和3D信息進行拼接,而是在編碼階段直接構建3D的空間表示,使得模型能夠更加自然的理解真實的物理世界的空間結構。



▲3D空間理解技術

在訓練過程中,理想汽車同時利用視覺和雷達的數據,雷達提供了準確的三維幾何信息,視覺提供了豐富的語義信息,通過自監(jiān)督訓練,模型可以在同一個表示空間中同時學習幾何結構和語義信息。

為了進一步提升對環(huán)境的理解,理想汽車在訓練中引入前饋式3DGS表示(Feedforward 3D Representation),將場景拆分為靜態(tài)環(huán)境與動態(tài)物體分別建模,靜態(tài)環(huán)境用穩(wěn)定的3DGS進行建模,動態(tài)環(huán)境單獨建模運動狀態(tài)。

在訓練過程中,通過下一幀預測(Next-state prediction)作為自監(jiān)督信號,使模型同時學習深度信息、語義結構與物體運動,最終形成融合了空間結構時間的上下文信息,并將大規(guī)模的自監(jiān)督預訓練進行特征提取,因此不僅能夠描述當前場景,還能夠為后面的決策模型提供高質量的3D視覺表征。

總結來看,3D空間理解能力核心目的是縮短決策的時間,讓輔助駕駛在緊急場景反應更快,或者在跟車之類的場景減少頓挫等問題。

2、擁有多模態(tài)思考能力,讓模型想得更深。

在語言模型承擔語義理解、常識知識和交互能力的基礎上,理想汽車引入了預測式隱世界模型,核心思想是讓模型在預空間中模擬未來。



▲多模態(tài)思考能力

如果直接生成未來真實的圖像,計算成本會非常高,因此理想汽車選擇在Latent World中進行預測。首先把當前的視覺輸入編碼成一組Latent World Token,作為當前場景的一個緊湊的表征。然后World Model會基于token預測未來的Latent的狀態(tài),通過這種方式,模型可以在隱空間中高效的模擬未來場景的演化過程。

在訓練上則分為三個階段:第一,用海量視頻數據預訓練Latent World Token(隱世界詞元),構建未來表征;第二,在MindVLA-o1中持續(xù)世界模型的推演,形成隱空間的未來推理能力;第三,將世界模型、多模態(tài)推理能力及駕駛行為進行聯合訓練與對齊。

由此,模型可以對未來的環(huán)境狀態(tài)進行預測,不僅僅能理解當前環(huán)境,還能在隱空間中模擬未來發(fā)生的可能情況。這個能力對于自動駕駛的決策非常關鍵,理想汽車稱之為多模態(tài)思考(Generative Multimodal Thinking)。

總的來看,多模態(tài)思考能力讓模型能預判下一步應該做什么,來提前規(guī)劃應對策略,用戶的體驗自然就更加流暢舒適。

3、形成統一行為生成機制,使模型行得更穩(wěn)。

在行為層面,理想汽車構建了統一行為生成(Unified Action Generation)機制。



▲統一行為生成

首先,MindVLA-o1使用VLA-MoE(混合專家模型)架構,并引入專門的Action Expert(動作專家),從3D場景特征、導航目標、駕駛指令等多維輸入中提取信息,并結合多模態(tài)思考生成高精度駕駛軌跡。

其次,為滿足實時性要求,系統采用并行解碼(Parallel Decoding),同時生成所有軌跡點,大幅提升效率。

最后,引入Discrete Diffusion(離散擴散)進行多輪迭代優(yōu)化,類似逐步去噪,確保軌跡空間連續(xù)、時間穩(wěn)定,并符合車輛動力學約束。

這套軌跡生成的機制可以總結為三個點:MOE保證了生成的專業(yè)性、Parallel保證了生成的速度、Diffusion保證了生成的軌跡精度。

從具體效果來看,統一行為生成機制讓輔助駕駛更“老司機”,可以減少急打方向或急加減速等操作,提升了駕駛的流暢性與乘客的乘坐體驗,同時也降低了車輛的能耗與制動損耗。

4、在閉環(huán)強化學習框架下,模型實現更快進化。

在模型迭代層面,理想汽車構建了閉環(huán)強化學習框架,讓模型不僅能從真實數據學習,還能在世界模擬器(World Simulator)中持續(xù)探索和優(yōu)化策略,系統可以在模擬環(huán)境下不斷嘗試新的策略,根據反饋進行策略更新。



▲閉環(huán)強化學習

其中幾個關鍵的組成部分,首先是要確定探索的數據集,理想汽車通常采用人類接管的困難數據集作為探索。其次,要具備一個很好的反饋模型,確認給模型正確的反饋。最后,需要構建良好的世界模引擎來探索不同的場景。

而在整個強化學習框架中,World Simulator的能力實際上直接決定了強化學習的上限。

為此,理想汽車將逐步優(yōu)化式重建為Feed-forward(前饋)場景重建,使系統能夠瞬時生成大規(guī)模、高保真駕駛場景,支持大規(guī)模并行訓練。

同時,結合生成式模型(Generative Models),模擬環(huán)境可擴展、編輯并生成全新場景。為支持大規(guī)模模擬與訓練,理想汽車開發(fā)了統一的3D Gaussian Splatting(3D高斯?jié)姙R)渲染引擎和分布式訓練框架,渲染速度提升近2倍,整體訓練成本降低約75%。

只有在這種效率的提升的情況下,才能真正進行大規(guī)模的3DGS分布式的訓練,實現真正的低成本高效率的強化學習閉環(huán)。

總的來看,閉環(huán)強化學習能快速生成各類真實場景與長尾場景,讓模型在虛擬環(huán)境中反復訓練、試錯,無需等待真實道路數據采集,縮短模型迭代周期,也就是可以讓用戶更快的用上新版本。

5、在軟硬件協同設計定律下,模型部署更高效。

為解決傳統端側大模型部署耗時長、調試頻繁的問題,理想汽車面向端側大模型的軟硬件協同設計定律,將模型結構與驗證損失建模,并結合Roofline模型刻畫硬件計算能力與內存帶寬限制,在模型性能與硬件約束之間建立統一的分析框架。



▲軟硬件協同設計

理想汽車基座模型團隊評估了近2000種模型架構配置,在英偉達Orin與Thor平臺上完成驗證,找到了模型精度與推理延遲之間的Pareto Front(帕累托前沿),可以在給定的計算預算下得出模型的層數、隱藏的維度、MOE的激活比例應該如何組合才能達到性能最優(yōu)。

詹錕分享了一個觀察,在端側計算資源受限的情況下,更寬且更淺的模型結構往往比傳統的深層模型更加有效。通過這一套軟硬件協同的設計方案,理想汽車將模型探索的架構探索的時間從數月縮短到了幾天,大大提升了端側VLA的模型設計效率和部署速度。

三、四大核心構建AI框架也可擴展至機器人

同時,理想汽車方面提到,MindVLA-o1是理想汽車面向物理世界智能核心AI框架的重要組成部分,這套AI框架由四大核心模塊組成:

1、MindData,統一的VLA數據引擎,負責大規(guī)模數據的采集、清洗和自動標注;

2、MindVLA-o1,統一的原生多模態(tài)VLA模型,可以理解環(huán)境、進行推理,并生成駕駛行為;

3、MindSim,可控的多模態(tài)世界模型,用于生成復雜駕駛場景并支持大規(guī)模閉環(huán)訓練;

4、RL Infra(強化學習基礎設施),通過獎勵模型和策略學習,使系統在仿真與真實環(huán)境中自我進化。



▲AI框架四大核心模塊

四部分協同形成完整閉環(huán),使AI能夠感知、理解并在物理世界中自主行動,并持續(xù)學習。

從結構上看,這套系統如同一個“數字大腦”:感知層對應視覺皮層,推理與規(guī)劃如前額葉,場景生成似運動皮層,強化學習則類似多巴胺反饋,實現了感知、理解、行動和持續(xù)優(yōu)化的完整閉環(huán)。

理想汽車方面表示,車是最大號的機器人,其本質是在構建硅基生命體的軀干與大腦,而該AI框架不僅服務于汽車,也可擴展至機器人及各種物理系統。

另外,理想汽車方面還提到,MindVLA-o1相關的多篇論文已在CVPR、ICLR、ICRA、AAAI等國際頂會上發(fā)表。

結語:理想加速AI轉型

理想汽車CEO李想曾在多個場合公開表示,理想汽車要轉型為“人工智能(AI)企業(yè)”。

根據理想汽車2025年全年財報,理想汽車在2025年的研發(fā)投入達到113億元,平均每月投入近10億元,創(chuàng)歷史新高,其中AI相關投入占比50%。

而從理想汽車在NVIDIA GTC 2026上發(fā)布的MindVLA-o1自動駕駛基礎模型來看,其不僅是在自動駕駛領域的一次技術升級,更是理想汽車向AI企業(yè)全面轉型的又一重要進程。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全球又要大亂?俄中將陣亡,美油管被炸,四國集體失聲!

全球又要大亂?俄中將陣亡,美油管被炸,四國集體失聲!

星星沒有你亮
2026-04-09 11:32:47
100 日元兌 4.33 元:日本用三十年,把自己熬成了 “廉價國家”

100 日元兌 4.33 元:日本用三十年,把自己熬成了 “廉價國家”

深析古今
2026-03-31 10:10:57
專家分析得出:一旦核戰(zhàn)爆發(fā),中國3個地方可躲災難,一定要知道

專家分析得出:一旦核戰(zhàn)爆發(fā),中國3個地方可躲災難,一定要知道

文史達觀
2024-06-14 21:35:17
當你有了存款會瞞著身邊人嗎?網友:存錢就連親爹媽都別告訴

當你有了存款會瞞著身邊人嗎?網友:存錢就連親爹媽都別告訴

帶你感受人間冷暖
2026-02-23 00:30:12
三顧茅廬的真相

三顧茅廬的真相

漢周讀書
2026-04-06 13:22:57
弘一法師:人活到極致,不是擁有什么,而是沒有什么

弘一法師:人活到極致,不是擁有什么,而是沒有什么

木言觀
2026-04-12 06:57:10
重磅!ICE將重點打擊赴美生子和月子中心,月子中心或已被列為目標,孕婦恐將無法入境美國

重磅!ICE將重點打擊赴美生子和月子中心,月子中心或已被列為目標,孕婦恐將無法入境美國

大洛杉磯LA
2026-04-12 04:47:01
成都蓉城VS北京國安:王牌鐵腰回歸,羅慕洛領銜,最強三叉戟沖鋒

成都蓉城VS北京國安:王牌鐵腰回歸,羅慕洛領銜,最強三叉戟沖鋒

零度眼看球
2026-04-12 02:05:03
特朗普最信任的女秘書卡羅琳·萊維特,在全球鏡頭前“擺爛”。

特朗普最信任的女秘書卡羅琳·萊維特,在全球鏡頭前“擺爛”。

果媽聊娛樂
2026-04-12 06:24:33
戰(zhàn)爭爆發(fā)前的預兆出現!美國已經有4個征兆,張召忠預言要成真?

戰(zhàn)爭爆發(fā)前的預兆出現!美國已經有4個征兆,張召忠預言要成真?

老嘪科普
2026-04-12 11:26:51
風向都變了!以美國為首的多國認為:中國已在換電等關鍵領域崛起

風向都變了!以美國為首的多國認為:中國已在換電等關鍵領域崛起

潮鹿逐夢
2026-04-11 11:22:49
八千里路云和月:要不是廖豐年,張云魁到死都不知,孫懷義的算計

八千里路云和月:要不是廖豐年,張云魁到死都不知,孫懷義的算計

老橝說體育
2026-04-10 19:08:13
73歲遲重瑞舍百億遺產入寺,白巖松一語道破真相

73歲遲重瑞舍百億遺產入寺,白巖松一語道破真相

麥芽是個小趴菜
2026-04-12 10:48:01
以色列士兵虐童視頻引爆全球,李在明公開質問!

以色列士兵虐童視頻引爆全球,李在明公開質問!

鳳眼論
2026-04-11 13:34:48
日本降級對華關系后,53條中日航線被取消,中方反應平靜

日本降級對華關系后,53條中日航線被取消,中方反應平靜

人間百態(tài)中的溫馨
2026-04-12 10:44:48
孫怡怒稱發(fā)布會是趙子琪淘汰會!宣布不當隊長全網炸鍋

孫怡怒稱發(fā)布會是趙子琪淘汰會!宣布不當隊長全網炸鍋

星星沒有你亮
2026-04-12 06:39:09
勞務派遣究竟有多猖獗?

勞務派遣究竟有多猖獗?

黯泉
2026-04-11 13:57:11
開始搶人!美國一周挖走4位中國頂尖人才,年薪1億美金太驚人

開始搶人!美國一周挖走4位中國頂尖人才,年薪1億美金太驚人

百科密碼
2026-04-10 15:56:21
熱議上海德比:海港中場控制力下降;申花終于買對人了

熱議上海德比:海港中場控制力下降;申花終于買對人了

懂球帝
2026-04-11 22:46:11
女人靠兩年半開房410次而“火箭升遷”,當年南航這樁事有多丑陋

女人靠兩年半開房410次而“火箭升遷”,當年南航這樁事有多丑陋

長安一孤客
2026-04-10 22:39:51
2026-04-12 12:48:49
車東西
車東西
未來汽車看這里。
6050文章數 6408關注度
往期回顧 全部

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

頭條要聞

媒體:伊朗新領袖"冒死接班"1個月未露面 突然全面亮劍

頭條要聞

媒體:伊朗新領袖"冒死接班"1個月未露面 突然全面亮劍

體育要聞

五大聯賽首冠出爐?拜仁或提前4輪衛(wèi)冕德甲

娛樂要聞

46歲趙達官宣結婚!曾與殷桃談婚論嫁

財經要聞

三輪磋商談至深夜 美伊談判三大議題仍待解

科技要聞

理想稱遭惡意拉踩,東風日產:尊重同行

態(tài)度原創(chuàng)

手機
房產
家居
數碼
游戲

手機要聞

宇樹機器人跑出10m/s刷新世界紀錄;小米手機正式調價

房產要聞

土地供應突然暴跌!2026??跇鞘?,格局大變!

家居要聞

復古風格 自然簡約

數碼要聞

小米電視桌面4.0重磅升級來了!流暢度大提升 多賽事同屏播放

周淑怡拒玩《王者榮耀世界》:我只玩LOL不當叛徒!

無障礙瀏覽 進入關懷版