網易首頁 > 網易號 > 正文申請入駐

別急著教AI開車，先讓它看懂世界

2026-03-21 17:36:05　來源: 虎嗅APP

北京舉報

分享至

頭圖｜AI生成

過去兩三年，中國自動駕駛的競爭，更多比拼功能推進速度。

誰開得更遠，誰覆蓋城市更多，誰體驗更穩(wěn)。高速NOA、城市領航、自動泊車，這些功能構成了絕大多數(shù)車企的敘事基礎。只要功能能持續(xù)上線，競爭就可以繼續(xù)。

但這套邏輯正在接近上限。

一方面，主流玩家在功能層面已經逐漸拉齊，差距在縮?。涣硪环矫?，越往復雜場景走，系統(tǒng)越依賴整體能力。

復雜場景考驗的，往往不在于“有沒有某個功能”，而在于系統(tǒng)能不能把識別、判斷和動作連續(xù)地完成。

這類能力一旦成為主導，單純疊加功能就很難再直接提升整體表現(xiàn)。功能可以一項項補齊，但只要系統(tǒng)還是“磕磕絆絆”，復雜場景里的不穩(wěn)定就無法根除。

這意味著，自動駕駛的競爭重點，正在轉向系統(tǒng)如何組織能力。數(shù)據(jù)、算力、工程調優(yōu)當然都重要，但當系統(tǒng)復雜度繼續(xù)上升，它們最終都要服從一個更底層的邏輯：這套能力是如何被組織、調用、迭代的。換句話說，架構開始決定上限。

更直接一點：功能決定的是今天能不能賣，架構決定的是明天還能不能繼續(xù)變強。

對理想來說，這個變化尤其關鍵。

過去，理想最強的標簽是產品定義與家庭場景體驗；但一旦進入架構競爭階段，理想就必須證明，自己不只擅長做一臺讓用戶喜歡的車，也能定義下一代自動駕駛系統(tǒng)應該長成什么樣。

MindVLA-o1，就是理想對這場架構之爭的回答。

AI上車后，系統(tǒng)上限卡在哪？

自動駕駛今天面對的，早已不是規(guī)則算法的問題。過去幾年，行業(yè)主流方案已從規(guī)則驅動，逐步轉向端到端、VLM、VLA等AI架構。

2024年，理想推出端到端+VLM雙架構，讓系統(tǒng)第一次具備跨場景、跨任務的統(tǒng)一理解能力。再往后，空間理解、語言理解與行動決策在2025年被進一步收進同一套VLA框架。此次發(fā)布的MindVLA-o1，則繼續(xù)把自動駕駛向統(tǒng)一基礎模型推進。

問題在于，架構從規(guī)則驅動切到AI驅動，并不意味著系統(tǒng)上限就自動被打開了。

端到端的價值很大，減少了傳統(tǒng)分模塊系統(tǒng)里的信息裁剪、接口損耗和反復調參，讓自動駕駛開始從拼功能走向拼能力。但當場景更復雜、任務更連續(xù)時，新的門檻也隨之浮現(xiàn)。

考驗復雜駕駛的，已不只是系統(tǒng)能否識別某個目標、完成一次變道、執(zhí)行泊車動作，而是它能否在連續(xù)變化的現(xiàn)實環(huán)境中，把理解、判斷和行動更穩(wěn)定地連成一體。

也就是說，越往復雜場景走，卡住系統(tǒng)上限的，就越不是單點能力夠不夠，而是現(xiàn)有架構能否繼續(xù)往前推進。

即便行業(yè)已經進入AI階段，難題也沒有自動消失。

系統(tǒng)如何理解三維物理世界？如何推演未來幾秒的變化？如何把判斷直接轉成穩(wěn)定動作？長尾場景如何覆蓋？更重的模型又如何部署到車上？

換句話說，今天行業(yè)真正碰到的問題，是現(xiàn)有的AI方案，能否繼續(xù)向更統(tǒng)一、更強、也更可部署的方向推進。

也正因如此，行業(yè)開始把目光從功能系統(tǒng)進一步推向統(tǒng)一架構。MindVLA-o1，正是理想在這個問題上的一次作答。

教AI開車？理想要給車換大腦

那MindVLA-o1架構能解決什么問題？又是如何設計和落地？

理想給出的答案，是先把系統(tǒng)做成一個能統(tǒng)一理解、統(tǒng)一判斷、統(tǒng)一行動的“駕駛大腦”。MindVLA-o1的意義就在這里：把競爭核心再往前推一步，從功能推進到系統(tǒng)，再推進到模型能力。

再往深一層看，它要解決的不僅是“車怎么開”，也是系統(tǒng)能否先建立起對物理世界的穩(wěn)定理解。對理想來說，這是自動駕駛成立的前提，也決定了這套能力未來有沒有可能走出駕駛本身。

從架構上看，MindVLA-o1沒有把視覺模型、語言模型和軌跡模型先分別做出來，再在后期硬拼到一起，而是試圖從一開始，就把三種模態(tài)統(tǒng)一放進同一個原生多模態(tài)MoE Transformer里。即便到了VLA階段，空間理解、語言思考與行為生成之間的對齊效率仍然不夠理想。

那么，它到底在解決什么問題？

第一，如何理解物理世界？

很多復雜駕駛場景，難點不在于“看見了什么”，而在于能否理解物體之間的三維關系，例如距離、速度、遮擋關系、動態(tài)變化。過去大量的視覺訓練停留在二維層面，能識別語義，卻未必能理解三維結構。

在李想看來，這極其荒謬：“一個人坐在電腦前學著開車，然后再到路上去開車?！?/p>

理想這次端出了3D ViT。核心邏輯很簡單：不只讓系統(tǒng)知道物體是什么，還要弄清它在三維空間里究竟處在什么位置。它采用以視覺為核心的三維視覺編碼，借助激光雷達的幾何提示，引導模型去理解真實空間結構，讓語義理解和三維感知在同一套表示里對齊。

為什么底層的空間認知這么重要？“大部分搞模型的，都想直接做成年以后要做的事，拼命訓練。但0-6歲孩子最重要的訓練空間、訓練能力，根本沒解決。”

李想的比方足夠接地氣：“大部分人只要有小學學歷，就能把車開得非常好，因為做了0-6歲對三維空間的訓練?！?/p>

放到自動駕駛上，如果系統(tǒng)連“6歲前”該懂的三維世界都看不明白，底座就是搖晃的，后續(xù)再怎么疊加復雜的預測和控制模型，也注定走不遠。

第二，如何面對變化？

駕駛不只是對當前狀態(tài)的反應，更要面對持續(xù)變化的現(xiàn)實環(huán)境：旁車會不會加塞，行人會不會突然橫穿，前車會不會臨時變線。系統(tǒng)面對的不是靜態(tài)畫面，而是連續(xù)博弈。

理想強調多模態(tài)思考，在語言模型承擔語義理解、常識知識和交互能力的基礎上，再引入預測式隱世界模型，在隱空間中推演未來場景變化。核心就是把“看懂現(xiàn)在”，即識別眼前的景象，推進到“推演下一步”，預測接下來會發(fā)生什么。

此處還有一個關鍵的要求：駕駛既要“慢思考”，也要“快反應”。復雜場景中，判斷往往要調用常識、語義理解和多步推理能力；但車在路上可等不了慢慢思考，必須立刻做出回應動作。MindVLA-o1能做的，是把這兩種能力統(tǒng)一到一個框架里，讓系統(tǒng)既能理解，又能快速推演。

第三，如何把判斷變成行動？

這也解釋了，為什么理想要盡量把感知、推理和控制放進同一套架構里。過去分模塊系統(tǒng)的問題，并非某個單獨模塊能力低下，而是信息在模塊間傳遞、裁剪、損耗，造成了別扭的局面：局部都對，連起來卻不穩(wěn)。

在VLA階段，空間理解、推理思考、行動決策已被統(tǒng)一到同一個模型框架中；而MindVLA-o1則通過引入專門的行為專家（Action Expert），從場景、特征、導航和指令等中提取信息，進一步提升對齊效率。

為滿足實時性和精度要求，系統(tǒng)采用了并行解碼，同時生成所有軌跡點，引入離散擴散，多輪迭代優(yōu)化，確保軌跡符合車輛動力學約束。

這樣一來，模型不僅會思考，更能把這些判斷及時、穩(wěn)定地轉化成動作。

第四，如何快速學習，快速迭代？

長尾場景不斷出現(xiàn)，只等真實世界的數(shù)據(jù)覆蓋，即不高效，也不現(xiàn)實。模型不能只從已有的人類駕駛數(shù)據(jù)里學，還得能在世界模擬器中持續(xù)探索、試錯、優(yōu)化。

為支持大規(guī)模模擬與訓練，理想汽車開發(fā)了統(tǒng)一的三維高斯?jié)姙R（3D Gaussian Splatting）渲染引擎和分布式訓練框架，渲染速度提升近2倍，整體訓練成本降低約75%。

這種閉環(huán)強化學習，推動系統(tǒng)在仿真環(huán)境中更快完成策略迭代。

第五，如何把前面的種種設想都落到實處？

很多大模型方案容易卡住的，不是實驗室里做不出來，而是車端跑不起來。模型越重，能力越強，部署越難；為了能跑起來去做過多妥協(xié)，又很容易把效果做薄。

理想評估了近2000種模型架構配置，在英偉達Orin與Thor平臺上找到了模型精度與推理延遲的帕累托前沿，大幅提升端側VLA模型的設計與部署效率。

理想強調軟硬件協(xié)同設計，本質就是在回答：車端資源有限，統(tǒng)一大模型怎么真正部署。畢竟，算力跟不上，模型再好也難有穩(wěn)定體驗。

正因如此，MindVLA-o1在技術集合的基礎上，構建了一套完整的能力：先補空間理解，再補未來預判，再把判斷變成穩(wěn)定行動，同時借助閉環(huán)強化學習持續(xù)進化，并通過芯片、數(shù)據(jù)和軟硬件，把這套能力推向量產。

理想認為，未來量產智駕最難的部分，不在于單項能力能否繼續(xù)提高，而在于它們能否被系統(tǒng)穩(wěn)定調用，最后連成一個完整的“駕駛大腦”。

如果這套判斷成立，自動駕駛行業(yè)接下來爭奪的，這就不再是誰的功能補得快，而是誰先找到“駕駛大腦”的正確形態(tài)。

逼近“駕駛大腦”，理想先走哪一步？

問題在于，自動駕駛走到今天，行業(yè)已隱約出現(xiàn)了共識：單靠功能堆疊，很難繼續(xù)推高系統(tǒng)能力上限。無論是更強調安全冗余，還是更強調數(shù)據(jù)驅動和統(tǒng)一神經網絡，近年的演進都說明，各路玩家都在朝更統(tǒng)一的系統(tǒng)能力收斂。

但共識只到這里。

真正的分歧，在于當行業(yè)開始從功能競爭轉向架構競爭，究竟應該先解決什么問題、按什么順序搭建能力？不同玩家判斷并不一樣，因此現(xiàn)階段資源投放的側重也有所不同。

有人把重點放在更高的安全邊界和系統(tǒng)可靠性上，盡可能減少復雜現(xiàn)實中的不確定性；有人把重點放在更大規(guī)模的數(shù)據(jù)、訓練和迭代機制上，希望系統(tǒng)在持續(xù)學習中，不斷逼近更通用的駕駛能力。

而理想押注的重點，則是先把系統(tǒng)對物理世界的理解補扎實，再把預判、推理和控制盡量收進同一套邏輯里，既不單純增加功能，也不為了更大的系統(tǒng)而拼湊模塊。理想想證明，這套“看懂世界-推演變化-形成動作”的“駕駛大腦”能力框架，能夠穩(wěn)定地跑在車上。

這些不同優(yōu)先級的選擇，都在逼近同一個挑戰(zhàn)：駕駛不是瞬時識別，而是連續(xù)判斷；不是靜態(tài)環(huán)境處理，而是動態(tài)博弈。想象力在于統(tǒng)一能力的上限，挑戰(zhàn)則在于，統(tǒng)一架構能否在復雜現(xiàn)實中穩(wěn)定落地。

短期競爭拼局部能力，長期競爭拼系統(tǒng)能否持續(xù)增長。誰的路徑更能在復雜場景里保持穩(wěn)定？誰的能力更能一層層積累？這恰恰是拉開差距的關鍵。

如果往前看，理想提出“自動駕駛只是物理AI的起點”，釋放了一個更大的信號：MindVLA-o1為智駕功能服務只是起點，一套面向物理世界的統(tǒng)一智能基座才是它最終的星辰大海。

這套完整的AI框架，包含四個核心模塊，統(tǒng)一數(shù)據(jù)引擎MindData、統(tǒng)一模型MindVLA-o1、多模態(tài)世界模型MindSim以及強化學習基礎設施RL Infra。這四部分協(xié)同形成完整閉環(huán)，才是那個真正的“大腦”。

換句話說，自動駕駛在這里既是產品落地場景，也是能力訓練場。今天先解決開車，未來再延展到更廣泛的車載智能，甚至直接復用該模型控制機器人，邁向具身智能。

這個外延今天當然還談不上被驗證，但至少理想已經把自己的位置，從“更強的智駕”往“更通用的物理智能”上挪了一步。

若自動駕駛的核心變成基礎模型能力，行業(yè)競爭邏輯也會隨之變化。

競爭焦點會從功能覆蓋轉向模型能力；核心資源會從供應鏈優(yōu)勢，部分轉向“數(shù)據(jù)+算力+模型”的組合能力。未來決定車企分層的，不只有產品、制造和渠道，還會多出一條標準：誰能持續(xù)訓練和迭代“車的大腦”。

在這個格局里，理想已主動把自己放在了智能體路線的坐標上。

結尾

MindVLA-o1的意義，遠不止一套新的智駕方案。在自動駕駛從功能競爭，走向架構競爭的時間點上，理想更明確地把賭注押向了“統(tǒng)一智能體”。

接下來幾年，行業(yè)表面上的差異，仍然會體現(xiàn)在功能體驗、開城節(jié)奏以及用戶感知上；但更深層的競爭，正在轉向——誰能把理解、預判和行動更穩(wěn)定地組織起來，誰能讓系統(tǒng)在復雜現(xiàn)實中持續(xù)積累能力。

自動駕駛是個入口，而理想下注的，是更大的方向：一套面向物理世界的統(tǒng)一智能能力。自動駕駛的下一階段，未必馬上分出勝負，但行業(yè)已經開始換題了。

過去比的，是誰把功能做得更全；現(xiàn)在比的，是誰先做出“駕駛大腦”；而未來要比的，則是誰先做出真正能夠理解世界、持續(xù)成長的統(tǒng)一智能體。

理想這次發(fā)布MindVLA-o1，相當于在這個分叉點上提前押注了一個方向。這個方向能否兌現(xiàn)，要靠時間驗證；但至少，它不再是一次普通的功能升級。

本內容由作者授權發(fā)布，觀點僅代表作者本人，不代表虎嗅立場。如對本稿件有異議或投訴，請聯(lián)系 tougao@huxiu.com。

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4844164.html?f=wyxwapp

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

告別冗長思維鏈！Laser用「概率疊加」重塑多模態(tài)大模型隱式推理

機器之心Pro 2026-05-08 14:18:56
0 跟貼 0
不更新參數(shù)就能強化學習！翁家翌新范式：決策只需AI寫個.py文件

量子位 2026-05-09 16:05:57
1 跟貼 1

OpenAI翁家翌：梯度之外，下一個AI訓練范式有著落了？

機器之心Pro 2026-05-09 11:45:42
0 跟貼 0

波士頓動力發(fā)布量產版Atlas機器人新demo，展示體操級靈巧度

量子位 2026-05-08 14:48:49
0 跟貼 0
「思考用時100秒」成歷史？AI推理太耗時，伯克利整了個大活兒

雷科技 2026-05-10 16:59:53
0 跟貼 0

從DTOF激光雷達到割草機器人，樂動機器人的技術復利“故事”難講

鈦媒體APP 2026-05-10 08:43:06
0 跟貼 0

可編程人工肌肉纖維問世，不用組裝，加熱就知道該往哪里彎

DeepTech深科技 2026-05-10 19:42:47
1 跟貼 1
四十年前的舊專利，如今有望成為機器人的變形骨骼

DeepTech深科技 2026-05-10 19:49:24
0 跟貼 0

鈦媒體入選主流價值語料生態(tài)聯(lián)盟首批成員，擔綱科技領域高質量數(shù)據(jù)集核心建設方

鈦媒體APP 2026-05-09 19:22:11
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
專訪第十四屆全國政協(xié)委員、工業(yè)和信息化部原副部長王江平：讓品牌在AI世界“活”起來

每日經濟新聞 2026-05-10 20:45:38
0 跟貼 0
理想跟卡車線下約了？

曉曉的意大利鄉(xiāng)村生活 2026-05-09 12:59:15
1 跟貼 1
女人怎么也沒料到，喉嚨被刺穿的機器人又動了起來

大海會剪輯 2026-05-10 09:49:35
2 跟貼 2
俄烏戰(zhàn)場：機器人之間的對抗，無人機和機器人正逐步取代人類士兵

北山戰(zhàn)史 2026-05-09 20:15:38
6 跟貼 6
專家：警惕美國"偷師"中國用中國的方式與中國競爭

澎湃新聞 2026-05-10 07:17:35
19809 跟貼 19809
被約談立案？比亞迪、特斯拉、小鵬、理想、蔚來等多家車企，緊急辟謠！

每日經濟新聞 2026-05-09 18:44:36
0 跟貼 0
關于中東地區(qū)架構與權力的轉變，賴岳謙與三妹的觀察點，值得參考

伢伢gagako 2026-05-08 00:39:06
0 跟貼 0
他的理想是長大了找七個老婆……最后他的想法屬實嚇到我了

烏賊醬 2026-05-09 03:04:22
0 跟貼 0
當機器人擁有了自我意識，竟把自己主人給殺了

阿缸追劇 2026-05-09 09:07:22
1 跟貼 1
20萬以內就選帕薩特，自動駕駛練到極致，男人眼中的夢中情車

電動車愛搞笑 2026-05-06 10:27:50
2 跟貼 2
“被約談”名單是假的！8家車企集體辟謠，中汽協(xié)也回應了，AI大模型竟是幕后推手

每日經濟新聞 2026-05-09 20:41:23
145 跟貼 145
劍指冠軍！國乒男團3-1戰(zhàn)勝法國隊晉級世乒賽決賽

央視新聞客戶端 2026-05-10 05:50:37
5153 跟貼 5153
女子發(fā)布分心駕駛視頻被舉報處罰，輔助駕駛≠自動駕駛

學申論的談妹 2026-05-08 22:44:48
10 跟貼 10
嘴炮王者譚sir竟被邏輯女帝反殺成渣：愿大姐被歲月溫柔以待

解壓小劇場 2026-05-09 08:17:50
3 跟貼 3
理想全新5C增程系統(tǒng)來了！將解決長假充電難題

快科技 2026-05-08 00:25:09
0 跟貼 0
中國造"麒麟"級潛艇首艇交付巴方專家：不針對第三方

環(huán)球網資訊 2026-05-10 13:18:11
3653 跟貼 3653
趙祥松｜一個高一學生的“人生簡歷”

祥松談 2026-05-10 06:07:21
0 跟貼 0
臺"軍購條例"大幅縮水美坐不住了美官員:向大陸屈服

澎湃新聞 2026-05-10 17:54:57
285 跟貼 285
【AI大模型安全與評測】從DeepSeek-V4拆解真實評估邏輯，90%的人都搞錯了！企業(yè)級大模型評

盧菁老師 2026-05-09 09:07:47
0 跟貼 0
工作日都爆滿！杭州機場附近一個偏僻角落，突然熱鬧了起來：“特別震撼”

都市快報橙柿互動 2026-05-10 13:18:25
55 跟貼 55
自動駕駛的錢被誰賺了？深度解析盈利核心

禾略財經研報 2026-05-10 11:19:20
0 跟貼 0
利益面前理想不值一提

七大人影視 2026-05-10 09:12:12
1 跟貼 1
鄭州：在醫(yī)療、教育、物流、防災減災等領域打造一批大模型典型示范形成“AI＋千行百業(yè)”全場景體系

科創(chuàng)板日報 2026-05-09 19:54:04
0 跟貼 0
2026數(shù)字文旅賽道作品展播｜AI圖識文物建筑——福建多模態(tài)文物數(shù)據(jù)活化與公眾傳播應用

金臺資訊 2026-05-08 17:23:54
0 跟貼 0
順風車乘客拒付高速費，00后車主直接掉頭原路返回

南陽日報 2026-05-10 18:33:46
99 跟貼 99
停火后到底發(fā)生了什么？梳理伊朗破局美軍封鎖的戰(zhàn)術邏輯

北山戰(zhàn)史 2026-05-09 20:21:15
1 跟貼 1
特斯拉中國更新，F(xiàn)SD 自動駕駛真要來了！

XCiOS俱樂部 2026-05-10 20:26:25
0 跟貼 0
創(chuàng)意DIY 利用膠帶卷芯制作模型玩具

趣味創(chuàng)意DIY 2026-05-10 08:07:29
3 跟貼 3
俞浩：2011年已經在清華帶團隊做自動駕駛！

沙果嘮生活 2026-05-09 06:21:47
0 跟貼 0
茶顏悅色，裝不下去了

中國新聞周刊 2026-05-07 22:15:57
299 跟貼 299

虎嗅APP

個性化商業(yè)資訊與觀點交流平臺

26271文章數(shù) 687717關注度

往期回顧全部

新能源車系統(tǒng)升級后遭"鎖電" 續(xù)航從500公里變300公里

頭條要聞

談判陷僵局世界杯轉播費報價大幅降低央視仍不接招

新能源車系統(tǒng)升級后遭"鎖電" 續(xù)航從500公里變300公里

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

親子

藝術

手機

軍事航空

手機 / 數(shù)碼

房產 / 家居

別急著教AI開車，先讓它看懂世界

DeepSeek融資，改寫所有人的估值

談判陷僵局 世界杯轉播費報價大幅降低央視仍不接招

談判陷僵局 世界杯轉播費報價大幅降低央視仍不接招

那個曾讓詹姆斯抱頭的兄弟，40歲從大學畢業(yè)了

趙露思老實人豁出去了 沒舞蹈天賦硬跳

白酒大逃殺

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

請教會你的孩子有能力分辨和說不！

“順”還是“剖”？從成為母親的選擇說起

震撼！Rico Reinhold帶你領略歐美復古藝術寫真！

聯(lián)想拯救者手機Y70新一代現(xiàn)身Geekbench

伊朗革命衛(wèi)隊深夜警告

DeepSeek融資，改寫所有人的估值

談判陷僵局世界杯轉播費報價大幅降低央視仍不接招

談判陷僵局世界杯轉播費報價大幅降低央視仍不接招

那個曾讓詹姆斯抱頭的兄弟，40歲從大學畢業(yè)了

趙露思老實人豁出去了沒舞蹈天賦硬跳

軸距加長/智駕拉滿阿維塔07L定位大五座SUV

請教會你的孩子有能力分辨和說不！

“順”還是“剖”？從成為母親的選擇說起

震撼！Rico Reinhold帶你領略歐美復古藝術寫真！