国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

別急著教AI開車,先讓它看懂世界

0
分享至


頭圖|AI生成

過去兩三年,中國自動駕駛的競爭,更多比拼功能推進速度。

誰開得更遠,誰覆蓋城市更多,誰體驗更穩(wěn)。高速NOA、城市領(lǐng)航、自動泊車,這些功能構(gòu)成了絕大多數(shù)車企的敘事基礎(chǔ)。只要功能能持續(xù)上線,競爭就可以繼續(xù)。

但這套邏輯正在接近上限。

一方面,主流玩家在功能層面已經(jīng)逐漸拉齊,差距在縮?。涣硪环矫?,越往復雜場景走,系統(tǒng)越依賴整體能力。

復雜場景考驗的,往往不在于“有沒有某個功能”,而在于系統(tǒng)能不能把識別、判斷和動作連續(xù)地完成。

這類能力一旦成為主導,單純疊加功能就很難再直接提升整體表現(xiàn)。功能可以一項項補齊,但只要系統(tǒng)還是“磕磕絆絆”,復雜場景里的不穩(wěn)定就無法根除。

這意味著,自動駕駛的競爭重點,正在轉(zhuǎn)向系統(tǒng)如何組織能力。數(shù)據(jù)、算力、工程調(diào)優(yōu)當然都重要,但當系統(tǒng)復雜度繼續(xù)上升,它們最終都要服從一個更底層的邏輯:這套能力是如何被組織、調(diào)用、迭代的。換句話說,架構(gòu)開始決定上限。

更直接一點:功能決定的是今天能不能賣,架構(gòu)決定的是明天還能不能繼續(xù)變強。

對理想來說,這個變化尤其關(guān)鍵。

過去,理想最強的標簽是產(chǎn)品定義與家庭場景體驗;但一旦進入架構(gòu)競爭階段,理想就必須證明,自己不只擅長做一臺讓用戶喜歡的車,也能定義下一代自動駕駛系統(tǒng)應該長成什么樣。

MindVLA-o1,就是理想對這場架構(gòu)之爭的回答。

AI上車后,系統(tǒng)上限卡在哪?

自動駕駛今天面對的,早已不是規(guī)則算法的問題。過去幾年,行業(yè)主流方案已從規(guī)則驅(qū)動,逐步轉(zhuǎn)向端到端、VLM、VLA等AI架構(gòu)。

2024年,理想推出端到端+VLM雙架構(gòu),讓系統(tǒng)第一次具備跨場景、跨任務的統(tǒng)一理解能力。再往后,空間理解、語言理解與行動決策在2025年被進一步收進同一套VLA框架。此次發(fā)布的MindVLA-o1,則繼續(xù)把自動駕駛向統(tǒng)一基礎(chǔ)模型推進。


問題在于,架構(gòu)從規(guī)則驅(qū)動切到AI驅(qū)動,并不意味著系統(tǒng)上限就自動被打開了。

端到端的價值很大,減少了傳統(tǒng)分模塊系統(tǒng)里的信息裁剪、接口損耗和反復調(diào)參,讓自動駕駛開始從拼功能走向拼能力。但當場景更復雜、任務更連續(xù)時,新的門檻也隨之浮現(xiàn)。

考驗復雜駕駛的,已不只是系統(tǒng)能否識別某個目標、完成一次變道、執(zhí)行泊車動作,而是它能否在連續(xù)變化的現(xiàn)實環(huán)境中,把理解、判斷和行動更穩(wěn)定地連成一體。

也就是說,越往復雜場景走,卡住系統(tǒng)上限的,就越不是單點能力夠不夠,而是現(xiàn)有架構(gòu)能否繼續(xù)往前推進。

即便行業(yè)已經(jīng)進入AI階段,難題也沒有自動消失。

系統(tǒng)如何理解三維物理世界?如何推演未來幾秒的變化?如何把判斷直接轉(zhuǎn)成穩(wěn)定動作?長尾場景如何覆蓋?更重的模型又如何部署到車上?

換句話說,今天行業(yè)真正碰到的問題,是現(xiàn)有的AI方案,能否繼續(xù)向更統(tǒng)一、更強、也更可部署的方向推進。

也正因如此,行業(yè)開始把目光從功能系統(tǒng)進一步推向統(tǒng)一架構(gòu)。MindVLA-o1,正是理想在這個問題上的一次作答。

教AI開車?理想要給車換大腦

那MindVLA-o1架構(gòu)能解決什么問題?又是如何設計和落地?

理想給出的答案,是先把系統(tǒng)做成一個能統(tǒng)一理解、統(tǒng)一判斷、統(tǒng)一行動的“駕駛大腦”。MindVLA-o1的意義就在這里:把競爭核心再往前推一步,從功能推進到系統(tǒng),再推進到模型能力。

再往深一層看,它要解決的不僅是“車怎么開”,也是系統(tǒng)能否先建立起對物理世界的穩(wěn)定理解。對理想來說,這是自動駕駛成立的前提,也決定了這套能力未來有沒有可能走出駕駛本身。

從架構(gòu)上看,MindVLA-o1沒有把視覺模型、語言模型和軌跡模型先分別做出來,再在后期硬拼到一起,而是試圖從一開始,就把三種模態(tài)統(tǒng)一放進同一個原生多模態(tài)MoE Transformer里。即便到了VLA階段,空間理解、語言思考與行為生成之間的對齊效率仍然不夠理想。

那么,它到底在解決什么問題?

第一,如何理解物理世界?

很多復雜駕駛場景,難點不在于“看見了什么”,而在于能否理解物體之間的三維關(guān)系,例如距離、速度、遮擋關(guān)系、動態(tài)變化。過去大量的視覺訓練停留在二維層面,能識別語義,卻未必能理解三維結(jié)構(gòu)。

在李想看來,這極其荒謬:“一個人坐在電腦前學著開車,然后再到路上去開車?!?/p>

理想這次端出了3D ViT。核心邏輯很簡單:不只讓系統(tǒng)知道物體是什么,還要弄清它在三維空間里究竟處在什么位置。它采用以視覺為核心的三維視覺編碼,借助激光雷達的幾何提示,引導模型去理解真實空間結(jié)構(gòu),讓語義理解和三維感知在同一套表示里對齊。


為什么底層的空間認知這么重要?“大部分搞模型的,都想直接做成年以后要做的事,拼命訓練。但0-6歲孩子最重要的訓練空間、訓練能力,根本沒解決?!?/strong>

李想的比方足夠接地氣:“大部分人只要有小學學歷,就能把車開得非常好,因為做了0-6歲對三維空間的訓練?!?/p>

放到自動駕駛上,如果系統(tǒng)連“6歲前”該懂的三維世界都看不明白,底座就是搖晃的,后續(xù)再怎么疊加復雜的預測和控制模型,也注定走不遠。

第二,如何面對變化?

駕駛不只是對當前狀態(tài)的反應,更要面對持續(xù)變化的現(xiàn)實環(huán)境:旁車會不會加塞,行人會不會突然橫穿,前車會不會臨時變線。系統(tǒng)面對的不是靜態(tài)畫面,而是連續(xù)博弈。

理想強調(diào)多模態(tài)思考,在語言模型承擔語義理解、常識知識和交互能力的基礎(chǔ)上,再引入預測式隱世界模型,在隱空間中推演未來場景變化。核心就是把“看懂現(xiàn)在”,即識別眼前的景象,推進到“推演下一步”,預測接下來會發(fā)生什么。

此處還有一個關(guān)鍵的要求:駕駛既要“慢思考”,也要“快反應”。復雜場景中,判斷往往要調(diào)用常識、語義理解和多步推理能力;但車在路上可等不了慢慢思考,必須立刻做出回應動作。MindVLA-o1能做的,是把這兩種能力統(tǒng)一到一個框架里,讓系統(tǒng)既能理解,又能快速推演。

第三,如何把判斷變成行動?

這也解釋了,為什么理想要盡量把感知、推理和控制放進同一套架構(gòu)里。過去分模塊系統(tǒng)的問題,并非某個單獨模塊能力低下,而是信息在模塊間傳遞、裁剪、損耗,造成了別扭的局面:局部都對,連起來卻不穩(wěn)。

VLA階段,空間理解、推理思考、行動決策已被統(tǒng)一到同一個模型框架中;而MindVLA-o1則通過引入專門的行為專家(Action Expert),從場景、特征、導航和指令等中提取信息,進一步提升對齊效率。

為滿足實時性和精度要求,系統(tǒng)采用了并行解碼,同時生成所有軌跡點,引入離散擴散,多輪迭代優(yōu)化,確保軌跡符合車輛動力學約束。

這樣一來,模型不僅會思考,更能把這些判斷及時、穩(wěn)定地轉(zhuǎn)化成動作。

第四,如何快速學習,快速迭代?

長尾場景不斷出現(xiàn),只等真實世界的數(shù)據(jù)覆蓋,即不高效,也不現(xiàn)實。模型不能只從已有的人類駕駛數(shù)據(jù)里學,還得能在世界模擬器中持續(xù)探索、試錯、優(yōu)化。

為支持大規(guī)模模擬與訓練,理想汽車開發(fā)了統(tǒng)一的三維高斯?jié)姙R(3D Gaussian Splatting)渲染引擎和分布式訓練框架,渲染速度提升近2倍,整體訓練成本降低約75%。

這種閉環(huán)強化學習,推動系統(tǒng)在仿真環(huán)境中更快完成策略迭代。

第五,如何把前面的種種設想都落到實處?

很多大模型方案容易卡住的,不是實驗室里做不出來,而是車端跑不起來。模型越重,能力越強,部署越難;為了能跑起來去做過多妥協(xié),又很容易把效果做薄。

理想評估了近2000種模型架構(gòu)配置,在英偉達Orin與Thor平臺上找到了模型精度與推理延遲的帕累托前沿,大幅提升端側(cè)VLA模型的設計與部署效率。

理想強調(diào)軟硬件協(xié)同設計,本質(zhì)就是在回答:車端資源有限,統(tǒng)一大模型怎么真正部署。畢竟,算力跟不上,模型再好也難有穩(wěn)定體驗。

正因如此,MindVLA-o1在技術(shù)集合的基礎(chǔ)上,構(gòu)建了一套完整的能力:先補空間理解,再補未來預判,再把判斷變成穩(wěn)定行動,同時借助閉環(huán)強化學習持續(xù)進化,并通過芯片、數(shù)據(jù)和軟硬件,把這套能力推向量產(chǎn)。

理想認為,未來量產(chǎn)智駕最難的部分,不在于單項能力能否繼續(xù)提高,而在于它們能否被系統(tǒng)穩(wěn)定調(diào)用,最后連成一個完整的“駕駛大腦”。

如果這套判斷成立,自動駕駛行業(yè)接下來爭奪的,這就不再是誰的功能補得快,而是誰先找到“駕駛大腦”的正確形態(tài)。

逼近“駕駛大腦”,理想先走哪一步?

問題在于,自動駕駛走到今天,行業(yè)已隱約出現(xiàn)了共識:單靠功能堆疊,很難繼續(xù)推高系統(tǒng)能力上限。無論是更強調(diào)安全冗余,還是更強調(diào)數(shù)據(jù)驅(qū)動和統(tǒng)一神經(jīng)網(wǎng)絡,近年的演進都說明,各路玩家都在朝更統(tǒng)一的系統(tǒng)能力收斂。

但共識只到這里。

真正的分歧,在于當行業(yè)開始從功能競爭轉(zhuǎn)向架構(gòu)競爭,究竟應該先解決什么問題、按什么順序搭建能力?不同玩家判斷并不一樣,因此現(xiàn)階段資源投放的側(cè)重也有所不同。

有人把重點放在更高的安全邊界和系統(tǒng)可靠性上,盡可能減少復雜現(xiàn)實中的不確定性;有人把重點放在更大規(guī)模的數(shù)據(jù)、訓練和迭代機制上,希望系統(tǒng)在持續(xù)學習中,不斷逼近更通用的駕駛能力。

而理想押注的重點,則是先把系統(tǒng)對物理世界的理解補扎實,再把預判、推理和控制盡量收進同一套邏輯里,既不單純增加功能,也不為了更大的系統(tǒng)而拼湊模塊。理想想證明,這套“看懂世界-推演變化-形成動作”的“駕駛大腦”能力框架,能夠穩(wěn)定地跑在車上。

這些不同優(yōu)先級的選擇,都在逼近同一個挑戰(zhàn):駕駛不是瞬時識別,而是連續(xù)判斷;不是靜態(tài)環(huán)境處理,而是動態(tài)博弈。想象力在于統(tǒng)一能力的上限,挑戰(zhàn)則在于,統(tǒng)一架構(gòu)能否在復雜現(xiàn)實中穩(wěn)定落地。

短期競爭拼局部能力,長期競爭拼系統(tǒng)能否持續(xù)增長。誰的路徑更能在復雜場景里保持穩(wěn)定?誰的能力更能一層層積累?這恰恰是拉開差距的關(guān)鍵。

如果往前看,理想提出“自動駕駛只是物理AI的起點”,釋放了一個更大的信號:MindVLA-o1為智駕功能服務只是起點,一套面向物理世界的統(tǒng)一智能基座才是它最終的星辰大海。

這套完整的AI框架,包含四個核心模塊,統(tǒng)一數(shù)據(jù)引擎MindData、統(tǒng)一模型MindVLA-o1、多模態(tài)世界模型MindSim以及強化學習基礎(chǔ)設施RL Infra。這四部分協(xié)同形成完整閉環(huán),才是那個真正的“大腦”。

換句話說,自動駕駛在這里既是產(chǎn)品落地場景,也是能力訓練場。今天先解決開車,未來再延展到更廣泛的車載智能,甚至直接復用該模型控制機器人,邁向具身智能。

這個外延今天當然還談不上被驗證,但至少理想已經(jīng)把自己的位置,從“更強的智駕”往“更通用的物理智能”上挪了一步。

若自動駕駛的核心變成基礎(chǔ)模型能力,行業(yè)競爭邏輯也會隨之變化。

競爭焦點會從功能覆蓋轉(zhuǎn)向模型能力;核心資源會從供應鏈優(yōu)勢,部分轉(zhuǎn)向“數(shù)據(jù)+算力+模型”的組合能力。未來決定車企分層的,不只有產(chǎn)品、制造和渠道,還會多出一條標準:誰能持續(xù)訓練和迭代“車的大腦”。

在這個格局里,理想已主動把自己放在了智能體路線的坐標上。

結(jié)尾

MindVLA-o1的意義,遠不止一套新的智駕方案。在自動駕駛從功能競爭,走向架構(gòu)競爭的時間點上,理想更明確地把賭注押向了“統(tǒng)一智能體”。

接下來幾年,行業(yè)表面上的差異,仍然會體現(xiàn)在功能體驗、開城節(jié)奏以及用戶感知上;但更深層的競爭,正在轉(zhuǎn)向——誰能把理解、預判和行動更穩(wěn)定地組織起來,誰能讓系統(tǒng)在復雜現(xiàn)實中持續(xù)積累能力。

自動駕駛是個入口,而理想下注的,是更大的方向:一套面向物理世界的統(tǒng)一智能能力。自動駕駛的下一階段,未必馬上分出勝負,但行業(yè)已經(jīng)開始換題了。

過去比的,是誰把功能做得更全;現(xiàn)在比的,是誰先做出“駕駛大腦”;而未來要比的,則是誰先做出真正能夠理解世界、持續(xù)成長的統(tǒng)一智能體。

理想這次發(fā)布MindVLA-o1,相當于在這個分叉點上提前押注了一個方向。這個方向能否兌現(xiàn),要靠時間驗證;但至少,它不再是一次普通的功能升級。

本內(nèi)容由作者授權(quán)發(fā)布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯(lián)系 tougao@huxiu.com。

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4844164.html?f=wyxwapp

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
第六險來了!一文讀懂“長護險”

第六險來了!一文讀懂“長護險”

極目新聞
2026-03-26 07:21:00
張雪峰走后才懂:北京戶口,真的值得拿命換嗎?

張雪峰走后才懂:北京戶口,真的值得拿命換嗎?

硯底沉香
2026-03-26 12:09:51
女孩“全損課本”火了,自認為是清北的料子,老師:自我感動罷了

女孩“全損課本”火了,自認為是清北的料子,老師:自我感動罷了

復轉(zhuǎn)這些年
2026-03-23 20:48:15
張國榮前經(jīng)紀人,公開聲明

張國榮前經(jīng)紀人,公開聲明

南方都市報
2026-03-26 10:57:36
張雪峰感情狀態(tài)被扒,前任姓李,再婚對象姓張,財產(chǎn)誰拿大頭

張雪峰感情狀態(tài)被扒,前任姓李,再婚對象姓張,財產(chǎn)誰拿大頭

魔都姐姐雜談
2026-03-26 11:25:00
1986年韓先楚拒絕葬在八寶山,他對陳云說:那里有我不愿見到的人

1986年韓先楚拒絕葬在八寶山,他對陳云說:那里有我不愿見到的人

百年歷史老號
2026-03-25 18:27:41
浙江男老師意外發(fā)現(xiàn)女學生長相酷似亡妻,鑒定后,結(jié)果讓他當場愣住

浙江男老師意外發(fā)現(xiàn)女學生長相酷似亡妻,鑒定后,結(jié)果讓他當場愣住

紅豆講堂
2024-09-13 09:35:43
2-2泰國,2人表現(xiàn)亮眼,1人不受主帥待見,球迷:山東泰山好幸福

2-2泰國,2人表現(xiàn)亮眼,1人不受主帥待見,球迷:山東泰山好幸福

我就是一個說球的
2026-03-25 22:19:57
又是1-3、又是輸在決賽!向鵬淘汰溫瑞博,獲世乒賽參賽資格

又是1-3、又是輸在決賽!向鵬淘汰溫瑞博,獲世乒賽參賽資格

十點街球體育
2026-03-25 20:08:11
中國金花綻放!澳網(wǎng)冠軍救4賽點逆轉(zhuǎn),張帥組合進4強,PK頭號種子

中國金花綻放!澳網(wǎng)冠軍救4賽點逆轉(zhuǎn),張帥組合進4強,PK頭號種子

劉姚堯的文字城堡
2026-03-26 07:27:55
陳天橋:那一夜梁文鋒拒絕了我的投資,卻讓我決定投入10億美金去做另一件事

陳天橋:那一夜梁文鋒拒絕了我的投資,卻讓我決定投入10億美金去做另一件事

獵云網(wǎng)
2026-03-19 15:28:10
全國禁賽5年!涼山隊一球員不滿判罰賽后飛踹拳擊裁判,此前已被四川省內(nèi)禁賽5年

全國禁賽5年!涼山隊一球員不滿判罰賽后飛踹拳擊裁判,此前已被四川省內(nèi)禁賽5年

紅星新聞
2026-03-25 23:19:21
蕾絲女王Charlotte Stokely

蕾絲女王Charlotte Stokely

吃瓜黨二號頭目
2026-03-26 11:40:20
炸穿阿瓦士!美以聯(lián)手端掉伊朗革命衛(wèi)隊總部,現(xiàn)場夷成白地

炸穿阿瓦士!美以聯(lián)手端掉伊朗革命衛(wèi)隊總部,現(xiàn)場夷成白地

老馬拉車莫少裝
2026-03-23 13:00:44
火車站“老師兒!出租車在這乘坐”標語引熱議,網(wǎng)友稱一看就是山東濟南,車站工作人員:在當?shù)剡@是尊稱

火車站“老師兒!出租車在這乘坐”標語引熱議,網(wǎng)友稱一看就是山東濟南,車站工作人員:在當?shù)剡@是尊稱

極目新聞
2026-03-26 12:06:40
默多克過95歲生日,只邀請了3個孩子,鄧文迪陪兩個女兒盛裝出席

默多克過95歲生日,只邀請了3個孩子,鄧文迪陪兩個女兒盛裝出席

小書生吃瓜
2026-03-22 16:43:35
3月17日重慶新橋醫(yī)院 廣西女子求醫(yī)掛不上號 醫(yī)生下班蹲地看片暖哭

3月17日重慶新橋醫(yī)院 廣西女子求醫(yī)掛不上號 醫(yī)生下班蹲地看片暖哭

觀星賞月
2026-03-26 05:17:03
談不攏!伊朗拒絕“停戰(zhàn)”,特朗普下最后通牒!

談不攏!伊朗拒絕“停戰(zhàn)”,特朗普下最后通牒!

風風順
2026-03-26 11:44:20
退休金4000多的我,退休2年就后悔了:女人的退休生活比上班還累

退休金4000多的我,退休2年就后悔了:女人的退休生活比上班還累

小馬達情感故事
2026-03-25 18:20:03
和美國石油協(xié)議剛達成,委內(nèi)瑞拉爆發(fā)全國大罷工,民眾抗議直逼總統(tǒng)府

和美國石油協(xié)議剛達成,委內(nèi)瑞拉爆發(fā)全國大罷工,民眾抗議直逼總統(tǒng)府

起喜電影
2026-03-26 10:28:16
2026-03-26 12:40:49
虎嗅APP incentive-icons
虎嗅APP
個性化商業(yè)資訊與觀點交流平臺
25979文章數(shù) 687622關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時限4到5天

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時限4到5天

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰家人首發(fā)聲 不設追思會喪事從簡

財經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
手機
時尚
數(shù)碼
藝術(shù)

教育要聞

太管用了!高考俄語二輪復習聽力模塊得分要點!

手機要聞

華為全面回歸官宣!產(chǎn)品全覆蓋、麒麟全搭載,國產(chǎn)手機重回巔峰

2026年了,最好看的還是“這件針織”!

數(shù)碼要聞

海盜船MAKR PRO 75霍爾效應磁軸鍵盤國行上市,1999元

藝術(shù)要聞

哪一座橋不是風景?

無障礙瀏覽 進入關(guān)懷版