国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

智能駕駛水面之下,“AI推理之爭(zhēng)”暗流涌動(dòng)

0
分享至

所有的技術(shù)路線都會(huì)殊途同歸。

如果說(shuō),智能駕駛此前還在圍繞VLM(視覺(jué)-語(yǔ)言模型)與VLA(視覺(jué)-語(yǔ)言-動(dòng)作模型)、一段式與兩段式、無(wú)圖和有圖等維度展開競(jìng)爭(zhēng),那么從今年開始,智駕競(jìng)爭(zhēng)已悄然進(jìn)入深水,一場(chǎng)更底層的較量正在算力集群與算法架構(gòu)之間展開。

無(wú)論是智能駕駛、大模型還是具身智能,其競(jìng)爭(zhēng)焦點(diǎn)正從快速預(yù)訓(xùn)練響應(yīng)轉(zhuǎn)向慢速深度推理。在這場(chǎng)圍繞推理能力的暗戰(zhàn)中,AI將不再僅僅依賴于快速的模式匹配,而是能夠進(jìn)行深入思考,解決更復(fù)雜的問(wèn)題,這將使AI迎來(lái)突破智能瓶頸的“奇點(diǎn)時(shí)刻”。

讓人工智能學(xué)會(huì)“頓悟”

“推理”被視為人工智能發(fā)展的下半場(chǎng),這一變化的發(fā)生并不是偶然。

OpenAI的聯(lián)合創(chuàng)始人伊利亞·蘇茨克維爾(Ilya Sutskever)在溫哥華NeurIPS大會(huì)上明確表示,AI的預(yù)訓(xùn)練時(shí)代已接近尾聲。他指出,當(dāng)前的數(shù)據(jù)資源并不再具有指數(shù)級(jí)的增長(zhǎng),而計(jì)算能力仍在不斷攀升,這意味著我們必須重新評(píng)估和利用現(xiàn)有的數(shù)據(jù),提高其推理效率。

“推理”這一術(shù)語(yǔ)來(lái)源于邏輯學(xué),是系統(tǒng)根據(jù)已知前提,通過(guò)規(guī)則來(lái)產(chǎn)生新的結(jié)論或決策的能力。推理反映了AI在模擬人類思維方面的能力,人類的推理是通過(guò)已有知識(shí)(經(jīng)驗(yàn)或教育)對(duì)新情況進(jìn)行分析,例如“如果天空烏云密布,那么可能會(huì)下雨”。

AI運(yùn)行過(guò)程其實(shí)與上述描述特征基本一致,是因?yàn)樗7铝巳祟惡瓦壿嬒到y(tǒng)中“從已知信息得出未知結(jié)論”的過(guò)程。推理強(qiáng)調(diào)模型利用訓(xùn)練獲得的知識(shí),在不確定的輸入情況下生成合理輸出。

與傳統(tǒng)的數(shù)據(jù)處理和模式識(shí)別有所不同,推理要求系統(tǒng)不僅能夠識(shí)別模式,還能夠理解其背后的原因和邏輯。這是機(jī)器學(xué)習(xí)技術(shù)的漫長(zhǎng)而復(fù)雜的演進(jìn)過(guò)程中的最后一步,就像是人工智能的“頓悟”時(shí)刻。

舉個(gè)例子,學(xué)生學(xué)習(xí)和考試,學(xué)生平時(shí)課堂學(xué)習(xí)、寫作業(yè)等,可以看成是AI模型的訓(xùn)練。學(xué)生寫作業(yè),老師批改作業(yè),以及老師答疑,都是在給學(xué)生反饋哪些是正確的哪些是錯(cuò)誤的,通過(guò)這個(gè)過(guò)程學(xué)生掌握了課本里面的知識(shí)。

到了考試以后,考題多數(shù)情況下是跟平時(shí)做的題目不一樣,學(xué)生需要利用掌握的知識(shí)來(lái)分析解答考試題目,這個(gè)就是推理的過(guò)程。

但是有一點(diǎn)需要說(shuō)明,考試的知識(shí)點(diǎn)肯定要在課本知識(shí)范圍內(nèi),即考試不能超綱,否則學(xué)生也答不上來(lái)或者答的效果不好。

在AI的下半場(chǎng),推理之所以變得尤為重要,是因?yàn)殡S著應(yīng)用場(chǎng)景的復(fù)雜化和多樣化,簡(jiǎn)單的數(shù)據(jù)處理和分類已經(jīng)無(wú)法滿足需求。比如在智駕領(lǐng)域,系統(tǒng)不僅需要識(shí)別行人、車輛和交通信號(hào),還需要理解它們之間的交互關(guān)系,預(yù)測(cè)未來(lái)的行為,并據(jù)此做出安全、合理的駕駛決策,這就需要強(qiáng)大的推理能力來(lái)支撐。

巴克萊的一份報(bào)告預(yù)計(jì),AI推理計(jì)算需求將快速提升,預(yù)計(jì)其將占通用人工智能總計(jì)算需求的70%以上,推理計(jì)算的需求甚至可以超過(guò)訓(xùn)練計(jì)算需求,達(dá)到后者的4.5倍。

作為AI技術(shù)應(yīng)用的兩大基石,訓(xùn)練(Training)和推理(Inference)決定著AI的智能化水平。

在訓(xùn)練階段,通過(guò)大量數(shù)據(jù)和算法,AI模型學(xué)會(huì)識(shí)別和生成規(guī)律。模型參數(shù)在此過(guò)程中不斷調(diào)整,以最小化預(yù)測(cè)與實(shí)際值之間的誤差,從而使其具備適應(yīng)各種任務(wù)的學(xué)習(xí)能力。

在此過(guò)程中,大模型通過(guò)深度學(xué)習(xí)技術(shù),通過(guò)多層神經(jīng)網(wǎng)絡(luò),對(duì)接收輸入的海量數(shù)據(jù)進(jìn)行學(xué)習(xí)和優(yōu)化,并通過(guò)學(xué)習(xí)調(diào)整模型的參數(shù),以最小化預(yù)測(cè)與實(shí)際值之間的誤差,使其能夠?qū)斎霐?shù)據(jù)進(jìn)行準(zhǔn)確的預(yù)測(cè)。

這通常涉及到使用反向傳播算法和優(yōu)化器來(lái)最小化模型預(yù)測(cè)與實(shí)際標(biāo)簽之間的誤差。為了提高模型的性能,一般需要使用大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練,以確保模型能夠泛化到各種不同的情況。

這種學(xué)習(xí)方式,使得AI模型能夠從數(shù)據(jù)中自動(dòng)提取特征,進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)的自適應(yīng)分析和處理。同時(shí),AI大模型還采用了遷移學(xué)習(xí)技術(shù)這種學(xué)習(xí)方式,使得AI模型能夠從數(shù)據(jù)中自動(dòng)提取特征,將已經(jīng)在其他任務(wù)上訓(xùn)練好的模型,遷移到新的任務(wù)中,大大提高了訓(xùn)練效率。

推理階段則建立在訓(xùn)練完成的基礎(chǔ)上,將訓(xùn)練好的模型應(yīng)用于新的、未見(jiàn)過(guò)的數(shù)據(jù)。模型利用先前學(xué)到的規(guī)律進(jìn)行預(yù)測(cè)、分類或生成新內(nèi)容,使得AI能夠輸出相應(yīng)的預(yù)測(cè)結(jié)果和具有意義的決策。

從類型看,AI推理可以分為批量推理、在線推理、流式推理三種模式。

批量推理得名于其接收和處理數(shù)據(jù)的方式,以大批量的形式進(jìn)行。這種方法并非實(shí)時(shí)處理推理,而是按批次處理數(shù)據(jù),有時(shí)按小時(shí),甚至按天處理,具體取決于數(shù)據(jù)量和AI模型的效率。這些推理也可稱為“離線推理”或“靜態(tài)推理”。

在線推理也稱為“動(dòng)態(tài)”推理,可以實(shí)時(shí)提供響應(yīng)。這類推理需要硬件和軟件的支持,以降低延遲障礙并實(shí)現(xiàn)高速預(yù)測(cè)。在線推理在邊緣場(chǎng)景中很有幫助,即AI在數(shù)據(jù)所在的位置進(jìn)行工作。這也許是手機(jī)上、汽車?yán)铮蛘呔W(wǎng)絡(luò)連接有限的遠(yuǎn)程辦公室中。

OpenAI的ChatGPT便是在線推理的典型范例,它需要大量的前期運(yùn)維支持,才能快速且準(zhǔn)確地作出響應(yīng)。

流式推理未必用于與人類進(jìn)行交互,該模型不是基于提示或請(qǐng)求來(lái)運(yùn)作,而是接收持續(xù)不斷的數(shù)據(jù)流,以便進(jìn)行預(yù)測(cè)并更新其內(nèi)部數(shù)據(jù)庫(kù)。流式推理能夠監(jiān)控變化、保持運(yùn)行規(guī)律,或在問(wèn)題實(shí)際發(fā)生前進(jìn)行預(yù)測(cè)防范。

總的來(lái)看,訓(xùn)練決定模型能力上限,推理決定服務(wù)效能下限。訓(xùn)練環(huán)節(jié)主要存在于算法研發(fā)階段,支撐著模型能力的持續(xù)進(jìn)化。科研機(jī)構(gòu)通過(guò)改進(jìn)訓(xùn)練策略突破技術(shù)邊界,企業(yè)則通過(guò)領(lǐng)域自適應(yīng)訓(xùn)練打造垂直行業(yè)模型。

推理服務(wù)已滲透到各類產(chǎn)業(yè)數(shù)字化場(chǎng)景,比如智駕方面增強(qiáng)長(zhǎng)尾場(chǎng)景的處理能力并提供最優(yōu)路徑規(guī)劃、醫(yī)療領(lǐng)域輔助CT影像分析、金融行業(yè)實(shí)現(xiàn)智能風(fēng)控、教育場(chǎng)景支持個(gè)性化學(xué)習(xí)推薦系統(tǒng)等等,這些應(yīng)用都依賴高效的推理引擎將模型能力轉(zhuǎn)化為實(shí)際價(jià)值。

當(dāng)前AI技術(shù)發(fā)展趨勢(shì)顯示,訓(xùn)練階段正向更高效的稀疏訓(xùn)練、混合專家架構(gòu)(Mixture of Experts,MoE)演進(jìn),而推理優(yōu)化則聚焦于動(dòng)態(tài)批處理、持續(xù)推理等實(shí)時(shí)化技術(shù),兩者的協(xié)同進(jìn)步推動(dòng)著AI技術(shù)落地的深化。

智能駕駛的關(guān)鍵跳板

今年,汽車行業(yè)的智駕之戰(zhàn)明顯比往年來(lái)得更加猛烈。比亞迪的天神之眼、吉利的千里浩瀚、奇瑞的獵鷹智駕,以及廣汽的自動(dòng)駕駛計(jì)劃,這些主流車企的動(dòng)向都說(shuō)明了,如今的車圈已經(jīng)是“得智駕者得天下”的時(shí)代了。

自2023年以來(lái),智駕行業(yè)掀起B(yǎng)EV、端到端技術(shù)浪潮后,車企們正逐步將AI神經(jīng)網(wǎng)絡(luò)融入感知、規(guī)劃、控制等環(huán)節(jié)。比起傳統(tǒng)基于規(guī)則的方案,基于AI、數(shù)據(jù)驅(qū)動(dòng)的“端到端”擁有更高能力天花板。

但在端到端模型之外,車企們還輔以了大語(yǔ)言模型、VLM模型等外掛,提供更強(qiáng)大的環(huán)境理解能力,從而提升智駕能力上限。

與此同時(shí),智駕另一個(gè)技術(shù)趨勢(shì)正在顯現(xiàn),融合了視覺(jué)、語(yǔ)言和動(dòng)作的多模態(tài)大模型范式——VLA正在成為重要的一環(huán)。VLA模型擁有更高的場(chǎng)景推理能力與泛化能力,對(duì)于智駕技術(shù)的演進(jìn)意義重大。從長(zhǎng)遠(yuǎn)來(lái)看,在從L2級(jí)輔助駕駛向L4級(jí)自動(dòng)駕駛的技術(shù)躍遷過(guò)程中,VLA有望成為關(guān)鍵跳板。

在提升汽車智能化方面,新勢(shì)力車企最為激進(jìn)。在近期的NVIDIA GTC 2025大會(huì)上,理想汽車發(fā)布了新一代自動(dòng)駕駛架構(gòu)——MindVLA。它通過(guò)整合空間智能、語(yǔ)言智能和行為智能,賦予自動(dòng)駕駛系統(tǒng)以3D空間理解能力、邏輯推理能力和行為生成能力,并計(jì)劃于2026年量產(chǎn)應(yīng)用。

VLA模型最早見(jiàn)于機(jī)器人行業(yè)。2023年7月,谷歌 DeepMind推出了全球首個(gè)控制機(jī)器人的VLA模型——RT-2。

相比傳統(tǒng)的機(jī)器人模型只能支持少數(shù)的特定指令,RT-2借助于大語(yǔ)言模型強(qiáng)大的語(yǔ)言理解能力,可以直接和用戶進(jìn)行語(yǔ)言交互,并在接收攝像頭的原始數(shù)據(jù)和語(yǔ)言指令后,直接輸出控制信號(hào),完成各種復(fù)雜的操作和各類任務(wù)。

VLA在機(jī)器人領(lǐng)域的成功,很快也應(yīng)用到了智能駕駛領(lǐng)域。2024年10月底,谷歌旗下自動(dòng)駕駛公司W(wǎng)aymo推出了一個(gè)基于端到端的自動(dòng)駕駛多模態(tài)模型——EMMA。

EMMA建立在多模態(tài)大語(yǔ)言模型Gemini之上,將原始攝像頭傳感器數(shù)據(jù)直接映射到各種特定于駕駛的輸出中,包括規(guī)劃者軌跡、感知目標(biāo)和道路圖元素,通過(guò)將所有非傳感器輸入(如導(dǎo)航指令和自車狀態(tài))和輸出(如軌跡和3D位置)表示為自然語(yǔ)言文本,最大限度地利用了預(yù)訓(xùn)練的大型語(yǔ)言模型中的世界知識(shí)。

從技術(shù)路徑看,VLA模型是在VLM基礎(chǔ)上發(fā)展而來(lái)。VLM是一種能夠處理圖像和自然語(yǔ)言文本的機(jī)器學(xué)習(xí)模型,它可以將一張或多張圖片作為輸入,并生成一系列標(biāo)記來(lái)表示自然語(yǔ)言。

然而,VLA不僅限于此,它還利用了機(jī)器人或汽車運(yùn)動(dòng)軌跡的數(shù)據(jù),進(jìn)一步訓(xùn)練這些現(xiàn)有的VLM,以輸出可用于機(jī)器人或汽車控制的動(dòng)作序列。通過(guò)這種方式,VLA可以解釋復(fù)雜的指令并在物理世界中執(zhí)行相應(yīng)的動(dòng)作。

在VLA之前,“端到端+VLM”一直是智駕行業(yè)主流技術(shù)方案。

因?yàn)轳{駛時(shí)需要多模態(tài)的感知交互系統(tǒng),用戶的視覺(jué)、聽覺(jué)以及周圍環(huán)境的變化,甚至個(gè)人情感的波動(dòng),都與駕駛行為密切相關(guān)。所以“端到端+VLM”的技術(shù)架構(gòu)中,端到端系統(tǒng)負(fù)責(zé)處理感知、決策和執(zhí)行的全過(guò)程,而VLM則作為輔助系統(tǒng),提供對(duì)復(fù)雜交通場(chǎng)景的理解和語(yǔ)義解析,但兩者相對(duì)獨(dú)立。

以理想“端到端+VLM”雙系統(tǒng)架構(gòu)方案為例,其基于丹尼爾·卡尼曼(Daniel Kahneman)在《思考,快與慢》中提出的人類兩套思維系統(tǒng)理論,將端到端系統(tǒng)(相當(dāng)于系統(tǒng)1)與VLM模型(相當(dāng)于系統(tǒng)2)融合應(yīng)用于自動(dòng)駕駛技術(shù)方案中,賦予車端模型更高的性能上限和發(fā)展?jié)摿Α?/p>

其中,系統(tǒng)1即端到端模型,是一種直覺(jué)式、快速反應(yīng)的機(jī)制,它直接從傳感器輸入(如攝像頭和激光雷達(dá)數(shù)據(jù))映射到行駛軌跡輸出,無(wú)需中間過(guò)程,是One Model一體化的模型。系統(tǒng)2則是由一個(gè)22億參數(shù)的VLM視覺(jué)語(yǔ)言大模型實(shí)現(xiàn),它的輸出給到系統(tǒng)1綜合形成最終的駕駛決策。

雖然“端到端+VLM”大幅提升了智駕水平,但仍有很多問(wèn)題。比如,端到端和VLM要進(jìn)行聯(lián)合訓(xùn)練比較困難,此外還有對(duì)3D空間理解不夠、駕駛知識(shí)和內(nèi)存帶寬不足、難以處理人類駕駛的多模態(tài)性等問(wèn)題。

而VLA通過(guò)統(tǒng)一的大模型架構(gòu),將感知、決策、執(zhí)行無(wú)縫串聯(lián),形成“圖像輸入-語(yǔ)義理解-類人決策-動(dòng)作輸出”的閉環(huán),可以同步提高智駕的上限和下限,實(shí)現(xiàn)空間、行為和語(yǔ)言的統(tǒng)一。

從VLM到VLA的進(jìn)化,就像是從有人指導(dǎo)的初學(xué)者變成了經(jīng)驗(yàn)豐富的老手直接操作,后者相對(duì)更為先進(jìn)且可靠。

在推理方面,VLA模型的能力要遠(yuǎn)高于“端到端+VLM”?;谝?guī)則可能只能推理未來(lái)1秒鐘內(nèi)即將發(fā)生的情況;現(xiàn)階段的端到端可以推理未來(lái)7秒鐘可能發(fā)生的情況;而基于VLA模型的端到端的推理能力能夠長(zhǎng)達(dá)幾十秒。推理時(shí)間越長(zhǎng),意味著在應(yīng)對(duì)復(fù)雜、長(zhǎng)尾場(chǎng)景時(shí)表現(xiàn)更好,比如施工現(xiàn)場(chǎng),潮汐車道、交通指揮手勢(shì)等。

正因如此,VLA被業(yè)界認(rèn)為是端到端2.0的主要技術(shù)形態(tài)。目前,VLA尚處于發(fā)展階段,除DeepMind的RT-2外,還包括OpenVLA模型、Waymo的EMMA、Wayve的LINGO-2、英偉達(dá)NaVILA等。這其中,Waymo的EMMA和Wayve的LINGO-2主要面向的是車載領(lǐng)域,RT-2、OpenVLA和NaVILA則主要面向機(jī)器人領(lǐng)域。

VLA是不是唯一路徑?

技術(shù)層面看,VLA核心在于將VLM的場(chǎng)景理解能力與端到端決策架構(gòu)深度融合,并引入“思維鏈”(Chain of Thought,CoT)技術(shù),這使得它具備了全局上下文理解與類人推理能力,能夠在面對(duì)復(fù)雜的交通場(chǎng)景時(shí),像人類駕駛員一樣進(jìn)行思考和判斷。

例如,當(dāng)遇到前方道路施工、交通信號(hào)燈異?;蛘咂渌厥馇闆r時(shí),VLA模型可以通過(guò)分析視覺(jué)信息和語(yǔ)言指令,快速規(guī)劃出合理的行駛路徑和應(yīng)對(duì)策略。

它還能與乘客或其他車輛進(jìn)行交互,接受并執(zhí)行各種指令。比如,乘客可以直接對(duì)車輛說(shuō)“找最近的加油站”或者“避開擁堵路段”,VLA模型就能根據(jù)這些指令自動(dòng)規(guī)劃路線并執(zhí)行駕駛操作。

對(duì)于智駕,VLA模型有相當(dāng)多的優(yōu)勢(shì),其中最大優(yōu)勢(shì)之一就是與現(xiàn)有的大語(yǔ)言模型范式兼容。VLA模型同樣遵從Scaling Law,隨著模型參數(shù)提升,性能也會(huì)提升。同時(shí),用預(yù)訓(xùn)練、后訓(xùn)練、持續(xù)訓(xùn)練改進(jìn)模型。同時(shí)還兼容直接偏好優(yōu)化(DPO)、人類反饋強(qiáng)化學(xué)習(xí)(RLHF)、組相對(duì)策略優(yōu)化(GRPO)等技術(shù)。并且,思維鏈可以直接用于推理決策(比如潮汐車道的思考)。

VLA架構(gòu)通過(guò)深度整合視覺(jué)、語(yǔ)言和行為等多模態(tài)信息進(jìn)行端到端訓(xùn)練,從根本上減少了信息傳遞過(guò)程中的損耗,并顯著提升了模型的泛化能力和對(duì)復(fù)雜駕駛場(chǎng)景的理解能力。這種多模態(tài)的融合使得模型能夠?qū)W習(xí)到視覺(jué)輸入與語(yǔ)言描述之間的對(duì)應(yīng)關(guān)系,從而在做出駕駛決策的同時(shí),也能生成相應(yīng)的自然語(yǔ)言解釋。

例如,模型可能會(huì)解釋“我識(shí)別到前方有行人(視覺(jué)),根據(jù)交通規(guī)則我應(yīng)該減速讓行(語(yǔ)言和行為規(guī)則),因此我執(zhí)行了剎車操作(行為)?!边@種將感知、推理和行動(dòng)與語(yǔ)言描述直接關(guān)聯(lián)的能力,使得模型的決策過(guò)程不再是一個(gè)“黑箱”,而是變得可以理解和追溯。

同時(shí),VLA將基于規(guī)則的偏好注入模型,讓VLA符合人類預(yù)期的駕駛決策。這意味著,VLA模型能夠識(shí)別并優(yōu)先考慮安全的駕駛行為,從而減少現(xiàn)實(shí)世界中的不良習(xí)慣。此外,還能選擇人類偏好的最優(yōu)路徑。

VLA模型另一優(yōu)勢(shì)是跨領(lǐng)域通用性,但其落地對(duì)車載計(jì)算平臺(tái)的算力提出了更高要求。 憑借其底層多模態(tài)融合的特性,VLA模型展現(xiàn)出超越汽車領(lǐng)域的潛力,未來(lái)有望應(yīng)用于包括機(jī)器人在內(nèi)的更廣泛的智能設(shè)備,實(shí)現(xiàn)技術(shù)復(fù)用和規(guī)模效應(yīng)。

不過(guò),VLA要想實(shí)現(xiàn)全面上車,還需要解決數(shù)據(jù)與信息深度融合的問(wèn)題。這要求車企的智駕團(tuán)隊(duì)具備強(qiáng)大的模型框架定義能力和快速迭代能力。然而,在當(dāng)前技術(shù)路線驟然升級(jí)的背景下,許多尚未發(fā)力端到端技術(shù)的車企將面臨更高的門檻。他們需要在短時(shí)間內(nèi)跨越多個(gè)技術(shù)階段,這無(wú)疑增加了他們的難度和成本。

另一個(gè)對(duì)VLA非常重要的挑戰(zhàn)是數(shù)據(jù)閉環(huán)。雖然大語(yǔ)言模型已經(jīng)基于海量的互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行訓(xùn)練,對(duì)于語(yǔ)言和文本已經(jīng)有了非常強(qiáng)的分析能力,但對(duì)于駕駛相關(guān)的視頻數(shù)據(jù)、激光雷達(dá)點(diǎn)云和車輛狀態(tài)等數(shù)據(jù),并沒(méi)有公開的海量數(shù)據(jù)可用。而且VLA的關(guān)鍵能力——思維鏈(CoT)需要根據(jù)設(shè)計(jì)的邏輯和問(wèn)題建立定制化的數(shù)據(jù),這就需要車企有非常強(qiáng)的數(shù)據(jù)閉環(huán)能力。

在VLA時(shí)代,數(shù)據(jù)閉環(huán)不僅僅是收集數(shù)據(jù),收集什么樣的數(shù)據(jù),如何從海量的量產(chǎn)數(shù)據(jù)中挖掘有用的場(chǎng)景,如何把這些場(chǎng)景用在算法的優(yōu)化上;誰(shuí)能更早把這些問(wèn)題想清楚,誰(shuí)就能在數(shù)據(jù)為王的時(shí)代占得先機(jī)。

此外,VLA還要面臨真實(shí)數(shù)據(jù)與實(shí)時(shí)響應(yīng)的挑戰(zhàn)。真實(shí)世界數(shù)據(jù)涵蓋天氣、光線、行人行為等變量,遠(yuǎn)超合成數(shù)據(jù)的覆蓋能力。例如,閃電或違規(guī)橫穿等關(guān)鍵狀態(tài)難以模擬,需依賴量產(chǎn)車或路側(cè)基站的大規(guī)模部署來(lái)積累。

而實(shí)時(shí)性要求模型在100毫秒內(nèi)響應(yīng),涉及數(shù)十億參數(shù)的計(jì)算則需強(qiáng)大算力支持。技術(shù)特性決定了VLA的成熟度與落地速度高度依賴數(shù)據(jù)規(guī)模與算力投入。

去年,上車的主流大模型技術(shù)仍以思維鏈CoT及其變種為主(如思維樹ToT、思維圖GoT、思維森林FoT等),在不同的場(chǎng)景下會(huì)融合生成模型(如擴(kuò)散模型)、知識(shí)圖譜、因果推理模型、累積推理、多模態(tài)推理鏈等技術(shù)。

今年,智駕技術(shù)的重點(diǎn)會(huì)向多模態(tài)推理轉(zhuǎn)移,常用的訓(xùn)練技術(shù)包括指令微調(diào)、多模態(tài)上下文學(xué)習(xí)與多模態(tài)思維鏈(M-CoT)等,通過(guò)多模態(tài)融合對(duì)齊技術(shù)與大模型的推理技術(shù)結(jié)合而成。

在提升汽車智能化方面,也有像MogoMind這類面向真實(shí)物理世界的大模型,其融合多模態(tài)理解、時(shí)空推理、自適應(yīng)進(jìn)化等能力,將交通流量、氣象條件、道路狀況、城市環(huán)境等物理世界實(shí)時(shí)數(shù)據(jù)納入模型訓(xùn)練,通過(guò)整合車輛、道路、云端等多方數(shù)據(jù),可以進(jìn)行實(shí)時(shí)分析并為精準(zhǔn)決策提供支持,幫助駕駛員和自動(dòng)駕駛車輛即時(shí)優(yōu)化決策。

同時(shí),通過(guò)大模型對(duì)攝像頭視頻流進(jìn)行實(shí)時(shí)處理,可以為交通管理部門提供精準(zhǔn)的交通流量分析預(yù)測(cè)與動(dòng)態(tài)優(yōu)化、事故預(yù)警、交通信號(hào)優(yōu)化等服務(wù)。

從CNN到Transformer,再到VLM與VLA,技術(shù)迭代速度令人驚嘆。2025年將成為車端推理與VLA全面進(jìn)擊的元年,各家車企將圍繞算法效率、硬件成本與用戶價(jià)值展開“三重博弈”。

可以預(yù)見(jiàn)的是,新一輪智駕格局洗牌正在醞釀,對(duì)于在技術(shù)和數(shù)據(jù)方面具有雙重優(yōu)勢(shì)的車企將進(jìn)一步鞏固市場(chǎng)地位,而未及時(shí)跟進(jìn)的車企則面臨更加嚴(yán)峻的挑戰(zhàn)。無(wú)論是新勢(shì)力的狂飆突進(jìn),還是傳統(tǒng)巨頭的轉(zhuǎn)型重生,唯有“卷對(duì)方向”的玩家才有可能笑到最后。

聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
專訪鄭功成:建議給農(nóng)村70歲以上老人發(fā)“歷史貢獻(xiàn)養(yǎng)老金”

專訪鄭功成:建議給農(nóng)村70歲以上老人發(fā)“歷史貢獻(xiàn)養(yǎng)老金”

南方都市報(bào)
2026-03-11 08:25:08
渾身都是“寄生蟲”的3種魚,賣魚商販都不敢吃,白送也千萬(wàn)別要

渾身都是“寄生蟲”的3種魚,賣魚商販都不敢吃,白送也千萬(wàn)別要

哄動(dòng)一時(shí)啊
2026-02-27 23:35:44
今天北京晴暖在線,周五停暖前還有小雨降溫

今天北京晴暖在線,周五停暖前還有小雨降溫

北青網(wǎng)-北京青年報(bào)
2026-03-11 13:43:22
中國(guó)第一監(jiān)獄:關(guān)的幾乎全是高官,為防止泄密,牢房?jī)?nèi)有特殊布置

中國(guó)第一監(jiān)獄:關(guān)的幾乎全是高官,為防止泄密,牢房?jī)?nèi)有特殊布置

瓦倫西亞月亮
2026-02-20 17:37:18
解放前,一地下黨被特務(wù)盯梢,旁邊富商起身埋怨道:你怎么才回來(lái)

解放前,一地下黨被特務(wù)盯梢,旁邊富商起身埋怨道:你怎么才回來(lái)

浩舞默畫
2026-03-11 10:53:59
比熬夜可怕十倍的10個(gè)壞習(xí)慣,一定要拋棄!

比熬夜可怕十倍的10個(gè)壞習(xí)慣,一定要拋棄!

深度知局
2026-02-26 21:39:44
電影院偶遇劉燁兒子,15歲諾一男模身高側(cè)顏俊朗,當(dāng)場(chǎng)變他顏值粉

電影院偶遇劉燁兒子,15歲諾一男模身高側(cè)顏俊朗,當(dāng)場(chǎng)變他顏值粉

八怪娛
2026-03-11 17:16:16
川音“淫魔”校長(zhǎng):88名女音樂(lè)教師,霸占87人,細(xì)節(jié)曝光不堪入目

川音“淫魔”校長(zhǎng):88名女音樂(lè)教師,霸占87人,細(xì)節(jié)曝光不堪入目

就一點(diǎn)
2026-03-08 10:54:42
伊朗足協(xié)主席:留澳的女足球員不會(huì)受罰,她們是被攔住后接走的

伊朗足協(xié)主席:留澳的女足球員不會(huì)受罰,她們是被攔住后接走的

懂球帝
2026-03-11 19:49:04
你永遠(yuǎn)想不到醫(yī)院的八卦能有多炸裂?一件提神醒腦,兩件直接撂倒

你永遠(yuǎn)想不到醫(yī)院的八卦能有多炸裂?一件提神醒腦,兩件直接撂倒

另子維愛(ài)讀史
2026-01-22 18:21:09
這就是回家要脫褲子才能上床的原因!網(wǎng)友:看完天都塌了!

這就是回家要脫褲子才能上床的原因!網(wǎng)友:看完天都塌了!

夜深愛(ài)雜談
2026-02-07 19:05:55
終于有人管管美國(guó)了!美國(guó)遇到大麻煩,美國(guó):中美兩國(guó)需要攜手

終于有人管管美國(guó)了!美國(guó)遇到大麻煩,美國(guó):中美兩國(guó)需要攜手

福建平子
2026-01-28 10:52:25
加拿大牽線,48小時(shí)內(nèi)澳下兩道挑戰(zhàn)書,澳軍抵黃海挑釁

加拿大牽線,48小時(shí)內(nèi)澳下兩道挑戰(zhàn)書,澳軍抵黃海挑釁

防衛(wèi)狙擊手
2026-03-10 15:50:33
錢再多有什么用?2個(gè)女兒慘死 3個(gè)兒子反目,千億家產(chǎn)換不來(lái)親情

錢再多有什么用?2個(gè)女兒慘死 3個(gè)兒子反目,千億家產(chǎn)換不來(lái)親情

凡知
2026-03-09 14:47:24
1949年,新中國(guó)確定國(guó)名,張治中建議刪除2字,毛主席:我同意

1949年,新中國(guó)確定國(guó)名,張治中建議刪除2字,毛主席:我同意

史之銘
2026-03-09 18:23:12
殼廠提前泄密!蘋果iPhone Fold完整設(shè)計(jì)曝光

殼廠提前泄密!蘋果iPhone Fold完整設(shè)計(jì)曝光

PChome電腦之家
2026-03-10 09:49:46
這種保溫杯早被國(guó)家禁了,可能引發(fā)慢性中毒,很多人卻成天不離手

這種保溫杯早被國(guó)家禁了,可能引發(fā)慢性中毒,很多人卻成天不離手

DrX說(shuō)
2025-12-16 14:36:14
馬筱梅曝大S豪宅去向,S媽又"作妖",張?zhí)m出手,小楊阿姨也不簡(jiǎn)單

馬筱梅曝大S豪宅去向,S媽又"作妖",張?zhí)m出手,小楊阿姨也不簡(jiǎn)單

無(wú)處不風(fēng)景l(fā)ove
2026-03-09 21:48:38
“活不起了?”男子橫幅威脅引發(fā)熱議,真相令人震驚!

“活不起了?”男子橫幅威脅引發(fā)熱議,真相令人震驚!

一絲不茍的法律人
2026-03-10 12:45:20
心寬路遠(yuǎn),從容向暖

心寬路遠(yuǎn),從容向暖

青蘋果sht
2026-03-11 06:28:03
2026-03-11 20:43:00
極智GeeTech incentive-icons
極智GeeTech
釋放科技想象,探索數(shù)字未來(lái)。
73文章數(shù) 13關(guān)注度
往期回顧 全部

科技要聞

騰訊"養(yǎng)蝦"暴漲后,百度急得在門口"裝蝦"

頭條要聞

美叫停以軍打擊伊朗油庫(kù) 以軍"打擊規(guī)模遠(yuǎn)超美國(guó)預(yù)期"

頭條要聞

美叫停以軍打擊伊朗油庫(kù) 以軍"打擊規(guī)模遠(yuǎn)超美國(guó)預(yù)期"

體育要聞

郭艾倫重傷,CBA下半賽季還能期待些什么

娛樂(lè)要聞

楊冪連續(xù)五年為劉詩(shī)詩(shī)慶生,劉詩(shī)詩(shī)回應(yīng)

財(cái)經(jīng)要聞

喚醒10萬(wàn)億存量資金 公積金改革大潮來(lái)了

汽車要聞

蓮花糾偏, 馮擎峰的“收”與“守”

態(tài)度原創(chuàng)

本地
旅游
藝術(shù)
家居
公開課

本地新聞

這檔韓國(guó)玄學(xué)綜藝,讓多少人看得頭皮發(fā)麻

旅游要聞

服務(wù)消費(fèi)新標(biāo)桿|尋夢(mèng)滄海沉浸式演藝點(diǎn)亮青島文旅新圖景

藝術(shù)要聞

這組剪紙?zhí)懒耍?/h3>

家居要聞

中式風(fēng)格 人間朝與暮

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版