国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

英偉達拿出推理版VLA:Alpamayo-R1讓自動駕駛AI更會動腦子

0
分享至



一、自動駕駛的瓶頸:「看」得見,卻「想」不明白

當今自動駕駛模型越來越強大,攝像頭、雷達、Transformer 網(wǎng)絡一齊上陣,似乎什么都「看得見」。但真正的挑戰(zhàn)在于:模型能否像人一樣「想明白」為什么要這么開?

傳統(tǒng)的端到端(E2E)系統(tǒng)雖然能從感知到控制一氣呵成,卻常在「長尾場景」翻車 —— 比如:

  • 迎面來車違規(guī)左轉(zhuǎn);
  • 行人突然闖入;
  • 臨時施工、交通標志被遮擋。

這些「極少數(shù)但容易發(fā)生事故」的場景正是當前系統(tǒng)的盲點。

二、Alpamayo-R1:給模型裝上「推理鏈條」

NVIDIA Research 推出的Alpamayo-R1(AR1),是一種全新的帶有推理能力的視覺 - 語言 - 行動模型(Reasoning VLA),讓車輛不只是「執(zhí)行指令」,而是能在決策前「推理出因果關(guān)系」。



圖 1:Alpamayo-R1 模型架構(gòu)(示意)

AR1 的核心創(chuàng)新有三個方面:

1. Chain of Causation(因果鏈)數(shù)據(jù)集

AR1 引入了一套全新的數(shù)據(jù)標注體系:每一段駕駛數(shù)據(jù)不僅有「做了什么」,還有 「為什么這樣做」。例如:「減速并左變道,是因為前方有助動車等紅燈,且左側(cè)車道空閑?!?/p>



圖 2:因果鏈(CoC)標注示例

2. Diffusion-based Trajectory Decoder(擴散式軌跡解碼器)

AR1 引入了一種基于擴散模型的軌跡解碼器,它能在實時約束下生成連續(xù)、動態(tài)可行的駕駛軌跡。該模塊結(jié)合語言推理輸出與物理約束,實現(xiàn)從推理到控制的無縫銜接。

3. Multi-Stage Training(多階段訓練策略)

AR1 是基于 NVIDIA 的 Cosmos Reason 模型,這是一種專為物理 AI(Physical AI)設計的推理視覺語言模型;并采用多階段訓練策略:首先在大規(guī)模駕駛數(shù)據(jù)上做模態(tài)注入,學習從視覺到動作的基本映射;第二階段在 CoC 因果鏈數(shù)據(jù)上做監(jiān)督微調(diào),顯式教會模型「先想清楚再開」;最后通過強化學習(RL)進一步優(yōu)化推理質(zhì)量、推理 - 行動一致性和軌跡安全性。

這種分階段、分目標的訓練流程,使得模型在開放場景、長尾危險場景中都表現(xiàn)的更加穩(wěn)健。

三、性能飛躍:更穩(wěn)、更準、更懂你

在實驗中,AR1 為以下性能帶來了顯著提升:

  • 規(guī)劃精度提升 12%
  • 越界率降低 35%
  • 近碰率降低 25%
  • 推理 - 行動一致性提升 37%
  • ? 實時性能:99 ms 端到端延遲

更重要的是,這些提升主要體現(xiàn)在以往最容易出錯的「長尾場景」中 —— 也就是說,它更接近「真正會判斷的司機」。

四、Vision Encoding:高效多相機時序感知

AR1 的輸入由多相機、多時序觀測幀組成,同時可以選配高層語言輸入(如導航指令或駕駛目標)。所有輸入(包括歷史自車運動)會被統(tǒng)一編碼成多模態(tài) token 序列,按時序和傳感器順序排列,再送入主干模型 Cosmos-Reason 進行推理與預測。

在這一過程中:

  • 每個相機視角先經(jīng)過輕量級 CNN 與時間注意力模塊做特征壓縮與時序建模;
  • 多相機特征隨后融合為 BEV(鳥瞰圖)表征;
  • 所有模態(tài)(圖像、導航文本、自車狀態(tài))被 token 化后統(tǒng)一輸入 Transformer;
  • 模型的輸出包含三類 token:推理鏈(reasoning traces)、中層動作(meta-actions)與未來軌跡預測(trajectories)。

這種統(tǒng)一編碼方式讓模型具備了多模態(tài)語義理解與運動狀態(tài)感知的「一體化」能力。

五、數(shù)據(jù)的靈魂:結(jié)構(gòu)化標注的革命

AR1 的 CoC 數(shù)據(jù)集采用「人機協(xié)同標注」機制:

  • 人工部分:標注關(guān)鍵幀、核心因果因素(如紅燈、行人、障礙物),并撰寫推理鏈。
  • 自動部分:通過 GPT-5 等大模型自動生成初版推理,再由人類審查。
  • 質(zhì)量審核:每條樣本通過因果覆蓋、因果正確性、近因優(yōu)先等四項規(guī)則嚴格把關(guān)。

最終形成數(shù)十萬條高質(zhì)量推理 - 行動樣本,使 VLA 模型能真正「理解因果,而非記憶現(xiàn)象」。



圖 3:CoC 數(shù)據(jù)標注流程示意圖

六、Multi-Stage Training:從常識推理到行為控制

Alpamayo-R1 的訓練分為三個階段,旨在讓模型從「看懂」到「會想」再到「能開」。



圖 4: AR1 訓練流程示意圖

1. 監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)

基于 Cosmos-Reason 的預訓練權(quán)重進行微調(diào)。該主干模型原本在 370 萬條 VQA 數(shù)據(jù)上后訓練(post-training),其中包括 2.47 萬條專為駕駛設計的視頻樣本,帶有場景描述、駕駛難度和推理軌跡標注,幫助模型建立「物理常識」和 「因果直覺」。

此外還構(gòu)建了額外的 10 萬條駕駛樣本,標注關(guān)鍵目標、交通信號、因果行為解釋等信息,用于領(lǐng)域自適應微調(diào)。

2. 因果鏈監(jiān)督階段(CoC Supervision)

引入 CoC 因果鏈數(shù)據(jù)集,顯式監(jiān)督模型的推理輸出,使其能回答「為什么要減速」、「為什么左轉(zhuǎn)」。這一階段通過人工 + 教師模型(如 GPT-5)生成高質(zhì)量推理樣本,使模型在策略學習前先獲得強大的語言 - 推理能力。

3. 強化學習后訓練優(yōu)化(Reinforcement Learning based Post-Training)。

在最終階段,英偉達通過強化學習對模型進行策略微調(diào),以進一步提升其在推理精準性、推理–行動一致性、軌跡平滑性以及閉環(huán)控制穩(wěn)定性等方面的表現(xiàn)。

Alpamayo-R1 引入了多維度獎勵機制:包括由專家級推理模型提供的反饋信號,用于評估并引導模型生成更具因果邏輯的推理;「推理–行動一致性(Reasoning–Action Consistency)」獎勵,用于鼓勵模型依據(jù)自身推理合理執(zhí)行動作;以及底層安全獎勵,用以促進模型生成更加安全、平滑且可執(zhí)行的運動軌跡。

七、未來展望:邁向可解釋的 L4 自動駕駛

AR1 的設計理念可以看作是自動駕駛從「黑箱」到「白箱」的轉(zhuǎn)折點。

它不再只是一個會開車的 AI,而是一個能告訴你「為什么這樣開」的駕駛員。

? 小結(jié):讓自動駕駛「有理可講」

Alpamayo-R1 的意義不止在性能提升,更在于:它讓 AI 的「推理鏈」與物理世界的「行動鏈」形成真正的閉環(huán)。

當車輛能解釋自己的每一個決策時,才能確保更加安全,信任與普及才會得以實現(xiàn)。

一句話總結(jié):AR1 = 會開車 + 會思考 + 會解釋的自動駕駛模型。

詳細內(nèi)容請查看:https://research.nvidia.com/publication/2025-10_alpamayo-r1

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
43歲香港過氣艷星官宣生子!嫁山東農(nóng)村小伙,提前倆月回香港生娃

43歲香港過氣艷星官宣生子!嫁山東農(nóng)村小伙,提前倆月回香港生娃

嫹筆牂牂
2026-01-30 07:31:14
1952年,88歲齊白石將25歲新鳳霞拉進屋:柜子里都是錢,你隨便拿

1952年,88歲齊白石將25歲新鳳霞拉進屋:柜子里都是錢,你隨便拿

興趣知識
2025-12-31 18:24:12
伊朗最高領(lǐng)袖確認遇襲!一文看懂周一開盤,錢會往哪逃、往哪沖?

伊朗最高領(lǐng)袖確認遇襲!一文看懂周一開盤,錢會往哪逃、往哪沖?

匯通網(wǎng)
2026-03-01 10:43:20
伊朗的麥當勞,到底有多假?

伊朗的麥當勞,到底有多假?

不相及研究所
2026-02-28 22:11:46
萬億級央企區(qū)域總部落地重慶后,密集考察調(diào)研多個區(qū)縣!

萬億級央企區(qū)域總部落地重慶后,密集考察調(diào)研多個區(qū)縣!

小蜜情感說
2026-02-28 11:38:09
電影圈巨震!《哪吒2》出品公司業(yè)務轉(zhuǎn)型,電影成為過去式

電影圈巨震!《哪吒2》出品公司業(yè)務轉(zhuǎn)型,電影成為過去式

光影新天地
2026-02-28 14:33:05
為了巴結(jié)英日,撕毀中國百億投資項目,被耍后還想和中國再續(xù)前緣

為了巴結(jié)英日,撕毀中國百億投資項目,被耍后還想和中國再續(xù)前緣

流史歲月
2026-02-26 16:45:04
跑10萬公里,才明白1.5T和2.0L這么大的差距,車主:為啥早不說?

跑10萬公里,才明白1.5T和2.0L這么大的差距,車主:為啥早不說?

復轉(zhuǎn)這些年
2026-01-27 10:46:20
馬筱梅贏麻了!張?zhí)m20萬紅包只是配菜,這張“入場券”才是王炸

馬筱梅贏麻了!張?zhí)m20萬紅包只是配菜,這張“入場券”才是王炸

樂悠悠娛樂
2026-03-01 10:08:39
日版《水滸傳》開播,看得我臉都紅了

日版《水滸傳》開播,看得我臉都紅了

i書與房
2026-02-26 14:51:41
直到看清黃志忠如今的處境,才明白“消失”的柯藍有多么精明!

直到看清黃志忠如今的處境,才明白“消失”的柯藍有多么精明!

曉踏就是我
2026-02-27 20:07:34
球員因破齋暫停比賽被噓?瓜帥:英超允許暫停,這有問題嗎

球員因破齋暫停比賽被噓?瓜帥:英超允許暫停,這有問題嗎

懂球帝
2026-03-01 04:41:23
伊朗第七輪導彈射向以色列

伊朗第七輪導彈射向以色列

界面新聞
2026-02-28 20:30:44
隨著孫穎莎4-2,王曼昱4-2,新加坡大滿貫女單4強出爐,對陣如下

隨著孫穎莎4-2,王曼昱4-2,新加坡大滿貫女單4強出爐,對陣如下

侃球熊弟
2026-02-28 21:13:23
知名脫口秀演員因發(fā)布挑動性別對立、制造婚育焦慮信息被禁言

知名脫口秀演員因發(fā)布挑動性別對立、制造婚育焦慮信息被禁言

大象新聞
2026-02-27 20:37:03
多國譴責美以襲擊伊朗

多國譴責美以襲擊伊朗

財聯(lián)社
2026-03-01 10:57:05
驚人相似!美重演伊拉克戰(zhàn)爭劇本?

驚人相似!美重演伊拉克戰(zhàn)爭劇本?

上觀新聞
2026-02-28 06:49:08
勇士得到波爾津吉斯才發(fā)現(xiàn):麻煩才剛剛開始

勇士得到波爾津吉斯才發(fā)現(xiàn):麻煩才剛剛開始

夜白侃球
2026-02-28 17:45:02
一點點回應爭議:手表由親戚購買,男孩家里確實困難

一點點回應爭議:手表由親戚購買,男孩家里確實困難

映射生活的身影
2026-03-01 11:09:11
華南五虎全軍覆沒!從叱咤風云到集體沉淪,一場跨越二十年的地產(chǎn)大敗局

華南五虎全軍覆沒!從叱咤風云到集體沉淪,一場跨越二十年的地產(chǎn)大敗局

阿離家居
2026-02-24 15:32:27
2026-03-01 11:43:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

伊朗伊斯蘭革命衛(wèi)隊總司令身亡

頭條要聞

伊朗伊斯蘭革命衛(wèi)隊總司令身亡

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

《江山為聘》:吳謹言陳哲遠燃炸朝堂

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

小米汽車2月交付超20000臺 雷軍:為新SU7量產(chǎn)作準備

態(tài)度原創(chuàng)

房產(chǎn)
旅游
本地
教育
軍事航空

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

旅游要聞

春節(jié)假期珠峰景區(qū)游客量創(chuàng)新高

本地新聞

津南好·四時總相宜

教育要聞

稅務專業(yè)別選錯!精準定位財政學類

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實時戰(zhàn)況

無障礙瀏覽 進入關(guān)懷版