国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

世界引擎:Post-Training開啟Physical AGI新紀(jì)元

0
分享至



一年前,DeepSeek R1 橫空出世,人們才意識到,真正讓模型產(chǎn)生推理能力質(zhì)變的,不必是更大的預(yù)訓(xùn)練規(guī)模 —— 后訓(xùn)練,用強(qiáng)化學(xué)習(xí)、過程獎(jiǎng)勵(lì)、閉環(huán)反饋,以極低的代價(jià)解鎖了原本需要數(shù)倍算力才能觸達(dá)的能力邊界。
這場范式革命,正在物理世界重演。
自動(dòng)駕駛系統(tǒng)已經(jīng)在海量駕駛數(shù)據(jù)上完成了預(yù)訓(xùn)練,但距離真正的 Physical AGI,仍有一道鴻溝:模型知道 "該怎么開",卻不知道「為什么這樣開更好」。真正的進(jìn)化,需要閉環(huán)、需要反饋、需要在與世界的交互中不斷修正。
香港大學(xué)李弘揚(yáng)團(tuán)隊(duì)聯(lián)合華為、上海創(chuàng)智學(xué)院給出了他們的答案 —— 世界引擎:以后訓(xùn)練為核心范式,以閉環(huán)仿真為訓(xùn)練環(huán)境,驅(qū)動(dòng)自動(dòng)駕駛系統(tǒng)在海量真實(shí)與合成場景的交互中,涌現(xiàn)出真正的決策能力。



  • 代碼地址:https://github.com/OpenDriveLab/WorldEngine
  • 主頁:https://opendrivelab.com/WorldEngine/

作為自動(dòng)駕駛領(lǐng)域的重要學(xué)術(shù)力量,2022 年底,OpenDriveLab 推出UniAD—— 第一個(gè)將感知、預(yù)測、規(guī)劃統(tǒng)一在單一框架下的端到端系統(tǒng),以「規(guī)劃為中心」重新定義了自動(dòng)駕駛的建模范式,成為學(xué)術(shù)界公認(rèn)的里程碑。

但 UniAD 之后,一個(gè)更深的問題浮出水面:端到端系統(tǒng)在學(xué)術(shù) benchmark 上表現(xiàn)優(yōu)異,真實(shí)世界卻是另一回事。

雨夜里逆行的電動(dòng)車,施工路段突然倒下的錐桶,大客車后方的鬼探頭 —— 這些長尾場景,在訓(xùn)練數(shù)據(jù)里幾乎不存在??扛蟮臄?shù)據(jù)集、更深的網(wǎng)絡(luò),無法根本性地解決。

OpenDriveLab 開始從兩個(gè)方向同時(shí)推進(jìn)。一方面,MTGS 通過多次遍歷的 3D 高斯?jié)姙R技術(shù),構(gòu)建出高保真的可渲染駕駛場景 —— 這是閉環(huán)仿真的物理基礎(chǔ)。另一方面,Nexus、Omega 等世界模型工作聚焦于反事實(shí)難例高動(dòng)態(tài)交互模擬,突破真實(shí)數(shù)據(jù)對長尾場景覆蓋的天然局限。

至此,一個(gè)核心問題自然浮現(xiàn):有了高保真仿真環(huán)境,有了能生成難例的世界模型,如何讓端到端系統(tǒng)真正在其中安全進(jìn)化?

答案,就是后訓(xùn)練

2025 年 4 月,華為發(fā)布 ADS 4.0,正式披露了全新技術(shù)架構(gòu) WEWA。其中云端核心World Engine,正是華為與 OpenDriveLab 聯(lián)合開發(fā)的成果。(https://auto.huawei.com/cn/ads)華為將這套架構(gòu)的目標(biāo)定義為:面向自動(dòng)駕駛,從類人到超人。

World Engine,由此登場。

World Engine:邁向物理 AI 的后訓(xùn)練時(shí)代

如果說預(yù)訓(xùn)練讓自動(dòng)駕駛系統(tǒng)學(xué)會了「模仿」,那后訓(xùn)練要解決的,是如何讓系統(tǒng)學(xué)會「判斷」。

World Engine 的設(shè)計(jì)哲學(xué),正是圍繞這一目標(biāo)展開。它不是一個(gè)單一模型,而是一套完整的后訓(xùn)練 pipeline,由三個(gè)核心能力構(gòu)成:

  • 3DGS 仿真環(huán)境—— 基于 3DGS 構(gòu)建的高保真視覺輸入,為后訓(xùn)練提供了真正意義上的閉環(huán)反饋。系統(tǒng)的每一個(gè)決策,都能在環(huán)境中得到即時(shí)響應(yīng),而不是停留在數(shù)據(jù)回放。
  • 難例挖掘 & 擴(kuò)散生成—— 真實(shí)世界的長尾場景稀缺且難以復(fù)現(xiàn)。World Engine 首先從海量真實(shí)駕駛數(shù)據(jù)中主動(dòng)挖掘難例,再以世界模型為工具,對這些難例進(jìn)行擴(kuò)散生成后,依托仿真環(huán)境進(jìn)行渲染,放大長尾場景的密度與多樣性,讓系統(tǒng)在訓(xùn)練中「見過」它在路上可能遇到的一切。
  • 基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練——World Engine 在仿真生成的大規(guī)模難例場景上,以強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)系統(tǒng)優(yōu)化,將安全價(jià)值規(guī)范內(nèi)化為獎(jiǎng)勵(lì)信號,讓系統(tǒng)不只是「開得快」,更是「開得對」。

三者協(xié)同,構(gòu)成了一個(gè)完整的飛輪:仿真生成難例,難例驅(qū)動(dòng)后訓(xùn)練,后訓(xùn)練強(qiáng)化決策能力。



圖 1 World Engine 架構(gòu)總覽

從暴露弱點(diǎn)到超越弱點(diǎn)

三個(gè)模塊,一套飛輪。

難例挖掘與擴(kuò)散生成

World Engine 首先讓模型「自己暴露弱點(diǎn)」。將預(yù)訓(xùn)練好的端到端模型在訓(xùn)練集上做開環(huán)推理,以 PDMS 作為評判標(biāo)準(zhǔn),自動(dòng)篩選出模型表現(xiàn)差的場景 —— 碰撞、偏離道路、自車停滯不前。這些場景,就是模型的能力邊界所在。

挖掘出難例之后,World Engine 并不止步于此。行為世界模型(Behaviour World Model) 以解耦擴(kuò)散的方式,對這些難例場景進(jìn)行變體生成 —— 在保持真實(shí)地圖拓?fù)渑c場景布局的前提下,引入對抗性交通行為,批量合成高密度的安全關(guān)鍵場景。真實(shí)數(shù)據(jù)的長尾,由此被系統(tǒng)性地放大。



圖 2 難例擴(kuò)散生成典型 case

高保真閉環(huán)仿真

難例場景需要一個(gè)足夠真實(shí)的舞臺。World Engine 內(nèi)置了基于3DGS 的場景重建 pipeline—— 融合同一路段的多次真實(shí)駕駛記錄,構(gòu)建出扎根于真實(shí)世界的高保真三維場景。這不是憑空生成的虛擬沙盒,而是閉環(huán)訓(xùn)練的真實(shí)物理基礎(chǔ)。



圖 3 高保真閉環(huán)仿真效果圖

基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練

有了大規(guī)模難例數(shù)據(jù),World Engine 以離線強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)端到端模型持續(xù)優(yōu)化。獎(jiǎng)勵(lì)信號將舒適性、避障、道路合規(guī)等安全價(jià)值直接內(nèi)化為訓(xùn)練目標(biāo)。模型不再只是模仿人類駕駛員,而是在與難例的反復(fù)博弈中,學(xué)會真正的安全決策。



圖 4 navsim 測試難例集對比

World Engine 發(fā)現(xiàn)了什么?

數(shù)據(jù)量上做加法,不如在訓(xùn)練范式上做乘法



圖 5 驗(yàn)證 Data Scaling: 將預(yù)訓(xùn)練數(shù)據(jù)集場景數(shù)量從 12k 增廣至 103k 進(jìn)行對比

自動(dòng)駕駛行業(yè)有一個(gè)長期信仰:數(shù)據(jù)越多,模型越安全。World Engine 給出了一個(gè)更復(fù)雜的答案。

將預(yù)訓(xùn)練數(shù)據(jù)從 1.3 萬個(gè)場景一路擴(kuò)大到 10.3 萬個(gè),在日常駕駛場景上,scaling law 如期生效 —— 數(shù)據(jù)越多,表現(xiàn)越好。但在安全關(guān)鍵的長尾場景上,曲線很快躺平。原因并不意外:真實(shí)路測中危險(xiǎn)場景本就極度稀缺,堆再多常規(guī)數(shù)據(jù),模型在關(guān)鍵時(shí)刻依然束手無策。

數(shù)據(jù) scaling,在長尾場景這件事上,撞上了天花板。

World Engine 的后訓(xùn)練給出了另一條路徑:在仿真環(huán)境中以強(qiáng)化學(xué)習(xí)反復(fù)博弈難例場景,將避障、合規(guī)、舒適性直接編碼為優(yōu)化目標(biāo),同時(shí)確保系統(tǒng)不丟失預(yù)訓(xùn)練階段習(xí)得的基礎(chǔ)駕駛能力。從同一個(gè)基礎(chǔ)模型出發(fā),后訓(xùn)練直接跨越了 scaling 曲線,實(shí)現(xiàn)了等效于將預(yù)訓(xùn)練數(shù)據(jù)擴(kuò)大約 14 倍的閉環(huán)性能增益。

一塊都不能少

后訓(xùn)練有效,但增益從何而來?World Engine 對自身的三個(gè)核心模塊做逐一拆解。



圖 6 navsim 數(shù)據(jù)集上不同訓(xùn)練后范式對比

光喂數(shù)據(jù)沒用。拿到稀有場景數(shù)據(jù),模仿學(xué)習(xí)幾乎不改善閉環(huán)表現(xiàn)。模型學(xué)會了「照做」,沒學(xué)會「判斷」。強(qiáng)化學(xué)習(xí)才是那個(gè)開關(guān)。

練什么比怎么練更重要。同樣是強(qiáng)化學(xué)習(xí),在普通場景上練,閉環(huán)成功率反而下降 —— 就像一個(gè)學(xué)生只刷簡單題,考試遇到難題反而更慌。只有聚焦難例,能力才真正提升。

仿真不是有就行,得「活」起來。當(dāng)仿真里的其他車輛只是錄像回放,收益有限;當(dāng)它們開始對自車行為做出反應(yīng)、甚至主動(dòng)制造對抗,閉環(huán)成功率從 76% 一路拉到 89% 。World Engine 的行為世界模型,補(bǔ)上的正是這最后一環(huán)。

從仿真到路測:World Engine 的工業(yè)級答卷

學(xué)術(shù) benchmark 之外,World Engine 接受了一次更嚴(yán)苛的考驗(yàn) —— 華為 ADS 系統(tǒng)的工業(yè)級驗(yàn)證。

基礎(chǔ)模型在超過 8 萬小時(shí)真實(shí)駕駛數(shù)據(jù)上完成預(yù)訓(xùn)練,覆蓋全國 100 余座城市、逾千萬條駕駛片段。這已經(jīng)是一個(gè)極強(qiáng)的起點(diǎn)。World Engine 后訓(xùn)練在此基礎(chǔ)上繼續(xù)發(fā)力。

工業(yè)閉環(huán)仿真



圖 7 ADS 工業(yè)級閉環(huán)仿真結(jié)果對比

團(tuán)隊(duì)利用華為 ADS 的工業(yè)級閉環(huán)仿真平臺對后訓(xùn)練模型進(jìn)行了全面評估 —— 超過1 萬個(gè)測試場景,累計(jì)模擬駕駛里程逾3000 公里,全部為高密度交互的事件性場景,而非平淡的常規(guī)巡航。結(jié)果橫跨六項(xiàng)安全指標(biāo),全面改善,其中切入碰撞更是下降 45.5%。

實(shí)車路測

仿真之后,World Engine 走上了上海真實(shí)路面。測試路線涵蓋城市快速路與城區(qū)道路,總計(jì)約200 公里,重復(fù)測試三次完成。



圖 8 上海市內(nèi)高架測試路線



圖 9 上海市城區(qū)測試路線

測試覆蓋的場景,是城市駕駛中真正讓人驚出冷汗的時(shí)刻:夜間施工區(qū)的臨時(shí)改道、行人從視覺盲區(qū)橫穿、無保護(hù)左轉(zhuǎn)后的施工區(qū)。這些場景的共同特征是 —— 即便是經(jīng)驗(yàn)豐富的人類駕駛員,也需要高度集中注意力,稍有遲疑就可能出事。



典型實(shí)車場景 1



典型實(shí)車場景 2



典型實(shí)車場景 3

而 World Engine 后訓(xùn)練模型全程無需人工介入。

Post Training,不止于自動(dòng)駕駛

World Engine 的故事,從自動(dòng)駕駛出發(fā)。但它真正想回答的問題,遠(yuǎn)不止于此。

回到最核心的洞見:當(dāng)真實(shí)世界無法為你提供足夠的關(guān)鍵失敗場景時(shí),就主動(dòng)去創(chuàng)造它們。在這些失敗中反復(fù)博弈,在這些邊界上持續(xù)進(jìn)化。這個(gè)邏輯,和駕駛無關(guān) —— 它是所有 Physical AI 系統(tǒng)共同面臨的根本困境。

Physical AI 與數(shù)字 AI 最本質(zhì)的區(qū)別,在于不可逆性。語言模型說錯(cuò)一句話,刷新重來;推薦系統(tǒng)給錯(cuò)一個(gè)結(jié)果,下一次糾正。但物理世界里,機(jī)器人打碎了一個(gè)杯子,手術(shù)機(jī)器人劃錯(cuò)了一刀,自動(dòng)駕駛追尾了一輛車 —— 錯(cuò)誤已經(jīng)發(fā)生,無法撤銷。這意味著,Physical AI 必須在真正上線之前,就已經(jīng) "見過" 那些最危險(xiǎn)的時(shí)刻。

但現(xiàn)實(shí)是,這些最危險(xiǎn)的時(shí)刻,恰恰是最難收集的數(shù)據(jù)。

這些領(lǐng)域,和自動(dòng)駕駛面對的是同一個(gè)結(jié)構(gòu)性困境:最需要學(xué)習(xí)的場景,天然地缺席于訓(xùn)練數(shù)據(jù)。

World Engine 提供的范式正是針對這一困境的系統(tǒng)性回答。具體的技術(shù)實(shí)現(xiàn)會因領(lǐng)域而異:3DGS 渲染可以換成物理引擎或視頻世界模型,行為世界模型可以換成機(jī)械臂動(dòng)力學(xué)仿真或人體運(yùn)動(dòng)生成 —— 但核心邏輯不變:不被動(dòng)等待數(shù)據(jù),主動(dòng)生成經(jīng)驗(yàn);不只模仿人類,在與世界的博弈中涌現(xiàn)能力。

OpenDriveLab 正在將這條路延伸到更廣闊的具身智能領(lǐng)域。從端到端自動(dòng)駕駛出發(fā),走向能在物理世界中感知、推理、行動(dòng)、進(jìn)化的通用智能體 —— 這是具身智能研究的終極命題,也是 Physical AGI 真正的意涵所在。

自動(dòng)駕駛,是這場旅程的第一個(gè)戰(zhàn)場。

而 Post-Training,將是 Physical AGI 時(shí)代最重要的基礎(chǔ)設(shè)施之一。

項(xiàng)目作者簡介

World Engine 由香港大學(xué)助理教授、上海創(chuàng)智學(xué)院全時(shí)導(dǎo)師李弘揚(yáng)博士與華為蘇鵬博士共同擔(dān)任項(xiàng)目負(fù)責(zé)人,李天羽(上海創(chuàng)智學(xué)院)、陳立(香港大學(xué))、王曹?。ㄉ虾?chuàng)智學(xué)院)、劉浩晨(南洋理工大學(xué))為項(xiàng)目核心貢獻(xiàn)者,共同主導(dǎo)新范式的研究與實(shí)現(xiàn);蘇鵬博士團(tuán)隊(duì)從產(chǎn)業(yè)視角出發(fā),推動(dòng)技術(shù)的量產(chǎn)落地與應(yīng)用部署。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
珠海家長:自家孩子趴桌睡,憑啥先給別人捐躺椅?官方回應(yīng)

珠海家長:自家孩子趴桌睡,憑啥先給別人捐躺椅?官方回應(yīng)

南方都市報(bào)
2026-04-17 15:48:13
李雨桐泄露薛之謙手機(jī)號、身份證號,被北京朝陽警方行政拘留

李雨桐泄露薛之謙手機(jī)號、身份證號,被北京朝陽警方行政拘留

封面新聞
2026-04-19 18:38:11
五大聯(lián)賽首冠誕生!拜仁提前4輪奪冠,孔帕尼兩連冠,連刷10紀(jì)錄

五大聯(lián)賽首冠誕生!拜仁提前4輪奪冠,孔帕尼兩連冠,連刷10紀(jì)錄

奧拜爾
2026-04-20 01:27:03
沒有不透風(fēng)的墻!沈騰和林允的瓜未必是假的、站姐關(guān)站跑路

沒有不透風(fēng)的墻!沈騰和林允的瓜未必是假的、站姐關(guān)站跑路

琴聲飛揚(yáng)
2026-01-20 14:25:10
基輔發(fā)生大規(guī)模槍擊事件,數(shù)十名平民死傷,兇手疑似與俄羅斯有關(guān)

基輔發(fā)生大規(guī)模槍擊事件,數(shù)十名平民死傷,兇手疑似與俄羅斯有關(guān)

鷹眼Defence
2026-04-19 12:11:43
醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
英超天王山戰(zhàn):曼城2比1阿森納,多納魯馬超巨失誤送禮,謝爾基、哈蘭德建功

英超天王山戰(zhàn):曼城2比1阿森納,多納魯馬超巨失誤送禮,謝爾基、哈蘭德建功

足球報(bào)
2026-04-20 01:33:26
胡錫進(jìn)以安全代言沃爾沃,是整個(gè)社會的恥辱

胡錫進(jìn)以安全代言沃爾沃,是整個(gè)社會的恥辱

黔有虎
2026-04-19 17:34:12
中國“撿錢”時(shí)代可能要來了:若手中只有10萬,試試死啃這兩條線

中國“撿錢”時(shí)代可能要來了:若手中只有10萬,試試死啃這兩條線

奇思妙想生活家
2026-04-09 07:49:40
正式退出,杜蘭特發(fā)聲,官宣決定,原因曝光,名帥透露火箭隊(duì)批準(zhǔn)

正式退出,杜蘭特發(fā)聲,官宣決定,原因曝光,名帥透露火箭隊(duì)批準(zhǔn)

漫川舟船
2026-04-19 17:02:18
英超變天!阿森納奪冠概率跌至44% 1個(gè)月狂跌近5成 或3天后丟榜首

英超變天!阿森納奪冠概率跌至44% 1個(gè)月狂跌近5成 或3天后丟榜首

我愛英超
2026-04-20 02:12:00
隨著63歲穆帥率隊(duì)2-1掀翻爭冠勁敵,葡超最新積分榜出爐

隨著63歲穆帥率隊(duì)2-1掀翻爭冠勁敵,葡超最新積分榜出爐

側(cè)身凌空斬
2026-04-20 03:24:02
悲哀!10人小群里剩自己“干凈”,30歲女生稱身體忠于丈夫被孤立

悲哀!10人小群里剩自己“干凈”,30歲女生稱身體忠于丈夫被孤立

火山詩話
2026-04-19 07:13:36
嚴(yán)肅辟謠:小鵬 GX沒有抄襲路虎攬勝!

嚴(yán)肅辟謠:小鵬 GX沒有抄襲路虎攬勝!

車市博覽
2026-04-19 16:06:34
李雨桐被拘!官方下場,曾自曝背后靠山大,拘留10天,逾期還罰款

李雨桐被拘!官方下場,曾自曝背后靠山大,拘留10天,逾期還罰款

離離言幾許
2026-04-19 17:49:44
隨著曼城2-1阿森納,利物浦2-1,維拉4-3,英超最新積分榜出爐

隨著曼城2-1阿森納,利物浦2-1,維拉4-3,英超最新積分榜出爐

側(cè)身凌空斬
2026-04-20 01:29:49
寵物食品品牌“誠實(shí)一口”翻車,創(chuàng)始人深夜致歉!其公司注冊資本3年增長137倍

寵物食品品牌“誠實(shí)一口”翻車,創(chuàng)始人深夜致歉!其公司注冊資本3年增長137倍

半島官網(wǎng)
2026-04-18 05:58:14
世錦賽戰(zhàn)報(bào):丁俊暉王者歸來7-2領(lǐng)先,中國冠軍連輸6局6-10一輪游

世錦賽戰(zhàn)報(bào):丁俊暉王者歸來7-2領(lǐng)先,中國冠軍連輸6局6-10一輪游

球場沒跑道
2026-04-19 20:28:00
中俄關(guān)系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

中俄關(guān)系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

看看新聞Knews
2026-04-19 08:36:10
美尖端領(lǐng)域10人接連死亡,美前高官:FBI調(diào)查或發(fā)現(xiàn)“難以置信的離奇情況”

美尖端領(lǐng)域10人接連死亡,美前高官:FBI調(diào)查或發(fā)現(xiàn)“難以置信的離奇情況”

紅星新聞
2026-04-19 15:48:10
2026-04-20 04:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

旅游
家居
房產(chǎn)
公開課
軍事航空

旅游要聞

北京投入2.2億元建成和田“三館一院”

家居要聞

法式線條 時(shí)光靜淌

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!??跇鞘?,突然殺入神秘房企!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無障礙瀏覽 進(jìn)入關(guān)懷版