国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

對話任少卿:2025 NeurIPS 時(shí)間檢驗(yàn)獎(jiǎng)背后,我的學(xué)術(shù)與產(chǎn)業(yè)觀

0
分享至



NeurIPS,被譽(yù)為「AI界的奧斯卡」,是人工智能領(lǐng)域的全球年度風(fēng)向標(biāo)。

作者 | 馬廣宇

編輯 | 李雨晨

12月4日,任少卿、何愷明、羅斯·吉爾??耍≧oss Girshick)、孫劍憑借“Faster R-CNN ”(快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)架構(gòu))榮獲2025年神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS)時(shí)間檢驗(yàn)獎(jiǎng)。

NeurIPS(神經(jīng)信息處理系統(tǒng)大會(huì)),是人工智能與機(jī)器學(xué)習(xí)領(lǐng)域最具影響力的國際頂級(jí)學(xué)術(shù)會(huì)議,在AI學(xué)科領(lǐng)域排名第一,被譽(yù)為“AI界的奧斯卡”,是人工智能領(lǐng)域的全球年度風(fēng)向標(biāo)。

NeurIPS時(shí)間檢驗(yàn)獎(jiǎng)是人工智能領(lǐng)域最具影響力的獎(jiǎng)項(xiàng)之一,專門表彰經(jīng)過十年時(shí)間檢驗(yàn)、對學(xué)科發(fā)展產(chǎn)生深遠(yuǎn)影響的奠基性工作。

過去三年,該獎(jiǎng)項(xiàng)授予包括諾貝爾獎(jiǎng)得主杰弗里·辛頓(Geoffrey Hinton)、圖靈獎(jiǎng)得主約書亞·本吉奧(Yoshua Bengio)、OpenAI聯(lián)合創(chuàng)始人兼首席科學(xué)家伊爾亞·蘇茨克維(Ilya Sutskever)等在內(nèi)的國際頂尖學(xué)者。

“Faster R-CNN ”是在2015年由中國學(xué)者任少卿、何愷明、孫劍主導(dǎo),聯(lián)合美國人工智能科學(xué)家羅斯·吉爾??耍≧oss Girshick)共同發(fā)表,這一新型網(wǎng)絡(luò)架構(gòu)能將物體檢測效率提升10倍以上,首次開創(chuàng)了端到端實(shí)時(shí)精準(zhǔn)目標(biāo)的檢測模式。

目前,這一文章已經(jīng)被學(xué)術(shù)引用超9.8萬次,第一作者任少卿,是華人作為第一作者在該會(huì)議上發(fā)表的學(xué)術(shù)引用量最高的文章,同時(shí)也是AI檢測領(lǐng)域全球最高被引論文。

十多年的時(shí)間,這一模型的核心思想已經(jīng)被深度融入到人工智能的基礎(chǔ)技術(shù)基因當(dāng)中,并成為了驅(qū)動(dòng)自動(dòng)駕駛、醫(yī)療影像、安防監(jiān)控、工業(yè)檢測、衛(wèi)星遙感等國計(jì)民生和經(jīng)濟(jì)發(fā)展關(guān)鍵領(lǐng)域的核心。

任少卿與Faster R-CNN中的合作者何愷明(現(xiàn)MIT副教授)、孫劍(前曠視科技首席科學(xué)家)有著緊密的合作關(guān)系,此前還發(fā)表過深度殘差網(wǎng)絡(luò)框架ResNet,該文章已經(jīng)成為21世紀(jì)全球最高被引論文。

在任少卿獲獎(jiǎng)之前,雷峰網(wǎng)曾在2025年下半年與其進(jìn)行了深度對話,雷峰網(wǎng)作了不改變原意的編輯:

PART 1

任少卿與孫劍、何愷明的故事

雷峰網(wǎng):孫劍老師是您的導(dǎo)師,當(dāng)時(shí)有過什么事情讓您印象深刻?

任少卿:我印象深刻的是,孫劍老師當(dāng)時(shí)比較堅(jiān)持“simple but work”,真正認(rèn)可并理解這件事是一個(gè)循序漸進(jìn)的過程,也是日常交流中慢慢形成的共識(shí),比如看別人的工作、討論paper、組內(nèi)評審paper時(shí),孫老師會(huì)給一些深刻的指導(dǎo),逐漸我也理解到了“simple but work”。


孫劍

實(shí)際上我當(dāng)時(shí)寫的第一篇paper就不太simple,雖然是熬了很多個(gè)夜寫完,但到最后還是決定不投了。當(dāng)然現(xiàn)在回頭看,那個(gè)paper基本上就是在別人的工作上做做a+b,確實(shí)沒太大的意義。

“Simple but work”實(shí)際上是跟孫老師的邏輯和理念相關(guān)的,這是一個(gè)挺難的追求。只能說做一些更核心的事,就需要更好的遠(yuǎn)見,更好的品位,以及堅(jiān)持,這三個(gè)東西缺一個(gè)都不行。

(孫劍是國內(nèi)AI頂級(jí)峰會(huì) GAIR 2017、2018、2019的三屆講者。在會(huì)場間隙,孫劍對觀眾分享了獲獎(jiǎng)?wù)撐?Faster R-CNN 的理解與靈感。)

雷峰網(wǎng):您覺得何愷明對你的最大影響是什么?你們合作得怎么樣?

任少卿:其實(shí)因?yàn)槲覀兒献鞯臅r(shí)間最長。每天早上到公司,先看看結(jié)果,接著就一起開始交流,從 11 點(diǎn)開始,到 12 點(diǎn)吃飯,吃飯時(shí)繼續(xù)討論,到下午 2 點(diǎn)開始各自干活,然后下午5點(diǎn)又開始討論,然后吃晚飯,這個(gè)節(jié)奏會(huì)讓我們很開心,因?yàn)槊刻於加行碌膶?shí)驗(yàn)結(jié)果在推動(dòng)和交流。那時(shí)候深度學(xué)習(xí)也才剛開始,一個(gè)小團(tuán)隊(duì)這樣去看其實(shí)效率很高。

何愷明非常專注,他基本上不想別的事兒,只關(guān)注現(xiàn)在的這些研究問題,怎么創(chuàng)新,我覺得他幾乎 100% 的精力都在這上。

他在微軟亞洲研究院的時(shí)候,就住在旁邊一棟樓,走路一分鐘,兩分鐘都不要。

何愷明是很善于找方向、找到問題,然后找突破的學(xué)者,他花了巨量的時(shí)間在上面,然后去建立相應(yīng)的思維的架構(gòu),只有有思維架構(gòu)才能去找相應(yīng)的突破。


何愷明

雷峰網(wǎng):那時(shí)候選擇深度學(xué)習(xí),大家都還堅(jiān)決嗎?為什么覺得這是個(gè)方向?

任少卿:肯定是先試,看到了可能性之后才去堅(jiān)持。

為什么是這個(gè)方向,第一個(gè)邏輯是,從方法的角度來說,它有創(chuàng)新,看到了新的可能性。第二是當(dāng)時(shí)已經(jīng)有一些結(jié)果和進(jìn)展了。第三是拿這個(gè)復(fù)現(xiàn),能看到結(jié)果不是trick的,而是有一定泛化能力的結(jié)果。這些東西都有了之后,我們和業(yè)界才看到了可能性。

一個(gè)新方向首先上限要高,其次現(xiàn)在已經(jīng)達(dá)到的結(jié)果是真的,這不是一個(gè)trick,或者不是只在某一個(gè)小范圍內(nèi)work的東西。這幾個(gè)點(diǎn)都驗(yàn)證了之后,那其實(shí)就認(rèn)為這個(gè)方向是可擴(kuò)展的。

雷峰網(wǎng):Faster R-CNN到底解決了AI領(lǐng)域的什么問題?

任少卿:Faster R-CNN用今天的詞,解決的是自動(dòng)駕駛端到端的問題。今天大家說端到端,就是因?yàn)樽詣?dòng)駕駛的任務(wù),之前是拆成一節(jié)一節(jié)的,就叫作感知、規(guī)劃、控制。而在物體檢測這個(gè)任務(wù)上,之前也沒有一個(gè)能一體化的解決方案,要把它分成兩步,或者三步。

這兩步是什么呢?第一步,要在圖像上去找一些可能的candidate,然后再去對這些candidate做分類。理論上每張圖如果窮舉,其實(shí)有百萬種以上的選擇。第二步,每個(gè)框都去判斷一下里面是不是有物體,這個(gè)計(jì)算量很大。所以之前的物體檢測的做法是分為兩步,與之前的自動(dòng)駕駛一樣。

Faster R-CNN解決的,就是一個(gè)網(wǎng)絡(luò)直出,按今天的話說就是端到端,端到端解決什么問題呢?首先它的效率變高了,之前的檢測器,可能一秒鐘、兩秒鐘、三秒鐘才能刷一張圖。Faster R-CNN之后,變成了一個(gè)實(shí)時(shí)的10Hz、20Hz、30Hz這樣的狀態(tài)。實(shí)時(shí)對于應(yīng)用就很不一樣了,它就能開始處理視頻,這是對產(chǎn)業(yè)最大的一個(gè)突破。那其次因?yàn)樗说蕉?,端到端之后就快、延遲就低,所以實(shí)際上效果就提升了。所以Faster R-CNN本質(zhì)上是解決了物體檢測任務(wù)的端到端。

PART 2

加入蔚來:從零開始的團(tuán)隊(duì)和自研芯片

雷峰網(wǎng):您是什么時(shí)候加入的蔚來,當(dāng)時(shí)主要做了什么事?彼時(shí)蔚來又處于什么樣的階段?

任少卿:我大概是2020年8月十幾號(hào)入職,那個(gè)時(shí)候就是先搭團(tuán)隊(duì)。

蔚來第一代車是Mobileye方案。到了20年前后,實(shí)際上有兩個(gè)爭論。第一個(gè)爭論是L2和L4到底有多大差異,有個(gè)說法是L2永遠(yuǎn)做不了L4;第二個(gè)是要不要全棧自研,當(dāng)時(shí)蔚來的選擇是全棧自研L2的產(chǎn)品,支持L3和L4。

當(dāng)時(shí)我們決定了全棧自研,然后再去選芯片,看哪個(gè)芯片是靠譜的、能用的。從2020年8月到2020年底,開始建團(tuán)隊(duì),核心的人四五個(gè)月都到位,到七八個(gè)月的時(shí)候,團(tuán)隊(duì)就算比較到位了。急著干活的一個(gè)原因是時(shí)間:我們要量產(chǎn)的車是2022年3月份,而2020年8月由于方案都不同了,我們幾乎一切從“零”開始,集群、標(biāo)注、工具鏈這些當(dāng)時(shí)都沒有。

在組建團(tuán)隊(duì)的同時(shí),我們也在并行選芯片,與英偉達(dá)合作,Orin芯片我們提前量產(chǎn)了半年。最終蔚來全球首個(gè)量產(chǎn),也是截止到今天車上最復(fù)雜的一套ADC(自動(dòng)駕駛域控制器)架構(gòu),所以那一年多很有意思。

雷峰網(wǎng):當(dāng)時(shí)選擇Orin是一件很有挑戰(zhàn)性的事?

任少卿:我入職的時(shí)候是2020年8月,2022年3月量產(chǎn)在中國的Orin方案,半年之后量產(chǎn)歐洲的方案,而蔚來的第二代車,是全球第一個(gè)量產(chǎn)Orin芯片,同時(shí)也是全球第一個(gè)量產(chǎn)高線束激光雷達(dá)的車型,所有的事情都是并行做的,當(dāng)時(shí)的挑戰(zhàn)就很大。

對于蔚來來說,干了三件一般人不敢干的事。第一代車Mobileye的EyeQ4方案,全球第一個(gè)量產(chǎn),第一個(gè)量產(chǎn)要踩很多坑。第二代就是全球首個(gè)量產(chǎn)英偉達(dá)Orin方案,還搞了4個(gè)芯片,是最復(fù)雜的一個(gè)架構(gòu)。第三代是自研芯片量產(chǎn)。所以每一代的量產(chǎn),都是非常大的挑戰(zhàn),斌哥有意愿、有信念去做這件事。

所以蔚來相應(yīng)的量產(chǎn)、對于新的芯片適配和調(diào)整的團(tuán)隊(duì),應(yīng)該是世界頂尖的,因?yàn)闆]有人連著干過這幾件事。

雷峰網(wǎng):Orin那時(shí)候什么問題比較多?

任少卿:當(dāng)時(shí)Orin是一個(gè)新的芯片,對英偉達(dá)也只是第二代量產(chǎn),新的芯片就會(huì)面臨很多新問題:比如算力比上一代增大了8倍多、新的架構(gòu)、新的制程,所以從硬件底層開始,它的散熱、功耗、熱穩(wěn)定性、是不是會(huì)丟東西,這都是最基礎(chǔ)的N個(gè)坑。

蔚來在此之前并沒有做過英偉達(dá)體系的量產(chǎn),先不說這些硬件底層的問題,上層所有AI、CPU、調(diào)度相關(guān)的工具鏈全部都要重新來。這些問題還都在一個(gè)不穩(wěn)定的基礎(chǔ)上,就得搭上面那一層,底下那層還在丟幀,上面那層就得看AI工具鏈怎么弄。

不能一層一層搭,是因?yàn)闀r(shí)間根本來不及,我們實(shí)際拿到芯片,離量產(chǎn)只有6-7個(gè)月。所以我們的團(tuán)隊(duì)肯定是世界頂級(jí)的,是打仗打出來的。

雷峰網(wǎng):定義芯片這件事您參與了嗎?

任少卿:我們是需求方,到底要做什么樣的東西我們這邊要先出個(gè)方案,然后和芯片團(tuán)隊(duì)大家一起從需求到技術(shù)到架構(gòu)進(jìn)行梳理。

在我們用了OrinX之后,也有了一些自己的理解,包括技術(shù)發(fā)展的理解。比如說在2021年的時(shí)候我們就覺得后面Transformer會(huì)用得更多一些,那時(shí)候這不是一個(gè)特別common的認(rèn)知,當(dāng)時(shí)業(yè)內(nèi)大部分都還是CNN。

雷峰網(wǎng):你是很堅(jiān)定的,因?yàn)槟闶沁@個(gè)信徒。

任少卿:其實(shí)現(xiàn)在看結(jié)果就知道。Transformer對內(nèi)存的大小、內(nèi)存開發(fā)的要求比CNN要高。我們現(xiàn)在看芯片,蔚來的芯片是帶寬最高的,而Transformer如果成為主流,它對內(nèi)存帶寬的要求遠(yuǎn)高于CNN,芯片的帶寬是很重要的事,這也是我們對方向的判斷。

如果之后芯片需要支持L3、L4更高級(jí)別的自動(dòng)駕駛,芯片的冗余也是非常重要的事情。以前芯片它做不到熱冗余或者溫冗余,也就是說無法在100毫秒以內(nèi)做到兩個(gè)芯片切換,這是硬件限制的,所以我們自研芯片的時(shí)候,在芯片里面預(yù)埋了熱備的能力,百毫秒以內(nèi)兩個(gè)芯片切換用戶無感。這些東西都是為什么要做芯片的技術(shù)原因。

PART 3

從數(shù)據(jù),到價(jià)值,再到“三天迭代一次”

雷峰網(wǎng):在當(dāng)時(shí)自研芯片量產(chǎn)進(jìn)程中,您還做了哪些事?為什么要做?

任少卿:在2020年到2022年之間,其中比較重要一環(huán)是去建設(shè)很多有特點(diǎn)的工具鏈和體系。

這些基本能力中,很重要的一件事是數(shù)據(jù)。數(shù)據(jù)其實(shí)是我們從20年開始在蔚來前兩年主要花精力的地方,這和我為什么到蔚來也相吻合。我們一直是說解放精力、減少事故,有兩個(gè)很核心的東西,第一是需要離用戶更近,才能有更快速的產(chǎn)品級(jí)反饋;第二是需要有更多真實(shí)的量產(chǎn)數(shù)據(jù)。這屬于兩個(gè)框架性的層面。

再往下一層看,數(shù)據(jù)到底是什么?2019年、20年的時(shí)候,行業(yè)有一個(gè)說法,大意是:供應(yīng)商就應(yīng)該能拿到所有主機(jī)廠的數(shù)據(jù),因?yàn)榇蠹矣X得云端的數(shù)據(jù)只需要copy case,花點(diǎn)帶寬、流量的費(fèi)用,幾乎是沒有成本。

但實(shí)際上從2020年開始,我們就認(rèn)為拷貝的數(shù)據(jù)沒有特別大的價(jià)值,因?yàn)閿?shù)據(jù)最重要的事情是corner case,這些corner case是相比于原來的系統(tǒng)。如果原來是一套規(guī)則系統(tǒng),那就相比這套規(guī)則系統(tǒng),如果原來是個(gè)模型,那就相比模型。所以數(shù)據(jù)取決于這個(gè)模型,模型A對應(yīng)的數(shù)據(jù)和模型B對應(yīng)的數(shù)據(jù),是不一樣的。

所以數(shù)據(jù)不再是說給誰都是同樣的價(jià)值,而是針對你的模型所挑出來的數(shù)據(jù)是不是有價(jià)值。反推過來,數(shù)據(jù)是依賴你挑選的精準(zhǔn)程度,而挑的過程又消耗算力,所以模型的根本就變成了對算力的消耗。算力又可以理解為是一個(gè)不可再生資源,因此數(shù)據(jù)就變成了高消耗、由不可再生資源換來的結(jié)果。

這樣的認(rèn)知讓我們意識(shí)到數(shù)據(jù)其實(shí)是對算力的調(diào)用,所以我們做的第一個(gè)系統(tǒng)是一個(gè)對云端算力調(diào)用靈活標(biāo)準(zhǔn)的系統(tǒng),這套系統(tǒng)不只是云端,包括車端,然后在這套系統(tǒng)上再去做大數(shù)據(jù)體系,我們叫它數(shù)據(jù)閉環(huán)系統(tǒng)。

還有一點(diǎn),按剛才我們聊到的邏輯,數(shù)據(jù)的最終目的是迭代模型,而迭代模型這件事,實(shí)際上汽車領(lǐng)域之前的效率不夠高的,比如Tier 1,半年或者一年才迭代一版。哪里迭代效率高呢?是互聯(lián)網(wǎng)行業(yè),大家用“AB test”,在用戶無感的時(shí)候,已經(jīng)迭代好多版本了。那做車能不能學(xué)互聯(lián)網(wǎng)廠商做“AB test”呢?可以,蔚來就建立了一整套靈活調(diào)度算力的系統(tǒng),蔚來可以在算力系統(tǒng)上建立“AB test”,整體的迭代也可以變到一周、兩周、一個(gè)月、一個(gè)季度,可以完整的去做測量模型,這是我們的第二套系統(tǒng)。

和特斯拉影子模式不同,影子模型是一套模型、兩套后處理代碼,一套后處理代碼用戶用,另一套后處理代碼用戶不用的時(shí)候做測試。而我們完全是車端兩套系統(tǒng),一套系統(tǒng)就是用戶用,另一套系統(tǒng)就是我下一代的算法在上面,并行去做AB test。

這也是我們從22年量產(chǎn)之后到今天,我們的主動(dòng)安全能迅速迭代的原因之一。早期主動(dòng)安全最大的問題是FP(false positive,誤報(bào))測試成本太高,一個(gè)誤剎對用戶影響極大,程序員寫代碼要盡可能小心并收窄范圍,以往業(yè)內(nèi)對AEB指標(biāo)是10萬、20萬公里一次FP,但一輛測試車兩三班倒,一天也就三五百公里,20萬公里就需要一兩百臺(tái)車測試一天,對蔚來的200萬公里一次FP的標(biāo)準(zhǔn)來說,完全迭代不動(dòng)。

所以基于我們的第二套系統(tǒng)“AB test”,我們把它用在了主動(dòng)安全上,現(xiàn)在哪怕最少200萬公里FP的標(biāo)準(zhǔn),我們也能做到三天迭代一次,完全逼近互聯(lián)網(wǎng)的迭代效果。

在這之上,我們又做了第三套系統(tǒng),這次要解決的是80多萬輛量產(chǎn)車的智駕問題,有些用戶每天都用蔚來的智駕,用的好就會(huì)繼續(xù)用,用的不好的主動(dòng)接管,那這套系統(tǒng)對每一個(gè)接管做自動(dòng)化分析,直接干掉99%以上的無效信息,返回0.1%-0.5%的數(shù)據(jù),我們再在云端用大模型過一遍,研發(fā)工程師再去看,最后出報(bào)告。

這是我們在20年到22年做這樣的一些工作,它的很多結(jié)果,其實(shí)到最近或者是再之后用戶才能感受到。

雷峰網(wǎng):您對于端到端怎么看?

任少卿:大家開始做所謂的端到端。這個(gè)詞其實(shí)很有意思,因?yàn)槟銜?huì)發(fā)現(xiàn)說除了智駕沒有人說端到端,但其他領(lǐng)域確實(shí)有人在用端到端。

從2010年DAMA開始,大家建立了一套在當(dāng)時(shí)的技術(shù)能力上其實(shí)是非常難做到的一個(gè)應(yīng)用,以至于不得不拆成一節(jié)一節(jié),打散了再一項(xiàng)一項(xiàng)解決,一直到2020年、2021年,讓熟悉研發(fā)的工程師畫自動(dòng)駕駛架構(gòu),會(huì)發(fā)現(xiàn)大家畫的基本上是一樣的,所以從架構(gòu)層面來說,十幾年變化不大。

但到了2022年、2023年,產(chǎn)業(yè)鏈出現(xiàn)了一定的可能性,有機(jī)會(huì)打破原來的架構(gòu)進(jìn)行整合,然后拿到更快、更好的效果。業(yè)界就進(jìn)入所謂端到端的時(shí)代。大概在2023年的時(shí)候我們有過一次內(nèi)部討論,大概就是討論端到端面臨的問題。

端到端它是自動(dòng)駕駛技術(shù)演進(jìn)過程的一個(gè)階段,但它沒有解決很多其他問題,比如語言模型是不是可以直接用在自動(dòng)駕駛上?以及語言模型是不是一個(gè)終極的AGI的完整體?自動(dòng)駕駛本質(zhì)上是一個(gè)真實(shí)世界中運(yùn)轉(zhuǎn)的Agent,類似“泛機(jī)器人”的概念,那面臨的問題是,有了語言模型后,AGI是否就實(shí)現(xiàn)了?還缺什么?這是2023年很長時(shí)間我們在思考的問題。

雷峰網(wǎng):對于世界模型和端到端的區(qū)別又怎么看?

語言模型的核心是語言,或者說是token,它的輸入是語言、輸出是語言,中間所有的表達(dá)全都是語言,它的根是語言。語言是什么呢?語言是概念的抽象。所以語言模型可以認(rèn)為,是以語言為核心建立的概念認(rèn)知的模型,他學(xué)到的能力是對于概念的認(rèn)知。

但“一圖勝千言”,概念語言是相對抽象的。首先,在真實(shí)世界里有非常多的細(xì)節(jié)很難用概念去做描述。我們可以大致描述細(xì)節(jié),但非常難以精確高效地描述它細(xì)的部分。其次,除了平面信息,人在真實(shí)世界里實(shí)際上交互的是三維和四維信息,即空間和時(shí)間?!翱臻g”用語言更難描述,但在生活中又逃不掉。

所以我們認(rèn)為,概念認(rèn)知是表象,與語言并行的是時(shí)空認(rèn)知。時(shí)空認(rèn)知的底層是泛的圖像,這個(gè)圖像可以是二維的,也可以是三維、四維。概念認(rèn)知能力和時(shí)空認(rèn)知能力是AGI,或者說一個(gè)人、智能體、生物必需的,而語言模型解決不了時(shí)空認(rèn)知的問題。

世界模型本質(zhì)上是要建立時(shí)空認(rèn)知能力。時(shí)空認(rèn)知往下,它會(huì)分為物理規(guī)律、時(shí)空理解,也就是時(shí)間和空間,兩者結(jié)合就是世界模型要學(xué)習(xí)的。這件事是我們從2023年開始思考并投入研發(fā),2024年7月份的NIO IN上第一次公開發(fā)布,在行業(yè)內(nèi)蔚來是國內(nèi)第一家,在行業(yè)外大概率也是第一家,逐漸有越來越多的人都開始擁抱世界模型路線,包括騰訊也做了世界模型,業(yè)界的討論也開始多了起來。

雷峰網(wǎng):是什么讓蔚來決定All in世界模型?

任少卿:世界模型相較其他大模型都很難做到的一點(diǎn),那就是長時(shí)序能力,之前的自動(dòng)駕駛,包括只要是跟真實(shí)世界和時(shí)序特別相關(guān)的場景,語言模型不需要一個(gè)嚴(yán)格的時(shí)間軸。但只要和物理世界相關(guān),時(shí)間軸非常明確。

這時(shí)候系統(tǒng)就面臨一個(gè)問題,如果遇到跨10秒、1分鐘、10分鐘的決策,應(yīng)該怎么做?自動(dòng)駕駛前面十幾年是怎么解決的呢?只干了兩件事。第一個(gè)先是地圖,地圖本質(zhì)就是一個(gè)長時(shí)序的信息傳入。例如,地圖上顯示,某條街修路了,路徑需要改變;再比如這條路前面2個(gè)小時(shí)有擁堵的實(shí)時(shí)信息。所有的這些都是長時(shí)序信息的輸入,這是自動(dòng)駕駛?cè)蝿?wù)遇到長時(shí)序的第一個(gè)信息來源。

第二個(gè)就是靠人寫if else,依靠規(guī)則代碼:如果前面發(fā)生某種狀況,3秒鐘之后應(yīng)該怎么處理,5秒鐘之后應(yīng)該怎樣,接下來1分鐘又該怎么樣,依靠規(guī)則。只有這兩種,沒有其它的方式。

但這才是人和機(jī)器最大的不同。隨著transformer、memory等技術(shù)出現(xiàn),業(yè)內(nèi)可以做到3秒鐘、5秒鐘,也就是如此。但人駕駛甚至有跨月的記憶,比如說一個(gè)月之前,你在這條路上開錯(cuò)了,連續(xù)一個(gè)月之后你再也不會(huì)開錯(cuò),這個(gè)場景在所有現(xiàn)在的框架里是未能解決的。

那剛才說的這些長時(shí)序怎么辦?用世界模型去解決。蔚來在小路的處理能力就是一個(gè)很好的例子,在小路開智駕它既需要對空間理解,也需要對時(shí)間理解。

如果對向來了一輛車,在會(huì)車的時(shí)候要不要讓路?讓路的同時(shí)是要減速還是剎停?這里其實(shí)涉及到對時(shí)間理解和空間的推理判斷,或者說是長時(shí)序,因?yàn)楫?dāng)你看到對向來車的時(shí)候就要做出判斷。以往業(yè)內(nèi)做法是拆開去做,長時(shí)序的情況還是去靠if else,然后讓感知模塊和端到端模塊去處理一個(gè)三秒內(nèi)的動(dòng)作,模型本身處理不了這么長的時(shí)序。

如果只靠外層的狀態(tài)機(jī),你會(huì)逐漸發(fā)現(xiàn)這種場景是割裂的,因?yàn)楸举|(zhì)上這是一個(gè)10s、20s的長時(shí)序的任務(wù),結(jié)果模型只能處理三秒,所以在這種場景會(huì)斷斷續(xù)續(xù)。而世界模型除了學(xué)習(xí)空間,同時(shí)也會(huì)學(xué)習(xí)時(shí)間,這就使得世界模型能夠支持長時(shí)序的推演,世界模型的外層狀態(tài)機(jī)基本被砍掉了,處理事情會(huì)更一體化。

這也是我們在2023年最核心的思考。



第八屆 GAIR 全球人工智能與機(jī)器人大會(huì)

2025年12月12-13日,第八屆GAIR全球人工智能與機(jī)器人大會(huì),將在深圳南山·博林天瑞喜來登酒店舉辦。

今年大會(huì),將開設(shè)三個(gè)主題論壇,聚焦大模型、算力變革、世界模型等多個(gè)議題,描繪AI最前沿的探索群像,折射學(xué)界與產(chǎn)業(yè)界共建的智能未來。目前,首批重磅大咖名單正式揭曉,還有更多行業(yè)領(lǐng)軍者將齊聚現(xiàn)場,共探智能的未來。歡迎點(diǎn)擊文末“閱讀原文”或識(shí)別海報(bào)二維碼,報(bào)名參會(huì),相約 GAIR 2025 ~



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
林彪不善交際,甚至連“同志”都不愿喊,為何能統(tǒng)領(lǐng)四野百萬大軍

林彪不善交際,甚至連“同志”都不愿喊,為何能統(tǒng)領(lǐng)四野百萬大軍

古書記史
2025-12-24 20:15:45
75歲老人直言:歲數(shù)大了才發(fā)現(xiàn),有存款和退休金,也是一種負(fù)擔(dān)

75歲老人直言:歲數(shù)大了才發(fā)現(xiàn),有存款和退休金,也是一種負(fù)擔(dān)

多久情感
2025-12-26 21:47:57
研究發(fā)現(xiàn):每天都喝酒的人,多半到了60歲后,身體或有這4種苦楚

研究發(fā)現(xiàn):每天都喝酒的人,多半到了60歲后,身體或有這4種苦楚

蜉蝣說
2025-12-25 18:22:47
中建某局出了天大的事!

中建某局出了天大的事!

黯泉
2025-12-27 17:21:22
疑似跑路的保時(shí)捷中心母公司,官網(wǎng)、官號(hào)已集體清空

疑似跑路的保時(shí)捷中心母公司,官網(wǎng)、官號(hào)已集體清空

觀察者網(wǎng)
2025-12-26 22:07:05
瘋了?切爾西棄將 7 個(gè)月無球踢,名宿怒催曼聯(lián):不簽他傻!

瘋了?切爾西棄將 7 個(gè)月無球踢,名宿怒催曼聯(lián):不簽他傻!

瀾歸序
2025-12-28 01:41:52
停飛中國航班,拒絕中國游客,這個(gè)在東南亞小國”處處和中國作對

停飛中國航班,拒絕中國游客,這個(gè)在東南亞小國”處處和中國作對

南權(quán)先生
2025-12-20 17:01:37
中國軍隊(duì)回撤時(shí)越軍為何不追擊?越南少將阮德輝回憶:并非不敢打

中國軍隊(duì)回撤時(shí)越軍為何不追擊?越南少將阮德輝回憶:并非不敢打

古書記史
2025-12-22 19:50:50
養(yǎng)老金只漲2%,很多人心涼了,但人社部這次把“底牌”攤開了

養(yǎng)老金只漲2%,很多人心涼了,但人社部這次把“底牌”攤開了

搬磚營Z
2025-12-26 17:23:10
南博風(fēng)波驚天反轉(zhuǎn)!國家文物局江蘇省聯(lián)手出擊69歲舉報(bào)人盼來曙光

南博風(fēng)波驚天反轉(zhuǎn)!國家文物局江蘇省聯(lián)手出擊69歲舉報(bào)人盼來曙光

小鬼頭體育
2025-12-27 14:08:32
回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

就一點(diǎn)
2025-10-09 12:19:42
朱松瑋絕殺時(shí)刻!最后三分價(jià)值千金,這球您給幾分

朱松瑋絕殺時(shí)刻!最后三分價(jià)值千金,這球您給幾分

林子說事
2025-12-28 04:52:57
除了性生活,就是打麻將,中國2000多個(gè)縣城普通人的生活現(xiàn)狀

除了性生活,就是打麻將,中國2000多個(gè)縣城普通人的生活現(xiàn)狀

花小貓的美食日常
2025-12-12 12:03:15
男演員被限制高消費(fèi),“涉案金額1118萬”登熱搜,本人發(fā)文回應(yīng)

男演員被限制高消費(fèi),“涉案金額1118萬”登熱搜,本人發(fā)文回應(yīng)

紅星新聞
2025-12-25 20:41:16
湖北一大媽跳了20多年廣場舞后,拿100多個(gè)金鐲子去賣,說家里還有金項(xiàng)鏈沒拿,我人好,都是別人送的

湖北一大媽跳了20多年廣場舞后,拿100多個(gè)金鐲子去賣,說家里還有金項(xiàng)鏈沒拿,我人好,都是別人送的

LULU生活家
2025-12-24 18:51:10
李詠妻子哈文在美國過圣誕!吃全聚德烤鴨,調(diào)侃自己過成了中國年

李詠妻子哈文在美國過圣誕!吃全聚德烤鴨,調(diào)侃自己過成了中國年

娛樂圈圈圓
2025-12-27 10:37:31
真當(dāng)中國不敢動(dòng)手?中方向全世界宣布,退出5000億大項(xiàng)目,菲慌了

真當(dāng)中國不敢動(dòng)手?中方向全世界宣布,退出5000億大項(xiàng)目,菲慌了

愛吃醋的貓咪
2025-12-27 16:38:20
對等攔截!報(bào)仇不隔夜!1000萬升走私燃料被截,背后竟是美國人?

對等攔截!報(bào)仇不隔夜!1000萬升走私燃料被截,背后竟是美國人?

現(xiàn)代小青青慕慕
2025-12-27 13:39:34
法國拒不接受中國反制,馬克龍轉(zhuǎn)身發(fā)現(xiàn)不妙,特朗普也對歐盟出手

法國拒不接受中國反制,馬克龍轉(zhuǎn)身發(fā)現(xiàn)不妙,特朗普也對歐盟出手

歷史有些冷
2025-12-26 17:50:03
目前見過的最清純春麗cos,賽場遇見也舍不得用力

目前見過的最清純春麗cos,賽場遇見也舍不得用力

街機(jī)時(shí)代
2025-12-27 15:00:03
2025-12-28 06:51:00
新智駕 incentive-icons
新智駕
新智駕,讀懂汽車的未來。
3704文章數(shù) 4371關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

旅游
本地
游戲
藝術(shù)
公開課

旅游要聞

來廣東跨年,大家的選擇就是最寶貴的信任票

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

突發(fā)!育碧大作被黑客入侵:玩家直接玩上"破解版"

藝術(shù)要聞

手串種類大盤點(diǎn),全見過的算得上是文玩老手了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版