国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話任少卿:2025 NeurIPS 時(shí)間檢驗(yàn)獎(jiǎng)背后,我的學(xué)術(shù)與產(chǎn)業(yè)觀

0
分享至



NeurIPS,被譽(yù)為「AI界的奧斯卡」,是人工智能領(lǐng)域的全球年度風(fēng)向標(biāo)。

作者 | 馬廣宇

編輯 | 李雨晨

12月4日,任少卿、何愷明、羅斯·吉爾??耍≧oss Girshick)、孫劍憑借“Faster R-CNN ”(快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)架構(gòu))榮獲2025年神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS)時(shí)間檢驗(yàn)獎(jiǎng)。

NeurIPS(神經(jīng)信息處理系統(tǒng)大會(huì)),是人工智能與機(jī)器學(xué)習(xí)領(lǐng)域最具影響力的國際頂級學(xué)術(shù)會(huì)議,在AI學(xué)科領(lǐng)域排名第一,被譽(yù)為“AI界的奧斯卡”,是人工智能領(lǐng)域的全球年度風(fēng)向標(biāo)。

NeurIPS時(shí)間檢驗(yàn)獎(jiǎng)是人工智能領(lǐng)域最具影響力的獎(jiǎng)項(xiàng)之一,專門表彰經(jīng)過十年時(shí)間檢驗(yàn)、對學(xué)科發(fā)展產(chǎn)生深遠(yuǎn)影響的奠基性工作。

過去三年,該獎(jiǎng)項(xiàng)授予包括諾貝爾獎(jiǎng)得主杰弗里·辛頓(Geoffrey Hinton)、圖靈獎(jiǎng)得主約書亞·本吉奧(Yoshua Bengio)、OpenAI聯(lián)合創(chuàng)始人兼首席科學(xué)家伊爾亞·蘇茨克維(Ilya Sutskever)等在內(nèi)的國際頂尖學(xué)者。

“Faster R-CNN ”是在2015年由中國學(xué)者任少卿、何愷明、孫劍主導(dǎo),聯(lián)合美國人工智能科學(xué)家羅斯·吉爾??耍≧oss Girshick)共同發(fā)表,這一新型網(wǎng)絡(luò)架構(gòu)能將物體檢測效率提升10倍以上,首次開創(chuàng)了端到端實(shí)時(shí)精準(zhǔn)目標(biāo)的檢測模式。

目前,這一文章已經(jīng)被學(xué)術(shù)引用超9.8萬次,第一作者任少卿,是華人作為第一作者在該會(huì)議上發(fā)表的學(xué)術(shù)引用量最高的文章,同時(shí)也是AI檢測領(lǐng)域全球最高被引論文。

十多年的時(shí)間,這一模型的核心思想已經(jīng)被深度融入到人工智能的基礎(chǔ)技術(shù)基因當(dāng)中,并成為了驅(qū)動(dòng)自動(dòng)駕駛、醫(yī)療影像、安防監(jiān)控、工業(yè)檢測、衛(wèi)星遙感等國計(jì)民生和經(jīng)濟(jì)發(fā)展關(guān)鍵領(lǐng)域的核心。

任少卿與Faster R-CNN中的合作者何愷明(現(xiàn)MIT副教授)、孫劍(前曠視科技首席科學(xué)家)有著緊密的合作關(guān)系,此前還發(fā)表過深度殘差網(wǎng)絡(luò)框架ResNet,該文章已經(jīng)成為21世紀(jì)全球最高被引論文。

在任少卿獲獎(jiǎng)之前,雷峰網(wǎng)曾在2025年下半年與其進(jìn)行了深度對話,雷峰網(wǎng)作了不改變原意的編輯:

PART 1

任少卿與孫劍、何愷明的故事

雷峰網(wǎng):孫劍老師是您的導(dǎo)師,當(dāng)時(shí)有過什么事情讓您印象深刻?

任少卿:我印象深刻的是,孫劍老師當(dāng)時(shí)比較堅(jiān)持“simple but work”,真正認(rèn)可并理解這件事是一個(gè)循序漸進(jìn)的過程,也是日常交流中慢慢形成的共識,比如看別人的工作、討論paper、組內(nèi)評審paper時(shí),孫老師會(huì)給一些深刻的指導(dǎo),逐漸我也理解到了“simple but work”。


孫劍

實(shí)際上我當(dāng)時(shí)寫的第一篇paper就不太simple,雖然是熬了很多個(gè)夜寫完,但到最后還是決定不投了。當(dāng)然現(xiàn)在回頭看,那個(gè)paper基本上就是在別人的工作上做做a+b,確實(shí)沒太大的意義。

“Simple but work”實(shí)際上是跟孫老師的邏輯和理念相關(guān)的,這是一個(gè)挺難的追求。只能說做一些更核心的事,就需要更好的遠(yuǎn)見,更好的品位,以及堅(jiān)持,這三個(gè)東西缺一個(gè)都不行。

(孫劍是國內(nèi)AI頂級峰會(huì) GAIR 2017、2018、2019的三屆講者。在會(huì)場間隙,孫劍對觀眾分享了獲獎(jiǎng)?wù)撐?Faster R-CNN 的理解與靈感。)

雷峰網(wǎng):您覺得何愷明對你的最大影響是什么?你們合作得怎么樣?

任少卿:其實(shí)因?yàn)槲覀兒献鞯臅r(shí)間最長。每天早上到公司,先看看結(jié)果,接著就一起開始交流,從 11 點(diǎn)開始,到 12 點(diǎn)吃飯,吃飯時(shí)繼續(xù)討論,到下午 2 點(diǎn)開始各自干活,然后下午5點(diǎn)又開始討論,然后吃晚飯,這個(gè)節(jié)奏會(huì)讓我們很開心,因?yàn)槊刻於加行碌膶?shí)驗(yàn)結(jié)果在推動(dòng)和交流。那時(shí)候深度學(xué)習(xí)也才剛開始,一個(gè)小團(tuán)隊(duì)這樣去看其實(shí)效率很高。

何愷明非常專注,他基本上不想別的事兒,只關(guān)注現(xiàn)在的這些研究問題,怎么創(chuàng)新,我覺得他幾乎 100% 的精力都在這上。

他在微軟亞洲研究院的時(shí)候,就住在旁邊一棟樓,走路一分鐘,兩分鐘都不要。

何愷明是很善于找方向、找到問題,然后找突破的學(xué)者,他花了巨量的時(shí)間在上面,然后去建立相應(yīng)的思維的架構(gòu),只有有思維架構(gòu)才能去找相應(yīng)的突破。


何愷明

雷峰網(wǎng):那時(shí)候選擇深度學(xué)習(xí),大家都還堅(jiān)決嗎?為什么覺得這是個(gè)方向?

任少卿:肯定是先試,看到了可能性之后才去堅(jiān)持。

為什么是這個(gè)方向,第一個(gè)邏輯是,從方法的角度來說,它有創(chuàng)新,看到了新的可能性。第二是當(dāng)時(shí)已經(jīng)有一些結(jié)果和進(jìn)展了。第三是拿這個(gè)復(fù)現(xiàn),能看到結(jié)果不是trick的,而是有一定泛化能力的結(jié)果。這些東西都有了之后,我們和業(yè)界才看到了可能性。

一個(gè)新方向首先上限要高,其次現(xiàn)在已經(jīng)達(dá)到的結(jié)果是真的,這不是一個(gè)trick,或者不是只在某一個(gè)小范圍內(nèi)work的東西。這幾個(gè)點(diǎn)都驗(yàn)證了之后,那其實(shí)就認(rèn)為這個(gè)方向是可擴(kuò)展的。

雷峰網(wǎng):Faster R-CNN到底解決了AI領(lǐng)域的什么問題?

任少卿:Faster R-CNN用今天的詞,解決的是自動(dòng)駕駛端到端的問題。今天大家說端到端,就是因?yàn)樽詣?dòng)駕駛的任務(wù),之前是拆成一節(jié)一節(jié)的,就叫作感知、規(guī)劃、控制。而在物體檢測這個(gè)任務(wù)上,之前也沒有一個(gè)能一體化的解決方案,要把它分成兩步,或者三步。

這兩步是什么呢?第一步,要在圖像上去找一些可能的candidate,然后再去對這些candidate做分類。理論上每張圖如果窮舉,其實(shí)有百萬種以上的選擇。第二步,每個(gè)框都去判斷一下里面是不是有物體,這個(gè)計(jì)算量很大。所以之前的物體檢測的做法是分為兩步,與之前的自動(dòng)駕駛一樣。

Faster R-CNN解決的,就是一個(gè)網(wǎng)絡(luò)直出,按今天的話說就是端到端,端到端解決什么問題呢?首先它的效率變高了,之前的檢測器,可能一秒鐘、兩秒鐘、三秒鐘才能刷一張圖。Faster R-CNN之后,變成了一個(gè)實(shí)時(shí)的10Hz、20Hz、30Hz這樣的狀態(tài)。實(shí)時(shí)對于應(yīng)用就很不一樣了,它就能開始處理視頻,這是對產(chǎn)業(yè)最大的一個(gè)突破。那其次因?yàn)樗说蕉?,端到端之后就快、延遲就低,所以實(shí)際上效果就提升了。所以Faster R-CNN本質(zhì)上是解決了物體檢測任務(wù)的端到端。

PART 2

加入蔚來:從零開始的團(tuán)隊(duì)和自研芯片

雷峰網(wǎng):您是什么時(shí)候加入的蔚來,當(dāng)時(shí)主要做了什么事?彼時(shí)蔚來又處于什么樣的階段?

任少卿:我大概是2020年8月十幾號入職,那個(gè)時(shí)候就是先搭團(tuán)隊(duì)。

蔚來第一代車是Mobileye方案。到了20年前后,實(shí)際上有兩個(gè)爭論。第一個(gè)爭論是L2和L4到底有多大差異,有個(gè)說法是L2永遠(yuǎn)做不了L4;第二個(gè)是要不要全棧自研,當(dāng)時(shí)蔚來的選擇是全棧自研L2的產(chǎn)品,支持L3和L4。

當(dāng)時(shí)我們決定了全棧自研,然后再去選芯片,看哪個(gè)芯片是靠譜的、能用的。從2020年8月到2020年底,開始建團(tuán)隊(duì),核心的人四五個(gè)月都到位,到七八個(gè)月的時(shí)候,團(tuán)隊(duì)就算比較到位了。急著干活的一個(gè)原因是時(shí)間:我們要量產(chǎn)的車是2022年3月份,而2020年8月由于方案都不同了,我們幾乎一切從“零”開始,集群、標(biāo)注、工具鏈這些當(dāng)時(shí)都沒有。

在組建團(tuán)隊(duì)的同時(shí),我們也在并行選芯片,與英偉達(dá)合作,Orin芯片我們提前量產(chǎn)了半年。最終蔚來全球首個(gè)量產(chǎn),也是截止到今天車上最復(fù)雜的一套ADC(自動(dòng)駕駛域控制器)架構(gòu),所以那一年多很有意思。

雷峰網(wǎng):當(dāng)時(shí)選擇Orin是一件很有挑戰(zhàn)性的事?

任少卿:我入職的時(shí)候是2020年8月,2022年3月量產(chǎn)在中國的Orin方案,半年之后量產(chǎn)歐洲的方案,而蔚來的第二代車,是全球第一個(gè)量產(chǎn)Orin芯片,同時(shí)也是全球第一個(gè)量產(chǎn)高線束激光雷達(dá)的車型,所有的事情都是并行做的,當(dāng)時(shí)的挑戰(zhàn)就很大。

對于蔚來來說,干了三件一般人不敢干的事。第一代車Mobileye的EyeQ4方案,全球第一個(gè)量產(chǎn),第一個(gè)量產(chǎn)要踩很多坑。第二代就是全球首個(gè)量產(chǎn)英偉達(dá)Orin方案,還搞了4個(gè)芯片,是最復(fù)雜的一個(gè)架構(gòu)。第三代是自研芯片量產(chǎn)。所以每一代的量產(chǎn),都是非常大的挑戰(zhàn),斌哥有意愿、有信念去做這件事。

所以蔚來相應(yīng)的量產(chǎn)、對于新的芯片適配和調(diào)整的團(tuán)隊(duì),應(yīng)該是世界頂尖的,因?yàn)闆]有人連著干過這幾件事。

雷峰網(wǎng):Orin那時(shí)候什么問題比較多?

任少卿:當(dāng)時(shí)Orin是一個(gè)新的芯片,對英偉達(dá)也只是第二代量產(chǎn),新的芯片就會(huì)面臨很多新問題:比如算力比上一代增大了8倍多、新的架構(gòu)、新的制程,所以從硬件底層開始,它的散熱、功耗、熱穩(wěn)定性、是不是會(huì)丟東西,這都是最基礎(chǔ)的N個(gè)坑。

蔚來在此之前并沒有做過英偉達(dá)體系的量產(chǎn),先不說這些硬件底層的問題,上層所有AI、CPU、調(diào)度相關(guān)的工具鏈全部都要重新來。這些問題還都在一個(gè)不穩(wěn)定的基礎(chǔ)上,就得搭上面那一層,底下那層還在丟幀,上面那層就得看AI工具鏈怎么弄。

不能一層一層搭,是因?yàn)闀r(shí)間根本來不及,我們實(shí)際拿到芯片,離量產(chǎn)只有6-7個(gè)月。所以我們的團(tuán)隊(duì)肯定是世界頂級的,是打仗打出來的。

雷峰網(wǎng):定義芯片這件事您參與了嗎?

任少卿:我們是需求方,到底要做什么樣的東西我們這邊要先出個(gè)方案,然后和芯片團(tuán)隊(duì)大家一起從需求到技術(shù)到架構(gòu)進(jìn)行梳理。

在我們用了OrinX之后,也有了一些自己的理解,包括技術(shù)發(fā)展的理解。比如說在2021年的時(shí)候我們就覺得后面Transformer會(huì)用得更多一些,那時(shí)候這不是一個(gè)特別common的認(rèn)知,當(dāng)時(shí)業(yè)內(nèi)大部分都還是CNN。

雷峰網(wǎng):你是很堅(jiān)定的,因?yàn)槟闶沁@個(gè)信徒。

任少卿:其實(shí)現(xiàn)在看結(jié)果就知道。Transformer對內(nèi)存的大小、內(nèi)存開發(fā)的要求比CNN要高。我們現(xiàn)在看芯片,蔚來的芯片是帶寬最高的,而Transformer如果成為主流,它對內(nèi)存帶寬的要求遠(yuǎn)高于CNN,芯片的帶寬是很重要的事,這也是我們對方向的判斷。

如果之后芯片需要支持L3、L4更高級別的自動(dòng)駕駛,芯片的冗余也是非常重要的事情。以前芯片它做不到熱冗余或者溫冗余,也就是說無法在100毫秒以內(nèi)做到兩個(gè)芯片切換,這是硬件限制的,所以我們自研芯片的時(shí)候,在芯片里面預(yù)埋了熱備的能力,百毫秒以內(nèi)兩個(gè)芯片切換用戶無感。這些東西都是為什么要做芯片的技術(shù)原因。

PART 3

從數(shù)據(jù),到價(jià)值,再到“三天迭代一次”

雷峰網(wǎng):在當(dāng)時(shí)自研芯片量產(chǎn)進(jìn)程中,您還做了哪些事?為什么要做?

任少卿:在2020年到2022年之間,其中比較重要一環(huán)是去建設(shè)很多有特點(diǎn)的工具鏈和體系。

這些基本能力中,很重要的一件事是數(shù)據(jù)。數(shù)據(jù)其實(shí)是我們從20年開始在蔚來前兩年主要花精力的地方,這和我為什么到蔚來也相吻合。我們一直是說解放精力、減少事故,有兩個(gè)很核心的東西,第一是需要離用戶更近,才能有更快速的產(chǎn)品級反饋;第二是需要有更多真實(shí)的量產(chǎn)數(shù)據(jù)。這屬于兩個(gè)框架性的層面。

再往下一層看,數(shù)據(jù)到底是什么?2019年、20年的時(shí)候,行業(yè)有一個(gè)說法,大意是:供應(yīng)商就應(yīng)該能拿到所有主機(jī)廠的數(shù)據(jù),因?yàn)榇蠹矣X得云端的數(shù)據(jù)只需要copy case,花點(diǎn)帶寬、流量的費(fèi)用,幾乎是沒有成本。

但實(shí)際上從2020年開始,我們就認(rèn)為拷貝的數(shù)據(jù)沒有特別大的價(jià)值,因?yàn)閿?shù)據(jù)最重要的事情是corner case,這些corner case是相比于原來的系統(tǒng)。如果原來是一套規(guī)則系統(tǒng),那就相比這套規(guī)則系統(tǒng),如果原來是個(gè)模型,那就相比模型。所以數(shù)據(jù)取決于這個(gè)模型,模型A對應(yīng)的數(shù)據(jù)和模型B對應(yīng)的數(shù)據(jù),是不一樣的。

所以數(shù)據(jù)不再是說給誰都是同樣的價(jià)值,而是針對你的模型所挑出來的數(shù)據(jù)是不是有價(jià)值。反推過來,數(shù)據(jù)是依賴你挑選的精準(zhǔn)程度,而挑的過程又消耗算力,所以模型的根本就變成了對算力的消耗。算力又可以理解為是一個(gè)不可再生資源,因此數(shù)據(jù)就變成了高消耗、由不可再生資源換來的結(jié)果。

這樣的認(rèn)知讓我們意識到數(shù)據(jù)其實(shí)是對算力的調(diào)用,所以我們做的第一個(gè)系統(tǒng)是一個(gè)對云端算力調(diào)用靈活標(biāo)準(zhǔn)的系統(tǒng),這套系統(tǒng)不只是云端,包括車端,然后在這套系統(tǒng)上再去做大數(shù)據(jù)體系,我們叫它數(shù)據(jù)閉環(huán)系統(tǒng)。

還有一點(diǎn),按剛才我們聊到的邏輯,數(shù)據(jù)的最終目的是迭代模型,而迭代模型這件事,實(shí)際上汽車領(lǐng)域之前的效率不夠高的,比如Tier 1,半年或者一年才迭代一版。哪里迭代效率高呢?是互聯(lián)網(wǎng)行業(yè),大家用“AB test”,在用戶無感的時(shí)候,已經(jīng)迭代好多版本了。那做車能不能學(xué)互聯(lián)網(wǎng)廠商做“AB test”呢?可以,蔚來就建立了一整套靈活調(diào)度算力的系統(tǒng),蔚來可以在算力系統(tǒng)上建立“AB test”,整體的迭代也可以變到一周、兩周、一個(gè)月、一個(gè)季度,可以完整的去做測量模型,這是我們的第二套系統(tǒng)。

和特斯拉影子模式不同,影子模型是一套模型、兩套后處理代碼,一套后處理代碼用戶用,另一套后處理代碼用戶不用的時(shí)候做測試。而我們完全是車端兩套系統(tǒng),一套系統(tǒng)就是用戶用,另一套系統(tǒng)就是我下一代的算法在上面,并行去做AB test。

這也是我們從22年量產(chǎn)之后到今天,我們的主動(dòng)安全能迅速迭代的原因之一。早期主動(dòng)安全最大的問題是FP(false positive,誤報(bào))測試成本太高,一個(gè)誤剎對用戶影響極大,程序員寫代碼要盡可能小心并收窄范圍,以往業(yè)內(nèi)對AEB指標(biāo)是10萬、20萬公里一次FP,但一輛測試車兩三班倒,一天也就三五百公里,20萬公里就需要一兩百臺車測試一天,對蔚來的200萬公里一次FP的標(biāo)準(zhǔn)來說,完全迭代不動(dòng)。

所以基于我們的第二套系統(tǒng)“AB test”,我們把它用在了主動(dòng)安全上,現(xiàn)在哪怕最少200萬公里FP的標(biāo)準(zhǔn),我們也能做到三天迭代一次,完全逼近互聯(lián)網(wǎng)的迭代效果。

在這之上,我們又做了第三套系統(tǒng),這次要解決的是80多萬輛量產(chǎn)車的智駕問題,有些用戶每天都用蔚來的智駕,用的好就會(huì)繼續(xù)用,用的不好的主動(dòng)接管,那這套系統(tǒng)對每一個(gè)接管做自動(dòng)化分析,直接干掉99%以上的無效信息,返回0.1%-0.5%的數(shù)據(jù),我們再在云端用大模型過一遍,研發(fā)工程師再去看,最后出報(bào)告。

這是我們在20年到22年做這樣的一些工作,它的很多結(jié)果,其實(shí)到最近或者是再之后用戶才能感受到。

雷峰網(wǎng):您對于端到端怎么看?

任少卿:大家開始做所謂的端到端。這個(gè)詞其實(shí)很有意思,因?yàn)槟銜?huì)發(fā)現(xiàn)說除了智駕沒有人說端到端,但其他領(lǐng)域確實(shí)有人在用端到端。

從2010年DAMA開始,大家建立了一套在當(dāng)時(shí)的技術(shù)能力上其實(shí)是非常難做到的一個(gè)應(yīng)用,以至于不得不拆成一節(jié)一節(jié),打散了再一項(xiàng)一項(xiàng)解決,一直到2020年、2021年,讓熟悉研發(fā)的工程師畫自動(dòng)駕駛架構(gòu),會(huì)發(fā)現(xiàn)大家畫的基本上是一樣的,所以從架構(gòu)層面來說,十幾年變化不大。

但到了2022年、2023年,產(chǎn)業(yè)鏈出現(xiàn)了一定的可能性,有機(jī)會(huì)打破原來的架構(gòu)進(jìn)行整合,然后拿到更快、更好的效果。業(yè)界就進(jìn)入所謂端到端的時(shí)代。大概在2023年的時(shí)候我們有過一次內(nèi)部討論,大概就是討論端到端面臨的問題。

端到端它是自動(dòng)駕駛技術(shù)演進(jìn)過程的一個(gè)階段,但它沒有解決很多其他問題,比如語言模型是不是可以直接用在自動(dòng)駕駛上?以及語言模型是不是一個(gè)終極的AGI的完整體?自動(dòng)駕駛本質(zhì)上是一個(gè)真實(shí)世界中運(yùn)轉(zhuǎn)的Agent,類似“泛機(jī)器人”的概念,那面臨的問題是,有了語言模型后,AGI是否就實(shí)現(xiàn)了?還缺什么?這是2023年很長時(shí)間我們在思考的問題。

雷峰網(wǎng):對于世界模型和端到端的區(qū)別又怎么看?

語言模型的核心是語言,或者說是token,它的輸入是語言、輸出是語言,中間所有的表達(dá)全都是語言,它的根是語言。語言是什么呢?語言是概念的抽象。所以語言模型可以認(rèn)為,是以語言為核心建立的概念認(rèn)知的模型,他學(xué)到的能力是對于概念的認(rèn)知。

但“一圖勝千言”,概念語言是相對抽象的。首先,在真實(shí)世界里有非常多的細(xì)節(jié)很難用概念去做描述。我們可以大致描述細(xì)節(jié),但非常難以精確高效地描述它細(xì)的部分。其次,除了平面信息,人在真實(shí)世界里實(shí)際上交互的是三維和四維信息,即空間和時(shí)間?!翱臻g”用語言更難描述,但在生活中又逃不掉。

所以我們認(rèn)為,概念認(rèn)知是表象,與語言并行的是時(shí)空認(rèn)知。時(shí)空認(rèn)知的底層是泛的圖像,這個(gè)圖像可以是二維的,也可以是三維、四維。概念認(rèn)知能力和時(shí)空認(rèn)知能力是AGI,或者說一個(gè)人、智能體、生物必需的,而語言模型解決不了時(shí)空認(rèn)知的問題。

世界模型本質(zhì)上是要建立時(shí)空認(rèn)知能力。時(shí)空認(rèn)知往下,它會(huì)分為物理規(guī)律、時(shí)空理解,也就是時(shí)間和空間,兩者結(jié)合就是世界模型要學(xué)習(xí)的。這件事是我們從2023年開始思考并投入研發(fā),2024年7月份的NIO IN上第一次公開發(fā)布,在行業(yè)內(nèi)蔚來是國內(nèi)第一家,在行業(yè)外大概率也是第一家,逐漸有越來越多的人都開始擁抱世界模型路線,包括騰訊也做了世界模型,業(yè)界的討論也開始多了起來。

雷峰網(wǎng):是什么讓蔚來決定All in世界模型?

任少卿:世界模型相較其他大模型都很難做到的一點(diǎn),那就是長時(shí)序能力,之前的自動(dòng)駕駛,包括只要是跟真實(shí)世界和時(shí)序特別相關(guān)的場景,語言模型不需要一個(gè)嚴(yán)格的時(shí)間軸。但只要和物理世界相關(guān),時(shí)間軸非常明確。

這時(shí)候系統(tǒng)就面臨一個(gè)問題,如果遇到跨10秒、1分鐘、10分鐘的決策,應(yīng)該怎么做?自動(dòng)駕駛前面十幾年是怎么解決的呢?只干了兩件事。第一個(gè)先是地圖,地圖本質(zhì)就是一個(gè)長時(shí)序的信息傳入。例如,地圖上顯示,某條街修路了,路徑需要改變;再比如這條路前面2個(gè)小時(shí)有擁堵的實(shí)時(shí)信息。所有的這些都是長時(shí)序信息的輸入,這是自動(dòng)駕駛?cè)蝿?wù)遇到長時(shí)序的第一個(gè)信息來源。

第二個(gè)就是靠人寫if else,依靠規(guī)則代碼:如果前面發(fā)生某種狀況,3秒鐘之后應(yīng)該怎么處理,5秒鐘之后應(yīng)該怎樣,接下來1分鐘又該怎么樣,依靠規(guī)則。只有這兩種,沒有其它的方式。

但這才是人和機(jī)器最大的不同。隨著transformer、memory等技術(shù)出現(xiàn),業(yè)內(nèi)可以做到3秒鐘、5秒鐘,也就是如此。但人駕駛甚至有跨月的記憶,比如說一個(gè)月之前,你在這條路上開錯(cuò)了,連續(xù)一個(gè)月之后你再也不會(huì)開錯(cuò),這個(gè)場景在所有現(xiàn)在的框架里是未能解決的。

那剛才說的這些長時(shí)序怎么辦?用世界模型去解決。蔚來在小路的處理能力就是一個(gè)很好的例子,在小路開智駕它既需要對空間理解,也需要對時(shí)間理解。

如果對向來了一輛車,在會(huì)車的時(shí)候要不要讓路?讓路的同時(shí)是要減速還是剎停?這里其實(shí)涉及到對時(shí)間理解和空間的推理判斷,或者說是長時(shí)序,因?yàn)楫?dāng)你看到對向來車的時(shí)候就要做出判斷。以往業(yè)內(nèi)做法是拆開去做,長時(shí)序的情況還是去靠if else,然后讓感知模塊和端到端模塊去處理一個(gè)三秒內(nèi)的動(dòng)作,模型本身處理不了這么長的時(shí)序。

如果只靠外層的狀態(tài)機(jī),你會(huì)逐漸發(fā)現(xiàn)這種場景是割裂的,因?yàn)楸举|(zhì)上這是一個(gè)10s、20s的長時(shí)序的任務(wù),結(jié)果模型只能處理三秒,所以在這種場景會(huì)斷斷續(xù)續(xù)。而世界模型除了學(xué)習(xí)空間,同時(shí)也會(huì)學(xué)習(xí)時(shí)間,這就使得世界模型能夠支持長時(shí)序的推演,世界模型的外層狀態(tài)機(jī)基本被砍掉了,處理事情會(huì)更一體化。

這也是我們在2023年最核心的思考。



第八屆 GAIR 全球人工智能與機(jī)器人大會(huì)

2025年12月12-13日,第八屆GAIR全球人工智能與機(jī)器人大會(huì),將在深圳南山·博林天瑞喜來登酒店舉辦。

今年大會(huì),將開設(shè)三個(gè)主題論壇,聚焦大模型、算力變革、世界模型等多個(gè)議題,描繪AI最前沿的探索群像,折射學(xué)界與產(chǎn)業(yè)界共建的智能未來。目前,首批重磅大咖名單正式揭曉,還有更多行業(yè)領(lǐng)軍者將齊聚現(xiàn)場,共探智能的未來。歡迎點(diǎn)擊文末“閱讀原文”或識別海報(bào)二維碼,報(bào)名參會(huì),相約 GAIR 2025 ~



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
TVB曝光惠州餐飲業(yè)黑幕,江美儀遭網(wǎng)暴牽連母親,她這次又玩大了

TVB曝光惠州餐飲業(yè)黑幕,江美儀遭網(wǎng)暴牽連母親,她這次又玩大了

娛樂E君
2026-04-22 16:53:28
上海德云社換明星陣容也不火,上座率不高,觀眾評價(jià)更不好

上海德云社換明星陣容也不火,上座率不高,觀眾評價(jià)更不好

我就是個(gè)碼字的
2026-04-23 07:30:03
廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

今日搞笑分享
2026-04-06 17:55:16
伊朗把“大殺器”搬到廣場展示!美軍否認(rèn)從韓國運(yùn)走“薩德”:只是換個(gè)基地,還在半島!美媒打臉特朗普:若再開戰(zhàn)恐“彈藥耗盡”

伊朗把“大殺器”搬到廣場展示!美軍否認(rèn)從韓國運(yùn)走“薩德”:只是換個(gè)基地,還在半島!美媒打臉特朗普:若再開戰(zhàn)恐“彈藥耗盡”

每日經(jīng)濟(jì)新聞
2026-04-22 20:16:08
德國蔡司:美國制裁錯(cuò)了,DUV比EUV重要,今天封鎖DUV已經(jīng)遲了

德國蔡司:美國制裁錯(cuò)了,DUV比EUV重要,今天封鎖DUV已經(jīng)遲了

王新喜
2026-04-22 17:08:24
如今定居廣東的朱芳雨,大兒走籃球路,二兒優(yōu)秀低調(diào),三兒最瀟灑

如今定居廣東的朱芳雨,大兒走籃球路,二兒優(yōu)秀低調(diào),三兒最瀟灑

翰飛觀事
2026-04-22 14:42:17
伊朗發(fā)出威脅,全世界主要光纜經(jīng)過霍爾木茲海峽

伊朗發(fā)出威脅,全世界主要光纜經(jīng)過霍爾木茲海峽

鴻雁復(fù)北翔熱評
2026-04-22 22:44:09
蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

川渝視覺
2026-04-17 22:13:14
加入斯洛文尼亞國籍緊抱東契奇!本賽季的海斯是什么水平?

加入斯洛文尼亞國籍緊抱東契奇!本賽季的海斯是什么水平?

我們的美學(xué)
2026-04-23 08:56:43
女子破廟避雨,見兩黑蛇纏綿不休,她一把扯掉自己紅肚兜

女子破廟避雨,見兩黑蛇纏綿不休,她一把扯掉自己紅肚兜

夢飛故事會(huì)
2024-08-03 21:13:29
蘋果換CEO原因:庫克不夠果斷、搞垮了Vision Pro、汽車等項(xiàng)目

蘋果換CEO原因:庫克不夠果斷、搞垮了Vision Pro、汽車等項(xiàng)目

Switch2來了
2026-04-22 17:00:33
曾經(jīng)那些真實(shí)的特供,超出普通人的想象…

曾經(jīng)那些真實(shí)的特供,超出普通人的想象…

深度報(bào)
2026-04-21 22:56:47
我發(fā)現(xiàn)一個(gè)殘酷真相:孩子長大后,最怨恨的不是管太嚴(yán)的父母……

我發(fā)現(xiàn)一個(gè)殘酷真相:孩子長大后,最怨恨的不是管太嚴(yán)的父母……

新東方家庭教育
2026-04-20 11:10:07
遭同行排擠打壓?張雪:所有品牌都不做我們的售后 只能自己直播

遭同行排擠打壓?張雪:所有品牌都不做我們的售后 只能自己直播

念洲
2026-04-21 08:52:33
何潤東亮相蘇超后爆火!沒收一分錢出場費(fèi),格局不是一般明星能比

何潤東亮相蘇超后爆火!沒收一分錢出場費(fèi),格局不是一般明星能比

洲洲影視娛評
2026-04-22 16:13:43
【聚焦】醫(yī)生不再通宵!5月1日起,全國二級以上公立醫(yī)院執(zhí)行:12小時(shí)輪班制全面推開

【聚焦】醫(yī)生不再通宵!5月1日起,全國二級以上公立醫(yī)院執(zhí)行:12小時(shí)輪班制全面推開

魏子檸說
2026-04-22 00:15:15
民營醫(yī)院迎來全面大整治

民營醫(yī)院迎來全面大整治

牛鍋巴小釩
2026-04-23 00:13:23
A股:緊急提醒,散戶準(zhǔn)備好,主力基本明牌,明天,股市尾聲將至

A股:緊急提醒,散戶準(zhǔn)備好,主力基本明牌,明天,股市尾聲將至

云鵬敘事
2026-04-23 00:02:32
官方:澳U17女足因違規(guī)使用球員,22-0獲勝的比賽被判0-3告負(fù)

官方:澳U17女足因違規(guī)使用球員,22-0獲勝的比賽被判0-3告負(fù)

懂球帝
2026-04-23 00:38:23
醫(yī)保藥店“串換”亂象:一個(gè)持續(xù)多年的“貓鼠”游戲

醫(yī)保藥店“串換”亂象:一個(gè)持續(xù)多年的“貓鼠”游戲

每日經(jīng)濟(jì)新聞
2026-04-22 23:08:08
2026-04-23 10:11:00
新智駕 incentive-icons
新智駕
新智駕,讀懂汽車的未來。
3767文章數(shù) 4397關(guān)注度
往期回顧 全部

科技要聞

車沒賣爆,利潤卻大漲,特斯拉發(fā)布財(cái)報(bào)

頭條要聞

女子出差被老板性侵后向公司索賠250萬 此前年薪120萬

頭條要聞

女子出差被老板性侵后向公司索賠250萬 此前年薪120萬

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

蜜雪冰城泰國代言人 被扒出辱華黑歷史

財(cái)經(jīng)要聞

全球第一個(gè)國家宣布:儲(chǔ)備6月耗盡

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

親子
房產(chǎn)
數(shù)碼
公開課
軍事航空

親子要聞

服了

房產(chǎn)要聞

官宣!今年9月起,廣州中小學(xué)“重點(diǎn)班”將成歷史!

數(shù)碼要聞

2026年Q1中國監(jiān)控?cái)z像頭市場小幅降溫 小米線上銷量蟬聯(lián)第一

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普宣布延長?;?伊朗表態(tài)

無障礙瀏覽 進(jìn)入關(guān)懷版