国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話小馬智行樓天城:馴服脫韁的野馬,讓 AI 自我進化

0
分享至



現(xiàn)在最稀缺的是能駕馭 AI 的人。

文丨李安琪

很長一段時間,樓天城都在向外界解釋一件事:L4 Robotaxi 和 L2 量產(chǎn)智駕不是同一條路。他曾多次說過,模仿學(xué)習(xí)無法實現(xiàn) L4。

最近頭部車企 L2 智駕和供應(yīng)商正在轉(zhuǎn)向世界模型,強化學(xué)習(xí)常常一起出現(xiàn)。對此樓天城表示 No surprise,他說這是小馬智行已經(jīng)做了很多年的事?!跋胱?L4,大家就都要從 0 開始做,或者說再走一遍我們走過的路?!?/p>

樓天城說,小馬智行 2020 年就意識到,依賴人類駕駛行為數(shù)據(jù)的模仿學(xué)習(xí)很快會遇瓶頸;模型需要一個能持續(xù)生成的虛擬場景、評估行為、行為博弈的訓(xùn)練系統(tǒng),才能突破天花板。小馬智行把這套系統(tǒng)稱為 “世界模型”。

2024 年推出世界模型 1.0 時,樓天城曾向我們比喻,世界模型是車端模型的工廠。不同公司對 “世界模型” 的定義不完全相同。在樓天城的描述里,它不直接開車,只負(fù)責(zé)模擬車端模型決策后世界如何變化:周圍交通參與者如何反應(yīng),風(fēng)險是否繼續(xù)演化。

近期,樓天城再次向我們談到世界模型的最新變化。他說,世界模型 1.0 很多判斷仍依賴人:人來診斷問題、判斷開得好不好,再決定采什么數(shù)據(jù)、優(yōu)化哪些場景。

但人力也可能成為 “瓶頸”。在世界模型 2.0 中,小馬智行將更多診斷和反饋工作交給 AI:例如當(dāng)車端模型在某個場景表現(xiàn)不佳時,世界模型 2.0 會嘗試自動識別問題,并要求工程師補采特定場景數(shù)據(jù)。

創(chuàng)業(yè)早年,樓天城作為 CTO 最重要的工作之一是招足夠聰明的人,自動駕駛的系統(tǒng)上限也取決于團隊里最強的工程師。而今天 AI 成為小馬內(nèi)部最聰明的大腦:開車比人好,駕齡比人長。樓天城常常跟工程師說一句既玩笑又認(rèn)真的話,“完成 AI 交給你的任務(wù)?!?/p>

最早走這條路線,樓天城也擔(dān)心:模仿學(xué)習(xí)走不通,新路線短期內(nèi)也不跑不通怎么辦?不過,世界模型的推進速度比他預(yù)期更快。在新技術(shù)路線支撐下,小馬智行計劃今年將 Robotaxi 擴展到全球 20 個城市中心。

把更多工作交給 AI 后,挑戰(zhàn)也隨之而來:AI 的診斷未必總是正確,如何更準(zhǔn)確地識別問題、反饋問題,仍需要在 Robotaxi 實際運營中驗證。樓天城將當(dāng)下的 AI 比喻為脫韁野馬,現(xiàn)在最稀缺的是能駕馭 AI 的人,能設(shè)置框架、讓其自我演進。

樓天城還在研究下一階段的世界模型。雖然還看不清技術(shù)全貌,但他已想到更遠(yuǎn)的終局:他一直堅持認(rèn)為,現(xiàn)實世界是個虛擬世界。如果真的有一天,他希望用世界模型來研究微觀世界,從而理解真實世界究竟如何存在與運轉(zhuǎn)?!斑@可能是人類充分利用 AI 后,我們這代人類能做的最大貢獻之一?!?/p>

以下是我們和小馬智行 CTO 樓天城的對談,內(nèi)容經(jīng)編輯:

“L2 變化很快,但 L2 的積累不會再幫助他們做 L4”

晚點:L2 智駕領(lǐng)域經(jīng)歷了多輪技術(shù)變化,但 L4 Robotaxi 領(lǐng)域很少看到技術(shù)迭代的大波動,為什么?

樓天城:Robotaxi 技術(shù)門檻非常高,必須達(dá)到非常安全才能入門。L2 因為有人接管,可以更早鋪開,技術(shù)方案的變化相對更多。這某種程度上也是 L4 門檻高的一個表現(xiàn)。

晚點:看到 L2 這么多輪變化,你內(nèi)心有什么想法嗎?

樓天城:no surprise,他們走的路徑、這些變化我都經(jīng)歷過。在我看來,確實是大家在努力的過程。

晚點:你自己是怎么變化和迭代的?

樓天城:就是對更高、極致的車輛駕駛能力追求的過程。同樣是 L4,也有很大差別,能不能開到市中心區(qū)域,高峰期能不能開,訂單量夠不夠高,能不能去更多城市和國家,這些都可以不斷進步。從技術(shù)路徑上看,基于世界模型、強化學(xué)習(xí)的大框架這幾年沒有變化,不過細(xì)節(jié)升級是巨大的。

晚點:你們從 2020 年開始摸索世界模型,當(dāng)時 Robotaxi 的表現(xiàn)遇到瓶頸了嗎?

樓天城:所有人都會遇到,單靠收集更多人類數(shù)據(jù)、模仿人類開車這套方式,模型已經(jīng)很難再進步了,就是單車 MPI(平均多少里程需要接管一次)上不去了。我們也是被逼的,原來那套做法已經(jīng)不管用了。

我們 2020 年開始做世界模型和強化學(xué)習(xí)。公司內(nèi)部也經(jīng)歷了這樣的變化:以前模型跟著人類司機開就是了;后來發(fā)現(xiàn),為了實現(xiàn) Robotaxi 的大規(guī)模落地,跟人類司機一樣好是不夠的,于是給模型創(chuàng)造一個虛擬的訓(xùn)練環(huán)境,設(shè)置強化學(xué)習(xí)獎勵函數(shù),模型自己摸索。

就像高中老師,要把知識傳授給學(xué)生;到了讀研讀博階段,很多問題可能導(dǎo)師也不會,但會給你創(chuàng)造條件。用世界模型本身不表示技術(shù)領(lǐng)先,如果精度不高,還不如采集人類數(shù)據(jù)來優(yōu)化。

隨著我們世界模型精度不斷提升,大概 2022 年開始,發(fā)現(xiàn)它能超過傳統(tǒng)模仿學(xué)習(xí)的水平。很多家都開始往世界模型走,說明大家都有了心態(tài)的變化,開始認(rèn)識到人類駕駛能力的不足,認(rèn)識到實際道路采集數(shù)據(jù)可能不是一個好的做法了。

晚點:當(dāng)時的主流應(yīng)該還是模仿學(xué)習(xí),會擔(dān)心冒險嗎?

樓天城:我冒的 “險” 其實是萬一這路還不 work 怎么辦?首先從技術(shù)判斷,大概率還是 work 的,但究竟要用多少時間,可能是個問題。萬一要用很久了,大家能不能支撐這么久?

晚點:虛擬世界是你們的世界模型 1.0,那做世界模型 2.0 的契機是什么?

樓天城:世界模型不是有和沒有的區(qū)別,而是看精度。我們把虛擬世界中的其他車輛的行為跟模型的交互,與真實世界非常接近,叫做精度高;如果差別很大就叫精度低。

世界模型 1.0 的出現(xiàn),是大家接受了要像博士導(dǎo)師一樣給模型創(chuàng)造條件。但這個階段,裁判仍然是人,模型開的好不好,還是人來判斷。但你有沒有想過,有一天人如果判斷不了怎么辦?遇到瓶頸了怎么辦?世界模型 2.0 有個很好的功能是自我糾錯。

有時候路上非常繁忙,車輛該不該減速?說不清楚,萬一撞了怎么辦?只能人為判斷。 但有段時間人為判斷反而車開得更差了,原因是當(dāng) AI 司機的水平顯著超越人之后,人類司機已經(jīng)不足以判斷它開的好不好了。

有一個很著名的梗是圖靈測試,本來是讓人盲測區(qū)分人和 AI,因為當(dāng)時預(yù)期的 AI 是約等于人的能力。但如果 AI 變得比人更強大了怎么辦?世界模型 2.0 也是這個概念,人不能區(qū)分 AI 的駕駛能力好壞了,那就用 AI 來區(qū)分。

晚點:L2 領(lǐng)域很多技術(shù)概念和你提到的東西越來越像:世界模型+強化學(xué)習(xí),技術(shù)共性越來越多?你怎么看?

樓天城:說明大家之前的方案也遇到瓶頸。

晚點:你之前覺得他們大概率到不了 L4。

樓天城:因為之前他們的方案對于做 L4 并沒有幫助。就是說你如果不想做 L4 沒關(guān)系,但想做 L4 大家就從 0 開始做,或者說這種事就走我們的老路上了。

至于達(dá)到什么水平,有可能還是我們 4-5 年前的狀態(tài),得看世界模型的實際精度。Again,世界模型不是有了就可以做到了,還得精度高,車的表現(xiàn)得好。

世界模型本身是虛擬的,如果這個世界物體的行為跟真實世界的不一樣,那訓(xùn)練出來的模型不太會開車。如果其他車反應(yīng)非常激進,那訓(xùn)出來的模型上路肯定謹(jǐn)小慎微,反過來,如果虛擬世界的車都守規(guī)矩,那模型在真實世界就沒有 handle 極端情況的能力,意識不到危險的存在。

晚點:世界模型的共識為什么這么久才形成?

樓天城:之前不形成是因為,大家開始覺得模仿學(xué)習(xí)是方向,還沒到強化學(xué)習(xí)。2020 年之前,我也是模仿學(xué)習(xí),每天多收一點數(shù)據(jù),效果慢慢變好,何必這么累,是個舒適區(qū)。如果沒意識到舒適區(qū)里有瓶頸,就不會跳出來。

根本還是在于,大家愿不愿意接受這是個瓶頸,得承認(rèn)當(dāng)初收集的數(shù)據(jù),很多積累、擅長的東西都變得沒用了,接受會有個過程。但 L2 的積累不會再幫助他們做 L4 了。

晚點:所以你認(rèn)為自動駕駛領(lǐng)域不存在 Scaling law ?

樓天城:這本身是個認(rèn)知。最近大語言模型加數(shù)據(jù)還是會有幻覺。就看你怎么評價它,如果關(guān)注的是幻覺出現(xiàn)的概率,那 Scaling law 可能還不夠;但如果以 general capability (通用能力)來說,Scaling law 是有進步的。

晚點:你看重哪一點?

樓天城:自動駕駛是物理 AI 的一種,出錯的成本非常高。自動駕駛 Scaling law 不管用,是因為 Robotaxi 關(guān)注的東西,靠 Scale 不太管用,萬一有幻覺怎么辦?但如果是常規(guī)場景處理,不要求處理邊界場景比如 L2,司機可以兜底,Scaling law 可能對它有幫助。目標(biāo)不同,不同判斷。

晚點:你什么時候比較完整的看到了世界模型的全貌,全貌應(yīng)該是什么樣的?

樓天城:我也在逐漸看清楚,這是一個過程。2020 年我已經(jīng)想到了,1.0 用虛擬環(huán)境給模型訓(xùn)練,但 2.0 的發(fā)展確實這兩年才看到??赡苓€有世界模型 3.0,今天我還沒看到很多概念。

世界模型 2.0 是 AI ,“完成 AI 交給你的任務(wù)”

晚點:小馬世界模型 1.0 和 2.0 的關(guān)系是什么?

樓天城:我先解釋下世界模型 1.0。首先,“世界模型”“強化學(xué)習(xí)” 一般同時出現(xiàn)。它不再依賴人開車到實際道路采集的數(shù)據(jù),而是依賴的是在虛擬環(huán)境里自演進,這是訓(xùn)練范式的一次躍升。

晚點:你們怎么搭建這個虛擬世界的?

樓天城:世界模型 1.0 大概是 3 個元素:用傳感器數(shù)據(jù)造一個虛擬環(huán)境;其次,環(huán)境里面的各種車、人跟模型的交互要跟真實世界很接近;第三點是評價體系要非常健全,能真正反映車開的好不好,模型會按照打分機制不斷優(yōu)化自己。車會在世界模型里做幾億次甚至幾千億次訓(xùn)練。

有一個很著名的詞,叫 “模型訓(xùn)練模型”,本質(zhì)是拿一個世界模型訓(xùn)練一個車載模型。

晚點:虛擬世界里,你們的車跟其他車的博弈,怎么做到跟真實世界的一樣?

樓天城:首先,渲染的環(huán)境會跟現(xiàn)實世界的一樣,基本看不出差別。人車博弈肯定不會完全一樣,但很接近了。打分機制也要比較完美,它本身也是個老師模型,你沒法直接評價老師模型的好壞,但它的學(xué)生車端模型上路后可以。等于老師教給學(xué)生,學(xué)生到路上表現(xiàn)不好,老師就會反思,原來這個地方?jīng)]教好

最常見的,就是早些年把 corner case 加入一起訓(xùn)練,出現(xiàn)概率太高,“學(xué)生模型” 就會很謹(jǐn)慎了;出現(xiàn)概率太低,“學(xué)生模型” 就會魯莽,所以要調(diào)整概率。

學(xué)生模型的評價體系也重要。比如駕駛的安全感,我們一開始沒有把它加入評價體系,后來才加進去,不斷迭代。我們的車載模型先上路,看看什么地方不好,然后反饋到世界模型改進,再訓(xùn)練車載模型。

晚點:能舉個例子嗎?

樓天城:舉個幾年前的例子,我們的車在雨天老是減速,后來發(fā)現(xiàn)原來雨天時候,傳感器噪聲很多,但我們世界模型中生成的噪聲就很不真實,我們改了之后,車載模型下次就知道要先濾噪,就可以很好應(yīng)對雨天了。

晚點:這個是工程師排查出來的吧。

樓天城:對,但世界模型 2.0 就不是了。

晚點:世界模型 1.0 跟 2.0 有重疊的部分嗎?

樓天城:沒有重疊,連共同之處都沒有。1.0 是數(shù)據(jù)生成的場景,評價體系、環(huán)境交互這些東西,在這些之外,2.0 擁有自我診斷、自我進化的能力。

我們會把車載模型路上收集的各種數(shù)據(jù),也扔給世界模型 2.0,讓它來定義什么是好與不好?它來發(fā)現(xiàn)車載模型哪沒做好,它驅(qū)動了整個世界模型的演進過程、精度提升過程。它自主完成了世界模型 1.0 的工程師得工作。

整個訓(xùn)練過程是,世界模型 1.0 訓(xùn)練車載模型之前,先有另外一個模型來驅(qū)動這個過程,這個模型叫做世界模型 2.0。這樣的好處是,不僅效率更高,而且天花板更高。它是一個更高級的開發(fā)環(huán)境。

晚點:開車是 AI 模型來診斷,但最終乘車的是人類,這個評價體系是不是應(yīng)該考慮用戶?

樓天城:你有坐過 1 萬小時車嗎?

晚點:沒有。

樓天城:乘客給的評價是很有價值的,但不一定表示系統(tǒng)真的有問題,有可能是不同用戶的喜好不同,也可能是正確或者錯誤的判斷,這些我們都會收集起來,讓 AI 判斷到底是什么問題。用戶的體驗權(quán)重我們放很高,但是也會考慮一萬個小時的無人駕駛所有數(shù)據(jù),而不只是一趟體驗。

晚點:如果 AI 給的診斷是錯的呢?

樓天城:它的診斷可能不是 100% 正確,但遠(yuǎn)比人好?;蛘哒f,靠人來診斷,模型進化都是負(fù)面效果了,只能靠它繼續(xù)沖破天花板,這是它令人 exciting 的地方。

晚點:你們已經(jīng)能看到令人 exciting 的表現(xiàn)提升了嗎?

樓天城:首先不僅是沖破天花板,而且提升速度比我們前幾年都快,因為它是自動過程,又快又能沖破天花板。

最明顯的就是 Robotaxi 的市中心表現(xiàn),現(xiàn)在我們?nèi)ジ鞯厥兄行?、能把單量撐上去,很多商業(yè)上的成功,都是靠它做到的。一些狹小道路,各種神奇的場景,我們更能 handle 了。這是基于 1 萬個小時統(tǒng)計的,應(yīng)對不好的表現(xiàn)頻率明顯在降低?,F(xiàn)在評價 Robotaxi,肯定不能再是開一趟的評價了。

晚點:你們世界模型 2.0 有個能力是 intention “意圖層”,它是什么?

樓天城:它是個推演能力,這是世界模型 1.0 的優(yōu)勢,但可能是由世界模型 2.0 的能力提升,使得 intention 意圖層發(fā)揮了潛能 。

簡單舉例,比如人過馬路,要不要過?車變道,要不要變?這些都是意圖層。早年采集數(shù)據(jù),你永遠(yuǎn)沒法問別的司機你的意圖是什么,因為別人不會告訴你,只能采集行為數(shù)據(jù)。但世界模型里面可以生成意圖,這是一個不需要標(biāo)注的無限量的信號。注意,它不是靠采集的,它天然就存在。

大家喜歡把 intention (意圖)跟 language (語言)比,但這兩個完全不是一個東西。

晚點:它是類似于的 CoT 推過程?

樓天城:GPT-3 是吧?差一點,它是輸入層面的推理,不是輸出層的。

它在訓(xùn)練的時候可以生成很多條不同的意圖組合,從而生成其他東西(機動車、行人)的軌跡,它會要求車輛模型在這個多重宇宙中選擇全局最優(yōu)得路線。如果不做多重 intention,車輛模型就會像人一樣,硬選擇一個最可能的意圖組合去開,但有可能這個判斷是錯的。

我們的車端模型可以考慮多種 intention 組合,然后選擇綜合起來最好的方式去開。

晚點:前兩年蔚來技術(shù)日也提到類似思路,車輛生成不同的軌跡預(yù)判,跟你們說的是同一個東西?

樓天城:也是這個思路,只差一點。因為虛擬環(huán)境數(shù)據(jù)是無限的,可以推演所有可能。他們可能還是靠收集數(shù)據(jù),但不能用收集的數(shù)據(jù)涉及所有可能,我們的世界模型可以有無數(shù)種可能,因為他是虛擬生成的。

晚點:有了這個意圖,能帶來的效果是什么?

樓天城:我對所有的意圖可能性都保證了安全,永遠(yuǎn)不需要回答說我們的行為是針對哪一種 intention 組合,這可能就是最大的差別。假如說現(xiàn)實世界有 4 種可能,無論概率高低,模型就始終都考慮 4 種可能下我都會是安全的,而不是在 4 種可能中選 1 個概率最大得來輸出動作。

晚點:這種推演的能力,跟 VLA 模型有什么關(guān)系嗎?

樓天城:沒有。L(Language)是真實世界的東西,而 I(intention)是虛擬世界的東西。

在當(dāng)前算力下,用 I (intention)是最好的,沒有之一?;陂L期算力我說不準(zhǔn),intention 能不能活到最后我不知道,但可以堅持很久。而 Language 哪怕在長期應(yīng)該也不會是最優(yōu)解,最近小鵬也提到了這點,人開車是不用經(jīng)過語言的翻譯的。(注:小鵬得 VLA 2.0 方案中,去掉了語言中間層)。

晚點:所以云端世界模型 “蒸餾” 到車端的模型有變化嗎?

樓天城:嚴(yán)謹(jǐn)?shù)恼f,云端模型沒有 “蒸餾” 到車端這一步,它只訓(xùn)練出個車載模型,“模型訓(xùn)練模型” 過程,這個過程不是蒸餾的。

用蒸餾這個詞會引人誤解,世界模型本質(zhì)是對世界的描述,世界模型不用管怎么開車。世界模型不開車、也不輸出軌跡,只是負(fù)責(zé)讓車在接近真實世界的環(huán)境里運轉(zhuǎn),這是它的唯一任務(wù)。

晚點:但你說它有 intention、有意圖。

樓天城:那是其他物體的意圖,其他物體的軌跡,它完全不管自動駕駛車輛怎么開,它只管自動駕駛車怎么開之后這個世界怎么變化而已。世界模型從數(shù)學(xué)來說就是周圍狀態(tài)的傳遞分布。

導(dǎo)師只負(fù)責(zé)告訴你做什么題,但至于怎么做,跟老師一點關(guān)系沒有,導(dǎo)師不會親自開車。

晚點:世界模型 2.0 你們花了多長時間才做出來?

樓天城:原先計劃是至少 2026 年底或者 2027 年。2.0 之前,AI 大模型還沒有這么火,今天看有這么多實際成功例子下,我覺得回頭看,如果當(dāng)時能預(yù)知到今天這樣子,那的 2.0 一定能夠勝,我會覺得能不能更早點做。

有些效果加速是在近期,迭代過程也不是勻速的,感謝最新的 AI 大潮吧。到現(xiàn)在算是比較穩(wěn)定了。

晚點:世界模型的效果有超出你的預(yù)期嗎?

樓天城:我不想這么說,預(yù)期本來應(yīng)該設(shè)得高一些。這是一個新的理念,新的開發(fā)范式,徹底顛覆,是很令人激動的事。我不確定什么時候到來,但比想象更快一些。

晚點:這個過程當(dāng)中,你個人的狀態(tài)是什么樣子的?

樓天城:這些年開發(fā),我自認(rèn)為還是比較 open,知道 AI 的潛力和人的局限。任何東西不如機器是很正常的,我更多是評判這個路徑能不能走得通。

晚點:內(nèi)部有工程師不理解這個路徑嗎?

樓天城:跟世界模型 1.0 是一樣,總會有人質(zhì)疑,但工程師還是非常有韌勁的團體,大家愿意去做一些新的嘗試,達(dá)到效果。

晚點:世界模型 2.0 是一個新的開發(fā)方式,對你們的工程師和組織管理帶來的變化是什么?

樓天城:公司的確發(fā)生了很大的變化。世界模型 1.0 是工程師親自下場教,工程師要開始當(dāng)導(dǎo)師和裁判。而現(xiàn)在我們也得抽出來,AI 是裁判了,我們開始研究怎么幫助 AI 驅(qū)動、訓(xùn)練過程變得更快,模型部署更優(yōu)或者讓車載系統(tǒng)成本更低,大家會把更多精力放到其他同樣很有意義的工作。

晚點:可能訓(xùn)練模型只需要很少一撮人,其他人去做數(shù)據(jù)處理或者仿真這些?

樓天城:聽 AI 說讓你做什么,完成 AI 給你分配的任務(wù)。雖然是開玩笑,但公司很多人都在做這個事,這是新的變化。

晚點:包括你嗎?

樓天城:AI 當(dāng)然沒有直接給我下任務(wù),但 “完成 AI 交給你的任務(wù),且高質(zhì)量完成”,是內(nèi)部很認(rèn)真的說法。很多研發(fā)中的任務(wù)究竟應(yīng)該做什么,是由 AI 來判斷的,員工的心態(tài)變化需要跟上。

晚點:這會讓工程師的價值感來源降低?

樓天城:首先這個 AI 是他們自己 build,這難道不是更大的成就感嗎?我要替工程師說一句,我們工程師是非常上進的團體,大家一直想 build 一些能比自己做得好的東西,這是巨大的成就。今天拋開自動駕駛,整個 AI 圈不斷發(fā)生這樣的事情。

我也很鼓勵、努力幫助我們的同事做得比我更好,我會身體力行去幫他,這是巨大的成就感。

晚點:世界模型 2.0 繼續(xù)升級,還有哪些技術(shù)挑戰(zhàn)?

樓天城:這已經(jīng)是 AI for development (人工智能促進發(fā)展)的雛形了,要做得更深、寬度更廣。更深就是識別問題更準(zhǔn),發(fā)現(xiàn)問題收集反饋更準(zhǔn)確,以及部署過程更穩(wěn),更有效率。其實還有一點,就是今天我跟你講這東西,會不會是 AI 告訴我的?

晚點:有點嚇人。

樓天城:世界模型 2.0 本質(zhì),是不是可以認(rèn)為 AI 運行了一個組織,這個組織由虛擬人來驅(qū)動自動駕駛系統(tǒng)的開發(fā)。但這個組織能不能更大一點,變成公司本身呢?我今天出去路演,是不是 AI 讓我做的?

這個沒有道理不可能,但它需要可能更多機制,今天技術(shù)還不夠,但以后有可能。今天 2.0 可以認(rèn)為是 AI 開始運行了一個社區(qū)、一個團隊,它們來專門驅(qū)動自動駕駛的看法。畢竟它是 AI,需要一些人去物理世界幫他收集東西,它肯定是有這樣一個組織,雖然不是物理的,但它可以告訴我們怎么給你講這些東西。

晚點:如果你們的這匹馬失控了呢?

樓天城:這也是我們愿意做的事情另一個意義吧,我們盡可能理解 AI 的邊界,才能讓它不失控。好在,AI 操作物理世界至少今天還需要通過人,但這個東西有一天也可以被打破的。

L2 和 L4,我選擇了自己更擅長的東西

晚點:你之前在訪談中提到過,做 L2 和 L4 的差別還挺大的。

樓天城:我個人感受來說,這是大家開發(fā)理念上的差別,做 L2 會問只裝一個激光雷達(dá)夠不夠,甚至不裝激光雷達(dá)夠不夠?做 L4 不會問這種問題,萬一不夠怎么辦?L4 應(yīng)該優(yōu)先保證足夠安全。

大家的目標(biāo)不一樣,會有很多理念上的沖撞,其實就是對 corner case 的態(tài)度,很難交互、極端的場景,L4 車輛需要的是怎么解決,L2 的產(chǎn)品邏輯是提醒用戶接管。

晚點:所以你們專注于做 L4。

樓天城:我從個人角度來解釋。我更擅長做一些更有開創(chuàng)性、有意義的東西。你讓我去摳成本,肯定能做,但這不是我最擅長的點。這個跟公司本身的 DNA、更擅長什么有關(guān)系。

人和 AI 一樣,都有個學(xué)習(xí)過程。剛才說的也是我逐步慢慢學(xué)到的。我愿意以第一性原理去分析這個事,不再把個人很多喜好放進來,做更理性的判斷

晚點:更大的算力對你們來說是誘惑嗎?現(xiàn)在很多量產(chǎn)車的算力也到了千 TOPS。

樓天城:算力如果能差 100 倍,還是有區(qū)別的。但如果只是差幾倍,從駕駛能力上看沒有本質(zhì)差別。1000 TOPS 跟 3000 TOPS 沒有區(qū)別。如果想壓縮模型,從模型結(jié)構(gòu)設(shè)計上可以輕松把 3 倍拉回來,但 100 倍那做不到。

晚點:聽起來 “芯片自研帶來軟硬件一體化” 這事不是很吸引你。

樓天城:如果差 100 倍是有的,DeepSeek 當(dāng)年是 20 倍,那是人和純軟件的努力。

晚點:今年你們的 Robotaxi 目標(biāo)是 20 個城市,2022 年車企智駕的 “百城大戰(zhàn)” 打得很辛苦你們比他們還多了一重挑戰(zhàn):無人車的精細(xì)化運營。要怎么做?

樓天城:從 Robotaxi 角度來說,在中國,一線城市是主導(dǎo)市場。Robotaxi 的特殊之處,不需要做百城或者永遠(yuǎn)都沒必要去做百城,這是商業(yè)模式所決定的,做好幾個關(guān)鍵的城市就可以,可能 20 城已經(jīng)占據(jù)非常重要的部分了。我們的 20 城包括海外。

技術(shù)已經(jīng)不是 Robotaxi 的瓶頸了。我們?nèi)ヒ粋€新城市,遇到的一些極端情況,基本在世界模型生成的很多 corner case 都見過了。

晚點:最近你們遇到的比較棘手的城市是哪個?

樓天城:比如下暴雪、路面結(jié)冰這種極端天氣比較難,這是一個自動駕駛還沒能特別涉足的場景,但是世界上路面不結(jié)冰的地方還是很多的。

晚點:Robotaxi 規(guī)模變大,怎么避免可能帶來的規(guī)模交通事故?

樓天城:我們的評價體系中,安全肯定第一,車的舒適性、還有通行效率都很重要。早年時候,我們的世界模型就把通行效率放到其中,所以會比較靈活地穿梭在每個地方,這是一直做的事。

還有一點,我們也很看重冗余系統(tǒng),我們也和豐田、廣汽、北汽一起打造量產(chǎn)的 Robotaxi,就是希望硬件上有冗余,比如緊急情況下能靠邊停車、防止本車道停車被追尾或者堵塞交通,這些都是冗余安全的范圍。可能觸發(fā)頻率不高,但在長期的運營中很重要。

晚點:特斯拉在北美奧斯汀也開始做車內(nèi)無人的 Robotaxi 的運營了,它下一步可能面臨什么?

樓天城:數(shù)量就沒起來,他們也公布了事故率的數(shù)字,但還沒比人開車安全低很多,還沒到那個水平。這個跟他們的車隊數(shù)量有關(guān)。無人的還不太打得到,數(shù)量太少了。

還是先把無人車做到吧,100 萬輛的有人車,不會有一天突然就變成 100 萬輛無人車。哪怕它有很多量產(chǎn)車,但無人車輛也得從個位數(shù)開始。

晚點:有可能它的擴張速度會快一點。

樓天城:就得看實際進展了。百萬輛有人的車并沒有幫助它這個過程走的更快,否則絕對不會只在今天的范圍和無人車規(guī)模。它這一兩年的范圍擴展并不明顯。

晚點:Robotaxi 什么時候可以上高速?

樓天城:現(xiàn)在主駕無人的高速就只對內(nèi)部開放,在技術(shù)和監(jiān)管更 ready 之后我們會對外開放。我們內(nèi)部的測試線就是去從公司去機場。當(dāng)下 L2 高速容易于城區(qū),L4 城區(qū)容易于高速,所有的人都這么認(rèn)為的。

高速是高價值場景,但高速上的極端事件頻率很低,導(dǎo)致學(xué)習(xí)時的梯度下降速度變得更慢,更難發(fā)現(xiàn)問題,導(dǎo)致過程非常長,哪怕在 AI 幫助下。

比如在城市路上開了 1 萬小時,基本就知道開成什么樣子了。但高速還是不行,不知道什么路段開得不好沒有千萬公里高速公路里程積累,都不要說能在高速上開得好。

晚點:過去幾年行業(yè)對卡車有一些比較過高的期待,收費沒那么容易,你們從技術(shù)或者商業(yè)的角度怎么理解卡車的戰(zhàn)略意義?

樓天城:卡車的天花板非常高,行業(yè)價值可以跟 Robotaxi 相提并論。我們的卡車跟乘用車用的是一套代碼,但卡車個兒大,法規(guī)要求更嚴(yán)格,所以在公開道上鋪開會更慢。我們也在港口做卡車,包括專線,但一個能在港口開卡車的 司機,他的能力是在外面公開道路鍛煉出來的。技術(shù)現(xiàn)在不是主要的 blocker,我們也在等政策成熟。我們一定會咬住這塊業(yè)務(wù)。

晚點:目前來看,L4 自動駕駛編隊行駛(前車有安全員、后車無人)是更加可行的產(chǎn)品形態(tài)?

樓天城:編隊是個長期產(chǎn)品。可以認(rèn)為,編隊的司機就是我們負(fù)責(zé)自動駕駛卡車運營的人。 Robotaxi 在一個區(qū)域,我們會有些地勤網(wǎng)格員在守著,車壞了也還是離不開運營人員。但卡車不能幾千公里一路都守,編隊司機就等于是網(wǎng)格員,這是長期存在且 work 的商業(yè)模式。到了集散地,總要人來簽字,網(wǎng)格員可以 cover。

晚點:卡車端的模型跟 Robotaxi 是完全同一套嗎?

樓天城:是一起被訓(xùn)練出來的,但最后的控制模型環(huán)節(jié),卡車和乘用車不太一樣。

晚點:Robotaxi 已經(jīng)開始單車盈利了,卡車呢?

樓天城:車和 Robotaxi 的商業(yè)模式不同,因為卡車的能源和車輛成本占比更高,其實哪怕是有安全員的 Robotruck,單車也是盈利的。所以卡車的目標(biāo)是隨著技術(shù)發(fā)展,提高卡車車隊的人車比,解決卡車司機短缺的問題。

AI 是脫韁野馬,打造一副馬鞍駕馭它,讓它自己演化

晚點:你們今年的新技術(shù)迭代,跟過去兩年 AI 大模型的技術(shù)進化,是同時發(fā)生的嗎?

樓天城:世界模型的發(fā)展跟整個 AI 大勢非常相關(guān)。2018 年根本沒有生成模型,但今天大家已經(jīng)生成的不錯了。我們當(dāng)時選擇了 follow,才獲得了今天的東西。

晚點:有同行說,自動駕駛行業(yè)最大的打擊可能來自于多模態(tài)大模型的降維打擊,比如字節(jié)等,你怎么看?

樓天城:自動駕駛可不僅僅只是一個模型,還有運行模型的框架、芯片部署,內(nèi)存/CPU 怎么分配、傳感器系統(tǒng)如何設(shè)計冗余,車上路后還有各種運營問題。

從商業(yè)來看,好的模型只是其中一小部分。即便有更多模型出來,Robotaxi 行業(yè)的壁壘也不會降低,必須把所有東西都做好才行。

從技術(shù)維度上看,今天大家的關(guān)注重點還是多模態(tài)嗎?假如明天出來一個新模型,大家只會問它對 coding、agent 有多大幫助?今天關(guān)注點早就不在多模態(tài)上,都在 AI coding 上了。

AI coding 后面是什么?AI for development,我們的世界模型 2.0 是 AI for development 的一種可能,物理 AI、AI for science(人工智能助力科學(xué))是另一種可能。多模態(tài)已經(jīng)是過去時了,今天大家聊的至少是 coding 或者是 coding 往后的東西。

晚點:你們現(xiàn)在最稀缺、最需要的是什么樣的人才?

樓天城:是 Harness(馬具),能駕馭 AI 的人。我們要的是訓(xùn)練馬的能力,得建一套系統(tǒng),要知道如何分解任務(wù)、構(gòu)建系統(tǒng),知道如何讓 AI 驗證,給 AI 設(shè)計一個讓它不斷發(fā)揮、改進的路程。

但這種駕馭 AI 的能力是在幾年前、在還沒有 AI 的時候訓(xùn)練出來的。如果工作第一天就開始用 AI,我可能永遠(yuǎn)不會用這個東西。

我們也在一些高校上課,發(fā)現(xiàn)學(xué)生考試成績都是直線下降,因為大家做作業(yè)基本都拿 AI 做,這是很嚴(yán)重的問題。這是局部最優(yōu),但長期有害。我寫 code 也有這種感受,用 AI 久了之后就不如原來了,得去思考,讓 AI 怎么一步步做這個東西。如果我沒有原來的積累,我會擔(dān)心我培養(yǎng)不出來這東西。

晚點:現(xiàn)在頂級的 AI 人才會更傾向于流向 AI 大廠、具身公司,Robotaxi 公司在人才的吸引力上會受到影響嗎?

樓天城:蘿卜白菜各有所愛,很多人確實有理由去大廠,但學(xué)術(shù)、工業(yè)都還有個人偏好。我們更多還是找大家互相 match 的人,大家各自有各自的 taste。如果你關(guān)心應(yīng)用、關(guān)心物理世界,那沒有比自動駕駛更好的方向了。指望具身應(yīng)用?那還早,商業(yè)模式都根本不成熟,將來的成本、能耗都還沒算。

今天至少比前幾年前好,我可以非常自信地說,自動駕駛是物理 AI 中最早、最 pioneer(先鋒)的應(yīng)用。

晚點:你現(xiàn)在也用 AI coding 嗎?

樓天城:我是深度應(yīng)用使用者,我自認(rèn)為有一些理解。對于 AI coding 本身,我相信你肯定聽到過 “Harness” 這個詞,意思是馬鞍,今天大模型很火,但就跟脫韁野馬一樣,如果直接騎上去,估計會摔得半死。如何限制、駕馭它,讓它們在框架中自己演進才是關(guān)鍵。

如何駕馭它,差別非常大。AI 用的好不好的人之間,原來差距可能是 120% 到 180% 的區(qū)別,但今天可能是 100 倍和負(fù) 200 倍的差別,差距在拉大。

晚點:你之前很喜歡參加編程競賽,現(xiàn)在沒人看非 AI 的榜了,你還有競賽樂趣嗎?

樓天城:我跟 AI 一起配合吧,我用 AI 幫我去刷某些東西,幫我做一些題,在一些有影響力的題庫上,排得也非常高,但這是個人的行為。again,學(xué)會駕馭 AI,讓 AI 能更好地做題。如果說要有樂趣,這可能是唯一有價值的樂趣了。

晚點:今年小馬成立 10 年了。你本人跟小馬公司有比較大的變化嗎?

樓天城:一直保持變化,每過一段時間就要重新審視一下這個行業(yè),究竟挑戰(zhàn)是什么,該做什么,哪些新的東西能被我們所用,哪些新的坑要躲開。

晚點:創(chuàng)業(yè)這么久,你個人的最大的歷練是什么?

樓天城:很多,首先跟上技術(shù)發(fā)展。其次,幫助別人進步吧。幾年前吧,很多投資人伙伴問我,我說我最重要的任務(wù)就是招到比我好的人,給他們更好的發(fā)揮空間,這是我一直堅持做的事情。

晚點:今天可能得加一個前提,AI 可能已經(jīng)比大部分人要做得好。

樓天城:對,在有 AI 的背景下,讓它成為最好的。

晚點:那你最希望能立刻改變的是什么?

樓天城:自動駕駛跟很多大語言模型的差別是,它的感性認(rèn)識需要物理體驗,得真正坐進去才有感受,不像聊天工具,打開網(wǎng)頁就可以感受了。

所以先行者的優(yōu)勢非常大,后來者必須也同樣要通過物理世界接觸,別人才能改變印象。它不會以互聯(lián)網(wǎng)那種方式爆發(fā),但 again,爆發(fā)之后也絕不會在短時間內(nèi)就開始易主。

晚點:世界模型第三階段是什么?

樓天城:世界模型本身有三個階段,第三階段就是物理世界模型,這是世界模型的未來,甚至要接觸 AI for science 了,做一些這樣的能力的積累,不是壞事,或多或少幫到第二階世界模型。但如果做,它肯定不會局限在自動駕駛了,會擴展到更大范圍了。

晚點:你們的產(chǎn)品布局也會到更大范圍嗎?

樓天城:至少先具備這個能力吧,產(chǎn)品方面肯定是更全面的決定,會根據(jù)實際商業(yè)情況做綜合的考慮。合適的時候我再對外分享。

晚點:AI 能開車、擁有對世界推演的能力之后,就能做好家務(wù)嗎?

樓天城:不能。做家務(wù)只是一個最常見的物理 AI 應(yīng)用,但如果我對物理定律沒有理解,可能永遠(yuǎn)只能做非常低階的事。自動駕駛當(dāng)年要用世界模型,就是因為要超越人的水平,將來更多物理世界應(yīng)用,單純跟人模仿還是會遇到瓶頸。

機器人可能今天還在早期,有很多進展,但它們還沒走到被要求超越人的階段,它還沒到我們 2020 年要開始用世界模型的階段。但很多物理定律的引入非常困難,今天連重力最基本的定律引入都非常困難,很多機器人倒水倒到杯子下面去了。

晚點:世界模型第三階段之后,你能看到的終局是什么?

樓天城:還真有終局。比如機器人能在里面做訓(xùn)練,這是最基本的。這是宏觀物理世界,但還有一個微觀物理世界,如果真有那一天,我還能做這些事,我想用微觀物理世界真正理解,我們的世界究竟是如何被存在的。我一直堅持,我們的世界是個虛擬世界。

晚點:是外星人布置的嗎?

樓天城:微觀世界有很多東西的,比如量子干涉,玻色子、粒子這些。他們究竟怎么運轉(zhuǎn)的?很多問題還沒解決。這些東西究竟能不能通過一個虛擬環(huán)境來做模擬?如果能,可能我們就可以真正理解我們的世界是如何被模擬的。

這可能是人類這么多年充分利用 AI 后,我們這代人類能做的最大貢獻之一,這點毋庸置疑。我不知道我有沒有機會能 touch 到它,如果能,我一定會盡我全力。

題圖來源:小馬智行

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特魯姆普狂轟第1150桿破百 世錦賽領(lǐng)先瓦菲

特魯姆普狂轟第1150桿破百 世錦賽領(lǐng)先瓦菲

環(huán)球體壇啄木鳥
2026-04-27 12:28:18
研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

黯泉
2026-04-01 17:28:39
伊朗略微做出讓步,提出三步談判方案,但特朗普并不買賬

伊朗略微做出讓步,提出三步談判方案,但特朗普并不買賬

山河路口
2026-04-27 13:27:54
一種水果,生津養(yǎng)身,從谷雨喝到立夏,全身津液都潤透了

一種水果,生津養(yǎng)身,從谷雨喝到立夏,全身津液都潤透了

江江食研社
2026-04-26 16:30:05
一個收入不高的人,可以偽精致到什么程度?網(wǎng)友:天天為賬單發(fā)愁

一個收入不高的人,可以偽精致到什么程度?網(wǎng)友:天天為賬單發(fā)愁

另子維愛讀史
2026-04-20 09:36:56
建筑行業(yè)大洗牌!央企熬了40年,不再外包開始自建工人

建筑行業(yè)大洗牌!央企熬了40年,不再外包開始自建工人

別人都叫我阿腈
2026-04-27 16:55:34
日軍一個師團有多少兵力?為何武漢會戰(zhàn)50個軍打不過10個師團

日軍一個師團有多少兵力?為何武漢會戰(zhàn)50個軍打不過10個師團

史之銘
2026-04-27 16:29:11
50個冷門冷知識,知道10個就很厲害

50個冷門冷知識,知道10個就很厲害

心中的麥田
2026-03-31 21:23:41
千島湖又面臨兩大困難:鰱鳙放養(yǎng)60多年,“保水魚”保住了什么?

千島湖又面臨兩大困難:鰱鳙放養(yǎng)60多年,“保水魚”保住了什么?

花小貓的美食日常
2026-04-25 00:18:49
高崗自殺后,彭德懷、林彪的表現(xiàn)令人感慨

高崗自殺后,彭德懷、林彪的表現(xiàn)令人感慨

深度報
2026-04-25 22:55:42
35歲下海經(jīng)商,55歲娶孔東梅,69歲已是百億富豪,長子成他的驕傲

35歲下海經(jīng)商,55歲娶孔東梅,69歲已是百億富豪,長子成他的驕傲

冷紫葉
2026-04-21 16:09:57
老話說“三月怕十二”,明日三月十二,有啥可怕的?看老祖宗咋說

老話說“三月怕十二”,明日三月十二,有啥可怕的?看老祖宗咋說

阿龍美食記
2026-04-27 02:12:05
火箭對陣湖人G5前瞻 烏度卡G4的防守策略取得成功 雷迪克如何應(yīng)對

火箭對陣湖人G5前瞻 烏度卡G4的防守策略取得成功 雷迪克如何應(yīng)對

大話火箭隊
2026-04-27 17:17:38
AI跪了:圍棋的上帝,是300年前的古人!

AI跪了:圍棋的上帝,是300年前的古人!

我不叫阿哏
2026-04-27 12:33:03
刺殺老蔣失敗,殺手投奔延安,毛主席:你絕對不能留在這里

刺殺老蔣失敗,殺手投奔延安,毛主席:你絕對不能留在這里

抽象派大師
2026-04-24 12:06:13
以為很健康,實際上卻是“垃圾”,這6種食物你吃過幾種?

以為很健康,實際上卻是“垃圾”,這6種食物你吃過幾種?

Home范
2026-04-27 10:05:33
陸毅50歲體重飆至176斤,血壓偏高嘴唇發(fā)紫入院

陸毅50歲體重飆至176斤,血壓偏高嘴唇發(fā)紫入院

日不西沉
2026-04-26 23:00:12
“香港演員幾乎全軍覆沒! 無戲可拍”引發(fā)網(wǎng)友熱議

“香港演員幾乎全軍覆沒! 無戲可拍”引發(fā)網(wǎng)友熱議

許三歲
2026-03-26 11:35:13
這筆錢,不簡單

這筆錢,不簡單

牛彈琴
2026-04-27 06:08:11
她只是去超市買油,卻再也沒回家:北京獨生女留學(xué)加拿大之死

她只是去超市買油,卻再也沒回家:北京獨生女留學(xué)加拿大之死

閱微札記
2026-03-07 12:02:00
2026-04-27 18:47:00
晚點LatePost
晚點LatePost
晚一點,好一點。商業(yè)的真相總是在晚點?!锻睃cLatePost》官方賬號
3178文章數(shù) 21926關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

東方甄選多位主播離職 羅永浩連發(fā)6個問句怒懟網(wǎng)友

頭條要聞

東方甄選多位主播離職 羅永浩連發(fā)6個問句怒懟網(wǎng)友

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

黃楊鈿甜為“耳環(huán)風(fēng)波”出鏡道歉:謠言已澄清

財經(jīng)要聞

Meta 140億收購Manus遭中國發(fā)改委否決

汽車要聞

不那么小眾也可以 smart的路會越走越寬

態(tài)度原創(chuàng)

教育
時尚
健康
游戲
手機

教育要聞

中考數(shù)學(xué)壓軸題,等腰三角形形的存在問題,中考數(shù)學(xué)重難點

春天衣服別只穿黑色,看看下面這些彩色穿搭,亮眼還有感染力

干細(xì)胞如何讓燒燙傷皮膚"再生"?

育碧聽勸了?承諾原版《黑旗》繼續(xù)賣并且價格永降!

手機要聞

最強Mate來了!華為Mate 90最快9月亮相:首發(fā)麒麟最強芯

無障礙瀏覽 進入關(guān)懷版