對話小馬智行樓天城：馴服脫韁的野馬，讓 AI 自我進化

2026-04-24 22:26:59　來源: 晚點LatePost

北京舉報

分享至

現(xiàn)在最稀缺的是能駕馭 AI 的人。

文丨李安琪

很長一段時間，樓天城都在向外界解釋一件事：L4 Robotaxi 和 L2 量產(chǎn)智駕不是同一條路。他曾多次說過，模仿學(xué)習(xí)無法實現(xiàn) L4。

最近頭部車企 L2 智駕和供應(yīng)商正在轉(zhuǎn)向世界模型，強化學(xué)習(xí)常常一起出現(xiàn)。對此樓天城表示 No surprise，他說這是小馬智行已經(jīng)做了很多年的事?！跋胱?L4，大家就都要從 0 開始做，或者說再走一遍我們走過的路?！?/p>

樓天城說，小馬智行 2020 年就意識到，依賴人類駕駛行為數(shù)據(jù)的模仿學(xué)習(xí)很快會遇瓶頸；模型需要一個能持續(xù)生成的虛擬場景、評估行為、行為博弈的訓(xùn)練系統(tǒng)，才能突破天花板。小馬智行把這套系統(tǒng)稱為 “世界模型”。

2024 年推出世界模型 1.0 時，樓天城曾向我們比喻，世界模型是車端模型的工廠。不同公司對 “世界模型” 的定義不完全相同。在樓天城的描述里，它不直接開車，只負(fù)責(zé)模擬車端模型決策后世界如何變化：周圍交通參與者如何反應(yīng)，風(fēng)險是否繼續(xù)演化。

近期，樓天城再次向我們談到世界模型的最新變化。他說，世界模型 1.0 很多判斷仍依賴人：人來診斷問題、判斷開得好不好，再決定采什么數(shù)據(jù)、優(yōu)化哪些場景。

但人力也可能成為 “瓶頸”。在世界模型 2.0 中，小馬智行將更多診斷和反饋工作交給 AI：例如當(dāng)車端模型在某個場景表現(xiàn)不佳時，世界模型 2.0 會嘗試自動識別問題，并要求工程師補采特定場景數(shù)據(jù)。

創(chuàng)業(yè)早年，樓天城作為 CTO 最重要的工作之一是招足夠聰明的人，自動駕駛的系統(tǒng)上限也取決于團隊里最強的工程師。而今天 AI 成為小馬內(nèi)部最聰明的大腦：開車比人好，駕齡比人長。樓天城常常跟工程師說一句既玩笑又認(rèn)真的話，“完成 AI 交給你的任務(wù)?！?/p>

最早走這條路線，樓天城也擔(dān)心：模仿學(xué)習(xí)走不通，新路線短期內(nèi)也不跑不通怎么辦？不過，世界模型的推進速度比他預(yù)期更快。在新技術(shù)路線支撐下，小馬智行計劃今年將 Robotaxi 擴展到全球 20 個城市中心。

把更多工作交給 AI 后，挑戰(zhàn)也隨之而來：AI 的診斷未必總是正確，如何更準(zhǔn)確地識別問題、反饋問題，仍需要在 Robotaxi 實際運營中驗證。樓天城將當(dāng)下的 AI 比喻為脫韁野馬，現(xiàn)在最稀缺的是能駕馭 AI 的人，能設(shè)置框架、讓其自我演進。

樓天城還在研究下一階段的世界模型。雖然還看不清技術(shù)全貌，但他已想到更遠(yuǎn)的終局：他一直堅持認(rèn)為，現(xiàn)實世界是個虛擬世界。如果真的有一天，他希望用世界模型來研究微觀世界，從而理解真實世界究竟如何存在與運轉(zhuǎn)?！斑@可能是人類充分利用 AI 后，我們這代人類能做的最大貢獻之一?！?/p>

以下是我們和小馬智行 CTO 樓天城的對談，內(nèi)容經(jīng)編輯：

“L2 變化很快，但 L2 的積累不會再幫助他們做 L4”

晚點：L2 智駕領(lǐng)域經(jīng)歷了多輪技術(shù)變化，但 L4 Robotaxi 領(lǐng)域很少看到技術(shù)迭代的大波動，為什么？

樓天城：Robotaxi 技術(shù)門檻非常高，必須達(dá)到非常安全才能入門。L2 因為有人接管，可以更早鋪開，技術(shù)方案的變化相對更多。這某種程度上也是 L4 門檻高的一個表現(xiàn)。

晚點：看到 L2 這么多輪變化，你內(nèi)心有什么想法嗎？

樓天城：no surprise，他們走的路徑、這些變化我都經(jīng)歷過。在我看來，確實是大家在努力的過程。

晚點：你自己是怎么變化和迭代的？

樓天城：就是對更高、極致的車輛駕駛能力追求的過程。同樣是 L4，也有很大差別，能不能開到市中心區(qū)域，高峰期能不能開，訂單量夠不夠高，能不能去更多城市和國家，這些都可以不斷進步。從技術(shù)路徑上看，基于世界模型、強化學(xué)習(xí)的大框架這幾年沒有變化，不過細(xì)節(jié)升級是巨大的。

晚點：你們從 2020 年開始摸索世界模型，當(dāng)時 Robotaxi 的表現(xiàn)遇到瓶頸了嗎？

樓天城：所有人都會遇到，單靠收集更多人類數(shù)據(jù)、模仿人類開車這套方式，模型已經(jīng)很難再進步了，就是單車 MPI（平均多少里程需要接管一次）上不去了。我們也是被逼的，原來那套做法已經(jīng)不管用了。

我們 2020 年開始做世界模型和強化學(xué)習(xí)。公司內(nèi)部也經(jīng)歷了這樣的變化：以前模型跟著人類司機開就是了；后來發(fā)現(xiàn)，為了實現(xiàn) Robotaxi 的大規(guī)模落地，跟人類司機一樣好是不夠的，于是給模型創(chuàng)造一個虛擬的訓(xùn)練環(huán)境，設(shè)置強化學(xué)習(xí)獎勵函數(shù)，模型自己摸索。

就像高中老師，要把知識傳授給學(xué)生；到了讀研讀博階段，很多問題可能導(dǎo)師也不會，但會給你創(chuàng)造條件。用世界模型本身不表示技術(shù)領(lǐng)先，如果精度不高，還不如采集人類數(shù)據(jù)來優(yōu)化。

隨著我們世界模型精度不斷提升，大概 2022 年開始，發(fā)現(xiàn)它能超過傳統(tǒng)模仿學(xué)習(xí)的水平。很多家都開始往世界模型走，說明大家都有了心態(tài)的變化，開始認(rèn)識到人類駕駛能力的不足，認(rèn)識到實際道路采集數(shù)據(jù)可能不是一個好的做法了。

晚點：當(dāng)時的主流應(yīng)該還是模仿學(xué)習(xí)，會擔(dān)心冒險嗎？

樓天城：我冒的 “險” 其實是萬一這路還不 work 怎么辦？首先從技術(shù)判斷，大概率還是 work 的，但究竟要用多少時間，可能是個問題。萬一要用很久了，大家能不能支撐這么久？

晚點：虛擬世界是你們的世界模型 1.0，那做世界模型 2.0 的契機是什么？

樓天城：世界模型不是有和沒有的區(qū)別，而是看精度。我們把虛擬世界中的其他車輛的行為跟模型的交互，與真實世界非常接近，叫做精度高；如果差別很大就叫精度低。

世界模型 1.0 的出現(xiàn)，是大家接受了要像博士導(dǎo)師一樣給模型創(chuàng)造條件。但這個階段，裁判仍然是人，模型開的好不好，還是人來判斷。但你有沒有想過，有一天人如果判斷不了怎么辦？遇到瓶頸了怎么辦？世界模型 2.0 有個很好的功能是自我糾錯。

有時候路上非常繁忙，車輛該不該減速？說不清楚，萬一撞了怎么辦？只能人為判斷。但有段時間人為判斷反而車開得更差了，原因是當(dāng) AI 司機的水平顯著超越人之后，人類司機已經(jīng)不足以判斷它開的好不好了。

有一個很著名的梗是圖靈測試，本來是讓人盲測區(qū)分人和 AI，因為當(dāng)時預(yù)期的 AI 是約等于人的能力。但如果 AI 變得比人更強大了怎么辦？世界模型 2.0 也是這個概念，人不能區(qū)分 AI 的駕駛能力好壞了，那就用 AI 來區(qū)分。

晚點：L2 領(lǐng)域很多技術(shù)概念和你提到的東西越來越像：世界模型+強化學(xué)習(xí)，技術(shù)共性越來越多？你怎么看？

樓天城：說明大家之前的方案也遇到瓶頸。

晚點：你之前覺得他們大概率到不了 L4。

樓天城：因為之前他們的方案對于做 L4 并沒有幫助。就是說你如果不想做 L4 沒關(guān)系，但想做 L4 大家就從 0 開始做，或者說這種事就走我們的老路上了。

至于達(dá)到什么水平，有可能還是我們 4-5 年前的狀態(tài)，得看世界模型的實際精度。Again，世界模型不是有了就可以做到了，還得精度高，車的表現(xiàn)得好。

世界模型本身是虛擬的，如果這個世界物體的行為跟真實世界的不一樣，那訓(xùn)練出來的模型不太會開車。如果其他車反應(yīng)非常激進，那訓(xùn)出來的模型上路肯定謹(jǐn)小慎微，反過來，如果虛擬世界的車都守規(guī)矩，那模型在真實世界就沒有 handle 極端情況的能力，意識不到危險的存在。

晚點：世界模型的共識為什么這么久才形成？

樓天城：之前不形成是因為，大家開始覺得模仿學(xué)習(xí)是方向，還沒到強化學(xué)習(xí)。2020 年之前，我也是模仿學(xué)習(xí)，每天多收一點數(shù)據(jù)，效果慢慢變好，何必這么累，是個舒適區(qū)。如果沒意識到舒適區(qū)里有瓶頸，就不會跳出來。

根本還是在于，大家愿不愿意接受這是個瓶頸，得承認(rèn)當(dāng)初收集的數(shù)據(jù)，很多積累、擅長的東西都變得沒用了，接受會有個過程。但 L2 的積累不會再幫助他們做 L4 了。

晚點：所以你認(rèn)為自動駕駛領(lǐng)域不存在 Scaling law ？

樓天城：這本身是個認(rèn)知。最近大語言模型加數(shù)據(jù)還是會有幻覺。就看你怎么評價它，如果關(guān)注的是幻覺出現(xiàn)的概率，那 Scaling law 可能還不夠；但如果以 general capability （通用能力）來說，Scaling law 是有進步的。

晚點：你看重哪一點？

樓天城：自動駕駛是物理 AI 的一種，出錯的成本非常高。自動駕駛 Scaling law 不管用，是因為 Robotaxi 關(guān)注的東西，靠 Scale 不太管用，萬一有幻覺怎么辦？但如果是常規(guī)場景處理，不要求處理邊界場景比如 L2，司機可以兜底，Scaling law 可能對它有幫助。目標(biāo)不同，不同判斷。

晚點：你什么時候比較完整的看到了世界模型的全貌，全貌應(yīng)該是什么樣的？

樓天城：我也在逐漸看清楚，這是一個過程。2020 年我已經(jīng)想到了，1.0 用虛擬環(huán)境給模型訓(xùn)練，但 2.0 的發(fā)展確實這兩年才看到?？赡苓€有世界模型 3.0，今天我還沒看到很多概念。

世界模型 2.0 是 AI ，“完成 AI 交給你的任務(wù)”

晚點：小馬世界模型 1.0 和 2.0 的關(guān)系是什么？

樓天城：我先解釋下世界模型 1.0。首先，“世界模型”“強化學(xué)習(xí)” 一般同時出現(xiàn)。它不再依賴人開車到實際道路采集的數(shù)據(jù)，而是依賴的是在虛擬環(huán)境里自演進，這是訓(xùn)練范式的一次躍升。

晚點：你們怎么搭建這個虛擬世界的？

樓天城：世界模型 1.0 大概是 3 個元素：用傳感器數(shù)據(jù)造一個虛擬環(huán)境；其次，環(huán)境里面的各種車、人跟模型的交互要跟真實世界很接近；第三點是評價體系要非常健全，能真正反映車開的好不好，模型會按照打分機制不斷優(yōu)化自己。車會在世界模型里做幾億次甚至幾千億次訓(xùn)練。

有一個很著名的詞，叫 “模型訓(xùn)練模型”，本質(zhì)是拿一個世界模型訓(xùn)練一個車載模型。

晚點：虛擬世界里，你們的車跟其他車的博弈，怎么做到跟真實世界的一樣？

樓天城：首先，渲染的環(huán)境會跟現(xiàn)實世界的一樣，基本看不出差別。人車博弈肯定不會完全一樣，但很接近了。打分機制也要比較完美，它本身也是個老師模型，你沒法直接評價老師模型的好壞，但它的學(xué)生車端模型上路后可以。等于老師教給學(xué)生，學(xué)生到路上表現(xiàn)不好，老師就會反思，原來這個地方?jīng)]教好

最常見的，就是早些年把 corner case 加入一起訓(xùn)練，出現(xiàn)概率太高，“學(xué)生模型” 就會很謹(jǐn)慎了；出現(xiàn)概率太低，“學(xué)生模型” 就會魯莽，所以要調(diào)整概率。

學(xué)生模型的評價體系也重要。比如駕駛的安全感，我們一開始沒有把它加入評價體系，后來才加進去，不斷迭代。我們的車載模型先上路，看看什么地方不好，然后反饋到世界模型改進，再訓(xùn)練車載模型。

晚點：能舉個例子嗎？

樓天城：舉個幾年前的例子，我們的車在雨天老是減速，后來發(fā)現(xiàn)原來雨天時候，傳感器噪聲很多，但我們世界模型中生成的噪聲就很不真實，我們改了之后，車載模型下次就知道要先濾噪，就可以很好應(yīng)對雨天了。

晚點：這個是工程師排查出來的吧。

樓天城：對，但世界模型 2.0 就不是了。

晚點：世界模型 1.0 跟 2.0 有重疊的部分嗎？

樓天城：沒有重疊，連共同之處都沒有。1.0 是數(shù)據(jù)生成的場景，評價體系、環(huán)境交互這些東西，在這些之外，2.0 擁有自我診斷、自我進化的能力。

我們會把車載模型路上收集的各種數(shù)據(jù)，也扔給世界模型 2.0，讓它來定義什么是好與不好？它來發(fā)現(xiàn)車載模型哪沒做好，它驅(qū)動了整個世界模型的演進過程、精度提升過程。它自主完成了世界模型 1.0 的工程師得工作。

整個訓(xùn)練過程是，世界模型 1.0 訓(xùn)練車載模型之前，先有另外一個模型來驅(qū)動這個過程，這個模型叫做世界模型 2.0。這樣的好處是，不僅效率更高，而且天花板更高。它是一個更高級的開發(fā)環(huán)境。

晚點：開車是 AI 模型來診斷，但最終乘車的是人類，這個評價體系是不是應(yīng)該考慮用戶？

樓天城：你有坐過 1 萬小時車嗎？

晚點：沒有。

樓天城：乘客給的評價是很有價值的，但不一定表示系統(tǒng)真的有問題，有可能是不同用戶的喜好不同，也可能是正確或者錯誤的判斷，這些我們都會收集起來，讓 AI 判斷到底是什么問題。用戶的體驗權(quán)重我們放很高，但是也會考慮一萬個小時的無人駕駛所有數(shù)據(jù)，而不只是一趟體驗。

晚點：如果 AI 給的診斷是錯的呢？

樓天城：它的診斷可能不是 100% 正確，但遠(yuǎn)比人好?；蛘哒f，靠人來診斷，模型進化都是負(fù)面效果了，只能靠它繼續(xù)沖破天花板，這是它令人 exciting 的地方。

晚點：你們已經(jīng)能看到令人 exciting 的表現(xiàn)提升了嗎？

樓天城：首先不僅是沖破天花板，而且提升速度比我們前幾年都快，因為它是自動過程，又快又能沖破天花板。

最明顯的就是 Robotaxi 的市中心表現(xiàn)，現(xiàn)在我們?nèi)ジ鞯厥兄行?、能把單量撐上去，很多商業(yè)上的成功，都是靠它做到的。一些狹小道路，各種神奇的場景，我們更能 handle 了。這是基于 1 萬個小時統(tǒng)計的，應(yīng)對不好的表現(xiàn)頻率明顯在降低?，F(xiàn)在評價 Robotaxi，肯定不能再是開一趟的評價了。

晚點：你們世界模型 2.0 有個能力是 intention “意圖層”，它是什么？

樓天城：它是個推演能力，這是世界模型 1.0 的優(yōu)勢，但可能是由世界模型 2.0 的能力提升，使得 intention 意圖層發(fā)揮了潛能。

簡單舉例，比如人過馬路，要不要過？車變道，要不要變？這些都是意圖層。早年采集數(shù)據(jù)，你永遠(yuǎn)沒法問別的司機你的意圖是什么，因為別人不會告訴你，只能采集行為數(shù)據(jù)。但世界模型里面可以生成意圖，這是一個不需要標(biāo)注的無限量的信號。注意，它不是靠采集的，它天然就存在。

大家喜歡把 intention （意圖）跟 language （語言）比，但這兩個完全不是一個東西。

晚點：它是類似于的 CoT 推過程？

樓天城：GPT-3 是吧？差一點，它是輸入層面的推理，不是輸出層的。

它在訓(xùn)練的時候可以生成很多條不同的意圖組合，從而生成其他東西（機動車、行人）的軌跡，它會要求車輛模型在這個多重宇宙中選擇全局最優(yōu)得路線。如果不做多重 intention，車輛模型就會像人一樣，硬選擇一個最可能的意圖組合去開，但有可能這個判斷是錯的。

我們的車端模型可以考慮多種 intention 組合，然后選擇綜合起來最好的方式去開。

晚點：前兩年蔚來技術(shù)日也提到類似思路，車輛生成不同的軌跡預(yù)判，跟你們說的是同一個東西？

樓天城：也是這個思路，只差一點。因為虛擬環(huán)境數(shù)據(jù)是無限的，可以推演所有可能。他們可能還是靠收集數(shù)據(jù)，但不能用收集的數(shù)據(jù)涉及所有可能，我們的世界模型可以有無數(shù)種可能，因為他是虛擬生成的。

晚點：有了這個意圖，能帶來的效果是什么？

樓天城：我對所有的意圖可能性都保證了安全，永遠(yuǎn)不需要回答說我們的行為是針對哪一種 intention 組合，這可能就是最大的差別。假如說現(xiàn)實世界有 4 種可能，無論概率高低，模型就始終都考慮 4 種可能下我都會是安全的，而不是在 4 種可能中選 1 個概率最大得來輸出動作。

晚點：這種推演的能力，跟 VLA 模型有什么關(guān)系嗎？

樓天城：沒有。L（Language）是真實世界的東西，而 I（intention）是虛擬世界的東西。

在當(dāng)前算力下，用 I （intention）是最好的，沒有之一?；陂L期算力我說不準(zhǔn)，intention 能不能活到最后我不知道，但可以堅持很久。而 Language 哪怕在長期應(yīng)該也不會是最優(yōu)解，最近小鵬也提到了這點，人開車是不用經(jīng)過語言的翻譯的。（注：小鵬得 VLA 2.0 方案中，去掉了語言中間層）。

晚點：所以云端世界模型 “蒸餾” 到車端的模型有變化嗎？

樓天城：嚴(yán)謹(jǐn)?shù)恼f，云端模型沒有 “蒸餾” 到車端這一步，它只訓(xùn)練出個車載模型，“模型訓(xùn)練模型” 過程，這個過程不是蒸餾的。

用蒸餾這個詞會引人誤解，世界模型本質(zhì)是對世界的描述，世界模型不用管怎么開車。世界模型不開車、也不輸出軌跡，只是負(fù)責(zé)讓車在接近真實世界的環(huán)境里運轉(zhuǎn)，這是它的唯一任務(wù)。

晚點：但你說它有 intention、有意圖。

樓天城：那是其他物體的意圖，其他物體的軌跡，它完全不管自動駕駛車輛怎么開，它只管自動駕駛車怎么開之后這個世界怎么變化而已。世界模型從數(shù)學(xué)來說就是周圍狀態(tài)的傳遞分布。

導(dǎo)師只負(fù)責(zé)告訴你做什么題，但至于怎么做，跟老師一點關(guān)系沒有，導(dǎo)師不會親自開車。

晚點：世界模型 2.0 你們花了多長時間才做出來？

樓天城：原先計劃是至少 2026 年底或者 2027 年。2.0 之前，AI 大模型還沒有這么火，今天看有這么多實際成功例子下，我覺得回頭看，如果當(dāng)時能預(yù)知到今天這樣子，那的 2.0 一定能夠勝，我會覺得能不能更早點做。

有些效果加速是在近期，迭代過程也不是勻速的，感謝最新的 AI 大潮吧。到現(xiàn)在算是比較穩(wěn)定了。

晚點：世界模型的效果有超出你的預(yù)期嗎？

樓天城：我不想這么說，預(yù)期本來應(yīng)該設(shè)得高一些。這是一個新的理念，新的開發(fā)范式，徹底顛覆，是很令人激動的事。我不確定什么時候到來，但比想象更快一些。

晚點：這個過程當(dāng)中，你個人的狀態(tài)是什么樣子的？

樓天城：這些年開發(fā)，我自認(rèn)為還是比較 open，知道 AI 的潛力和人的局限。任何東西不如機器是很正常的，我更多是評判這個路徑能不能走得通。

晚點：內(nèi)部有工程師不理解這個路徑嗎？

樓天城：跟世界模型 1.0 是一樣，總會有人質(zhì)疑，但工程師還是非常有韌勁的團體，大家愿意去做一些新的嘗試，達(dá)到效果。

晚點：世界模型 2.0 是一個新的開發(fā)方式，對你們的工程師和組織管理帶來的變化是什么？

樓天城：公司的確發(fā)生了很大的變化。世界模型 1.0 是工程師親自下場教，工程師要開始當(dāng)導(dǎo)師和裁判。而現(xiàn)在我們也得抽出來，AI 是裁判了，我們開始研究怎么幫助 AI 驅(qū)動、訓(xùn)練過程變得更快，模型部署更優(yōu)或者讓車載系統(tǒng)成本更低，大家會把更多精力放到其他同樣很有意義的工作。

晚點：可能訓(xùn)練模型只需要很少一撮人，其他人去做數(shù)據(jù)處理或者仿真這些？

樓天城：聽 AI 說讓你做什么，完成 AI 給你分配的任務(wù)。雖然是開玩笑，但公司很多人都在做這個事，這是新的變化。

晚點：包括你嗎？

樓天城：AI 當(dāng)然沒有直接給我下任務(wù)，但 “完成 AI 交給你的任務(wù)，且高質(zhì)量完成”，是內(nèi)部很認(rèn)真的說法。很多研發(fā)中的任務(wù)究竟應(yīng)該做什么，是由 AI 來判斷的，員工的心態(tài)變化需要跟上。

晚點：這會讓工程師的價值感來源降低？

樓天城：首先這個 AI 是他們自己 build，這難道不是更大的成就感嗎？我要替工程師說一句，我們工程師是非常上進的團體，大家一直想 build 一些能比自己做得好的東西，這是巨大的成就。今天拋開自動駕駛，整個 AI 圈不斷發(fā)生這樣的事情。

我也很鼓勵、努力幫助我們的同事做得比我更好，我會身體力行去幫他，這是巨大的成就感。

晚點：世界模型 2.0 繼續(xù)升級，還有哪些技術(shù)挑戰(zhàn)？

樓天城：這已經(jīng)是 AI for development （人工智能促進發(fā)展）的雛形了，要做得更深、寬度更廣。更深就是識別問題更準(zhǔn)，發(fā)現(xiàn)問題收集反饋更準(zhǔn)確，以及部署過程更穩(wěn)，更有效率。其實還有一點，就是今天我跟你講這東西，會不會是 AI 告訴我的？

晚點：有點嚇人。

樓天城：世界模型 2.0 本質(zhì)，是不是可以認(rèn)為 AI 運行了一個組織，這個組織由虛擬人來驅(qū)動自動駕駛系統(tǒng)的開發(fā)。但這個組織能不能更大一點，變成公司本身呢？我今天出去路演，是不是 AI 讓我做的？

這個沒有道理不可能，但它需要可能更多機制，今天技術(shù)還不夠，但以后有可能。今天 2.0 可以認(rèn)為是 AI 開始運行了一個社區(qū)、一個團隊，它們來專門驅(qū)動自動駕駛的看法。畢竟它是 AI，需要一些人去物理世界幫他收集東西，它肯定是有這樣一個組織，雖然不是物理的，但它可以告訴我們怎么給你講這些東西。

晚點：如果你們的這匹馬失控了呢？

樓天城：這也是我們愿意做的事情另一個意義吧，我們盡可能理解 AI 的邊界，才能讓它不失控。好在，AI 操作物理世界至少今天還需要通過人，但這個東西有一天也可以被打破的。

L2 和 L4，我選擇了自己更擅長的東西

晚點：你之前在訪談中提到過，做 L2 和 L4 的差別還挺大的。

樓天城：我個人感受來說，這是大家開發(fā)理念上的差別，做 L2 會問只裝一個激光雷達(dá)夠不夠，甚至不裝激光雷達(dá)夠不夠？做 L4 不會問這種問題，萬一不夠怎么辦？L4 應(yīng)該優(yōu)先保證足夠安全。

大家的目標(biāo)不一樣，會有很多理念上的沖撞，其實就是對 corner case 的態(tài)度，很難交互、極端的場景，L4 車輛需要的是怎么解決，L2 的產(chǎn)品邏輯是提醒用戶接管。

晚點：所以你們專注于做 L4。

樓天城：我從個人角度來解釋。我更擅長做一些更有開創(chuàng)性、有意義的東西。你讓我去摳成本，肯定能做，但這不是我最擅長的點。這個跟公司本身的 DNA、更擅長什么有關(guān)系。

人和 AI 一樣，都有個學(xué)習(xí)過程。剛才說的也是我逐步慢慢學(xué)到的。我愿意以第一性原理去分析這個事，不再把個人很多喜好放進來，做更理性的判斷

晚點：更大的算力對你們來說是誘惑嗎？現(xiàn)在很多量產(chǎn)車的算力也到了千 TOPS。

樓天城：算力如果能差 100 倍，還是有區(qū)別的。但如果只是差幾倍，從駕駛能力上看沒有本質(zhì)差別。1000 TOPS 跟 3000 TOPS 沒有區(qū)別。如果想壓縮模型，從模型結(jié)構(gòu)設(shè)計上可以輕松把 3 倍拉回來，但 100 倍那做不到。

晚點：聽起來 “芯片自研帶來軟硬件一體化” 這事不是很吸引你。

樓天城：如果差 100 倍是有的，DeepSeek 當(dāng)年是 20 倍，那是人和純軟件的努力。

晚點：今年你們的 Robotaxi 目標(biāo)是 20 個城市，2022 年車企智駕的 “百城大戰(zhàn)” 打得很辛苦你們比他們還多了一重挑戰(zhàn)：無人車的精細(xì)化運營。要怎么做？

樓天城：從 Robotaxi 角度來說，在中國，一線城市是主導(dǎo)市場。Robotaxi 的特殊之處，不需要做百城或者永遠(yuǎn)都沒必要去做百城，這是商業(yè)模式所決定的，做好幾個關(guān)鍵的城市就可以，可能 20 城已經(jīng)占據(jù)非常重要的部分了。我們的 20 城包括海外。

技術(shù)已經(jīng)不是 Robotaxi 的瓶頸了。我們?nèi)ヒ粋€新城市，遇到的一些極端情況，基本在世界模型生成的很多 corner case 都見過了。

晚點：最近你們遇到的比較棘手的城市是哪個？

樓天城：比如下暴雪、路面結(jié)冰這種極端天氣比較難，這是一個自動駕駛還沒能特別涉足的場景，但是世界上路面不結(jié)冰的地方還是很多的。

晚點：Robotaxi 規(guī)模變大，怎么避免可能帶來的規(guī)模交通事故？

樓天城：我們的評價體系中，安全肯定第一，車的舒適性、還有通行效率都很重要。早年時候，我們的世界模型就把通行效率放到其中，所以會比較靈活地穿梭在每個地方，這是一直做的事。

還有一點，我們也很看重冗余系統(tǒng)，我們也和豐田、廣汽、北汽一起打造量產(chǎn)的 Robotaxi，就是希望硬件上有冗余，比如緊急情況下能靠邊停車、防止本車道停車被追尾或者堵塞交通，這些都是冗余安全的范圍。可能觸發(fā)頻率不高，但在長期的運營中很重要。

晚點：特斯拉在北美奧斯汀也開始做車內(nèi)無人的 Robotaxi 的運營了，它下一步可能面臨什么？

樓天城：數(shù)量就沒起來，他們也公布了事故率的數(shù)字，但還沒比人開車安全低很多，還沒到那個水平。這個跟他們的車隊數(shù)量有關(guān)。無人的還不太打得到，數(shù)量太少了。

還是先把無人車做到吧，100 萬輛的有人車，不會有一天突然就變成 100 萬輛無人車。哪怕它有很多量產(chǎn)車，但無人車輛也得從個位數(shù)開始。

晚點：有可能它的擴張速度會快一點。

樓天城：就得看實際進展了。百萬輛有人的車并沒有幫助它這個過程走的更快，否則絕對不會只在今天的范圍和無人車規(guī)模。它這一兩年的范圍擴展并不明顯。

晚點：Robotaxi 什么時候可以上高速？

樓天城：現(xiàn)在主駕無人的高速就只對內(nèi)部開放，在技術(shù)和監(jiān)管更 ready 之后我們會對外開放。我們內(nèi)部的測試線就是去從公司去機場。當(dāng)下 L2 高速容易于城區(qū)，L4 城區(qū)容易于高速，所有的人都這么認(rèn)為的。

高速是高價值場景，但高速上的極端事件頻率很低，導(dǎo)致學(xué)習(xí)時的梯度下降速度變得更慢，更難發(fā)現(xiàn)問題，導(dǎo)致過程非常長，哪怕在 AI 幫助下。

比如在城市路上開了 1 萬小時，基本就知道開成什么樣子了。但高速還是不行，不知道什么路段開得不好沒有千萬公里高速公路里程積累，都不要說能在高速上開得好。

晚點：過去幾年行業(yè)對卡車有一些比較過高的期待，收費沒那么容易，你們從技術(shù)或者商業(yè)的角度怎么理解卡車的戰(zhàn)略意義？

樓天城：卡車的天花板非常高，行業(yè)價值可以跟 Robotaxi 相提并論。我們的卡車跟乘用車用的是一套代碼，但卡車個兒大，法規(guī)要求更嚴(yán)格，所以在公開道上鋪開會更慢。我們也在港口做卡車，包括專線，但一個能在港口開卡車的司機，他的能力是在外面公開道路鍛煉出來的。技術(shù)現(xiàn)在不是主要的 blocker，我們也在等政策成熟。我們一定會咬住這塊業(yè)務(wù)。

晚點：目前來看，L4 自動駕駛編隊行駛（前車有安全員、后車無人）是更加可行的產(chǎn)品形態(tài)？

樓天城：編隊是個長期產(chǎn)品。可以認(rèn)為，編隊的司機就是我們負(fù)責(zé)自動駕駛卡車運營的人。 Robotaxi 在一個區(qū)域，我們會有些地勤網(wǎng)格員在守著，車壞了也還是離不開運營人員。但卡車不能幾千公里一路都守，編隊司機就等于是網(wǎng)格員，這是長期存在且 work 的商業(yè)模式。到了集散地，總要人來簽字，網(wǎng)格員可以 cover。

晚點：卡車端的模型跟 Robotaxi 是完全同一套嗎？

樓天城：是一起被訓(xùn)練出來的，但最后的控制模型環(huán)節(jié)，卡車和乘用車不太一樣。

晚點：Robotaxi 已經(jīng)開始單車盈利了，卡車呢？

樓天城：車和 Robotaxi 的商業(yè)模式不同，因為卡車的能源和車輛成本占比更高，其實哪怕是有安全員的 Robotruck，單車也是盈利的。所以卡車的目標(biāo)是隨著技術(shù)發(fā)展，提高卡車車隊的人車比，解決卡車司機短缺的問題。

AI 是脫韁野馬，打造一副馬鞍駕馭它，讓它自己演化

晚點：你們今年的新技術(shù)迭代，跟過去兩年 AI 大模型的技術(shù)進化，是同時發(fā)生的嗎？

樓天城：世界模型的發(fā)展跟整個 AI 大勢非常相關(guān)。2018 年根本沒有生成模型，但今天大家已經(jīng)生成的不錯了。我們當(dāng)時選擇了 follow，才獲得了今天的東西。

晚點：有同行說，自動駕駛行業(yè)最大的打擊可能來自于多模態(tài)大模型的降維打擊，比如字節(jié)等，你怎么看？

樓天城：自動駕駛可不僅僅只是一個模型，還有運行模型的框架、芯片部署，內(nèi)存/CPU 怎么分配、傳感器系統(tǒng)如何設(shè)計冗余，車上路后還有各種運營問題。

從商業(yè)來看，好的模型只是其中一小部分。即便有更多模型出來，Robotaxi 行業(yè)的壁壘也不會降低，必須把所有東西都做好才行。

從技術(shù)維度上看，今天大家的關(guān)注重點還是多模態(tài)嗎？假如明天出來一個新模型，大家只會問它對 coding、agent 有多大幫助？今天關(guān)注點早就不在多模態(tài)上，都在 AI coding 上了。

AI coding 后面是什么？AI for development，我們的世界模型 2.0 是 AI for development 的一種可能，物理 AI、AI for science（人工智能助力科學(xué)）是另一種可能。多模態(tài)已經(jīng)是過去時了，今天大家聊的至少是 coding 或者是 coding 往后的東西。

晚點：你們現(xiàn)在最稀缺、最需要的是什么樣的人才？

樓天城：是 Harness（馬具），能駕馭 AI 的人。我們要的是訓(xùn)練馬的能力，得建一套系統(tǒng)，要知道如何分解任務(wù)、構(gòu)建系統(tǒng)，知道如何讓 AI 驗證，給 AI 設(shè)計一個讓它不斷發(fā)揮、改進的路程。

但這種駕馭 AI 的能力是在幾年前、在還沒有 AI 的時候訓(xùn)練出來的。如果工作第一天就開始用 AI，我可能永遠(yuǎn)不會用這個東西。

我們也在一些高校上課，發(fā)現(xiàn)學(xué)生考試成績都是直線下降，因為大家做作業(yè)基本都拿 AI 做，這是很嚴(yán)重的問題。這是局部最優(yōu)，但長期有害。我寫 code 也有這種感受，用 AI 久了之后就不如原來了，得去思考，讓 AI 怎么一步步做這個東西。如果我沒有原來的積累，我會擔(dān)心我培養(yǎng)不出來這東西。

晚點：現(xiàn)在頂級的 AI 人才會更傾向于流向 AI 大廠、具身公司，Robotaxi 公司在人才的吸引力上會受到影響嗎？

樓天城：蘿卜白菜各有所愛，很多人確實有理由去大廠，但學(xué)術(shù)、工業(yè)都還有個人偏好。我們更多還是找大家互相 match 的人，大家各自有各自的 taste。如果你關(guān)心應(yīng)用、關(guān)心物理世界，那沒有比自動駕駛更好的方向了。指望具身應(yīng)用？那還早，商業(yè)模式都根本不成熟，將來的成本、能耗都還沒算。

今天至少比前幾年前好，我可以非常自信地說，自動駕駛是物理 AI 中最早、最 pioneer（先鋒）的應(yīng)用。

晚點：你現(xiàn)在也用 AI coding 嗎？

樓天城：我是深度應(yīng)用使用者，我自認(rèn)為有一些理解。對于 AI coding 本身，我相信你肯定聽到過 “Harness” 這個詞，意思是馬鞍，今天大模型很火，但就跟脫韁野馬一樣，如果直接騎上去，估計會摔得半死。如何限制、駕馭它，讓它們在框架中自己演進才是關(guān)鍵。

如何駕馭它，差別非常大。AI 用的好不好的人之間，原來差距可能是 120% 到 180% 的區(qū)別，但今天可能是 100 倍和負(fù) 200 倍的差別，差距在拉大。

晚點：你之前很喜歡參加編程競賽，現(xiàn)在沒人看非 AI 的榜了，你還有競賽樂趣嗎？

樓天城：我跟 AI 一起配合吧，我用 AI 幫我去刷某些東西，幫我做一些題，在一些有影響力的題庫上，排得也非常高，但這是個人的行為。again，學(xué)會駕馭 AI，讓 AI 能更好地做題。如果說要有樂趣，這可能是唯一有價值的樂趣了。

晚點：今年小馬成立 10 年了。你本人跟小馬公司有比較大的變化嗎？

樓天城：一直保持變化，每過一段時間就要重新審視一下這個行業(yè)，究竟挑戰(zhàn)是什么，該做什么，哪些新的東西能被我們所用，哪些新的坑要躲開。

晚點：創(chuàng)業(yè)這么久，你個人的最大的歷練是什么？

樓天城：很多，首先跟上技術(shù)發(fā)展。其次，幫助別人進步吧。幾年前吧，很多投資人伙伴問我，我說我最重要的任務(wù)就是招到比我好的人，給他們更好的發(fā)揮空間，這是我一直堅持做的事情。

晚點：今天可能得加一個前提，AI 可能已經(jīng)比大部分人要做得好。

樓天城：對，在有 AI 的背景下，讓它成為最好的。

晚點：那你最希望能立刻改變的是什么？

樓天城：自動駕駛跟很多大語言模型的差別是，它的感性認(rèn)識需要物理體驗，得真正坐進去才有感受，不像聊天工具，打開網(wǎng)頁就可以感受了。

所以先行者的優(yōu)勢非常大，后來者必須也同樣要通過物理世界接觸，別人才能改變印象。它不會以互聯(lián)網(wǎng)那種方式爆發(fā)，但 again，爆發(fā)之后也絕不會在短時間內(nèi)就開始易主。

晚點：世界模型第三階段是什么？

樓天城：世界模型本身有三個階段，第三階段就是物理世界模型，這是世界模型的未來，甚至要接觸 AI for science 了，做一些這樣的能力的積累，不是壞事，或多或少幫到第二階世界模型。但如果做，它肯定不會局限在自動駕駛了，會擴展到更大范圍了。

晚點：你們的產(chǎn)品布局也會到更大范圍嗎？

樓天城：至少先具備這個能力吧，產(chǎn)品方面肯定是更全面的決定，會根據(jù)實際商業(yè)情況做綜合的考慮。合適的時候我再對外分享。

晚點：AI 能開車、擁有對世界推演的能力之后，就能做好家務(wù)嗎？

樓天城：不能。做家務(wù)只是一個最常見的物理 AI 應(yīng)用，但如果我對物理定律沒有理解，可能永遠(yuǎn)只能做非常低階的事。自動駕駛當(dāng)年要用世界模型，就是因為要超越人的水平，將來更多物理世界應(yīng)用，單純跟人模仿還是會遇到瓶頸。

機器人可能今天還在早期，有很多進展，但它們還沒走到被要求超越人的階段，它還沒到我們 2020 年要開始用世界模型的階段。但很多物理定律的引入非常困難，今天連重力最基本的定律引入都非常困難，很多機器人倒水倒到杯子下面去了。

晚點：世界模型第三階段之后，你能看到的終局是什么？

樓天城：還真有終局。比如機器人能在里面做訓(xùn)練，這是最基本的。這是宏觀物理世界，但還有一個微觀物理世界，如果真有那一天，我還能做這些事，我想用微觀物理世界真正理解，我們的世界究竟是如何被存在的。我一直堅持，我們的世界是個虛擬世界。

晚點：是外星人布置的嗎？

樓天城：微觀世界有很多東西的，比如量子干涉，玻色子、粒子這些。他們究竟怎么運轉(zhuǎn)的？很多問題還沒解決。這些東西究竟能不能通過一個虛擬環(huán)境來做模擬？如果能，可能我們就可以真正理解我們的世界是如何被模擬的。

這可能是人類這么多年充分利用 AI 后，我們這代人類能做的最大貢獻之一，這點毋庸置疑。我不知道我有沒有機會能 touch 到它，如果能，我一定會盡我全力。

題圖來源：小馬智行

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.