国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話郎咸朋:VLA 技術(shù)論戰(zhàn)、團(tuán)隊換血與不被看好時的自我證明

0
分享至



郎咸朋完整回顧理想智駕團(tuán)隊發(fā)展演變歷程,首次回應(yīng)外界對 VLA 的質(zhì)疑。

文丨趙宇

編輯丨龔方毅 黃俊杰

42 歲之前,郎咸朋從不抽煙,但在去年夏天理想研發(fā) “端到端” 智駕方案期間,他每個工作日都得來上兩根。

“之前華為、特斯拉在前面,我們照著追就行。追平之后再往前走,方向怎么選、能否執(zhí)行好,沒有樣本可以參考?!?郎咸朋告訴我們。

理想智駕自研起步晚,2019 年團(tuán)隊還沒成建制,缺少資源。為了做技術(shù)預(yù)研,郎咸朋和團(tuán)隊一度只能把激光雷達(dá)裝在那些已做完碰撞測試的車上。

追趕過程中,郎咸朋提出 “不可能用華為的方式打敗華為”,必須提前研發(fā)下一代技術(shù)。他促成了智駕自研進(jìn)程中的兩個重要決定:去年轉(zhuǎn)向 “端到端”,讓理想躋身智駕第一梯隊;今年,他們選擇做 VLA(視覺-語言-行動模型),爭取成為沒有爭議的第一。

取得進(jìn)展的同時,理想智駕團(tuán)隊的內(nèi)部動蕩與外部質(zhì)疑始終存在,最近交付 VLA 時尤其如此。VLA 使用多模態(tài) AI 大模型提升駕乘體驗,強(qiáng)調(diào)讓自動駕駛系統(tǒng)擁有類似人類的 “思考” 能力,而非單純模仿駕駛行為。

華為車 BU CEO 靳玉志稱 VLA 看似取巧但無法真正走向自動駕駛;博世智駕中國區(qū)負(fù)責(zé)人吳永橋則認(rèn)為 VLA 落地有諸多難以解決的問題。

國慶節(jié)前的倒數(shù)第二個工作日,我們在理想北京研發(fā)總部見到郎咸朋。提及這些評論,郎咸朋表示:他們反對 VLA,恰恰說明 VLA 是正確的。

技術(shù)的演進(jìn)常伴隨爭議,而最終消解爭議的仍是產(chǎn)品本身。郎咸朋認(rèn)為,相比有監(jiān)督訓(xùn)練的 “端到端”,無監(jiān)督訓(xùn)練的 VLA 迭代效率更高,最晚到明年初,外界就能看到明顯提升。

相比我們此前兩次交流(一年前推出 “端到端” 方案,以及兩個月前 VLA 臨近落地),郎咸朋這次更松弛一些,近三個小時的談話中,他語速平穩(wěn)、聲音輕快。談及理想智駕的進(jìn)展和技術(shù)選擇,他的用詞也更篤定。

見面前不久,理想智駕團(tuán)隊又經(jīng)歷了新一輪架構(gòu)調(diào)整和人員變動。這個 2018 年成立的團(tuán)隊已經(jīng)換了三代骨干。作為理想智駕第一號員工,郎咸朋向我們完整回顧了團(tuán)隊的發(fā)展演變歷程,他加入理想以來的工作理念和方法,并首次回應(yīng)了外界對理想新技術(shù)的質(zhì)疑。

以下是訪談及少量追加問答的主要內(nèi)容,經(jīng)編輯?;疑媚K則是我們做的信息補(bǔ)充:

不可能用華為的方式打敗華為

9 月 19 日,理想汽車調(diào)整自動駕駛研發(fā)部門組織架構(gòu),將整個團(tuán)隊重組為 11 個二級部門。

原模型算法團(tuán)隊拆分為基礎(chǔ)模型部、VLA 模型部和模型工程部;原量產(chǎn)研發(fā)團(tuán)隊拆分為量產(chǎn)交付部、軟件研發(fā)部和主動安全部;原數(shù)據(jù)閉環(huán)團(tuán)隊拆分為數(shù)據(jù)平臺部和數(shù)據(jù)標(biāo)注部;原有的規(guī)劃管理部、AI 評測與運營部保留,并新增創(chuàng)新業(yè)務(wù)部。

調(diào)整后,理想智駕團(tuán)隊的組織架構(gòu)更為扁平,11 個新部門負(fù)責(zé)人均直接向郎咸朋匯報。郎咸朋在內(nèi)部信中稱,此次調(diào)整的目的是推動團(tuán)隊向 AI 組織演進(jìn)。此外,過往在一級部門層面多次采用的大規(guī)模封閉研發(fā)模式將被取消。

晚點:不久前,你重組理想智駕部門,還說要 “組建面向 AI 的團(tuán)隊”,這應(yīng)該怎么理解?

郎咸朋:AI 最大的特點就是充滿不確定性,這跟過去造車完全不一樣。打造面向 AI 的組織,第一是信息傳遞和決策要非常高效,組織越扁平,越有利于這件事發(fā)生。我們原來有 4-5 個二級部門,現(xiàn)在變成 11 個,我跟這些人之間溝通很順暢,決策也很快。

第二是部門 Leader 要懂業(yè)務(wù)、懂管理,最好還要做過技術(shù)。我們現(xiàn)在的二級部門負(fù)責(zé)人都是之前做過業(yè)務(wù)的人,不是純管理出身。

他們都曾經(jīng)把業(yè)務(wù)做得比較好,既知道我們原來怎么做,也知道現(xiàn)在應(yīng)該做什么。我們智駕的核心管理者一定是從內(nèi)部培養(yǎng)起來的。當(dāng)然,做 Research、搞算法研究,可以從外面找一些前沿科學(xué)家。

晚點:擔(dān)心團(tuán)隊里的核心骨干被其他廠商挖走嗎?

郎咸朋:人員正常流動是合理的,但我們最終的護(hù)城河不是某一個人,也不是某一個模型,而是整個業(yè)務(wù)體系。特斯拉自動駕駛部門走的人也不少,從頭到尾都走了一遍,但也沒說特斯拉自動駕駛從此就不行了。

晚點:你宣布取消集中的封閉研發(fā),這是為什么?

郎咸朋:主要有兩方面考慮。

第一,時代背景變了。之前我們是追趕者,有明確目標(biāo),大家必須集中趕工?,F(xiàn)在不是靠趕工就能趕出跨越式技術(shù),而是需要各部門發(fā)揮自己的業(yè)務(wù)專長,共同為目標(biāo)努力。

第二,這也體現(xiàn)了我們對員工的關(guān)懷。我們之前其實不是不考慮員工感受,而是在立足未穩(wěn)時,確實需要用那種方式追進(jìn)度,但我們不想造成一種 “拼命壓榨大家時間” 的感覺。當(dāng)然,我們對大家的要求也變了——之前要求快速、按時、高質(zhì)量交付,現(xiàn)在要求所有人真正把能力建設(shè)起來。

理想汽車的智駕團(tuán)隊有時會進(jìn)入一種 “封閉沖刺” 狀態(tài)。為了按時交付項目,工程師們被集中到少數(shù)幾個辦公室,統(tǒng)一住進(jìn)附近酒店,連續(xù)三五個月高強(qiáng)度工作。加班常態(tài)化,周日也要保持待命。

這樣的節(jié)奏可能一輪接一輪。通勤 NOA 和城市無圖 NOA 兩個項目,都是在這種連續(xù)封閉開發(fā)中完成的。

晚點:為什么自動駕駛開發(fā)的節(jié)奏要這么快?

郎咸朋:我們 2021 年交付自研項目時,前后兩個階段連軸轉(zhuǎn),確實比較辛苦。當(dāng)時第一階段是從 2021 年 2 月 26 號到 5 月 26 號,需要交付基礎(chǔ) ADAS(基礎(chǔ)輔助駕駛);第二階段是從 6 月份到 12 月 10 號,需要交付高速 NOA(導(dǎo)航輔助駕駛)。

我們當(dāng)時要求每天全員到崗,不是說有一部分人來就行。第二階段的一個周末,大家商量好第二天休息,我同意了,但前提是當(dāng)天問題要全部解決,結(jié)果到夜里我發(fā)現(xiàn)還有兩三個沒解決,但基本上 90% 的人都走了,就讓項目經(jīng)理挨個打電話,通知所有人回來加班。這些人一邊罵著我,一邊就回來了,我陪他們一起。

晚點:后來加班到幾點?

郎咸朋:到凌晨三四點才結(jié)束,第二天上午還得接著測試。這樣的事很多。今年 3 月 “端到端” 1000 萬 Clips 版本上線時,我們用 “超級對齊” 解決安全性問題。最后效果非常好,但這個過程非常痛苦。我要求核心負(fù)責(zé)人每天早晨 8 點在順義開晨會,很多人前一晚都是零點前后才回去,第二天早上 7 點多就又得從市區(qū)趕過來,這樣持續(xù)了兩三個月。

晚點:這種強(qiáng)度是被 “軍令狀” 逼出來的?

郎咸朋:那是我自己定的目標(biāo)。比如去年端到端必須交付,不交付就不行。想哥(理想汽車創(chuàng)始人兼 CEO 李想)只是說,“郎博,我們得想辦法解決現(xiàn)在的問題。”

在端到端之前,我們打不過華為,規(guī)則方案改了半天也不行,體驗頂多持平,甚至還比人家差。想哥也跟我說,從某種角度上講,就算你跟華為做得一模一樣,大家也會覺得華為更好,改變用戶心智是很難的。你得明顯好于現(xiàn)有的東西,新市場才能打破舊市場。

晚點:只有這一條路嗎?

郎咸朋:我們作為一家后進(jìn)入市場的公司,不能在別人已經(jīng)開辟的戰(zhàn)場里打這場仗,那樣一定會輸。你要開辟一個新戰(zhàn)場。如果我們當(dāng)初不是選擇服務(wù)多孩家庭這個被忽視的用戶群體,技術(shù)路線上沒有選擇增程,而是做純電或者燃油車,肯定打不過頭部玩家。所以要開辟一個新的戰(zhàn)場叫增程,我們自己來定義這個增程產(chǎn)品的 PMF(產(chǎn)品市場匹配)。

這樣做,我們就有了獲勝的可能性,但也只是可能性,要堅持執(zhí)行戰(zhàn)略才能最終獲勝。自動駕駛也一樣,在規(guī)則時代,我們的戰(zhàn)略是跟著大勢走,優(yōu)先按時交付產(chǎn)品、跟上市場的主流。所以,我們 2021 年推基礎(chǔ) ADAS、高速 NOA,第一梯隊有的我們基本也有,至少下限保持住了。

到 2023 年,目標(biāo)變成進(jìn)入第一梯隊。那時我們有兩個選擇:在原有高精地圖的基礎(chǔ)上繼續(xù)優(yōu)化高速體驗,或者把服務(wù)范圍擴(kuò)展到城市。想哥最后決定做城市 NOA,因為只有那樣,用戶心智上才會覺得理想在第一梯隊。

當(dāng)時第一梯隊的同行陸續(xù)官宣 “開城” 進(jìn)度和目標(biāo),我們也在 2023 年上海車展宣布要開 100 座城市。剩下的就是執(zhí)行層面的事情了,但過程非常痛苦。那時方案還是輕圖,至少得有點道路的結(jié)構(gòu)信息,所以有了 “天津兩條路”(2023 年底,理想推送城市 NOA 功能,但在部分城市限制開放范圍,如天津僅開放銷售門店附近的兩條路)。后來升級到無圖方案,雖然覆蓋更廣,但體驗又不如華為。

其實到那個時候,我們就有要做第一的想法了。

晚點:“那個時候” 具體是什么時候?

郎咸朋:2023 年底、2024 年初,當(dāng)時公司狀態(tài)比較好,自動駕駛能力實際上已經(jīng)在第一梯隊,但距離大家承認(rèn)理想是第一梯隊還有過程。

想哥當(dāng)時說,我們現(xiàn)在資源夠了——車賣得夠多,利潤也到位——接下來就是要打智能化,而智能化首先就是智能輔助駕駛,要比華為有顯著的能力和體驗提升,說 “2024 年,郎博你一定得做到這一點”。

我告訴他,我們不可能用華為的方式打敗華為,得有技術(shù)上的代際提升。于是我們上端到端,但那時大家都不太理解端到端,也不知道端到端最后帶來的體驗會是什么樣。而且在沒做出來之前,其實我們也沒法明確說它到底是什么樣。

但是從戰(zhàn)略角度講,做了不一定行,不做肯定不行。一直到去年下半年開始出成果。再后面的事情大家都知道了。

晚點:有一種聲音說你們運氣好。

郎咸朋:這不是運氣問題。其實我們是順著戰(zhàn)略大勢做端到端,因為我們不可能用規(guī)則打敗華為,要選新的技術(shù)路線。同樣的,今天端到端正從新市場變成舊市場,如果我們想做真正的自動駕駛,成為這個領(lǐng)域的第一,就不能繼續(xù)在這個戰(zhàn)場打,還得再換一個戰(zhàn)場,那就是 VLA。

從今年初我們在英偉達(dá) GTC 大會上宣布做 VLA 開始,一直到現(xiàn)在,至少在業(yè)界心目中,VLA 理想是第一個提、第一個交付、第一個迭代的。輿論聲場比端到端時期先交付再宣發(fā)好不少。

晚點:攻擂和守擂,哪個壓力更大?

郎咸朋:攻的時候目標(biāo)非常明確,因為前面有人。他在做有圖、無圖或輕圖,我們只要跟著去做就好。攻擂時,更多考驗執(zhí)行能力;守擂時,對綜合的戰(zhàn)略和執(zhí)行能力都是很大考驗。好像都挺難的。

晚點:你們是在什么時候明確意識到,端到端模仿學(xué)習(xí)存在天花板的?

郎咸朋:今年春節(jié),正好在端到端 1000 萬 Clips 版本上線前后。端到端有幾個比較大的問題:跟著慢車不繞行,復(fù)雜路口紅綠燈看不懂,跟人類駕駛行為不一樣——該超不超、該讓不讓。因為我們當(dāng)時提供的數(shù)據(jù)里沒有這樣的場景。

這事是想哥先提出來的。今年 2 月底,他說要加快交付 VLA,不能繼續(xù)在這條路往上走,因為不管是用端到端做數(shù)據(jù)驅(qū)動,還是用超級對齊做算法優(yōu)化,本質(zhì)上系統(tǒng)還是沒有人類的智能和思考能力。而我們的目標(biāo)是做 L4 級自動駕駛。

晚點:當(dāng)時有什么即時調(diào)整嗎?

郎咸朋:想哥說業(yè)務(wù)要調(diào)整,連帶著人和資源也要調(diào)整。我知道他要什么,所以盡管當(dāng)時還沒調(diào)組織架構(gòu),但資源已開始向 VLA 傾斜,加速 VLA 的研發(fā)和交付。

這也是想哥和我有默契、信任的基礎(chǔ)。一切就倒回到 2019 年,那年我跟想哥在認(rèn)知系統(tǒng)這塊聊得非常多,經(jīng)常討論想法。我現(xiàn)在有這樣的判斷,就是源于當(dāng)時認(rèn)知體系的升級。

有人反對 VLA,恰恰說明它是正確的

晚點:理想自研智駕此前的六個重要項目都有代號,VLA 的代號是什么?

郎咸朋:斯芬克斯,也就是獅身人面像。傳說中它會問過路人一個謎語,答對放行,答錯吃掉。謎語是,什么東西早上四條腿,中午兩條腿,晚上三條腿?答案是人。人出生時四條腿爬,成年后兩條腿走,晚年時拄拐棍三條腿走。

斯芬克斯是一個獅身人面像趴在一個大底座上。所以說斯芬克斯項目成功要有一個基座,對應(yīng)著我們的基座模型;腿的英文是什么?Leg,L4、L2、L3,我們就是要解決自動駕駛 L234 的問題。

這些都是梗,主要是我們在做 VLA 時,覺得它既是一個謎題,就像斯芬克斯里面出的謎語一樣,同時還有很多未知和不確定性。

今年 3 月理想發(fā)布 VLA 技術(shù)后,競爭對手和行業(yè)觀察者在落地可行性、技術(shù)路線選擇等方面提出不同看法。

博世智能駕駛與控制系統(tǒng)事業(yè)部(XC)中國區(qū)總裁吳永橋認(rèn)為,VLA 落地有四個難點:多模態(tài)的特征對齊非常困難;多模態(tài)的數(shù)據(jù)訓(xùn)練和提取更加困難;大語言模型存在無法避免的 “幻覺” 缺陷;當(dāng)前所有智駕芯片的存儲帶寬都比較低,并非為大模型專屬設(shè)計。

華為智能汽車解決方案 BU CEO 靳玉志稱,華為不會走向 VLA 的路徑,而是更看重 WA(World Action)路徑。他認(rèn)為,VLA 將視頻轉(zhuǎn)化為語言 token 再控制車輛的做法是 “取巧”,而華為采用 WA 方案,省掉語言環(huán)節(jié),通過視覺、聲音、觸覺等多模態(tài)信息直接控車。雖然挑戰(zhàn)更大,但這才是真正通向自動駕駛的方案。

晚點:最近,博世的吳永橋、華為的靳玉志都對 VLA 提出不同意見,甚至質(zhì)疑。對此你有什么回應(yīng)?

郎咸朋:第一是多模態(tài)對齊。據(jù)了解,博世不自研基座模型,也幾乎沒做過大模型相關(guān)工作。但我們成立了基座模型研發(fā)團(tuán)隊,智駕團(tuán)隊之前做 VLM 時也做過視頻和文本的多模態(tài)對齊,這方面能力我們已經(jīng)積累很多。這確實有難度,但難才有技術(shù)含量,對我們來說不是問題。

第二是數(shù)據(jù)訓(xùn)練和提取。博世自己的數(shù)據(jù)量不大,但不能簡單認(rèn)為我們也沒有很多數(shù)據(jù)。我們摟著采,到現(xiàn)在還有十幾億公里的數(shù)據(jù)。

第三是大語言模型的幻覺。不能完全站在生成式數(shù)據(jù)角度來考慮,生成圖像、文本。之前模型技術(shù)不成熟時,可能有問題,比如生成一個人多了根手指頭,或者生成一段文字驢唇不對馬嘴。但隨著模型這幾年不斷迭代,幻覺越來越少。而且我們有強(qiáng)化學(xué)習(xí)、有超級對齊,有辦法解決模型幻覺。我們不是用它生成一些非常泛的東西,就是用來生成駕駛領(lǐng)域的決策和推理結(jié)論。這些比較確定,不會出現(xiàn) “你在直行突然讓你掉頭” 這種幻覺。

靳總說的也同理。我們已經(jīng)做完端到端,過程中發(fā)現(xiàn) corner case 的數(shù)據(jù)收集,最重要的是數(shù)據(jù)分布和數(shù)據(jù)質(zhì)量?,F(xiàn)在就是 corner case 分布不均衡,收集數(shù)據(jù)困難,確實挑戰(zhàn)很大。即使有很多數(shù)據(jù),也不可能窮盡世界上所有場景。必須讓系統(tǒng)有人類這種思維推理能力才可以,簡單泛化不行。

他們反對 VLA,恰恰說明 VLA 是正確的。出于市場競爭和技術(shù)演進(jìn)的考慮,在 VLA 和端到端上線初期,我們首先要保證它們在安全性的維度上做得不差,之后再去逐步提高上限。

我們 VLA 的能力現(xiàn)在還沒有完全發(fā)揮出來,到今年底、明年初,大家就能看到一些非常好的表現(xiàn),用戶會覺得這輛車真的活了。強(qiáng)化閉環(huán)如果形成,今天車在這個地方還不會開,明天就能開得很好。

晚點:強(qiáng)化閉環(huán)形成對你們意味著什么?

郎咸朋:大家都在說這事情,但你不到 VLA、不實現(xiàn)強(qiáng)化閉環(huán)的話,你是沒有這個能力的。就跟你做端到端一樣,之前馬斯克也說過 "Video in, control out",這個思路很好,但沒有人真正實現(xiàn)。

我們現(xiàn)在有機(jī)會把它實現(xiàn),實現(xiàn)之后用戶才能真正覺得,這個車在安全穩(wěn)定的前提下,竟然有一些新的、別的車無法企及的能力出來。等到用戶真覺得哇塞、用起來真的很舒服的時候,他們就不會再出來說世界模型不行、VLA 不行了。

晚點:看起來,VLA 的強(qiáng)化學(xué)習(xí)閉環(huán)對你們來說很重要,但 Andrej Karpathy(特斯拉前 AI 總監(jiān))近期說,“人類并不是通過強(qiáng)化學(xué)習(xí)來學(xué)習(xí)的,強(qiáng)化學(xué)習(xí)其實比大多數(shù)人想象的要糟糕得多。它依賴稀疏獎勵信號,樣本效率極低,缺乏因果理解能力?!?你們?nèi)绾卧u價這種觀點?

郎咸朋:Andrej Karpathy 對強(qiáng)化學(xué)習(xí)的批評更多是針對當(dāng)下算法的局限性,而非對這種范式本身的否定。

模仿學(xué)習(xí)推動了 GPT 類模型的成功,強(qiáng)化學(xué)習(xí)則造就了如 R1、o1 這樣的強(qiáng)推理模型——這兩條路徑都是 “The Bitter Lesson” 的體現(xiàn):算力與數(shù)據(jù)驅(qū)動的通用學(xué)習(xí)往往優(yōu)于人工規(guī)則。

我們認(rèn)為,目前的強(qiáng)化學(xué)習(xí)是比模仿學(xué)習(xí)更接近人類學(xué)習(xí)的終極形式。未來我們會持續(xù)迭代更高效、更具因果理解與泛化能力的學(xué)習(xí)方法。

晚點:理想 OTA 8.0 版本我們體驗下來,感覺橫向控制比端到端最后一個版本更靈活,但縱向控制會保守一些。

郎咸朋:因為我們做了很多安全限制,說白了就是怕刮蹭甚至撞車。我們有一些橫向表現(xiàn)很驚艷,特別是內(nèi)測第一版 VLA 非常靈活,橫縱向都很好,但如果后車不注意,還是有風(fēng)險。而一旦出事故,可能被外界借勢否定 VLA,那我們后邊就全完了。

所以,我現(xiàn)在寧可讓大家說我們慫一點、慢一點,但至少沒有太明顯的缺陷和漏洞。在這個基礎(chǔ)上,我們現(xiàn)在致力于打造訓(xùn)練的強(qiáng)化閉環(huán)。這個閉環(huán)今年底前應(yīng)該能搭出來,到時候用戶會覺得這個車真的 “活” 了,就像一個每天在成長的人,不再需要用戶一個個問題去反饋。

我相信我們能第一個做到。

晚點:理想原計劃 9 月底更新的 VLA 新版本沒有推送,聽說行業(yè)主管部門開始限制智駕軟件 OTA 的頻率。這會對你們造成什么影響?

郎咸朋:確實,近期行業(yè)主管部門對智駕 OTA 更新的頻率提出了新的規(guī)范,我們已與相關(guān)部門完成溝通和流程優(yōu)化。我們認(rèn)為,這個做法的目的是強(qiáng)化以用戶安全和質(zhì)量為前提交付智能駕駛產(chǎn)品,對行業(yè)長期健康發(fā)展有很大好處。

這一調(diào)整對理想智駕研發(fā)和用戶體驗不會有影響。我們會繼續(xù)在合規(guī)前提下保持技術(shù)快速演進(jìn),確保每個季度都能為用戶帶來高質(zhì)量、實質(zhì)性的功能升級與體驗提升。

晚點:你覺得 VLA 就是實現(xiàn) L4 的那條路嗎,還是需要更新的技術(shù)?

郎咸朋:目前我認(rèn)為 VLA 可以實現(xiàn) L4,但以后一定還會有新技術(shù)出來。開車這件事并不需要很復(fù)雜的技術(shù)或很高的智商,一般人都能學(xué)會開車,所以 VLA 夠用。但技術(shù)本身會持續(xù)迭代,比如將來人工智能發(fā)展到讓每個人都像愛因斯坦或各領(lǐng)域?qū)<夷菢?,那需要?VLA 更高級的技術(shù)才能實現(xiàn)。

與 VLA 模型類似的一個概念是世界模型,對于這兩者之間的關(guān)系,業(yè)內(nèi)有不同說法。

蔚來智能駕駛研發(fā)副總裁任少卿告訴我們,VLA 本質(zhì)上還是語言模型的模態(tài)擴(kuò)展:LLM(Large Language Model)只包含語言,VLM(Vision Language Model)加上了視覺,VLA(Vision Language Action)再加上了動作。這些擴(kuò)展雖然加入了新模態(tài),但 “根” 依然在語言模型上。蔚來世界模型不是 “語言加法”,而是要建立一套高帶寬的認(rèn)知系統(tǒng)。

而在任少卿看來,只有讓語言模型和世界模型兩者融合,才能形成真正的通用人工智能(AGI)。

晚點:除了理想,蔚來、小鵬等廠商也都在提世界模型,但似乎每家廠商說的世界模型不是一個意思。比如,任少卿說蔚來世界模型的目標(biāo)是建立基于視頻 / 圖像的 “時空認(rèn)知”,補(bǔ)齊語言模型的短板。對此你怎么看?

郎咸朋:蔚來的世界模型最終要跑在端側(cè),這不太合理。就跟人一樣,我不用非得動用所有大腦知識去開車。實際上技術(shù)架構(gòu)還在演進(jìn)當(dāng)中。他這樣說是便于大家理解:你看 LLM 只有 L,VLM 多了個 V,VLA 多了個 A,但我一個 WM(World Model) 能一統(tǒng)天下。

本質(zhì)上,理想汽車的世界模型模仿的就是世界,我們想生成這個世界的所有場景,世界模型是為 VLA 模型服務(wù)的。當(dāng)然,VLA 只是一個代號,這個模型首先能看懂視覺的輸入,然后有自我推理和思維的能力,并且能產(chǎn)生相應(yīng)的動作,就跟人一樣。不管叫 VLA 還是 ABC,它就是干這個事的。

我們?yōu)槭裁催€有世界模型?因為強(qiáng)化訓(xùn)練 VLA 模型時,需要有個環(huán)境,我必須有一個強(qiáng)化訓(xùn)練的閉環(huán)。閉環(huán)的前提是有一個虛擬的仿真世界,然后車在里邊跑。我們的世界模型是干這個的,它是支撐 VLA 模型的閉環(huán)仿真訓(xùn)練用的。

至于任少卿說的世界模型,跟我們 VLA 模型是一個 Level 的,他說的還是模型本身。我們說的世界模型,則是強(qiáng)化訓(xùn)練閉環(huán)的重要基礎(chǔ)。而華為的那個 W Engine,有點像我們說的世界模型。

晚點:楊立昆(Yann LeCun,Meta 首席人工智能科學(xué)家)提出,世界模型并不只是 “感知” 和 “反應(yīng)”,而是構(gòu)建出一個可以想象未來的世界副本。這與你們理解的世界模型意思相同嗎?

郎咸朋:Yann LeCun 和我們對世界模型的理解是一致的,即智能體通過理解當(dāng)前世界、結(jié)合過往經(jīng)驗和行動計劃,去推測未來的可能狀態(tài)。

我們也認(rèn)為,真正的世界模型不只是 “感知” 與 “反應(yīng)”,不是一個簡單的端到端的狀態(tài),而是要在內(nèi)部形成對外部世界的可預(yù)測表征,能夠想象并評估未來的狀態(tài),從而指導(dǎo)合理的反饋與動作。這一理念正是我們的世界模型做的事情:不僅能生成各種場景用于對 VLA 模型的評測,更可以具備對未來行為的反饋和建議,從而進(jìn)行強(qiáng)化訓(xùn)練。

晚點:世界模型是不是對云端算力的需求很大?

郎咸朋:非常大。

晚點:華為不久前發(fā)微博,說他們的云端算力有 45 EFLOPS,還是挺讓人吃驚的。相比之前的公開數(shù)據(jù),已經(jīng)提升 2 倍以上。

郎咸朋:差不多。

晚點:真有必要建這么大的云端算力嗎?

郎咸朋:華為沒有解釋這個數(shù)字背后的事情。云端算力分兩塊,推理和訓(xùn)練。VLA 模型需要訓(xùn)練算力,世界模型本身也需要訓(xùn)練算力。我們用世界模型生成各種各樣的仿真環(huán)境,還需要大量推理算力。這些算力加在一起是我們的云端算力。現(xiàn)在理想是 10 EFLOPS 的訓(xùn)練算力,加 3 EFLOPS 的推理算力。將來推理訓(xùn)練還會繼續(xù)增加。

晚點:推理算力會超過訓(xùn)練算力嗎?

郎咸朋:現(xiàn)在看起來,一半一半是合理的。

晚點:理想今年在云端算力上的投入大概是多少?

郎咸朋:現(xiàn)在還在迭代當(dāng)中,沒有最終定數(shù),因為我們現(xiàn)在的訓(xùn)練閉環(huán)還沒有完全閉上。但我們在算力方面投入不設(shè)限。

晚點:去年的云端算力一共投了多少錢?

郎咸朋:8 EFLOPS,差不多在 10 億元人民幣量級。

晚點:理想 VLA 車端模型的參數(shù)量是 4B,云端模型呢?

郎咸朋:我們最終會做成 32B,現(xiàn)在正在做。我們希望云端模型的參數(shù)量也別太大,比方我做個 320B 的模型,再把它蒸餾成 4B,那蒸餾成啥了?

晚點:所以智駕的云端模型和大語言模型還不太一樣,據(jù)說 GPT-3 的參數(shù)量大約是 1750 億。

郎咸朋:對,那個就更夸張了。我們目前覺得不需要那么大的模型,當(dāng)然這個也還在不停地摸索和迭代當(dāng)中。

晚點:有同行說,VLA 在現(xiàn)有智駕芯片上落地有難度。

郎咸朋:現(xiàn)在的智駕芯片確實都不是為大模型專門設(shè)計。我們是通過工程優(yōu)化能力把 VLA 模型部署到非大模型定制的芯片上。而理想的自研智駕芯片完全按照 AI 要求去做,包括算子優(yōu)化和模型部署優(yōu)化,這些在芯片設(shè)計之初就已經(jīng)考慮到,并且可以根據(jù)自身需求定制一些東西。模型參數(shù)量可能現(xiàn)在還不是特別多,但芯片可擴(kuò)展,幾顆芯片并在一起能擴(kuò)大參數(shù)量。一顆不行,我們用兩顆。

晚點:在自動駕駛領(lǐng)域,特斯拉最先把 “端到端” 這個概念講出來。馬斯克在特斯拉 2023 年股東大會上說,"Video in, control out",當(dāng)時看來非常超前。

郎咸朋:的確。端到端之后,我們要做的就是把 VLA 真正打磨好,保持用戶體驗領(lǐng)先。我們相信這個技術(shù)肯定可以,只是還需要一些時間在交付線上驗證。

除了交付線,還有能力線。在端到端之前,我們花了很長時間建設(shè)數(shù)據(jù)閉環(huán)能力,但這有個條件——你真得有那么多數(shù)據(jù),所以只有等我們賣出幾十萬臺車之后,閉環(huán)的速度才會越來越快。

2021 年之前,我們?nèi)繑?shù)據(jù)量加起來不到 1 億公里,但后面每年幾億、幾億的往上走。去年我們有意往下壓了壓,只挑選最核心的高質(zhì)量數(shù)據(jù)。如果我們?nèi)ツ旮郧耙?guī)則時代一樣放開采數(shù)據(jù),今年至少是 20 億公里。

不過后來我們也迭代了,不再需要 100 億公里,只需要十幾億公里高質(zhì)量數(shù)據(jù)就夠,然后用這些數(shù)據(jù)去訓(xùn)練世界模型,讓它產(chǎn)生更多數(shù)據(jù)。我們之前的認(rèn)知還停留在端到端、模仿學(xué)習(xí)——有多少數(shù)據(jù)進(jìn)來訓(xùn)練,出什么樣的結(jié)果。但這樣也不行,因為有些 corner case 的數(shù)據(jù)采不到,或者采回來的數(shù)據(jù)量很少。一些碰撞事故也不可能天天自己拿車去撞、去采,這不合理。

再說這也不是終局,終局會是一個強(qiáng)化訓(xùn)練閉環(huán)。關(guān)于這個閉環(huán),這陣子我跟團(tuán)隊交流,我發(fā)現(xiàn)大家可能都想得有點狹隘。

晚點:哪里狹隘?

郎咸朋:我先拿端到端舉例,你說端到端是個技術(shù)嗎?它是個技術(shù)更新,但它更大的一個顛覆,實際上是對自動駕駛業(yè)務(wù)的顛覆。

晚點:它是一種思想。

郎咸朋:對。之前大家的思想是做功能,跟軟件開發(fā)流程一樣。先設(shè)計功能指標(biāo)、邏輯,然后找程序員寫代碼,再做評測。端到端之后,不再是人工設(shè)計功能,而是提供數(shù)據(jù),讓系統(tǒng)自己訓(xùn)練得到結(jié)果。

端到端仍然有一些驗證、測試相關(guān)的問題需要人工解決,可以理解為有監(jiān)督訓(xùn)練。到了 VLA 就是無監(jiān)督訓(xùn)練,完全可以自己迭代。如果強(qiáng)化訓(xùn)練閉環(huán)的完全體上線,半年一年可能頂過去五年十年。

所以大家可能理解得狹隘了,認(rèn)為 VLA 加強(qiáng)化學(xué)習(xí)只是技術(shù)變革,其實它是整個業(yè)務(wù)的一個大變革,落地后會成為企業(yè)真正的護(hù)城河——不是模型、數(shù)據(jù)或芯片,而是整個業(yè)務(wù)流程。這個能力建設(shè)不會很快,需要一兩年迭代。一旦迭代完畢,比如我們 2025 年開始做 VLA 強(qiáng)化閉環(huán),2025、2026 兩年做好,到 2027 年就全都變了。

晚點:你們 2027 年要做到 1000 公里的 MPI(Miles Per Intervention,平均接管里程)?

郎咸朋:我們預(yù)計到 2026 年底是 1000 公里的 MPI,到 2027 年可能就不用 MPI 這個指標(biāo)了。就像最早造車時,衡量汽車質(zhì)量的指標(biāo)跟現(xiàn)在不一樣。那時車經(jīng)常壞,現(xiàn)在車不會壞,人們關(guān)心的是磨損等指標(biāo)。

我們現(xiàn)在要么自己測試仿真發(fā)現(xiàn)問題,要么推向市場后用戶反映發(fā)現(xiàn)問題。強(qiáng)化閉環(huán)出來后,不用你說,系統(tǒng)自己就知道哪有問題。今天這個用戶接管,明天那個用戶開車頓挫、急剎車,系統(tǒng)會自動收集問題,數(shù)據(jù)回傳后自動強(qiáng)化訓(xùn)練,迭代完就上線。

2019 年,郎咸朋為理想自動駕駛業(yè)務(wù)發(fā)展標(biāo)出四個關(guān)鍵時間節(jié)點:2021 年確認(rèn)自動駕駛核心技術(shù)方案;2023 年拿到自動駕駛?cè)雸鋈?025 年成為頂級自動駕駛公司;2027 年實現(xiàn) L4 常態(tài)化運營。

郎咸朋在 2019 年的自動駕駛 LSA 戰(zhàn)略分析文檔中寫道:

高效運營數(shù)據(jù)閉環(huán)有兩個前提條件。

第一,確認(rèn)算法能力 A:這將決定一個自動駕駛系統(tǒng)的能力上限。在選擇算法方案時,必須具備一定的前瞻性,以確保技術(shù)上限足夠高,避免未來因能力不足而陷入困境。同時,這個選擇需要盡快但慎重地做出,因為一旦核心算法方案確定,中途更換將意味著推倒重來。

第二,最大化有效數(shù)據(jù)量 D(t):數(shù)據(jù)將驅(qū)動算法迭代。為了最大化有效數(shù)據(jù)量,車輛必須標(biāo)配與數(shù)據(jù)閉環(huán)相關(guān)的軟硬件,并且這一選型需要在后續(xù)車型中保持一致,否則數(shù)據(jù)將無法被有效利用。數(shù)據(jù)量的增長要依靠產(chǎn)品銷量支撐,因此企業(yè)必須具備打造一流量產(chǎn)自動駕駛產(chǎn)品的能力,以及良好的交付能力。

晚點:特斯拉 FSD 已經(jīng)進(jìn)中國了。一年前你告訴我們,理想和特斯拉在自動駕駛領(lǐng)域有半年差距,現(xiàn)在呢?

郎咸朋:現(xiàn)在大家差距還沒拉開。等我們上了 VLA 加強(qiáng)化閉環(huán)之后,真正實現(xiàn)自我迭代,就會是代際差別。到那時,我們可能會在中國市場超過特斯拉。特斯拉在中國不會有像我們這種便利的環(huán)境做閉環(huán)迭代。

晚點:有內(nèi)測用戶說,特斯拉新的 FSD 14.1.2 已修復(fù) 95% 的猶豫變道和剎車問題,“過去兩天我都沒有碰過方向盤”。理想如何評價 FSD V14 版本?

郎咸朋:我們非常關(guān)注 FSD V14 的進(jìn)展。從現(xiàn)有用戶視頻來看,表現(xiàn)確實非常出色,解決了不少長期存在的長尾問題。后續(xù)我們團(tuán)隊也會在美國本地做實車體驗。

就在 10 月 21 日 ICCV 大會上,Ashok(特斯拉 AI 軟件副總裁)展示了特斯拉的模型框架,其中已明顯包含 Language 模塊,并且引入了如 3DGS 等多模態(tài)任務(wù),這與我們 VLA 體系(Vision-Language-Action)在理念上高度一致。

理想 VLA 同樣不止于語言或行為層,而是通過多模態(tài)世界理解、決策與動作協(xié)同,實現(xiàn)閉環(huán)學(xué)習(xí)與自我進(jìn)化。

整體而言,特斯拉與理想在技術(shù)路徑上方向一致、實現(xiàn)細(xì)節(jié)不同。我們把 FSD V14 視為一個值得學(xué)習(xí)和對標(biāo)的關(guān)鍵對手。

晚點:現(xiàn)在特斯拉一個重要的迭代方向是硬件算力,Hardware 5.0 甚至 6.0。理想會去做更大算力的硬件嗎?

郎咸朋:特斯拉的資源和能力支撐它這么做,這并不代表它一定對,但是把算力預(yù)留多了,總的來說沒壞處。其實現(xiàn)在所有人都不確定到底多少算力夠用,但一定會收斂到合理數(shù)值。

業(yè)務(wù)流程變革完成后,我們就知道合理算力是多少了。可能未來一兩年我們能回答出來,到底車端是 1000TOPS 還是 2000TOPS??傊粫螅驗轳{駛相對比較簡單。

晚點:要最終實現(xiàn)自動駕駛,剛才你提到很多便利條件,包括端到端和 VLA。最大的挑戰(zhàn)或者瓶頸可能會出現(xiàn)在什么地方?

郎咸朋:真正的自動駕駛需要變成大規(guī)模落地的應(yīng)用,技術(shù)只是第一個挑戰(zhàn)。更大的挑戰(zhàn)來自怎么大規(guī)模商業(yè)化落地。就像是 iPhone 怎么說服大家使用 App Store、iCloud 服務(wù)。而且必須一上來就弄得特別好,否則大家可能會直接否定這個商業(yè)模式。

所以我會更加慎重地去做。在技術(shù)上可能會做得激進(jìn)一點,但在商業(yè)化落地上,需要更穩(wěn)妥一些,充分準(zhǔn)備好之后再推向大眾。

晚點:而且不僅是國內(nèi)市場,它是全球市場。

郎咸朋:先做國內(nèi)就行。國內(nèi)的商業(yè)化落地也是很大挑戰(zhàn)。

輔助駕駛就需要很長時間做用戶教育,如果看最早供應(yīng)商做的 ADAS,包括 Mobileye 開發(fā)的特斯拉 Hardware1.0、2.0,距今已過去十幾年。L4 實際上是無人狀態(tài),法律法規(guī)包括大眾的接受程度,會是最大挑戰(zhàn)。

晚點:你說 L4 先做國內(nèi)市場就可以,但是你們前段時間剛建立創(chuàng)新業(yè)務(wù)部,據(jù)說是面向海外市場的。

郎咸朋:除了美國,海外其他地區(qū)對智駕的接受程度還停留在國內(nèi)市場前幾年的水平。而且海外的法規(guī)還需要持續(xù)地去影響,包括我們產(chǎn)品怎么做。

所以,我們就先建立這樣一個海外預(yù)研部門,一方面交付產(chǎn)品,另一方面預(yù)研將來 L4 怎么在海外落地和推廣。技術(shù)上都一樣,但是商業(yè)化落地、產(chǎn)品設(shè)計和研發(fā),跟國內(nèi)肯定有區(qū)別。

系統(tǒng)在痛苦中建立,業(yè)務(wù)演進(jìn)導(dǎo)致組織變化

晚點:你加入理想將近八年,最艱難的時刻是什么時候?

郎咸朋:2019 年,那時候我個人的系統(tǒng)還沒有建立好,正在經(jīng)歷從研發(fā)工作者到業(yè)務(wù)負(fù)責(zé)人的轉(zhuǎn)變,這個過程非常痛苦。雖然后面也遇到過很多困難,但那次轉(zhuǎn)型是最痛苦的,就像把你整個人撕裂開來,再重組,然后讓你完成一次徹底的迭代。

晚點:最有成就感的時刻呢?

郎咸朋:到目前為止,應(yīng)該是去年端到端的量產(chǎn)落地。VLA 現(xiàn)在還沒完全弄好,但端到端讓我非常有成就感。

再往前,就是 2021 年 5 月 “衛(wèi)城” 項目的交付,我們用不到 90 天完成這件事,那是我們真正第一次從 0 到 1 交付,讓我終生難忘。如果那次失敗,就沒有后面我們所有的自研過程。去年端到端方案的交付,是我們第一次從落后反超到領(lǐng)先。下一個重要時刻可能就是真正實現(xiàn) L4。

2021 年 2 月 26 日,理想啟動其首個全棧自研的智能駕駛項目,內(nèi)部代號 “衛(wèi)城”。項目英文名 “Acropolis” 是 “ADAS Capability Research Original Production On Lixiang SUV” 的縮寫,代表 “理想汽車 SUV 車型原廠智駕功能研發(fā)”。

為配合 “衛(wèi)城” 主題,項目各個團(tuán)隊也采用了希臘神話中的代號:如硬件團(tuán)隊為 “雅典娜”(Athena),算法團(tuán)隊為 “阿爾忒彌斯”(Artemis),數(shù)據(jù)團(tuán)隊為 “波塞冬”(Poseidon),分別象征著戰(zhàn)爭、狩獵與數(shù)據(jù)海洋。

在 “衛(wèi)城” 項目上,理想智駕團(tuán)隊第一次采用集中封閉的開發(fā)模式。春節(jié)假期剛過,項目團(tuán)隊就分頭在北京望京、連云港東海等地啟動研發(fā)。

晚點:2021 年 5 月落地基于雙征程 3 自研方案時,自研團(tuán)隊有多少人?

郎咸朋:整個團(tuán)隊不到 100 人?!靶l(wèi)城” 項目是從各個團(tuán)隊東拉西湊人手組成的,加起來一共 100 多人,那份名單我現(xiàn)在還留著。

晚點:從 2021 年到現(xiàn)在,你們的組織架構(gòu)是怎么演變的?

郎咸朋:2021 年時你說有啥組織邏輯?就一個項目組。不過從開始自研到現(xiàn)在,我們的骨干人員已經(jīng)走到了第三代。2021 年之前,算法研發(fā)的主力是王軼倫,軟件研發(fā)的主力是關(guān)書偉。當(dāng)時賈鵬剛?cè)肼毑痪?,在做?shù)據(jù)閉環(huán)。

晚點:有理想的人說,你們數(shù)據(jù)閉環(huán)做得好,因為招了一個英偉達(dá)的人過來,那應(yīng)該就是賈鵬。

郎咸朋:對,其實英偉達(dá)也沒做過數(shù)據(jù)閉環(huán),當(dāng)時大家也沒數(shù)據(jù),但賈鵬的能力肯定夠。我們之所以能成功,最大護(hù)城河就是數(shù)據(jù)閉環(huán)。等 VLA 成功的話,護(hù)城河就是現(xiàn)在正在搭建的強(qiáng)化訓(xùn)練閉環(huán)。

第一代骨干是王軼倫、關(guān)書偉、賈鵬,這三個人跟我一起做了 2021 年的自研。完成從 0 到 1 后,王軼倫和關(guān)書偉走了。軼倫去做量化,書偉輾轉(zhuǎn)了好幾個地方。

第二代骨干是賈鵬、王佳佳和我。第二代一直走到端到端時,夏中譜加入團(tuán)隊?,F(xiàn)在是第三代,新班子以詹錕、湛逸飛為主,加上后面 9 個二級部門負(fù)責(zé)人,一共 11 個。希望有人能成長為像湛逸飛、詹錕這樣的角色。

其實詹錕 2021 年就來了。他當(dāng)時還在更下面一層,經(jīng)過這幾年從 NOA 到端到端再到 VLA,慢慢成長為二級部門負(fù)責(zé)人,在管理和研發(fā)上都有很大貢獻(xiàn)。

晚點:你們早期人事變動也挺多。

郎咸朋:完成自研的從 0 到 1 之后,大家觀念和想法有變化,比如有人對比蔚來、小鵬都幾十上百億地投,人數(shù)也比我們多很多,覺得公司投智駕投少了。

想哥的經(jīng)營邏輯是不能亂花錢,要保證毛利,保證經(jīng)營利潤率是正的。我們確實是新勢力幾家里經(jīng)營利潤率最早轉(zhuǎn)正的,但他們可能覺得沒必要這么摳,應(yīng)該放開投自動駕駛。

成功最必要的條件是堅持,其次才是能力或者才華。團(tuán)隊里負(fù)責(zé)算法模塊的一位同事,之前做了很長時間數(shù)據(jù)、質(zhì)量分析等很多周邊事情,對業(yè)務(wù)全局有了更廣度的了解。而且做了很長時間,深度也夠。這時再讓他做核心算法模塊,就更有信心做好。

我們還有位同事是理想智駕部門最早一批,中間離開過,到 2021 年我們開始自研又回來了。他做過地圖、系統(tǒng)軟件架構(gòu),還做了數(shù)據(jù)相關(guān)的事情,最終慢慢穩(wěn)定在 AI 評測與運營。

這是我培養(yǎng)人的方式——核心負(fù)責(zé)人應(yīng)該對全面業(yè)務(wù)有一定了解,而且愿意為這件事情的最終達(dá)成做任何事。

晚點:作為一位帶領(lǐng)千人左右團(tuán)隊的技術(shù)高管,你怎么培養(yǎng)自己管理團(tuán)隊的能力?

郎咸朋:我是 2018 年加入理想的,之后一年多感覺啥也沒做,也沒資源,團(tuán)隊就十來個人,天天跟著供應(yīng)商后面做測試。團(tuán)隊內(nèi)部也不相信我們,覺得我來了一年也沒干啥事兒,是不是能力不行,從百度過來忽悠人的?

我們其實也想做點事情,當(dāng)時我問鐵哥(理想汽車 CFO 李鐵)要了一點經(jīng)費,買了幾個 Velodyne 的 64 線激光雷達(dá)。既然不讓我們做 L2,因為 L2 有供應(yīng)商做,那我們就自己做點 L4 的預(yù)研唄。就跟小馬智行樓天成的想法一樣,一方面交付 L2,另一方面研究 L4。

那幾個激光雷達(dá)得找車裝,但也沒車,我們就找做碰撞測試報廢的車?yán)镞€能開的。一個激光雷達(dá)大概要花 60 萬到 80 萬,一共花了鐵哥 300 多萬。這些錢放在任何自動駕駛公司都是毛毛雨,但那時候?qū)ξ覀儊碚f簡直是不可多得的東西。

有時候我們把激光雷達(dá)放在辦公桌上做實驗,鐵哥看見就說:“郎博,你這個激光雷達(dá)還用不用,不用把它們退了。” 要知道這是 2019 年,那時候理想融資非常困難。想哥那年到處找投資人,見了上百個投資人,最后才找到王興投資。如果沒有王興,2019 年整個公司可能都有很大風(fēng)險。

那時期我也痛苦,事后想想大概是因為老在想怎么表現(xiàn)自己。很多有才華的技術(shù)人員都希望能展示才華,但他不知道展示才華有個前提:你得在這個大平臺上,讓這個平臺跟你一起成長。

晚點:后來是怎么轉(zhuǎn)變想法的?

郎咸朋:所有組織變化都跟業(yè)務(wù)相關(guān),所有業(yè)務(wù)變化都跟戰(zhàn)略相關(guān)。這是貫穿始終的主線。LSA(Li Strategy Analysis,理想汽車戰(zhàn)略分析法)對我的指導(dǎo)意義非常大。

那時候想哥找我談話,建議用 LSA 的框架看人生、業(yè)務(wù)、戰(zhàn)略目標(biāo),然后根據(jù)戰(zhàn)略目標(biāo)設(shè)置業(yè)務(wù)目標(biāo),有了業(yè)務(wù)再建立組織,組織之后才是架構(gòu),然后還有資源和錢,結(jié)合整個公司背景來看這件事情。

當(dāng)時他跟我說,假設(shè)我現(xiàn)在就給你 100 個億,你能把自動駕駛做出來嗎?你得判斷什么時候能做好,或者建立起基礎(chǔ)能力需要多長時間,需要什么樣的資源。

其實 2017 年入職之前面試,我就在跟想哥說,自動駕駛最重要的是數(shù)據(jù)。想哥后來就說,郎博,你最初是不是這么說的?那如果咱要做到這一點,第一步肯定不是買幾個激光雷達(dá),而是要把車先做好,所以就得跟供應(yīng)商一起把車上這套系統(tǒng)先交付了,然后車先真的能賣起來時,咱有現(xiàn)金流、有經(jīng)營利潤了,才能慢慢再投自動駕駛。

站在今天,想哥說的話都應(yīng)驗了,后邊確實一年年投的也多了,理想投自動駕駛累計也是幾十個億、上百個億了。但倒回到 2019 年時,別說 1 個億了,連 1000 萬都沒有。那時候道理是這個道理,但作為負(fù)責(zé)人心里不爽。

晚點:當(dāng)時小鵬、蔚來不僅是國內(nèi)幾百人的研發(fā)團(tuán)隊,海外團(tuán)隊也在建。

郎咸朋:想哥當(dāng)時勸我說,就算現(xiàn)在給你資源,也只是滿足一時的執(zhí)念,不會有真正的積淀。

我那時很掙扎,從百度過來一年多,收入低、項目難推進(jìn),看著以前的同事都在大廠風(fēng)生水起,確實煎熬。也想過離開,但冷靜想想,理想這個平臺、包括想哥本人,還是能支撐我們做出真正的 L4 自動駕駛。

所以我選擇留下。很多人換平臺,但我覺得真正能做成事,需要系統(tǒng)性的思維,而不是遇到挫折就換賽道。

晚點:你是怎么用 LSA 這套方法做自動駕駛業(yè)務(wù)的?

郎咸朋:LSA 抽象起來就是幾句話:認(rèn)知決定戰(zhàn)略,戰(zhàn)略決定業(yè)務(wù),業(yè)務(wù)決定組織和資源。

首先,你要不停迭代自己的認(rèn)知,我當(dāng)時對自動駕駛的理解已經(jīng)夠了。接下來是戰(zhàn)略目標(biāo):理想要在哪一年實現(xiàn)自動駕駛?為了實現(xiàn)目標(biāo),比方說需要 100 億公里數(shù)據(jù),那就得算算整個公司大概在哪一年能累計交付 100 萬輛車。我們?nèi)ツ昀塾嫿桓栋偃f輛車了,所以自動駕駛才開始爆發(fā),這非常符合當(dāng)時的設(shè)想。

在這個過程中,一方面你別讓公司垮了,別讓公司錢全投給自動駕駛,公司還經(jīng)不經(jīng)營?另一方面,你在有限資金下,怎么更好地積累能力,等到公司真有 100 萬輛車時,你別拿不出能力來。

所以之前有兩條線。明線是要做交付,暗線是團(tuán)隊內(nèi)部的業(yè)務(wù)能力搭建。在 2024 年端到端之前,我們的業(yè)務(wù)能力最核心的就是如何構(gòu)建數(shù)據(jù)閉環(huán)。我在自己 2019 年的 LSA 里就寫過這句話:自動駕駛的本質(zhì)是高效的運營數(shù)據(jù)閉環(huán)。從業(yè)務(wù)出發(fā),到組織和資源,當(dāng)時都算過了,我們大概到 2025 年之后,一年穩(wěn)定花 30 個億左右?,F(xiàn)在我們差不多也是這么花的。

2019 年,郎咸朋在自動駕駛 LSA 戰(zhàn)略分析文檔中寫道:自動駕駛技術(shù)要解決的核心問題,是讓車輛的自主駕駛有效區(qū)域(記為 I')不斷擴(kuò)大,直至完全覆蓋真實世界(記為 I)。其能力發(fā)展可以用一個公式來描述:I' = A · D(t) · δ(t)。

A 代表算法能力,由算力、傳感器、執(zhí)行機(jī)構(gòu)等硬件與核心算法共同構(gòu)成。D(t) 代表有效數(shù)據(jù)量,隨車輛保有量增加而逐漸增大,最終趨于一個穩(wěn)定且巨大的數(shù)值。δ(t) 代表數(shù)據(jù)閉環(huán)的效率,即數(shù)據(jù)轉(zhuǎn)換到算法的效率。

郎咸朋當(dāng)時分析稱:在公式的三個乘數(shù)中,算法能力 A 一旦選擇之后就是常量。有效數(shù)據(jù)量 D(t) 雖然是變量,但如果軟硬件標(biāo)配后可最大化這個數(shù)值為一個與銷量相關(guān)的常量。所以只剩下一個關(guān)鍵變量,即數(shù)據(jù)閉環(huán)效率 δ(t),它將決定整個自動駕駛的能力發(fā)展。因此,自動駕駛的本質(zhì)是:高效運營數(shù)據(jù)閉環(huán)。

郎咸朋:我肯定不是天才,也不是最優(yōu)秀的人。我相信很多人都能跟我一樣,在某個時間點做出后面那些認(rèn)知和規(guī)劃。但難的是這需要很多時間去實現(xiàn),而且過程當(dāng)中有很多波折和坎坷。你能不能在遇到任何情況時,還能堅持你當(dāng)時自己的認(rèn)知、判斷和規(guī)劃。

這個非常重要。簡單說就是你制定了一年期的鍛煉計劃,刮風(fēng)了、下雨了、打雷了,你是不是能風(fēng)雨無阻地去鍛煉?

晚點:總結(jié)起來,就是既要有一個非常遠(yuǎn)期的計劃,同時又要把遠(yuǎn)期和近期的工作目標(biāo)結(jié)合好?

郎咸朋:還不是結(jié)合,就是在遇到一些現(xiàn)實的困難和問題時,你能不能不受它們干擾?比方說公司要優(yōu)化、要裁員,公司經(jīng)營不下去了,難道還給你投很多錢嗎?但不論公司有什么樣的困難,你都要堅持住你自己之前做的認(rèn)知上的計劃。

剛剛說了一個負(fù)面的,還有正面的。2023 年車賣得好,年底獎金給得也挺多,整個公司也挺膨脹。當(dāng)時就說,郎博你們這個自動駕駛不行,得多招人。我當(dāng)時的認(rèn)知是不需要很多人,跟特斯拉差不多就行了。

特斯拉兩三百人,我們沒有它那么厲害,有五六百、七八百人就行了??傊隙ú灰獛浊?,人一多自然會有問題。實際上,到年底我們也就 1000 人多一點。

在我的數(shù)據(jù)閉環(huán)思路里,從 Operation(運營) 到 Validation(驗證),整個系統(tǒng)自我運轉(zhuǎn)起來后,不需要那么多人。特斯拉已經(jīng)給了很好的示范,全球運營幾百萬輛車,做自動駕駛的也就這幾百人。

特斯拉只有 FSD 一個平臺,我們可能是兩個平臺,英偉達(dá)的,地平線的。那我們?nèi)藬?shù)比特斯拉多一倍,500 人差不多了。我再比他笨點,七八百人就差不多了。你肯定不能弄到兩三千人,這肯定是不可想象的。如果人一多,這些人勢必就會證明:人多是對的。那就減不下去了。

在高峰時不膨脹,在低谷時不放棄

晚點:你 2018 年來理想時,和李想說的是要做自動駕駛,還是智能駕駛?

郎咸朋:自動駕駛,甚至是無人駕駛,當(dāng)時還聊到 L4/L5 級別。當(dāng)時只能去車企——百度不造車、沒有數(shù)據(jù),得跟車廠合作。國外車廠隔得太遠(yuǎn),而且奔馳寶馬的數(shù)據(jù)也不會開放給我們。

晚點:在理想這七年多,哪些超出你的預(yù)期,哪些在當(dāng)初的設(shè)想之中?

郎咸朋:剛?cè)肼毨硐霑r,有管理崗(M 崗)和研發(fā)崗(P 崗),我還主動要求把自己放 P 崗,就想著把技術(shù)做好。但后來才明白,如果想真正做好技術(shù),必須把整個業(yè)務(wù)管理都做好。

實現(xiàn) L4 涉及技術(shù)、產(chǎn)品和商業(yè)三個部分。我之前從沒想過商業(yè)還跟我有關(guān)系,但我正在做的就是規(guī)劃 L4 實現(xiàn)后的商業(yè)戰(zhàn)略。這完全不同于很多人想的,比如 Robotaxi 或者售賣 FSD 功能就是商業(yè)化。其實 iPhone 背后的商業(yè)價值是智能手機(jī)加整個 iCloud 等服務(wù)體系,還挺復(fù)雜。

晚點:現(xiàn)在你怎么分配自己在工作上的時間?

郎咸朋:放在技術(shù)上的比例越來越少了,我的工作重心已經(jīng)轉(zhuǎn)向戰(zhàn)略和管理。大概50%的精力用于中長期的戰(zhàn)略和商業(yè)規(guī)劃;30%放在管理上,主要是組織、人員、資源等短期日常事務(wù);剩下的 20% 放在技術(shù)和業(yè)務(wù)進(jìn)展上。

晚點:你什么時候最焦慮,當(dāng)時是如何度過的?

郎咸朋:做端到端之前,我從來不抽煙。到端到端那時候就開始抽煙。早晨從家到公司抽一根,晚上回家時,夜深人靜再抽一根,然后思考怎么研發(fā)端到端。那時的焦慮還是在于,能不能把這個技術(shù)、產(chǎn)品突破出來,因為我們真正開始做領(lǐng)頭羊了。

之前華為、特斯拉在前面,我們照著追就行。追平之后再往前走,方向怎么選、能否執(zhí)行好,沒有樣本可以參考。這確實是更焦慮的時候。

不過剛開始超越別人時,我可能想得比較多,現(xiàn)在 VLA 已經(jīng)超越了一部分,我反而能看得更清楚?;仡^看來時路會發(fā)現(xiàn),只要我作出的決策合乎戰(zhàn)略選擇、符合歷史大勢,就一定有辦法把問題解決好。

晚點:你們團(tuán)隊現(xiàn)在有很多校招生,他們年輕又有潛力,你怎么培養(yǎng)和管理這些人才?

郎咸朋:這些人都有自己的想法,你很難說服他們,而且他們可能都覺得比你聰明、比你厲害。最關(guān)鍵的是把公司戰(zhàn)略和目標(biāo)講透,讓他們明白我們到底要去哪。想哥也經(jīng)常這么做,他跟校招生平均每個月有一次溝通。

優(yōu)秀人才不可能被說服,但可以讓他們在理解目標(biāo)之后愿意跟著一起走。還有就是給足資源和空間,讓他們能放開手腳做事。

晚點:如果今天的你給 2018 年剛?cè)肼毨硐霑r的自己提一條建議,可能會是什么?

郎咸朋:我真覺得一切都是最好的安排。我學(xué)到的最大經(jīng)驗,就是不要跟年輕人講經(jīng)驗,他們是靠自己去悟。如果非要說的話,就是能不能把 2019 年的迭代再提前一點?但 2018 年時公司又沒有 LSA。到目前為止,人生沒有什么遺憾,很多人覺得遺憾,還是因為沒有看透事情的本質(zhì)。

不過說起來,我曾經(jīng)覺得自己有一個遺憾,但不是在工作中,而是在學(xué)習(xí)中。雖然我后來讀博,但我最大的遺憾是沒有上一個好本科。

晚點:沈陽化工學(xué)院。

郎咸朋:我那屆沈陽化工學(xué)院從山東招了 20 個人,只有 7 個最終留在那所學(xué)校。很多人是看學(xué)校一眼就直接走了,說 “我要回去復(fù)讀,這是什么破學(xué)校?不待?!?但我當(dāng)時覺得既來之、則安之,想著在學(xué)校里好好學(xué),等考研再考出來。

考研時,我還問學(xué)校里一些相對比較優(yōu)秀的老師,什么學(xué)校比較好?說能考上中科院沈陽自動化所就非常好,因為連他們自己都考不上。我最后考上了,但發(fā)現(xiàn)還不如考清華北大的研究生,或者到中科院北京自動化所來讀書。

所以我之后還是覺得,視野決定認(rèn)知,在一幫矬子里邊當(dāng)將軍其實不能證明什么,一定得出來。

后來到了百度。大家都覺得百度挺好的,可我想做自動駕駛,想到離車近、有數(shù)據(jù)的地方去。到理想后,從衛(wèi)城到無圖是有突破,但還沒達(dá)到公司要求,我自己也不滿足——做無圖還是被華為和小鵬壓著。那怎么能突破?端到端、VLA。

晚點:假設(shè)你最終實現(xiàn)了 L4/L5 級別的自動駕駛,之后可能會選擇做什么?

郎咸朋:我應(yīng)該還是會一直去挑戰(zhàn)一些不太可能的極限,而且我會得到很大樂趣——當(dāng)別人都覺得你不行的時候,你做成了,是很爽的。這包括之前的衛(wèi)城,也包括后來的端到端和 VLA。

我肯定能做成一些事情,這并不是說我對自己迷之自信,而是掌握了一定的方法和規(guī)律。事物的發(fā)展一定有高峰和低谷,那么在高峰時你能不能忍住不膨脹?在低谷時你能不能忍住不放棄?在聰明才智以外,這才是核心能力。

題圖來源:理想汽車

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
36歲吳曦已經(jīng)與上海申花續(xù)約1年,將隨隊前往海外進(jìn)行拉練

36歲吳曦已經(jīng)與上海申花續(xù)約1年,將隨隊前往海外進(jìn)行拉練

大眼瞄世界
2025-12-25 23:15:41
白銀還能更瘋狂?庫存耗盡、金銀比坍塌,資深分析師喊出300美元天價

白銀還能更瘋狂?庫存耗盡、金銀比坍塌,資深分析師喊出300美元天價

華爾街見聞官方
2025-12-26 21:26:53
藏不住了,當(dāng)年陸挺的《江南春》,是從徐湘江手里購買的

藏不住了,當(dāng)年陸挺的《江南春》,是從徐湘江手里購買的

吃瓜盟主
2025-12-24 15:26:30
深田詠美——你所不知道的辛酸史

深田詠美——你所不知道的辛酸史

素然追光
2025-12-10 00:25:54
2025年,消失的公司年會。

2025年,消失的公司年會。

愛吃糖的貓cat
2025-12-24 19:01:36
中原保時捷大瓜!“三朵金花”銷冠坐擁百萬粉絲,另謀高就投友商

中原保時捷大瓜!“三朵金花”銷冠坐擁百萬粉絲,另謀高就投友商

火山詩話
2025-12-26 06:53:51
片約不斷,演啥毀啥,央視《老舅》這倆戲混子,趁早收手吧

片約不斷,演啥毀啥,央視《老舅》這倆戲混子,趁早收手吧

查爾菲的筆記
2025-12-18 16:03:46
慕尼黑至北京航班備降阿拉木圖 機(jī)上一名乘客病亡

慕尼黑至北京航班備降阿拉木圖 機(jī)上一名乘客病亡

新京報
2025-12-26 18:56:02
海南封關(guān)成照妖鏡,東南亞國家挨個現(xiàn)行,新加坡直言不準(zhǔn)自給自足

海南封關(guān)成照妖鏡,東南亞國家挨個現(xiàn)行,新加坡直言不準(zhǔn)自給自足

離離言幾許
2025-12-26 14:16:02
王勇已任南海區(qū)委書記,曾先后任順德區(qū)區(qū)長、南海區(qū)區(qū)長

王勇已任南海區(qū)委書記,曾先后任順德區(qū)區(qū)長、南海區(qū)區(qū)長

南方都市報
2025-12-26 22:08:22
60:51票!臺島彈劾提案通過,賴清德時代或告終,盧秀燕一針見血

60:51票!臺島彈劾提案通過,賴清德時代或告終,盧秀燕一針見血

素年文史
2025-12-26 17:19:56
嚴(yán)防死守36年,利智還是輸了,李連杰終是沒放下一直虧欠的“她”

嚴(yán)防死守36年,利智還是輸了,李連杰終是沒放下一直虧欠的“她”

法老不說教
2025-12-24 18:25:17
幫關(guān)于京圈干部大整頓的背后,大哥這分析太透徹了

幫關(guān)于京圈干部大整頓的背后,大哥這分析太透徹了

阿天愛旅行
2025-12-27 03:34:48
海外訂單飆漲375%!新西蘭富豪瘋搶國產(chǎn)長壽設(shè)備:不交貨就睡工廠

海外訂單飆漲375%!新西蘭富豪瘋搶國產(chǎn)長壽設(shè)備:不交貨就睡工廠

思思夜話
2025-12-26 17:40:14
942 天零出場!利物浦傳奇遭解約,30 歲斷崖式下滑

942 天零出場!利物浦傳奇遭解約,30 歲斷崖式下滑

瀾歸序
2025-12-27 01:07:57
美女白色露臍T恤配藍(lán)色瑜伽褲,性感值拉滿,簡直是行走的 荷爾蒙

美女白色露臍T恤配藍(lán)色瑜伽褲,性感值拉滿,簡直是行走的 荷爾蒙

小喬古裝漢服
2025-09-24 07:20:03
山東打響第一槍,38名在編教師集體轉(zhuǎn)崗

山東打響第一槍,38名在編教師集體轉(zhuǎn)崗

山東教育
2025-12-26 08:09:47
真當(dāng)中國不敢動手?中方向全世界宣布,退出5000億大項目,菲慌了

真當(dāng)中國不敢動手?中方向全世界宣布,退出5000億大項目,菲慌了

瞳哥視界
2025-12-25 20:48:12
五個城市迎來新任代市長

五個城市迎來新任代市長

上觀新聞
2025-12-26 19:04:06
克林頓披露:當(dāng)年為了打贏朝鮮戰(zhàn)爭,美國共投入了200萬軍隊

克林頓披露:當(dāng)年為了打贏朝鮮戰(zhàn)爭,美國共投入了200萬軍隊

阿柒的訊
2025-12-25 19:57:39
2025-12-27 06:55:00
晚點LatePost
晚點LatePost
晚一點,好一點。商業(yè)的真相總是在晚點?!锻睃cLatePost》官方賬號
2996文章數(shù) 21865關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態(tài)度原創(chuàng)

數(shù)碼
旅游
藝術(shù)
教育
軍事航空

數(shù)碼要聞

盛色推出“OF24TC”23.8英寸顯示器:1080P 144Hz,499元

旅游要聞

百年老街變身!上海新天地東臺里開業(yè),解鎖冬日消費新范式

藝術(shù)要聞

閆平 2025油畫作品欣賞

教育要聞

2026云南專升本大綱解析!三分鐘鎖定重點

軍事要聞

烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

無障礙瀏覽 進(jìn)入關(guān)懷版