国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

對話小鵬汽車劉先明:押注 “極簡模型”,我花了全公司最多的錢

0
分享至

來源:市場資訊

(來源:晚點(diǎn)LatePost)


文丨李安琪

編輯丨龔方毅

2022 年下半年,通用汽車旗下的 Cruise 在舊金山晚高峰跑了一趟一個(gè)半小時(shí)的 Robotaxi(無人駕駛出租車),全程零接管。不久后公司請 Sam Altman 做了一場內(nèi)部爐邊談話,當(dāng)時(shí)在 Cruise 做機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺研究的劉先明和同事們聊起這趟行程,很驕傲。而 Sam Altman 一直在說他們正在做的 ChatGPT —— 當(dāng)時(shí)沒太多人在意。

幾個(gè)月后 OpenAI 發(fā)布 ChatGPT,一個(gè)足夠簡單的模型架構(gòu),加上足夠大的參數(shù)量、數(shù)據(jù)和算力,展現(xiàn)出超越預(yù)期的智能。劉先明說當(dāng)時(shí)被震撼了,他想也許沿著同樣的路徑,不用手寫成千上萬條規(guī)則,不用給系統(tǒng)裝五顆激光雷達(dá)再把沿街會(huì)遮擋傳感器的樹枝修剪一遍,智能駕駛也有機(jī)會(huì)涌現(xiàn)出智能。

2024 年初,他帶著這個(gè)判斷加入小鵬汽車。在小鵬硅谷辦公室第一次見何小鵬時(shí),他想的是 “如果他聽不懂我在說什么,我就不來了”。

今年 3 月,基于這套邏輯開發(fā)的小鵬汽車第二代 VLA [1](視覺-語言-動(dòng)作模型)開始上車。這也是劉先明加入小鵬以來最完整的一次交付。因?yàn)樘嗤邢霚y,一輛裝了新版軟件的試駕車,日租金一度被炒到八千元。

交付后,我們在小鵬的上海研發(fā)辦公室見到了劉先明。他剃個(gè)圓寸頭、戴黑框眼鏡、說話溫和,是 i 人但因?yàn)楣ぷ鞒闪嗽挵A。熟人評(píng)價(jià)他 “目標(biāo)感很清晰,能力非常綜合,既能講很深的技術(shù),也能把復(fù)雜問題說清楚”。

劉先明在小鵬汽車歷任北美 AI 負(fù)責(zé)人、基座模型負(fù)責(zé)人、自動(dòng)駕駛中心負(fù)責(zé)人,2026 年 2 月出任通用智能中心負(fù)責(zé)人,統(tǒng)管智駕和座艙這兩個(gè)原先的一級(jí)部門。在他之前,吳新宙為小鵬建立了智駕第一梯隊(duì)的行業(yè)認(rèn)知,李力耘用工程和規(guī)則把 “端到端” 高階輔助駕駛推向全國量產(chǎn)。劉先明要做的是自研基座模型,拆掉語言翻譯,讓模型從視頻和駕駛數(shù)據(jù)里直接學(xué)開車。

兩年間,劉先明成了小鵬花錢最多的人。2025 年,他統(tǒng)管的業(yè)務(wù)吃掉了 45 億元年度 AI 研發(fā)預(yù)算中最大的份額。何小鵬在第二代 VLA 量產(chǎn)推送前的直播里說 “連續(xù)十幾個(gè)月,每月花 3 個(gè)億去賭這個(gè)事情,心里也很慌?!?/p>

但一個(gè)繞不開的問題是,智駕行業(yè)目前的整體處境是否值得這種規(guī)模的投入。目前沒有哪個(gè)細(xì)分市場的銷量冠軍是靠智駕贏的,頭部智駕供應(yīng)商還在虧錢,而且技術(shù)領(lǐng)先的花期又很短,總有后發(fā)者快速追上。

劉先明的回答是,他們賭的不只是智駕,還有物理 AI。而在實(shí)現(xiàn)這個(gè)愿景前,他跟何小鵬還有一個(gè)更具體的賭約:今年 8 月底達(dá)不到特斯拉 FSD V14 在硅谷的水平,他將在金門大橋裸跑。

以下是《晚點(diǎn) Auto 》和小鵬汽車通用智能中心負(fù)責(zé)人劉先明的對談與追問,經(jīng)編輯:

“拆掉 Language,VLA 2.0 才真正開始”

晚點(diǎn):什么是 VLA 2.0?

劉先明:之前行業(yè)里做智駕大模型,包括我們第一代 VLA,基本都是拿開源的語言模型做骨架,加上圖像數(shù)據(jù)就能做 VLM [2](視覺-語言模型)。但問題是攝像頭看到畫面后要先經(jīng)過語言模型處理再輸出駕駛動(dòng)作這個(gè)過程,容易有高延遲,一秒鐘只能輸出兩三次指令,做不到實(shí)時(shí)處理。

做 VLA 2.0 時(shí)我們自研基座模型,傳感器信息輸入系統(tǒng),輸出駕駛動(dòng)作,中間不再經(jīng)過語言(Language)翻譯。這個(gè)基座模型接上動(dòng)作模塊就是 VLA 控車,接上視頻生成就是世界模型。

從頭訓(xùn)練一個(gè)基座模型需要大量的錢、數(shù)據(jù)和精力,還要冒險(xiǎn),當(dāng)下汽車行業(yè)誰敢在不確定的情況下投這么多?這個(gè)決定是最難的。做出結(jié)果之后,說服別人并不難。

晚點(diǎn):這就是你們說的拆掉 Language?

劉先明:拆掉的是推理鏈路中間的語言翻譯:原來模型輸出結(jié)果要先變成 language tokens [3] ,查表翻譯成文字,再生成駕駛動(dòng)作。普通人開車不需要先在腦子里把看到的東西翻譯成一段話,這一步?jīng)]有必要。

但語言沒有從整個(gè)系統(tǒng)消失。輸入端還需要語言,用戶語音控車、意圖理解都要用到語言模型。所以不是做了一個(gè)完全沒有 language 的東西,拆掉的是中間那層翻譯。

晚點(diǎn):在原來的架構(gòu)上繼續(xù)喂更多數(shù)據(jù),不拆 Language 不行嗎?

劉先明:不行。模型中間不能有信息瓶頸,一旦產(chǎn)生,后面再增加數(shù)據(jù)量也不見得有好的效果。另外自動(dòng)駕駛對實(shí)時(shí)性要求非常高,最終要權(quán)衡的是模型體量和推理延時(shí)。在有限車端算力下,參數(shù)量擴(kuò)大十倍,推理就變慢,控車能力變差;但要想更好控車、更低延時(shí),那模型體量要減小。

我們?nèi)ツ曜隽艘粋€(gè)特別有意思的事,當(dāng)時(shí)團(tuán)隊(duì)里不是所有人都信任這個(gè)方向,所以一開始用開源模型再加上 Action(動(dòng)作)數(shù)據(jù)訓(xùn)了一套自動(dòng)駕駛 VLA 模型后,有一天我們幾個(gè)人偷偷把 Language 拆了,模型但還是用原來的名字,我們第一次上了最大數(shù)量的 GPU 來訓(xùn)練模型,GPU 變大,數(shù)據(jù)量變大變多,拆完訓(xùn)完發(fā)現(xiàn)效果挺好的。

晚點(diǎn):那是 VLA 2.0 的雛形?當(dāng)時(shí)花了多久做這件事?

劉先明:去年 5 月份,花了兩三個(gè)星期。

晚點(diǎn):拆掉了語言模塊之后,訓(xùn)練數(shù)據(jù)的來源是不是也要跟著變?

劉先明:互聯(lián)網(wǎng)上的文字?jǐn)?shù)據(jù)是最多的,非常容易獲得,信息量很大,可以快速把模型做起來。但做物理 AI,做機(jī)器人,做自動(dòng)駕駛,更多數(shù)據(jù)來自于每天回傳的車輛數(shù)據(jù),從物理世界真實(shí)采集出來的。如果要做物理 AI,一定要把這部分?jǐn)?shù)據(jù)弄好,訓(xùn)練方式一定要改過來。

晚點(diǎn):機(jī)器人行業(yè)也有反思,減少大語言模型,直接做理解+生成一體化。小鵬二代 VLA 也受這個(gè)范式啟發(fā)嗎?

劉先明:這個(gè)思考可能是在不同的人群和領(lǐng)域中同時(shí)發(fā)生的。自動(dòng)駕駛和機(jī)器人都屬于物理 AI,面對的問題本質(zhì)是一樣的,都要與真實(shí)物理世界交互,處理非結(jié)構(gòu)化的輸入,輸出連續(xù)而非離散的動(dòng)作(車子的駕駛動(dòng)作和機(jī)器人的行為動(dòng)作)。拿掉 “語言” 這個(gè)思路很符合第一性原理,它簡單、直接,是更極致的端到端,也很像人類開車和日常生活中很多不用語言但暗含智能的 “直覺行為”。

晚點(diǎn):但我們聽說這版 VLA 2.0 發(fā)布推遲了兩個(gè)月?

劉先明:本來定在 1 月底開始凍結(jié)版本、2 月全量推送。1 月初有一天小鵬給我打電話,他說 “現(xiàn)在這樣不行,你們每天都在修下限,模型上限完全沒有釋放出來,再給你兩個(gè)月的時(shí)間,你會(huì)做成什么樣?” 我說 “老板,你要再給兩個(gè)月時(shí)間,我馬上把結(jié)構(gòu)給換了”。他說 “好”。于是調(diào)整到 3 月份推送。

第二天我們換了模型結(jié)構(gòu)重新開始訓(xùn)練。有人說我們交作業(yè)總是很遲,因?yàn)槲覀兛吹礁玫目赡苄浴H绻?2 月份我們真的發(fā)了一版,可能現(xiàn)在天天在修 bug。

晚點(diǎn):如果覺得可以做得更好,為什么不主動(dòng)提延遲?

劉先明:一個(gè)是當(dāng)時(shí)版本確實(shí)可以上線。另一個(gè)原因是模型、AI 發(fā)展是永遠(yuǎn)往前進(jìn),我們現(xiàn)在理論上每天能更新四個(gè)版本。但從公司商業(yè)決策來看,要考慮產(chǎn)品型譜、上市節(jié)奏、財(cái)務(wù)狀況來決定什么時(shí)候產(chǎn)出結(jié)果。

晚點(diǎn):多給 2 個(gè)月,模型怎么做到顯著進(jìn)步?

劉先明:我們的核心優(yōu)勢是迭代速度,而不是做一個(gè)非常 fancy、跨時(shí)代的模型結(jié)構(gòu)?,F(xiàn)在每家的 AI 模型結(jié)構(gòu)都極其相似和簡單,越復(fù)雜的東西越不好用。

我們有一套體系可以加快迭代速度,速度越快才能發(fā)現(xiàn)新問題、嘗試新結(jié)構(gòu)。對很多團(tuán)隊(duì)來說,最大的問題不是不知道下個(gè)結(jié)構(gòu)用什么,而是沒時(shí)間去試。我們在做一件沒人知道正確答案的事,只能猜或者只能靠經(jīng)驗(yàn)判斷,沒有人百分百準(zhǔn)確。我們每天都在不停迭代,把過去的結(jié)論推翻重新來。

晚點(diǎn):馬斯克也說過,創(chuàng)新來自于速度的迭代。

劉先明:特別明顯,現(xiàn)在模型收斂速度越來越快,不是因?yàn)楦喙こ處熂尤耄俏覀兊捏w系自動(dòng)化程度越來越高。

晚點(diǎn):這條路總結(jié)下來就是 Data Scaling [5] ?

劉先明:不僅是 Data Scaling。首先 AI 一定是極致簡化,不像過去做語音,得先有個(gè)模型做語音識(shí)別,再做語言處理,最后做語音生成?,F(xiàn)在大家都是原生多模態(tài)模型,端到端,結(jié)構(gòu)一定要簡單。第二,Scaling 不僅體現(xiàn)在數(shù)據(jù),還體現(xiàn)在模型,是體系層級(jí)的 Scaling。有任何短板,這事都做不成,絕不是一兩天、半年就能追得上來。

晚點(diǎn):現(xiàn)在車端模型的參數(shù)有多大?

劉先明:差不多 ****。

晚點(diǎn):模型越大越好嗎?

劉先明:沒有絕對說法,至少體量上越大越好,但越大的模型需要越多數(shù)據(jù)。收集數(shù)據(jù)對我們來說不是難事,尤其是二代 VLA 推出去后,會(huì)有大量影子模式數(shù)據(jù)回來。真正難的是,如何在車端芯片塞入更大的模型。

晚點(diǎn):現(xiàn)在數(shù)據(jù)有多大的量級(jí)?

劉先明:整體數(shù)據(jù)存儲(chǔ)量 50 PB 左右。

晚點(diǎn):總體來說,數(shù)據(jù)規(guī)模越大對于模型性能越有利?

劉先明:高質(zhì)量、有用的數(shù)據(jù)規(guī)模越大越有利。我們一開始也遇到過車在直行場景開得很好,一掉頭就廢的情況。原因是 90% 以上的數(shù)據(jù)都是空曠道路直行。數(shù)據(jù)單純多沒有意義,得找到有用數(shù)據(jù)。

晚點(diǎn):找?guī)装賯€(gè)熟練的專車司機(jī),讓他們?nèi)珖教庨_,把他們的數(shù)據(jù)收集下來,這個(gè)方式行得通嗎?

劉先明:行不通。200 個(gè)、2 萬個(gè)司機(jī),跟上百萬個(gè)司機(jī)完全不一樣。200 個(gè)司機(jī)能覆蓋多少場景?有段時(shí)間,我們碰到最奇葩的數(shù)據(jù)采集案例是近距離繞行,一個(gè)司機(jī)停在前面,另一個(gè)人繞過,再停在前面,再繞過去。

我們也想過請司機(jī),但這樣的數(shù)據(jù)沒有意義,因?yàn)槎疾皇莵碜杂谡鎸?shí)場景。數(shù)據(jù)收集要像是真實(shí)世界采樣器,采樣得越密集、越隨機(jī),量足夠大,才可能逼近真實(shí)世界場景,模型才具有泛化性,才能解決之前沒見過的問題。

晚點(diǎn):我們體驗(yàn)過好幾家智駕,一個(gè)共同感受是前 10 分鐘效果驚艷,越到后面越容易唯唯諾諾,這是為什么?

劉先明:第一可能是模型的容量本身受限,它會(huì)限制使用場景,還沒辦法泛化到很大的落地場景。另一個(gè)原因是數(shù)據(jù),數(shù)據(jù)是個(gè)新的問題。怎么去挖掘高質(zhì)量數(shù)據(jù)?

Meta 做一個(gè)事情叫做 data curation [8] (數(shù)據(jù)治理),這本身就是目前 AI 里面最難的問題,怎么發(fā)現(xiàn)一個(gè)數(shù)據(jù)不在你的訓(xùn)練樣本里面,是一個(gè) outlier [9](異常值),它還不是一個(gè)壞數(shù)據(jù)。

這里也有一個(gè)悖論。首先你發(fā)現(xiàn)它,一定是因?yàn)樗辉诖笠?guī)模數(shù)據(jù)里,第二,它如果在小規(guī)模里面,它很有可能是 outlier,是 “臟數(shù)據(jù)”,可能會(huì)被踢掉。怎么解決問題?其實(shí)有一套方法,但需要時(shí)間,需要不停地?cái)U(kuò)充數(shù)據(jù)的邊緣。

晚點(diǎn):你說 VLA 世界模型也有 CoT [6] 思維鏈,就像 chatbot 的思考過程,換到自動(dòng)駕駛領(lǐng)域,模型是怎么做思維鏈推理的?

劉先明:大家覺得 CoT 思維鏈很聰明,核心是啥?Scaling law [4] 有兩個(gè)維度,一個(gè)是 training time scaling [7] ,訓(xùn)練時(shí)擴(kuò)展,即訓(xùn)練階段投入更多算力,讓模型變強(qiáng);另一個(gè)是 test-time scaling,測試時(shí)擴(kuò)展,就是推理時(shí)消耗多少算力,投入更多算力,通常能得到更好的結(jié)果。

CoT 的過程是:生成一個(gè) token ,作為輸入,再重新生成下個(gè) token ,不停產(chǎn)生中間的結(jié)果,這是個(gè)計(jì)算過程。CoT 還可以做很多采樣,有隨機(jī)性采樣的話,就可以做強(qiáng)化學(xué)習(xí),探索不同的解決方案,給出最好結(jié)果。

視覺 CoT 的本質(zhì)就是一個(gè) test-time scaling ,給更多計(jì)算時(shí)間,產(chǎn)生更好的推理結(jié)果。車端做推理時(shí),只是在訓(xùn)練過程中,將中間結(jié)果可視化出來,我們也想知道它腦子里到底在想什么,于是通過世界模型生成未來一段時(shí)間內(nèi)的道路環(huán)境和自車行為,預(yù)測模型下一步動(dòng)作,我們稱之為 “腦內(nèi)小劇場”,劇場生成的畫面可以是鳥瞰圖,也可以是對應(yīng)不同位置攝像頭的視頻畫面。我們發(fā)現(xiàn)這個(gè)玩意兒挺有用的。

“智駕團(tuán)隊(duì)花了最多錢,不想用規(guī)則交差”

晚點(diǎn):如果能更早意識(shí)到第一代 VLA 中語言的限制,早點(diǎn)拆掉,二代 VLA 是不是更快出來?

劉先明:也不會(huì)。模型訓(xùn)練跟交響樂協(xié)奏曲一樣,多個(gè)要素一起發(fā)展。如果連足夠的行車數(shù)據(jù)都沒有,就想拆掉 Language,其實(shí)搞不定;就算有足夠數(shù)據(jù),有了更好的模型,如果訓(xùn)練集群的穩(wěn)定性和效率不高,也搞不定。把節(jié)奏排好,模型、數(shù)據(jù)、Infra [10](基礎(chǔ)設(shè)施)都沒有短板,花多大錢辦多大事。

晚點(diǎn):規(guī)則階段積累的東西還能派上用場嗎?

劉先明:其實(shí)不多,有些東西甚至應(yīng)該盡早拿掉。沒有人告訴你 VLA 具體怎么做,只有大概思路,去想工程應(yīng)該怎么匹配,怎么用最少時(shí)間、不大改動(dòng)系統(tǒng)的情況下把它做出來,再逐漸拆分中間模塊。

晚點(diǎn):聽起來很順滑,但你們實(shí)際上在二代 VLA 測試階段遇到了很多問題。

劉先明:對,當(dāng)時(shí)有個(gè)決定比較艱難。二代 VLA 模型測試后遇到各種問題,比如撞路沿子或者不居中。這時(shí)候要不要借助規(guī)則把它修正一下?有段時(shí)間整個(gè)團(tuán)隊(duì)都很掙扎,因?yàn)橹灰狭艘?guī)則,系統(tǒng)就變味兒了,就拆不掉了。

晚點(diǎn):為什么會(huì)拆不掉?

劉先明:模型還沒量產(chǎn)前,應(yīng)該盡量讓它暴露問題。規(guī)則能修,但我想從數(shù)據(jù)角度解決模型問題。那時(shí)候測試一周,新問題越來越多,團(tuán)隊(duì)也很困惑,問題解得完嗎?只要上一點(diǎn)規(guī)則后處理,事情就搞定了。但是一旦寫了規(guī)則,所有問題都會(huì)被蓋住,喪失發(fā)現(xiàn)問題的能力。不把規(guī)則拆干凈,就像在修一條到不了未來的路。

晚點(diǎn):小鵬現(xiàn)在是 0 規(guī)則、0 超級(jí)對齊嗎?

劉先明:我們沒有規(guī)則。端到端時(shí)代可以加規(guī)則,大家都是這么做的,但模型時(shí)代依靠數(shù)據(jù)規(guī)模驅(qū)動(dòng),如果再加規(guī)則,模型的上限最終肯定會(huì)被規(guī)則限制住。加規(guī)則,也許短期可以攢出一個(gè)還不錯(cuò)的版本,但可能到 8 月份完成不了任務(wù),我還是要去裸跑的(笑),其他廠商也一定很快追上來。

舉個(gè)例子,模型走錯(cuò)路,確實(shí)可以搭載車道級(jí)導(dǎo)航,在還剩 300 米右轉(zhuǎn)時(shí)強(qiáng)行變道,但一旦上了,會(huì)發(fā)現(xiàn)后面導(dǎo)航變成了拐杖,只能解決一時(shí)的問題。我們不想重度依賴導(dǎo)航信息,因?yàn)槲覀冏龅氖侨蚧a(chǎn)品,歐洲等地區(qū)沒有圖商提供高清地圖信息的。

這是一個(gè)選擇,是通過技術(shù)手段解決,還是用一個(gè) shortcut(捷徑)搞定,代價(jià)是后面沒法繼續(xù)。我們希望達(dá)到的狀態(tài)是,限制我們的只有自己的迭代速度。

晚點(diǎn):這里的技術(shù)手段是指強(qiáng)化學(xué)習(xí)?

劉先明:要解決走錯(cuò)路的問題,最好的辦法是強(qiáng)化學(xué)習(xí)。在匯入?yún)R出這種場景可以使用強(qiáng)化學(xué)習(xí),加上適當(dāng)?shù)?reward(獎(jiǎng)勵(lì)),讓模型學(xué)會(huì)在什么情況下該做什么事情。闖紅燈也有幾種不同的辦法。一種是加規(guī)則,用傳統(tǒng)的技術(shù)棧 2D 模型檢測,檢測到紅燈就一腳摁死剎停,但會(huì)帶來一個(gè)問題,整個(gè)技術(shù)棧會(huì)過分依賴于已有的規(guī)則。

晚點(diǎn):加或者不加規(guī)則,到底是如何影響模型工作的?

劉先明:不管是端到端模型還是 VLA 模型,核心是有一些輸入,經(jīng)過加工之后要去輸出。比如我們認(rèn)為輸出就是一個(gè)車要規(guī)劃幾秒的軌跡,軌跡之間的時(shí)間間隔是多少?如果橫向最大的范圍是 20 米,縱向是 80 米,把這個(gè)范圍離散化,所有可能的軌跡點(diǎn)組合就構(gòu)成了一個(gè)極大的搜索空間。

傳統(tǒng)方法不管是 Monte Carlo [11] (蒙特卡洛方法)還是非凸優(yōu)化,核心都是砍掉搜索空間,把它砍到可計(jì)算的范圍之內(nèi)。在算力和模型不足的情況下,對搜索空間做大幅的縮減。

AI 模型反過來。為什么我們覺得現(xiàn)在 AI 聰明、能做很多事情?因?yàn)樗膮?shù)量直接決定了它的輸出空間。如果有幾個(gè) Billion(十億)參數(shù)的模型,比如 OpenAI 220B 的模型,理論上它可以探索 220B 這么大規(guī)模的空間,這是足夠大的搜索空間了。所以要解決問題很簡單,就是讓你的搜索空間足夠大。

過去我們做了很多平衡,比如對搜索空間不做太多限制,但把時(shí)間和空間分開。橫向很絲滑,我們一般叫做空間;縱向一般是用速度和加速來控制,我們一般叫做時(shí)間。很多傳統(tǒng)方法即使到端到端的時(shí)代也是這樣——先輸出一個(gè)橫向軌跡,至于什么時(shí)間點(diǎn)到這個(gè)位置,可能是單獨(dú)用規(guī)則去算的。那它就會(huì)一腳剎死,因?yàn)橐?guī)則沒有這么大的浮動(dòng)空間。

我們則希望通過一個(gè)足夠大的模型,能夠探索這么大的搜索空間。為了讓整個(gè)模型不會(huì)過擬合到某些特定的模式上,就需要很多訓(xùn)練數(shù)據(jù)。有了更多的訓(xùn)練數(shù)據(jù),就有一個(gè)很大的模型,但又不希望模型是個(gè)倒金字塔——輸入的信息量很少,一直在做插值升維,其實(shí)信息量本身沒有上升。于是我們就讓整個(gè)模型盡量變成一個(gè)通暢的結(jié)構(gòu),通暢的結(jié)構(gòu)要求輸入的信息量足夠大。

這是為什么我們不用激光雷達(dá),因?yàn)榧す饫走_(dá)給我們的信息量太小了,而且頻率又很低,整個(gè)系統(tǒng)會(huì)拖慢到 10 赫茲。它還有光柵的閃變,光柵的處理時(shí)間一般是 80 到 100 毫秒。

最近小鵬第二代 VLA 從喀什到上海橫穿中國,全程 5000 公里,純視覺方案經(jīng)歷沙塵暴、雨雪等天氣和場景,單次最長 0 接管里程 1360 公里,這已經(jīng)能說明問題。

把所有東西加在一塊,整個(gè)邏輯就非常簡單:找到一個(gè)給你提供高密度信息輸入的傳感器配置,一個(gè)足夠強(qiáng)大的模型,和一個(gè)能夠端到端去訓(xùn)練的方式。

晚點(diǎn):什么樣的智駕體驗(yàn)可以稱得上好?

劉先明:智駕體驗(yàn)過于主觀,沒有特別好的評(píng)價(jià)標(biāo)準(zhǔn)。過去大家一直用接管 MPI、MPCI 來評(píng)價(jià),但如果加規(guī)則或者限制,是很容易做到零接管的。

我一直說,自動(dòng)駕駛是白開水,能讓坐在后座的用戶忘掉駕駛這件事。

我們內(nèi)部評(píng)價(jià)時(shí)會(huì)盡量排除主觀因素,用比較客觀的 CCES: compliance-合規(guī),comfort-舒適,efficiency-效率,safety-安全。其中,安全最重要,有時(shí)候?yàn)榱税踩?,不得不犧牲一些效率和舒適性,但我們不想就此放棄效率和舒適,就看怎么平衡。

晚點(diǎn):這形成共識(shí)很難嗎?

劉先明:很難,因?yàn)樾袠I(yè)很卷。想出圈,一定要挑出不同的特質(zhì),去讓別人注意到自己。

晚點(diǎn):你會(huì)怎么做?

劉先明:沒有固定答案。最好的辦法是,在技術(shù)架構(gòu)和技術(shù)路線上,不能有短期的 trade-off(妥協(xié)),一定要做具備可拓展性、向上空間足夠大的東西。另外,基礎(chǔ)能力要足夠強(qiáng),才可以在不同風(fēng)格上做 trade-off。作為技術(shù)一號(hào)位,我能做的就是告訴大家,不要去追求某些短期目標(biāo)而去欠下一些技術(shù)債。

晚點(diǎn):哪些算 trade-off 呢?

劉先明:比如為了舒適性,加一些 “過路口減速” 規(guī)則,或者在某些特定情況給模型加兜底。

晚點(diǎn):你這些說的都挺好的。但我們還是想知道,去年天天測、天天出新問題的時(shí)候,團(tuán)隊(duì)還信這條技術(shù)路線嗎?

劉先明:有一段時(shí)間士氣比較慘,測試結(jié)果很慘,天天我都去看。那時(shí)候真不敢回國。

那段時(shí)間壓力很大,團(tuán)隊(duì)確實(shí)有不同的聲音。但頂過壓力后,發(fā)現(xiàn)問題的收斂速度非???。問題充分暴露后,用比較系統(tǒng)的方法去修,AI 修問題不是一個(gè)個(gè)修,是一坨一坨修的。

有時(shí)候加了一個(gè)數(shù)據(jù)解決一個(gè)問題,另外一坨不相關(guān)的問題也解了。這個(gè)事情確定之后,系統(tǒng)就好干了,大家都認(rèn)同方向了。以前系統(tǒng)會(huì)存在很多模塊兜底,長得奇形怪狀特別亂,沒法優(yōu)化,現(xiàn)在系統(tǒng)可以簡化很多。

晚點(diǎn):是前面說的去年 5 月份那時(shí)候嗎?

劉先明:差不多,那時(shí)候真不敢回國。我本來 5 月回國時(shí)應(yīng)該給大師兄測 demo 的,結(jié)果到約定時(shí)間都沒找他。一直等到我坐上飛美國的飛機(jī),才給他發(fā)消息,說下次回來一定讓你坐 demo。

晚點(diǎn):確認(rèn)一下,你是上了飛機(jī)才告訴他的?

劉先明:我想的是,什么時(shí)候做出來了什么時(shí)候再回國。

晚點(diǎn):我要是交不出稿,可能也消失。

劉先明:但是你交不出稿你消失的話,會(huì)不會(huì)有人問你?

晚點(diǎn):當(dāng)然會(huì)啊。當(dāng)時(shí)何小鵬真沒找過你?

劉先明:大師兄對我真的挺寬容,他不問我。有時(shí)候他在飛書上跟我發(fā)消息,打個(gè)招呼,然后不管了。

晚點(diǎn):做不出來的時(shí)候你忐忑嗎?

劉先明:大師兄經(jīng)常開玩笑說我 “花了全公司最多的錢,但是發(fā)現(xiàn)分文不掙”。作為管理者,我肯定有壓力。一家公司能健康地發(fā)展下去,不能只投入,要講產(chǎn)出的,否則游戲轉(zhuǎn)不下去。

但如果你在做的事關(guān)系到公司的未來命運(yùn)或者整個(gè)商業(yè)化進(jìn)程,沒有壓力是不可能的,這一點(diǎn)上,全公司壓力最大的肯定是大師兄。有的時(shí)候他也會(huì)跟我吐槽,說他自己很痛苦。

在我這一層,他其實(shí)一直極力保護(hù)我。有時(shí)候一個(gè)會(huì)議我剛進(jìn)門,他會(huì)說 “你走吧,這會(huì)不需要你,回去干活?!?今天車圈如此卷,半年做不出來東西,可能很多一號(hào)位就被干掉了。我做這個(gè)事情這么長時(shí)間,資源一直源源不斷的投入進(jìn)來,老板并沒有因?yàn)槎虝旱捏w驗(yàn)不好就放棄,或者換一條路走。這種信任和篤定,不太能在別的地方找到。

大概去年 6 月份,我們進(jìn)展還是很快的,所以敢回國了。我在回來的航班上看一個(gè)版本的實(shí)驗(yàn)結(jié)果,覺得不錯(cuò),落地之后趕緊去測試,天天追著大師兄坐 demo,從北京追到上海。大師兄問我為什么不去廣州測,我說廣州跑不下來,太難了。

晚點(diǎn):小鵬對你的管理風(fēng)格是偏向?qū)捜葸€是嚴(yán)格?

劉先明:既寬容又嚴(yán)厲。對于結(jié)果很寬容,不急功近利,不短視。正是有這種對于研究和技術(shù)突破的寬容,才有了今天的技術(shù)突破。很多 CEO 嘴上喊的都是技術(shù)突破和投入,但忍不了半年。這是我最欣賞和佩服大師兄的地方。他對于原則很嚴(yán)厲,對就是對,錯(cuò)就是錯(cuò)。不能浪費(fèi)資源,不能渾水摸魚。這也是小鵬能逐漸走得更快更穩(wěn)的原因。

晚點(diǎn):你什么時(shí)候知道你花了整個(gè)公司最多的錢?

劉先明:一直都知道。每年都會(huì)跟小鵬和財(cái)務(wù)去審預(yù)算,太可怕了。

晚點(diǎn):所以是多少?

劉先明:這不能告訴你們。

晚點(diǎn):公開能查到的 2025 年是 45 億元 AI 研發(fā)投入,是這個(gè)數(shù)字嗎?

劉先明:我去要預(yù)算是 2024 年的事情。2025 年已經(jīng)是公開數(shù)字了。

晚點(diǎn):剛到小鵬時(shí)覺得你自己能花多少錢?

劉先明:我剛來的時(shí)候,給老板寫一個(gè)方案,要預(yù)算,然后他問我說這些夠嗎?我說不太夠,于是我們重新寫了一個(gè)版本叫 “格局打開版”,預(yù)算直接 x2,大師兄直接批了。

不過,在資源不受限的情況下,很多事情過于理想化;而在人、時(shí)間,預(yù)算都受限的情況下,你不得不去想,怎么讓龐大的組織變得更高效;在哪些事情上做取舍,哪些事情讓你有更大贏面。

晚點(diǎn):能舉個(gè)例子嗎?你剛加入時(shí)算力沒有今天豐富,當(dāng)時(shí)的某個(gè)決策放到今天會(huì)是什么?

劉先明:變化特別明顯,我剛來時(shí)算力還 OK,但大家覺得不夠用,每個(gè)人都在申請更多的卡,要預(yù)算。那時(shí)候我去看整個(gè)訓(xùn)練集群的訓(xùn)練效率,發(fā)現(xiàn) GPU 利用率只有 8%,很低。我的決策很簡單,把它干到 40%,效率提升 5 倍。

當(dāng)時(shí)我們要訓(xùn)更大的模型,為了在規(guī)定的時(shí)間點(diǎn)完成它,直接把卡的數(shù)量 x2,不夠就 x3、x4,這樣可以縮短單個(gè)模型的訓(xùn)練時(shí)間,當(dāng)時(shí)更多是技術(shù)選擇。

現(xiàn)在不一樣。一方面要優(yōu)化整個(gè)訓(xùn)練效率,還要考慮數(shù)據(jù),數(shù)據(jù)成本,存儲(chǔ)/讀取成本。但更重要的是,哪些業(yè)務(wù)線可以等,哪些事情是可以被砍掉的;怎么把預(yù)算分配大盤子里,讓長板變得更長。

晚點(diǎn):8% 也太低了。怎么會(huì)這樣?

劉先明:那個(gè)時(shí)候模型規(guī)模還比較小,大家沒有意識(shí)到這個(gè)問題,并且沒有深入看這個(gè)問題,訓(xùn)練速度慢就直接加機(jī)器,簡單粗暴。但資源達(dá)到瓶頸后就必須要看了。

在硅谷,工程師的文化和傳統(tǒng)通常是先做工具,先做各種 profiling [12](性能分析)和 dashboard(數(shù)據(jù)可視化),這也是硅谷工程師和研究人員效率很高的原因。但這初期很費(fèi)時(shí)間,后期卻能做到加速度。

解決問題核心是找對人,來做這種硬核的事情,還要團(tuán)隊(duì)能有統(tǒng)一的認(rèn)知,內(nèi)部要有節(jié)奏,不能揠苗助長,也不能急功近利。最后就是科學(xué)的方法論,不是靠喊口號(hào)和硬派指標(biāo),要從數(shù)據(jù)出發(fā)做出科學(xué)的決定。

晚點(diǎn):去年小鵬賣的車更多了,何小鵬給你買卡的預(yù)算有沒有變多?

劉先明:我們?nèi)ヒA(yù)算,他總是問 “夠嗎”?

晚點(diǎn):滿分 10 分,你給這版 VLA 2.0 打幾分?

劉先明:6 分,離我們所有人的理想還有差距。目前已知的問題,導(dǎo)航(我們不想用任何先驗(yàn)信息,比如高精地圖或者規(guī)則點(diǎn)來限制模型的泛化能力,我們需要讓他在沒有這些先驗(yàn)信息的地方也能好用,比如鄉(xiāng)村,地庫,漫游,海外,所以還需要時(shí)間),處理極端情況的能力。所以我不認(rèn)為世界上目前有任何一個(gè)系統(tǒng)已經(jīng)接近 10 分。

“不止智駕,小鵬還要搏物理 AI 的未來”

晚點(diǎn):現(xiàn)在的 VLA 是不是還不夠你剛說的 “極簡”?

劉先明:整體架構(gòu)上應(yīng)該差不多了。但是內(nèi)部很多細(xì)節(jié)還在不停更新,包括我們也在嘗試各種各樣的方法在往前做,不管是訓(xùn)練的方法還是模型的架構(gòu),都在往前做,但整個(gè)范式是基本不會(huì)變的。

晚點(diǎn):還可能要拆掉什么東西嗎?

劉先明:沒什么可拆的了,再拆就沒了。

晚點(diǎn):再拆就剩骨架了。

劉先明:對。所以說到底,其實(shí)這背后沒有什么太多的秘密,秘密就是極致的工程化,這也是我剛來的時(shí)候跟小鵬說的話,AI 的背后就是極致工程化。

晚點(diǎn):目前自動(dòng)駕駛領(lǐng)域,還有技術(shù)非共識(shí)?

劉先明:還有很多,可能一家公司甚至團(tuán)隊(duì)里都有非共識(shí)。比如怎么做 VLA 大家就沒有共識(shí),再比如自動(dòng)駕駛出多條軌跡還是單條軌跡也沒有共識(shí);是橫向空間縱向空間分開做出軌跡,還是橫縱聯(lián)合出軌跡,也沒有共識(shí)。如果大算力、大數(shù)據(jù)是強(qiáng)共識(shí),那兩年前所有車企都應(yīng)該去做大算力芯片,但現(xiàn)在很多量產(chǎn)的下一代芯片,算力還是 Orin 量級(jí)。

晚點(diǎn):非共識(shí)意味著不確定性,但何小鵬說三年內(nèi)自動(dòng)駕駛可以實(shí)現(xiàn),這是一個(gè)很大的確定性。這里面有矛盾嗎?

劉先明:沒有大矛盾,方法論是固定的,大方向是確定的,可能行業(yè)還沒完全信。我們篤定是因?yàn)檫^去幾年 AI 的發(fā)展就是這樣,比如 OpenAI、Gemini、Claude 出來。2023 年谷歌發(fā)第一代大模型時(shí),大家還認(rèn)為是造假,但想象不到一年后,Gemini 3 能做到現(xiàn)在這樣。當(dāng)路徑是對時(shí),趨勢會(huì)發(fā)展得非??斓?。核心在于有沒有選擇一條對的路,不斷調(diào)整方法,快速探索。

晚點(diǎn):你在 Cruise 研究 L4 自動(dòng)駕駛、Robotaxi,一些 L4 自動(dòng)駕駛公司普遍會(huì)認(rèn)為,沿著 L2 智駕的路線沒有辦法抵達(dá) L4 級(jí)自動(dòng)駕駛。你怎么評(píng)價(jià)?

劉先明:沿著 L2 可以走到 L4,AI 大模型和規(guī)模法則(Scaling Law)讓我們看到并且堅(jiān)信這個(gè)方向。

我們的 VLA 2.0 架構(gòu)就是為了 L4 而生的,從視覺輸入到軌跡輸出的極簡架構(gòu),能夠支持模型、數(shù)據(jù)和算力的高效擴(kuò)展,scaling 能讓我們突破模仿學(xué)習(xí)的上限,突破 L2;世界模型和強(qiáng)化學(xué)習(xí)能夠幫助模型自我進(jìn)化,解決各種各樣的 corner case。

其實(shí),Cruise 是當(dāng)時(shí)自動(dòng)駕駛?cè)镒?Waymo 追得非常狠的公司。2019 年還是純規(guī)則,工程師寫一段代碼,然后自己坐到副駕,現(xiàn)場調(diào)試,開一圈出去沒撞就說明沒事,如果撞了,就說明代碼有問題。

晚點(diǎn):寫完代碼立刻測試?

劉先明:對。那時(shí)候技術(shù)棧非常重規(guī)則,最早 Cruise 那幫人很多都參加過 DARPA [13] 的無人駕駛挑戰(zhàn)賽,也有人來自 CMU(卡內(nèi)基梅隆大學(xué))機(jī)器人實(shí)驗(yàn)室。我第一次見到 Cruise 車的時(shí)候驚呆了,那么小的 GM Chevy Bolt(雪佛蘭小型電動(dòng)車)車上裝了 5 顆激光雷達(dá)。

第二代車有 22 顆攝像頭,4 顆 128 線激光雷達(dá),8 顆近場激光雷達(dá)。那個(gè)時(shí)候的代碼怎么寫的?雷達(dá)點(diǎn)云作為輸入進(jìn)來,檢測然后執(zhí)行規(guī)則,寫優(yōu)化器,然后計(jì)算軌跡。在舊金山街道,我們的車被樹枝垂下來遮住激光雷達(dá),被卡住了。Cruise 還動(dòng)用 “鈔” 能力,把整條街的樹枝都得修剪了。

Cruise 是全美第一個(gè)商業(yè)化的自動(dòng)駕駛企業(yè),雖然后面有不幸的事情。能做到這一點(diǎn),是因?yàn)?2019 年 Cruise 決心換思路,成立了 AI 部門,我是那個(gè)時(shí)候加入的。當(dāng)時(shí)提出概念 Continuous Learning Machine 的概念,即一種持續(xù)學(xué)習(xí)的機(jī)器。當(dāng)時(shí)覺得不太可能實(shí)現(xiàn),但也是從那時(shí)候開始,我們大規(guī)模學(xué)習(xí) Infra,建立非常通用、簡單的模型框架。

晚點(diǎn):你在 Cruise 時(shí)已經(jīng)能看到 AI 大模型的技術(shù)框架支撐進(jìn)化到自動(dòng)駕駛了嗎?

劉先明:那時(shí)候沒有人敢說一定是對的。2022 年底 Cruise 內(nèi)部邀請 Sam Altman(OpenAI 創(chuàng)始人)來跟當(dāng)時(shí)的 CEO Kyle Vogt 做爐邊談話,當(dāng)時(shí)我們在舊金山體驗(yàn)了一個(gè)多小時(shí) Robotaxi,沒有遠(yuǎn)程接管過,我們跟 Sam 吹牛,看我們多牛。但是 Sam 當(dāng)時(shí)說我們在做 GPT,緊接著 2023 年 ChatGPT 就出來了,非常震撼。

晚點(diǎn):為什么之后又去了小鵬?

劉先明:當(dāng)時(shí)在商業(yè)化面前,要做最終取舍,還要用各種規(guī)則把模型限制住。離開 Cruise 還是因?yàn)?,?dāng)你相信一條路,但在這看不到盡頭,你可能會(huì)選擇一個(gè)新的地方去實(shí)現(xiàn)它。

晚點(diǎn):你當(dāng)時(shí)跟何小鵬第一次見面就達(dá)成了共識(shí)?

劉先明:跟大師兄約在硅谷辦公室面試。面試之前,我想的事情是,如果他聽不懂我在說什么我就不來了。估計(jì)大師兄當(dāng)時(shí)想的事情是,如果這個(gè)人想的事情還是過去那套,我也不要他了。他希望做一家有創(chuàng)新能力的 AI 企業(yè),所以才大刀闊斧去改革。我覺得我跟他說什么,他是認(rèn)同并覺得就應(yīng)該做的。我也是一個(gè)比較激進(jìn)的人,聊完了之后,我覺得給我準(zhǔn)備 offer 吧。

晚點(diǎn):當(dāng)時(shí)有多家智駕公司也在接觸你,你選擇了小鵬汽車?

劉先明:我要做的事,一定需要大量數(shù)據(jù)和大量資金支持,肯定選擇一個(gè)能有數(shù)據(jù)和硬件支持的地方,只能是主機(jī)廠。當(dāng)然,大師兄自己也有了類似的想法,想找人跟他一起實(shí)現(xiàn)。所以剛來小鵬的時(shí)候,我們認(rèn)為這條路是對的,但沒人百分百確信。那個(gè)時(shí)間點(diǎn)上,小鵬想做,我也終于找到一個(gè)愿意投錢的老板。

晚點(diǎn):你最早加入小鵬出任 AI 負(fù)責(zé)人,還不是技術(shù)一號(hào)位,當(dāng)時(shí)怎么爭取資源、怎么說服團(tuán)隊(duì)嘗試新路線?

劉先明:小鵬自動(dòng)駕駛團(tuán)隊(duì)一直非常扁平。我來的時(shí)候跟力耘電話,他說這個(gè)團(tuán)隊(duì)是你的,一會(huì)兒又打過來說,這個(gè)團(tuán)隊(duì)也是你的。其實(shí)不需要去爭取什么。過去幾年,小鵬做了很多事情,比如 2022 年開始建 “扶搖” 萬卡集群,很多先天條件都已經(jīng)鋪好。它的積累在所有主機(jī)廠里是最有先天優(yōu)勢的。

晚點(diǎn):你什么時(shí)候才覺得自己在小鵬站穩(wěn)了腳跟?

劉先明:我剛來時(shí),很多人跟我說踩了幾個(gè)死穴。第一是空降,第二是跨國,當(dāng)時(shí)團(tuán)隊(duì)一半在國內(nèi),一半在美國,第三還讓人覺得高高在上,那時(shí)候科學(xué)家氣質(zhì)比較重,很高冷,不像現(xiàn)在話癆一樣。很多人判斷我撐不過一年。

晚點(diǎn):但你走到了今天,還被賦予更多職責(zé)。

劉先明:小鵬的團(tuán)隊(duì)是很包容的,因?yàn)橐恢庇泄韫葓F(tuán)隊(duì),大家很適應(yīng)有能力、有新想法的人加入,也適應(yīng)跨文化協(xié)作。

晚點(diǎn):從哪個(gè)節(jié)點(diǎn)開始,你覺得團(tuán)隊(duì)開始信你?

劉先明:可能就是無圖城市 NOA 階段,包括去激光雷達(dá)、搭建 OCC(占據(jù)網(wǎng)絡(luò))階段,開始向團(tuán)隊(duì)輸出一些想法,推動(dòng)底層框架變化,大家愿意跟著你一起干,最終結(jié)果好像還不錯(cuò),那時(shí)候開始有人相信你的技術(shù)判斷。

晚點(diǎn):自動(dòng)駕駛的技術(shù)依然在向前演進(jìn),除了 VLA,還有別的路線可能嗎?有行業(yè)人士說技術(shù)路徑已經(jīng)進(jìn)入停滯年代,您認(rèn)同嗎?

劉先明:我不認(rèn)同,我們才只是物理 AI 很初始的階段。我們也都看到了過去、今年,AI 是以什么節(jié)奏進(jìn)步的。核心還是你要做自動(dòng)駕駛軟件,還是物理 AI 。自動(dòng)駕駛算法可能接近天花板了,但是物理 AI 剛開始。

晚點(diǎn):機(jī)器人的研發(fā)會(huì)對智駕還有哪些啟示嗎?小鵬會(huì)在機(jī)器人關(guān)節(jié)的自研上做到哪種程度?

劉先明:小鵬機(jī)器人現(xiàn)階段會(huì)充分復(fù)用小鵬智駕乃至整個(gè)汽車體系的能力。機(jī)器人行業(yè)是軟件驅(qū)動(dòng)硬件設(shè)計(jì),機(jī)器人的關(guān)鍵在于融合+創(chuàng)新,要做到這一點(diǎn),全棧自研就成了必選項(xiàng)。

只有自己研發(fā)的硬件,才能完美匹配自己訓(xùn)練的模型,而模型的訓(xùn)練也要根據(jù)實(shí)際需求進(jìn)行專項(xiàng)調(diào)整。到最后,我們發(fā)現(xiàn),只有全棧自研,才能造出一個(gè)足夠領(lǐng)先,同時(shí)又能實(shí)現(xiàn)規(guī)?;慨a(chǎn)的機(jī)器人。

晚點(diǎn):你前面說小鵬汽車極致扁平,這是場面話嗎?

劉先明:扁平化真是小鵬的獨(dú)特文化,你很少能在飯?zhí)每吹揭粋€(gè) CEO 這么平易近人,也跟你一樣吃豬腳飯。我在食堂見到他,當(dāng)時(shí)還拄著拐,大師兄見到我說,來坐這吃,我說我走不動(dòng),然后大師兄端著飯盤過來了。

晚點(diǎn):你們現(xiàn)在人也挺多的,特斯拉 FSD 團(tuán)隊(duì)沒那么人,車企智駕有必要養(yǎng)這么龐大的智駕隊(duì)伍嗎?

劉先明:不一樣,特斯拉 Autopilot 團(tuán)隊(duì)確實(shí)人不多。我們團(tuán)隊(duì)其實(shí)有很大的變化,很多人轉(zhuǎn)到了中間的 Infra,去做訓(xùn)練、推理、車端部署、數(shù)據(jù)研發(fā)等。很多之前寫規(guī)則的工程師,雖然不適應(yīng)做模型,但知道什么數(shù)據(jù)最重要,所以他是做數(shù)據(jù)最好的人。

數(shù)據(jù)不是能從車上回傳回來就可以用。每天一輛車平均開車 1.7 個(gè)小時(shí),但真實(shí)有效數(shù)據(jù)不超過 90 秒。如果沒有對自動(dòng)駕駛行為非常準(zhǔn)確的判斷,是找不出來數(shù)據(jù)的。我們不是要干掉這些人,而是給大家找更合適的位置。我們還有大眾的項(xiàng)目、機(jī)器人 .... 很多橫向項(xiàng)目也會(huì)涉及到很多人。盡量幫大家做轉(zhuǎn)型和升級(jí)。

晚點(diǎn):如果按商業(yè)化順序來看,自動(dòng)駕駛、機(jī)器人、通用智能,哪個(gè)優(yōu)先級(jí)最高?

劉先明:自動(dòng)駕駛、機(jī)器人、通用智能。

晚點(diǎn):你是個(gè)容易 “掛臉” 的人嗎?

劉先明:不是,有人說我很 nice,但是我會(huì)因?yàn)槔速M(fèi)時(shí)間和邏輯不清楚這兩件事情直接打斷所有人講話。

晚點(diǎn):你 MBTI 是什么?

劉先明:INTJ。

晚點(diǎn):作為小鵬通用智能中心的負(fù)責(zé)人,你希望團(tuán)隊(duì)成員用哪三個(gè)關(guān)鍵詞來評(píng)價(jià)自己的領(lǐng)導(dǎo)風(fēng)格?

劉先明:克制,穩(wěn)定,果斷。

晚點(diǎn):如果要用一場具體的仗來讓整個(gè)通用智能中心形成戰(zhàn)斗力,你會(huì)選什么?

劉先明:就是今年的艙駕聯(lián)動(dòng),因?yàn)檫@是整個(gè)組織轉(zhuǎn)型,重構(gòu)底層架構(gòu),以及讓大家看到上限的一次戰(zhàn)斗。這個(gè)故事很熟悉,自動(dòng)駕駛也是 VLA 2.0 這么一戰(zhàn)打成的。

晚點(diǎn):你跟我們提了很多次 “簡單”,這是你的某種信條嗎?

劉先明:其實(shí)是在讀書的時(shí)候,我的博導(dǎo) Thomas Huang(我們叫他 Tom,黃煦濤教授),他一輩子追求的理念就是簡單,相信簡單的東西才是美的。

2012 年我在美國讀書,那會(huì) Alexnet 神經(jīng)網(wǎng)絡(luò)剛出來,當(dāng)時(shí)我們整個(gè)實(shí)驗(yàn)室做圖像處理和計(jì)算機(jī)視覺,Tom 說所有人停下手里所有工作,全轉(zhuǎn)去神經(jīng)網(wǎng)絡(luò)。這其實(shí)就是模型 Scaling 和數(shù)據(jù) Scaling 的早期雛形。但業(yè)界很多人不敢去轉(zhuǎn),在排斥,我們當(dāng)學(xué)生的心里也比較打鼓,但可能當(dāng)時(shí)已經(jīng)有這樣的想法。

畢業(yè)以后第一次被直接的觸動(dòng)確實(shí)是 Sam Altman 介紹 GPT,所有人都在考慮是不是這就是未來。我們這代人很幸運(yùn),2016 年的時(shí)候有 Resnet(殘差神經(jīng)網(wǎng)絡(luò)),2017 年有 Transformer,GPT 最早是 2019 年,2023 年 Chat GPT。你會(huì)發(fā)現(xiàn),你不確定的道路,已經(jīng)有些先驅(qū)者幫你探好路,告訴你是對的。

題圖來源:小鵬汽車

注釋:

[1] VLA:Visual-Language-Action 的縮寫,即 “視覺—語言—?jiǎng)幼髂P汀?,指將視覺輸入、語言理解與動(dòng)作輸出結(jié)合在一起的模型。文中所說小鵬 VLA 2.0,核心變化是減少中間語言翻譯環(huán)節(jié),讓模型更直接地從感知走向動(dòng)作輸出

[2] VLM:Vision-Language Model 的縮寫,即 “視覺—語言模型”,通常用于處理圖像、視頻與文本之間的聯(lián)合理解任務(wù)。

[3] Language / language token:文中指模型推理過程中的語言表征。token 是大模型處理信息時(shí)使用的基本單位,可理解為文本被切分后的最小計(jì)算單元之一。

[4] Scaling Law:規(guī)模法則,指模型能力通常會(huì)隨著參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量和算力投入的增長而提升。

[5] Data Scaling:通過擴(kuò)大數(shù)據(jù)規(guī)模、提升數(shù)據(jù)質(zhì)量來增強(qiáng)模型能力的方法。

[6] CoT:Chain of Thought 的縮寫,常譯為 “鏈?zhǔn)酵评怼?或 “思維鏈”,指模型通過生成中間推理步驟來提升結(jié)果質(zhì)量。

[7] training time scaling / test-time scaling:前者指在訓(xùn)練階段增加算力、數(shù)據(jù)和訓(xùn)練資源;后者指在推理階段增加計(jì)算量,以換取更好的結(jié)果。

[8] data curation:數(shù)據(jù)篩選、數(shù)據(jù)治理,指從海量數(shù)據(jù)中識(shí)別、清洗、組織出對訓(xùn)練真正有價(jià)值的數(shù)據(jù)。

[9] outlier:異常值,指明顯偏離多數(shù)樣本分布的數(shù)據(jù)。它未必是錯(cuò)誤數(shù)據(jù),但往往更難處理。

[10] Infra:infrastructure 的縮寫,即 “基礎(chǔ)設(shè)施”。在本文語境里,主要指訓(xùn)練集群、數(shù)據(jù)系統(tǒng)、推理部署等支撐模型研發(fā)和運(yùn)行的底層能力。

[11] Monte Carlo:蒙特卡洛方法,一類基于隨機(jī)采樣的統(tǒng)計(jì)模擬方法,常用于復(fù)雜系統(tǒng)的求解與優(yōu)化。

[12] profiling / dashboard:profiling 指性能分析,用于定位系統(tǒng)運(yùn)行瓶頸;dashboard 指數(shù)據(jù)看板或可視化面板,用于監(jiān)測和展示關(guān)鍵指標(biāo)。

[13] DARPA / CMU:DARPA 是美國國防高級(jí)研究計(jì)劃局,曾舉辦多屆無人駕駛挑戰(zhàn)賽;CMU 是卡內(nèi)基梅隆大學(xué),其機(jī)器人研究長期處于全球前沿。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
涉嫌嚴(yán)重違紀(jì)違法,楊光輝被查

涉嫌嚴(yán)重違紀(jì)違法,楊光輝被查

吉刻新聞
2026-04-14 20:36:08
馬筱梅直播爆張?zhí)m豪宅房間布置,一語道破為何汪寶兒不能住奶奶家

馬筱梅直播爆張?zhí)m豪宅房間布置,一語道破為何汪寶兒不能住奶奶家

白面書誏
2026-04-14 14:12:15
美軍開始攔截船只;伊朗學(xué)者警告中國護(hù)航將使美中直接對抗

美軍開始攔截船只;伊朗學(xué)者警告中國護(hù)航將使美中直接對抗

混沌錄
2026-04-14 17:28:26
美國龍脈與特朗普的風(fēng)水布局:他背后有位神秘的華裔女風(fēng)水師

美國龍脈與特朗普的風(fēng)水布局:他背后有位神秘的華裔女風(fēng)水師

詭譎怪談
2025-02-21 11:20:09
林彪叛逃后,周恩來嚎啕大哭,紀(jì)登奎上前勸說,他卻擺手:你不懂

林彪叛逃后,周恩來嚎啕大哭,紀(jì)登奎上前勸說,他卻擺手:你不懂

歷史甄有趣
2026-04-06 09:15:20
中產(chǎn)徹底清醒!鋼琴銷量暴跌72%:不是不愛音樂,是時(shí)代不裝了…

中產(chǎn)徹底清醒!鋼琴銷量暴跌72%:不是不愛音樂,是時(shí)代不裝了…

火山詩話
2026-04-09 13:45:45
解放軍這40天,要把美日韓逼瘋!

解放軍這40天,要把美日韓逼瘋!

Ck的蜜糖
2026-04-13 07:27:43
廣東半場落后寧波7分!徐杰轟17+2,杜鋒身體不適無法指揮

廣東半場落后寧波7分!徐杰轟17+2,杜鋒身體不適無法指揮

多特體育說
2026-04-14 20:26:34
石油枯竭竟是假象?顛覆認(rèn)知,石油根本不是遠(yuǎn)古動(dòng)植物演化而來

石油枯竭竟是假象?顛覆認(rèn)知,石油根本不是遠(yuǎn)古動(dòng)植物演化而來

丁丁鯉史紀(jì)
2026-04-13 16:00:40
靠“漢芯一號(hào)”騙取11億研究經(jīng)費(fèi),后逃到美國的陳進(jìn),結(jié)局如何?

靠“漢芯一號(hào)”騙取11億研究經(jīng)費(fèi),后逃到美國的陳進(jìn),結(jié)局如何?

阿鳧愛吐槽
2026-04-14 02:01:01
巴鐵這步棋太妙了!伊朗過境走廊正式開通,把東方智慧玩明白了

巴鐵這步棋太妙了!伊朗過境走廊正式開通,把東方智慧玩明白了

輝哥說動(dòng)漫
2026-04-14 13:10:39
大批“五一”航班突然取消

大批“五一”航班突然取消

第一財(cái)經(jīng)資訊
2026-04-14 13:12:49
日媒:中國在猛攻日本經(jīng)濟(jì)最后的支柱—汽車工業(yè)

日媒:中國在猛攻日本經(jīng)濟(jì)最后的支柱—汽車工業(yè)

隨波蕩漾的漂流瓶
2026-04-14 17:00:09
汪寶失寵了!馬筱梅歸京后深夜淚崩,曝張?zhí)m三大改變,筱梅母表態(tài)

汪寶失寵了!馬筱梅歸京后深夜淚崩,曝張?zhí)m三大改變,筱梅母表態(tài)

青橘罐頭
2026-04-14 19:42:04
以總理:與伊朗的?;鹂赡芎芸旖Y(jié)束

以總理:與伊朗的?;鹂赡芎芸旖Y(jié)束

澎湃新聞
2026-04-13 20:22:08
炸裂!胡錫進(jìn)正式成為某汽車品牌代言人

炸裂!胡錫進(jìn)正式成為某汽車品牌代言人

互聯(lián)網(wǎng)品牌官
2026-04-14 18:33:54
美國對伊朗實(shí)施海上封鎖,前國務(wù)卿布林肯:美國的選擇正將自己逼入困境

美國對伊朗實(shí)施海上封鎖,前國務(wù)卿布林肯:美國的選擇正將自己逼入困境

上觀新聞
2026-04-14 13:04:14
何超瓊妹妹去世細(xì)節(jié):手握冰冷的手站了半小時(shí),豪門背后全是眼淚

何超瓊妹妹去世細(xì)節(jié):手握冰冷的手站了半小時(shí),豪門背后全是眼淚

感恩每一刻
2026-04-14 11:33:41
寶馬炮轟比亞迪背后真相:如果閃充不傷電池,就不需要固態(tài)電池了

寶馬炮轟比亞迪背后真相:如果閃充不傷電池,就不需要固態(tài)電池了

王新喜
2026-04-13 10:45:56
七中沒想到,綿中沒想到!四川“黑馬”高中,全省矚目!

七中沒想到,綿中沒想到!四川“黑馬”高中,全省矚目!

成都好學(xué)校
2026-04-14 09:51:24
2026-04-14 21:11:00
新浪財(cái)經(jīng) incentive-icons
新浪財(cái)經(jīng)
新浪財(cái)經(jīng)是一家創(chuàng)建于1999年8月的財(cái)經(jīng)平臺(tái)
2862280文章數(shù) 6630關(guān)注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

女子喪偶后和上海婆婆反目 婆婆出錢買的房打官司輸了

頭條要聞

女子喪偶后和上海婆婆反目 婆婆出錢買的房打官司輸了

體育要聞

帶出中超最大黑馬!他讓球迷們“排隊(duì)道歉”

娛樂要聞

宋祖兒劉宇寧戀情大反轉(zhuǎn) 正主火速辟謠

財(cái)經(jīng)要聞

許家印認(rèn)罪,他和恒大還有多少欠債?

汽車要聞

售12.99萬起/續(xù)航2000km 風(fēng)云T9L上市

態(tài)度原創(chuàng)

時(shí)尚
健康
教育
公開課
軍事航空

全網(wǎng)走紅的「爆改老媽」,審美霸凌了多少中年女性?

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

AI漫劇還能不能做?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗要求五個(gè)中東國家賠償戰(zhàn)爭損失

無障礙瀏覽 進(jìn)入關(guān)懷版