網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

對話小鵬汽車劉先明：押注 “極簡模型”，我花了全公司最多的錢

2026-04-14 16:39:54　來源: 新浪財(cái)經(jīng)

北京舉報(bào)

分享至

來源：市場資訊

（來源：晚點(diǎn)LatePost）

文丨李安琪

編輯丨龔方毅

2022 年下半年，通用汽車旗下的 Cruise 在舊金山晚高峰跑了一趟一個(gè)半小時(shí)的 Robotaxi（無人駕駛出租車），全程零接管。不久后公司請 Sam Altman 做了一場內(nèi)部爐邊談話，當(dāng)時(shí)在 Cruise 做機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺研究的劉先明和同事們聊起這趟行程，很驕傲。而 Sam Altman 一直在說他們正在做的 ChatGPT —— 當(dāng)時(shí)沒太多人在意。

幾個(gè)月后 OpenAI 發(fā)布 ChatGPT，一個(gè)足夠簡單的模型架構(gòu)，加上足夠大的參數(shù)量、數(shù)據(jù)和算力，展現(xiàn)出超越預(yù)期的智能。劉先明說當(dāng)時(shí)被震撼了，他想也許沿著同樣的路徑，不用手寫成千上萬條規(guī)則，不用給系統(tǒng)裝五顆激光雷達(dá)再把沿街會(huì)遮擋傳感器的樹枝修剪一遍，智能駕駛也有機(jī)會(huì)涌現(xiàn)出智能。

2024 年初，他帶著這個(gè)判斷加入小鵬汽車。在小鵬硅谷辦公室第一次見何小鵬時(shí)，他想的是 “如果他聽不懂我在說什么，我就不來了”。

今年 3 月，基于這套邏輯開發(fā)的小鵬汽車第二代 VLA [1]（視覺-語言-動(dòng)作模型）開始上車。這也是劉先明加入小鵬以來最完整的一次交付。因?yàn)樘嗤邢霚y，一輛裝了新版軟件的試駕車，日租金一度被炒到八千元。

交付后，我們在小鵬的上海研發(fā)辦公室見到了劉先明。他剃個(gè)圓寸頭、戴黑框眼鏡、說話溫和，是 i 人但因?yàn)楣ぷ鞒闪嗽挵A。熟人評(píng)價(jià)他 “目標(biāo)感很清晰，能力非常綜合，既能講很深的技術(shù)，也能把復(fù)雜問題說清楚”。

劉先明在小鵬汽車歷任北美 AI 負(fù)責(zé)人、基座模型負(fù)責(zé)人、自動(dòng)駕駛中心負(fù)責(zé)人，2026 年 2 月出任通用智能中心負(fù)責(zé)人，統(tǒng)管智駕和座艙這兩個(gè)原先的一級(jí)部門。在他之前，吳新宙為小鵬建立了智駕第一梯隊(duì)的行業(yè)認(rèn)知，李力耘用工程和規(guī)則把 “端到端” 高階輔助駕駛推向全國量產(chǎn)。劉先明要做的是自研基座模型，拆掉語言翻譯，讓模型從視頻和駕駛數(shù)據(jù)里直接學(xué)開車。

兩年間，劉先明成了小鵬花錢最多的人。2025 年，他統(tǒng)管的業(yè)務(wù)吃掉了 45 億元年度 AI 研發(fā)預(yù)算中最大的份額。何小鵬在第二代 VLA 量產(chǎn)推送前的直播里說 “連續(xù)十幾個(gè)月，每月花 3 個(gè)億去賭這個(gè)事情，心里也很慌?！?/p>

但一個(gè)繞不開的問題是，智駕行業(yè)目前的整體處境是否值得這種規(guī)模的投入。目前沒有哪個(gè)細(xì)分市場的銷量冠軍是靠智駕贏的，頭部智駕供應(yīng)商還在虧錢，而且技術(shù)領(lǐng)先的花期又很短，總有后發(fā)者快速追上。

劉先明的回答是，他們賭的不只是智駕，還有物理 AI。而在實(shí)現(xiàn)這個(gè)愿景前，他跟何小鵬還有一個(gè)更具體的賭約：今年 8 月底達(dá)不到特斯拉 FSD V14 在硅谷的水平，他將在金門大橋裸跑。

以下是《晚點(diǎn) Auto 》和小鵬汽車通用智能中心負(fù)責(zé)人劉先明的對談與追問，經(jīng)編輯：

“拆掉 Language，VLA 2.0 才真正開始”

晚點(diǎn)：什么是 VLA 2.0？

劉先明：之前行業(yè)里做智駕大模型，包括我們第一代 VLA，基本都是拿開源的語言模型做骨架，加上圖像數(shù)據(jù)就能做 VLM [2]（視覺-語言模型）。但問題是攝像頭看到畫面后要先經(jīng)過語言模型處理再輸出駕駛動(dòng)作這個(gè)過程，容易有高延遲，一秒鐘只能輸出兩三次指令，做不到實(shí)時(shí)處理。

做 VLA 2.0 時(shí)我們自研基座模型，傳感器信息輸入系統(tǒng)，輸出駕駛動(dòng)作，中間不再經(jīng)過語言（Language）翻譯。這個(gè)基座模型接上動(dòng)作模塊就是 VLA 控車，接上視頻生成就是世界模型。

從頭訓(xùn)練一個(gè)基座模型需要大量的錢、數(shù)據(jù)和精力，還要冒險(xiǎn)，當(dāng)下汽車行業(yè)誰敢在不確定的情況下投這么多？這個(gè)決定是最難的。做出結(jié)果之后，說服別人并不難。

晚點(diǎn)：這就是你們說的拆掉 Language？

劉先明：拆掉的是推理鏈路中間的語言翻譯：原來模型輸出結(jié)果要先變成 language tokens [3] ，查表翻譯成文字，再生成駕駛動(dòng)作。普通人開車不需要先在腦子里把看到的東西翻譯成一段話，這一步?jīng)]有必要。

但語言沒有從整個(gè)系統(tǒng)消失。輸入端還需要語言，用戶語音控車、意圖理解都要用到語言模型。所以不是做了一個(gè)完全沒有 language 的東西，拆掉的是中間那層翻譯。

晚點(diǎn)：在原來的架構(gòu)上繼續(xù)喂更多數(shù)據(jù)，不拆 Language 不行嗎？

劉先明：不行。模型中間不能有信息瓶頸，一旦產(chǎn)生，后面再增加數(shù)據(jù)量也不見得有好的效果。另外自動(dòng)駕駛對實(shí)時(shí)性要求非常高，最終要權(quán)衡的是模型體量和推理延時(shí)。在有限車端算力下，參數(shù)量擴(kuò)大十倍，推理就變慢，控車能力變差；但要想更好控車、更低延時(shí)，那模型體量要減小。

我們?nèi)ツ曜隽艘粋€(gè)特別有意思的事，當(dāng)時(shí)團(tuán)隊(duì)里不是所有人都信任這個(gè)方向，所以一開始用開源模型再加上 Action（動(dòng)作）數(shù)據(jù)訓(xùn)了一套自動(dòng)駕駛 VLA 模型后，有一天我們幾個(gè)人偷偷把 Language 拆了，模型但還是用原來的名字，我們第一次上了最大數(shù)量的 GPU 來訓(xùn)練模型，GPU 變大，數(shù)據(jù)量變大變多，拆完訓(xùn)完發(fā)現(xiàn)效果挺好的。

晚點(diǎn)：那是 VLA 2.0 的雛形？當(dāng)時(shí)花了多久做這件事？

劉先明：去年 5 月份，花了兩三個(gè)星期。

晚點(diǎn)：拆掉了語言模塊之后，訓(xùn)練數(shù)據(jù)的來源是不是也要跟著變？

劉先明：互聯(lián)網(wǎng)上的文字?jǐn)?shù)據(jù)是最多的，非常容易獲得，信息量很大，可以快速把模型做起來。但做物理 AI，做機(jī)器人，做自動(dòng)駕駛，更多數(shù)據(jù)來自于每天回傳的車輛數(shù)據(jù)，從物理世界真實(shí)采集出來的。如果要做物理 AI，一定要把這部分?jǐn)?shù)據(jù)弄好，訓(xùn)練方式一定要改過來。

晚點(diǎn)：機(jī)器人行業(yè)也有反思，減少大語言模型，直接做理解+生成一體化。小鵬二代 VLA 也受這個(gè)范式啟發(fā)嗎？

劉先明：這個(gè)思考可能是在不同的人群和領(lǐng)域中同時(shí)發(fā)生的。自動(dòng)駕駛和機(jī)器人都屬于物理 AI，面對的問題本質(zhì)是一樣的，都要與真實(shí)物理世界交互，處理非結(jié)構(gòu)化的輸入，輸出連續(xù)而非離散的動(dòng)作（車子的駕駛動(dòng)作和機(jī)器人的行為動(dòng)作）。拿掉 “語言” 這個(gè)思路很符合第一性原理，它簡單、直接，是更極致的端到端，也很像人類開車和日常生活中很多不用語言但暗含智能的 “直覺行為”。

晚點(diǎn)：但我們聽說這版 VLA 2.0 發(fā)布推遲了兩個(gè)月？

劉先明：本來定在 1 月底開始凍結(jié)版本、2 月全量推送。1 月初有一天小鵬給我打電話，他說 “現(xiàn)在這樣不行，你們每天都在修下限，模型上限完全沒有釋放出來，再給你兩個(gè)月的時(shí)間，你會(huì)做成什么樣？” 我說 “老板，你要再給兩個(gè)月時(shí)間，我馬上把結(jié)構(gòu)給換了”。他說 “好”。于是調(diào)整到 3 月份推送。

第二天我們換了模型結(jié)構(gòu)重新開始訓(xùn)練。有人說我們交作業(yè)總是很遲，因?yàn)槲覀兛吹礁玫目赡苄浴Ｈ绻?2 月份我們真的發(fā)了一版，可能現(xiàn)在天天在修 bug。

晚點(diǎn)：如果覺得可以做得更好，為什么不主動(dòng)提延遲？

劉先明：一個(gè)是當(dāng)時(shí)版本確實(shí)可以上線。另一個(gè)原因是模型、AI 發(fā)展是永遠(yuǎn)往前進(jìn)，我們現(xiàn)在理論上每天能更新四個(gè)版本。但從公司商業(yè)決策來看，要考慮產(chǎn)品型譜、上市節(jié)奏、財(cái)務(wù)狀況來決定什么時(shí)候產(chǎn)出結(jié)果。

晚點(diǎn)：多給 2 個(gè)月，模型怎么做到顯著進(jìn)步？

劉先明：我們的核心優(yōu)勢是迭代速度，而不是做一個(gè)非常 fancy、跨時(shí)代的模型結(jié)構(gòu)?，F(xiàn)在每家的 AI 模型結(jié)構(gòu)都極其相似和簡單，越復(fù)雜的東西越不好用。

我們有一套體系可以加快迭代速度，速度越快才能發(fā)現(xiàn)新問題、嘗試新結(jié)構(gòu)。對很多團(tuán)隊(duì)來說，最大的問題不是不知道下個(gè)結(jié)構(gòu)用什么，而是沒時(shí)間去試。我們在做一件沒人知道正確答案的事，只能猜或者只能靠經(jīng)驗(yàn)判斷，沒有人百分百準(zhǔn)確。我們每天都在不停迭代，把過去的結(jié)論推翻重新來。

晚點(diǎn)：馬斯克也說過，創(chuàng)新來自于速度的迭代。

劉先明：特別明顯，現(xiàn)在模型收斂速度越來越快，不是因?yàn)楦喙こ處熂尤耄俏覀兊捏w系自動(dòng)化程度越來越高。

晚點(diǎn)：這條路總結(jié)下來就是 Data Scaling [5] ？

劉先明：不僅是 Data Scaling。首先 AI 一定是極致簡化，不像過去做語音，得先有個(gè)模型做語音識(shí)別，再做語言處理，最后做語音生成?，F(xiàn)在大家都是原生多模態(tài)模型，端到端，結(jié)構(gòu)一定要簡單。第二，Scaling 不僅體現(xiàn)在數(shù)據(jù)，還體現(xiàn)在模型，是體系層級(jí)的 Scaling。有任何短板，這事都做不成，絕不是一兩天、半年就能追得上來。

晚點(diǎn)：現(xiàn)在車端模型的參數(shù)有多大？

劉先明：差不多 ****。

晚點(diǎn)：模型越大越好嗎？

劉先明：沒有絕對說法，至少體量上越大越好，但越大的模型需要越多數(shù)據(jù)。收集數(shù)據(jù)對我們來說不是難事，尤其是二代 VLA 推出去后，會(huì)有大量影子模式數(shù)據(jù)回來。真正難的是，如何在車端芯片塞入更大的模型。

晚點(diǎn)：現(xiàn)在數(shù)據(jù)有多大的量級(jí)？

劉先明：整體數(shù)據(jù)存儲(chǔ)量 50 PB 左右。

晚點(diǎn)：總體來說，數(shù)據(jù)規(guī)模越大對于模型性能越有利？

劉先明：高質(zhì)量、有用的數(shù)據(jù)規(guī)模越大越有利。我們一開始也遇到過車在直行場景開得很好，一掉頭就廢的情況。原因是 90% 以上的數(shù)據(jù)都是空曠道路直行。數(shù)據(jù)單純多沒有意義，得找到有用數(shù)據(jù)。

晚點(diǎn)：找?guī)装賯€(gè)熟練的專車司機(jī)，讓他們?nèi)珖教庨_，把他們的數(shù)據(jù)收集下來，這個(gè)方式行得通嗎？

劉先明：行不通。200 個(gè)、2 萬個(gè)司機(jī)，跟上百萬個(gè)司機(jī)完全不一樣。200 個(gè)司機(jī)能覆蓋多少場景？有段時(shí)間，我們碰到最奇葩的數(shù)據(jù)采集案例是近距離繞行，一個(gè)司機(jī)停在前面，另一個(gè)人繞過，再停在前面，再繞過去。

我們也想過請司機(jī)，但這樣的數(shù)據(jù)沒有意義，因?yàn)槎疾皇莵碜杂谡鎸?shí)場景。數(shù)據(jù)收集要像是真實(shí)世界采樣器，采樣得越密集、越隨機(jī)，量足夠大，才可能逼近真實(shí)世界場景，模型才具有泛化性，才能解決之前沒見過的問題。

晚點(diǎn)：我們體驗(yàn)過好幾家智駕，一個(gè)共同感受是前 10 分鐘效果驚艷，越到后面越容易唯唯諾諾，這是為什么？

劉先明：第一可能是模型的容量本身受限，它會(huì)限制使用場景，還沒辦法泛化到很大的落地場景。另一個(gè)原因是數(shù)據(jù)，數(shù)據(jù)是個(gè)新的問題。怎么去挖掘高質(zhì)量數(shù)據(jù)？

Meta 做一個(gè)事情叫做 data curation [8] （數(shù)據(jù)治理），這本身就是目前 AI 里面最難的問題，怎么發(fā)現(xiàn)一個(gè)數(shù)據(jù)不在你的訓(xùn)練樣本里面，是一個(gè) outlier [9]（異常值），它還不是一個(gè)壞數(shù)據(jù)。

這里也有一個(gè)悖論。首先你發(fā)現(xiàn)它，一定是因?yàn)樗辉诖笠?guī)模數(shù)據(jù)里，第二，它如果在小規(guī)模里面，它很有可能是 outlier，是 “臟數(shù)據(jù)”，可能會(huì)被踢掉。怎么解決問題？其實(shí)有一套方法，但需要時(shí)間，需要不停地?cái)U(kuò)充數(shù)據(jù)的邊緣。

晚點(diǎn)：你說 VLA 世界模型也有 CoT [6] 思維鏈，就像 chatbot 的思考過程，換到自動(dòng)駕駛領(lǐng)域，模型是怎么做思維鏈推理的？

劉先明：大家覺得 CoT 思維鏈很聰明，核心是啥？Scaling law [4] 有兩個(gè)維度，一個(gè)是 training time scaling [7] ，訓(xùn)練時(shí)擴(kuò)展，即訓(xùn)練階段投入更多算力，讓模型變強(qiáng)；另一個(gè)是 test-time scaling，測試時(shí)擴(kuò)展，就是推理時(shí)消耗多少算力，投入更多算力，通常能得到更好的結(jié)果。

CoT 的過程是：生成一個(gè) token ，作為輸入，再重新生成下個(gè) token ，不停產(chǎn)生中間的結(jié)果，這是個(gè)計(jì)算過程。CoT 還可以做很多采樣，有隨機(jī)性采樣的話，就可以做強(qiáng)化學(xué)習(xí)，探索不同的解決方案，給出最好結(jié)果。

視覺 CoT 的本質(zhì)就是一個(gè) test-time scaling ，給更多計(jì)算時(shí)間，產(chǎn)生更好的推理結(jié)果。車端做推理時(shí)，只是在訓(xùn)練過程中，將中間結(jié)果可視化出來，我們也想知道它腦子里到底在想什么，于是通過世界模型生成未來一段時(shí)間內(nèi)的道路環(huán)境和自車行為，預(yù)測模型下一步動(dòng)作，我們稱之為 “腦內(nèi)小劇場”，劇場生成的畫面可以是鳥瞰圖，也可以是對應(yīng)不同位置攝像頭的視頻畫面。我們發(fā)現(xiàn)這個(gè)玩意兒挺有用的。

“智駕團(tuán)隊(duì)花了最多錢，不想用規(guī)則交差”

晚點(diǎn)：如果能更早意識(shí)到第一代 VLA 中語言的限制，早點(diǎn)拆掉，二代 VLA 是不是更快出來？

劉先明：也不會(huì)。模型訓(xùn)練跟交響樂協(xié)奏曲一樣，多個(gè)要素一起發(fā)展。如果連足夠的行車數(shù)據(jù)都沒有，就想拆掉 Language，其實(shí)搞不定；就算有足夠數(shù)據(jù)，有了更好的模型，如果訓(xùn)練集群的穩(wěn)定性和效率不高，也搞不定。把節(jié)奏排好，模型、數(shù)據(jù)、Infra [10]（基礎(chǔ)設(shè)施）都沒有短板，花多大錢辦多大事。

晚點(diǎn)：規(guī)則階段積累的東西還能派上用場嗎？

劉先明：其實(shí)不多，有些東西甚至應(yīng)該盡早拿掉。沒有人告訴你 VLA 具體怎么做，只有大概思路，去想工程應(yīng)該怎么匹配，怎么用最少時(shí)間、不大改動(dòng)系統(tǒng)的情況下把它做出來，再逐漸拆分中間模塊。

晚點(diǎn)：聽起來很順滑，但你們實(shí)際上在二代 VLA 測試階段遇到了很多問題。

劉先明：對，當(dāng)時(shí)有個(gè)決定比較艱難。二代 VLA 模型測試后遇到各種問題，比如撞路沿子或者不居中。這時(shí)候要不要借助規(guī)則把它修正一下？有段時(shí)間整個(gè)團(tuán)隊(duì)都很掙扎，因?yàn)橹灰狭艘?guī)則，系統(tǒng)就變味兒了，就拆不掉了。

晚點(diǎn)：為什么會(huì)拆不掉？

劉先明：模型還沒量產(chǎn)前，應(yīng)該盡量讓它暴露問題。規(guī)則能修，但我想從數(shù)據(jù)角度解決模型問題。那時(shí)候測試一周，新問題越來越多，團(tuán)隊(duì)也很困惑，問題解得完嗎？只要上一點(diǎn)規(guī)則后處理，事情就搞定了。但是一旦寫了規(guī)則，所有問題都會(huì)被蓋住，喪失發(fā)現(xiàn)問題的能力。不把規(guī)則拆干凈，就像在修一條到不了未來的路。

晚點(diǎn)：小鵬現(xiàn)在是 0 規(guī)則、0 超級(jí)對齊嗎？

劉先明：我們沒有規(guī)則。端到端時(shí)代可以加規(guī)則，大家都是這么做的，但模型時(shí)代依靠數(shù)據(jù)規(guī)模驅(qū)動(dòng)，如果再加規(guī)則，模型的上限最終肯定會(huì)被規(guī)則限制住。加規(guī)則，也許短期可以攢出一個(gè)還不錯(cuò)的版本，但可能到 8 月份完成不了任務(wù)，我還是要去裸跑的（笑），其他廠商也一定很快追上來。

舉個(gè)例子，模型走錯(cuò)路，確實(shí)可以搭載車道級(jí)導(dǎo)航，在還剩 300 米右轉(zhuǎn)時(shí)強(qiáng)行變道，但一旦上了，會(huì)發(fā)現(xiàn)后面導(dǎo)航變成了拐杖，只能解決一時(shí)的問題。我們不想重度依賴導(dǎo)航信息，因?yàn)槲覀冏龅氖侨蚧a(chǎn)品，歐洲等地區(qū)沒有圖商提供高清地圖信息的。

這是一個(gè)選擇，是通過技術(shù)手段解決，還是用一個(gè) shortcut（捷徑）搞定，代價(jià)是后面沒法繼續(xù)。我們希望達(dá)到的狀態(tài)是，限制我們的只有自己的迭代速度。

晚點(diǎn)：這里的技術(shù)手段是指強(qiáng)化學(xué)習(xí)？

劉先明：要解決走錯(cuò)路的問題，最好的辦法是強(qiáng)化學(xué)習(xí)。在匯入?yún)R出這種場景可以使用強(qiáng)化學(xué)習(xí)，加上適當(dāng)?shù)?reward（獎(jiǎng)勵(lì)），讓模型學(xué)會(huì)在什么情況下該做什么事情。闖紅燈也有幾種不同的辦法。一種是加規(guī)則，用傳統(tǒng)的技術(shù)棧 2D 模型檢測，檢測到紅燈就一腳摁死剎停，但會(huì)帶來一個(gè)問題，整個(gè)技術(shù)棧會(huì)過分依賴于已有的規(guī)則。

晚點(diǎn)：加或者不加規(guī)則，到底是如何影響模型工作的？

劉先明：不管是端到端模型還是 VLA 模型，核心是有一些輸入，經(jīng)過加工之后要去輸出。比如我們認(rèn)為輸出就是一個(gè)車要規(guī)劃幾秒的軌跡，軌跡之間的時(shí)間間隔是多少？如果橫向最大的范圍是 20 米，縱向是 80 米，把這個(gè)范圍離散化，所有可能的軌跡點(diǎn)組合就構(gòu)成了一個(gè)極大的搜索空間。

傳統(tǒng)方法不管是 Monte Carlo [11] （蒙特卡洛方法）還是非凸優(yōu)化，核心都是砍掉搜索空間，把它砍到可計(jì)算的范圍之內(nèi)。在算力和模型不足的情況下，對搜索空間做大幅的縮減。

AI 模型反過來。為什么我們覺得現(xiàn)在 AI 聰明、能做很多事情？因?yàn)樗膮?shù)量直接決定了它的輸出空間。如果有幾個(gè) Billion（十億）參數(shù)的模型，比如 OpenAI 220B 的模型，理論上它可以探索 220B 這么大規(guī)模的空間，這是足夠大的搜索空間了。所以要解決問題很簡單，就是讓你的搜索空間足夠大。

過去我們做了很多平衡，比如對搜索空間不做太多限制，但把時(shí)間和空間分開。橫向很絲滑，我們一般叫做空間；縱向一般是用速度和加速來控制，我們一般叫做時(shí)間。很多傳統(tǒng)方法即使到端到端的時(shí)代也是這樣——先輸出一個(gè)橫向軌跡，至于什么時(shí)間點(diǎn)到這個(gè)位置，可能是單獨(dú)用規(guī)則去算的。那它就會(huì)一腳剎死，因?yàn)橐?guī)則沒有這么大的浮動(dòng)空間。

我們則希望通過一個(gè)足夠大的模型，能夠探索這么大的搜索空間。為了讓整個(gè)模型不會(huì)過擬合到某些特定的模式上，就需要很多訓(xùn)練數(shù)據(jù)。有了更多的訓(xùn)練數(shù)據(jù)，就有一個(gè)很大的模型，但又不希望模型是個(gè)倒金字塔——輸入的信息量很少，一直在做插值升維，其實(shí)信息量本身沒有上升。于是我們就讓整個(gè)模型盡量變成一個(gè)通暢的結(jié)構(gòu)，通暢的結(jié)構(gòu)要求輸入的信息量足夠大。

這是為什么我們不用激光雷達(dá)，因?yàn)榧す饫走_(dá)給我們的信息量太小了，而且頻率又很低，整個(gè)系統(tǒng)會(huì)拖慢到 10 赫茲。它還有光柵的閃變，光柵的處理時(shí)間一般是 80 到 100 毫秒。

最近小鵬第二代 VLA 從喀什到上海橫穿中國，全程 5000 公里，純視覺方案經(jīng)歷沙塵暴、雨雪等天氣和場景，單次最長 0 接管里程 1360 公里，這已經(jīng)能說明問題。

把所有東西加在一塊，整個(gè)邏輯就非常簡單：找到一個(gè)給你提供高密度信息輸入的傳感器配置，一個(gè)足夠強(qiáng)大的模型，和一個(gè)能夠端到端去訓(xùn)練的方式。

晚點(diǎn)：什么樣的智駕體驗(yàn)可以稱得上好？

劉先明：智駕體驗(yàn)過于主觀，沒有特別好的評(píng)價(jià)標(biāo)準(zhǔn)。過去大家一直用接管 MPI、MPCI 來評(píng)價(jià)，但如果加規(guī)則或者限制，是很容易做到零接管的。

我一直說，自動(dòng)駕駛是白開水，能讓坐在后座的用戶忘掉駕駛這件事。

我們內(nèi)部評(píng)價(jià)時(shí)會(huì)盡量排除主觀因素，用比較客觀的 CCES： compliance-合規(guī)，comfort-舒適，efficiency-效率，safety-安全。其中，安全最重要，有時(shí)候?yàn)榱税踩?，不得不犧牲一些效率和舒適性，但我們不想就此放棄效率和舒適，就看怎么平衡。

晚點(diǎn)：這形成共識(shí)很難嗎？

劉先明：很難，因?yàn)樾袠I(yè)很卷。想出圈，一定要挑出不同的特質(zhì)，去讓別人注意到自己。

晚點(diǎn)：你會(huì)怎么做？

劉先明：沒有固定答案。最好的辦法是，在技術(shù)架構(gòu)和技術(shù)路線上，不能有短期的 trade-off（妥協(xié)），一定要做具備可拓展性、向上空間足夠大的東西。另外，基礎(chǔ)能力要足夠強(qiáng)，才可以在不同風(fēng)格上做 trade-off。作為技術(shù)一號(hào)位，我能做的就是告訴大家，不要去追求某些短期目標(biāo)而去欠下一些技術(shù)債。

晚點(diǎn)：哪些算 trade-off 呢？

劉先明：比如為了舒適性，加一些 “過路口減速” 規(guī)則，或者在某些特定情況給模型加兜底。

晚點(diǎn)：你這些說的都挺好的。但我們還是想知道，去年天天測、天天出新問題的時(shí)候，團(tuán)隊(duì)還信這條技術(shù)路線嗎？

劉先明：有一段時(shí)間士氣比較慘，測試結(jié)果很慘，天天我都去看。那時(shí)候真不敢回國。

那段時(shí)間壓力很大，團(tuán)隊(duì)確實(shí)有不同的聲音。但頂過壓力后，發(fā)現(xiàn)問題的收斂速度非?？?。問題充分暴露后，用比較系統(tǒng)的方法去修，AI 修問題不是一個(gè)個(gè)修，是一坨一坨修的。

有時(shí)候加了一個(gè)數(shù)據(jù)解決一個(gè)問題，另外一坨不相關(guān)的問題也解了。這個(gè)事情確定之后，系統(tǒng)就好干了，大家都認(rèn)同方向了。以前系統(tǒng)會(huì)存在很多模塊兜底，長得奇形怪狀特別亂，沒法優(yōu)化，現(xiàn)在系統(tǒng)可以簡化很多。

晚點(diǎn)：是前面說的去年 5 月份那時(shí)候嗎？

劉先明：差不多，那時(shí)候真不敢回國。我本來 5 月回國時(shí)應(yīng)該給大師兄測 demo 的，結(jié)果到約定時(shí)間都沒找他。一直等到我坐上飛美國的飛機(jī)，才給他發(fā)消息，說下次回來一定讓你坐 demo。

晚點(diǎn)：確認(rèn)一下，你是上了飛機(jī)才告訴他的？

劉先明：我想的是，什么時(shí)候做出來了什么時(shí)候再回國。

晚點(diǎn)：我要是交不出稿，可能也消失。

劉先明：但是你交不出稿你消失的話，會(huì)不會(huì)有人問你？

晚點(diǎn)：當(dāng)然會(huì)啊。當(dāng)時(shí)何小鵬真沒找過你？

劉先明：大師兄對我真的挺寬容，他不問我。有時(shí)候他在飛書上跟我發(fā)消息，打個(gè)招呼，然后不管了。

晚點(diǎn)：做不出來的時(shí)候你忐忑嗎？

劉先明：大師兄經(jīng)常開玩笑說我 “花了全公司最多的錢，但是發(fā)現(xiàn)分文不掙”。作為管理者，我肯定有壓力。一家公司能健康地發(fā)展下去，不能只投入，要講產(chǎn)出的，否則游戲轉(zhuǎn)不下去。

但如果你在做的事關(guān)系到公司的未來命運(yùn)或者整個(gè)商業(yè)化進(jìn)程，沒有壓力是不可能的，這一點(diǎn)上，全公司壓力最大的肯定是大師兄。有的時(shí)候他也會(huì)跟我吐槽，說他自己很痛苦。

在我這一層，他其實(shí)一直極力保護(hù)我。有時(shí)候一個(gè)會(huì)議我剛進(jìn)門，他會(huì)說 “你走吧，這會(huì)不需要你，回去干活?！?今天車圈如此卷，半年做不出來東西，可能很多一號(hào)位就被干掉了。我做這個(gè)事情這么長時(shí)間，資源一直源源不斷的投入進(jìn)來，老板并沒有因?yàn)槎虝旱捏w驗(yàn)不好就放棄，或者換一條路走。這種信任和篤定，不太能在別的地方找到。

大概去年 6 月份，我們進(jìn)展還是很快的，所以敢回國了。我在回來的航班上看一個(gè)版本的實(shí)驗(yàn)結(jié)果，覺得不錯(cuò)，落地之后趕緊去測試，天天追著大師兄坐 demo，從北京追到上海。大師兄問我為什么不去廣州測，我說廣州跑不下來，太難了。

晚點(diǎn)：小鵬對你的管理風(fēng)格是偏向?qū)捜葸€是嚴(yán)格？

劉先明：既寬容又嚴(yán)厲。對于結(jié)果很寬容，不急功近利，不短視。正是有這種對于研究和技術(shù)突破的寬容，才有了今天的技術(shù)突破。很多 CEO 嘴上喊的都是技術(shù)突破和投入，但忍不了半年。這是我最欣賞和佩服大師兄的地方。他對于原則很嚴(yán)厲，對就是對，錯(cuò)就是錯(cuò)。不能浪費(fèi)資源，不能渾水摸魚。這也是小鵬能逐漸走得更快更穩(wěn)的原因。

晚點(diǎn)：你什么時(shí)候知道你花了整個(gè)公司最多的錢？

劉先明：一直都知道。每年都會(huì)跟小鵬和財(cái)務(wù)去審預(yù)算，太可怕了。

晚點(diǎn)：所以是多少？

劉先明：這不能告訴你們。

晚點(diǎn)：公開能查到的 2025 年是 45 億元 AI 研發(fā)投入，是這個(gè)數(shù)字嗎？

劉先明：我去要預(yù)算是 2024 年的事情。2025 年已經(jīng)是公開數(shù)字了。

晚點(diǎn)：剛到小鵬時(shí)覺得你自己能花多少錢？

劉先明：我剛來的時(shí)候，給老板寫一個(gè)方案，要預(yù)算，然后他問我說這些夠嗎？我說不太夠，于是我們重新寫了一個(gè)版本叫 “格局打開版”，預(yù)算直接 x2，大師兄直接批了。

不過，在資源不受限的情況下，很多事情過于理想化；而在人、時(shí)間，預(yù)算都受限的情況下，你不得不去想，怎么讓龐大的組織變得更高效；在哪些事情上做取舍，哪些事情讓你有更大贏面。

晚點(diǎn)：能舉個(gè)例子嗎？你剛加入時(shí)算力沒有今天豐富，當(dāng)時(shí)的某個(gè)決策放到今天會(huì)是什么？

劉先明：變化特別明顯，我剛來時(shí)算力還 OK，但大家覺得不夠用，每個(gè)人都在申請更多的卡，要預(yù)算。那時(shí)候我去看整個(gè)訓(xùn)練集群的訓(xùn)練效率，發(fā)現(xiàn) GPU 利用率只有 8%，很低。我的決策很簡單，把它干到 40%，效率提升 5 倍。

當(dāng)時(shí)我們要訓(xùn)更大的模型，為了在規(guī)定的時(shí)間點(diǎn)完成它，直接把卡的數(shù)量 x2，不夠就 x3、x4，這樣可以縮短單個(gè)模型的訓(xùn)練時(shí)間，當(dāng)時(shí)更多是技術(shù)選擇。

現(xiàn)在不一樣。一方面要優(yōu)化整個(gè)訓(xùn)練效率，還要考慮數(shù)據(jù)，數(shù)據(jù)成本，存儲(chǔ)/讀取成本。但更重要的是，哪些業(yè)務(wù)線可以等，哪些事情是可以被砍掉的；怎么把預(yù)算分配大盤子里，讓長板變得更長。

晚點(diǎn)：8% 也太低了。怎么會(huì)這樣？

劉先明：那個(gè)時(shí)候模型規(guī)模還比較小，大家沒有意識(shí)到這個(gè)問題，并且沒有深入看這個(gè)問題，訓(xùn)練速度慢就直接加機(jī)器，簡單粗暴。但資源達(dá)到瓶頸后就必須要看了。

在硅谷，工程師的文化和傳統(tǒng)通常是先做工具，先做各種 profiling [12]（性能分析）和 dashboard（數(shù)據(jù)可視化），這也是硅谷工程師和研究人員效率很高的原因。但這初期很費(fèi)時(shí)間，后期卻能做到加速度。

解決問題核心是找對人，來做這種硬核的事情，還要團(tuán)隊(duì)能有統(tǒng)一的認(rèn)知，內(nèi)部要有節(jié)奏，不能揠苗助長，也不能急功近利。最后就是科學(xué)的方法論，不是靠喊口號(hào)和硬派指標(biāo)，要從數(shù)據(jù)出發(fā)做出科學(xué)的決定。

晚點(diǎn)：去年小鵬賣的車更多了，何小鵬給你買卡的預(yù)算有沒有變多？

劉先明：我們?nèi)ヒA(yù)算，他總是問 “夠嗎”？

晚點(diǎn)：滿分 10 分，你給這版 VLA 2.0 打幾分？

劉先明：6 分，離我們所有人的理想還有差距。目前已知的問題，導(dǎo)航（我們不想用任何先驗(yàn)信息，比如高精地圖或者規(guī)則點(diǎn)來限制模型的泛化能力，我們需要讓他在沒有這些先驗(yàn)信息的地方也能好用，比如鄉(xiāng)村，地庫，漫游，海外，所以還需要時(shí)間），處理極端情況的能力。所以我不認(rèn)為世界上目前有任何一個(gè)系統(tǒng)已經(jīng)接近 10 分。

“不止智駕，小鵬還要搏物理 AI 的未來”

晚點(diǎn)：現(xiàn)在的 VLA 是不是還不夠你剛說的 “極簡”？

劉先明：整體架構(gòu)上應(yīng)該差不多了。但是內(nèi)部很多細(xì)節(jié)還在不停更新，包括我們也在嘗試各種各樣的方法在往前做，不管是訓(xùn)練的方法還是模型的架構(gòu)，都在往前做，但整個(gè)范式是基本不會(huì)變的。

晚點(diǎn)：還可能要拆掉什么東西嗎？

劉先明：沒什么可拆的了，再拆就沒了。

晚點(diǎn)：再拆就剩骨架了。

劉先明：對。所以說到底，其實(shí)這背后沒有什么太多的秘密，秘密就是極致的工程化，這也是我剛來的時(shí)候跟小鵬說的話，AI 的背后就是極致工程化。

晚點(diǎn)：目前自動(dòng)駕駛領(lǐng)域，還有技術(shù)非共識(shí)？

劉先明：還有很多，可能一家公司甚至團(tuán)隊(duì)里都有非共識(shí)。比如怎么做 VLA 大家就沒有共識(shí)，再比如自動(dòng)駕駛出多條軌跡還是單條軌跡也沒有共識(shí)；是橫向空間縱向空間分開做出軌跡，還是橫縱聯(lián)合出軌跡，也沒有共識(shí)。如果大算力、大數(shù)據(jù)是強(qiáng)共識(shí)，那兩年前所有車企都應(yīng)該去做大算力芯片，但現(xiàn)在很多量產(chǎn)的下一代芯片，算力還是 Orin 量級(jí)。

晚點(diǎn)：非共識(shí)意味著不確定性，但何小鵬說三年內(nèi)自動(dòng)駕駛可以實(shí)現(xiàn)，這是一個(gè)很大的確定性。這里面有矛盾嗎？

劉先明：沒有大矛盾，方法論是固定的，大方向是確定的，可能行業(yè)還沒完全信。我們篤定是因?yàn)檫^去幾年 AI 的發(fā)展就是這樣，比如 OpenAI、Gemini、Claude 出來。2023 年谷歌發(fā)第一代大模型時(shí)，大家還認(rèn)為是造假，但想象不到一年后，Gemini 3 能做到現(xiàn)在這樣。當(dāng)路徑是對時(shí)，趨勢會(huì)發(fā)展得非?？斓?。核心在于有沒有選擇一條對的路，不斷調(diào)整方法，快速探索。

晚點(diǎn)：你在 Cruise 研究 L4 自動(dòng)駕駛、Robotaxi，一些 L4 自動(dòng)駕駛公司普遍會(huì)認(rèn)為，沿著 L2 智駕的路線沒有辦法抵達(dá) L4 級(jí)自動(dòng)駕駛。你怎么評(píng)價(jià)？

劉先明：沿著 L2 可以走到 L4，AI 大模型和規(guī)模法則（Scaling Law）讓我們看到并且堅(jiān)信這個(gè)方向。

我們的 VLA 2.0 架構(gòu)就是為了 L4 而生的，從視覺輸入到軌跡輸出的極簡架構(gòu)，能夠支持模型、數(shù)據(jù)和算力的高效擴(kuò)展，scaling 能讓我們突破模仿學(xué)習(xí)的上限，突破 L2；世界模型和強(qiáng)化學(xué)習(xí)能夠幫助模型自我進(jìn)化，解決各種各樣的 corner case。

其實(shí)，Cruise 是當(dāng)時(shí)自動(dòng)駕駛?cè)镒?Waymo 追得非常狠的公司。2019 年還是純規(guī)則，工程師寫一段代碼，然后自己坐到副駕，現(xiàn)場調(diào)試，開一圈出去沒撞就說明沒事，如果撞了，就說明代碼有問題。

晚點(diǎn)：寫完代碼立刻測試？

劉先明：對。那時(shí)候技術(shù)棧非常重規(guī)則，最早 Cruise 那幫人很多都參加過 DARPA [13] 的無人駕駛挑戰(zhàn)賽，也有人來自 CMU（卡內(nèi)基梅隆大學(xué)）機(jī)器人實(shí)驗(yàn)室。我第一次見到 Cruise 車的時(shí)候驚呆了，那么小的 GM Chevy Bolt（雪佛蘭小型電動(dòng)車）車上裝了 5 顆激光雷達(dá)。

第二代車有 22 顆攝像頭，4 顆 128 線激光雷達(dá)，8 顆近場激光雷達(dá)。那個(gè)時(shí)候的代碼怎么寫的？雷達(dá)點(diǎn)云作為輸入進(jìn)來，檢測然后執(zhí)行規(guī)則，寫優(yōu)化器，然后計(jì)算軌跡。在舊金山街道，我們的車被樹枝垂下來遮住激光雷達(dá)，被卡住了。Cruise 還動(dòng)用 “鈔” 能力，把整條街的樹枝都得修剪了。

Cruise 是全美第一個(gè)商業(yè)化的自動(dòng)駕駛企業(yè)，雖然后面有不幸的事情。能做到這一點(diǎn)，是因?yàn)?2019 年 Cruise 決心換思路，成立了 AI 部門，我是那個(gè)時(shí)候加入的。當(dāng)時(shí)提出概念 Continuous Learning Machine 的概念，即一種持續(xù)學(xué)習(xí)的機(jī)器。當(dāng)時(shí)覺得不太可能實(shí)現(xiàn)，但也是從那時(shí)候開始，我們大規(guī)模學(xué)習(xí) Infra，建立非常通用、簡單的模型框架。

晚點(diǎn)：你在 Cruise 時(shí)已經(jīng)能看到 AI 大模型的技術(shù)框架支撐進(jìn)化到自動(dòng)駕駛了嗎？

劉先明：那時(shí)候沒有人敢說一定是對的。2022 年底 Cruise 內(nèi)部邀請 Sam Altman（OpenAI 創(chuàng)始人）來跟當(dāng)時(shí)的 CEO Kyle Vogt 做爐邊談話，當(dāng)時(shí)我們在舊金山體驗(yàn)了一個(gè)多小時(shí) Robotaxi，沒有遠(yuǎn)程接管過，我們跟 Sam 吹牛，看我們多牛。但是 Sam 當(dāng)時(shí)說我們在做 GPT，緊接著 2023 年 ChatGPT 就出來了，非常震撼。

晚點(diǎn)：為什么之后又去了小鵬？

劉先明：當(dāng)時(shí)在商業(yè)化面前，要做最終取舍，還要用各種規(guī)則把模型限制住。離開 Cruise 還是因?yàn)?，?dāng)你相信一條路，但在這看不到盡頭，你可能會(huì)選擇一個(gè)新的地方去實(shí)現(xiàn)它。

晚點(diǎn)：你當(dāng)時(shí)跟何小鵬第一次見面就達(dá)成了共識(shí)？

劉先明：跟大師兄約在硅谷辦公室面試。面試之前，我想的事情是，如果他聽不懂我在說什么我就不來了。估計(jì)大師兄當(dāng)時(shí)想的事情是，如果這個(gè)人想的事情還是過去那套，我也不要他了。他希望做一家有創(chuàng)新能力的 AI 企業(yè)，所以才大刀闊斧去改革。我覺得我跟他說什么，他是認(rèn)同并覺得就應(yīng)該做的。我也是一個(gè)比較激進(jìn)的人，聊完了之后，我覺得給我準(zhǔn)備 offer 吧。

晚點(diǎn)：當(dāng)時(shí)有多家智駕公司也在接觸你，你選擇了小鵬汽車？

劉先明：我要做的事，一定需要大量數(shù)據(jù)和大量資金支持，肯定選擇一個(gè)能有數(shù)據(jù)和硬件支持的地方，只能是主機(jī)廠。當(dāng)然，大師兄自己也有了類似的想法，想找人跟他一起實(shí)現(xiàn)。所以剛來小鵬的時(shí)候，我們認(rèn)為這條路是對的，但沒人百分百確信。那個(gè)時(shí)間點(diǎn)上，小鵬想做，我也終于找到一個(gè)愿意投錢的老板。

晚點(diǎn)：你最早加入小鵬出任 AI 負(fù)責(zé)人，還不是技術(shù)一號(hào)位，當(dāng)時(shí)怎么爭取資源、怎么說服團(tuán)隊(duì)嘗試新路線？

劉先明：小鵬自動(dòng)駕駛團(tuán)隊(duì)一直非常扁平。我來的時(shí)候跟力耘電話，他說這個(gè)團(tuán)隊(duì)是你的，一會(huì)兒又打過來說，這個(gè)團(tuán)隊(duì)也是你的。其實(shí)不需要去爭取什么。過去幾年，小鵬做了很多事情，比如 2022 年開始建 “扶搖” 萬卡集群，很多先天條件都已經(jīng)鋪好。它的積累在所有主機(jī)廠里是最有先天優(yōu)勢的。

晚點(diǎn)：你什么時(shí)候才覺得自己在小鵬站穩(wěn)了腳跟？

劉先明：我剛來時(shí)，很多人跟我說踩了幾個(gè)死穴。第一是空降，第二是跨國，當(dāng)時(shí)團(tuán)隊(duì)一半在國內(nèi)，一半在美國，第三還讓人覺得高高在上，那時(shí)候科學(xué)家氣質(zhì)比較重，很高冷，不像現(xiàn)在話癆一樣。很多人判斷我撐不過一年。

晚點(diǎn)：但你走到了今天，還被賦予更多職責(zé)。

劉先明：小鵬的團(tuán)隊(duì)是很包容的，因?yàn)橐恢庇泄韫葓F(tuán)隊(duì)，大家很適應(yīng)有能力、有新想法的人加入，也適應(yīng)跨文化協(xié)作。

晚點(diǎn)：從哪個(gè)節(jié)點(diǎn)開始，你覺得團(tuán)隊(duì)開始信你？

劉先明：可能就是無圖城市 NOA 階段，包括去激光雷達(dá)、搭建 OCC（占據(jù)網(wǎng)絡(luò)）階段，開始向團(tuán)隊(duì)輸出一些想法，推動(dòng)底層框架變化，大家愿意跟著你一起干，最終結(jié)果好像還不錯(cuò)，那時(shí)候開始有人相信你的技術(shù)判斷。

晚點(diǎn)：自動(dòng)駕駛的技術(shù)依然在向前演進(jìn)，除了 VLA，還有別的路線可能嗎？有行業(yè)人士說技術(shù)路徑已經(jīng)進(jìn)入停滯年代，您認(rèn)同嗎？

劉先明：我不認(rèn)同，我們才只是物理 AI 很初始的階段。我們也都看到了過去、今年，AI 是以什么節(jié)奏進(jìn)步的。核心還是你要做自動(dòng)駕駛軟件，還是物理 AI 。自動(dòng)駕駛算法可能接近天花板了，但是物理 AI 剛開始。

晚點(diǎn)：機(jī)器人的研發(fā)會(huì)對智駕還有哪些啟示嗎？小鵬會(huì)在機(jī)器人關(guān)節(jié)的自研上做到哪種程度？

劉先明：小鵬機(jī)器人現(xiàn)階段會(huì)充分復(fù)用小鵬智駕乃至整個(gè)汽車體系的能力。機(jī)器人行業(yè)是軟件驅(qū)動(dòng)硬件設(shè)計(jì)，機(jī)器人的關(guān)鍵在于融合+創(chuàng)新，要做到這一點(diǎn)，全棧自研就成了必選項(xiàng)。

只有自己研發(fā)的硬件，才能完美匹配自己訓(xùn)練的模型，而模型的訓(xùn)練也要根據(jù)實(shí)際需求進(jìn)行專項(xiàng)調(diào)整。到最后，我們發(fā)現(xiàn)，只有全棧自研，才能造出一個(gè)足夠領(lǐng)先，同時(shí)又能實(shí)現(xiàn)規(guī)?；慨a(chǎn)的機(jī)器人。

晚點(diǎn)：你前面說小鵬汽車極致扁平，這是場面話嗎？

劉先明：扁平化真是小鵬的獨(dú)特文化，你很少能在飯?zhí)每吹揭粋€(gè) CEO 這么平易近人，也跟你一樣吃豬腳飯。我在食堂見到他，當(dāng)時(shí)還拄著拐，大師兄見到我說，來坐這吃，我說我走不動(dòng)，然后大師兄端著飯盤過來了。

晚點(diǎn)：你們現(xiàn)在人也挺多的，特斯拉 FSD 團(tuán)隊(duì)沒那么人，車企智駕有必要養(yǎng)這么龐大的智駕隊(duì)伍嗎？

劉先明：不一樣，特斯拉 Autopilot 團(tuán)隊(duì)確實(shí)人不多。我們團(tuán)隊(duì)其實(shí)有很大的變化，很多人轉(zhuǎn)到了中間的 Infra，去做訓(xùn)練、推理、車端部署、數(shù)據(jù)研發(fā)等。很多之前寫規(guī)則的工程師，雖然不適應(yīng)做模型，但知道什么數(shù)據(jù)最重要，所以他是做數(shù)據(jù)最好的人。

數(shù)據(jù)不是能從車上回傳回來就可以用。每天一輛車平均開車 1.7 個(gè)小時(shí)，但真實(shí)有效數(shù)據(jù)不超過 90 秒。如果沒有對自動(dòng)駕駛行為非常準(zhǔn)確的判斷，是找不出來數(shù)據(jù)的。我們不是要干掉這些人，而是給大家找更合適的位置。我們還有大眾的項(xiàng)目、機(jī)器人 .... 很多橫向項(xiàng)目也會(huì)涉及到很多人。盡量幫大家做轉(zhuǎn)型和升級(jí)。

晚點(diǎn)：如果按商業(yè)化順序來看，自動(dòng)駕駛、機(jī)器人、通用智能，哪個(gè)優(yōu)先級(jí)最高？

劉先明：自動(dòng)駕駛、機(jī)器人、通用智能。

晚點(diǎn)：你是個(gè)容易 “掛臉” 的人嗎？

劉先明：不是，有人說我很 nice，但是我會(huì)因?yàn)槔速M(fèi)時(shí)間和邏輯不清楚這兩件事情直接打斷所有人講話。

晚點(diǎn)：你 MBTI 是什么？

劉先明：INTJ。

晚點(diǎn)：作為小鵬通用智能中心的負(fù)責(zé)人，你希望團(tuán)隊(duì)成員用哪三個(gè)關(guān)鍵詞來評(píng)價(jià)自己的領(lǐng)導(dǎo)風(fēng)格？

劉先明：克制，穩(wěn)定，果斷。

晚點(diǎn)：如果要用一場具體的仗來讓整個(gè)通用智能中心形成戰(zhàn)斗力，你會(huì)選什么？

劉先明：就是今年的艙駕聯(lián)動(dòng)，因?yàn)檫@是整個(gè)組織轉(zhuǎn)型，重構(gòu)底層架構(gòu)，以及讓大家看到上限的一次戰(zhàn)斗。這個(gè)故事很熟悉，自動(dòng)駕駛也是 VLA 2.0 這么一戰(zhàn)打成的。

晚點(diǎn)：你跟我們提了很多次 “簡單”，這是你的某種信條嗎？

劉先明：其實(shí)是在讀書的時(shí)候，我的博導(dǎo) Thomas Huang（我們叫他 Tom，黃煦濤教授），他一輩子追求的理念就是簡單，相信簡單的東西才是美的。

2012 年我在美國讀書，那會(huì) Alexnet 神經(jīng)網(wǎng)絡(luò)剛出來，當(dāng)時(shí)我們整個(gè)實(shí)驗(yàn)室做圖像處理和計(jì)算機(jī)視覺，Tom 說所有人停下手里所有工作，全轉(zhuǎn)去神經(jīng)網(wǎng)絡(luò)。這其實(shí)就是模型 Scaling 和數(shù)據(jù) Scaling 的早期雛形。但業(yè)界很多人不敢去轉(zhuǎn)，在排斥，我們當(dāng)學(xué)生的心里也比較打鼓，但可能當(dāng)時(shí)已經(jīng)有這樣的想法。

畢業(yè)以后第一次被直接的觸動(dòng)確實(shí)是 Sam Altman 介紹 GPT，所有人都在考慮是不是這就是未來。我們這代人很幸運(yùn)，2016 年的時(shí)候有 Resnet（殘差神經(jīng)網(wǎng)絡(luò)），2017 年有 Transformer，GPT 最早是 2019 年，2023 年 Chat GPT。你會(huì)發(fā)現(xiàn)，你不確定的道路，已經(jīng)有些先驅(qū)者幫你探好路，告訴你是對的。

題圖來源：小鵬汽車

注釋：

[1] VLA：Visual-Language-Action 的縮寫，即 “視覺—語言—?jiǎng)幼髂Ｐ汀?，指將視覺輸入、語言理解與動(dòng)作輸出結(jié)合在一起的模型。文中所說小鵬 VLA 2.0，核心變化是減少中間語言翻譯環(huán)節(jié)，讓模型更直接地從感知走向動(dòng)作輸出

[2] VLM：Vision-Language Model 的縮寫，即 “視覺—語言模型”，通常用于處理圖像、視頻與文本之間的聯(lián)合理解任務(wù)。

[3] Language / language token：文中指模型推理過程中的語言表征。token 是大模型處理信息時(shí)使用的基本單位，可理解為文本被切分后的最小計(jì)算單元之一。

[4] Scaling Law：規(guī)模法則，指模型能力通常會(huì)隨著參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量和算力投入的增長而提升。

[5] Data Scaling：通過擴(kuò)大數(shù)據(jù)規(guī)模、提升數(shù)據(jù)質(zhì)量來增強(qiáng)模型能力的方法。

[6] CoT：Chain of Thought 的縮寫，常譯為 “鏈?zhǔn)酵评怼?或 “思維鏈”，指模型通過生成中間推理步驟來提升結(jié)果質(zhì)量。

[7] training time scaling / test-time scaling：前者指在訓(xùn)練階段增加算力、數(shù)據(jù)和訓(xùn)練資源；后者指在推理階段增加計(jì)算量，以換取更好的結(jié)果。

[8] data curation：數(shù)據(jù)篩選、數(shù)據(jù)治理，指從海量數(shù)據(jù)中識(shí)別、清洗、組織出對訓(xùn)練真正有價(jià)值的數(shù)據(jù)。

[9] outlier：異常值，指明顯偏離多數(shù)樣本分布的數(shù)據(jù)。它未必是錯(cuò)誤數(shù)據(jù)，但往往更難處理。

[10] Infra：infrastructure 的縮寫，即 “基礎(chǔ)設(shè)施”。在本文語境里，主要指訓(xùn)練集群、數(shù)據(jù)系統(tǒng)、推理部署等支撐模型研發(fā)和運(yùn)行的底層能力。

[11] Monte Carlo：蒙特卡洛方法，一類基于隨機(jī)采樣的統(tǒng)計(jì)模擬方法，常用于復(fù)雜系統(tǒng)的求解與優(yōu)化。

[12] profiling / dashboard：profiling 指性能分析，用于定位系統(tǒng)運(yùn)行瓶頸；dashboard 指數(shù)據(jù)看板或可視化面板，用于監(jiān)測和展示關(guān)鍵指標(biāo)。

[13] DARPA / CMU：DARPA 是美國國防高級(jí)研究計(jì)劃局，曾舉辦多屆無人駕駛挑戰(zhàn)賽；CMU 是卡內(nèi)基梅隆大學(xué)，其機(jī)器人研究長期處于全球前沿。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.