網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

對話自變量王潛：錯過圖靈獎，要做具身界的 OpenAI

2026-01-19 10:21:29　來源: 晚點LatePost

北京舉報

分享至

王潛說，DeepSeek 當(dāng)然很偉大，但我們要干一個像 OpenAI 那樣的公司。

文丨申遠

編輯丨宋瑋

采訪的第一個問題，王潛回答了 30 分鐘，以自己為什么選擇 AI 開始，到錯過一個圖靈獎級別的發(fā)現(xiàn)結(jié)束。

說這么久是因為他的經(jīng)歷太復(fù)雜了：本科在清華電子工程系，研究生卻去了生物醫(yī)學(xué)系，博士在南加大攻讀 Robotics Learning（機器人學(xué)習(xí)），第一份工作則是自己做了個量化基金。

總結(jié)起來就是一個完全不典型的具身智能創(chuàng)業(yè)人：他既沒有在中美大廠上班的任何經(jīng)驗，也沒有響亮的學(xué)術(shù)頭銜。

這不妨礙王潛的自信。

采訪過程王潛絕少遲疑，一般都是語速飛快地直擊要害，同時旁征博引輸出一些 “暴論”，告訴你為什么別人不行，而他可以。

2009 年王潛就在做神經(jīng)網(wǎng)絡(luò)了，他設(shè)計的架構(gòu)距離 transformer 一步之遙，這是他口中圖靈獎級別的錯過，也是他技術(shù)自信的起點，他是具身智能行業(yè)最熱烈擁抱端到端具身物理模型的人。

在早期，這種自信會勸退一些投資人，但也有越來越多的投資人被說服。美團龍珠合伙人王新宇形容王潛是一個對技術(shù)有自己獨特理解和執(zhí)著判斷的人，在持續(xù)跟蹤王潛一年后，美團成為自變量的重要股東。

1 月 12 日，自變量機器人宣布完成 10 億元 A++ 輪融資，距離上一輪融資只有四個月。據(jù)我們了解，此次領(lǐng)投方為字節(jié)跳動。

這是一個等待一個機會要改變世界的人。王潛想做 OpenAI 那樣從 0 到 1 原始創(chuàng)新的事，想成為第一名。

錯過了一個圖靈獎級別的工作

晚點：創(chuàng)立自變量機器人之前，你上一段經(jīng)歷是在美國做了一個量化基金，這么大的跨度是怎么發(fā)生的？

王潛：跨度其實說實話，一點也不大，因為技術(shù)用的都是同一套。我博士專業(yè)讀的叫做 Robotics Learning，主要還是 Deep Learning 這套東西，和做量化用的工具其實還蠻像的。

一個做 AI 的人想要賺錢，做量化非常直接。

晚點：最開始是怎么萌生要做 AI 的想法的？

王潛：小時候我主要想做數(shù)學(xué)和物理，后來發(fā)現(xiàn)理論物理學(xué)家和數(shù)學(xué)家的職業(yè)壽命已經(jīng)和 100 年前相比變得非常短了，所以我想搞一個人腦智力發(fā)動機，那就是 AI。

晚點：你本科是清華電子系，但研究生轉(zhuǎn)到生物醫(yī)學(xué)系，為什么？

王潛：為什么本質(zhì)上人類相信 AI 能做出來？因為有一個天然的 intelligent system （智能系統(tǒng)）擺在眼前，那就是人腦。但當(dāng)時 AI 的技術(shù)路線是統(tǒng)計學(xué)習(xí)，它每年成功率提升 0.1%，你還不知道是不是因為 overfit（過擬合），所以我想到了神經(jīng)網(wǎng)絡(luò)。

當(dāng)時沒有任何人認為神經(jīng)網(wǎng)絡(luò)是一個好東西，我找遍了清華整個信息學(xué)院所有的實驗室，沒有一個老師在做神經(jīng)網(wǎng)絡(luò)，所以我去了生醫(yī)系，主要研究計算神經(jīng)科學(xué)。

當(dāng)時我導(dǎo)師從美國回來，給我說有個叫 Geoffrey Hinton 做了一個叫 Deep Learning（深度學(xué)習(xí)）的東西，我一看這不就是神經(jīng)網(wǎng)絡(luò)嗎？所以我實際上是從 2009 年開始做 deep learning，當(dāng)之無愧是國內(nèi)最早的一波。

晚點：很多材料說你是國內(nèi)最早做注意力機制的人，你是怎么摸索到這個方向的？

王潛：人類最高級的智能是 self- consciousness （自我認知），下面是 consciousness （認知），再下面是什么？一般大家都認為是 attention（注意力機制）。所以我就想能不能把它放到神經(jīng)網(wǎng)絡(luò)里面去試試，到 2014 年的時候把論文做出來了。

注：這篇論文名為 Attentional Neural Network:Feature Selection Using Cognitive Feedback，
https://arxiv.org/abs/1411.5140

論文中提出了一種新的神經(jīng)網(wǎng)絡(luò)框架，把自上而下的注意力機制和自下而上的特征提取放在了一個統(tǒng)一的模型里。

這篇論文投稿到了 NIPS（即現(xiàn)在的 NeurIPS），是最早三篇注意力機制的論文之一，所以怎么講，應(yīng)該說錯過了一個圖靈獎級別的工作。

晚點：你說你錯過了圖靈獎？

王潛：真的是這樣，NIPS 上三篇論文，另外兩篇論文來自 DeepMind 和 ETH （蘇黎世聯(lián)邦理工大學(xué)）的團隊，我們的架構(gòu)比他們遠遠要更接近今天的 Transformer。

晚點：主要差在哪里？

王潛：乘法算子天然非常難收斂，特別是你把它的層數(shù)放得非常多的時候。

當(dāng)時在微軟亞洲研究院實習(xí)，我還和何愷明、孫劍他們交流過。何愷明他們在做 ResNet（殘差網(wǎng)絡(luò)），我當(dāng)時沒有特別在意。

Transformer 出來后我就發(fā)現(xiàn)，其實我們差的就是把架構(gòu)和 ResNet 連起來，ResNet 非常容易去穩(wěn)定收斂性。

晚點：那很值得后悔了。

王潛：這個事后來我越想越后悔，越想越后悔，看到 NLP 領(lǐng)域的進展我就難受（哈哈），因為我們真的只差一步。

晚點：論文發(fā)表之后為什么轉(zhuǎn)去做了機器人？

王潛：碩士畢業(yè)想要出國深造。當(dāng)時剛好第一波 AI 四小龍出來了，但我沒什么太大興趣去做一個安防市場，我想找一個 AI 真正能落地的大方向，自然就想到了機器人。

晚點：當(dāng)時在機器人領(lǐng)域也在用深度學(xué)習(xí)的方法么？

王潛：美國當(dāng)時做 Deep Learning in Robotics 的只有幾個組，其中一個是大家今天都知道的 Sergey Levine （機器人公司 PI 的聯(lián)合創(chuàng)始人）和他的老師 Pieter Abbeel，另外 MIT、CMU 都有，最后我選了 USC（南加大）。所以我應(yīng)該算是科班做機器人 Embodied AI 出身的，當(dāng)時我們還叫 Robotics Learning。

晚點：這個后面有點走不下去了？

王潛：到了 18、19 年整個 AI 領(lǐng)域大家覺得有點停滯了，在機器人上的表現(xiàn)就是 deep reinforcement learning 有點走不下去，因為它天然有一個很糟糕的特性，數(shù)據(jù)量的需求隨任務(wù)難度提升指數(shù)級增長，那個時候也沒有在做 imitation learning，所以整個方向好像都不太對。

晚點：simulation（仿真）呢？

王潛：這個事也不成立。因為物理世界和虛擬世界的差異實在是太大了，物理世界通常很難觀察，而且隨機性極大。

（王潛把手指抵在了采訪的桌子上往前推。）

一方面手指是可以變形的，另一方面它還有非線性摩擦，這兩個東西耦合在一起，就出現(xiàn)了隨機性，這種事你幾乎是沒法用仿真去模擬的。仿真環(huán)境里面訓(xùn)練的任何東西在現(xiàn)實世界中都不能用，所以最后我對整個領(lǐng)域的判斷是，如果不出現(xiàn)一些根本性的變化，可能還需要三十年、五十年的時間機器人才有可能做出來。

晚點：所以你選擇離開了學(xué)術(shù)界，去做量化基金。

王潛：當(dāng)時確實比較 depressive（低落），我也不太喜歡學(xué)術(shù)界的生活方式，所以自然想到應(yīng)該去賺點錢，最直接的方式就是量化。

這也有前人經(jīng)驗，最典型就是文藝復(fù)興基金的 James Simons，他和陳省身一起拿過菲爾茨獎，量化做的非常成功，然后又反過來把錢捐給了他的母校，紐約州立大學(xué)石溪分校，把石溪的數(shù)學(xué)系建設(shè)得特別好。

AI 領(lǐng)域其實也有，就是梁文鋒。

Silver Bullet : GPT-3

晚點：什么時候開始萌生了要回到 AI 和具身智能領(lǐng)域創(chuàng)業(yè)的想法？

王潛：2021 年，GPT-3 出來了，我當(dāng)時就覺得這是一個巨大的范式轉(zhuǎn)移。因為它有了 few shot learning （少樣本學(xué)習(xí)）。

這個東西大家之前追求了幾十年，一直沒人能真的找到。強化學(xué)習(xí)最大的問題是指數(shù)爆炸，但 GPT-3 上學(xué)一個新任務(wù)的數(shù)據(jù)量是越來越少的，到了 ChatGPT 還出現(xiàn)了零樣本學(xué)習(xí)（Zero-shot learning）。

順便說一句，今天有人重新把機器人領(lǐng)域的強化學(xué)習(xí)撿回來說這是新路線，我覺得挺荒唐的。

晚點：過去為什么沒有人想到 GPT-3 的路線？

王潛：這和大家的直覺太相反了。大家過去默認專用模型一定是最好的，但現(xiàn)在沒有任何一個專用模型能做得過通用模型。

這就是 Silver Bullet （銀彈，指一次性解決所有問題的技術(shù)），我本來以為要等 30 年或者 50 年的問題現(xiàn)在看有解決的希望了。

晚點：看到 GPT-3，你有沒有想到當(dāng)年在微軟亞洲研究院做神經(jīng)網(wǎng)絡(luò)的時候。

王潛：所以我一定要回來干這個事情啊。你的第一個問題問為什么從博士讀機器人到量化，然后再回來，這其實是一以貫之的，我只是單純的想做 AI，僅此而已，中間換了幾種不同的方式。

圖片來源：《機器人總動員 WALL·E》，這是自變量機器人模型 WALL-A 名字的來歷。

中國做硬件，美國做軟件，不可能

晚點：決定要做機器人后，為什么選擇中國而不是留在美國？

王潛：本來考慮過在美國，2022 年看了一圈覺得整個美國和硬件相關(guān)的生態(tài)實際上已經(jīng)崩潰了。

供應(yīng)鏈?zhǔn)莻€老生常談的問題，美國實驗室買個機械臂壞了返修可能需要兩個月，但國內(nèi)只需要一天。這是數(shù)量級的差異。

更重要的是硅谷已經(jīng)沒有 VC 去投硬件了。Figure AI 它早期的投資人要么是老板自己，要么是英偉達、OpenAI 還有微軟，還有 Jeff Bezos（亞馬遜創(chuàng)始人），沒有什么正經(jīng)的財投機構(gòu)。

供應(yīng)鏈和錢上都是這樣，人也是如此。硅谷不是沒有好的硬件工程師，但所有人都在蘋果和 Meta，沒有人愿意出來，或者說出來創(chuàng)業(yè)的目的是被蘋果買回去。

從人的流動、信息的流動、錢的流動到供應(yīng)鏈的流動，硅谷硬件生態(tài)當(dāng)時已經(jīng)徹底崩掉了。

晚點：中國的優(yōu)勢很明顯，但劣勢呢？比如融資還有算力？

王潛：中國融資肯定比美國要難多了。但具身智能限制 scaling up 的主要不是算力，而是數(shù)據(jù)。數(shù)據(jù)成本上中國明顯比美國低一個數(shù)量級。

這樣算下來，中美之間，融資低一個數(shù)量級，但成本也低一個數(shù)量級，基本上還是持平的，而且錢的劣勢不是永遠的，但成本優(yōu)勢是持續(xù)在的。

晚點：人力資源呢？

王潛：22 年的時候大家還會討論硅谷的人才優(yōu)勢，現(xiàn)在已經(jīng)不會有人這么問了，因為大家都清楚，硅谷搞 AI 和國內(nèi)搞 AI 的都是一波人，大家都是大學(xué)同班同學(xué)，你說誰比誰強?。?/p>

晚點：創(chuàng)業(yè)之后，你對上面的判斷有改變么？

王潛：美國還是比我當(dāng)時想的要快一些。

比如 Figure ，它的估值這么高，有一個原因是它承載了制造業(yè)回流美國這個大邏輯，因為它真的在用高一個數(shù)量級的錢猛砸硬件自產(chǎn)，接下來它還打算自產(chǎn)關(guān)節(jié)、電機、電池甚至電機繞線設(shè)備，就差沒有自己打螺絲了。

之前很多人說，中國做硬件，美國做軟件，大家某種意義上可以井水不犯河水，這完全不可能。包括 Figure 在內(nèi)的美國公司做硬件一點也不比國內(nèi)差，當(dāng)然有沒有量產(chǎn)那是另一回事，但量產(chǎn)前這個硬件水準(zhǔn)，我覺得比國內(nèi) 99% 的公司做得更好。

晚點：回國組建團隊你第一個找的誰？

王潛：我們的 CTO 王昊。我們在 2021 年就認識了，他在 IDEA 研究院的老板就是我那篇 Attention 論文的合作者。我開始做量化的時候涉及大量 infra 工作，這部分我沒怎么做過，對方給我推薦了王昊，他做大模型相當(dāng)早，2021 年中國大模型開源組織一個是智源研究院，另外一個就是 IDEA 了。

順便說一句，現(xiàn)在很多具身公司，我相信 infra 和算法耦合的工作他們會很難做，因為以前沒干過，這兩者之間還是有相當(dāng)大跨度的。

我找王昊的時候他正在很痛苦做 AI 落地的項目，因為這個東西就是很難落地嘛，即使現(xiàn)在，如果你不做 coding 還是沒法落地。我和他說了之后他覺得，機器人確實是一個完美落地的東西。當(dāng)然站在今天回頭看，那時候還是想的有些簡單了。

晚點：因為也不是那么好落地，對吧？

王潛：因為機器人除了模型之外，還有別的很多要素，硬件、系統(tǒng)等等。但反正那時候我和他說完，他就先來北京找我了，來了就再也沒回去。

看不到具身智能的 scaling law，那是因為你的數(shù)據(jù)太糟糕

晚點：自變量的 WALL-A 模型被形容是一個端到端具身基礎(chǔ)模型，和大語言模型并列。具身智能有這么大的路線分歧，你為什么這么確定端到端？

王潛：23 年底公司成立的時候沒有人信端到端。投資人都給我說，你還是要做一個分層模型或者專用模型，可如果沒有范式上的變化，還是做專用模型或分層模型，那憑什么輪到我來做這個事呢？專有模型絕對不可能成功，一定要做基礎(chǔ)模型，反過來再做專有模型。

晚點：分層模型的弱點是什么？

王潛：比如你去抓一個東西，按照分層的思路，你要先把物體三維形狀重建，然后估計它的重心、選抓取點，再生成一個軌跡去接觸這個抓取點，最后成功抓起物體。

首先，三維重建不太可能完美復(fù)現(xiàn)物體表面的物理特性，比如那些毛刺、坑洼，它對物理接觸是極度敏感的，因此最開始一個微小的錯誤在分層模型里會被非?？斓募壜?lián)放大，層數(shù)越多錯誤放大的越快。

大家之前按照這個路線做了 80 年了什么也沒有做出來。

晚點：端到端可以規(guī)避這樣的問題？

王潛：因為你可以從最終抓取結(jié)果 backprop （反向傳播）修正最初的抓取動作，設(shè)法讓某些抓取位置的成功率變高，端到端不需要做 100% 的完美還原。

另外端到端的思路也不是大模型時代才有的，14、15 年 Sergey Levine 他們，包括我們那時候都用的是端到端方法。2018 年左右機器第一次真正意義上做到 general grasping （通用抓?。?，用的也是端到端深度強化學(xué)習(xí)。

晚點：現(xiàn)在影響模型性能提升的主要瓶頸是什么？

王潛：數(shù)據(jù)質(zhì)量是最重要的。有人說看不到具身智能的 scaling law，我說那是因為數(shù)據(jù)太糟糕了，全是噪聲。

以前 80% 工作在模型算法上，現(xiàn)在 80% 工作在數(shù)據(jù)，剩下的你要盡可能讓模型自己決定它要做什么。這是方法論上一個大變化。

晚點：仿真數(shù)據(jù)是不行的？

王潛：要高質(zhì)量的真實數(shù)據(jù)，在真實物理環(huán)境做實際任務(wù)。

晚點：像英偉達的 Omniverse 這樣的虛擬仿真環(huán)境不行么？

王潛：GR00T 第一版非常糟糕，因為用的純虛擬仿真數(shù)據(jù)，后面的版本就開始轉(zhuǎn)向融合數(shù)據(jù)了。

我常跟投資人講這個邏輯，難道你相信任何一個做仿真的公司能在算力上超過英偉達嗎？英偉達封住了所有這些公司的上限，而英偉達也轉(zhuǎn)向了真實數(shù)據(jù)。

我們這一代的博士，所有人最開始都在做仿真，現(xiàn)在沒有一個人還在做仿真，因為它就是不 work。

晚點：但具身領(lǐng)域還有很多人在做仿真數(shù)據(jù)。

王潛：我算是真正意義上根正苗紅科班出身做機器人，其他有些是做 CV 視覺還有 Graphics 圖像處理的，他們或許認為這個東西可行吧，但我們當(dāng)年真的踩過所有的坑。

晚點：算力不是核心的瓶頸？

王潛：至少目前還沒有。同樣能力條件下，多模態(tài)模型比語言模型小一到兩個數(shù)量級，語言模型需要記很多東西，物理世界模型沒什么需要記的，它只需要知道物理規(guī)律。

這也是我選擇回國的一個考量，具身領(lǐng)域暫時沒有算力卡脖子的問題。

晚點：理論上具身基礎(chǔ)模型和多模態(tài)模型一樣，非常難以收斂。

王潛：多模態(tài)模型很難訓(xùn)練，因為數(shù)據(jù)天然缺失。一是缺乏時間上的連續(xù)帶因果性的認知。比如人第一次見到貓，可以繞著它走一圈，這樣你對它的理解有時間上的連續(xù)性；另外你知道自己的位置，所以對貓有一個三維的理解；最后你還可以和它互動，比如握握手，玩一會兒。這些都是額外的信息，所以人不需要看一萬張貓才知道什么是貓。

你把動作連續(xù)性這個因素加進來，會發(fā)現(xiàn)做具身智能模型比單純做多模態(tài)模型要容易。十年之后，我們會發(fā)現(xiàn)最好的多模態(tài)模型是具身模型。我跟很多做多模態(tài)的人說，你真的想要做好多模態(tài)，應(yīng)該來搞具身智能。

晚點：自變量在技術(shù)上有什么獨門秘籍么？

王潛：能說的我們都公開發(fā)文章了，剩下的都是不能說的。

晚點：反對端到端的觀點會說，機器人走路和用手玩魔方這兩種完全不同的事怎么能指望用一個模型完成呢？

王潛：首先這事倒真不用一個模型做，端到端說的是模型內(nèi)的結(jié)構(gòu)，不是說功能分區(qū)。人的大腦也是端到端的，但不同的區(qū)域負責(zé)不同的功能。

不過實踐下來發(fā)現(xiàn)，導(dǎo)航和動手操作放在一起真的表現(xiàn)好。

晚點：模型出現(xiàn)了更多泛化？

王潛：各方面都變好了一點。最典型的是 COT（思維鏈）。大家說的具身 COT 還是先做一個語言 COT，然后掛一個控制模型，這還是分層。

我們是世界范圍內(nèi)最早做原生 COT 的，24 年底開始做，25 年和 Gemini Robotics 差不多同時做出來。理想情況下它可以做無限長的策略和規(guī)劃。

晚點：你能舉個例子么？

王潛：比如給它一個圖紙，旁邊擺著積木，它可以按照圖紙把積木搭出來。第一它能理解圖紙，第二它能評估每一步和最終結(jié)果之間的差距，第三它還會動手把它搭出來。

晚點：你們的模型已經(jīng)可以做到這種程度了？

王潛：是的。

晚點：哪塊還不夠好？

王潛：總體來說都還不夠好，核心原因是數(shù)據(jù)量不足，當(dāng)然算法也很重要，但數(shù)據(jù)是第一。

晚點：你對李飛飛的世界模型怎么看？

王潛：李飛飛講的空間智能偏向三維生成，但就像我剛才說的，知道所有的三維形狀，并不意味著能做所有的事情。

完美的空間智能模型只相當(dāng)于完整的具身智能系統(tǒng)的 40% 到 50%，剩下的都是和直接物理接觸過程相關(guān)的。

一定要由 AI 去定義硬件

晚點：自變量已經(jīng)發(fā)布了兩代輪式機器人，外傳是 2024 年底才開始做的，為什么會這么晚？

王潛：我們一直覺得 AI 是第一性的，硬件是第二性的。最早我們做硬件各方面條件不是很成熟，一直是個小團隊。后來我們發(fā)現(xiàn)自己做硬件之后很多 AI 的問題反而是更容易做了。

這方面我們可能真的有點晚了，25 年 1 月份才開始真的大規(guī)模招硬件的人。

晚點：你是做具身出身的，最開始沒有覺得硬件重要嗎？

王潛：一個公司的資源是有限的，尤其是早期沒那么多錢，我們覺得應(yīng)該更多依靠供應(yīng)商。

晚點：自己做硬件之后 AI 問題更容易做了，你能舉個例子么？

王潛：比如雖然都是機械臂，但是否基于 AI 原生定義差別是非常大的。因為我知道機械臂在數(shù)據(jù)采集還有推理階段應(yīng)該怎么用，而只有用這種天然適合 AI 的機械臂，你才有可能做出有意義的研究。

現(xiàn)在有兩種看法，一種認為應(yīng)該先做一個非常完美的硬件，然后基于這個硬件去做 AI，這完全不對。另一種就是我的看法，一定要用 AI 去定義硬件。

還有一個例子是靈巧手。人類手掌是沒有肌肉的，所以它包裹性很好。但很多靈巧手會把電機放在里面，然后做的又厚又硬，但外形仍然和人手一樣。這個時候你會發(fā)現(xiàn)手掌是失去功能的，它包不住任何東西，在去抓物體的時候?qū)嶋H上是用指根施力。

這個例子很典型，只有沒收過數(shù)據(jù)，沒訓(xùn)過模型的公司才會出現(xiàn)這么荒唐的硬件設(shè)計。

晚點：自變量的靈巧手能力也有賴于具身物理模型能力的迭代么？

王潛：基礎(chǔ)模型學(xué)到的物理規(guī)律、動作模式還有對物體屬性的理解是不以操作的是夾爪還是靈巧手有變化的。你有一個好的基于夾爪的模型，再去訓(xùn)靈巧手會極大地節(jié)省資源和時間。

當(dāng)然還是要微調(diào)和后訓(xùn)練，但它的原理就類似于大模型，在英文上訓(xùn)練的越好，那它遷移到中文上會很容易。

晚點：馬斯克說靈巧手的技術(shù)難度比特斯拉造汽車還難，僅次于 Space X 的可回收火箭。

王潛：硬件確實很難做，但我覺得硬件和模型能力是兩條平行線，我們也在做靈巧手，但主要是為了幫助模型訓(xùn)練。

其實大部分場景沒必要做這種和人自由度完全一樣的手，一方面是成本，另一方面也沒太大用處。人只用夾爪也可以做非常復(fù)雜的任務(wù)，而夾爪在大部分場景，至少一半以上場景是足夠用的。

晚點：但大家會覺得，如果出現(xiàn)一個和人一樣的靈巧手是一個巨大的突破。

王潛：我覺得未必，比如大家之前覺得機器人能跑步、能唱歌跳舞就是個巨大突破，但真的是嗎？更多的還是情緒價值吧。高自由度靈巧手確實在有些任務(wù)上非常有用，但大部分時間它可能也是提供一個情緒價值。它看上去很像手，很復(fù)雜很厲害，就這樣。

晚點：自變量的靈巧手現(xiàn)在進展到什么程度？

王潛：我們已經(jīng)做了 20 自由度的手，效果還不錯，但這肯定不是我們的主線，更多還是為了我們模型訓(xùn)練。

晚點：你們的機器人是輪式而不是雙足，這是怎么考慮的？

王潛：腿有兩個本質(zhì)問題，一個是安全性，本質(zhì)上它就是比輪式更容易倒。另一個是它更貴，因為它的電機、關(guān)節(jié)數(shù)量要比輪式多一個數(shù)量級。

晚點：但它就沒有好處么？

王潛：它的用處并沒有很大，當(dāng)然有情緒價值，但排除掉這個，你在室內(nèi)場景中有多少是需要腿的呢？它的用處不足以抵消它的劣勢。

晚點：自變量不會去做雙腿？

王潛：可能會做，但我們希望在有用的地方做。做一個公司，很多時候重要的是在什么地方不做，這個地方我們就選擇不做。

我們要干一個像 OpenAI 那樣的公司

晚點：有投資人說你們從一開始技術(shù)思路沒有變過，也比較坐得住，不著急商業(yè)化。這會讓你們的早期融資很困難吧？

王潛：當(dāng)時投資人邏輯很簡單，你也不是字節(jié)也不是 Google，憑什么你來做大模型？就算具身智能要做大模型，那為什么是你不是別人，當(dāng)時很多公司融資規(guī)模已經(jīng)超 10 億了，我們才融天使輪。

晚點：你怎么回應(yīng)？

王潛：其實沒法回應(yīng)。這是我覺得中國資本市場的一個問題，大家不相信技術(shù)是第一性的，潛意識里覺得技術(shù)誰都能做，沒有獨特性。

因為過去做得好的全是 fast follower（快速跟進者），從來沒有出現(xiàn)過在從 0 到 1 階段就做到第一名的。

晚點：你相信具身智能中國真的有可能在從 0 到 1 的階段就做到第一名。

王潛：有人問我你是不是要做具身智能的 DeepSeek？我說 DeepSeek 當(dāng)然是一個很偉大的公司，但我們要做像 OpenAI 那樣的公司。

晚點：只有認同這一點才會投資你們對么？

王潛：會投我們公司的基本上都是 buy in 我們要做世界第一這個邏輯的。如果你 buy in 要快速賺錢這個邏輯，那根本也就不會投我們。我們的股東有給我講說，踏踏實實把基礎(chǔ)模型做好，缺錢找我們要。

晚點：比如哪一家是這樣的？

王潛：具體不說了，但你看國內(nèi)做大模型最好的兩個大廠，阿里和字節(jié)都投了我們，我們也算是字節(jié)唯一一個投的具身智能公司。

晚點：聽說有投資人 24 年的時候臨時出題考你們的機器人卷衛(wèi)生紙，你們表現(xiàn)很好。

王潛：不是臨時，給了三天時間。他們說你們不是有少樣本學(xué)習(xí)能力么？那給你們一個從來沒見過的任務(wù)，三天做出來。

題目就是整理衛(wèi)生紙。你需要把衛(wèi)生紙臟的、皺的地方扯掉，然后貼一個封口塑料標(biāo)，最后放回去。實際上就是酒店衛(wèi)生間清潔的一個流程。

晚點：你們成功做到了。

王潛：效果還不錯。

我們花了一天收數(shù)據(jù)，一天訓(xùn)練，第三天投資人就拿著一大堆各種衛(wèi)生紙來了，所以實際上準(zhǔn)備的時間是兩天。

晚點：隨著模型能力提升，現(xiàn)在融資應(yīng)該比早期順利多了。

王潛：現(xiàn)在比那時候好一點了，一個就是大家意識到國內(nèi)的人才儲備和密度絲毫不比美國差。另一個，不管是 DeepSeek 還是宇樹，大家都看到，中國能干第一流的事情，沒有什么克服不了的問題。不管資源、算力還是別的什么，它們都不是本質(zhì)問題。

晚點：所以也不會有人問，為什么是你而不是 Google 或智元這樣的問題。

王潛：現(xiàn)在不太會有人這么問了。

晚點：你好像一開始就沒有那些條條框框的刻板印象。

王潛：可能我中美兩邊都知道大概怎么回事，所以我一開始就不覺得有什么美國一定能做成，中國做不成的事情。

團隊打分：8 分，滿分 10 分

晚點：你之前沒有管過大團隊的經(jīng)驗，你怎么分配你的時間優(yōu)先級？

王潛：招人和融資我都會花比較多時間，技術(shù)上我參與重大技術(shù)判斷，最重要的產(chǎn)品我可能會自己盯。

大部分時候我不會管很細，一個公司 CEO 要去管這么細的事，那這個公司肯定有問題對吧？我不是控制欲很強的人，也不希望他們什么事都找我。

晚點：和別的機器人公司比，自變量沒什么光環(huán)加持，招人對你來說難么？

王潛：我的心得就是不同的公司氣質(zhì)確實會吸引來不同的人，我們吸引來的就是比較理想主義，對技術(shù)本質(zhì)比較在意，這還挺明顯的。

晚點：有什么趨勢么，比如哪些公司、哪些行業(yè)出來的人在你看來會靠譜一點。

王潛：應(yīng)屆生。因為這個行業(yè)真的不吃經(jīng)驗，幾乎沒人做過，所有人都是第一批。最近也開始有大廠或者創(chuàng)業(yè)公司，真的訓(xùn)過模型的人出來，有做大模型的，有做自動駕駛的。我們更傾向于招以前做大模型的人。

晚點：自動駕駛公司做具身為什么不行？

王潛：第一，普遍來講，自動駕駛對大模型的理解還是稍微滯后。

第二，自動駕駛和機器人這個事不像很多人想的那樣，它不是 100% match 的，自動駕駛沒有物理接觸，機器人是有很多接觸的，技術(shù)核心是不一樣的。

第三，自動駕駛安全性要求非常高，轉(zhuǎn)過來大家多少會有思維方式不一致的地方。當(dāng)然后兩點都是次要的，主要還是第一點。

晚點：其它大模型公司不能做你們的事嗎？

王潛：這不是一個純大模型的事兒，還涉及硬件、系統(tǒng)、物理世界的隨機性各種問題，然后還有實驗的問題、組織管理的問題，本質(zhì)上都和大模型團隊基因不對付。

大模型團隊像是空軍，一個很優(yōu)秀的飛行員加一架飛機你就去飛了，怎么把敵機打下來靠的是單兵作戰(zhàn)能力。大模型公司核心團隊本質(zhì)上是一個頂級聰明人組成的相對松散的實驗室。

硬件團隊是海軍，你在一艘船上，每個崗位都是高度協(xié)同的，從前端直接和硬件、數(shù)據(jù)打交道，到處理數(shù)據(jù)，再到模型訓(xùn)練，它的鏈條真的太長了，一個崗位出問題整個船就沉了。

晚點：你們是怎么克服這種基因沖突？

王潛：找到合適的人吧。另外技術(shù)上講，動作這個模態(tài)和語言還有視覺不一樣，你需要再去開發(fā)一套新方法來利用動作數(shù)據(jù)，這本身就有很高的技術(shù)壁壘，確實需要一個原生的具身智能團隊來做這些事。

晚點：現(xiàn)在自變量算法團隊和硬件團隊磨合到了一個什么樣的水平？

王潛：基本上做到?jīng)]什么部門墻，大家能夠比較好地作為一個整體協(xié)作。

晚點：如果讓你打分的話？

王潛：8 分，滿分 10 分。

第一名，沒泡沫，賽道出清

晚點：前一段時間 omdia 出了個報告，全球人性機器人出貨 1.3 萬臺。前幾位是智元、宇樹、優(yōu)必選等等，你怎么看這個報告，2026 年機器人行業(yè)在商業(yè)化上會有什么進展？

王潛：那個報告我覺得參考意義不大，基本上都還是情緒價值。多 1000 臺唱歌跳舞的機器人和少 1000 臺有什么區(qū)別嗎？機器人現(xiàn)在還不能干活。

商業(yè)化有點像狼來了，過去兩年大家都說是商業(yè)化元年，到了現(xiàn)在真的可能是元年，大家反而不信了。因為預(yù)期透支太多了，很多人提前把商業(yè)化這個餅畫出去了。

晚點：你認為 2026 年是商業(yè)化元年？

王潛：可以開始商業(yè)化了，不能說一下子就很成熟，但至少這個事可以開始做。

晚點：這個判斷是怎么做出來的？

王潛：主要還是技術(shù)上達到閾值，強化學(xué)習(xí)可以做了，也可以通過少樣本學(xué)習(xí)快速在單點產(chǎn)品上部署了。

基礎(chǔ)模型沒有好到一定程度，強化學(xué)習(xí)是不 work 的，我覺得這都挺有標(biāo)志性。具身智能大家之前真的做不了太多事，除了唱歌跳舞。

晚點：自變量 2026 年在商業(yè)上打算怎么做？

王潛：至少在某些場景里面實現(xiàn)正 ROI，這是最大的一個里程碑，是到目前為止還沒有一家做到過的一件事，除了唱歌跳舞。

晚點：在什么場景里落地呢？我看之前你們提到過比如公眾服務(wù)、養(yǎng)老之類的。

王潛：家務(wù)、打掃、收納這是一類，另一類是工業(yè)領(lǐng)域的單點垂直場景，比如打螺絲。這是很典型過去只能用人做的事情。

今年我們就能看到機器人商業(yè)化的落地，以正 ROI 的方式，我還挺有信心的。

晚點：你對競爭格局怎么看？除了你們還有哪些公司能做到以正 ROI 的方式落地？

王潛：大部分可能還是海外公司，比如 1X，他已經(jīng)賣出去幾百臺了。Figure 在工業(yè)場景也有一些開始在做的，接近于做出來了，這些公司都還蠻強的。

晚點：國內(nèi)呢？

王潛：我覺得國內(nèi)大家可能做唱歌跳舞的比較多，明顯比海外要差一點。

晚點：換種說法就是跟自變量比也差一點。

王潛：那肯定我們還是覺得我們做的好嘛。

晚點：你怎么看和國內(nèi)同行的競爭？

王潛：首先可能要區(qū)分一下什么是同行?，F(xiàn)在這個具身智能大類里，有一類是做 locomotion 的，這事本身不是一定需要 AI，它是一個純粹控制論的東西。最早從波士頓動力開始，他們沒有用一行 AI 的代碼。

這種公司實際上是個制造業(yè)邏輯，把產(chǎn)品做得更好，價格做得更便宜。這當(dāng)然也不錯，但和 AI 可以說毫無關(guān)系。

也就是說，我們在 AI 這一頭，宇樹在另一頭，當(dāng)然我們最終都會往中間走，但我認為我們做硬件是容易的，他們做 AI 是難的。

還有一類公司，主要是整合資源，某種意義上更像房地產(chǎn)公司。

晚點：不同種類公司的競爭格局分別是怎么樣的？

王潛：唱歌跳舞那類機器人的熱度在快速下降，只有最頭部的幾家能活下去，賽道會出現(xiàn)出清。

我們這邊也開始有這種趨勢，26 年不管是商業(yè)化還是模型，你總得拿出一點好東西出來了。25 年我們還能看到大量進入的新玩家，最近幾個月在模型或整機賽道，新進入的玩家已經(jīng)基本沒有了，因為淘汰賽開始了。

當(dāng)然，整體還是會變好，因為機器人真的在落地，市場規(guī)模起來了大家就知道它不是一個炒作。如果很多年你都拿不出一個實際有用的東西的話，很快就會像曾經(jīng)自動駕駛那樣面臨一個巨大的低谷，我覺得機器人不太會有這樣的低谷，因為它正在落地。

晚點：很多人說具身智能過熱，存在泡沫。

王潛：我覺得一點也沒有 bubble。和自動駕駛比，和之前所有大賽道比，具身智能在資源投入、估值還有融資金額方面都是一個太小的賽道，更不要說你還比美國低了一個數(shù)量級。

晚點：美國在融資方面的優(yōu)勢會讓你覺得當(dāng)時還是回美國比較好么？

王潛：長期來看還是國內(nèi)優(yōu)勢比較大。不管哪個行業(yè)，基本上從 1 到 10，或者從 10 到 100 這個階段，中國一定做的比美國好，所以如果我們在從 0 到 1 這個階段能夠做的不比美國差，甚至做的還不錯，那肯定長期還是我們有優(yōu)勢。

晚點：橫向比較，你認為自變量技術(shù)做的最好，對么？

王潛：我肯定認為自己技術(shù)上最好，而且這個事行業(yè)內(nèi)多少有一些口碑。

今天真正理解大模型應(yīng)該怎么做的人確實不多，特別在具身領(lǐng)域幾乎是沒有。全世界所有具身智能公司，我們是唯一一個以大模型團隊為核心來做的。從技術(shù)實力來說在初創(chuàng)公司里肯定是第一名。

很有信心，但也焦慮

晚點：整個采訪留給我的最大印象就是你很有信心。

王潛：過去兩年的判斷都比較準(zhǔn)吧，比如我們過去兩年某種意義上主動放棄了商業(yè)化，現(xiàn)在看這是一個很對的判斷。

晚點：我說的不只是這兩年，可能從學(xué)生時代以來你好像都是這樣。

王潛：這就是所謂的 vision 嘛，我覺得我 vision 還是可以的。

晚點：你和大部分人起心動念的方式好像非常不一樣。

王潛：我覺得要做就做一個第一名的事，不然確實沒太大意思。如果純?yōu)榱速嶅X我還不如接著去做我的量化呢對吧，沒必要吃這么多苦。

晚點：所以這事兒在你看來也算是吃苦。

王潛：肯定還是挺艱難的。

晚點：從你的談話里沒太感覺到這一點。

王潛：那肯定不能讓你感受到啊。

晚點：你是不是有點抗拒讓別人看到這個東西？

王潛：大家還是喜歡看到一個很強的，無懈可擊的形象。

晚點：那很假啊。

王潛：那是呈現(xiàn)方式不對，整體你還是需要無懈可擊的，大家才會認可你。

晚點：如果有空休息了你一般會做什么？

王潛：睡覺，我是一個特別 i 的人，優(yōu)先睡覺，醒了看看書就挺好。

晚點：你是不是睡眠質(zhì)量不好？

王潛：焦慮時睡得不太好。

晚點：你最近看的一本書是什么？

王潛：《科學(xué)美國人》。

晚點：好吧 … 我聽說你也很喜歡刷 B 站。

王潛：不休息的時候我也在刷啊。

晚點：有什么傾向的題材嗎？

王潛：沒有，純刷。

（說著王潛念出了他此刻 B 站首頁的視頻標(biāo)題：揭秘谷歌 DeepMind 實驗室；高中生元旦晚會跳舞；世界上最生的熟肉；今日份快樂源泉；浮空風(fēng)力發(fā)電系統(tǒng)完成并網(wǎng)發(fā)電測試 …… ）

題圖來源：自變量

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.