網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

對(duì)話它石陳亦倫：不做VLA 不仿真，一家具身智能公司的非主流判斷

2026-01-29 18:40:33　來(lái)源: 晚點(diǎn)LatePost

北京舉報(bào)

分享至

不做 VLA；不做遙操，以可穿戴設(shè)備采真實(shí)數(shù)據(jù)。

文丨程曼祺

編輯丨宋瑋

2024 年 11 月，《晚點(diǎn) LatePost》曾獨(dú)家報(bào)道，華為車 BU 前首席科學(xué)家陳亦倫投身具身智能創(chuàng)業(yè)。

不久后，它石智航浮出水面——由陳亦倫和百度前自動(dòng)駕駛事業(yè)群負(fù)責(zé)人李震宇等聯(lián)合創(chuàng)立；成立不足半年，它石先后完成 1.2 億美元和 1.22 億美元的天使輪與天使 + 輪融資，創(chuàng)下中國(guó)具身智能領(lǐng)域天使輪融資紀(jì)錄，投資方包括藍(lán)馳、美團(tuán)、啟明、線性、高瓴、聯(lián)想創(chuàng)投等。

陳亦倫獲得了很多支持，在技術(shù)思考上卻 “離經(jīng)叛道”。用一種平實(shí)的口吻，陳亦倫分享了很多反主流的判斷。

Google RT-2 開啟的 VLA（視覺-語(yǔ)言-動(dòng)作）模型，是當(dāng)前具身模型的主流架構(gòu)。而它石則開發(fā)了 AWE（AI World Engine）：

我們追求表達(dá)時(shí)間、空間、力和環(huán)境交互等物理量和 “世界信息”，而不是 VLA 那樣的 “視網(wǎng)膜信息”。

VLA 的主流做法是從 LLM（大語(yǔ)言模型）得到 VLM（視覺-語(yǔ)言模型），再在 VLM 基礎(chǔ)上訓(xùn) VLA。陳亦倫卻說(shuō)：

我非常不認(rèn)同（這個(gè)路線）。具身一定會(huì)有自己的獨(dú)立模型，而不是在 VLM 上長(zhǎng)出一個(gè)動(dòng)作的 “頭”。否則，它也不會(huì)是一個(gè)獨(dú)立的行業(yè)，只是 LLM 的下游分支。

數(shù)據(jù)是具身智能當(dāng)前的核心卡點(diǎn)。陳亦倫在創(chuàng)業(yè)之初也沒有做當(dāng)時(shí) Optimus、PI 等美國(guó)公司選擇的遙操作數(shù)據(jù)采集。他認(rèn)為那樣無(wú)法低成本、大規(guī)模獲得足夠的數(shù)據(jù)。它石自研了采集數(shù)據(jù)的可穿戴設(shè)備，讓勞動(dòng)者可以戴著手套和第一視角攝像頭干活，力求獲得真實(shí)場(chǎng)景里真實(shí)任務(wù)的數(shù)據(jù)。

敢和其他人不一樣，可能來(lái)自他最早嘗試自動(dòng)駕駛端到端的切身經(jīng)驗(yàn)。曾有業(yè)內(nèi)人士告訴我們，在華為期間曝光度不高的陳亦倫是華為智能駕駛研發(fā)團(tuán)隊(duì)的技術(shù) “靈魂人物”。

這也帶來(lái)疑問：智駕的技術(shù)的演進(jìn)過程，會(huì)在具身智能上押韻嗎？二者都屬于物理 AI 范疇，但大語(yǔ)言模型的帶來(lái)了全新的技術(shù)環(huán)境。

這個(gè)問題沒有現(xiàn)成回答，取決于不同從業(yè)者的不同 bet（押注）。陳亦倫講述了他的 bet。

從華為、清華到創(chuàng)立它石，端到端開啟通用機(jī)器人機(jī)會(huì)

晚點(diǎn)：你在大疆和華為做過無(wú)人機(jī)與無(wú)人車，這都屬于機(jī)器人的分支，最早關(guān)注機(jī)器人是什么時(shí)候？

陳亦倫：上學(xué)時(shí)就開始了。我是物理競(jìng)賽保送清華的，但讀的是電子系。后來(lái)去美國(guó)讀機(jī)器學(xué)習(xí)博士時(shí)，我也很羨慕做機(jī)械專業(yè)的室友，因?yàn)樗麄冏龅臇|西能動(dòng)，我天生喜歡 “能動(dòng)” 的東西。

2007 年在美國(guó)，我看到波士頓動(dòng)力用液壓驅(qū)動(dòng)的機(jī)械狗，它在冰面上摔倒后依然能保持平衡，非常震撼。博士畢業(yè)后，我沒有選擇 AI 領(lǐng)域最主流的路徑去一個(gè)互聯(lián)網(wǎng)大公司，而是去了一家非常有名的機(jī)電系統(tǒng)公司，在那里學(xué)會(huì)了如何做電機(jī)、伺服控制和液壓系統(tǒng)——因?yàn)楫?dāng)時(shí)我認(rèn)為機(jī)器人應(yīng)該是液壓驅(qū)動(dòng)的，我在第一家公司也帶過液壓伺服控制產(chǎn)品線。

所以我的職業(yè)生涯一直有一個(gè)信念：總有一天我要做出理想中的機(jī)器人。但作為學(xué)算法出身的人，我過去認(rèn)為技術(shù)還沒 Ready，只能寫出一些簡(jiǎn)單的程序，那不是我想要的機(jī)器人。

晚點(diǎn)：何時(shí)發(fā)現(xiàn)技術(shù)條件更成熟了？

陳亦倫：2020-2021 年，我在華為第一次嘗試端到端系統(tǒng)時(shí)。那時(shí)我已經(jīng)在華為帶團(tuán)隊(duì)做了 2、3 年研發(fā)，我們的自動(dòng)駕駛系統(tǒng)至少有 200 萬(wàn)行代碼。它雖然能工作，可以處理復(fù)雜的城市道路情況，但維護(hù)成本極高。

2020 年，我和丁文超博士（注：它石首席科學(xué)家，曾被華為 “天才少年” 計(jì)劃招募入自動(dòng)駕駛部）等同事想試一下：能不能訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)，把這 200 萬(wàn)行代碼精簡(jiǎn)掉？最終我們用 3 萬(wàn)行代碼訓(xùn)練了一個(gè)網(wǎng)絡(luò)，直接讓網(wǎng)絡(luò)去規(guī)劃無(wú)人車的軌跡。那就是最早的端到端自動(dòng)駕駛，只不過當(dāng)時(shí)我們做的是 “兩段式”（注：感知環(huán)節(jié)是一個(gè)端到端網(wǎng)絡(luò)，規(guī)控環(huán)節(jié)是另一個(gè)端到端網(wǎng)絡(luò)）。

晚點(diǎn)：2020 年開始做端到端，是受到特斯拉 AI Day 等行業(yè)信號(hào)的啟發(fā)嗎？

陳亦倫：沒有，2020 年的特斯拉 AI Day 還沒講端到端，講的是在感知環(huán)節(jié)如何恢復(fù) 3D 環(huán)境（Vector Space），即 BEV（Bird's-Eye-View，鳥瞰視角）。對(duì)我們來(lái)說(shuō)，感知是已知解，它是開放問題，有數(shù)據(jù)、有標(biāo)注就能做。

我最頭疼的是規(guī)控，這是一個(gè)閉環(huán) AI：你產(chǎn)生的每一個(gè)動(dòng)作都會(huì)影響下一刻的環(huán)境。比如你選擇 “加塞”，對(duì)方可能讓行，也可能加速搶行。這種閉環(huán) AI 怎么訓(xùn)練？當(dāng)時(shí)沒人有把握，但靠傳統(tǒng)規(guī)則方法一個(gè)個(gè)描述 corner case（極端情況），代碼已經(jīng)堆到了 200 萬(wàn)行，發(fā)現(xiàn)問題的速度已遠(yuǎn)超解決問題的速度。所以必須用新的方法。

晚點(diǎn)：具體怎么探索端到端的？

陳亦倫：我們需要大規(guī)模采集人類駕駛數(shù)據(jù)，這在之前還沒人做過。我們當(dāng)時(shí)調(diào)撥了約 100 輛車的車隊(duì)，專門干這一件事。丁博（丁文超）每天在現(xiàn)場(chǎng)教司機(jī)開車，定義什么是 “好司機(jī)” 的行為。

起初沒看到顯著進(jìn)展，但當(dāng)數(shù)據(jù)積累到幾千小時(shí)后，你會(huì)發(fā)現(xiàn)網(wǎng)絡(luò)真的學(xué)到了東西，而且越來(lái)越厲害。我們選了一個(gè)極難的測(cè)試場(chǎng)景——一個(gè)人車混行、完全非結(jié)構(gòu)化的城中村，通過規(guī)則算法幾乎無(wú)法通過。我們大膽用神經(jīng)網(wǎng)絡(luò)去試，原則是 “后處理越少越好”。結(jié)果車非常流暢地穿行了過去。那一刻就是我的 “GPT Moment”，我意識(shí)到 AI 可以做 Planning（規(guī)劃）了。

晚點(diǎn)：為什么這之后不久，你就離開華為，加入了清華大學(xué)智能產(chǎn)業(yè)研究院（清華 AIR）？當(dāng)時(shí)智能駕駛正處于上量和質(zhì)變的前夕。

陳亦倫：因?yàn)槲乙恢本拖胱鰴C(jī)器人，而端到端的成功讓我看到了機(jī)器人加速發(fā)展的時(shí)間點(diǎn)就要到了，但那時(shí)我還不知道具體怎么做，所以我選擇先回到學(xué)校，給自己一些研究的時(shí)間。

通用機(jī)器人的三道曙光和三道墻

晚點(diǎn)：從加入清華到 2024 年底開始籌備它石，通用機(jī)器人的哪些變化讓你覺得創(chuàng)業(yè)時(shí)機(jī)到了？

陳亦倫：我看到了三道曙光。一是 Locomotion（運(yùn)動(dòng)控制）的解鎖：2020 年左右，ETH（蘇黎世聯(lián)邦理工學(xué)院）走通了一條路：用強(qiáng)化學(xué)習(xí)（RL）來(lái)解決機(jī)器狗的控制問題，而以前用的是非常復(fù)雜的 WBC（Whole-Body Control，全身控制），機(jī)器狗動(dòng)作很呆板。

這其中又有兩個(gè)核心模塊：一是高并發(fā)的仿真器（Simulator），仿真的計(jì)算基礎(chǔ)從 CPU 到 GPU 的轉(zhuǎn)變大幅增加了并發(fā)能力，能獲得很多數(shù)據(jù)；二是縮小 “Sim-to-Real Gap”，即數(shù)字世界到到真實(shí)世界的差距。像宇樹這樣的硬件和運(yùn)控做得很好的公司，核心能力就是用各種方法縮小這個(gè) gap，所以現(xiàn)在我們能看到機(jī)器人流暢地運(yùn)動(dòng)、跳舞。

第二道曙光是以 GPT 為代表的大語(yǔ)言模型，它提供了機(jī)器人領(lǐng)域以前最難的任務(wù)規(guī)劃能力。自動(dòng)駕駛的任務(wù)規(guī)劃相對(duì)簡(jiǎn)單，就是從 A 到 B，而且有地圖這種現(xiàn)成的導(dǎo)航數(shù)據(jù)；但機(jī)器人任務(wù)復(fù)雜得多，而且進(jìn)家、進(jìn)工廠都缺乏數(shù)據(jù)，而 GPT 則非常擅長(zhǎng)任務(wù)規(guī)劃。

三就是我自己驗(yàn)證過的端到端。本質(zhì)上，所有機(jī)器人任務(wù)的邏輯都是輸入傳感器信息和指令、輸出動(dòng)作。但傳感器數(shù)據(jù)極高維，指令又極低維，過去堆疊二者的方式就是靠寫規(guī)則。規(guī)則要窮盡自動(dòng)駕駛的 corner case 已經(jīng)很難了，在機(jī)器人上更是不可能，所以端到端能奏效這個(gè)認(rèn)知非常重要。

晚點(diǎn)：自動(dòng)駕駛和具身智能等物理 AI 領(lǐng)域有幾個(gè)經(jīng)常一起出現(xiàn)的概念：端到端、VLA、世界模型，你怎么理解和區(qū)分它們？

陳亦倫：端到端的本質(zhì)是盡量用神經(jīng)網(wǎng)絡(luò)解決所有問題，至于底層是模仿學(xué)習(xí)還是強(qiáng)化學(xué)習(xí)，都是可選的方法。

VLA（Vision-Language-Action 視覺語(yǔ)言動(dòng)作模型）則是一種神經(jīng)網(wǎng)絡(luò)，它輸入視覺和語(yǔ)言信息、輸出機(jī)器人的動(dòng)作。至于中間是怎么訓(xùn)的，現(xiàn)在也有不同理解。

世界模型的定義就更多了，但從信息論角度講很簡(jiǎn)單，就是輸入此時(shí)的狀態(tài)，生成下一個(gè)狀態(tài)。這個(gè)狀態(tài)可以用 3D 信息、視頻或物理交互的變化來(lái)表達(dá)，所以現(xiàn)在說(shuō)起 “世界模型”，有人說(shuō)的是 3D 生成、有人說(shuō)的是視頻生成、有人說(shuō)的是理解物理交互。它的用途也千奇百怪，有的是給元宇宙或游戲做的，有的想給具身和機(jī)器人用。

晚點(diǎn)：雖然你認(rèn)為一些條件更成熟了，但整個(gè)具身的進(jìn)度遠(yuǎn)落后于大語(yǔ)言模型，瓶頸是什么？

陳亦倫：我認(rèn)為 AI 要解決一個(gè)大型復(fù)雜問題，需要跨越三道墻。

第一道是數(shù)據(jù)墻。只有足夠的數(shù)據(jù)量才能支撐足夠復(fù)雜的網(wǎng)絡(luò)。大語(yǔ)言模型在這一點(diǎn)上是被祝福的，因?yàn)榛ヂ?lián)網(wǎng)上已經(jīng)有海量語(yǔ)料，而要獲得具身智能所需的數(shù)據(jù)則很難、很貴。

第二道是算力墻。為什么不是算法呢？因?yàn)樵綇?fù)雜的系統(tǒng)，往往算法結(jié)構(gòu)越簡(jiǎn)單，這才能經(jīng)受住海量數(shù)據(jù)。所以進(jìn)入預(yù)訓(xùn)練 scaling（規(guī)?；╇A段后，差異不在算法，而是算力比拼。

接下來(lái)，當(dāng)擴(kuò)大算力帶來(lái)的邊際效應(yīng)遞減或算力本身不夠用之后，就會(huì)遇到第三道墻，進(jìn)入后訓(xùn)練。這時(shí)不能再靠堆資源，而是要針對(duì)具體問題找到精妙的解法，這會(huì)是一個(gè)很有創(chuàng)造力的階段。

現(xiàn)在，大語(yǔ)言模型和自動(dòng)駕駛都已經(jīng)過了第二階段，而具身智能還在第一道墻下，就是數(shù)據(jù)。具身智能目前的核心痛點(diǎn)就是如何低成本、大規(guī)模地獲得高質(zhì)量數(shù)據(jù)。一旦數(shù)據(jù)問題解決，行業(yè)會(huì)收到一波巨大的紅利，智能能力會(huì)突飛猛進(jìn)。

重劍無(wú)鋒、大巧不工，越復(fù)雜的任務(wù)、越海量的數(shù)據(jù)，算法結(jié)構(gòu)反而要越簡(jiǎn)單

晚點(diǎn)：聽起來(lái)你并不擔(dān)心具身智能的算法和模型該怎么設(shè)計(jì)？

陳亦倫：首先，缺乏數(shù)據(jù)時(shí)，你對(duì)算法是無(wú)能為力的。同時(shí)，神經(jīng)網(wǎng)絡(luò)的算法和傳統(tǒng)算法也不太一樣。傳統(tǒng)算法要仔細(xì)推敲怎么設(shè)計(jì)，而神經(jīng)網(wǎng)絡(luò)本質(zhì)是一個(gè)函數(shù)，最重要的是定義輸入和輸出，其他很多設(shè)計(jì)不在算法本身，而在算法之外：比如如何最大化利用算力，如何盡可能降低獲取數(shù)據(jù)的成本。

晚點(diǎn)：但是我們看大語(yǔ)言模型的發(fā)展，互聯(lián)網(wǎng)海量數(shù)據(jù)早就存在，而直到 Transformer 這種模型架構(gòu)出現(xiàn)，后來(lái)又從 BERT 發(fā)展到 GPT，整個(gè)領(lǐng)域才有大的轉(zhuǎn)折。（注：BERT 和 GPT 都是 Transformer 架構(gòu)的大語(yǔ)言模型，BERT 有編碼器和解碼器，GPT 結(jié)構(gòu)更簡(jiǎn)單，只有解碼器。）

陳亦倫：我認(rèn)為 GPT 最偉大的不是架構(gòu)本身，而是想出了 next-token-prediction（預(yù)測(cè)下一個(gè)詞）這個(gè)訓(xùn)練任務(wù)。

其實(shí)很早時(shí)，在 OpenAI 和特斯拉都工作過的 Andrej Karpathy 就寫過一篇著名的技術(shù)博客，叫《循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）的驚人效果》（The Unreasonable Effectiveness of Recurrent Neural Networks，發(fā)表于 2015 年）。他展示了讓一個(gè)不大的 RNN 模型不停預(yù)測(cè)下一個(gè) character（字符），它竟能寫詩(shī)、寫代碼。我那時(shí)看到的第一反應(yīng)就是：能不能把這套邏輯用在自動(dòng)駕駛上？這種通過簡(jiǎn)單任務(wù)訓(xùn)練出復(fù)雜能力的想法確實(shí)了不起。

晚點(diǎn)：當(dāng)時(shí)都還沒有 Transformer。（注：Transformer 最早在 2017 年被提出。）

陳亦倫：對(duì)，所以關(guān)于模型架構(gòu)，還是我前面說(shuō)的——重劍無(wú)鋒、大巧不工，越復(fù)雜的任務(wù)、越海量的數(shù)據(jù)，網(wǎng)絡(luò)結(jié)構(gòu)反而要越簡(jiǎn)單、越返璞歸真。

GPT 就是這樣，在小數(shù)據(jù)集上沒有明顯優(yōu)勢(shì)，但有了更大的數(shù)據(jù)后，大家都不約而同地走向了它。

晚點(diǎn)：如果大語(yǔ)言模型的成功是定義了 “預(yù)測(cè)下一個(gè) token” 這個(gè)目標(biāo)。那么在具身智能領(lǐng)域，好的訓(xùn)練目標(biāo)是什么？

陳亦倫：這是一個(gè)特別好的問題。自動(dòng)駕駛領(lǐng)域?qū)呱碇悄苡袃蓚€(gè)非常棒的啟發(fā)：一是 2020 年特斯拉 AI Day 上提出的 BEV（鳥瞰視野），本質(zhì)就是一層空間重建?，F(xiàn)在有很多人通過 VLA 做端到端，但再怎么引入語(yǔ)言，也逃不掉空間重建。

其實(shí)從更本質(zhì)的角度去想，什么表達(dá)是更好的？最經(jīng)典的物理表達(dá)就是最好的。你可以用圖像去理解世界，每個(gè)像素都是一個(gè)色彩值，這樣從不同角度去看一個(gè)物理實(shí)體，會(huì)有多種組合，但其實(shí)它還是同一個(gè)實(shí)體，它有時(shí)空概念，占據(jù)了一定的時(shí)間、空間；然后當(dāng)它運(yùn)動(dòng)，它有力學(xué)的概念，力學(xué)會(huì)指引它下一刻變成什么狀態(tài)。這種物理表達(dá)遠(yuǎn)比 RGB 要精簡(jiǎn)得多，因?yàn)樗举|(zhì)。如果能讓神經(jīng)網(wǎng)絡(luò)學(xué)到這些物理的東西，很多任務(wù)都會(huì)變得非常容易。

這（空間重建）是 Physical AI（物理 AI）獨(dú)有的，跟大語(yǔ)言模型沒關(guān)系。

然后第二類要訓(xùn)練的目標(biāo)是和世界的交互。這一點(diǎn)機(jī)器人比自動(dòng)駕駛難，因?yàn)樽詣?dòng)駕駛是一個(gè)不碰撞系統(tǒng)，而機(jī)器人是一個(gè)接觸物體的系統(tǒng)，它會(huì)對(duì)操作對(duì)象施加力，比如操作布料、線束等柔性物體就很難。

晚點(diǎn)：所以很多具身智能公司會(huì)用疊衣服、團(tuán)襪子、整理餐巾紙來(lái)證明自己的技術(shù)實(shí)力，你們也展示了刺繡。

陳亦倫：是的。如果只是把剛性物體，比如金屬零件整齊地抓取、放置，這早解決了。這一代機(jī)器人的使命就是要完成上一代技術(shù)做不了的任務(wù)。

它石機(jī)器人展示刺繡它石 Logo。

晚點(diǎn)：總結(jié)一下，你認(rèn)為具身的兩個(gè)重要訓(xùn)練目標(biāo)是空間重建和與世界的交互。那如果真做到了這些，會(huì)看到具身領(lǐng)域像大語(yǔ)言模型那樣出現(xiàn)何種智能涌現(xiàn)？

陳亦倫：涌現(xiàn)的本質(zhì)是內(nèi)插。大語(yǔ)言模型看起來(lái)聰明，是因?yàn)槊鎸?duì)一個(gè) prompt，它在海量數(shù)據(jù)中回溯到了相似的片段并生成了新組合，并不是 “真的懂了”。具身智能現(xiàn)在也一樣，但已能展現(xiàn)驚人的效果。

晚點(diǎn)：表面的 “涌現(xiàn)” 并不是真的泛化？

陳亦倫：這套方法論是泛化的。雖然預(yù)訓(xùn)練本身不是讓模型 “真的懂和理解”，但可以通過補(bǔ)充數(shù)據(jù)增強(qiáng)一個(gè)垂直領(lǐng)域的能力。比如大語(yǔ)言模型的一個(gè)落地方向是 coding，那就要給它各種代碼的數(shù)據(jù)。FSD 也是一個(gè)例子，它在美國(guó)跑得很好，但到了中國(guó)、日本等其他地區(qū)不能馬上開得很好，但可以通過擴(kuò)展相對(duì)少的本地?cái)?shù)據(jù)提升表現(xiàn)。

機(jī)器人也是同理，當(dāng)基座模型的能力越來(lái)越強(qiáng)，就可以通過補(bǔ)充特定任務(wù)的數(shù)據(jù)來(lái)適應(yīng)多樣的任務(wù)。這個(gè)部署時(shí)補(bǔ)充的數(shù)據(jù)量不需要那么大。

晚點(diǎn)：這套方法也許能實(shí)現(xiàn)一些場(chǎng)景的商業(yè)應(yīng)用，但它還是不能像人那樣快速學(xué)習(xí)新任務(wù)。

陳亦倫：你說(shuō)的對(duì)，現(xiàn)在這套方法還是相對(duì) heavy（重），本質(zhì)是瘋狂的數(shù)據(jù)生成器和數(shù)據(jù)模擬器。而人會(huì)主動(dòng)靠自己的一些先驗(yàn)判斷高效地找到需要的數(shù)據(jù)，并吸收和學(xué)習(xí)。比如 Ilya 最近分享過，人依靠某種機(jī)制，可以在開始一個(gè)任務(wù)之前或做到中途時(shí)就想象結(jié)果、獲得反饋，這可能通過情緒起作用的，比如我們開始一件事之前，往往就有畏懼或興奮，而機(jī)器的強(qiáng)化學(xué)習(xí)不是這樣，它要遍歷所有可能的解，在完成一個(gè)任務(wù)后，才能得到 reward。（注：Ilya 是 OpenAI 前首席科學(xué)家和 Safe Superintelligence 的創(chuàng)始人，2025 年 11 月，Ilya 接受 Dwarkesh 訪談時(shí)提及了這個(gè)想法。）

所以如果真能解決這個(gè)問題（像人那樣學(xué)習(xí)新任務(wù)）將是非常非常重大的影響力，讓 AI 學(xué)習(xí)效率翻很多倍。但在目前階段，大家找到能展現(xiàn)強(qiáng)大效果的東西，依然是這套數(shù)據(jù)生成和擬合方法。

已采集 10 萬(wàn)小時(shí)數(shù)據(jù)，明年數(shù)據(jù)量會(huì)再翻數(shù)倍

晚點(diǎn)：來(lái)講講它石是具體怎么做數(shù)據(jù)和模型的吧。你們發(fā)布的 “Human-centric”（以人為中心）數(shù)據(jù)引擎，是一對(duì)輕量化的手套加第一視角攝像機(jī)構(gòu)成的采集設(shè)備，讓人戴著它們?nèi)スぷ?。為什么想到這種方法？

陳亦倫：我是把數(shù)據(jù)問題想明白才創(chuàng)業(yè)的。2024 年的第一份 BP（商業(yè)計(jì)劃書）里就寫了現(xiàn)在的思路，但飽受質(zhì)疑。因?yàn)楫?dāng)時(shí)特斯拉 Optimus 和 Physical Intelligence（PI，一家美國(guó)具身智能創(chuàng)業(yè)公司）等都在用遙操作——即由人操控機(jī)器人采集全量數(shù)據(jù)。但它又貴又慢，很難達(dá)到具身數(shù)據(jù)的基礎(chǔ)規(guī)模。

它石自研數(shù)據(jù)采集套件 SenseHub，采集設(shè)備由手套（有五指手套和兩指手套兩個(gè)版本）、第一視角攝像機(jī)組成。

晚點(diǎn)：具身數(shù)據(jù)的基礎(chǔ)規(guī)模是多少？

陳亦倫：1000 萬(wàn)小時(shí)或更多。自動(dòng)駕駛系統(tǒng)要做到持續(xù)可用，需要約 100 萬(wàn)小時(shí)的數(shù)據(jù)；具身智能的復(fù)雜度更高，數(shù)據(jù)量也多一個(gè)數(shù)量級(jí)。

晚點(diǎn)：仿真或者從視頻數(shù)據(jù)里學(xué)習(xí)，是否也能低成本、大規(guī)模地獲取數(shù)據(jù)嗎？這也是一些公司的選擇，如銀河、Hillbot 都側(cè)重仿真數(shù)據(jù)。

陳亦倫：這都是我們過去踩過的坑。

先說(shuō)互聯(lián)網(wǎng)視頻數(shù)據(jù)。做自動(dòng)駕駛時(shí)，我們就扒過很多 Youtube 的行車視頻。但一是，它的量其實(shí)沒那么大，二是大量這類視頻是車在正常行駛，并不匹配我們要解決的駕駛問題，不能建立 “指令-動(dòng)作” 的映射。所以很多這個(gè)方向的團(tuán)隊(duì)后來(lái)也棄坑了。這在機(jī)器人上也是一樣的。

仿真能把圖像渲染得很逼真，可以解決感知，但對(duì)精細(xì)操作的用處不大。唯一的例外是 Locomotion（運(yùn)動(dòng)控制）仿真，因?yàn)樗恍枰P(guān)心復(fù)雜的環(huán)境。

晚點(diǎn)：所以除了數(shù)據(jù)量，想清楚什么類型的數(shù)據(jù)有用也很關(guān)鍵。

陳亦倫：對(duì)，數(shù)據(jù)在具身領(lǐng)域是第一性的，后面要做什么算法，也要匹配數(shù)據(jù)類型。

總體來(lái)說(shuō)，具身數(shù)據(jù)有兩種來(lái)源：一是從人身上來(lái)，一是從世界來(lái)。從人身上來(lái)，更直接、更快。而能記錄人的行為的數(shù)據(jù)，本質(zhì)就是傳感器數(shù)據(jù)，于是問題就變成了：應(yīng)該怎么設(shè)計(jì)傳感器，才能自然、低成本、大規(guī)模地拿到人的行為數(shù)據(jù)？而且這些數(shù)據(jù)應(yīng)該是人在真實(shí)場(chǎng)景里的真實(shí)動(dòng)作的數(shù)據(jù)。

晚點(diǎn)：遙操雖然貴，但它是真機(jī)數(shù)據(jù)，不也是真實(shí)場(chǎng)景、真實(shí)動(dòng)作嗎？

陳亦倫：其實(shí)遙操大部分情況下做不到真實(shí)場(chǎng)景，因?yàn)檫b操的機(jī)器人現(xiàn)在無(wú)法像人那樣靈活的工作，還會(huì)干擾別人干活，所以它很難進(jìn)到真實(shí)的工廠、咖啡館或家庭。

遙操的動(dòng)作也不夠真實(shí)，因?yàn)椴僮鲉T要一會(huì)兒做這類任務(wù)，一會(huì)兒做那類任務(wù)，并不能像這些場(chǎng)景的專業(yè)勞動(dòng)者那樣去工作。

晚點(diǎn)：你怎么看有公司做了大規(guī)模的數(shù)采工廠，生產(chǎn)大量機(jī)器人，然后用遙操來(lái)采集數(shù)據(jù)？

陳亦倫：當(dāng)年自動(dòng)駕駛，也有人花巨資修測(cè)試場(chǎng)，模擬各種道路環(huán)境，看起來(lái)像個(gè)小世界。但在這里瘋狂開車訓(xùn)練出來(lái)的神經(jīng)網(wǎng)絡(luò)并不能直接上路。

具身也一樣：如果一個(gè)機(jī)器人只在人為設(shè)計(jì)的環(huán)境里運(yùn)行，它脫離了這個(gè)環(huán)境就會(huì)出問題。

晚點(diǎn)：你們這套數(shù)據(jù)采集方法有什么缺陷嗎？

陳亦倫：我們這套采集方法效率更高、數(shù)據(jù)更真實(shí)、更容易規(guī)?；?，在架構(gòu)和功能設(shè)計(jì)上沒有發(fā)現(xiàn)缺陷，但是對(duì)于 AI 能力的要求更高。

晚點(diǎn)：它石現(xiàn)在實(shí)際的采集量級(jí)和增速如何？

陳亦倫：非?？?。我們從 2025 年 8、9 月開始大規(guī)模采集，目前已有約 10 萬(wàn)小時(shí)數(shù)據(jù)。我們用了很多方法壓縮成本，現(xiàn)在可以開始 scale 了，明年數(shù)據(jù)量會(huì)暴漲很多倍。

晚點(diǎn)：成本有多低？比遙操能低多少？

陳亦倫：至少低兩個(gè)數(shù)量級(jí)（即 1/100）。遙操作需要弄一堆昂貴的機(jī)器人放在那兒，動(dòng)作慢、成功率低，還要額外雇操作員花錢采數(shù)據(jù)。而我們這種方式可以跟場(chǎng)景方合作，讓勞動(dòng)者戴上手套工作，不干擾生產(chǎn)。我們最大的成本其實(shí)在算力上，以及要建立一套把原始數(shù)據(jù)變成訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需的數(shù)據(jù)的 pipeline（數(shù)據(jù)處理流程）。

超市工作人員佩戴它石自研數(shù)采設(shè)備理貨時(shí)獲得的數(shù)據(jù)。

晚點(diǎn)：通過它石這套可穿戴設(shè)備，可以采集到什么維度的數(shù)據(jù)？

陳亦倫：就是全信息地刻畫手的動(dòng)作，包括手在空間中的位姿，即位置和姿態(tài)；每個(gè)手指的位姿；和動(dòng)作時(shí)施加給對(duì)象的力。

晚點(diǎn)：不需要額外戴傳感器在手臂上采集臂的動(dòng)作嗎？

陳亦倫：不需要。我們追求的是盡量讓人無(wú)感的被動(dòng)采集，手套要輕、要無(wú)線。

晚點(diǎn)：位姿是靠同時(shí)戴著的第一視角的攝像機(jī)來(lái)獲取的嗎？

陳亦倫：不是簡(jiǎn)單靠視覺。比如人疊被子時(shí)，手是在被子里的，你看不到自己的手在哪兒，但也能完成工作?？傊?，我們有一系列的設(shè)計(jì)，這也是為什么我們要自己做硬件。

晚點(diǎn)：之前市面上沒有現(xiàn)成可用的手套采集設(shè)備嗎？

陳亦倫：機(jī)器人領(lǐng)域沒有。其他領(lǐng)域有一些看起來(lái)類似的，但都不是為具身智能設(shè)計(jì)的。比如 VR 操作手柄，主要依靠眼鏡上的攝像頭定位。但這種數(shù)據(jù)對(duì)具身來(lái)說(shuō)質(zhì)量不夠，它缺少深度信息，也無(wú)法在昏暗光源下工作。電影行業(yè)的動(dòng)捕手套則精度不夠。

晚點(diǎn)：Sunday Robotics 在 2025 年 11 月發(fā)布了 skill capture glove（技能捕捉手套），這和你們方法的異同是什么？

陳亦倫：首先做不做手套，涉及對(duì)機(jī)器人操作終態(tài)的設(shè)想。我是靈巧手的堅(jiān)定擁護(hù)者，我認(rèn)為終態(tài)的操作終端一定是靈巧手，所以要給他找一個(gè)匹配的傳感器，也就是手套。而且手套非常容易泛化，可以做各種任務(wù)、采集多樣的數(shù)據(jù)。

這個(gè)思路下，現(xiàn)在不同團(tuán)隊(duì)的實(shí)現(xiàn)程度不同，因?yàn)槭痔椎墓I(yè)設(shè)計(jì)很難。我們是做了能采集全量信息的五指手套。Sunday 是做了一個(gè)三指手套，這是一個(gè)自由度更低的降維版。更簡(jiǎn)單的做法是讓人拿著一個(gè)夾具去操作任務(wù)。

晚點(diǎn)：有投資人認(rèn)為，中國(guó)雖然具身智能公司很多，但沒什么引領(lǐng)性貢獻(xiàn)，比如 VLA 模型是 Google RT-2 開啟的，用可穿戴手套采集數(shù)據(jù)的做法也被認(rèn)為是 Sunday 等美國(guó)團(tuán)隊(duì)引領(lǐng)的。

陳亦倫：大家還是要對(duì)中國(guó)技術(shù)有信心。我有很多在美國(guó)從事機(jī)器人行業(yè)的朋友，他們現(xiàn)在看到中國(guó)的進(jìn)展壓力很大。

因?yàn)榫呱硎怯布?shù)據(jù)和算法間的緊密交織，你想做很好的模型，就得知道要哪些數(shù)據(jù)、用什么傳感器、怎么采集，將來(lái)要用在什么執(zhí)行器上。中國(guó)有強(qiáng)大的工業(yè)制造能力，也有這么多 AI 人才和工程師，可以更好整合這些要素，協(xié)同優(yōu)化。在具身智能時(shí)代，美國(guó)創(chuàng)業(yè)者不會(huì)是中國(guó)創(chuàng)業(yè)者的對(duì)手。

具身模型不會(huì)是 LLM 上長(zhǎng)出來(lái)的東西

晚點(diǎn)：你們的模型叫 AWE，AI World Engine，即 AI 世界引擎，聽起來(lái)它不是行業(yè)主流選擇的 VLA（視覺-語(yǔ)言-動(dòng)作）模型。

陳亦倫：對(duì)。AWE 首先追求的是對(duì)物理世界的深度表達(dá)。我們投入最多的算力去記錄時(shí)間、空間、力等物理量或者說(shuō) “世界信息”，而不是像 VLM 那樣做 “視網(wǎng)膜式” 的表達(dá)。這些世界信息還記錄機(jī)器人怎么跟物體交互，比如擠壓一個(gè)物體，它會(huì)怎么反饋。

第二是，為什么把它叫引擎？其實(shí)也可以說(shuō)是模型。但引擎是想強(qiáng)調(diào)，它是動(dòng)態(tài)演化的，當(dāng)機(jī)器人的 action 改變后，它能預(yù)測(cè)世界接下來(lái)的狀態(tài)，并推薦機(jī)器人下一步應(yīng)如何操作。

晚點(diǎn)：為什么不做更主流的 VLA？

陳亦倫：創(chuàng)業(yè)前我就想過，機(jī)器人行業(yè)是否值得擁有自己的基礎(chǔ)模型？如果認(rèn)為機(jī)器人模型只是在 VLM 多模態(tài)大模型上長(zhǎng)出一個(gè)解決動(dòng)作（action）的 “頭”，那機(jī)器人就只是其他行業(yè)的下游分支，這個(gè)行業(yè)就不能獨(dú)立存在。

晚點(diǎn)：目前的 VLA 的主流做法，簡(jiǎn)單說(shuō)，就是先用 LLM 得到 VLM（視覺-語(yǔ)言模型），再在 VLM 基礎(chǔ)上做 VLA。

陳亦倫：對(duì)，我非常不認(rèn)同這么做。目前的多模態(tài)模型大多是 “看圖說(shuō)話” 的問答數(shù)據(jù)支撐的。僅靠看圖說(shuō)話，不可能讓機(jī)器人知道在世界上如何做事。機(jī)器人領(lǐng)域一定會(huì)有一套自己的模型。

晚點(diǎn)：現(xiàn)在很多具身從業(yè)者會(huì)說(shuō)，具身智能還沒有找到自己的 “Scaling Law”，首先你怎么看這種評(píng)價(jià)？以及你覺得它什么時(shí)候會(huì)來(lái)？

陳亦倫：我覺得具身已經(jīng)在 scaling 了。大家一般看 scaling 有兩種判斷依據(jù)，一是性能是否已經(jīng)達(dá)到某個(gè)狀態(tài)，二是看增長(zhǎng)趨勢(shì)。如果看趨勢(shì)，毫無(wú)疑問現(xiàn)在就是 scaling 狀態(tài)，但明顯表現(xiàn)在模型性能能上，還需要時(shí)間。

Scaling Law 之所以啟動(dòng)比較慢，是因?yàn)榍懊嫣岬降模凑枕樞蚪?jīng)歷數(shù)據(jù)墻、算力墻還有跟環(huán)境的交互。在 25 年，具身行業(yè)都在認(rèn)真搞數(shù)據(jù)，到 27 年甚至 26 年，一定會(huì)有效果。

晚點(diǎn)：到時(shí)會(huì)有什么早期信號(hào)？

陳亦倫：行業(yè)從刷視頻 demo，轉(zhuǎn)向解決垂直領(lǐng)域的具體問題。整個(gè)行業(yè)的信心指數(shù)會(huì)不斷上升。為數(shù)不多的團(tuán)隊(duì)可以在一些具體場(chǎng)景上真的做出價(jià)值，比如有大客戶的真實(shí)采購(gòu)；行業(yè)平均上可以展示出更強(qiáng)的具身智能能力。

晚點(diǎn)：它石會(huì)重點(diǎn)落地的場(chǎng)景是什么？

陳亦倫：消費(fèi)級(jí)市場(chǎng)還需要時(shí)間。第一波我們會(huì)進(jìn)入工業(yè)制造，比如線束（Wire Harness）裝配。只要有電的地方就有線，汽車、家電、服務(wù)器里全是線。理線、插拔、裝配對(duì)傳統(tǒng)機(jī)器人來(lái)說(shuō)太難了，因?yàn)榫€束是立體的、柔性的，而這種高技術(shù)門檻的領(lǐng)域正是我們的機(jī)會(huì)。

晚點(diǎn)：最后一個(gè)問題，現(xiàn)在具身領(lǐng)域有這么多公司，如何判斷誰(shuí)是靠譜的？

陳亦倫：每個(gè)人可能都是靠譜的，關(guān)鍵看他有沒有想清楚自己要成為誰(shuí)。我們很明確自己要做什么，所以我們會(huì)按照正確的方式一直跑下去。

題圖來(lái)源：它石

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.