国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

對(duì)話它石陳亦倫:不做VLA 不仿真,一家具身智能公司的非主流判斷

0
分享至



不做 VLA;不做遙操,以可穿戴設(shè)備采真實(shí)數(shù)據(jù)。

文丨程曼祺

編輯丨宋瑋

2024 年 11 月,《晚點(diǎn) LatePost》曾獨(dú)家報(bào)道,華為車 BU 前首席科學(xué)家陳亦倫投身具身智能創(chuàng)業(yè)。

不久后,它石智航浮出水面——由陳亦倫和百度前自動(dòng)駕駛事業(yè)群負(fù)責(zé)人李震宇等聯(lián)合創(chuàng)立;成立不足半年,它石先后完成 1.2 億美元和 1.22 億美元的天使輪與天使 + 輪融資,創(chuàng)下中國(guó)具身智能領(lǐng)域天使輪融資紀(jì)錄,投資方包括藍(lán)馳、美團(tuán)、啟明、線性、高瓴、聯(lián)想創(chuàng)投等。

陳亦倫獲得了很多支持,在技術(shù)思考上卻 “離經(jīng)叛道”。用一種平實(shí)的口吻,陳亦倫分享了很多反主流的判斷。

Google RT-2 開啟的 VLA(視覺-語(yǔ)言-動(dòng)作)模型,是當(dāng)前具身模型的主流架構(gòu)。而它石則開發(fā)了 AWE(AI World Engine):

我們追求表達(dá)時(shí)間、空間、力和環(huán)境交互等物理量和 “世界信息”,而不是 VLA 那樣的 “視網(wǎng)膜信息”。

VLA 的主流做法是從 LLM(大語(yǔ)言模型)得到 VLM(視覺-語(yǔ)言模型),再在 VLM 基礎(chǔ)上訓(xùn) VLA。陳亦倫卻說(shuō):

我非常不認(rèn)同(這個(gè)路線)。具身一定會(huì)有自己的獨(dú)立模型,而不是在 VLM 上長(zhǎng)出一個(gè)動(dòng)作的 “頭”。否則,它也不會(huì)是一個(gè)獨(dú)立的行業(yè),只是 LLM 的下游分支。

數(shù)據(jù)是具身智能當(dāng)前的核心卡點(diǎn)。陳亦倫在創(chuàng)業(yè)之初也沒有做當(dāng)時(shí) Optimus、PI 等美國(guó)公司選擇的遙操作數(shù)據(jù)采集。他認(rèn)為那樣無(wú)法低成本、大規(guī)模獲得足夠的數(shù)據(jù)。它石自研了采集數(shù)據(jù)的可穿戴設(shè)備,讓勞動(dòng)者可以戴著手套和第一視角攝像頭干活,力求獲得真實(shí)場(chǎng)景里真實(shí)任務(wù)的數(shù)據(jù)。

敢和其他人不一樣,可能來(lái)自他最早嘗試自動(dòng)駕駛端到端的切身經(jīng)驗(yàn)。曾有業(yè)內(nèi)人士告訴我們,在華為期間曝光度不高的陳亦倫是華為智能駕駛研發(fā)團(tuán)隊(duì)的技術(shù) “靈魂人物”。

這也帶來(lái)疑問:智駕的技術(shù)的演進(jìn)過程,會(huì)在具身智能上押韻嗎?二者都屬于物理 AI 范疇,但大語(yǔ)言模型的帶來(lái)了全新的技術(shù)環(huán)境。

這個(gè)問題沒有現(xiàn)成回答,取決于不同從業(yè)者的不同 bet(押注)。陳亦倫講述了他的 bet。

從華為、清華到創(chuàng)立它石,端到端開啟通用機(jī)器人機(jī)會(huì)

晚點(diǎn):你在大疆和華為做過無(wú)人機(jī)與無(wú)人車,這都屬于機(jī)器人的分支,最早關(guān)注機(jī)器人是什么時(shí)候?

陳亦倫:上學(xué)時(shí)就開始了。我是物理競(jìng)賽保送清華的,但讀的是電子系。后來(lái)去美國(guó)讀機(jī)器學(xué)習(xí)博士時(shí),我也很羨慕做機(jī)械專業(yè)的室友,因?yàn)樗麄冏龅臇|西能動(dòng),我天生喜歡 “能動(dòng)” 的東西。

2007 年在美國(guó),我看到波士頓動(dòng)力用液壓驅(qū)動(dòng)的機(jī)械狗,它在冰面上摔倒后依然能保持平衡,非常震撼。博士畢業(yè)后,我沒有選擇 AI 領(lǐng)域最主流的路徑去一個(gè)互聯(lián)網(wǎng)大公司,而是去了一家非常有名的機(jī)電系統(tǒng)公司,在那里學(xué)會(huì)了如何做電機(jī)、伺服控制和液壓系統(tǒng)——因?yàn)楫?dāng)時(shí)我認(rèn)為機(jī)器人應(yīng)該是液壓驅(qū)動(dòng)的,我在第一家公司也帶過液壓伺服控制產(chǎn)品線。

所以我的職業(yè)生涯一直有一個(gè)信念:總有一天我要做出理想中的機(jī)器人。但作為學(xué)算法出身的人,我過去認(rèn)為技術(shù)還沒 Ready,只能寫出一些簡(jiǎn)單的程序,那不是我想要的機(jī)器人。

晚點(diǎn):何時(shí)發(fā)現(xiàn)技術(shù)條件更成熟了?

陳亦倫:2020-2021 年,我在華為第一次嘗試端到端系統(tǒng)時(shí)。那時(shí)我已經(jīng)在華為帶團(tuán)隊(duì)做了 2、3 年研發(fā),我們的自動(dòng)駕駛系統(tǒng)至少有 200 萬(wàn)行代碼。它雖然能工作,可以處理復(fù)雜的城市道路情況,但維護(hù)成本極高。

2020 年,我和丁文超博士(注:它石首席科學(xué)家,曾被華為 “天才少年” 計(jì)劃招募入自動(dòng)駕駛部)等同事想試一下:能不能訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),把這 200 萬(wàn)行代碼精簡(jiǎn)掉?最終我們用 3 萬(wàn)行代碼訓(xùn)練了一個(gè)網(wǎng)絡(luò),直接讓網(wǎng)絡(luò)去規(guī)劃無(wú)人車的軌跡。那就是最早的端到端自動(dòng)駕駛,只不過當(dāng)時(shí)我們做的是 “兩段式”(注:感知環(huán)節(jié)是一個(gè)端到端網(wǎng)絡(luò),規(guī)控環(huán)節(jié)是另一個(gè)端到端網(wǎng)絡(luò))。

晚點(diǎn):2020 年開始做端到端,是受到特斯拉 AI Day 等行業(yè)信號(hào)的啟發(fā)嗎?

陳亦倫:沒有,2020 年的特斯拉 AI Day 還沒講端到端,講的是在感知環(huán)節(jié)如何恢復(fù) 3D 環(huán)境(Vector Space),即 BEV(Bird's-Eye-View,鳥瞰視角)。對(duì)我們來(lái)說(shuō),感知是已知解,它是開放問題,有數(shù)據(jù)、有標(biāo)注就能做。

我最頭疼的是規(guī)控,這是一個(gè)閉環(huán) AI:你產(chǎn)生的每一個(gè)動(dòng)作都會(huì)影響下一刻的環(huán)境。比如你選擇 “加塞”,對(duì)方可能讓行,也可能加速搶行。這種閉環(huán) AI 怎么訓(xùn)練?當(dāng)時(shí)沒人有把握,但靠傳統(tǒng)規(guī)則方法一個(gè)個(gè)描述 corner case(極端情況),代碼已經(jīng)堆到了 200 萬(wàn)行,發(fā)現(xiàn)問題的速度已遠(yuǎn)超解決問題的速度。所以必須用新的方法。

晚點(diǎn):具體怎么探索端到端的?

陳亦倫:我們需要大規(guī)模采集人類駕駛數(shù)據(jù),這在之前還沒人做過。我們當(dāng)時(shí)調(diào)撥了約 100 輛車的車隊(duì),專門干這一件事。丁博(丁文超)每天在現(xiàn)場(chǎng)教司機(jī)開車,定義什么是 “好司機(jī)” 的行為。

起初沒看到顯著進(jìn)展,但當(dāng)數(shù)據(jù)積累到幾千小時(shí)后,你會(huì)發(fā)現(xiàn)網(wǎng)絡(luò)真的學(xué)到了東西,而且越來(lái)越厲害。我們選了一個(gè)極難的測(cè)試場(chǎng)景——一個(gè)人車混行、完全非結(jié)構(gòu)化的城中村,通過規(guī)則算法幾乎無(wú)法通過。我們大膽用神經(jīng)網(wǎng)絡(luò)去試,原則是 “后處理越少越好”。結(jié)果車非常流暢地穿行了過去。那一刻就是我的 “GPT Moment”,我意識(shí)到 AI 可以做 Planning(規(guī)劃)了。

晚點(diǎn):為什么這之后不久,你就離開華為,加入了清華大學(xué)智能產(chǎn)業(yè)研究院(清華 AIR)?當(dāng)時(shí)智能駕駛正處于上量和質(zhì)變的前夕。

陳亦倫:因?yàn)槲乙恢本拖胱鰴C(jī)器人,而端到端的成功讓我看到了機(jī)器人加速發(fā)展的時(shí)間點(diǎn)就要到了,但那時(shí)我還不知道具體怎么做,所以我選擇先回到學(xué)校,給自己一些研究的時(shí)間。

通用機(jī)器人的三道曙光和三道墻

晚點(diǎn):從加入清華到 2024 年底開始籌備它石,通用機(jī)器人的哪些變化讓你覺得創(chuàng)業(yè)時(shí)機(jī)到了?

陳亦倫:我看到了三道曙光。一是 Locomotion(運(yùn)動(dòng)控制)的解鎖:2020 年左右,ETH(蘇黎世聯(lián)邦理工學(xué)院)走通了一條路:用強(qiáng)化學(xué)習(xí)(RL)來(lái)解決機(jī)器狗的控制問題,而以前用的是非常復(fù)雜的 WBC(Whole-Body Control,全身控制),機(jī)器狗動(dòng)作很呆板。

這其中又有兩個(gè)核心模塊:一是高并發(fā)的仿真器(Simulator),仿真的計(jì)算基礎(chǔ)從 CPU 到 GPU 的轉(zhuǎn)變大幅增加了并發(fā)能力,能獲得很多數(shù)據(jù);二是縮小 “Sim-to-Real Gap”,即數(shù)字世界到到真實(shí)世界的差距。像宇樹這樣的硬件和運(yùn)控做得很好的公司,核心能力就是用各種方法縮小這個(gè) gap,所以現(xiàn)在我們能看到機(jī)器人流暢地運(yùn)動(dòng)、跳舞。

第二道曙光是以 GPT 為代表的大語(yǔ)言模型,它提供了機(jī)器人領(lǐng)域以前最難的任務(wù)規(guī)劃能力。自動(dòng)駕駛的任務(wù)規(guī)劃相對(duì)簡(jiǎn)單,就是從 A 到 B,而且有地圖這種現(xiàn)成的導(dǎo)航數(shù)據(jù);但機(jī)器人任務(wù)復(fù)雜得多,而且進(jìn)家、進(jìn)工廠都缺乏數(shù)據(jù),而 GPT 則非常擅長(zhǎng)任務(wù)規(guī)劃。

三就是我自己驗(yàn)證過的端到端。本質(zhì)上,所有機(jī)器人任務(wù)的邏輯都是輸入傳感器信息和指令、輸出動(dòng)作。但傳感器數(shù)據(jù)極高維,指令又極低維,過去堆疊二者的方式就是靠寫規(guī)則。規(guī)則要窮盡自動(dòng)駕駛的 corner case 已經(jīng)很難了,在機(jī)器人上更是不可能,所以端到端能奏效這個(gè)認(rèn)知非常重要。

晚點(diǎn):自動(dòng)駕駛和具身智能等物理 AI 領(lǐng)域有幾個(gè)經(jīng)常一起出現(xiàn)的概念:端到端、VLA、世界模型,你怎么理解和區(qū)分它們?

陳亦倫:端到端的本質(zhì)是盡量用神經(jīng)網(wǎng)絡(luò)解決所有問題,至于底層是模仿學(xué)習(xí)還是強(qiáng)化學(xué)習(xí),都是可選的方法。

VLA(Vision-Language-Action 視覺語(yǔ)言動(dòng)作模型) 則是一種神經(jīng)網(wǎng)絡(luò),它輸入視覺和語(yǔ)言信息、輸出機(jī)器人的動(dòng)作。至于中間是怎么訓(xùn)的,現(xiàn)在也有不同理解。

世界模型的定義就更多了,但從信息論角度講很簡(jiǎn)單,就是輸入此時(shí)的狀態(tài),生成下一個(gè)狀態(tài)。這個(gè)狀態(tài)可以用 3D 信息、視頻或物理交互的變化來(lái)表達(dá),所以現(xiàn)在說(shuō)起 “世界模型”,有人說(shuō)的是 3D 生成、有人說(shuō)的是視頻生成、有人說(shuō)的是理解物理交互。它的用途也千奇百怪,有的是給元宇宙或游戲做的,有的想給具身和機(jī)器人用。

晚點(diǎn):雖然你認(rèn)為一些條件更成熟了,但整個(gè)具身的進(jìn)度遠(yuǎn)落后于大語(yǔ)言模型,瓶頸是什么?

陳亦倫:我認(rèn)為 AI 要解決一個(gè)大型復(fù)雜問題,需要跨越三道墻。

第一道是數(shù)據(jù)墻。只有足夠的數(shù)據(jù)量才能支撐足夠復(fù)雜的網(wǎng)絡(luò)。大語(yǔ)言模型在這一點(diǎn)上是被祝福的,因?yàn)榛ヂ?lián)網(wǎng)上已經(jīng)有海量語(yǔ)料,而要獲得具身智能所需的數(shù)據(jù)則很難、很貴。

第二道是算力墻。為什么不是算法呢?因?yàn)樵綇?fù)雜的系統(tǒng),往往算法結(jié)構(gòu)越簡(jiǎn)單,這才能經(jīng)受住海量數(shù)據(jù)。所以進(jìn)入預(yù)訓(xùn)練 scaling(規(guī)?;╇A段后,差異不在算法,而是算力比拼。

接下來(lái),當(dāng)擴(kuò)大算力帶來(lái)的邊際效應(yīng)遞減或算力本身不夠用之后,就會(huì)遇到第三道墻,進(jìn)入后訓(xùn)練。這時(shí)不能再靠堆資源,而是要針對(duì)具體問題找到精妙的解法,這會(huì)是一個(gè)很有創(chuàng)造力的階段。

現(xiàn)在,大語(yǔ)言模型和自動(dòng)駕駛都已經(jīng)過了第二階段,而具身智能還在第一道墻下,就是數(shù)據(jù)。具身智能目前的核心痛點(diǎn)就是如何低成本、大規(guī)模地獲得高質(zhì)量數(shù)據(jù)。一旦數(shù)據(jù)問題解決,行業(yè)會(huì)收到一波巨大的紅利,智能能力會(huì)突飛猛進(jìn)。

重劍無(wú)鋒、大巧不工,越復(fù)雜的任務(wù)、越海量的數(shù)據(jù),算法結(jié)構(gòu)反而要越簡(jiǎn)單

晚點(diǎn):聽起來(lái)你并不擔(dān)心具身智能的算法和模型該怎么設(shè)計(jì)?

陳亦倫:首先,缺乏數(shù)據(jù)時(shí),你對(duì)算法是無(wú)能為力的。同時(shí),神經(jīng)網(wǎng)絡(luò)的算法和傳統(tǒng)算法也不太一樣。傳統(tǒng)算法要仔細(xì)推敲怎么設(shè)計(jì),而神經(jīng)網(wǎng)絡(luò)本質(zhì)是一個(gè)函數(shù),最重要的是定義輸入和輸出,其他很多設(shè)計(jì)不在算法本身,而在算法之外:比如如何最大化利用算力,如何盡可能降低獲取數(shù)據(jù)的成本。

晚點(diǎn):但是我們看大語(yǔ)言模型的發(fā)展,互聯(lián)網(wǎng)海量數(shù)據(jù)早就存在,而直到 Transformer 這種模型架構(gòu)出現(xiàn),后來(lái)又從 BERT 發(fā)展到 GPT,整個(gè)領(lǐng)域才有大的轉(zhuǎn)折。(注:BERT 和 GPT 都是 Transformer 架構(gòu)的大語(yǔ)言模型,BERT 有編碼器和解碼器,GPT 結(jié)構(gòu)更簡(jiǎn)單,只有解碼器。)

陳亦倫:我認(rèn)為 GPT 最偉大的不是架構(gòu)本身,而是想出了 next-token-prediction(預(yù)測(cè)下一個(gè)詞)這個(gè)訓(xùn)練任務(wù)。

其實(shí)很早時(shí),在 OpenAI 和特斯拉都工作過的 Andrej Karpathy 就寫過一篇著名的技術(shù)博客,叫《循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的驚人效果》(The Unreasonable Effectiveness of Recurrent Neural Networks,發(fā)表于 2015 年)。他展示了讓一個(gè)不大的 RNN 模型不停預(yù)測(cè)下一個(gè) character(字符),它竟能寫詩(shī)、寫代碼。我那時(shí)看到的第一反應(yīng)就是:能不能把這套邏輯用在自動(dòng)駕駛上?這種通過簡(jiǎn)單任務(wù)訓(xùn)練出復(fù)雜能力的想法確實(shí)了不起。

晚點(diǎn):當(dāng)時(shí)都還沒有 Transformer。(注:Transformer 最早在 2017 年被提出。)

陳亦倫:對(duì),所以關(guān)于模型架構(gòu),還是我前面說(shuō)的——重劍無(wú)鋒、大巧不工,越復(fù)雜的任務(wù)、越海量的數(shù)據(jù),網(wǎng)絡(luò)結(jié)構(gòu)反而要越簡(jiǎn)單、越返璞歸真。

GPT 就是這樣,在小數(shù)據(jù)集上沒有明顯優(yōu)勢(shì),但有了更大的數(shù)據(jù)后,大家都不約而同地走向了它。

晚點(diǎn):如果大語(yǔ)言模型的成功是定義了 “預(yù)測(cè)下一個(gè) token” 這個(gè)目標(biāo)。那么在具身智能領(lǐng)域,好的訓(xùn)練目標(biāo)是什么?

陳亦倫:這是一個(gè)特別好的問題。自動(dòng)駕駛領(lǐng)域?qū)呱碇悄苡袃蓚€(gè)非常棒的啟發(fā):一是 2020 年特斯拉 AI Day 上提出的 BEV(鳥瞰視野),本質(zhì)就是一層空間重建?,F(xiàn)在有很多人通過 VLA 做端到端,但再怎么引入語(yǔ)言,也逃不掉空間重建。

其實(shí)從更本質(zhì)的角度去想,什么表達(dá)是更好的?最經(jīng)典的物理表達(dá)就是最好的。你可以用圖像去理解世界,每個(gè)像素都是一個(gè)色彩值,這樣從不同角度去看一個(gè)物理實(shí)體,會(huì)有多種組合,但其實(shí)它還是同一個(gè)實(shí)體,它有時(shí)空概念,占據(jù)了一定的時(shí)間、空間;然后當(dāng)它運(yùn)動(dòng),它有力學(xué)的概念,力學(xué)會(huì)指引它下一刻變成什么狀態(tài)。這種物理表達(dá)遠(yuǎn)比 RGB 要精簡(jiǎn)得多,因?yàn)樗举|(zhì)。如果能讓神經(jīng)網(wǎng)絡(luò)學(xué)到這些物理的東西,很多任務(wù)都會(huì)變得非常容易。

這(空間重建)是 Physical AI(物理 AI)獨(dú)有的,跟大語(yǔ)言模型沒關(guān)系。

然后第二類要訓(xùn)練的目標(biāo)是和世界的交互。這一點(diǎn)機(jī)器人比自動(dòng)駕駛難,因?yàn)樽詣?dòng)駕駛是一個(gè)不碰撞系統(tǒng),而機(jī)器人是一個(gè)接觸物體的系統(tǒng),它會(huì)對(duì)操作對(duì)象施加力,比如操作布料、線束等柔性物體就很難。

晚點(diǎn):所以很多具身智能公司會(huì)用疊衣服、團(tuán)襪子、整理餐巾紙來(lái)證明自己的技術(shù)實(shí)力,你們也展示了刺繡。

陳亦倫:是的。如果只是把剛性物體,比如金屬零件整齊地抓取、放置,這早解決了。這一代機(jī)器人的使命就是要完成上一代技術(shù)做不了的任務(wù)。



它石機(jī)器人展示刺繡它石 Logo。

晚點(diǎn):總結(jié)一下,你認(rèn)為具身的兩個(gè)重要訓(xùn)練目標(biāo)是空間重建和與世界的交互。那如果真做到了這些,會(huì)看到具身領(lǐng)域像大語(yǔ)言模型那樣出現(xiàn)何種智能涌現(xiàn)?

陳亦倫:涌現(xiàn)的本質(zhì)是內(nèi)插。大語(yǔ)言模型看起來(lái)聰明,是因?yàn)槊鎸?duì)一個(gè) prompt,它在海量數(shù)據(jù)中回溯到了相似的片段并生成了新組合,并不是 “真的懂了”。具身智能現(xiàn)在也一樣,但已能展現(xiàn)驚人的效果。

晚點(diǎn):表面的 “涌現(xiàn)” 并不是真的泛化?

陳亦倫:這套方法論是泛化的。雖然預(yù)訓(xùn)練本身不是讓模型 “真的懂和理解”,但可以通過補(bǔ)充數(shù)據(jù)增強(qiáng)一個(gè)垂直領(lǐng)域的能力。比如大語(yǔ)言模型的一個(gè)落地方向是 coding,那就要給它各種代碼的數(shù)據(jù)。FSD 也是一個(gè)例子,它在美國(guó)跑得很好,但到了中國(guó)、日本等其他地區(qū)不能馬上開得很好,但可以通過擴(kuò)展相對(duì)少的本地?cái)?shù)據(jù)提升表現(xiàn)。

機(jī)器人也是同理,當(dāng)基座模型的能力越來(lái)越強(qiáng),就可以通過補(bǔ)充特定任務(wù)的數(shù)據(jù)來(lái)適應(yīng)多樣的任務(wù)。這個(gè)部署時(shí)補(bǔ)充的數(shù)據(jù)量不需要那么大。

晚點(diǎn):這套方法也許能實(shí)現(xiàn)一些場(chǎng)景的商業(yè)應(yīng)用,但它還是不能像人那樣快速學(xué)習(xí)新任務(wù)。

陳亦倫:你說(shuō)的對(duì),現(xiàn)在這套方法還是相對(duì) heavy(重),本質(zhì)是瘋狂的數(shù)據(jù)生成器和數(shù)據(jù)模擬器。而人會(huì)主動(dòng)靠自己的一些先驗(yàn)判斷高效地找到需要的數(shù)據(jù),并吸收和學(xué)習(xí)。比如 Ilya 最近分享過,人依靠某種機(jī)制,可以在開始一個(gè)任務(wù)之前或做到中途時(shí)就想象結(jié)果、獲得反饋,這可能通過情緒起作用的,比如我們開始一件事之前,往往就有畏懼或興奮,而機(jī)器的強(qiáng)化學(xué)習(xí)不是這樣,它要遍歷所有可能的解,在完成一個(gè)任務(wù)后,才能得到 reward。(注:Ilya 是 OpenAI 前首席科學(xué)家和 Safe Superintelligence 的創(chuàng)始人,2025 年 11 月,Ilya 接受 Dwarkesh 訪談時(shí)提及了這個(gè)想法。)

所以如果真能解決這個(gè)問題(像人那樣學(xué)習(xí)新任務(wù))將是非常非常重大的影響力,讓 AI 學(xué)習(xí)效率翻很多倍。但在目前階段,大家找到能展現(xiàn)強(qiáng)大效果的東西,依然是這套數(shù)據(jù)生成和擬合方法。

已采集 10 萬(wàn)小時(shí)數(shù)據(jù),明年數(shù)據(jù)量會(huì)再翻數(shù)倍

晚點(diǎn):來(lái)講講它石是具體怎么做數(shù)據(jù)和模型的吧。你們發(fā)布的 “Human-centric”(以人為中心)數(shù)據(jù)引擎,是一對(duì)輕量化的手套加第一視角攝像機(jī)構(gòu)成的采集設(shè)備,讓人戴著它們?nèi)スぷ?。為什么想到這種方法?

陳亦倫:我是把數(shù)據(jù)問題想明白才創(chuàng)業(yè)的。2024 年的第一份 BP(商業(yè)計(jì)劃書)里就寫了現(xiàn)在的思路,但飽受質(zhì)疑。因?yàn)楫?dāng)時(shí)特斯拉 Optimus 和 Physical Intelligence(PI,一家美國(guó)具身智能創(chuàng)業(yè)公司) 等都在用遙操作——即由人操控機(jī)器人采集全量數(shù)據(jù)。但它又貴又慢,很難達(dá)到具身數(shù)據(jù)的基礎(chǔ)規(guī)模。



它石自研數(shù)據(jù)采集套件 SenseHub,采集設(shè)備由手套(有五指手套和兩指手套兩個(gè)版本)、第一視角攝像機(jī)組成。

晚點(diǎn):具身數(shù)據(jù)的基礎(chǔ)規(guī)模是多少?

陳亦倫:1000 萬(wàn)小時(shí)或更多。自動(dòng)駕駛系統(tǒng)要做到持續(xù)可用,需要約 100 萬(wàn)小時(shí)的數(shù)據(jù);具身智能的復(fù)雜度更高,數(shù)據(jù)量也多一個(gè)數(shù)量級(jí)。

晚點(diǎn):仿真或者從視頻數(shù)據(jù)里學(xué)習(xí),是否也能低成本、大規(guī)模地獲取數(shù)據(jù)嗎?這也是一些公司的選擇,如銀河、Hillbot 都側(cè)重仿真數(shù)據(jù)。

陳亦倫:這都是我們過去踩過的坑。

先說(shuō)互聯(lián)網(wǎng)視頻數(shù)據(jù)。做自動(dòng)駕駛時(shí),我們就扒過很多 Youtube 的行車視頻。但一是,它的量其實(shí)沒那么大,二是大量這類視頻是車在正常行駛,并不匹配我們要解決的駕駛問題,不能建立 “指令-動(dòng)作” 的映射。所以很多這個(gè)方向的團(tuán)隊(duì)后來(lái)也棄坑了。這在機(jī)器人上也是一樣的。

仿真能把圖像渲染得很逼真,可以解決感知,但對(duì)精細(xì)操作的用處不大。唯一的例外是 Locomotion(運(yùn)動(dòng)控制) 仿真,因?yàn)樗恍枰P(guān)心復(fù)雜的環(huán)境。

晚點(diǎn):所以除了數(shù)據(jù)量,想清楚什么類型的數(shù)據(jù)有用也很關(guān)鍵。

陳亦倫:對(duì),數(shù)據(jù)在具身領(lǐng)域是第一性的,后面要做什么算法,也要匹配數(shù)據(jù)類型。

總體來(lái)說(shuō),具身數(shù)據(jù)有兩種來(lái)源:一是從人身上來(lái),一是從世界來(lái)。從人身上來(lái),更直接、更快。而能記錄人的行為的數(shù)據(jù),本質(zhì)就是傳感器數(shù)據(jù),于是問題就變成了:應(yīng)該怎么設(shè)計(jì)傳感器,才能自然、低成本、大規(guī)模地拿到人的行為數(shù)據(jù)?而且這些數(shù)據(jù)應(yīng)該是人在真實(shí)場(chǎng)景里的真實(shí)動(dòng)作的數(shù)據(jù)。

晚點(diǎn):遙操雖然貴,但它是真機(jī)數(shù)據(jù),不也是真實(shí)場(chǎng)景、真實(shí)動(dòng)作嗎?

陳亦倫:其實(shí)遙操大部分情況下做不到真實(shí)場(chǎng)景,因?yàn)檫b操的機(jī)器人現(xiàn)在無(wú)法像人那樣靈活的工作,還會(huì)干擾別人干活,所以它很難進(jìn)到真實(shí)的工廠、咖啡館或家庭。

遙操的動(dòng)作也不夠真實(shí),因?yàn)椴僮鲉T要一會(huì)兒做這類任務(wù),一會(huì)兒做那類任務(wù),并不能像這些場(chǎng)景的專業(yè)勞動(dòng)者那樣去工作。

晚點(diǎn):你怎么看有公司做了大規(guī)模的數(shù)采工廠,生產(chǎn)大量機(jī)器人,然后用遙操來(lái)采集數(shù)據(jù)?

陳亦倫:當(dāng)年自動(dòng)駕駛,也有人花巨資修測(cè)試場(chǎng),模擬各種道路環(huán)境,看起來(lái)像個(gè)小世界。但在這里瘋狂開車訓(xùn)練出來(lái)的神經(jīng)網(wǎng)絡(luò)并不能直接上路。

具身也一樣:如果一個(gè)機(jī)器人只在人為設(shè)計(jì)的環(huán)境里運(yùn)行,它脫離了這個(gè)環(huán)境就會(huì)出問題。

晚點(diǎn):你們這套數(shù)據(jù)采集方法有什么缺陷嗎?

陳亦倫:我們這套采集方法效率更高、數(shù)據(jù)更真實(shí)、更容易規(guī)?;?,在架構(gòu)和功能設(shè)計(jì)上沒有發(fā)現(xiàn)缺陷,但是對(duì)于 AI 能力的要求更高。

晚點(diǎn):它石現(xiàn)在實(shí)際的采集量級(jí)和增速如何?

陳亦倫:非???。我們從 2025 年 8、9 月開始大規(guī)模采集,目前已有約 10 萬(wàn)小時(shí)數(shù)據(jù)。我們用了很多方法壓縮成本,現(xiàn)在可以開始 scale 了,明年數(shù)據(jù)量會(huì)暴漲很多倍。

晚點(diǎn):成本有多低?比遙操能低多少?

陳亦倫:至少低兩個(gè)數(shù)量級(jí)(即 1/100)。遙操作需要弄一堆昂貴的機(jī)器人放在那兒,動(dòng)作慢、成功率低,還要額外雇操作員花錢采數(shù)據(jù)。而我們這種方式可以跟場(chǎng)景方合作,讓勞動(dòng)者戴上手套工作,不干擾生產(chǎn)。我們最大的成本其實(shí)在算力上,以及要建立一套把原始數(shù)據(jù)變成訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需的數(shù)據(jù)的 pipeline(數(shù)據(jù)處理流程)。



超市工作人員佩戴它石自研數(shù)采設(shè)備理貨時(shí)獲得的數(shù)據(jù)。

晚點(diǎn):通過它石這套可穿戴設(shè)備,可以采集到什么維度的數(shù)據(jù)?

陳亦倫:就是全信息地刻畫手的動(dòng)作,包括手在空間中的位姿,即位置和姿態(tài);每個(gè)手指的位姿;和動(dòng)作時(shí)施加給對(duì)象的力。

晚點(diǎn):不需要額外戴傳感器在手臂上采集臂的動(dòng)作嗎?

陳亦倫:不需要。我們追求的是盡量讓人無(wú)感的被動(dòng)采集,手套要輕、要無(wú)線。

晚點(diǎn):位姿是靠同時(shí)戴著的第一視角的攝像機(jī)來(lái)獲取的嗎?

陳亦倫:不是簡(jiǎn)單靠視覺。比如人疊被子時(shí),手是在被子里的,你看不到自己的手在哪兒,但也能完成工作??傊?,我們有一系列的設(shè)計(jì),這也是為什么我們要自己做硬件。

晚點(diǎn):之前市面上沒有現(xiàn)成可用的手套采集設(shè)備嗎?

陳亦倫:機(jī)器人領(lǐng)域沒有。其他領(lǐng)域有一些看起來(lái)類似的,但都不是為具身智能設(shè)計(jì)的。比如 VR 操作手柄,主要依靠眼鏡上的攝像頭定位。但這種數(shù)據(jù)對(duì)具身來(lái)說(shuō)質(zhì)量不夠,它缺少深度信息,也無(wú)法在昏暗光源下工作。電影行業(yè)的動(dòng)捕手套則精度不夠。

晚點(diǎn):Sunday Robotics 在 2025 年 11 月發(fā)布了 skill capture glove(技能捕捉手套),這和你們方法的異同是什么?

陳亦倫:首先做不做手套,涉及對(duì)機(jī)器人操作終態(tài)的設(shè)想。我是靈巧手的堅(jiān)定擁護(hù)者,我認(rèn)為終態(tài)的操作終端一定是靈巧手,所以要給他找一個(gè)匹配的傳感器,也就是手套。而且手套非常容易泛化,可以做各種任務(wù)、采集多樣的數(shù)據(jù)。

這個(gè)思路下,現(xiàn)在不同團(tuán)隊(duì)的實(shí)現(xiàn)程度不同,因?yàn)槭痔椎墓I(yè)設(shè)計(jì)很難。我們是做了能采集全量信息的五指手套。Sunday 是做了一個(gè)三指手套,這是一個(gè)自由度更低的降維版。更簡(jiǎn)單的做法是讓人拿著一個(gè)夾具去操作任務(wù)。

晚點(diǎn):有投資人認(rèn)為,中國(guó)雖然具身智能公司很多,但沒什么引領(lǐng)性貢獻(xiàn),比如 VLA 模型是 Google RT-2 開啟的,用可穿戴手套采集數(shù)據(jù)的做法也被認(rèn)為是 Sunday 等美國(guó)團(tuán)隊(duì)引領(lǐng)的。

陳亦倫:大家還是要對(duì)中國(guó)技術(shù)有信心。我有很多在美國(guó)從事機(jī)器人行業(yè)的朋友,他們現(xiàn)在看到中國(guó)的進(jìn)展壓力很大。

因?yàn)榫呱硎怯布?shù)據(jù)和算法間的緊密交織,你想做很好的模型,就得知道要哪些數(shù)據(jù)、用什么傳感器、怎么采集,將來(lái)要用在什么執(zhí)行器上。中國(guó)有強(qiáng)大的工業(yè)制造能力,也有這么多 AI 人才和工程師,可以更好整合這些要素,協(xié)同優(yōu)化。在具身智能時(shí)代,美國(guó)創(chuàng)業(yè)者不會(huì)是中國(guó)創(chuàng)業(yè)者的對(duì)手。

具身模型不會(huì)是 LLM 上長(zhǎng)出來(lái)的東西

晚點(diǎn):你們的模型叫 AWE,AI World Engine,即 AI 世界引擎,聽起來(lái)它不是行業(yè)主流選擇的 VLA(視覺-語(yǔ)言-動(dòng)作)模型。

陳亦倫:對(duì)。AWE 首先追求的是對(duì)物理世界的深度表達(dá)。我們投入最多的算力去記錄時(shí)間、空間、力等物理量或者說(shuō) “世界信息”,而不是像 VLM 那樣做 “視網(wǎng)膜式” 的表達(dá)。這些世界信息還記錄機(jī)器人怎么跟物體交互,比如擠壓一個(gè)物體,它會(huì)怎么反饋。

第二是,為什么把它叫引擎?其實(shí)也可以說(shuō)是模型。但引擎是想強(qiáng)調(diào),它是動(dòng)態(tài)演化的,當(dāng)機(jī)器人的 action 改變后,它能預(yù)測(cè)世界接下來(lái)的狀態(tài),并推薦機(jī)器人下一步應(yīng)如何操作。

晚點(diǎn):為什么不做更主流的 VLA?

陳亦倫:創(chuàng)業(yè)前我就想過,機(jī)器人行業(yè)是否值得擁有自己的基礎(chǔ)模型?如果認(rèn)為機(jī)器人模型只是在 VLM 多模態(tài)大模型上長(zhǎng)出一個(gè)解決動(dòng)作(action)的 “頭”,那機(jī)器人就只是其他行業(yè)的下游分支,這個(gè)行業(yè)就不能獨(dú)立存在。

晚點(diǎn):目前的 VLA 的主流做法,簡(jiǎn)單說(shuō),就是先用 LLM 得到 VLM(視覺-語(yǔ)言模型),再在 VLM 基礎(chǔ)上做 VLA。

陳亦倫:對(duì),我非常不認(rèn)同這么做。目前的多模態(tài)模型大多是 “看圖說(shuō)話” 的問答數(shù)據(jù)支撐的。僅靠看圖說(shuō)話,不可能讓機(jī)器人知道在世界上如何做事。機(jī)器人領(lǐng)域一定會(huì)有一套自己的模型。

晚點(diǎn):現(xiàn)在很多具身從業(yè)者會(huì)說(shuō),具身智能還沒有找到自己的 “Scaling Law”,首先你怎么看這種評(píng)價(jià)?以及你覺得它什么時(shí)候會(huì)來(lái)?

陳亦倫:我覺得具身已經(jīng)在 scaling 了。大家一般看 scaling 有兩種判斷依據(jù),一是性能是否已經(jīng)達(dá)到某個(gè)狀態(tài),二是看增長(zhǎng)趨勢(shì)。如果看趨勢(shì),毫無(wú)疑問現(xiàn)在就是 scaling 狀態(tài),但明顯表現(xiàn)在模型性能能上,還需要時(shí)間。

Scaling Law 之所以啟動(dòng)比較慢,是因?yàn)榍懊嫣岬降模凑枕樞蚪?jīng)歷數(shù)據(jù)墻、算力墻還有跟環(huán)境的交互。在 25 年,具身行業(yè)都在認(rèn)真搞數(shù)據(jù),到 27 年甚至 26 年,一定會(huì)有效果。

晚點(diǎn):到時(shí)會(huì)有什么早期信號(hào)?

陳亦倫:行業(yè)從刷視頻 demo,轉(zhuǎn)向解決垂直領(lǐng)域的具體問題。整個(gè)行業(yè)的信心指數(shù)會(huì)不斷上升。為數(shù)不多的團(tuán)隊(duì)可以在一些具體場(chǎng)景上真的做出價(jià)值,比如有大客戶的真實(shí)采購(gòu);行業(yè)平均上可以展示出更強(qiáng)的具身智能能力。

晚點(diǎn):它石會(huì)重點(diǎn)落地的場(chǎng)景是什么?

陳亦倫:消費(fèi)級(jí)市場(chǎng)還需要時(shí)間。第一波我們會(huì)進(jìn)入工業(yè)制造,比如線束(Wire Harness)裝配。只要有電的地方就有線,汽車、家電、服務(wù)器里全是線。理線、插拔、裝配對(duì)傳統(tǒng)機(jī)器人來(lái)說(shuō)太難了,因?yàn)榫€束是立體的、柔性的,而這種高技術(shù)門檻的領(lǐng)域正是我們的機(jī)會(huì)。



晚點(diǎn):最后一個(gè)問題,現(xiàn)在具身領(lǐng)域有這么多公司,如何判斷誰(shuí)是靠譜的?

陳亦倫:每個(gè)人可能都是靠譜的,關(guān)鍵看他有沒有想清楚自己要成為誰(shuí)。我們很明確自己要做什么,所以我們會(huì)按照正確的方式一直跑下去。

題圖來(lái)源:它石

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
揭秘:馬英九三姐馬冰如在北京的29年 她到底有什么故事?

揭秘:馬英九三姐馬冰如在北京的29年 她到底有什么故事?

近史談
2026-02-28 21:33:05
電視上看著一般般,真人巨帥氣!不得不說(shuō)五十歲保養(yǎng)得跟25歲一樣

電視上看著一般般,真人巨帥氣!不得不說(shuō)五十歲保養(yǎng)得跟25歲一樣

鄉(xiāng)野小珥
2026-02-27 19:50:38
比亞迪官宣大招,6 萬(wàn)的車又 “ 變相降價(jià) ”

比亞迪官宣大招,6 萬(wàn)的車又 “ 變相降價(jià) ”

新浪財(cái)經(jīng)
2026-02-28 15:52:34
A股:周末大利空,剛剛,人民日?qǐng)?bào)權(quán)威發(fā)布,下周一將迎來(lái)新變化

A股:周末大利空,剛剛,人民日?qǐng)?bào)權(quán)威發(fā)布,下周一將迎來(lái)新變化

云鵬敘事
2026-03-01 00:00:03
董宇輝團(tuán)隊(duì)20多人抵達(dá)法國(guó),丈母娘接機(jī),劉隊(duì)戴眼鏡,程琳伴左右

董宇輝團(tuán)隊(duì)20多人抵達(dá)法國(guó),丈母娘接機(jī),劉隊(duì)戴眼鏡,程琳伴左右

小椰的奶奶
2026-02-28 20:05:30
美駐日大使:如果中國(guó)不按美國(guó)的意愿行事,就讓十四億人陷入饑荒

美駐日大使:如果中國(guó)不按美國(guó)的意愿行事,就讓十四億人陷入饑荒

荊楚寰宇文樞
2025-09-28 21:58:22
她是撒貝寧的妹妹,46歲仍未婚單身,找對(duì)象有3個(gè)條件

她是撒貝寧的妹妹,46歲仍未婚單身,找對(duì)象有3個(gè)條件

細(xì)品名人
2026-02-28 05:55:07
黃金、白銀、石油直線大漲!

黃金、白銀、石油直線大漲!

吉刻新聞
2026-02-28 13:24:57
歷史重演?精準(zhǔn)預(yù)言2008年危機(jī)的老人說(shuō)2026年將是“至暗時(shí)刻”

歷史重演?精準(zhǔn)預(yù)言2008年危機(jī)的老人說(shuō)2026年將是“至暗時(shí)刻”

次元君情感
2026-02-17 23:50:31
日本流感已超950萬(wàn)人!有人發(fā)燒到去世僅4天,大部分重癥肺炎患者有個(gè)共同特點(diǎn)

日本流感已超950萬(wàn)人!有人發(fā)燒到去世僅4天,大部分重癥肺炎患者有個(gè)共同特點(diǎn)

都市快報(bào)橙柿互動(dòng)
2025-02-03 13:37:26
心痛!江蘇獨(dú)子家中猝死,年僅22歲!母親含淚稱:前一天還陪逛街

心痛!江蘇獨(dú)子家中猝死,年僅22歲!母親含淚稱:前一天還陪逛街

川渝視覺
2026-02-28 16:56:50
拿40萬(wàn)鎊頂薪!利物浦頭牌英超遭10輪球荒 球隊(duì)5-2大勝他卻0球0助

拿40萬(wàn)鎊頂薪!利物浦頭牌英超遭10輪球荒 球隊(duì)5-2大勝他卻0球0助

我愛英超
2026-03-01 01:31:04
美國(guó)被爆警告敘利亞別用中國(guó)電信技術(shù) 敘通信部回應(yīng)

美國(guó)被爆警告敘利亞別用中國(guó)電信技術(shù) 敘通信部回應(yīng)

財(cái)聯(lián)社
2026-02-28 08:19:04
3-1!意甲小球會(huì)踢瘋了!距衛(wèi)冕冠軍2分,沖擊歐冠資格

3-1!意甲小球會(huì)踢瘋了!距衛(wèi)冕冠軍2分,沖擊歐冠資格

體育世界
2026-03-01 00:29:23
53歲天王婚變轟動(dòng)全城終全面復(fù)出?出席開工飯與兩前妻各行各路

53歲天王婚變轟動(dòng)全城終全面復(fù)出?出席開工飯與兩前妻各行各路

每一次點(diǎn)擊
2026-02-26 19:42:09
美國(guó)大兵是真能忍,福特號(hào)上個(gè)廁所要等 45 分鐘,到處屎尿橫行…

美國(guó)大兵是真能忍,福特號(hào)上個(gè)廁所要等 45 分鐘,到處屎尿橫行…

我心縱橫天地間
2026-02-25 23:28:03
美以聯(lián)合襲擊伊朗,將有三種可能的結(jié)局,第一種可能性最大!

美以聯(lián)合襲擊伊朗,將有三種可能的結(jié)局,第一種可能性最大!

普覽
2026-02-28 18:34:07
福州發(fā)布一批人事任免通知!涉及多家三甲醫(yī)院院長(zhǎng)、副院長(zhǎng)

福州發(fā)布一批人事任免通知!涉及多家三甲醫(yī)院院長(zhǎng)、副院長(zhǎng)

福建衛(wèi)生報(bào)
2026-02-28 18:03:27
不留遺產(chǎn),拒絕見面,沒有微信,這一次,向華強(qiáng)撕碎了向佑的體面

不留遺產(chǎn),拒絕見面,沒有微信,這一次,向華強(qiáng)撕碎了向佑的體面

叨嘮
2026-02-26 22:49:36
又掛了!伊朗防長(zhǎng)和革命衛(wèi)隊(duì)總司令雙遭斬首,指揮系統(tǒng)瀕臨癱瘓

又掛了!伊朗防長(zhǎng)和革命衛(wèi)隊(duì)總司令雙遭斬首,指揮系統(tǒng)瀕臨癱瘓

老馬拉車莫少裝
2026-03-01 00:01:08
2026-03-01 04:24:49
晚點(diǎn)LatePost
晚點(diǎn)LatePost
晚一點(diǎn),好一點(diǎn)。商業(yè)的真相總是在晚點(diǎn)。《晚點(diǎn)LatePost》官方賬號(hào)
3086文章數(shù) 21893關(guān)注度
往期回顧 全部

財(cái)經(jīng)要聞

沖突爆發(fā) 市場(chǎng)變天?

頭條要聞

伊朗媒體公布反擊美軍軍事行動(dòng)結(jié)果

頭條要聞

伊朗媒體公布反擊美軍軍事行動(dòng)結(jié)果

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

教育
藝術(shù)
本地
房產(chǎn)
公開課

教育要聞

初三不安排春假,最多可連休10天!一地率先公布!

藝術(shù)要聞

驚艷!這位天使般的女子與油畫讓人心動(dòng)不已!

本地新聞

津南好·四時(shí)總相宜

房產(chǎn)要聞

濱江九小也來(lái)了!集齊海僑北+哈羅、寰島...江東教育要炸了!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版