具身季報26Q1：宇樹招股書、人形再思考、英偉達世界模型、靈巧手

2026-04-09 09:34:07　來源: 晚點LatePost

北京舉報

分享至

不僅是比特，不僅是語言。

文丨實習(xí)生裴雨桐

訪談丨程曼祺

2026 年一季度，全球具身智能領(lǐng)域新變化頻出：英偉達連續(xù)發(fā)布世界動作模型多個成果，Sharpa 展示高自由度靈巧手的長程任務(wù)，宇樹、銀河等中國人形機器人公司拿出了更高水平的實機演示。而宇樹發(fā)布的招股書，也讓市場得以窺見人形機器人公司的具體財務(wù)情況。

《晚點 LatePost》出品的商業(yè)科技播客《晚點聊》推出第一期具身智能季報，邀請 Alphaist Partners 創(chuàng)始合伙人陳哲 Peter 作為分享嘉賓。

過去七年，陳哲在五源專注投資機器人和硬件科技，投資過海柔、松靈、本末、地瓜等公司。

這期季度總結(jié)，陳哲分享了三月中旬去 GTC 與全球從業(yè)者的交流，同時也帶到了過去兩年具身智能的發(fā)展。

在討論人形機器人的部分，我們盤點了中美幾家頭部公司，如宇樹、銀河、特斯拉 Optimus、Figure 的近期進展，以及那些在智能能力或數(shù)據(jù)上給行業(yè)帶來啟發(fā)的公司，如 Pi、Sunday 和 Generalist。

接著重點討論了當前具身智能的兩個前沿研究方向：靈巧手和世界模型。分別以 Sharpa 和英偉達的近期進展作為討論重點。

以下是播客的文字整理，有部分精簡。

Q1 核心進展與中國玩家：專注成就宇樹 G1 的成功

晚點：如果要評選 2026 年 Q1 具身智能領(lǐng)域的 top 5 進展或事件，你會選擇哪幾個？

陳哲：一是宇樹科技在春晚的表演。 20 多臺宇樹機器人帶來現(xiàn)場功夫表演，代表了目前中國在本體與運動控制方面的最高水平。

二是 Sharpa 在 CES 上展示的靈巧手 demo。他們演示了自主組裝風(fēng)車的長程任務(wù)，展現(xiàn)了目前全球靈巧手領(lǐng)域的 SOTA（State Of The Art，最先進水平）。這家具身智能公司的創(chuàng)始人正是禾賽科技的三位創(chuàng)始人。

三是世界模型的突破。代表是英偉達發(fā)布的 DreamZero 和 DreamDojo 兩個應(yīng)用于機器人的世界模型。這項嘗試最早源于字節(jié)跳動在 2024 年底發(fā)布的 GR-2，那是首次將互聯(lián)網(wǎng)級別的視頻內(nèi)容應(yīng)用于具身模型的預(yù)訓(xùn)練過程，并直接生成動作與操作。在當時，這是 VLA 之外的一條創(chuàng)新路徑。今年，包括英偉達在內(nèi)的更多公司都在這條路徑上做了大量優(yōu)化，取得了更好的效果。

四是銀河通用在春節(jié)后發(fā)的機器人打網(wǎng)球 demo，展示了人形機器人能在需要高速和即時反饋的系統(tǒng)中表現(xiàn)優(yōu)異。雖距離商業(yè)化還比較遠，但它讓大家看到了在現(xiàn)有硬件和算力基礎(chǔ)上實現(xiàn)實時任務(wù)的可能性。

銀河通用展示人形機器人打網(wǎng)球 demo。

五是波士頓動力在今年 CES 上宣布量產(chǎn)全新電動版 Atlas。作為人形機器人研究的鼻祖，他們對困難場景和落地價值有長期的深入研究。電動版 Atlas 反映了他們對人形機器人進入工業(yè)場景及實際落地的新思考。作為歐美在人形機器人領(lǐng)域最快實現(xiàn)量產(chǎn)的代表，其技術(shù)思路對全行業(yè)都有重要參考價值。

這些進展是我基于長期關(guān)注該領(lǐng)域的投資人視角，從技術(shù)、市場、商業(yè)維度的綜合觀察，不完全代表純學(xué)術(shù)突破。

晚點：去年宇樹上春晚時，很多業(yè)內(nèi)人士還不以為然，覺得動作是靠機械裝置取巧；但今年春晚表演后，業(yè)內(nèi)認可度很高。這背后的變化是什么？

陳哲：2025 年機器人的運動控制技術(shù)發(fā)展極其迅速。宇樹這次春晚表演所用到的技術(shù)與控制技巧，背后的學(xué)術(shù)成果大多是 2025 年中旬甚至下半年才發(fā)布的。宇樹將這些前沿工作在春晚舞臺上集中展現(xiàn)，效果非常驚艷。

核心變化是動捕和模仿學(xué)習(xí)能力的提升：能更快速地將真人的動作遷移到人形機器人上。同時，更先進的強化學(xué)習(xí)訓(xùn)練工具，讓具身系統(tǒng)能在虛擬環(huán)境中將粗糙的動捕數(shù)據(jù)轉(zhuǎn)化為更穩(wěn)定的策略，并執(zhí)行在實體機器人上。簡而言之，就是先通過動捕或遙操作錄制人的動作，再在仿真器中不斷進行強化學(xué)習(xí)迭代，使其變得更穩(wěn)定、更魯棒，最終完美遷移到宇樹的機器人本體上。

同時，20 臺機器人同臺表演，有整齊劃一的部分，也有多臺機器人配合的部分，這反映了宇樹 G1 機器人在機電能力絕對性能和一致性上的巨大優(yōu)勢。

“一致性” 是最大的亮點，20 多臺量產(chǎn)機器人同時完成彈射、大回環(huán)、連續(xù)翻滾等復(fù)雜動作，且在不同環(huán)境干擾下保持高度一致。這不僅需要精心調(diào)參，更對硬件質(zhì)量控制和運控算法穩(wěn)定性提出了極高要求。這是宇樹目前相較其他公司最大的優(yōu)勢。

晚點：多年前波士頓動力的視頻中，機器人也能做跑酷、空翻等類似真人的動作。宇樹現(xiàn)在的成果和波士頓動力當年的表現(xiàn)有什么區(qū)別？

陳哲：那個年代波士頓動力的跑酷動作，基本是靠老專家使用傳統(tǒng)控制算法（如 MPC，model-predictive control，模型預(yù)測控制器）精心調(diào)出來的。而現(xiàn)在的底層控制策略，是通過強化學(xué)習(xí)、仿真和端到端方法訓(xùn)練的，原理截然不同，對環(huán)境擾動的適應(yīng)能力遠超當年的波士頓動力。

此外，波士頓動力的視頻是經(jīng)過精心剪輯的，背后有大量失敗的嘗試。即使是單臺機器完成長序列跑酷，成功率也不高。而宇樹這次是 20 多臺機器人在臺上實時保持高度一致，對可靠性的要求高了幾個量級。

另一點不同是，近一年，大量的跑酷和舞蹈動作開始加入視覺反饋和定位能力。這次上臺的 G1 機器人，每臺頭頂都配備了激光雷達，具備了初步的建圖和定位能力。

晚點：這是取得進展的部分。另一方面，目前大眾對人形機器人有哪些夸大的想象？

陳哲：很明顯，目前的舞蹈或表演動作，本質(zhì)上還是事先編排好的固定程序。如果機器人受到強干擾，很難自主決策。而且這些表演主要集中在全身或下肢運動，基本沒有涉及上肢操作能力。而當前具身智能的大量研究，核心恰恰在于操作以及對復(fù)雜任務(wù)的理解。

晚點：從宇樹招股書披露的財務(wù)信息和產(chǎn)品收入構(gòu)成看，你認為有哪些值得注意的點？

陳哲：宇樹的人形機器人業(yè)務(wù)增長非?？?。2023 年發(fā)布第一款人形機器人 H1，2024 年發(fā)布 G1。隨著 G1 熱銷，人形機器人收入占比迅速攀升，23 年還不到 2%，25 年前三季度已超過 50%。這表明宇樹未來將以人形機器人為核心。四足機器人長期來看可能會在特定場景中保持穩(wěn)定的市場。

機器人行業(yè)現(xiàn)在是典型的供給驅(qū)動，而沒到需求驅(qū)動，因為還在行業(yè)早期。就是一旦有了穩(wěn)定、可量產(chǎn)的好產(chǎn)品的供給，銷量自然會來。好的供給，本身可以打開一些之前想不到的市場需求。

晚點：我看招股書印象最深的是，宇樹人形機器人的高毛利率。2025 年前三季度毛利率達到 63%。在軟硬一體的智能硬件產(chǎn)品中，這算非常高了吧？

陳哲：這主要是因為目前人形機器人還未進入真正的商業(yè)化落地場景，絕大部分是賣給科研市場?？蒲惺袌鲆?guī)模小、訂單分散，傳統(tǒng)科研教具有 70%-80% 的毛利率很正常。宇樹目前的定價，一方面是因為市場缺乏競爭，另一方面也是因為科研市場對價格敏感度不高。

其實更有意思的問題是：宇樹 G1 發(fā)布了 20 個月，為什么至今沒有第二家公司真正挑戰(zhàn)它的地位？

晚點：所以為什么呢？

陳哲：G1 的產(chǎn)品定義極其成功，它完全是為科教市場量身定制的。宇樹的第一款人形機器人 H1，你可以理解為是讓一只大型四足機器狗站起來。但 G1 是宇樹第一臺正向設(shè)計的人形機器人。身高從 1.8 米降到了 1.3 米左右。隨之而來的是重量大幅下降，這對電機功率密度、運動性能以及電池續(xù)航都有巨大幫助。

之所以能縮小尺寸，也是因為在科研場景，一臺 1.3 米的機器人能做的研究與 1.8 米全尺寸機器人基本沒區(qū)別。因為產(chǎn)品定義精準契合了場景需求，其他公司很難在這個細分領(lǐng)域去跟隨或競爭。

晚點：科研是一個好市場嗎？朱嘯虎曾公開表達，科研和表演都不是持續(xù)性的市場。

陳哲：所以很長一段時間里，投資人并不看好它做科教市場。如果你回到 2020 年或 2021 年，全球科研市場規(guī)模也就 10 億人民幣左右。

其實早幾年的宇樹，從來就不是一個被投資人喜歡的公司，最初融資很難。在人形機器人大規(guī)模商業(yè)化遙遙無期的情況下，很難投一個天花板如此低的市場。

除了產(chǎn)品定義，硬件的壁壘在于長期的驗證與測試。做出一兩臺樣機容易，但要實現(xiàn)成千上萬臺的可靠量產(chǎn)，需要極高的供應(yīng)鏈打磨和質(zhì)量控制能力。在做 G1 之前，宇樹已經(jīng)銷售了幾萬臺四足機器人，真正走過了百萬臺電機的設(shè)計、生產(chǎn)和量產(chǎn)流程。這種時間成本和硬件門檻，是所有新入局者必須跨越的。大模型公司的領(lǐng)先優(yōu)勢可能只有 3 到 6 個月，但硬件公司的優(yōu)勢可能會維持 12 到 24 個月。

晚點：宇樹下一階段靠什么發(fā)展？現(xiàn)在大家明顯看到更大的機會在于機器人的智能，即大腦和小腦結(jié)合的部分。這也被視為宇樹的相對短板。根據(jù)招股書，25 年前 3 季度，宇樹的研發(fā)費用只有 9000 萬。

陳哲：他這種在經(jīng)營上的謹慎是刻在基因里的，如果王興興不是這樣一個人，不是這樣一個創(chuàng)始人，宇樹活不到具身智能熱潮到來的這一天。

王興興和汪滔很像，他們都是為了熱愛而創(chuàng)業(yè)，而不是因為看到一個巨大的商業(yè)機會才創(chuàng)業(yè)。前幾天我見一個投資前輩，2017 年王興興就去找他融資，他問王興興你這個可以做什么？王興興答不上來，他也應(yīng)該答不上來。

宇樹之前一直專注做好機器人本體，在 AI 或模型相關(guān)的研發(fā)投入上相對較少。所以宇樹是個盈利的公司，否則也很難生存。就是前面說的，它很長時間不被投資市場看好。

但這次招股書顯示，他們計劃用募資的 42 億元里的一半投入大腦研究，并且在積極推進開源工作。我對他們的長期突破有期待。

晚點：很多新的具身智能公司中，會有 AI 背景創(chuàng)始人、聯(lián)創(chuàng)或高管。但宇樹的核心管理層里沒有深度學(xué)習(xí)背景的領(lǐng)軍人物，這會是一個問題嗎？以及，是否一定要有這樣的人才能做好具身大腦？

陳哲：宇樹是以王興興為絕對核心的公司。我的判斷是，宇樹在大腦或智能層面，長期會采取跟隨策略。

晚點：這種策略足以維持宇樹的整體競爭力嗎？

陳哲：我認為足夠了。具身智能模型的價值體現(xiàn)離不開硬件本體。對宇樹而言，最關(guān)鍵的是占據(jù)全球科研人形機器人市場 “事實標準” 的生態(tài)位。只要保持這個生態(tài)位，哪怕其他公司推出了極優(yōu)秀的閉源具身模型，宇樹也能連帶受益。同時，行業(yè)玩家也會持續(xù)在宇樹的硬件上開發(fā)高性能開源模型。

晚點：宇樹預(yù)計 2026 年人形機器人出貨量能達到 1 到 2 萬臺，是 2025 年的兩到三倍。你覺得能實現(xiàn)嗎？

陳哲：我覺得沒問題。隨著春晚的爆火和 G1 表現(xiàn)力的成熟，未來一兩年會有廣泛且持續(xù)的表演和租賃需求。最近一家專注于人形機器人租賃的公司 “擎天租” 的估值都已達到 30 億人民幣。從需求看，一年一兩萬臺的銷量都是線性的預(yù)測，甚至可能更多，主要取決于宇樹愿意投入多少產(chǎn)能。

晚點：接下來我們聊聊銀河通用的網(wǎng)球機器人，印象中機器人打乒乓球、打網(wǎng)球早就有相關(guān)的創(chuàng)業(yè)項目和產(chǎn)品了，比如專門陪練的網(wǎng)球發(fā)球機或輪式機器人。從銀河通用用人形機器人打網(wǎng)球這件事上，你看到了怎樣的技術(shù)進展？

陳哲：正因為我看過很多打網(wǎng)球的機器人創(chuàng)業(yè)項目，才深知一個實時網(wǎng)球機器人的技術(shù)復(fù)雜度。網(wǎng)球球速極快，可達 100 公里 / 小時。在有限的球場空間內(nèi)，留給機器人進行軌跡預(yù)判和實時響應(yīng)的時間非常短。

所以對于自由度更高、更復(fù)雜的人形機器人而言，要在極短時間內(nèi)完成球路識別、判斷，并控制全身完成揮拍擊球動作，以 2026 年初的技術(shù)棧來看，是一項極其復(fù)雜的系統(tǒng)工程。銀河的這個 demo 真正實現(xiàn)了實時感知決策與全身控制的閉環(huán)，這與預(yù)先編排好的跳舞或武術(shù)表演完全不同。

從技術(shù)角度看，這個 demo 沒有顛覆性的學(xué)術(shù)創(chuàng)新。據(jù)我所知，他們是在春節(jié)期間租了網(wǎng)球場，利用大量動捕設(shè)備采集數(shù)據(jù)，并對模型進行了反復(fù)的強化學(xué)習(xí)訓(xùn)練。這更多體現(xiàn)了公司在復(fù)雜系統(tǒng)工程上的強大執(zhí)行力。

但對我而言，它最大的啟發(fā)在于拓寬了我們對人形機器人能力的想象邊界。在它出現(xiàn)前，很難想象人形機器人已經(jīng)能完成這類任務(wù)。當時 Andrej Karpathy 在 X 上看到銀河的這個視頻時，第一反應(yīng)也是 “這不可能是真機做出來的，肯定是 AI 生成的”。

像近期 Figure 發(fā)布的全身運控 demo 也是類似的情況，動作非常絲滑自然，雖然經(jīng)過了精心的編排和剪輯，但確實是真機自主執(zhí)行的，展示了人形機器人的潛力。

晚點：這些具體的展示場景，未來能遷移到其他應(yīng)用上嗎？

陳哲：網(wǎng)球這個具體場景確實很具體，而且它大概率不是依靠機器人本體（onboard）的算力和視覺來處理球路的，而是借助了球場外部的高幀率攝像頭，且運算可能也不在端側(cè)（on device）。

但計算機科學(xué)的發(fā)展經(jīng)驗告訴我們：只要這件事情被證明 “能做”，人類就一定能找到優(yōu)化的方法，讓它在更小算力、更少資源下實現(xiàn)。所以，“能不能做” 是第一步且最關(guān)鍵的，“怎么優(yōu)化” 是第二步。

這個 demo 的意義是既有下肢的高復(fù)雜度、快速移動，又有上肢復(fù)雜操作，展現(xiàn)了全身運控優(yōu)化的能力。

晚點：總結(jié)一下，像宇樹、銀河通用、智元、魔法原子等中國全人形機器人公司，在 Q1 的整體表現(xiàn)和進展如何？

陳哲：整體表現(xiàn)超預(yù)期，一個趨勢就是全身運控能力。

在 2024 年和 2025 年，機器人的上肢操作（manipulation）和下肢運動（locomotion）還是兩個獨立的控制體系。但從今年開始，隨著硬件成熟、算法演進和數(shù)據(jù)積累，我們越來越多地看到使用單一統(tǒng)一模型進行全身運控和操作的趨勢。

例如，智元近期發(fā)布了新的全身運控工作，英偉達也發(fā)布了 Sonic 全身運控框架。

這標志著一個新范式的端倪。未來 12 個月，這種發(fā)展的復(fù)利和加速度將非常驚人。只要這個統(tǒng)一控制的范式被確立，就會有更多人去迭代和改進。我現(xiàn)在很難想象，到 2027 年春晚時，人形機器人會展現(xiàn)出怎樣驚艷的表現(xiàn)。

晚點：這里有個老生常談的問題。很多人認為雙足形態(tài)的價值并不大，不是讓機器人快速落地的最高優(yōu)先級。

陳哲：我以前也是這么認為的。

晚點：那你是什么時候，因為什么改變了想法？

陳哲：就在最近這個季度，我受到的沖擊很大。

我認為機器人行業(yè)的制約是供給受限，當機器人能穩(wěn)定交付某種能力時，就會快速釋放大量價值。

但我之前覺得，人形結(jié)構(gòu)的實現(xiàn)難度太大了，相當于形成穩(wěn)定供給的困難遠大于它的好處和價值。但我最近看了波士頓動力的幾段訪談，深受啟發(fā)。過去我們說人形的價值，老生常談的理由就是，世界是為人類設(shè)計的，所以人形最通用形態(tài)。但在平整、結(jié)構(gòu)化的工廠環(huán)境里，輪式機器人已經(jīng)完全能滿足移動需求。

然而，事實并非如此簡單。一個人形機器人在結(jié)構(gòu)化環(huán)境中穩(wěn)定移動，大約只需要 40×60 厘米的空間，就是人站立所需要的位置。而且由于腿部和身體擁有極高的自由度，它可以下探到地面，也可以向上觸達 2.3 米的高度，并能輕松搬運 10 到 20 公斤的箱子。

相比之下，如果用輪式機器人實現(xiàn)同樣的功能，例如搬運重物并覆蓋較大的高度范圍，其復(fù)雜度甚至遠超人形。

晚點：輪式底盤一般需要占多大面積？

陳哲：肯定遠大于 40×60 厘米。輪式機器人最大的挑戰(zhàn)是重心問題。以波士頓動力的復(fù)合機器人 Stretch 為例。它是在一個巨大的 AGV 底盤上加裝了單臂機械臂，為了能從高處取下約 20 公斤的箱子而不發(fā)生傾覆，整個 Stretch 的重量達到了一噸左右。

而人體結(jié)構(gòu)非常神奇，我們可以通過動態(tài)調(diào)節(jié)重心和姿態(tài)來輕松完成同樣的取放動作。一個全尺寸人形機器人可能只有 60 到 80 公斤重，與近一噸的 Stretch 相比，總重量差了十幾倍。而越大的重量就意味著越多成本和能耗。

再分享一個我最新的認知：如果想做一個在空間內(nèi)移動性極佳的輪式機器人，最理想的方案是 “四輪四轉(zhuǎn)”，這至少需要 8 個主動電機。如果還要像人形機器人一樣適配不同高度，還需要增加復(fù)雜的升降結(jié)構(gòu)和更多電機。從電機數(shù)量和結(jié)構(gòu)復(fù)雜度來看，這也不必然比雙足容易。

晚點：所以，在實現(xiàn)同等性能時，輪式機器人的復(fù)雜度、成本并不一定比人形低。而一旦人形機器人的技術(shù)成熟，它能解鎖許多輪式形態(tài)無法觸達的場景。

陳哲：是的。而且波士頓動力的新版電動 Atlas 給了我們一個重要信號：人形機器人不一定非要完全模仿人類的物理限制，它可以成為 “超人”。人體的現(xiàn)有結(jié)構(gòu)是大自然進化的偶然結(jié)果，機器人完全可以超越它。

晚點：波士頓動力新版電動 Atlas 在哪些方面超越了人類結(jié)構(gòu)？

陳哲：首先是高度模塊化的設(shè)計。過去的工業(yè)機械臂，每個關(guān)節(jié)的電機和減速器都是專門定制的復(fù)雜串聯(lián)結(jié)構(gòu)；后來的協(xié)作臂將電機簡化為少數(shù)幾種標準件。Atlas 采用了類似邏輯，放棄了復(fù)雜的電機結(jié)構(gòu)，全身使用簡單的旋轉(zhuǎn)電機，通過性能冗余實現(xiàn)多功能化。這大大降低了生產(chǎn)、組裝和維修的難度。

其次，它打破了人體的物理限制。它的頭部、軀干以及各個關(guān)節(jié)都可以進行 360 度完整旋轉(zhuǎn)。例如，如果人類需要從面朝北轉(zhuǎn)身到面朝南，需要腿和身體配合走好幾步；而 Atlas 只需要腰部電機 360 度旋轉(zhuǎn)即可。它甚至不分左右腿、左右手，結(jié)構(gòu)可以互換。

這種高度模塊化、打破生理限制的設(shè)計，不僅提高了場景適應(yīng)度，更極大地降低了制造和維護成本。我之所以特別提到波士頓動力這一轉(zhuǎn)變，是因為它深刻契合了美國當前制造業(yè)缺乏熟練技術(shù)工人的現(xiàn)狀——通過結(jié)構(gòu)的簡化和性能的冗余，來解決復(fù)雜的安裝和維修難題。

美國重點公司盤點：波士頓動力 Atlas 走向 “超人”，Optimus 的繩驅(qū)之困與 Figure 的順勢而為

晚點：前面我們聊的都是中國公司以及你對人形機器人形態(tài)必要性的新認知，接下來我們聊聊美國具身智能領(lǐng)域的進展。首先，目前業(yè)界最關(guān)注的美國人形機器人公司有哪些？

陳哲：最受關(guān)注、聲量最大的無疑是特斯拉的 Optimus，其次是目前融資最多、估值最高的 Figure AI。老牌一些的包括波士頓動力，還有一些創(chuàng)業(yè)公司，比如挪威的 1X 和德州的 Apptronik（Apollo 機器人）。但市場的核心焦點依然是 Optimus 和 Figure。

晚點：像大家經(jīng)常提到的 Pi、Sunday、Generalist 等，他們不算做全人形硬件的公司，而是以模型和智能為核心的公司，是嗎？

陳哲：是的，其中 Sunday 也做硬件，可以算模型+輕硬件的公司。

晚點：先從 Optimus 聊起。它是掀起這輪人形機器人風(fēng)潮的引領(lǐng)者，也激發(fā)了中國一批公司創(chuàng)業(yè)。馬斯克前陣子在采訪中表示，Optimus 的第三代（Gen 3）已經(jīng)設(shè)計定型。但我們從中國供應(yīng)鏈了解的情況是，它原計劃在 4 月發(fā)布，現(xiàn)在可能要延期到 6 月下旬；原定今年 10 月的量產(chǎn)計劃也可能延期到明年。

陳哲：這符合預(yù)期。我之前聽說的最早計劃是今年 3 月或 Q1 發(fā)布，進度一直在 delay。行業(yè)里有句玩笑：“Elon is always right, but his timing is always wrong.”（伊隆·馬斯克總是對的，但他的時間表總是錯的。）。

據(jù)我了解，Gen 3 無論在硬件還是軟件上都面臨巨大挑戰(zhàn)。硬件方面，最大的挑戰(zhàn)是 “手”。他們正在研發(fā)一種非常有野心的高自由度 “腱繩驅(qū)動” 方案，這在量產(chǎn)和可靠性上遇到了極大阻力。

不過另一方面，Optimus 今年的量產(chǎn)目標還是挺激進的，馬斯克的預(yù)期是至少是 1 萬臺左右。

晚點：1 萬臺？比他之前說的目標又縮水了。

陳哲：確實在縮水。之前可能說過 2025 年要實現(xiàn)萬臺甚至 2026 年十萬、百萬臺。但考慮到現(xiàn)在已經(jīng) 4 月了，即使是 1 萬臺的產(chǎn)量，挑戰(zhàn)也極大。

晚點：你剛才提到 Optimus 的手采用了繩驅(qū)方案。之前我們和供應(yīng)鏈交流時，了解到特斯拉其實也在考慮電機直驅(qū)方案，或者說至少給部分供應(yīng)商提了一些預(yù)研需求。

陳哲：其實繩驅(qū)里也有電機，只是位置不同。目前的繩驅(qū)方案是將大量電機放置在前臂，而不是手掌內(nèi)。而像 Sharpa 這樣的直驅(qū)方案，是把電機直接放在每個指節(jié)的關(guān)節(jié)處。這是兩種完全不同的設(shè)計理念。

馬斯克選擇繩驅(qū)方案，是因為他認為這是一種更符合 “第一性原理” 的仿生方案。

晚點：是因為人手就是靠肌肉和肌腱來驅(qū)動的嗎？

陳哲：對，為了實現(xiàn)高度仿人的靈巧性，馬斯克認為繩驅(qū)是必由之路。但這帶來的工程問題非常多，這也是過去一年里我聽到他們在靈巧手上遇到巨大挑戰(zhàn)的原因。

組裝一只高自由度的繩驅(qū)靈巧手，意味著要在手腕和手掌狹小的空間內(nèi)穿入 40 多根不同的腱繩，必須解決它們在一致性、蠕變和可靠性等種種問題。一旦某根腱繩松動或損壞需要替換，重新組裝和維修的難度極大。

晚點：聽起來像是在做手部外科手術(shù)。

陳哲：是的。有一個很有意思的問題，我們都說馬斯克選擇繩驅(qū)是因為這更符合 “第一性原理”。但也有 Tesla 工程師提出疑問：既然已經(jīng)使用了電機和腱繩，它本身就不是肌肉，又何談第一性類比？

人的肌肉和組織是可以再生的，拉傷后可以通過休息和訓(xùn)練康復(fù)。但對于腱繩、電機或齒輪來說，磨損是不可逆的。而且，人體肌肉擁有極高的能量密度和力矩密度，這是現(xiàn)有的電機遠無法比擬的。用一個完全不是肌肉的東西去強行模仿肌肉的結(jié)構(gòu)，并期望達到同樣的性能，這本身可能并不符合第一性原理。

晚點：如果工程師有這種疑慮，他們能在 Optimus 內(nèi)部向馬斯克反饋嗎？

陳哲：在技術(shù)路線的選擇上，馬斯克非常強勢。就像當年他堅持做自動駕駛的純視覺方案和端到端路徑一樣。

作為一個行業(yè)觀察者，我也很糾結(jié)。從歷史上看，馬斯克在很多長期技術(shù)路線的判斷上，最終都被證明是對的，哪怕當時他對抗了市場上所有的聲音。在 AutoPilot 早期，大約 16、17 年，很多人也不相信純視覺和端到端的前瞻愿景，但過去幾年通過工程和技術(shù)的不斷努力，這個愿景正在實現(xiàn)。

所以，繩驅(qū)靈巧手是否會經(jīng)歷同樣的逆襲，我目前說不準。但至少 Optimus 在 2026 年要量產(chǎn) 1 萬臺，它必然會面臨巨大的工程挑戰(zhàn)。

晚點：接下來我們聊聊目前融資最多、估值最高的人形機器人創(chuàng)業(yè)公司 Figure，從業(yè)者者對它的評價是：一方面覺得它總能發(fā)布驚艷成果，另一方面又覺得這家公司風(fēng)格浮夸。

陳哲：確實浮夸，我覺得他們值得拿一個 “奧斯卡最佳影視特效獎”。這可能與創(chuàng)始人 Brett Adcock 的經(jīng)歷有關(guān)。他非常善于向投資人傳達愿景和故事。

晚點：他創(chuàng)辦 Figure 之前在做什么？

陳哲：他之前創(chuàng)辦了一家名為 Archer 的飛行汽車（eVTOL，垂直起降飛行器）公司。大概在 2021 年公司上市后不久，他就離開了并創(chuàng)辦了 Figure。再之前，他也成功賣掉過自己的第一家創(chuàng)業(yè)公司。

Brett 的特點是：總能精準踩中下一個創(chuàng)業(yè)熱點，吸引一群認可他愿景的投資人。而且從歷史記錄看，他的核心訴求似乎是快速把公司賣掉或推向上市。事實上，他確實從 Archer 套現(xiàn)退出了，而 eVTOL 行業(yè)至今仍處于非常早期的階段。我還聽說他最近又成立了一家智能硬件新公司，并投入了大量資金。

這種連續(xù)快速退出的背景，讓市場懷疑 Brett 是否具備足夠的專注度和韌性去死磕人形機器人。

晚點：為什么以前大家對馬斯克沒有這種質(zhì)疑？

陳哲：因為馬斯克把事情做成了。在特斯拉或 SpaceX 真正成功之前，大眾可能也分不清他到底是個 visioner（有愿景的人）還是騙子。

所以 Brett 到底是不是一個長期主義的創(chuàng)始人，目前存在爭議。但不可否認，2023 年 Figure 成立時雖飽受質(zhì)疑，甚至 Brett 自己也不太懂機器人，早期吸引的很多頂尖技術(shù)人才也陸續(xù)離職了；但隨著行業(yè)快速爆發(fā)和資源集中，過去一兩年 Figure 確實交出了非常扎實的成果。他們發(fā)布的幾款人形機器人以及全身運控的 demo，證明了他們在該領(lǐng)域是有干貨的。

晚點：Figure 是一家軟硬件都在做的公司。他們在模型這塊的業(yè)界評價如何？

陳哲：他們比較早地公布了 Helix AI 的三層架構(gòu)邏輯，實現(xiàn)了一套從低頻、中頻到高頻的全身統(tǒng)一運控算法框架。從 demo 效果和內(nèi)部了解到的信息來看，他們的能力在市場上非常領(lǐng)先。當然，除了 Optimus，美國目前也沒有太多真正在做全尺寸人形硬件和模型的公司。在這一點上，F(xiàn)igure 代表了目前美國市場的最高水平。

晚點：Figure 融了很多錢，說明美國也有資金愿意支持這個方向。但為什么美國這類公司很少？而國內(nèi)在 2025 年下半年還不斷涌現(xiàn)新的具身智能創(chuàng)業(yè)公司。

陳哲：這與美國制造業(yè)、機器人硬件供應(yīng)鏈的整體衰退密切相關(guān)。在中國，大家開玩笑說花幾百萬就能攢出一臺人形機器人樣機，但在美國，很難想象。

Figure 之所以需要融這么多錢，某種程度上也體現(xiàn)了美國國家戰(zhàn)略意志。美國希望通過重點扶持頭部企業(yè)，帶動制造業(yè)回流和復(fù)興。但大量的基礎(chǔ)零部件供應(yīng)商在美國已經(jīng)不復(fù)存在了。如果 Figure 想完全在美國本土生產(chǎn)人形機器人，前期的供應(yīng)鏈建設(shè)投入將是極其巨大的。

晚點：另一家美國可能會扶持的公司是波士頓動力。它 1992 年就成立了，有 30 多年歷史，雖然一直沒有大規(guī)模商業(yè)化，甚至被多次收購轉(zhuǎn)手，但一直活到了現(xiàn)在。前面提到了他們電動版 Atlas 硬件的進展，其實他們在 Q1 還有一項進展：在模型和智能領(lǐng)域?qū)ふ伊撕献骰锇?Google DeepMind。

陳哲：這其實并不意外。一兩年前，Google DeepMind 曾與德州的 Apptronik（Apollo 機器人）合作。但據(jù)我了解，那次合作非常失敗。核心原因是 Apollo 硬件在可靠性、精度和一致性上都有問題，導(dǎo)致 Google 的研究員把大量時間耗費在 “讓機器人能用” 上，而不是做真正有效的 AI 研究。所以，Google 轉(zhuǎn)向選擇硬件極其成熟的波士頓動力合作，是非常明智且合理的選擇。

晚點：Google 為什么不自己做全人形機器人的硬件呢？你之前在 Google 也做過 Google Glass 等硬件項目。

陳哲：像 Google、Meta 這樣的互聯(lián)網(wǎng)公司做不了硬件，骨子里缺乏這個基因。做硬件是一個極其復(fù)雜的系統(tǒng)工程，需要整個產(chǎn)業(yè)鏈和供應(yīng)鏈的深度配合。

晚點：這是否也跟硬件的復(fù)雜度有關(guān)？比如 Meta 的 Meta Ray-Ban 智能眼鏡似乎賣得還不錯？

陳哲：我不覺得 Meta Ray-Ban 做得有多成功。它的銷量是巨大的虧損和補貼支撐起來的。從收購 Oculus 到 Reality Labs 部門被降級，這十年間 Meta 在硬件上累計虧損了數(shù)百億美元。

Meta Ray-Ban 確實賣得很好，定價 299 或 399 美元，但一副普通的 Ray-Ban 墨鏡就應(yīng)該賣這個價格，而且有 90% 以上的毛利。你可以想象每賣出一副智能眼鏡，Meta 要給 Ray-Ban 補貼多少錢。所以我覺得眼鏡業(yè)務(wù)對 Meta 來說是一門相當失敗的生意。

晚點：說回 Google 和波士頓動力的合作。他們打算如何解決生產(chǎn)制造的問題，如果不依靠中國供應(yīng)鏈的話？

陳哲：波士頓動力目前的主要股東是現(xiàn)代汽車。作為一家汽車巨頭，現(xiàn)代在生產(chǎn)制造和供應(yīng)鏈上能提供巨大幫助。波士頓動力的很多生產(chǎn)組裝和前期測試，都是在現(xiàn)代的工廠里完成的。這也是所謂的依靠美國盟友的力量。

晚點：美國確實在要求日韓等具備制造能力的盟友去美國本土投資，通過這種方式來補足在復(fù)雜機器人本體上的制造短板，你覺得這條路走得通嗎？

陳哲：這是一條路。但就像對電動汽車的封鎖一樣，這意味著同樣的產(chǎn)品在美國制造，需要付出兩到三倍的成本。這個高昂的成本長期來看必須由美國社會、客戶或消費者來承擔，問題是他們是否愿意買單。

靈巧手可能是一個被低估的創(chuàng)業(yè)機會

晚點：美國還有一類專注具身模型的公司，比如被很多中國從業(yè)者視為標桿的 Pi 等。他們在 Q1 有什么新進展？

陳哲：Pi 除了去年發(fā)布極具影響力的 π0.6 模型外，今年 Q1 還提出了一種解決 “長期記憶” 問題的新思路，類似于 Openclaw 的做法：通過外掛上下文方式長期記錄機器人當前狀態(tài)，并對這些狀態(tài)不斷反思，以此增強長時間操作的一致性和穩(wěn)定性。

此外，他們還在真機強化學(xué)習(xí)和復(fù)雜場景執(zhí)行端的在線學(xué)習(xí)方面，提出了一些新思路和框架。整體看，Pi 在跨具身形態(tài)（Cross-Embodiment）和動態(tài)環(huán)境適應(yīng)性方面的研究處于全球最領(lǐng)先的水平。

晚點：剛剛提到的給模型增加長期記憶的等系統(tǒng)層的優(yōu)化，中國很多從業(yè)者也注意到了，會把它表達為：具身智能系統(tǒng)就是一個物理世界 Agent，它不僅包含基礎(chǔ)模型，還有編排層、skills、工具和記憶等，它們共同組成一個能在復(fù)雜環(huán)境中完成任務(wù)的系統(tǒng)。

陳哲：是的。關(guān)于系統(tǒng)架構(gòu)，Sharpa 在今年 CES 上提了一個很有啟發(fā)的新架構(gòu)，分為 3 層：System 2、System 1 和 System 0。

最上層的 System 2 是一個低頻、高維的語言規(guī)劃層。它主要接收文本輸入，負責宏觀的任務(wù)規(guī)劃。

往下的 System 1 是一個較高頻的控制層。它接收視覺、圖像信息、機器人當前狀態(tài)以及 System 2 傳來的文本任務(wù)。它的輸出是粗略的運動軌跡，比如手臂關(guān)節(jié)的粗糙動作、力矩信息、夾爪開合等。這類似目前大多數(shù) VLA 模型在做的事。

System 0 是最高頻、底層的控制模塊。它的輸入是觸覺信息以及 System 1 傳下來的粗略運動軌跡。當機器人擁有粗略軌跡和實時觸覺反饋時，就能實現(xiàn)具體精細動作的閉環(huán)控制。

晚點：在它摸到東西之前，觸覺信息從何而來？

陳哲：摸到之前是沒觸覺的。當 System 1 控制夾爪碰觸到物體時，往往位置是不準的，或者這種接觸狀態(tài)不足以穩(wěn)定地抓起物體。這時候 System 0 就介入了。它根據(jù)實時傳回的觸覺信息和原始的任務(wù)意圖，計算出每個手指、每個關(guān)節(jié)具體該如何微調(diào)。

晚點：有實驗證明，如果屏蔽人手指的神經(jīng)末梢感覺，即使看著物體，很多看似簡單的精細操作也無法完成。

陳哲：是的，甚至如果蒙上眼睛，僅靠觸覺也能完成很多任務(wù)，可見觸覺信號對于最終任務(wù)的執(zhí)行至關(guān)重要。但目前主流的 VLA 模型或世界模型，訓(xùn)練數(shù)據(jù)幾乎完全沒有引入觸覺信號。所以 Sharpa 的進展證明，當把觸覺引入靈巧手時，機器人能夠完成很多以前難以想象的復(fù)雜任務(wù)。

在一兩年前，具身智能或機器人領(lǐng)域世界前沿的研究人員可能在研究四足機器人的運控、VLA 模型，或者兩指夾爪及 UMI（Universal Manipulation Interface，用于機器人操作的通用數(shù)據(jù)采集接口）這種結(jié)構(gòu)的靈巧操作。

而從去年開始，我接觸到的幾乎所有研究人員，都將靈巧手作為下一個方向。

晚點：“世界模型” 不是下一個方向嗎？

陳哲：也是。但世界模型很可能是一個由大廠主導(dǎo)的研究方向。世界模型的 backbone 是視頻生成模型，對算力和資源的消耗呈指數(shù)級增長，計算量遠大于文本模型。這也是為什么幾天前 OpenAI 宣布停止 Sora 產(chǎn)品。像 Google 每天在視頻生成模型上的研發(fā)和算力投入量級極其巨大，對于任何創(chuàng)業(yè)公司來說都難以想象。

晚點：連資金雄厚的 OpenAI 也是如此嗎？還是因為他們想聚焦資源去和 Anthropic 競爭？

陳哲：沒錯。目前市場對 Agent 和 Coding 的需求非常明確，而 OpenAI 在這方面有些落后，需要集中精力去應(yīng)對。

但更深層的問題是，視頻生成極其消耗資源，如果沒有明確的下游消費和變現(xiàn)場景，對公司來說就是一個巨大的、持續(xù)的資金無底洞。這也是為什么放眼全球，目前真正把視頻生成模型做到頂級的，是字節(jié)跳動、Google、快手這樣擁有龐大 C 端應(yīng)用場景的頂級互聯(lián)網(wǎng)公司。

晚點：現(xiàn)在研究員們做靈巧手研究時，主要使用哪些公司的產(chǎn)品？這聽起來是個不錯的創(chuàng)業(yè)機會。

陳哲：過去一年，海外研究人員使用最多的是星動紀元的一款 12 自由度的靈巧手。但在過去三四個月，隨著 Sharpa 的靈巧手開始向海外研究機構(gòu)供貨，大家逐漸開始使用 Sharpa 的產(chǎn)品。

Sharpa 的靈巧手是在 2025 年 5 月亞特蘭大的 ICRA 會議上正式發(fā)布的。我當時在現(xiàn)場第一次體驗，效果確實非常驚艷。

晚點：22 個自由度，那就是和人手一樣，人手不含手腕也是 22 個自由度。

陳哲：對，要做復(fù)雜精細的操作，自由度不夠是無法完成的。今年初英偉達發(fā)布的 EgoScale 的數(shù)據(jù)框架就能很好地映射到 Sharpa 這種高自由度的靈巧手上。

晚點：你覺得靈巧手接下來會怎么發(fā)展？

陳哲：我認為在未來 12 到 18 個月內(nèi)，市場上各家公司會展開激烈的競爭，爭奪靈巧操作和靈巧手研究的行業(yè)標準，也就是 “默認選擇” 這一生態(tài)位，類似于宇樹 G1 在人形機器人科研里的位置。這款手必須具備極高的可靠性、足夠的自由度以完成復(fù)雜操作、較低的成本，以及完善的傳感器和開發(fā)環(huán)境。

晚點：不過 Sharpa 的目標不止于此，Sharpa 創(chuàng)始人提到，AI 能力才是最重要的。

陳哲：他們的終極目標是做一家通用機器人公司，而不是靈巧手供應(yīng)商。但這里面可能存在一個巨大的被低估的機會，就是成為靈巧手和精細操作研發(fā)的基礎(chǔ)設(shè)施。

我們可以從宇樹的成功路徑中吸取經(jīng)驗。2019 年 MIT 開源了 Mini Cheetah。在此之前，市場上的四足機器人大多采用液壓或昂貴復(fù)雜的電機方案；而 Mini Cheetah 引入了準直驅(qū) QDD 電機、精簡結(jié)構(gòu)和開源控制算法，讓國內(nèi)很多業(yè)余團隊和愛好者也能快速搭建四足機器人，催生了整個生態(tài)的繁榮。

當時涌現(xiàn)出大量創(chuàng)業(yè)公司。小米做了鐵蛋，小鵬收購了一家公司成立了鵬行智能，第一筆融資時的估值就達 5 億美金。而同期的宇樹還默默無聞。

但為什么是宇樹走到了今天？因為王興興非常本分和專注。2021 到 2024 ，他就是專注服務(wù)科教市場的研究者，他們需要便宜、好用的硬件。他沒有把錢砸向虛無縹緲的 AI 研發(fā)或 C 端量產(chǎn)。正是在四足領(lǐng)域的深厚積累，讓他們順理成章地推出了人形機器人 G1。

我認為在靈巧手市場，同樣存在一個 “G1 的生態(tài)位”。但這需要極大的克制和專注去打磨產(chǎn)品，才能成為中美所有靈巧手研究者的首選方案。

晚點：過完了中美重點公司的進展，你對目前中美在具身智能領(lǐng)域的發(fā)展情況有何整體感受？行業(yè)的普遍觀點是：與大模型初期中國明顯落后美國半代到一代不同，在具身智能領(lǐng)域，中美處于同一起跑線。另外，通用機器人是一個軟硬件、系統(tǒng)、工程、供應(yīng)鏈高度結(jié)合的產(chǎn)物，美國在硬件供應(yīng)鏈上的先天短板是個巨大的挑戰(zhàn)。

陳哲：我個人的感受是，在具身智能領(lǐng)域，我們不僅僅是沒有落后，甚至有可能處于領(lǐng)先狀態(tài)。

首先，在復(fù)雜的機器人硬件，無論是本體還是靈巧手上，中國公司是領(lǐng)先世界的。其次，在大腦層面，美國以 Pi 為代表的公司在頂尖人才、算力和數(shù)據(jù)上確實有明顯優(yōu)勢。但隨著具身大腦與硬件的進一步深度耦合，無論是手部精細操作還是本體全身運控，如果未來的 AI 研究需要大量依賴復(fù)雜的人形硬件載體，那么中國在軟硬結(jié)合上的優(yōu)勢只會放大，不會縮小。

英偉達帶來 WAM 世界動作模型，這是理論上比 VLA 天花板更高的路

晚點：前面討論的中美行業(yè)對比其實有個變量，就是世界模型。我們在上面也聊到了，世界模型的 backbone 是視頻生成模型，而做視頻生成又要消耗大量算力資源，這會是中國具身產(chǎn)業(yè)鏈的相對弱勢嗎？正好，英偉達從去年底到 3 月的 GTC 上發(fā)表了一系列和世界模型相關(guān)的成果，它們稱為 WAM 世界動作模型?？梢韵戎v一講，如何理解世界模型？

陳哲：世界模型和 VLA 模型代表了具身大腦研究的兩個主要路徑。VLA 以文本為 backbone，代表了人類通過語言進行溝通、描述和推理的能力；而世界模型以視頻為 backbone，代表了人類的視覺智能。

這兩者并不是互斥的，而是互補的。人類的智能既離不開語言，也離不開視覺。如果一個人先天失明或失聰，他依然能發(fā)展出相當程度的智能，但其智能上限會受到很大局限。對于機器人來說也是如此，世界模型將人類智能中極重要的視覺理解與泛化能力，用一種巧妙的方式賦予了機器人的大腦。

世界模型并非新概念。如果要下個定義，它就是一個基于當前觀測、能夠預(yù)測未來會發(fā)生什么的物理模型。這個概念已應(yīng)用于許多不同場景。例如在自動駕駛領(lǐng)域，特斯拉曾提到他們有一套用于自動駕駛仿真和模擬的世界模型。

再比如 OpenAI 推出 Sora 時，從未將其定義為視頻生成模型， Sora 的定位始終是世界模型。大家對 Sora 的討論，也是因為它讓人感覺模型似乎具備了理解物理規(guī)律的能力。

像 LeCun 提出的體系也是一套世界模型，但他認為物理世界有更多可以顯性表達的規(guī)則和內(nèi)在（intrinsic）信息來描述。

在機器人場景中，最直接的理解就是通過視頻生成或腦補的方式，預(yù)測物理環(huán)境會因我們的動作發(fā)生怎樣的變化。它可以用于動作仿真和策略生成。這也是為什么我們認為相比 VLA，世界模型是一種新的技術(shù)范式或模態(tài)補充。

晚點：具體到英偉達發(fā)布的世界模型相關(guān)成果， DreamZero 和 DreamDojo，它們是什么？在世界模型路線上做了哪些具體貢獻？

陳哲：DreamDojo 可以被視作一個基于視頻的世界模型仿真器，它能基于當前圖像預(yù)測并渲染世界未來的樣子。而 DreamZero 則是通過視頻生成的方式，將當前任務(wù)與環(huán)境轉(zhuǎn)化為機器人需要執(zhí)行的策略和動作。

英偉達定義的 WAM 底層打破了 VLA 模型那種 “基于圖片或視頻觀測直接輸出動作序列” 的映射關(guān)系。它根據(jù)當前的視頻信息，對未來世界進行預(yù)測和建模，并通過 “腦補” 建立因果推理。在這個預(yù)測過程中，自然而然地生成符合物理規(guī)律的動作序列。

這兩項工作實質(zhì)上都脫離了 VLA 以文本和動作克隆為核心的控制范式。如果類比人類智能，文字代表的是一種低頻、復(fù)雜的推理思考過程；而視頻代表的視覺智能，則是更加應(yīng)激、實時且與環(huán)境高頻互動的能力。在未來的通用機器人中，這兩種能力缺一不可。

晚點：這是否意味著世界模型相比 VLA 具備了時間感？因為 VLA 只是從單幀圖像直接映射到一個動作，它無法理解前因后果。

陳哲：這個描述很準確。 VLA 作為運動生成模型之所以非常受限，是因為它底層作為 token 的輸入描述是靜態(tài)的圖片和語義文字。它之所以能生成動作序列，是因為在訓(xùn)練 VLA 時，我們通常在一個已具備圖文理解能力的 VLM 基座上，強行粘貼并映射一段關(guān)節(jié)動作信息。簡而言之，它是一種帶有描述的行為克隆。因此，在遙操作場景下反復(fù)疊衣服，模型是通過記錄衣服不同折痕的圖片，建立起它與關(guān)節(jié)動作之間的固定映射。

晚點：在我們之前的具身智能測評節(jié)目中，嘉賓提到 RoboChallenge 測評里 able 30 有一個刁鉆的任務(wù)：掃二維碼。由于掃碼需要根據(jù)畫面變化來判斷掃完了沒，如果單純依賴 VLA 模型而不加外掛，當時的模型都做不了。

陳哲：首先，VLA 確實也可以像 agent 一樣加外掛。但關(guān)鍵在于， VLA 本身并不預(yù)測未來，它只是在建立特定條件下的映射關(guān)系，因此泛化能力差。比如在抓取任務(wù)中，當杯子顏色從藍色換成紅色，或位置從左邊移到右邊，它就可能失敗，因為這些樣本分布在它克隆的行為數(shù)據(jù)中可能并不存在。

而世界模型是基于海量、廣泛的視頻數(shù)據(jù)進行訓(xùn)練。視頻數(shù)據(jù)涵蓋的分布要廣闊得多，也極具多樣性。如果能從廣泛的數(shù)據(jù)中學(xué)到動作規(guī)律，用來進行運動仿真驗證或策略生成，理論上能力上限會高得多。

晚點：Google 當年在 RT-2 中提出了 VLA。在用于具身智能的世界模型上，Google 這一季度有什么進展嗎？

陳哲：目前沒看到公開相關(guān)的工作，但 Google 正全力推進視頻生成模型，此外，據(jù)我所知， Google DeepMind Robotics 的研究方向與 Pi 的重合度非常高。去年 Google 推出的基于 Gemini Robotics 1.5 的成果非常出色，比同期的 Pi 更好。

這種優(yōu)勢很大程度上歸功于強大的基模。Google 使用了 Gemini 做具身模型的基模，而 Pi 用的是相對小和弱的開源模型 PaliGemma（Google 開源的一個 3B 參數(shù)的 VLM 模型）。

在國內(nèi)眾多具身智能公司中同樣可以觀察到：只要換一個更強的預(yù)訓(xùn)練基模，即使不做其他改動，最終的具身模型效果也會顯著提升。

因此 Google 具備極強的后發(fā)優(yōu)勢。如果它能訓(xùn)練出更好的視頻基座模型，自然能極大賦能世界動作模型。只要 Google 認定這是一個值得投入的方向，他們到時很可能會后來居上。

晚點：英偉達這種世界模型的新方法目前有哪些不成熟的地方？比如 DreamZero 的運行速度非常慢，跑在機器人上只有 7 赫茲。

陳哲：速度問題都可以解決。計算機科學(xué)的核心邏輯是：只要找到正確的路，優(yōu)化只是時間問題。優(yōu)化相對容易，難的是路徑探索。GPT-3.5 剛發(fā)布時，token 生成速度也很慢，但今天已經(jīng)提升了百倍甚至千倍。

其實我從 WAM 上看到的一個更關(guān)鍵的行業(yè)問題是，過去幾年，具身智能的發(fā)展都高度受惠于外部力量，先是大語言模型（LLM）和視覺語言模型（VLM），有更好的 VLM，才能訓(xùn)出更好的 VLA；而世界模型則需要更好的視頻生成模型。

這意味著，具身智能這一新興領(lǐng)域的基礎(chǔ)性能提升，很大程度上是由外部力量，也就是基座模型的能力決定的。

所以世界模型在基模上的挑戰(zhàn)，也不能單靠具身智能公司自己解決，它有賴于能做大規(guī)模基礎(chǔ)模型預(yù)訓(xùn)練的公司。

晚點：那相當于，具身智能公司自己并不掌握自己的命運。這又呼應(yīng)了你前面講的靈巧手的機會，在與之相關(guān)的觸覺和精細操作研發(fā)上，看起來大廠和創(chuàng)業(yè)公司是同一個起跑線，大型科技公司也沒有歷史積累。

陳哲：是的。視頻這一模態(tài)天然不包含觸覺信號，即使視頻生成模型未來能完全遵守物理定律保持空間一致性和長時序穩(wěn)定性，世界模型能閉眼 “腦補” 未來 30 秒，它依然缺失觸覺信息。

因此，未來在世界模型更成熟后，如何融合或增強觸覺信號，將是研究的重中之重。

這也恰恰是我看到很多具身創(chuàng)業(yè)公司正在做的事。他們深知自己很難去預(yù)訓(xùn)練一個超大規(guī)模的 VLA 或世界模型，但他們可以解決靈巧手操作問題，或是觸覺與末端執(zhí)行器（如夾爪、Sunday 的 Gripper）的結(jié)合問題，這些都是基模廠商無法提供的價值。

晚點：英偉達在提出 DreamDojo 和 DreamZero 的同時，還發(fā)布了 EgoScale 新數(shù)據(jù)框架，使用了超過兩萬小時的自我中心的人類數(shù)據(jù)，打破了靈巧操作遷移的規(guī)模瓶頸。這是一個怎樣的進展？

陳哲：EgoScale 采集到的數(shù)據(jù)，既可以應(yīng)用于 VLA 模型，也可以應(yīng)用于世界模型，并不受限于具體的預(yù)訓(xùn)練方法。它先采集海量真實場景中的第一視角視頻，然后使用 Manus（一家荷蘭的動捕手套公司）的數(shù)據(jù)手套和攝像頭跟人類數(shù)據(jù)做對齊。

它屬于整個數(shù)據(jù)金字塔中的一個環(huán)節(jié)。如果我們構(gòu)建一個具身智能的數(shù)據(jù)金字塔：最頂層、最高效、最精準的是機器人遙操作數(shù)據(jù)，它直接反映了任務(wù)中機器人各個關(guān)節(jié)和電機的狀態(tài)；往下是類機器人架構(gòu)數(shù)據(jù)，比如 UMI 或 DexUMI 這種使用類似夾爪或靈巧手結(jié)構(gòu)的末端執(zhí)行器采集的數(shù)據(jù)，但其手臂和視角等自由度不受機器人本體硬件約束；再往下是 EgoScale 這種 ego-centric 的操縱數(shù)據(jù)；最底層則是海量的互聯(lián)網(wǎng)、YouTube 視頻數(shù)據(jù)，包含大量非人類操作的物理現(xiàn)象。

過去半年，業(yè)界對 ego-centric 數(shù)據(jù)的重視度急劇升溫。因為大家發(fā)現(xiàn)，為了實現(xiàn)運動的泛化性，必須引入更多樣化的數(shù)據(jù)。僅僅依靠遙操作或 UMI 方法，數(shù)據(jù)的多樣性是遠遠不夠的。

晚點：直接使用互聯(lián)網(wǎng)視頻數(shù)據(jù)不是最有多樣性嗎？

陳哲：這就涉及到數(shù)據(jù)質(zhì)量和遷移 gap 的問題。即使是第一視角視頻，人類關(guān)節(jié)、手掌乃至上半身的自由度，遠超目前的機器人硬件。機器人無法完全復(fù)刻視頻中人類精細的手腕或手指動作，這就產(chǎn)生了巨大的遷移 gap，導(dǎo)致動作學(xué)不過去。

當然，隨著硬件越來越靈活強大，比如開發(fā)高自由度的靈巧手，這種 gap 會縮小。但無論硬件多好，機器人上肢與人類的自由度仍有差距。因此，ego-centric 視頻雖然比第三視角的 YouTube 視頻質(zhì)量更好、數(shù)量龐大，但其精度和直接可用性，依然與 UMI 數(shù)據(jù)或遙操作真實數(shù)據(jù)有很大差距。

晚點：也就是說，金字塔越往上數(shù)據(jù)越貴、越少、但質(zhì)量越高；越往下則反之。這個金字塔里全部都是真實數(shù)據(jù)嗎？

陳哲：仿真數(shù)據(jù)也包含在內(nèi)，主要有兩種形式。一種是在完全虛擬的環(huán)境中建模生成的數(shù)據(jù)；另一種是對真實數(shù)據(jù)進行數(shù)據(jù)增強后得到的數(shù)據(jù)。仿真數(shù)據(jù)的質(zhì)量通常介于 ego-centric 數(shù)據(jù)和 UMI 數(shù)據(jù)之間，它是一種重要的擴充手段。

晚點：英偉達和 Generalist 去年 10 月也發(fā)布了數(shù)據(jù)解決方案，是否意味著具身智能在數(shù)據(jù)這一瓶頸上已經(jīng)基本得到解決？

陳哲：目前不是問題已經(jīng)解決，而是大家看到了可能解決問題的方法與路徑。

提到 Generalist，它和另一家初創(chuàng)公司 Sunday 對行業(yè)的促進作用巨大，他們總能推出一些前所未有、極其巧妙，事后看來又極其合理的創(chuàng)新設(shè)計。

遲宬（Sunday Robotics 的聯(lián)創(chuàng)之一）在斯坦福時就參與了 UMI 方案的工作。它本質(zhì)上是人手持一個與機器人末端 “同構(gòu)” 的夾具進行動作采集，從而避免了異構(gòu)帶來的 domain transfer 損失。后來，Generalist 對斯坦福的 UMI 方法進行了改良并大規(guī)模采集數(shù)據(jù)。而 Sunday 則在此基礎(chǔ)上，將兩指的 UMI 擴到了三指，并加入了觸覺反饋。僅僅增加這一個自由度，就能完成大量兩指夾爪無法完成的動作。

晚點：類似的用可穿戴設(shè)備采集數(shù)據(jù)的方案也是目前很多中國公司正在做的方向，比如它石、千尋等等

陳哲：是的，中國公司的優(yōu)勢在于，只要有了技術(shù)路線，跟進速度極快。過去半年，類似 UMI 或 Sunday 的數(shù)據(jù)采集方案在國內(nèi)快速涌現(xiàn)。

許多國內(nèi)具身智能公司今年的目標是實現(xiàn)百萬小時級別的真實數(shù)據(jù)采集。但即使采集到了，數(shù)據(jù)的清洗、準確標注以及規(guī)?；€需要很長時間，我認為數(shù)據(jù)瓶頸并不會很快被解決。即使真的獲得了百萬小時的真實數(shù)據(jù)，這些數(shù)據(jù)量是否足夠支撐通用具身智能，目前還沒有定論。

晚點：除了英偉達近期的成果，世界模型在整個業(yè)界還有哪些新進展？比如 Google 的 Genie 3、SIMA 2，這些對具身領(lǐng)域有幫助嗎？

陳哲：這些與機器人的直接關(guān)聯(lián)不大。

具體來說，Genie 3 是一個高度基于 diffusion 的生成網(wǎng)絡(luò)，追求的是視覺上的高保真和美觀，對物理環(huán)境和物理規(guī)則的遵從度較弱，這對于需要訓(xùn)練物理交互的機器人模型是不友好的。字節(jié)的 Seedance 著重優(yōu)化了視覺表現(xiàn)力和藝術(shù)風(fēng)格，這對具身沒什么用。

目前，世界上絕大部分機器人視覺模型的基座，使用的都是阿里開源的 Wan2.1 或 2.2（阿里通義萬相的開源視頻生成模型系列）。因為這是市面上最后一個開源版的視覺生成模型。視頻生成模型的算力消耗實在太龐大了，以至于頭部公司都不愿意繼續(xù)開源了。

晚點：連英偉達也沒有自己從頭訓(xùn)練一個模型嗎？

陳哲：英偉達用的也是開源模型?，F(xiàn)階段還在研究探索期，沒有必要從頭開始訓(xùn)。不過，這也帶來了很多問題。許多研究員反饋，世界模型目前面臨的最大挑戰(zhàn)之一，就是現(xiàn)有的開源模型根本不適合具身智能。

晚點：回到之前的問題，如果隨著世界模型競爭加劇，中國公司由于算力相對較少，會不會處于劣勢？

陳哲：有可能。但如果世界模型高度依賴 SOTA 的視頻生成模型，至少字節(jié)跳動等中國頂尖大廠在資源上，并不會比 Google 少太多。

晚點：那字節(jié)也可以自己把具身模型和智能機器人做了，實際上字節(jié)也在做。

陳哲：這是所有模型創(chuàng)業(yè)公司，無論文本、視頻還是語音面臨的共同風(fēng)險。比如 Google 的研究員就深信，終局就是大廠贏家通吃。

但即使如此，對于真正想要商業(yè)化落地的具身智能和通用機器人公司來說，依然有足夠多的事情可以做。雖然軟硬件的邊界可能會比 iOS 和 Android 時代更加模糊，但邊界依然存在。長期看，在具體垂直場景中的 Know-how 和專有數(shù)據(jù)，才是最有價值的資產(chǎn)。而這些長尾數(shù)據(jù)和場景經(jīng)驗，大廠不一定具備。

晚點：沿著英偉達提出的世界模型新方向，有什么新的創(chuàng)業(yè)機會嗎？美國最近就出現(xiàn)了一些融資金額很高的新公司。

陳哲：確實有。比如在 GTC 大會上宣布獲得 4.5 億美元融資的 Rhoda AI 團隊，就是一家明確以世界模型為核心技術(shù)路徑的創(chuàng)業(yè)公司。

晚點：Rhoda 是自己從頭做視頻生成大模型，還是基于開源模型做研發(fā)？

陳哲：具體的細節(jié)他們沒透露。比較確定的是，即使他們使用了開源基座模型，也采集了大量的 ego-centric 數(shù)據(jù)做 continue train。就像 VLA 一樣，對于已經(jīng)預(yù)訓(xùn)練好的底層模型，沒必要重新訓(xùn)，而是用自己的專有數(shù)據(jù)做微調(diào)和再訓(xùn)練。

晚點：中國目前有以世界模型為主攻方向的新創(chuàng)業(yè)公司嗎？

陳哲：有一些。比如黃冠創(chuàng)立的極佳世界等?？傮w而言，作為創(chuàng)業(yè)方向，世界模型非常新，但也極其困難，這條路線的陡峭度遠超 VLA，理論上限更高，但也更難。

晚點：除了極其耗算力，還有哪些難點？

陳哲：對數(shù)據(jù)和算力的要求都很高。目前全球最好的三個視頻生成模型，恰恰出自擁有 YouTube 的 Google、擁有快手的可靈和擁有 TikTok 的字節(jié)跳動。更關(guān)鍵的是，所有優(yōu)秀的算法架構(gòu)和訓(xùn)練配方，都是靠海量的實驗和算力堆出來的。

這正是今天所有具身智能創(chuàng)業(yè)公司面臨的最大挑戰(zhàn)：沒有足夠的算力試錯。哪怕你擁有幾十萬小時清洗標注好的優(yōu)質(zhì)數(shù)據(jù)，為了跑通模型、找到最優(yōu)配方，也需要進行無數(shù)次的實驗和測試，而絕大多數(shù)創(chuàng)業(yè)公司缺乏支持這種實驗規(guī)模的算力資源。

具身算力：從數(shù)據(jù)中心到汽車，再到機器人，英偉達的統(tǒng)治力越來越弱

晚點：接下來聊具身智能領(lǐng)域中重要基礎(chǔ)設(shè)施話題：算力。相比大模型領(lǐng)域?qū)λ懔Φ臒崃矣懻?，業(yè)界對具身智能的算力，特別是端側(cè)算力的討論相對少。目前機器人上的主芯片是怎樣的市場格局？通常會選哪家公司的產(chǎn)品？

陳哲：默認的首選英偉達的車載芯片。

晚點：車載芯片？不是英偉達專門為機器人推出的 Jetson 系列嗎？

陳哲：不是。因為算力不夠，Jetson 的定位比較尷尬。

現(xiàn)在做端到端自動駕駛的公司，把一個模型實時壓縮到一顆 Orin 芯片上運行已經(jīng)十分費力。而無論是 VLA 還是世界模型，復(fù)雜度都不比自動駕駛模型低。目前能在一兩百瓦的功耗限制下提供最大算力的解決方案，就是自動駕駛芯片?，F(xiàn)在還沒有到要在端側(cè)節(jié)省算力的階段。

晚點：除了英偉達，還有其他公司嗎？比如高通有涉足嗎？

陳哲：國內(nèi)很多具身智能公司也在和地平線合作。在量產(chǎn)的自動駕駛市場，英偉達和地平線各占約 40% 的份額，其他廠商占據(jù)剩下的 20%。由于技術(shù)棧的相通性，很多人自然而然地將這些成熟的車載芯片應(yīng)用到了人形機器人上。

晚點：那么這個機會是不是也屬于華為？他們在高階自動駕駛領(lǐng)域也有相當?shù)氖袌龇蓊~。

陳哲：華為確實有機會，但大廠內(nèi)部有優(yōu)先級問題。受限于制裁和產(chǎn)能，華為芯片產(chǎn)能要優(yōu)先保供云端芯片和手機端芯片，車載芯片的優(yōu)先級相對不夠，機器人的優(yōu)先級就更低了。

英偉達也面臨類似的問題，他們在云端 GPU 市場擁有壓倒性的統(tǒng)治地位，但在車載市場就沒那么強。

再延伸到機器人領(lǐng)域，英偉達的優(yōu)勢會被進一步削弱。因為真正的大規(guī)模量產(chǎn)機器人，極其考驗成本、功耗等一系列綜合指標。雖然目前具身機器人還沒到規(guī)?；慨a(chǎn)階段，但參考其他已經(jīng)商用量產(chǎn)的機器人，如家政機器人、掃地機器人、無人機，幾乎沒有使用英偉達的 Jetson 方案。這意味著，量產(chǎn)機器人芯片市場對中國及其他國家的公司是完全開放的。

晚點：已大規(guī)模量產(chǎn)的家用機器人市場中，主要的芯片玩家有哪些？

陳哲：最大的玩家是地瓜機器人，它是地平線分拆孵化出來的公司，專門為可量產(chǎn)的商用和消費級機器人提供算力解決方案。此外，還有一些主打中低端的傳統(tǒng) ARM 芯片或 MCU 芯片廠商，比如全志、瑞芯微。在家用機器人市場，英偉達幾乎沒有市場份額。

晚點：所以從云端到車載，再到端側(cè)機器人，英偉達的統(tǒng)治力呈遞減趨勢。

陳哲：這就是一個典型的創(chuàng)新者的窘境，和當年的 Intel 如出一轍：Intel 在 PC 和服務(wù)器端賺得盆滿缽滿，因此不愿意去做利潤微薄的手機芯片。2005 年喬布斯找 Intel 合作開發(fā)初代 iPhone 芯片被拒，這才成就了后來的 ARM 等公司。

我認為今天地平線或地瓜機器人面臨的是同樣的歷史機遇。由于英偉達在云端業(yè)務(wù)的利潤極其豐厚，車載或機器人芯片在內(nèi)部根本算不上戰(zhàn)略重點。

晚點：還有一個玩家是特斯拉。

陳哲：對。馬斯克非常明確地表示，未來量產(chǎn)的特斯拉自動駕駛汽車和 Optimus 人形機器人，將使用同一款自研芯片。他們會基于統(tǒng)一的架構(gòu)、算力和能耗標準，為這兩個終端進行同步優(yōu)化。

晚點：這也印證了，從車載到機器人，在技術(shù)棧和應(yīng)用場景上具有極強的延續(xù)性。

陳哲：這意味著目前在國產(chǎn)自動駕駛芯片領(lǐng)域領(lǐng)先的公司，在未來的具身智能時代也將是強有力的競爭者。那些能夠在智能汽車時代實現(xiàn)芯片自研量產(chǎn)的車企，如小鵬、華為、理想、蔚來等，未來也能為具身智能提供極具競爭力的算力解決方案。

晚點：聽起來這將會是一個競爭極其激烈的市場。但通常來說，一個成熟的芯片市場最終應(yīng)該不會容納這么多供應(yīng)商。

陳哲：從歷史規(guī)律來看，任何一種復(fù)雜的芯片，最終市場上往往只能存活兩家主力供應(yīng)商。而且市場份額通常是 “二八定律”，第一名吃掉 80%，第二名占據(jù) 20%。

因此，無論是具身機器人的整機廠商還是底層的芯片供應(yīng)商，大概率都會經(jīng)歷一場極其慘烈的淘汰賽，最終可能會高度集中。

晚點：你認為人形機器人的終局會是怎樣的？

陳哲：對于創(chuàng)業(yè)者和投資人來說，這既是巨大機會，也是巨大挑戰(zhàn)。人形機器人很有可能是一個高度收斂的賽道。它是一個通用、單一架構(gòu)的機器人。如果產(chǎn)品足夠好，產(chǎn)量和規(guī)模將是巨大的，贏家會高度收斂。智能手機之所以高度收斂，是因為人的手就長那個樣子。在 iPhone 發(fā)明前，為了滿足不同需求，功能機形態(tài)各異，就像現(xiàn)在的 feature robot，有掃地的、搬運的、工業(yè)的。但一旦通用機器人形成，大概率會是一個高度集中的市場。

晚點：但汽車市場沒有手機集中？

陳哲：其實已經(jīng)高度集中了。放眼全球，美國只有三大汽車公司，日本也是 3 家，韓國只有一兩家，歐洲也主要集中在 3 家。從商業(yè)視角看，集中度已經(jīng)很高，而且未來還會更加集中。

隨著 AI 和自動駕駛的普及，作為軟硬一體的載體，其門檻和優(yōu)勢會進一步放大。一個產(chǎn)品的復(fù)雜度越高、門檻越高、軟硬件復(fù)利越高，其市場集中度就必然越高；只有高度同質(zhì)化的產(chǎn)品，集中度才會低。因此智能汽車或自動駕駛汽車未來一定會高度集中。

同理，人形機器人作為未來人類技術(shù)的集大成者，市場集中度也一定會非常高。雖然可能會有適用不同場景的型號，比如 1.8 米或 1.2 米的差異，但整體格局不會出現(xiàn)太多玩家。所以對創(chuàng)業(yè)公司而言，這既是機會也是挑戰(zhàn)。

晚點：對于創(chuàng)業(yè)公司來說，更穩(wěn)健的路徑是不是去做 feature robot？在一些特定場景下的機器人，或許也不會被通用機器人取代。

陳哲：很有意思的是，今天許多成功的年輕創(chuàng)業(yè)者做的正是 feature robot。比如大疆的汪滔做了無人機，石頭科技做了掃地機，還有些公司在做割草機、倉儲機器人或泳池機器人。

晚點：這些做 feature robot 的公司，有可能進化成通用機器人公司嗎？

陳哲：有可能，但這對人、對組織都是巨大的挑戰(zhàn)。就像我們很難相信一家傳統(tǒng)家電或制造業(yè)公司能輕易做好復(fù)雜的機器人產(chǎn)品一樣，這種轉(zhuǎn)型對整個公司的組織文化和基因都會產(chǎn)生強烈沖擊。

晚點：蘋果最初是電腦公司，但后來又做出了智能手機。未來摘得通用機器人桂冠的公司，是一開始就做通用機器人，還是有可能從大疆、石頭科技這種單點起步？就像 “Zima Blue” 里的那個機器人，最初是個泳池機器人，最后進化成了人。

陳哲：這不太一樣，電腦本身就是一個多任務(wù)產(chǎn)品，具備極重的軟件和算法成分。相比之下，無人機或割草機本質(zhì)上仍是單任務(wù)產(chǎn)品。

最終能摘得通用機器人桂冠的，一定是積累并建設(shè)了相關(guān)核心能力的公司。比如，如果 sharpa 有一天做成了通用機器人公司，我不會感到意外。因為通用機器人的核心包括光機電結(jié)構(gòu)、精密工程和量產(chǎn)能力，而這些正是 sharpa 團隊過去 10 年驗證和打磨出來的。他們在通用機器人的成功路徑上可能已經(jīng)掌握了 50% 的 recipe，只需補齊剩下的 50%。大疆也是同理，擁有強大的生產(chǎn)設(shè)計和開發(fā)能力，但能否補齊缺失的另一半，極度考驗團隊的學(xué)習(xí)與迭代能力。

晚點：反過來看，那些強于智能算法的公司，也有可能去補齊硬件和工程制造的短板吧？

陳哲：我覺得那是條更難的路。

宇樹上市，是一家扎實的好公司上市，不是泡沫

晚點：最后，關(guān)于資本市場的變化。今年有一個明確會貫穿全年的現(xiàn)象：中國具身智能公司迎來上市潮，宇樹等公司已經(jīng)提交了招股書。這波上市潮整體會帶來什么影響？

陳哲：機器人將是未來 10 年中國國家級、戰(zhàn)略級的發(fā)展主線。無論是機器人的硬件技術(shù)，還是軟件或算法大腦，宇樹的上市都將開啟一批具備全球競爭力的中國公司發(fā)展的新階段。從市場角度看，這對創(chuàng)業(yè)公司和投資人都是極大的利好。

晚點：二級市場行情好確實是利好，但另一方面，資源可能會進一步向頭部集中，這對其他創(chuàng)業(yè)公司或許是個挑戰(zhàn)。

陳哲：頭部集中并不是壞事，就像電動車行業(yè)的發(fā)展一樣。對于創(chuàng)業(yè)公司而言，創(chuàng)業(yè)成功的財富效應(yīng)本就是驅(qū)動大家進入這個市場投資和創(chuàng)業(yè)的原生動力。有了成功的標桿企業(yè)，會吸引更多人才與資本涌入。

最近我與清華、北大、交大、復(fù)旦等高校最聰明的年輕人交流，感覺可能有一大半的人都在研究具身智能。這與過去兩三年一半的聰明大腦都在做 AI 非常相似。至少，這比 2012 年時中國最頂尖的大腦都在研究如何提高廣告轉(zhuǎn)化率要好得多。

從國家科技發(fā)展的節(jié)奏來看，現(xiàn)在正是中國企業(yè)和學(xué)者可以引領(lǐng)世界前沿的時刻，我們正從追趕者轉(zhuǎn)向原創(chuàng)創(chuàng)新者。同時，具身智能發(fā)展所需的諸多要素也已成熟：大模型技術(shù)、生成技術(shù)、AI 算力以及數(shù)據(jù)中心等基礎(chǔ)設(shè)施的完善，共同將具身技術(shù)推向了爆發(fā)的臨界點。資源和腦力向這些有望突破的方向聚集，絕對是好事。

作為一名深信 Alpha 投資理論的風(fēng)險投資人，我本能地警惕泡沫與市場 hype。但如果站在國家宏觀發(fā)展與戰(zhàn)略角度，這是中國引領(lǐng)世界的絕佳機遇。我們已具備電動車、AI 的基礎(chǔ)，并在半導(dǎo)體和算力上取得突破，完全有能力在具身智能或通用機器人領(lǐng)域真正領(lǐng)先全球。這背后的獎勵如此誘人，所以在資本市場或頂尖高校中，都能看到一股巨大的能量正在積聚。

晚點：目前很多公司都在啟動上市流程，監(jiān)管層面可能不會允許這么多同質(zhì)化的具身智能或機器人公司集中上市。如果出現(xiàn) “有的成功上市，有的沒上成” 的情況，對接下來一級市場的投資和創(chuàng)業(yè)熱情會產(chǎn)生影響嗎？

陳哲：我認為，宇樹是一家商業(yè)質(zhì)量極高的公司。它不是泡沫或概念，而是創(chuàng)造了真實的用戶價值和收入，且經(jīng)營高效。

至于其他公司，能不能上、上了之后表現(xiàn)如何，都是后話。但如果上市預(yù)期破滅，肯定會打擊投資熱情，因為很多投資人的最終目的就是順利退出，沒有上市預(yù)期，大家自然就不會投了。

晚點：面對今年資本市場的不確定性，大量資金涌向一級市場具身智能創(chuàng)業(yè)公司的狂熱現(xiàn)象何時會相對平息？目前的火熱程度超出你的預(yù)期了嗎？

陳哲：很難準確判斷市場和同行的情緒，但目前的狂熱程度絕對超出了我的預(yù)期。

更關(guān)鍵的是技術(shù)發(fā)展的速度?；仡?AI 經(jīng)歷的多個寒冬與周期，市場往往容易對技術(shù)的短期變化抱有過高預(yù)期。盡管我們見過科技周期的冷熱交替，但當下具身智能的浪潮確實過于狂熱。未來一段時間，市場預(yù)期必然會面臨調(diào)整，這種調(diào)整對行業(yè)的沖擊，可能比 “短期內(nèi)能否上市” 要大得多。

我做過一個統(tǒng)計，目前中國估值超過 100 億人民幣或 15 億美元的人形或具身智能公司已超過 20 家。而在 2023 年、2024 年大模型最狂熱時，估值破百億的大模型公司也不過四五家。更何況，大模型今天已經(jīng)展現(xiàn)出極其明確的商業(yè)化和行業(yè)應(yīng)用機會，從 OpenAI 和 Anthropic 的收入就能看出，市場正在快速擁抱這項新技術(shù)。

相比之下，具身智能真正落地還需要很長時間。即使是最頭部的宇樹，目前的收入僅 2 億美元左右，但市場上卻充斥著 20 家估值超百億的公司。這需要一定的時間去吸收泡沫并完成淘汰。

晚點：接下來 1 個季度到半年，比較確定會發(fā)生的事情有哪些？

陳哲：首先，世界模型正快速成為行業(yè)研究熱點。無論是中美哪家公司，誰能在世界模型技術(shù)上拿出顯著超越 Pi 現(xiàn)有 VLA 技術(shù)路線的 demo 或成果，非常值得關(guān)注。

其次，隨著更多研究人員用上帶有觸覺信號、高自由度的靈巧手，未來一兩個季度極有可能會涌現(xiàn)出更多關(guān)于靈巧操作的研究成果。

最后是一件很有意思的事，未來 1 個月內(nèi)將舉辦北京亦莊人形機器人比賽。去年舉辦時，很多人還覺得這只是個噱頭，參賽公司寥寥；但目前，全中國幾乎所有頭部人形機器人公司都在不遺余力地備戰(zhàn)。這種高密度、高競爭性的活動，會極大催生前沿技術(shù)與方案的迸發(fā)和突破。

晚點：早期大家可能更多是把這類比賽當笑話看。

陳哲：以前大家可能會覺得這是個政績工程，但在今年春晚過后，很多人形機器人公司都憋著一股勁，想證明自己不輸給宇樹，甚至在某些領(lǐng)域具備超越宇樹的能力。這種開放、公平的比賽，不僅是展現(xiàn)極致技術(shù)追求與競爭的絕佳土壤，也是一項民眾能理解和欣賞的活動，其表演與宣傳意義同等重要。未來，人形機器人的運動會很有可能成為機器人領(lǐng)域的 F1 。

晚點：最后一個問題，請分享一個此時此刻你覺得很重要、但還不知道答案的問題。

陳哲：這個問題是：人形到底是不是未來通用機器人的最優(yōu)解，還是未來會演化出各種不同的形態(tài)和工作方式？

以前我對此有很多質(zhì)疑，傾向于后者，就像交通工具分為汽車、飛機、輪船一樣。但現(xiàn)在，這個答案對我來說反而更模糊了。見證了機器人幾十年的發(fā)展史，我并不是一個盲目的技術(shù)樂觀主義者。我們深知這極難實現(xiàn)，但技術(shù)突破往往是非線性的。一旦跨過某個臨界點，就會進入正向加速的環(huán)境。

然而，由于機械結(jié)構(gòu)、電機、能量密度等一系列物理限制，我們究竟能不能突破那個臨界點？甚至這個臨界點是否永遠無法企及？今天我依然沒有清晰的答案。但確切的是，全世界的資源、頂尖大腦和龐大算力都在涌向這個領(lǐng)域，試圖攻克最難的問題。因此，我無法斷言這個問題在 5 到 10 年后一定得不到解決，這也正是答案變得更加模糊的原因。

晚點：我們可以把這個問題記錄下來。未來的季度訪談中，我們可以一邊探討新問題，一邊回顧之前想法的變化。

陳哲：這其實和大模型的發(fā)展軌跡很像。從 ChatGPT 誕生至今，大模型發(fā)展了三四年。大家對 “AGI 什么時候到來”、“距離 AGI 還有多遠” 的認知，也是一個起伏震蕩的過程，但最終可能會變得越來越理性或越來越樂觀。我相信通用機器人和人形機器人的發(fā)展，也會經(jīng)歷同樣的心理認知過程。

題圖來源：Sharpa

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.