網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

VLA模型仍存在明顯缺陷大曉機器人攜ACE范式入局

2025-12-22 10:00:37　來源: 態(tài)℃

北京舉報

分享至

出品 | 網(wǎng)易科技《態(tài)度AGI》對話

作者 | 崔玉賢

編輯 | 丁廣勝

2025年，具身智能賽道正以驚人的速度從實驗室邁向產(chǎn)業(yè)前沿。一方面，資本熱情高漲，機器人企業(yè)融資捷報頻傳，估值屢創(chuàng)新高；另一方面，機器人訂單量快速攀升，喜報刷屏。此時，如此擁擠的賽道，依然有新的創(chuàng)業(yè)公司加入。

2025年12月18日，大曉機器人正式宣告亮相。與一般創(chuàng)業(yè)公司不同的是，大曉機器人依托于商湯科技，創(chuàng)業(yè)團隊匯集來自AI、互聯(lián)網(wǎng)、機器人、智能駕駛等領域的頂尖產(chǎn)業(yè)專家：

商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事王曉剛出任董事長，世界級AI科學家陶大程擔任首席科學家。

對于此時進入具身智能賽道的機會點與原因，王曉剛在與網(wǎng)易科技等媒體交流時表示，具身智能賽道頭部卡位尚未完成，該領域還遠未成熟。

從技術路線來看，王曉剛認為技術路線還未收斂，機器人原有的技術路線比如VLA模型存在明顯缺陷。“VLA模型是以機器為中心的，通過輸入指令、圖像和視頻，直接輸出動作，它不太需要去理解真實的物理世界和物理規(guī)律。簡單粗暴地使用端到端或VLA并不能解決具身智能對‘大腦’的期望�！�

在產(chǎn)業(yè)落地方面，也尚未出現(xiàn)規(guī)�；膽��！氨M管機器人賽道如今十分火爆，但現(xiàn)實情況是，目前能夠成規(guī)模量產(chǎn)的機器人場景，要么是提供情緒價值的表演性質產(chǎn)品，要么是作為科研平臺存在，尚未出現(xiàn)能大幅提升生產(chǎn)力的規(guī)�；瘧�。”

而在產(chǎn)業(yè)鏈整合方面，王曉剛認為，機器人行業(yè)的產(chǎn)業(yè)鏈分工尚未完善，從零部件、傳感器到計算芯片等環(huán)節(jié)，都存在很大的垂直整合空間。而這正是大曉機器人的機會。

大曉機器人推出了首創(chuàng)的ACE技術范式，其構建了“環(huán)境式采集+世界模型+具身基模型”的全鏈路技術體系。

“我們采集的數(shù)據(jù)是以人為中心的，人帶上第一視角傳感器，比如視覺或觸覺傳感器，同時結合周圍其他第三視角的攝像頭和傳感器，觀察人在真實生產(chǎn)生活中的行為，再通過視覺手段、多模態(tài)手段分析人的活動，而非關注機器的活動。這樣一來，采集效率會非常高，且能在真實場景中完成，還能記錄人在長程、復雜環(huán)境下完成的動作。”王曉剛解釋道，“另外，我們也會使用合成數(shù)據(jù)，但這種合成數(shù)據(jù)并非來自傳統(tǒng)仿真器——它是通過世界模型完成的。世界模型的優(yōu)勢在于，可以快速、無限地放大現(xiàn)有的真實數(shù)據(jù)，并且能實現(xiàn)各種元素的編輯可控。”

將這兩種技術路線結合起來就是大曉機器人目前要走的技術路線，這也是大曉機器人最核心的優(yōu)勢，但不是唯一。據(jù)王曉剛介紹，大曉機器人強項不僅在于大腦和軟件，還有軟硬一體方案。

“現(xiàn)有本體硬件與實際需求差距大，必須根據(jù)場景聯(lián)合優(yōu)化、重新設計�！彼硎�，大曉已投資鈦虎、鹿明等硬件企業(yè)，與國內(nèi)領先的具身智能企業(yè)合作，推出“具身超級大腦模組A1”，賦予機器狗空間自主導航能力，并與商湯“方舟”視覺平臺打通，延展上百種AI應用功能。

在落地節(jié)奏上，王曉剛提出了三個階段的目標：短期（1年內(nèi)）：以具備自主導航能力的四足機器狗為主，在安防、巡檢等B端場景快速推廣；中期（2-3年）：聚焦前置倉、閃購倉等物流場景，解決人力密集型作業(yè)痛點；長期（5年以上）：探索家庭場景，但需解決安全性、責任界定等復雜問題。

（一排從左往右：李鴻升、陶大程、王曉剛、潘新鋼

二排從左往右：呂健勤、趙恒爽、劉子緯、劉�；郏�

以下為網(wǎng)易科技等媒體與大曉機器人董事長王曉剛的對話部分內(nèi)容：

一、發(fā)布首創(chuàng)ACE技術范式公司對標Figure AI

提問：大曉機器人的名字是如何確定的，以及這些名字背后有著怎樣的意義？

王曉剛：關于這個名字的由來，我們確實琢磨了很久。它取自大程名字里的一個字，也用了我名字中的一個字，背后是有特別寓意的。你看，這大千世界里，機器人與生命的聯(lián)結本身就充滿想象空間，未來這個賽道必然廣闊，潛力更是無限。而我們希望通過科技的力量，讓機器人真正落地應用，精準洞察人們生產(chǎn)生活的需求，用具體可感的服務切實改變大家的生活。這便是這個名字所承載的心意了。

首先我和陶老師，還有其他幾位教授之間，原本就有著很好的信任基礎。我們彼此之間，有的是湯老師的學生，有的是我的學生，現(xiàn)在有的已經(jīng)成為教授，還有的是陶老師的學生。我今天想講的是，具身智能賽道之所以吸引我們，是因為人工智能的發(fā)展從1.0到2.0再到3.0，始終在不斷實現(xiàn)跨越式進步。而每進入一個新的發(fā)展階段，創(chuàng)業(yè)往往是推動創(chuàng)新、加速技術落地的最佳方式。我們這些教授組成的核心團隊之所以能聚在一起投身具身智能領域，也是因為這個賽道需要持續(xù)的創(chuàng)新驅動。

我和陶大程本身都是湯曉鷗教授的學生，在香港中文大學求學期間就建立了深厚的互信基礎。在這個團隊里，陶大程主要負責帶領教授團隊聚焦具身智能方向的持續(xù)研究創(chuàng)新，以強化我們的前沿科技屬性；我這邊則主要負責公司整體戰(zhàn)略規(guī)劃與商業(yè)落地，同時推動優(yōu)秀研究成果的產(chǎn)業(yè)化、工程化轉化。

提問：商湯科技將具身智能業(yè)務剝離出來成為一個獨立的公司，是出于哪些方面的考量呢？

王曉剛：我們就是“1+X”的一個戰(zhàn)略，這本身就是商湯現(xiàn)階段既定的戰(zhàn)略。這個戰(zhàn)略其實也受到了市場和投資人的廣泛認可，因為它既能保障集團盡早實現(xiàn)盈利，又能在基礎設施和大模型方面保持領先，同時順應人工智能持續(xù)創(chuàng)新的發(fā)展趨勢，維持業(yè)務的生命力。今天提到的具身智能，我認為與商湯之前的業(yè)務相比，是一個難能可貴的拓展和補充機會。回顧商湯成立十多年來的發(fā)展，過去更多聚焦于To B軟件業(yè)務，是一家人工智能軟件公司。近年來隨著大模型的發(fā)展，我們布局了大裝置和基礎設施，但在端側的軟硬協(xié)同整體產(chǎn)品方面仍有空白。而機器人的出現(xiàn)恰好提供了這樣一個良好契機，讓我們有機會在具身智能賽道實現(xiàn)軟硬件整合，我們對大曉還是充滿了期待的。

提問：就您個人而言，從商湯到大曉的經(jīng)歷對您來說是怎樣的角色轉換呢？

王曉剛：關于商湯這邊的情況，具體的業(yè)務管理工作我承擔的很少。我的精力會更多集中在AI產(chǎn)業(yè)落地的大曉業(yè)務上。另外，過去我在商湯曾負責過手機、互聯(lián)網(wǎng)、汽車等多條業(yè)務線，對商湯的研發(fā)體系也非常熟悉，各業(yè)務線的同事都曾是一起并肩作戰(zhàn)的戰(zhàn)友。所以現(xiàn)在我們能很好地推動商湯與大模型業(yè)務形成聯(lián)動，開展良好的合作，我覺得這一點是很有優(yōu)勢的。

提問：大曉機器人主要側重于機器人本體還是大腦？

王曉剛：大曉機器人在產(chǎn)品化落地方面，輸出的是軟硬一體的方案，針對各個場景。長期以來，商湯在不同場景積累了較多經(jīng)驗，對客戶需求理解比較充分。從我們團隊來看，比較強的部分在大腦和軟件。同時，在過去兩年里，商湯也投資了一系列本體和零部件公司。然而，在實際場景應用中，現(xiàn)有的本體硬件與實際需求仍存在較大差距。因此，我們會根據(jù)場景需求進行軟硬件聯(lián)合優(yōu)化，協(xié)同供應鏈生態(tài)伙伴，重新設計硬件，使產(chǎn)品更符合客戶需求。

具身智能被期待擁有一個強大的“大腦”，這源于過去幾年在大語言模型和多模態(tài)模型上取得的突破，大家期待將這種語言模型的能力賦予機器人，以實現(xiàn)通用化能力。

但是，我們能夠看到現(xiàn)有技術路線的明顯缺陷，包括VLA模型。VLA模型是以機器為中心的，通過輸入指令、圖像和視頻，直接輸出動作，它不太需要去理解真實的物理世界和物理規(guī)律。我們期待將來有一個更強的“大腦”能去理解世界，這就是我們提出的世界模型。與之伴隨的是我們提出的ACE環(huán)境式采集范式。以前以機器為中心，基于不同物理結構的本體采集真機數(shù)據(jù)，很難綜合得到一個比較通用化的“大腦”。現(xiàn)在環(huán)境式采集是“以人為中心”，通過第一視角、第三視角和多模態(tài)數(shù)據(jù)，更好地對人和物理世界的交互進行建模，并利用這些數(shù)據(jù)訓練我們的世界模型。簡單粗暴地使用端到端或VLA并不能解決具身智能對“大腦”的期望。

提問：你們正在構建以視覺為基礎的‘環(huán)境式采集+世界模型+具身智能模型’全鏈路技術體系。想請您介紹一下，這一技術體系在具體的大曉機器人產(chǎn)品上意味著什么，又能實現(xiàn)怎樣的效果？

王曉剛：環(huán)境式采集，它并非單純局限于視覺模態(tài)，而是融合了多種維度的信息。除了圖像、視頻外，還涵蓋相機位置、物體的3D軌跡等，未來還將納入力、觸覺等多維度、多模態(tài)的數(shù)據(jù)。我們的核心目標是對人和其所處環(huán)境進行建模——這里所說的世界模型，正是圍繞人與他所接觸的世界、所處的環(huán)境展開，需要對人與環(huán)境交互中的物理規(guī)律進行建模，這就離不開視覺之外的諸多維度。

我們可以看到，像特斯拉和Figure AI提出的所謂“視覺方案”，實際上也并非只有視覺維度。特斯拉采用視覺方案的思路源于自動駕駛領域的啟發(fā)，畢竟基于視覺的自動駕駛解決方案已取得成功。但自動駕駛與具身智能存在本質差異：自動駕駛場景中不會發(fā)生物理接觸或交互碰撞，而具身智能場景下，無論是人還是機器人，都需要與周圍物體和環(huán)境產(chǎn)生物理接觸，因此必須納入其他維度的信息。

其實在過去長期的研究中，人體工程學、力學等領域已對人體受力、觸覺相關信息有了深入研究，但由于此前的研究多以機器為中心而非以人為中心，這些成果無法直接應用于具身智能領域。如今我們提出的新研究思路，為人體工程學和力學的重要成果應用于具身領域打開了一扇門。

環(huán)境式采集是數(shù)據(jù)采集的關鍵入口，我們在這方面已有不少積累。比如今年年初，我們團隊的劉子緯教授帶領研究團隊發(fā)布了Ego Life數(shù)據(jù)集，通過各類傳感器記錄了人們在真實生產(chǎn)生活環(huán)境中數(shù)百小時的數(shù)據(jù)，基于這些數(shù)據(jù)開發(fā)出了具身世界模型。再比如去年商湯在巴黎奧運會上，通過架設的視覺傳感器實時分析乒乓球、三人籃球等項目中運動員的動作與球速，為現(xiàn)場解說提供支持，這些實踐都為我們奠定了良好基礎。

有了數(shù)據(jù)之后，如何利用數(shù)據(jù)構建強大的“大腦”——也就是理解世界的世界模型。我們的世界模型主要分為三個部分，而現(xiàn)有多數(shù)世界模型更多基于生成網(wǎng)絡，比如李飛飛團隊的World Lab等，多以生成為主要目的。今天我們提出的世界模型分為三部分，第一部分是多模態(tài)數(shù)據(jù)的融合理好的，這里面的多模態(tài)包含了剛才提到的圖像、視頻、相機位置、3D軌跡，還有力學元素、觸覺等一系列內(nèi)容，它們能夠實現(xiàn)較好的融合。比如，最近我們團隊與南洋理工大學合作了一項名為Puffin的研究，在具身智能領域，輸入一張圖像就能反推出相機的位置。如果機械臂或機器人身上裝有攝像頭，當機械臂運動時，攝像頭隨之移動，我們就能推測出其看到的圖像和視頻會如何變化；反之，通過觀察變化的圖像和視頻，也能反推出機械臂的運動軌跡，這就與物理世界建立了關聯(lián)。

其次，理解物理世界后，需要生成復雜的機器具身行為，包括長時序行為，這些行為需具備物理和因果一致性，并形成長時間記憶。此次我們發(fā)布的具身世界模型“開悟”3.0，已開放基于云服務的API。用戶可以選擇不同場景，讓機器人完成各類動作，還能選擇不同類型的機器人本體，比如宇樹、芝能、銀河等品牌的機器人。系統(tǒng)會根據(jù)所選機器人本體、場景及任務，合成機器人完成動作的視頻，以及各關節(jié)軌跡參數(shù)。這些數(shù)據(jù)可用于訓練機器人“大腦”，利用世界模型合成的大量數(shù)據(jù)提升機器人性能。

第三部分是預測功能，根據(jù)所選機器人本體、觀察到的圖像及視頻狀態(tài)，可預測機器人后續(xù)動作。這種“理解-合成-預測”的融合能力，正是我們強大的世界模型的核心。最后，通過具身機模型，我們能將強大的具身“大腦”遷移到不同機器人本體上，指揮機器人完成各類操作。因此，環(huán)境式素材、世界模型與具身機模型共同構成了我們以人為中心的研發(fā)新范式。

提問：對于大曉機器人來說，有沒有明確的短期或長期目標？或者說，想要在行業(yè)內(nèi)達到一個什么樣的位置？

王曉剛：我們有幾個方向，首先從產(chǎn)品目標來看，其實我們分為短期、中期和長期。最短期的話，除了剛才提到的提供情緒價值的表演類機器人外，我們認為短期內(nèi)能夠規(guī)�；涞氐�，是搭載了導航能力與各類AI應用能力的四足機器狗。此前這類產(chǎn)品未能廣泛應用，很大原因在于空間自主能力不足。而現(xiàn)在我們已突破這一技術瓶頸，且將其與后端各類AI應用相結合，因此我們認為它有望實現(xiàn)廣泛應用。

中期目標則聚焦于未來兩到三年的時間范圍。我們看好工業(yè)場景與商業(yè)服務場景，其中會優(yōu)先選擇閃購倉、前置倉這類商業(yè)服務場景。因為從明年開始，國內(nèi)將出現(xiàn)大量前置倉與閃購倉，這類場景需要大量人力支持7×24小時服務，而機器人的加入不僅能提升生產(chǎn)效率，還具備較強的可復制性，能夠充分發(fā)揮其在這類環(huán)境中的優(yōu)勢。

更遠期的目標則指向五年后的家庭場景，但這更多涉及前沿技術的探索。例如Figure AI目前瞄準的就是這類場景，我們也將其作為重點研究方向。

若從技術與行業(yè)影響力的角度來看，首先是我們剛才提到的ACE這種新的具身智能范式，我們希望它能在行業(yè)中發(fā)揮引領作用。其次是我們的世界模型，在本次發(fā)布會上，我們將開源這一模型，并與云廠商及各類國產(chǎn)芯片廠商展開密切合作，以此找到關鍵生態(tài)位，推動整個世界模型生態(tài)的發(fā)展。

提問：您剛才多次提到的環(huán)境采集技術，目前主要的技術難點在哪里？大曉在開發(fā)過程中遇到了哪些技術卡點？積累的數(shù)據(jù)是否會構成公司未來的核心競爭壁壘？以及大曉公司的優(yōu)勢方面有哪些？

王曉剛：今天提到的環(huán)境式采集，我認為首先在采集裝備方面，目前行業(yè)內(nèi)還沒有一套已形成共識、足夠魯棒穩(wěn)定的環(huán)境式采集設備，這是我們需要突破的方向，并且要實現(xiàn)規(guī)�；瘧�。這類設備的采集方式需要降低成本、便于部署，人穿戴后不影響正常生產(chǎn)生活，周圍部署時也應較為便捷。這其中還涉及硬件穩(wěn)定性、數(shù)據(jù)同步等一系列問題，所以打造一套低成本、易部署、高可靠的設備是行業(yè)內(nèi)比較關鍵且缺失的環(huán)節(jié)。

第二個方面，當這些設備完成數(shù)據(jù)采集后，我們需要借助自動化手段分析人的行為，有效提取多模態(tài)數(shù)據(jù)。由于環(huán)境式采集記錄的是人類行為，產(chǎn)生的數(shù)據(jù)量非常龐大，不可能完全依賴人工標注，因此更需要實現(xiàn)自動化的信息提取，這也是一個重要方向。

第三個點，正如我們之前提到的，今天的環(huán)境式素材不僅要基于視覺，還需結合力覺、人體工程學等其他維度。這些維度涉及的新技術、新度量指標以往不在我們的研究領域內(nèi)，需要跨學科合作，將其他學科的研究成果引入環(huán)境式素材采集領域，這樣才能更充分地理解物理環(huán)境與物理規(guī)律。

二、具身智能卡位未確定軟硬件一體更有優(yōu)勢

提問：現(xiàn)在具身智能賽道的競爭其實已經(jīng)非常激烈了，今年人形機器人的價格甚至已經(jīng)降到萬元以內(nèi)。在這個節(jié)點上，商湯宣布要加入具身智能賽道，您認為這背后的契機是什么？大曉的核心競爭力又體現(xiàn)在哪里？

王曉剛：我覺得有兩點，剛才說到的第一點是我們看到了一個與以往不同的新研究范式，也就是以人為中心的ACE研究范式。這種研究范式的轉變，往往會給行業(yè)帶來顛覆性的變化。比如特斯拉、Figure AI等企業(yè)都在迅速朝著這個方向調整，他們的新研究思路與我們在某些方面不謀而合。從時機角度來看，這是一個關鍵的時間點——如果一直沿著原有的范式前進，追趕或超越會非常困難，只有在這種革命性變化出現(xiàn)時，我們才有機會實現(xiàn)突破。

第二點是產(chǎn)業(yè)落地。雖然目前做具身的公司很多，但我們走訪了大量客戶后發(fā)現(xiàn)，他們對具身領域軟硬件一體的產(chǎn)品充滿期待。因為在過去十年里，商湯在各個垂直領域深入了解了客戶對人工智能的需求。商湯過去十幾年積累了幾千家客戶，覆蓋眾多行業(yè)方向，每個方向都有專門的應用開發(fā)團隊，但此前缺少機器人載體的軟硬件平臺。因此，當我們進入這個領域時，能夠快速實現(xiàn)規(guī)�；膱鼍奥涞�，讓機器人的價值成倍放大。

我舉個例子，這次發(fā)布會上我們推出的具備自主導航能力的機器狗，就解決了現(xiàn)有產(chǎn)品的痛點。目前市面上的機器狗大多需要人工操控，即便用于巡檢，也只能在固定線路依賴高精度地圖，在預設點位拍照，產(chǎn)業(yè)價值十分有限，而且缺乏空間自主能力。而我們這次發(fā)布的機管平臺可以同時控制多條機器狗，每條狗都具備獨立的空間導航和自主行動能力，在地圖上選定任意地點，它就能自主前往，無需人工干預。更重要的是，機器狗的視頻數(shù)據(jù)會與商湯后臺強大的視覺平臺“方舟”打通。方舟平臺目前已接入幾十萬路攝像頭的數(shù)據(jù)，能支持各類視覺應用和分析。一旦機器狗與方舟打通，上百種相關的人工智能應用都可以遷移到機器狗平臺上。相比之前只能在固定巡檢場景拍照，現(xiàn)在機器狗一下子被賦予了上百種AI功能，價值得到了充分釋放。更何況商湯在國內(nèi)外擁有豐富的渠道和客戶資源，所以在這個時間點推動具身智能加速落地，正是市場所期待的。到26年，也就是明年、后年。

提問：就機器人賽道，尤其是具身智能賽道而言，過去一年熱度很高，已經(jīng)涌現(xiàn)出不少本體廠商和零部件廠商，其中一些還在推動規(guī)�；涞�。商湯在此時進入具身智能賽道，想請教您如何看待商湯在整個市場中的生態(tài)卡位，以及相較于其他廠商，商湯具備哪些優(yōu)勢？”

王曉剛：我們離具體場景和應用更近，目標是輸出軟硬結合的一體化產(chǎn)品，切實解決各行業(yè)及場景中的實際問題。因為行業(yè)里有多種本體硬件方案可供選擇，我們需要做的，就是結合場景需求，以及剛才提到的ACE新研發(fā)范式的要求，去選擇最適合其發(fā)展的硬件方案及組合，并與這些本體和零部件企業(yè)緊密合作，推動我們的機器人實現(xiàn)規(guī)模化推廣，最終達成共贏的目標。

提問：我們注意到大曉機器人項目匯聚了包括陶院士在內(nèi)的全球頂尖AI科學家。想請教一下，這樣一支實力雄厚的團隊，在具身智能賽道上的核心優(yōu)勢，將如何轉化為產(chǎn)業(yè)落地的實際效能？”

王曉剛：我覺得首先在具身這個賽道里，目前技術還沒有收斂，仍有很多創(chuàng)新點需要推進，所以這是一個需要持續(xù)創(chuàng)新的賽道。我和大程以及這些年輕教授正結合在一起形成合力，包括剛才提到的ACE新范式，從數(shù)據(jù)采集到具身基模型，要攻克的技術難點還有很多，單一團隊很難完成整個鏈條，所以我們需要更好地結合。我們這個團隊的基礎是非�；バ诺�，我和大程在碩士階段跟著湯老師讀書時就是室友，有很好的默契；其他幾位老師也都是我們的學生，大家傳承著湯老師堅持原創(chuàng)的理念，能在合作中形成默契。其實很多教授自己也想過創(chuàng)業(yè)，這些明星教授任何一位都可以去創(chuàng)業(yè)，但今天我們要團結起來，集中科研力量和創(chuàng)新能力去做更大的事，把規(guī)模做大。同時，這些先進技術要落到產(chǎn)業(yè)中，大曉聚集了一批產(chǎn)業(yè)界卓越的專家，他們有豐富的產(chǎn)業(yè)落地經(jīng)驗，負責搭建工程化軟硬件平臺，還會和硬件結合。這樣就能把研究上的領先性、創(chuàng)新性與現(xiàn)實中的落地工程化能力結合起來，讓項目持續(xù)領先，不斷擴大規(guī)模。

提問：目前這個具身智能這個行業(yè)里邊頭部卡位，您覺得它已經(jīng)完成了嗎？新的創(chuàng)業(yè)公司他們的機會點會在哪？

王曉剛：我認為頭部卡位還沒有完成，這個領域其實還遠未成熟，首先從技術路線來看，目前機器人行業(yè)原有的技術路線存在明顯缺陷。比如特斯拉和Figure AI在過去兩三個月內(nèi)，都放棄了以真機為主的技術路線，轉向以視覺為主的技術路線。但我剛才也提到，視覺為主的技術路線并非終極方案，所以我們提出了ACE研究范式。當研究范式和技術路線發(fā)生重大轉變時，會給整個產(chǎn)業(yè)帶來深遠影響——類比自動駕駛領域，過去長期的研發(fā)積累在端到端自動駕駛這一新路線出現(xiàn)后，包括數(shù)據(jù)、研發(fā)體系在內(nèi)的前期成果很快被顛覆。而在正確技術路線的指引下，產(chǎn)品體驗和技術成熟度會快速提升，這是從研發(fā)范式角度的第一個觀點。

第二點看場景落地，盡管機器人賽道如今十分火爆，但現(xiàn)實情況是，目前能夠成規(guī)模量產(chǎn)的機器人場景，要么是提供情緒價值的表演性質產(chǎn)品，要么是作為科研平臺存在，尚未出現(xiàn)能大幅提升生產(chǎn)力的規(guī)�；瘧�。各垂直領域的場景中，機器人還未廣泛進入并實現(xiàn)量產(chǎn)，這意味著巨大的發(fā)展機會。只有當機器人規(guī)模化進入場景，通過軟硬件協(xié)同迭代，整個產(chǎn)業(yè)格局才會發(fā)生顯著變化。

第三點是產(chǎn)業(yè)鏈層面，機器人行業(yè)的產(chǎn)業(yè)鏈分工尚未完善，從零部件、傳感器到計算芯片等環(huán)節(jié)，都存在很大的垂直整合空間。

正如大家提到的成本問題，當前機器人成本依然很高，而在質量、可靠性、一致性等方面，行業(yè)也還處于相對初期的階段。因此，我認為整個機器人產(chǎn)業(yè)的格局遠遠沒有確定下來。

提問：在零部件方面，我們投資了一些企業(yè)。大曉機器人的硬件方面，包括傳感器、電機、減速器、控制器等，是與哪些企業(yè)合作？有沒有技術亮點和創(chuàng)新可以分享？

王曉剛：我們背投的企業(yè)中，例如鈦虎、鹿明等未來都會有合作關系，它們與硬件相關。在傳感器的方面，我們應用了全景相機�，F(xiàn)有的傳感器視角較窄，在路口等場景中，機器人可能看不清全路，例如機器狗過馬路看不到紅綠燈。我們與影石Insta360合作，將全景相機的能力賦予到機器人上，這是一個關鍵的零部件亮點。機器人的產(chǎn)業(yè)鏈條比較長，我們在場景應用中會不斷改進零部件，并與供應鏈上下游企業(yè)密切合作。

提問：我們現(xiàn)在一個單體的制造成本是怎么樣的？

王曉剛：這個方案目前仍處于持續(xù)優(yōu)化階段。這次發(fā)布中，我們以這個機器狗，也就是四足機器人為例推出了一款“具身超級大腦模組A1”產(chǎn)品。該產(chǎn)品的本體部分目前采用的是現(xiàn)有的硬件方案，像宇樹、智元、云深處等品牌的機器狗都能較好地適配我們現(xiàn)有的導航零組件，從而使其具備空間自主能力。不過未來，我們還需要與各硬件生態(tài)企業(yè)展開合作，共同推動相關成本的降低。

提問：目前是否有已簽約的外部合作訂單？

王曉剛：關于具身智能超級大腦模組A1，我們本月將要發(fā)布。實際上，我們過去走訪了大量客戶，發(fā)布會后也正積極與這些客戶推進產(chǎn)品試點。從軟件層面來看，例如世界模型、具身相關大模型以及數(shù)據(jù)領域，我們已經(jīng)有了一些訂單。但說到未來重點推出的軟硬一體產(chǎn)品，我們期待明年能實現(xiàn)大規(guī)模落地。

提問：目前大曉在數(shù)據(jù)規(guī)模層面區(qū)別于傳統(tǒng)模式？傳統(tǒng)模式多以純真實數(shù)據(jù)或純仿真數(shù)據(jù)為主導，而我們則在數(shù)據(jù)領域開辟了一種全新的范式？

王曉剛：是的。這種方式與特斯拉和Figure AI最近采取的記錄人類活動的數(shù)據(jù)采集方式比較接近。像Figure AI，目標場景是家庭場景。家庭場景會涉及不同的戶型和房屋結構，所以他們和Brookfield等知名的資產(chǎn)管理公司合作。這些公司在全球擁有幾百萬套不同的公寓戶型，他們可以進入各種不同戶型采集數(shù)據(jù)。不過現(xiàn)在我們有了世界模型這個手段，就可以在虛擬世界里改變這些戶型。比如這次發(fā)布會，我們也會和西南設計院合作，他們歷史上積累了大量不同的房屋戶型、布局和類型，這些數(shù)據(jù)能和我們現(xiàn)有機器人產(chǎn)生的數(shù)據(jù)相結合。這樣一來，我們就能讓機器人在合成的不同房屋布局、房型和戶型中模擬活動。

三、未來1-2將進入技術收斂關鍵期

提問：您覺得在機器人的整個產(chǎn)業(yè)鏈條中，是整機企業(yè)能夠成為產(chǎn)業(yè)鏈的鏈主，還是核心零部件企業(yè)在產(chǎn)業(yè)鏈中的話語權更大呢？

王曉剛：我認為目前輸出的應該是整軟硬一體協(xié)同產(chǎn)品，而且要以場景為導向。所以今天我們可以看到，咱們的機器人無論是軟件還是硬件，和場景需求之間的差距其實都比較大。而且機器人和汽車、手機不同——汽車和手機的通用性非常強，但機器人和各個場景的關聯(lián)度是非常密切的。這就是為什么我們覺得，在當下，只有從整機角度出發(fā)，以場景需求為出發(fā)點，才能把我們的公司乃至整個產(chǎn)業(yè)做大做強。

提問：目前真機數(shù)據(jù)與仿真數(shù)據(jù)存在爭議的產(chǎn)業(yè)狀況下，您更支持哪一種數(shù)據(jù)呢？

王曉剛：我們所說的“真機數(shù)據(jù)”，是指人操縱、搖控機器人所產(chǎn)生的數(shù)據(jù)，這是以前大家常用的數(shù)據(jù)采集方式，但它存在不少缺點。第一，采集效率非常低；第二，無法在真實的生產(chǎn)生活場景中采集數(shù)據(jù)，比如你沒辦法通過這種方式在工廠產(chǎn)線或家庭生活環(huán)境中獲取這類數(shù)據(jù)；另外，它只能采集一些簡單動作，可能持續(xù)十幾秒，但像打掃房間這類持續(xù)幾十分鐘甚至更長時間的長程動作，或是機器人與人之間的交互動作，都無法靠真機完成。

而你提到的“合成數(shù)據(jù)”，是通過3D仿真器、仿真引擎合成的數(shù)據(jù)，這類數(shù)據(jù)與真實數(shù)據(jù)之間存在較大差距。所以說，這兩種都是過去大家較多采用的數(shù)據(jù)采集方式，它們都無法解決當前具身智能領域的數(shù)據(jù)問題。

我們今天要做的，首先是——我們采集的數(shù)據(jù)是以人為中心的：人帶上第一視角傳感器，比如視覺或觸覺傳感器，同時結合周圍其他第三視角的攝像頭和傳感器，觀察人在真實生產(chǎn)生活中的行為，再通過視覺手段、多模態(tài)手段分析人的活動，而非關注機器的活動。

這樣一來，采集效率會非常高，且能在真實場景中完成，還能記錄人在長程、復雜環(huán)境下完成的動作。

另外，我們也會使用合成數(shù)據(jù)，但這種合成數(shù)據(jù)并非來自傳統(tǒng)仿真器——它是通過世界模型完成的。世界模型的優(yōu)勢在于，可以快速、無限地放大現(xiàn)有的真實數(shù)據(jù)，并且能實現(xiàn)各種元素的編輯可控。比如，我可以把桌子換成不同顏色，把水杯換成不同型號，甚至更換機械臂也能實現(xiàn)。通過世界模型，我們能將有限的真實采集數(shù)據(jù)迅速放大。把這兩種方式結合起來，就是我們要走的技術路線。

提問：具身智能的技術路線很多，您認為何時技術會出現(xiàn)收斂，然后收斂的關鍵因素是什么？

王曉剛：我認為今天我們提出的“以人為中心”的ACE范式，大方向是正確的。我們看到特斯拉、Figure AI等企業(yè)，其實也在朝著這個方向轉變。所以我覺得接下來的一兩年會是非常關鍵的時期。當然，盡管大方向明確，但仍有不少技術難題需要攻克，包括具體的實現(xiàn)細節(jié)，其收斂還需要一定時間。不過我想，我們今天已經(jīng)找到了這個大方向，而要加速它的收斂，還需要充分結合場景驗證——從客戶的場景和需求出發(fā)，實現(xiàn)軟硬件的協(xié)同優(yōu)化。

提問：有說法說是2025年是機器人的量產(chǎn)之年，請您預測具身智能在工業(yè)，家庭等場景的一個規(guī)�；逃玫臅r間表是什么樣的？

王曉剛：我認為機器人要在工業(yè)和家庭場景實現(xiàn)大規(guī)模應用，目前還有相當長的距離。先看工業(yè)領域，如果我們討論的是工廠產(chǎn)線這類場景，首先面臨的是方案復制性問題，在某一條產(chǎn)線或某個場景中開發(fā)出的機器人方案，能否快速推廣到其他工廠？這其實很難實現(xiàn)。另外，工業(yè)產(chǎn)線的數(shù)據(jù)安全性要求極高，各家產(chǎn)線都是核心機密，企業(yè)不愿讓數(shù)據(jù)外流，所以產(chǎn)線數(shù)據(jù)的打通也面臨巨大挑戰(zhàn)。

再看家庭場景，我們期待機器人完成一些復雜任務，同時安全性是關鍵問題。家里有老人和孩子，不能讓機器人傷到他們。就像自動駕駛領域有主動安全機制，L3、L4級自動駕駛若出事故，車廠和自動駕駛公司要承擔責任；而機器人進入家庭后，如果碰到人，或是給老人、孩子端茶送水、遞食物藥物時出了安全問題，責任該如何界定？這些都是需要解決的問題。

不過，在一些其他場景，比如機器狗已經(jīng)能在開放環(huán)境中穩(wěn)定移動，我認為在各類TO B場景中是可以快速落地的。像閃購倉、前置倉這類物流配送場景，各個倉的環(huán)境相對類似，容易實現(xiàn)規(guī)�；瘧�。但目前也存在一些問題：一是機器人的數(shù)據(jù)采集并非在真實的生產(chǎn)生活環(huán)境中進行；二是機器人技術開發(fā)，無論是硬件還是其他方面，很多時候與實際場景脫節(jié)，更多是做Demo來展示機器人本體某方面的強大能力，和落地場景的實際需求存在差異，這是接下來需要重點解決的問題。目前的情況進工廠其實是可以的，但要實現(xiàn)規(guī)模化，也就是在工廠場景中取得很好的商業(yè)成功，這比較難，進家庭的話，可能距離更遠一些。

提問：關于融資的問題，今年國內(nèi)幾家機器人企業(yè)的融資情況都非常好，而且整體速度也非�？�。不過有觀點認為，機器人賽道的融資速度已經(jīng)超過了行業(yè)正常發(fā)展的速度。作為業(yè)內(nèi)人士，您怎么看待這一熱度現(xiàn)象？

王曉剛：我覺得這還是得看我們所處的賽道。畢竟機器人是一個幾十萬級的賽道，目前還處于相對發(fā)展的初期階段。和過去的手機、汽車等領域相比，它的體量要大得多。所以我認為，當下大家在融資和投入方面的這些動作，未來還會持續(xù)，最終能給市場帶來更大的回報。

另外，對比美國那些具身機器人公司，我覺得我們在融資和投入上還有進一步提升的空間。而且正如之前提到的，這個賽道還沒到收斂階段，仍在不斷涌現(xiàn)新的機會點。我們和投資人交流時發(fā)現(xiàn)，他們原本以為相關領域已經(jīng)被投得差不多了，發(fā)展方向也趨于收斂，但當我們把自己的思路、落地規(guī)劃展示給他們時，他們還是看到了一些不一樣的亮點和新方向。