国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

VLA模型仍存在明顯缺陷 大曉機器人攜ACE范式入局

0
分享至


出品 | 網(wǎng)易科技《態(tài)度AGI》對話

作者 | 崔玉賢

編輯 | 丁廣勝

2025年,具身智能賽道正以驚人的速度從實驗室邁向產(chǎn)業(yè)前沿。一方面,資本熱情高漲,機器人企業(yè)融資捷報頻傳,估值屢創(chuàng)新高;另一方面,機器人訂單量快速攀升,喜報刷屏。此時,如此擁擠的賽道,依然有新的創(chuàng)業(yè)公司加入。

2025年12月18日,大曉機器人正式宣告亮相。與一般創(chuàng)業(yè)公司不同的是,大曉機器人依托于商湯科技,創(chuàng)業(yè)團隊匯集來自AI、互聯(lián)網(wǎng)、機器人、智能駕駛等領(lǐng)域的頂尖產(chǎn)業(yè)專家:

商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事王曉剛出任董事長,世界級AI科學(xué)家陶大程擔(dān)任首席科學(xué)家。

對于此時進入具身智能賽道的機會點與原因,王曉剛在與網(wǎng)易科技等媒體交流時表示,具身智能賽道頭部卡位尚未完成,該領(lǐng)域還遠未成熟。

從技術(shù)路線來看,王曉剛認為技術(shù)路線還未收斂,機器人原有的技術(shù)路線比如VLA模型存在明顯缺陷。“VLA模型是以機器為中心的,通過輸入指令、圖像和視頻,直接輸出動作,它不太需要去理解真實的物理世界和物理規(guī)律。簡單粗暴地使用端到端或VLA并不能解決具身智能對‘大腦’的期望?!?/p>

在產(chǎn)業(yè)落地方面,也尚未出現(xiàn)規(guī)?;膽?yīng)用?!氨M管機器人賽道如今十分火爆,但現(xiàn)實情況是,目前能夠成規(guī)模量產(chǎn)的機器人場景,要么是提供情緒價值的表演性質(zhì)產(chǎn)品,要么是作為科研平臺存在,尚未出現(xiàn)能大幅提升生產(chǎn)力的規(guī)模化應(yīng)用。

而在產(chǎn)業(yè)鏈整合方面,王曉剛認為,機器人行業(yè)的產(chǎn)業(yè)鏈分工尚未完善,從零部件、傳感器到計算芯片等環(huán)節(jié),都存在很大的垂直整合空間。而這正是大曉機器人的機會。

大曉機器人推出了首創(chuàng)的ACE技術(shù)范式,其構(gòu)建了“環(huán)境式采集+世界模型+具身基模型”的全鏈路技術(shù)體系。

我們采集的數(shù)據(jù)是以人為中心的,人帶上第一視角傳感器,比如視覺或觸覺傳感器,同時結(jié)合周圍其他第三視角的攝像頭和傳感器,觀察人在真實生產(chǎn)生活中的行為,再通過視覺手段、多模態(tài)手段分析人的活動,而非關(guān)注機器的活動。這樣一來,采集效率會非常高,且能在真實場景中完成,還能記錄人在長程、復(fù)雜環(huán)境下完成的動作。”王曉剛解釋道,“另外,我們也會使用合成數(shù)據(jù),但這種合成數(shù)據(jù)并非來自傳統(tǒng)仿真器——它是通過世界模型完成的。世界模型的優(yōu)勢在于,可以快速、無限地放大現(xiàn)有的真實數(shù)據(jù),并且能實現(xiàn)各種元素的編輯可控。

將這兩種技術(shù)路線結(jié)合起來就是大曉機器人目前要走的技術(shù)路線,這也是大曉機器人最核心的優(yōu)勢,但不是唯一。據(jù)王曉剛介紹,大曉機器人強項不僅在于大腦和軟件,還有軟硬一體方案。

“現(xiàn)有本體硬件與實際需求差距大,必須根據(jù)場景聯(lián)合優(yōu)化、重新設(shè)計?!彼硎?,大曉已投資鈦虎、鹿明等硬件企業(yè),與國內(nèi)領(lǐng)先的具身智能企業(yè)合作,推出“具身超級大腦模組A1”,賦予機器狗空間自主導(dǎo)航能力,并與商湯“方舟”視覺平臺打通,延展上百種AI應(yīng)用功能。

在落地節(jié)奏上,王曉剛提出了三個階段的目標:短期(1年內(nèi)):以具備自主導(dǎo)航能力的四足機器狗為主,在安防、巡檢等B端場景快速推廣;中期(2-3年):聚焦前置倉、閃購倉等物流場景,解決人力密集型作業(yè)痛點;長期(5年以上):探索家庭場景,但需解決安全性、責(zé)任界定等復(fù)雜問題。

VLA模型仍存在明顯缺陷 大曉機器人攜ACE范式入局

(一排從左往右:李鴻升、陶大程、王曉剛、潘新鋼

二排從左往右:呂健勤、趙恒爽、劉子緯、劉?;郏?/p>

以下為網(wǎng)易科技等媒體與大曉機器人董事長王曉剛的對話部分內(nèi)容:

一、發(fā)布首創(chuàng)ACE技術(shù)范式 公司對標Figure AI

提問:大曉機器人的名字是如何確定的,以及這些名字背后有著怎樣的意義?

王曉剛:關(guān)于這個名字的由來,我們確實琢磨了很久。它取自大程名字里的一個字,也用了我名字中的一個字,背后是有特別寓意的。你看,這大千世界里,機器人與生命的聯(lián)結(jié)本身就充滿想象空間,未來這個賽道必然廣闊,潛力更是無限。而我們希望通過科技的力量,讓機器人真正落地應(yīng)用,精準洞察人們生產(chǎn)生活的需求,用具體可感的服務(wù)切實改變大家的生活。這便是這個名字所承載的心意了。

首先我和陶老師,還有其他幾位教授之間,原本就有著很好的信任基礎(chǔ)。我們彼此之間,有的是湯老師的學(xué)生,有的是我的學(xué)生,現(xiàn)在有的已經(jīng)成為教授,還有的是陶老師的學(xué)生。我今天想講的是,具身智能賽道之所以吸引我們,是因為人工智能的發(fā)展從1.0到2.0再到3.0,始終在不斷實現(xiàn)跨越式進步。而每進入一個新的發(fā)展階段,創(chuàng)業(yè)往往是推動創(chuàng)新、加速技術(shù)落地的最佳方式。我們這些教授組成的核心團隊之所以能聚在一起投身具身智能領(lǐng)域,也是因為這個賽道需要持續(xù)的創(chuàng)新驅(qū)動。

我和陶大程本身都是湯曉鷗教授的學(xué)生,在香港中文大學(xué)求學(xué)期間就建立了深厚的互信基礎(chǔ)。在這個團隊里,陶大程主要負責(zé)帶領(lǐng)教授團隊聚焦具身智能方向的持續(xù)研究創(chuàng)新,以強化我們的前沿科技屬性;我這邊則主要負責(zé)公司整體戰(zhàn)略規(guī)劃與商業(yè)落地,同時推動優(yōu)秀研究成果的產(chǎn)業(yè)化、工程化轉(zhuǎn)化。

提問:商湯科技將具身智能業(yè)務(wù)剝離出來成為一個獨立的公司,是出于哪些方面的考量呢?

王曉剛:我們就是“1+X”的一個戰(zhàn)略,這本身就是商湯現(xiàn)階段既定的戰(zhàn)略。這個戰(zhàn)略其實也受到了市場和投資人的廣泛認可,因為它既能保障集團盡早實現(xiàn)盈利,又能在基礎(chǔ)設(shè)施和大模型方面保持領(lǐng)先,同時順應(yīng)人工智能持續(xù)創(chuàng)新的發(fā)展趨勢,維持業(yè)務(wù)的生命力。今天提到的具身智能,我認為與商湯之前的業(yè)務(wù)相比,是一個難能可貴的拓展和補充機會。回顧商湯成立十多年來的發(fā)展,過去更多聚焦于To B軟件業(yè)務(wù),是一家人工智能軟件公司。近年來隨著大模型的發(fā)展,我們布局了大裝置和基礎(chǔ)設(shè)施,但在端側(cè)的軟硬協(xié)同整體產(chǎn)品方面仍有空白。而機器人的出現(xiàn)恰好提供了這樣一個良好契機,讓我們有機會在具身智能賽道實現(xiàn)軟硬件整合,我們對大曉還是充滿了期待的。

提問:就您個人而言,從商湯到大曉的經(jīng)歷對您來說是怎樣的角色轉(zhuǎn)換呢?

王曉剛:關(guān)于商湯這邊的情況,具體的業(yè)務(wù)管理工作我承擔(dān)的很少。我的精力會更多集中在AI產(chǎn)業(yè)落地的大曉業(yè)務(wù)上。另外,過去我在商湯曾負責(zé)過手機、互聯(lián)網(wǎng)、汽車等多條業(yè)務(wù)線,對商湯的研發(fā)體系也非常熟悉,各業(yè)務(wù)線的同事都曾是一起并肩作戰(zhàn)的戰(zhàn)友。所以現(xiàn)在我們能很好地推動商湯與大模型業(yè)務(wù)形成聯(lián)動,開展良好的合作,我覺得這一點是很有優(yōu)勢的。

提問:大曉機器人主要側(cè)重于機器人本體還是大腦?

王曉剛:大曉機器人在產(chǎn)品化落地方面,輸出的是軟硬一體的方案,針對各個場景。長期以來,商湯在不同場景積累了較多經(jīng)驗,對客戶需求理解比較充分。從我們團隊來看,比較強的部分在大腦和軟件。同時,在過去兩年里,商湯也投資了一系列本體和零部件公司。然而,在實際場景應(yīng)用中,現(xiàn)有的本體硬件與實際需求仍存在較大差距。因此,我們會根據(jù)場景需求進行軟硬件聯(lián)合優(yōu)化,協(xié)同供應(yīng)鏈生態(tài)伙伴,重新設(shè)計硬件,使產(chǎn)品更符合客戶需求。

具身智能被期待擁有一個強大的“大腦”,這源于過去幾年在大語言模型和多模態(tài)模型上取得的突破,大家期待將這種語言模型的能力賦予機器人,以實現(xiàn)通用化能力。

但是,我們能夠看到現(xiàn)有技術(shù)路線的明顯缺陷,包括VLA模型。VLA模型是以機器為中心的,通過輸入指令、圖像和視頻,直接輸出動作,它不太需要去理解真實的物理世界和物理規(guī)律。我們期待將來有一個更強的“大腦”能去理解世界,這就是我們提出的世界模型。與之伴隨的是我們提出的ACE環(huán)境式采集范式。以前以機器為中心,基于不同物理結(jié)構(gòu)的本體采集真機數(shù)據(jù),很難綜合得到一個比較通用化的“大腦”。現(xiàn)在環(huán)境式采集是“以人為中心”,通過第一視角、第三視角和多模態(tài)數(shù)據(jù),更好地對人和物理世界的交互進行建模,并利用這些數(shù)據(jù)訓(xùn)練我們的世界模型。簡單粗暴地使用端到端或VLA并不能解決具身智能對“大腦”的期望。

提問:你們正在構(gòu)建以視覺為基礎(chǔ)的‘環(huán)境式采集+世界模型+具身智能模型’全鏈路技術(shù)體系。想請您介紹一下,這一技術(shù)體系在具體的大曉機器人產(chǎn)品上意味著什么,又能實現(xiàn)怎樣的效果?

王曉剛:環(huán)境式采集,它并非單純局限于視覺模態(tài),而是融合了多種維度的信息。除了圖像、視頻外,還涵蓋相機位置、物體的3D軌跡等,未來還將納入力、觸覺等多維度、多模態(tài)的數(shù)據(jù)。我們的核心目標是對人和其所處環(huán)境進行建?!@里所說的世界模型,正是圍繞人與他所接觸的世界、所處的環(huán)境展開,需要對人與環(huán)境交互中的物理規(guī)律進行建模,這就離不開視覺之外的諸多維度。

我們可以看到,像特斯拉和Figure AI提出的所謂“視覺方案”,實際上也并非只有視覺維度。特斯拉采用視覺方案的思路源于自動駕駛領(lǐng)域的啟發(fā),畢竟基于視覺的自動駕駛解決方案已取得成功。但自動駕駛與具身智能存在本質(zhì)差異:自動駕駛場景中不會發(fā)生物理接觸或交互碰撞,而具身智能場景下,無論是人還是機器人,都需要與周圍物體和環(huán)境產(chǎn)生物理接觸,因此必須納入其他維度的信息。

其實在過去長期的研究中,人體工程學(xué)、力學(xué)等領(lǐng)域已對人體受力、觸覺相關(guān)信息有了深入研究,但由于此前的研究多以機器為中心而非以人為中心,這些成果無法直接應(yīng)用于具身智能領(lǐng)域。如今我們提出的新研究思路,為人體工程學(xué)和力學(xué)的重要成果應(yīng)用于具身領(lǐng)域打開了一扇門。

環(huán)境式采集是數(shù)據(jù)采集的關(guān)鍵入口,我們在這方面已有不少積累。比如今年年初,我們團隊的劉子緯教授帶領(lǐng)研究團隊發(fā)布了Ego Life數(shù)據(jù)集,通過各類傳感器記錄了人們在真實生產(chǎn)生活環(huán)境中數(shù)百小時的數(shù)據(jù),基于這些數(shù)據(jù)開發(fā)出了具身世界模型。再比如去年商湯在巴黎奧運會上,通過架設(shè)的視覺傳感器實時分析乒乓球、三人籃球等項目中運動員的動作與球速,為現(xiàn)場解說提供支持,這些實踐都為我們奠定了良好基礎(chǔ)。

有了數(shù)據(jù)之后,如何利用數(shù)據(jù)構(gòu)建強大的“大腦”——也就是理解世界的世界模型。我們的世界模型主要分為三個部分,而現(xiàn)有多數(shù)世界模型更多基于生成網(wǎng)絡(luò),比如李飛飛團隊的World Lab等,多以生成為主要目的。今天我們提出的世界模型分為三部分,第一部分是多模態(tài)數(shù)據(jù)的融合理好的,這里面的多模態(tài)包含了剛才提到的圖像、視頻、相機位置、3D軌跡,還有力學(xué)元素、觸覺等一系列內(nèi)容,它們能夠?qū)崿F(xiàn)較好的融合。比如,最近我們團隊與南洋理工大學(xué)合作了一項名為Puffin的研究,在具身智能領(lǐng)域,輸入一張圖像就能反推出相機的位置。如果機械臂或機器人身上裝有攝像頭,當(dāng)機械臂運動時,攝像頭隨之移動,我們就能推測出其看到的圖像和視頻會如何變化;反之,通過觀察變化的圖像和視頻,也能反推出機械臂的運動軌跡,這就與物理世界建立了關(guān)聯(lián)。

其次,理解物理世界后,需要生成復(fù)雜的機器具身行為,包括長時序行為,這些行為需具備物理和因果一致性,并形成長時間記憶。此次我們發(fā)布的具身世界模型“開悟”3.0,已開放基于云服務(wù)的API。用戶可以選擇不同場景,讓機器人完成各類動作,還能選擇不同類型的機器人本體,比如宇樹、芝能、銀河等品牌的機器人。系統(tǒng)會根據(jù)所選機器人本體、場景及任務(wù),合成機器人完成動作的視頻,以及各關(guān)節(jié)軌跡參數(shù)。這些數(shù)據(jù)可用于訓(xùn)練機器人“大腦”,利用世界模型合成的大量數(shù)據(jù)提升機器人性能。

第三部分是預(yù)測功能,根據(jù)所選機器人本體、觀察到的圖像及視頻狀態(tài),可預(yù)測機器人后續(xù)動作。這種“理解-合成-預(yù)測”的融合能力,正是我們強大的世界模型的核心。最后,通過具身機模型,我們能將強大的具身“大腦”遷移到不同機器人本體上,指揮機器人完成各類操作。因此,環(huán)境式素材、世界模型與具身機模型共同構(gòu)成了我們以人為中心的研發(fā)新范式。

提問:對于大曉機器人來說,有沒有明確的短期或長期目標?或者說,想要在行業(yè)內(nèi)達到一個什么樣的位置?

王曉剛:我們有幾個方向,首先從產(chǎn)品目標來看,其實我們分為短期、中期和長期。最短期的話,除了剛才提到的提供情緒價值的表演類機器人外,我們認為短期內(nèi)能夠規(guī)?;涞氐?,是搭載了導(dǎo)航能力與各類AI應(yīng)用能力的四足機器狗。此前這類產(chǎn)品未能廣泛應(yīng)用,很大原因在于空間自主能力不足。而現(xiàn)在我們已突破這一技術(shù)瓶頸,且將其與后端各類AI應(yīng)用相結(jié)合,因此我們認為它有望實現(xiàn)廣泛應(yīng)用。

中期目標則聚焦于未來兩到三年的時間范圍。我們看好工業(yè)場景與商業(yè)服務(wù)場景,其中會優(yōu)先選擇閃購倉、前置倉這類商業(yè)服務(wù)場景。因為從明年開始,國內(nèi)將出現(xiàn)大量前置倉與閃購倉,這類場景需要大量人力支持7×24小時服務(wù),而機器人的加入不僅能提升生產(chǎn)效率,還具備較強的可復(fù)制性,能夠充分發(fā)揮其在這類環(huán)境中的優(yōu)勢。

更遠期的目標則指向五年后的家庭場景,但這更多涉及前沿技術(shù)的探索。例如Figure AI目前瞄準的就是這類場景,我們也將其作為重點研究方向。

若從技術(shù)與行業(yè)影響力的角度來看,首先是我們剛才提到的ACE這種新的具身智能范式,我們希望它能在行業(yè)中發(fā)揮引領(lǐng)作用。其次是我們的世界模型,在本次發(fā)布會上,我們將開源這一模型,并與云廠商及各類國產(chǎn)芯片廠商展開密切合作,以此找到關(guān)鍵生態(tài)位,推動整個世界模型生態(tài)的發(fā)展。

提問:您剛才多次提到的環(huán)境采集技術(shù),目前主要的技術(shù)難點在哪里?大曉在開發(fā)過程中遇到了哪些技術(shù)卡點?積累的數(shù)據(jù)是否會構(gòu)成公司未來的核心競爭壁壘?以及大曉公司的優(yōu)勢方面有哪些?

王曉剛:今天提到的環(huán)境式采集,我認為首先在采集裝備方面,目前行業(yè)內(nèi)還沒有一套已形成共識、足夠魯棒穩(wěn)定的環(huán)境式采集設(shè)備,這是我們需要突破的方向,并且要實現(xiàn)規(guī)?;瘧?yīng)用。這類設(shè)備的采集方式需要降低成本、便于部署,人穿戴后不影響正常生產(chǎn)生活,周圍部署時也應(yīng)較為便捷。這其中還涉及硬件穩(wěn)定性、數(shù)據(jù)同步等一系列問題,所以打造一套低成本、易部署、高可靠的設(shè)備是行業(yè)內(nèi)比較關(guān)鍵且缺失的環(huán)節(jié)。

第二個方面,當(dāng)這些設(shè)備完成數(shù)據(jù)采集后,我們需要借助自動化手段分析人的行為,有效提取多模態(tài)數(shù)據(jù)。由于環(huán)境式采集記錄的是人類行為,產(chǎn)生的數(shù)據(jù)量非常龐大,不可能完全依賴人工標注,因此更需要實現(xiàn)自動化的信息提取,這也是一個重要方向。

第三個點,正如我們之前提到的,今天的環(huán)境式素材不僅要基于視覺,還需結(jié)合力覺、人體工程學(xué)等其他維度。這些維度涉及的新技術(shù)、新度量指標以往不在我們的研究領(lǐng)域內(nèi),需要跨學(xué)科合作,將其他學(xué)科的研究成果引入環(huán)境式素材采集領(lǐng)域,這樣才能更充分地理解物理環(huán)境與物理規(guī)律。

二、具身智能卡位未確定 軟硬件一體更有優(yōu)勢

提問:現(xiàn)在具身智能賽道的競爭其實已經(jīng)非常激烈了,今年人形機器人的價格甚至已經(jīng)降到萬元以內(nèi)。在這個節(jié)點上,商湯宣布要加入具身智能賽道,您認為這背后的契機是什么?大曉的核心競爭力又體現(xiàn)在哪里?

王曉剛:我覺得有兩點,剛才說到的第一點是我們看到了一個與以往不同的新研究范式,也就是以人為中心的ACE研究范式。這種研究范式的轉(zhuǎn)變,往往會給行業(yè)帶來顛覆性的變化。比如特斯拉、Figure AI等企業(yè)都在迅速朝著這個方向調(diào)整,他們的新研究思路與我們在某些方面不謀而合。從時機角度來看,這是一個關(guān)鍵的時間點——如果一直沿著原有的范式前進,追趕或超越會非常困難,只有在這種革命性變化出現(xiàn)時,我們才有機會實現(xiàn)突破。

第二點是產(chǎn)業(yè)落地。雖然目前做具身的公司很多,但我們走訪了大量客戶后發(fā)現(xiàn),他們對具身領(lǐng)域軟硬件一體的產(chǎn)品充滿期待。因為在過去十年里,商湯在各個垂直領(lǐng)域深入了解了客戶對人工智能的需求。商湯過去十幾年積累了幾千家客戶,覆蓋眾多行業(yè)方向,每個方向都有專門的應(yīng)用開發(fā)團隊,但此前缺少機器人載體的軟硬件平臺。因此,當(dāng)我們進入這個領(lǐng)域時,能夠快速實現(xiàn)規(guī)?;膱鼍奥涞?,讓機器人的價值成倍放大。

我舉個例子,這次發(fā)布會上我們推出的具備自主導(dǎo)航能力的機器狗,就解決了現(xiàn)有產(chǎn)品的痛點。目前市面上的機器狗大多需要人工操控,即便用于巡檢,也只能在固定線路依賴高精度地圖,在預(yù)設(shè)點位拍照,產(chǎn)業(yè)價值十分有限,而且缺乏空間自主能力。而我們這次發(fā)布的機管平臺可以同時控制多條機器狗,每條狗都具備獨立的空間導(dǎo)航和自主行動能力,在地圖上選定任意地點,它就能自主前往,無需人工干預(yù)。更重要的是,機器狗的視頻數(shù)據(jù)會與商湯后臺強大的視覺平臺“方舟”打通。方舟平臺目前已接入幾十萬路攝像頭的數(shù)據(jù),能支持各類視覺應(yīng)用和分析。一旦機器狗與方舟打通,上百種相關(guān)的人工智能應(yīng)用都可以遷移到機器狗平臺上。相比之前只能在固定巡檢場景拍照,現(xiàn)在機器狗一下子被賦予了上百種AI功能,價值得到了充分釋放。更何況商湯在國內(nèi)外擁有豐富的渠道和客戶資源,所以在這個時間點推動具身智能加速落地,正是市場所期待的。到26年,也就是明年、后年。

提問:就機器人賽道,尤其是具身智能賽道而言,過去一年熱度很高,已經(jīng)涌現(xiàn)出不少本體廠商和零部件廠商,其中一些還在推動規(guī)模化落地。商湯在此時進入具身智能賽道,想請教您如何看待商湯在整個市場中的生態(tài)卡位,以及相較于其他廠商,商湯具備哪些優(yōu)勢?”

王曉剛:我們離具體場景和應(yīng)用更近,目標是輸出軟硬結(jié)合的一體化產(chǎn)品,切實解決各行業(yè)及場景中的實際問題。因為行業(yè)里有多種本體硬件方案可供選擇,我們需要做的,就是結(jié)合場景需求,以及剛才提到的ACE新研發(fā)范式的要求,去選擇最適合其發(fā)展的硬件方案及組合,并與這些本體和零部件企業(yè)緊密合作,推動我們的機器人實現(xiàn)規(guī)?;茝V,最終達成共贏的目標。

提問:我們注意到大曉機器人項目匯聚了包括陶院士在內(nèi)的全球頂尖AI科學(xué)家。想請教一下,這樣一支實力雄厚的團隊,在具身智能賽道上的核心優(yōu)勢,將如何轉(zhuǎn)化為產(chǎn)業(yè)落地的實際效能?”

王曉剛:我覺得首先在具身這個賽道里,目前技術(shù)還沒有收斂,仍有很多創(chuàng)新點需要推進,所以這是一個需要持續(xù)創(chuàng)新的賽道。我和大程以及這些年輕教授正結(jié)合在一起形成合力,包括剛才提到的ACE新范式,從數(shù)據(jù)采集到具身基模型,要攻克的技術(shù)難點還有很多,單一團隊很難完成整個鏈條,所以我們需要更好地結(jié)合。我們這個團隊的基礎(chǔ)是非?;バ诺?,我和大程在碩士階段跟著湯老師讀書時就是室友,有很好的默契;其他幾位老師也都是我們的學(xué)生,大家傳承著湯老師堅持原創(chuàng)的理念,能在合作中形成默契。其實很多教授自己也想過創(chuàng)業(yè),這些明星教授任何一位都可以去創(chuàng)業(yè),但今天我們要團結(jié)起來,集中科研力量和創(chuàng)新能力去做更大的事,把規(guī)模做大。同時,這些先進技術(shù)要落到產(chǎn)業(yè)中,大曉聚集了一批產(chǎn)業(yè)界卓越的專家,他們有豐富的產(chǎn)業(yè)落地經(jīng)驗,負責(zé)搭建工程化軟硬件平臺,還會和硬件結(jié)合。這樣就能把研究上的領(lǐng)先性、創(chuàng)新性與現(xiàn)實中的落地工程化能力結(jié)合起來,讓項目持續(xù)領(lǐng)先,不斷擴大規(guī)模。

提問:目前這個具身智能這個行業(yè)里邊頭部卡位,您覺得它已經(jīng)完成了嗎?新的創(chuàng)業(yè)公司他們的機會點會在哪?

王曉剛:我認為頭部卡位還沒有完成,這個領(lǐng)域其實還遠未成熟,首先從技術(shù)路線來看,目前機器人行業(yè)原有的技術(shù)路線存在明顯缺陷。比如特斯拉和Figure AI在過去兩三個月內(nèi),都放棄了以真機為主的技術(shù)路線,轉(zhuǎn)向以視覺為主的技術(shù)路線。但我剛才也提到,視覺為主的技術(shù)路線并非終極方案,所以我們提出了ACE研究范式。當(dāng)研究范式和技術(shù)路線發(fā)生重大轉(zhuǎn)變時,會給整個產(chǎn)業(yè)帶來深遠影響——類比自動駕駛領(lǐng)域,過去長期的研發(fā)積累在端到端自動駕駛這一新路線出現(xiàn)后,包括數(shù)據(jù)、研發(fā)體系在內(nèi)的前期成果很快被顛覆。而在正確技術(shù)路線的指引下,產(chǎn)品體驗和技術(shù)成熟度會快速提升,這是從研發(fā)范式角度的第一個觀點。

第二點看場景落地,盡管機器人賽道如今十分火爆,但現(xiàn)實情況是,目前能夠成規(guī)模量產(chǎn)的機器人場景,要么是提供情緒價值的表演性質(zhì)產(chǎn)品,要么是作為科研平臺存在,尚未出現(xiàn)能大幅提升生產(chǎn)力的規(guī)?;瘧?yīng)用。各垂直領(lǐng)域的場景中,機器人還未廣泛進入并實現(xiàn)量產(chǎn),這意味著巨大的發(fā)展機會。只有當(dāng)機器人規(guī)?;M入場景,通過軟硬件協(xié)同迭代,整個產(chǎn)業(yè)格局才會發(fā)生顯著變化。

第三點是產(chǎn)業(yè)鏈層面,機器人行業(yè)的產(chǎn)業(yè)鏈分工尚未完善,從零部件、傳感器到計算芯片等環(huán)節(jié),都存在很大的垂直整合空間。

正如大家提到的成本問題,當(dāng)前機器人成本依然很高,而在質(zhì)量、可靠性、一致性等方面,行業(yè)也還處于相對初期的階段。因此,我認為整個機器人產(chǎn)業(yè)的格局遠遠沒有確定下來。

提問:在零部件方面,我們投資了一些企業(yè)。大曉機器人的硬件方面,包括傳感器、電機、減速器、控制器等,是與哪些企業(yè)合作?有沒有技術(shù)亮點和創(chuàng)新可以分享?

王曉剛:我們背投的企業(yè)中,例如鈦虎、鹿明等未來都會有合作關(guān)系,它們與硬件相關(guān)。在傳感器的方面,我們應(yīng)用了全景相機?,F(xiàn)有的傳感器視角較窄,在路口等場景中,機器人可能看不清全路,例如機器狗過馬路看不到紅綠燈。我們與影石Insta360合作,將全景相機的能力賦予到機器人上,這是一個關(guān)鍵的零部件亮點。機器人的產(chǎn)業(yè)鏈條比較長,我們在場景應(yīng)用中會不斷改進零部件,并與供應(yīng)鏈上下游企業(yè)密切合作。

提問:我們現(xiàn)在一個單體的制造成本是怎么樣的?

王曉剛:這個方案目前仍處于持續(xù)優(yōu)化階段。這次發(fā)布中,我們以這個機器狗,也就是四足機器人為例推出了一款“具身超級大腦模組A1”產(chǎn)品。該產(chǎn)品的本體部分目前采用的是現(xiàn)有的硬件方案,像宇樹、智元、云深處等品牌的機器狗都能較好地適配我們現(xiàn)有的導(dǎo)航零組件,從而使其具備空間自主能力。不過未來,我們還需要與各硬件生態(tài)企業(yè)展開合作,共同推動相關(guān)成本的降低。

提問:目前是否有已簽約的外部合作訂單?

王曉剛:關(guān)于具身智能超級大腦模組A1,我們本月將要發(fā)布。實際上,我們過去走訪了大量客戶,發(fā)布會后也正積極與這些客戶推進產(chǎn)品試點。從軟件層面來看,例如世界模型、具身相關(guān)大模型以及數(shù)據(jù)領(lǐng)域,我們已經(jīng)有了一些訂單。但說到未來重點推出的軟硬一體產(chǎn)品,我們期待明年能實現(xiàn)大規(guī)模落地。

提問:目前大曉在數(shù)據(jù)規(guī)模層面區(qū)別于傳統(tǒng)模式?傳統(tǒng)模式多以純真實數(shù)據(jù)或純仿真數(shù)據(jù)為主導(dǎo),而我們則在數(shù)據(jù)領(lǐng)域開辟了一種全新的范式?

王曉剛:是的。這種方式與特斯拉和Figure AI最近采取的記錄人類活動的數(shù)據(jù)采集方式比較接近。像Figure AI,目標場景是家庭場景。家庭場景會涉及不同的戶型和房屋結(jié)構(gòu),所以他們和Brookfield等知名的資產(chǎn)管理公司合作。這些公司在全球擁有幾百萬套不同的公寓戶型,他們可以進入各種不同戶型采集數(shù)據(jù)。不過現(xiàn)在我們有了世界模型這個手段,就可以在虛擬世界里改變這些戶型。比如這次發(fā)布會,我們也會和西南設(shè)計院合作,他們歷史上積累了大量不同的房屋戶型、布局和類型,這些數(shù)據(jù)能和我們現(xiàn)有機器人產(chǎn)生的數(shù)據(jù)相結(jié)合。這樣一來,我們就能讓機器人在合成的不同房屋布局、房型和戶型中模擬活動。

三、未來1-2將進入技術(shù)收斂關(guān)鍵期

提問:您覺得在機器人的整個產(chǎn)業(yè)鏈條中,是整機企業(yè)能夠成為產(chǎn)業(yè)鏈的鏈主,還是核心零部件企業(yè)在產(chǎn)業(yè)鏈中的話語權(quán)更大呢?

王曉剛:我認為目前輸出的應(yīng)該是整軟硬一體協(xié)同產(chǎn)品,而且要以場景為導(dǎo)向。所以今天我們可以看到,咱們的機器人無論是軟件還是硬件,和場景需求之間的差距其實都比較大。而且機器人和汽車、手機不同——汽車和手機的通用性非常強,但機器人和各個場景的關(guān)聯(lián)度是非常密切的。這就是為什么我們覺得,在當(dāng)下,只有從整機角度出發(fā),以場景需求為出發(fā)點,才能把我們的公司乃至整個產(chǎn)業(yè)做大做強。

提問:目前真機數(shù)據(jù)與仿真數(shù)據(jù)存在爭議的產(chǎn)業(yè)狀況下,您更支持哪一種數(shù)據(jù)呢?

王曉剛:我們所說的“真機數(shù)據(jù)”,是指人操縱、搖控機器人所產(chǎn)生的數(shù)據(jù),這是以前大家常用的數(shù)據(jù)采集方式,但它存在不少缺點。第一,采集效率非常低;第二,無法在真實的生產(chǎn)生活場景中采集數(shù)據(jù),比如你沒辦法通過這種方式在工廠產(chǎn)線或家庭生活環(huán)境中獲取這類數(shù)據(jù);另外,它只能采集一些簡單動作,可能持續(xù)十幾秒,但像打掃房間這類持續(xù)幾十分鐘甚至更長時間的長程動作,或是機器人與人之間的交互動作,都無法靠真機完成。

而你提到的“合成數(shù)據(jù)”,是通過3D仿真器、仿真引擎合成的數(shù)據(jù),這類數(shù)據(jù)與真實數(shù)據(jù)之間存在較大差距。所以說,這兩種都是過去大家較多采用的數(shù)據(jù)采集方式,它們都無法解決當(dāng)前具身智能領(lǐng)域的數(shù)據(jù)問題。

我們今天要做的,首先是——我們采集的數(shù)據(jù)是以人為中心的:人帶上第一視角傳感器,比如視覺或觸覺傳感器,同時結(jié)合周圍其他第三視角的攝像頭和傳感器,觀察人在真實生產(chǎn)生活中的行為,再通過視覺手段、多模態(tài)手段分析人的活動,而非關(guān)注機器的活動。

這樣一來,采集效率會非常高,且能在真實場景中完成,還能記錄人在長程、復(fù)雜環(huán)境下完成的動作。

另外,我們也會使用合成數(shù)據(jù),但這種合成數(shù)據(jù)并非來自傳統(tǒng)仿真器——它是通過世界模型完成的。世界模型的優(yōu)勢在于,可以快速、無限地放大現(xiàn)有的真實數(shù)據(jù),并且能實現(xiàn)各種元素的編輯可控。比如,我可以把桌子換成不同顏色,把水杯換成不同型號,甚至更換機械臂也能實現(xiàn)。通過世界模型,我們能將有限的真實采集數(shù)據(jù)迅速放大。把這兩種方式結(jié)合起來,就是我們要走的技術(shù)路線。

提問:具身智能的技術(shù)路線很多,您認為何時技術(shù)會出現(xiàn)收斂,然后收斂的關(guān)鍵因素是什么?

王曉剛:我認為今天我們提出的“以人為中心”的ACE范式,大方向是正確的。我們看到特斯拉、Figure AI等企業(yè),其實也在朝著這個方向轉(zhuǎn)變。所以我覺得接下來的一兩年會是非常關(guān)鍵的時期。當(dāng)然,盡管大方向明確,但仍有不少技術(shù)難題需要攻克,包括具體的實現(xiàn)細節(jié),其收斂還需要一定時間。不過我想,我們今天已經(jīng)找到了這個大方向,而要加速它的收斂,還需要充分結(jié)合場景驗證——從客戶的場景和需求出發(fā),實現(xiàn)軟硬件的協(xié)同優(yōu)化。

提問:有說法說是2025年是機器人的量產(chǎn)之年,請您預(yù)測具身智能在工業(yè),家庭等場景的一個規(guī)?;逃玫臅r間表是什么樣的?

王曉剛:我認為機器人要在工業(yè)和家庭場景實現(xiàn)大規(guī)模應(yīng)用,目前還有相當(dāng)長的距離。先看工業(yè)領(lǐng)域,如果我們討論的是工廠產(chǎn)線這類場景,首先面臨的是方案復(fù)制性問題,在某一條產(chǎn)線或某個場景中開發(fā)出的機器人方案,能否快速推廣到其他工廠?這其實很難實現(xiàn)。另外,工業(yè)產(chǎn)線的數(shù)據(jù)安全性要求極高,各家產(chǎn)線都是核心機密,企業(yè)不愿讓數(shù)據(jù)外流,所以產(chǎn)線數(shù)據(jù)的打通也面臨巨大挑戰(zhàn)。

再看家庭場景,我們期待機器人完成一些復(fù)雜任務(wù),同時安全性是關(guān)鍵問題。家里有老人和孩子,不能讓機器人傷到他們。就像自動駕駛領(lǐng)域有主動安全機制,L3、L4級自動駕駛?cè)舫鍪鹿?,車廠和自動駕駛公司要承擔(dān)責(zé)任;而機器人進入家庭后,如果碰到人,或是給老人、孩子端茶送水、遞食物藥物時出了安全問題,責(zé)任該如何界定?這些都是需要解決的問題。

不過,在一些其他場景,比如機器狗已經(jīng)能在開放環(huán)境中穩(wěn)定移動,我認為在各類TO B場景中是可以快速落地的。像閃購倉、前置倉這類物流配送場景,各個倉的環(huán)境相對類似,容易實現(xiàn)規(guī)?;瘧?yīng)用。但目前也存在一些問題:一是機器人的數(shù)據(jù)采集并非在真實的生產(chǎn)生活環(huán)境中進行;二是機器人技術(shù)開發(fā),無論是硬件還是其他方面,很多時候與實際場景脫節(jié),更多是做Demo來展示機器人本體某方面的強大能力,和落地場景的實際需求存在差異,這是接下來需要重點解決的問題。目前的情況進工廠其實是可以的,但要實現(xiàn)規(guī)?;?,也就是在工廠場景中取得很好的商業(yè)成功,這比較難,進家庭的話,可能距離更遠一些。

提問:關(guān)于融資的問題,今年國內(nèi)幾家機器人企業(yè)的融資情況都非常好,而且整體速度也非??臁2贿^有觀點認為,機器人賽道的融資速度已經(jīng)超過了行業(yè)正常發(fā)展的速度。作為業(yè)內(nèi)人士,您怎么看待這一熱度現(xiàn)象?

王曉剛:我覺得這還是得看我們所處的賽道。畢竟機器人是一個幾十萬級的賽道,目前還處于相對發(fā)展的初期階段。和過去的手機、汽車等領(lǐng)域相比,它的體量要大得多。所以我認為,當(dāng)下大家在融資和投入方面的這些動作,未來還會持續(xù),最終能給市場帶來更大的回報。

另外,對比美國那些具身機器人公司,我覺得我們在融資和投入上還有進一步提升的空間。而且正如之前提到的,這個賽道還沒到收斂階段,仍在不斷涌現(xiàn)新的機會點。我們和投資人交流時發(fā)現(xiàn),他們原本以為相關(guān)領(lǐng)域已經(jīng)被投得差不多了,發(fā)展方向也趨于收斂,但當(dāng)我們把自己的思路、落地規(guī)劃展示給他們時,他們還是看到了一些不一樣的亮點和新方向。

延伸閱讀
相關(guān)推薦
熱點推薦
醫(yī)生多次強調(diào)老人立刻停止食用4種堅果,吃得越多,肺會越差

醫(yī)生多次強調(diào)老人立刻停止食用4種堅果,吃得越多,肺會越差

健康科普365
2025-12-22 09:17:36
快船要交易哈登?雷霆笑了

快船要交易哈登?雷霆笑了

姜大叔侃球
2025-12-22 20:51:29
我替首長擋了5槍,他連電話都沒打,我退伍后,剛到火車站就被人攔住

我替首長擋了5槍,他連電話都沒打,我退伍后,剛到火車站就被人攔住

張道陵秘話
2025-12-17 10:20:09
泰國牽頭組建反詐新聯(lián)盟,中國未加入引網(wǎng)友熱議

泰國牽頭組建反詐新聯(lián)盟,中國未加入引網(wǎng)友熱議

老馬拉車莫少裝
2025-12-22 18:18:42
南京博物院前院長徐湖平,退休金2萬多,不承認6800元賣掉江南春

南京博物院前院長徐湖平,退休金2萬多,不承認6800元賣掉江南春

漢史趣聞
2025-12-21 17:02:43
江蘇省政府:免去趙建國的省科學(xué)技術(shù)廳副廳長職務(wù)

江蘇省政府:免去趙建國的省科學(xué)技術(shù)廳副廳長職務(wù)

現(xiàn)代快報
2025-12-22 12:42:19
印度趁亂打劫?稱如果中國遵守印度劃定的中印界線,就不干涉臺海

印度趁亂打劫?稱如果中國遵守印度劃定的中印界線,就不干涉臺海

我心縱橫天地間
2025-12-22 20:13:29
聯(lián)賽第一!北京51分狂勝四川5戰(zhàn)全勝 周琦7分鐘下班趙睿里程碑

聯(lián)賽第一!北京51分狂勝四川5戰(zhàn)全勝 周琦7分鐘下班趙睿里程碑

醉臥浮生
2025-12-22 21:12:04
西部排名又變了:國王創(chuàng)NBA奇跡,森林狼收大禮,4隊排名互換

西部排名又變了:國王創(chuàng)NBA奇跡,森林狼收大禮,4隊排名互換

籃球大視野
2025-12-22 16:48:06
高速狂奔490公里司機退車退款并獲賠,回應(yīng)“自導(dǎo)自演”質(zhì)疑:沒誰敢這樣玩命,會公布調(diào)查結(jié)果

高速狂奔490公里司機退車退款并獲賠,回應(yīng)“自導(dǎo)自演”質(zhì)疑:沒誰敢這樣玩命,會公布調(diào)查結(jié)果

極目新聞
2025-12-22 21:12:09
外媒評選2025年最佳手機:三星S25 Ultra超蘋果奪冠

外媒評選2025年最佳手機:三星S25 Ultra超蘋果奪冠

手機中國
2025-12-22 12:14:06
封關(guān)后,海南炸鍋了。有房子的外地人、當(dāng)?shù)赝林紭烽_了花!

封關(guān)后,海南炸鍋了。有房子的外地人、當(dāng)?shù)赝林紭烽_了花!

石辰搞笑日常
2025-12-03 08:50:12
大調(diào)整!徐正源離隊后蓉城換血,解約“夜店王子”,欲簽國腳中鋒

大調(diào)整!徐正源離隊后蓉城換血,解約“夜店王子”,欲簽國腳中鋒

體壇鑒春秋
2025-12-22 17:56:02
日本G杯寫真偶像筱崎愛公布自己的派對服裝,粉絲驚嘆

日本G杯寫真偶像筱崎愛公布自己的派對服裝,粉絲驚嘆

隨波蕩漾的漂流瓶
2025-12-22 17:50:08
高準翼:不太敢聊奧斯卡,我在他面前吃過大虧,被他過干凈了

高準翼:不太敢聊奧斯卡,我在他面前吃過大虧,被他過干凈了

懂球帝
2025-12-22 11:49:04
收手吧沈騰,新片耗資1億,請來20位明星出演,預(yù)售票房僅15萬

收手吧沈騰,新片耗資1億,請來20位明星出演,預(yù)售票房僅15萬

靠譜電影君
2025-12-21 22:00:32
波爾:樊振東是史上最好的球員,來德甲可以過相對正常的生活

波爾:樊振東是史上最好的球員,來德甲可以過相對正常的生活

懂球帝
2025-12-22 14:18:54
直降2140元!iPhone 17全系大幅降價,性價比飆升

直降2140元!iPhone 17全系大幅降價,性價比飆升

科技堡壘
2025-12-20 11:05:31
海南封關(guān)驚動新加坡,總理罕見發(fā)聲警告經(jīng)濟威脅

海南封關(guān)驚動新加坡,總理罕見發(fā)聲警告經(jīng)濟威脅

回京歷史夢
2025-12-22 11:40:09
海南封關(guān)后進口車價腰斬,120多萬卡宴只要60萬?個人消費者無法購買零關(guān)稅進口車

海南封關(guān)后進口車價腰斬,120多萬卡宴只要60萬?個人消費者無法購買零關(guān)稅進口車

大象新聞
2025-12-20 14:01:05
2025-12-22 21:43:00

科技要聞

商湯聯(lián)創(chuàng)親自下場 痛批主流機器人技術(shù)大錯

頭條要聞

德鐵下單200輛中國巴士 德財長:這決定讓我十分惱火

頭條要聞

德鐵下單200輛中國巴士 德財長:這決定讓我十分惱火

體育要聞

戴琳,中國足球的反向代言人

娛樂要聞

張柏芝不再隱瞞,三胎生父早有答案?

財經(jīng)要聞

央行信用新政:為失信者提供"糾錯"通道

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

態(tài)度原創(chuàng)

旅游
家居
教育
藝術(shù)
公開課

旅游要聞

銅仁有個地方比古城還值得去,在那里可以沉浸式了解中國的儺文化

家居要聞

現(xiàn)代手法 詮釋東方文化

教育要聞

陜西女老師事件持續(xù)發(fā)酵,知情人揭露:抽煙穿吊帶,還有多位男友

藝術(shù)要聞

萬年松樹開花,震驚你的雙眼!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版
×