国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

具身智能的共識與非共識:地平線攜手生態(tài)伙伴共話產(chǎn)業(yè)未來

0
分享至

智能汽車作為機(jī)器人的第一個(gè)大終端。在大模型技術(shù)快速發(fā)展的當(dāng)下,源自智能汽車的算法、算力技術(shù)正在被加速復(fù)用,催生出從單一任務(wù)到通用智能、從交通工具到機(jī)器人的宏大圖景,推動著一場從「車」到「人」的智能化躍遷。

然而,具身智能的發(fā)展還面臨多重現(xiàn)實(shí)挑戰(zhàn)。從數(shù)據(jù)采集到模型訓(xùn)練,從硬件本體到場景落地,產(chǎn)業(yè)鏈各環(huán)節(jié)都存在大量技術(shù)和工程問題。僅僅依靠單一機(jī)構(gòu)難以全鏈條突破,必需要構(gòu)建多方共建的產(chǎn)業(yè)協(xié)作生態(tài)。

地平線作為機(jī)器人時(shí)代的智能計(jì)算平臺,既是這場進(jìn)化的見證者,更是深度參與者與賦能者。當(dāng)前,地平線已成為中國最大的消費(fèi)類機(jī)器人計(jì)算平臺,旗下地瓜機(jī)器人上市產(chǎn)品超過 100 款,連接著超 100 家上下游合作伙伴與 10 萬余名開發(fā)者。

在 12 月 9 日舉行的 2025 地平線技術(shù)生態(tài)大會上,極客公園創(chuàng)始人張鵬與本末科技創(chuàng)始人兼 CEO 張笛、極佳視界創(chuàng)始人兼 CEO 黃冠、優(yōu)必選研究院 A1 大模型與交互部負(fù)責(zé)人石海林、香港大學(xué)數(shù)據(jù)科學(xué)研究院助理教授李弘揚(yáng)、地瓜機(jī)器人 CEO 王叢等嘉賓,進(jìn)行了一場「名」人不說暗話的硬核圓桌,全景呈現(xiàn)了從芯片、算法、開發(fā)平臺到機(jī)器人本體的全產(chǎn)業(yè)鏈創(chuàng)新,深度探討具身智能的技術(shù)發(fā)展、商業(yè)落地,聚焦技術(shù)跨域賦能的生態(tài)潛力。

在這場對話中,你既能看到具身智能當(dāng)下直面的痛點(diǎn)與挑戰(zhàn),也能捕捉到切實(shí)可行的落地場景;既有對前沿技術(shù)路線與商業(yè)邏輯的深度剖析,也有這一賽道未來的無限可能。

以下為圓桌對話實(shí)錄,由極客公園整理。



01

形態(tài)之爭:類人形態(tài) VS 功能形態(tài)

張鵬:在產(chǎn)品形態(tài)上,具身智能應(yīng)當(dāng)追求「類人形態(tài)」的極致擬人,還是「功能形態(tài)」的極致效率?

張笛:首先是本末我們自己一方面有一個(gè)直驅(qū)型的機(jī)器人關(guān)節(jié)的特色技術(shù)平臺,另外一塊是以輪足為特色的具身智能的機(jī)器人技術(shù)平臺。

我們選擇這個(gè)方向出發(fā)點(diǎn)跟剛才張鵬老師講到的,我們作為技術(shù)型的創(chuàng)業(yè)者,對樂觀和悲觀我們到底應(yīng)該怎么看,怎么樣去建模?因?yàn)槲覀€(gè)人包括我們整個(gè)團(tuán)隊(duì)其實(shí)一直是對未來持有無限樂觀,但是對中短期的界限,會盡可能保持悲觀的狀態(tài)。硬科技有一個(gè)特點(diǎn),別到最后創(chuàng)業(yè)未半中道崩卒,還沒等實(shí)現(xiàn)自己的技術(shù)愿景,反而最后導(dǎo)致自己的經(jīng)營上出現(xiàn)問題,所以我們本質(zhì)上建??赡軙A向于用這種方式,去做公司未來技術(shù)路線的選擇。

在這個(gè)路線下面,我們?nèi)タ慈诵螜C(jī)器人和輪足這樣的形貌,其實(shí)核心的差異點(diǎn)是在于我們對移動和操作這兩個(gè)大問題上,我們到底選擇什么樣的解題思路,一種解題思路是純仿生,另外一種是不單純的仿生,不只仿生,我們傾向于第二個(gè)。從人形的角度來看,當(dāng)然可能有很多人會說人形會有很多落地的場景,我們也從來不排斥這樣的觀點(diǎn)和看法,但是我覺得今天的主題也比較好,名人不說暗話,還是虛火過剩的,我還是覺得這個(gè)行業(yè)是很強(qiáng)的。

張鵬既然說是「虛火」,那一定是當(dāng)下存在某些難以解決的問題。你覺得核心瓶頸主要卡在哪里?

張笛:我覺得問題是現(xiàn)在其實(shí)大家對這個(gè)行業(yè)的關(guān)注是夠的,這是非常好的一件事兒。因?yàn)槿魏我粋€(gè)行業(yè)都需要有一定的 show off 的能力,讓大家有足夠的傳播點(diǎn),但是問題在大家只關(guān)注到了其中的一方面,大家只關(guān)注機(jī)器人這個(gè)大品類當(dāng)中類人形的一方面,這件事情是不夠健康的。

其實(shí)機(jī)器人這個(gè)品類有非常多可以選擇的余地,甚至說仿生、擬人都只是一個(gè)可以選擇的方向,這個(gè)行業(yè)有無限的可能,這就是為什么我們說對未來無限樂觀,但是對現(xiàn)在卻保持相對審慎的態(tài)度,我們覺得機(jī)器人這個(gè)賽道可以走伴生的模式非常多,但是現(xiàn)在似乎有太多狹隘,把所有的精力和資源投在一個(gè)角度上,這就是我們傾向于未來在雙足和輪足上面,我們會朝著非擬人、非仿生這個(gè)方向探索的一個(gè)主要原因。

張鵬所以你認(rèn)為超人的場景比擬人的場景會更多,或者說在有些場景超人是比擬人有更好的解法的,可以這么理解嗎?

張笛:可以這么理解,而且我覺得最主要的是,擬人作為一個(gè)大行業(yè)的入場券,沒有任何的設(shè)計(jì)參照,開始想盡辦法去開啟一個(gè)行業(yè),這個(gè)起始點(diǎn)非常好。

但是隨著一個(gè)行業(yè)的向下發(fā)展,總會發(fā)現(xiàn),其實(shí)墊腳石下一步踩在哪?英雄老路未必是最優(yōu)解,我們有非常多的思路告訴你,機(jī)器人是新物種,可以完全設(shè)計(jì)一個(gè)新的產(chǎn)品,這個(gè)對整個(gè)行業(yè)來講是最健康,最有誘惑力,對我們年輕的人來講也是最有挑戰(zhàn)的方向。

張鵬:優(yōu)必選堅(jiān)定走人形機(jī)器人方向,背后有怎樣的判斷和考量?在你們看來,哪些場景是只有人形才能滿足的不可替代需求?

石海林:這個(gè)問題,我們優(yōu)必選作為人形機(jī)器人的先行者以及行業(yè)龍頭,我們會很務(wù)實(shí)去看人形機(jī)器人,包括雙足輪式,都是屬于人形機(jī)器人,回到這個(gè)問題,我覺得可以從兩方面去看。第一個(gè)我們追根溯源,去看人類為什么是人形的。從大自然還有生物進(jìn)化千百年來看,人之所以成為人形,我們的四肢,我們的手有五個(gè)手指頭,我們的五官在頭上,我們大部分人的眼睛的距離平均在 6 厘米,為什么大家都是這樣的,其實(shí)背后是因?yàn)檫m應(yīng)了自然環(huán)境和我們?nèi)祟惿鐣h(huán)境的結(jié)果。

今天我們來看人形機(jī)器人,它去做到人形,其實(shí)更多的不是說我們一定要做到怎么樣,而是說從自然最優(yōu)化的結(jié)果拿到了一些結(jié)論,用在我們?nèi)诵螜C(jī)器人的產(chǎn)品和形態(tài)上,這是第一點(diǎn)。

第二點(diǎn),我覺得更多也是可以從產(chǎn)業(yè)的應(yīng)用場景去看,就以優(yōu)必選我們現(xiàn)在聚焦的工業(yè)場景(來說),人形機(jī)器人現(xiàn)在主要有三大應(yīng)用場景,工業(yè)場景、商業(yè)場景以及家用陪伴場景。后兩個(gè)商用場景和家用場景,因?yàn)檫€有一些交互和情感陪伴的需求,這些需求會更直接的去對人形外觀、ID 設(shè)計(jì)甚至仿生人形有更高的要求,這些還是比較直接能得出的結(jié)論。從工業(yè)場景來看的話,為什么我們也要去看人形在這個(gè)場景里的優(yōu)化,因?yàn)樵诠I(yè)場景,通過長期以來的應(yīng)用,我們可以看到有大量的結(jié)構(gòu)化任務(wù),也有更大量的非結(jié)構(gòu)化任務(wù),這些非結(jié)構(gòu)化的任務(wù)從需求出發(fā),去要求產(chǎn)品和功能要具備更強(qiáng)的泛化能力。在我們在工廠看到,各類形形色色的機(jī)械臂各種捶打,但是只能做一些特定的死的任務(wù),而且形態(tài)各異,動不動 4、5 米高,特別大。

但我們看到更多的任務(wù),是比如說物流轉(zhuǎn)運(yùn),里面包含了搬運(yùn)、分揀的任務(wù),還有上下料、精密裝配,他們的場景很多是一些狹窄的通道,一些靈巧的柔性的操作,這些對機(jī)器人的操作更高,泛化能力也更強(qiáng)。比如這些操作、搬運(yùn)、上下料,所以在這些場景需求的催生下,我們會往人形這個(gè)方向去看。



張鵬:還有一種觀點(diǎn)認(rèn)為,選擇人形形態(tài)是因?yàn)樗跀?shù)據(jù)遷移。例如,通過人類進(jìn)行遙操作或動作捕捉來采集數(shù)據(jù),能讓算法在數(shù)據(jù)閉環(huán)中迭代得更高效。

你們在實(shí)際研發(fā)中,感知到了這種數(shù)據(jù)層面帶來的效率優(yōu)勢了嗎?

石海林:對的,人形數(shù)據(jù)相對其他形態(tài)的數(shù)據(jù)更容易采集獲取、標(biāo)注清洗。以遙操作采集為例,如果設(shè)備與人形,比如手部、雙臂,是同樣的甚至同構(gòu)的,那么操作員操作起來會更高效便捷,同時(shí)培訓(xùn)一個(gè)數(shù)量的操作員也更簡單容易。

張鵬:目前有兩種產(chǎn)品形態(tài)的發(fā)展路徑,一種「通用底盤+功能模塊」;另一種是直接開發(fā)一個(gè)全能一體化機(jī)器人。你們認(rèn)為哪種技術(shù)路徑更有可能實(shí)現(xiàn)大規(guī)模普及?

張笛:其實(shí)本末科技在觀察行業(yè)生態(tài)時(shí)有很多發(fā)現(xiàn),因?yàn)槲姨岬?,我們公司是平臺化的機(jī)器人供應(yīng)商,我們是有關(guān)鍵技術(shù)去服務(wù)客戶。在這個(gè)過程中我們發(fā)現(xiàn)整個(gè)具身智能大的方向可以分兩類,按照張總講的分類方法,但我們的叫法會叫成學(xué)院派和產(chǎn)業(yè)派,其實(shí)相差最主要的點(diǎn),學(xué)院派是自上而下,以通用為大旗,去把所有的相關(guān)的技術(shù)去做推廣和積累,但產(chǎn)業(yè)派就是循序漸進(jìn)去做通用,本質(zhì)上就是一個(gè)基座上面疊加模組。這兩個(gè)一個(gè)是自下而上,一個(gè)是自上而下,但是我們從統(tǒng)計(jì)上來看,產(chǎn)業(yè)派的速度和市場化的速度確實(shí)沒那么快,假如大家認(rèn)可,以底層的通用化平臺加各種各樣的功能模組逐漸去做通用這件事,是一條通向具身智能的道路的話,現(xiàn)在從商業(yè)化的角度,還是產(chǎn)業(yè)化會推動得更快一點(diǎn)。



石海林:我完全認(rèn)同張笛總的觀點(diǎn),在產(chǎn)業(yè)派這一塊,我們自下而上從場景任務(wù)出發(fā),構(gòu)建海量的數(shù)據(jù),以及基于算力的一些資源和優(yōu)勢,去快速把學(xué)術(shù)界從上而下的基座模型應(yīng)用在具體各類場景中。而且這個(gè)周期我們認(rèn)為是一個(gè)絕對的加速化的過程,因?yàn)槲覀兛吹?,比如十幾年前我們說做智能化,那個(gè)時(shí)候是做感知智能,如果我們比如以 AlexNe t 作為標(biāo)志物,作為開端,到 2022 年,比如說那會兒 ViT 作為一個(gè)成熟標(biāo)志的話,從發(fā)展到成熟感知智能花了十年時(shí)間。但是在感知智能的下一階段,交互智能如果我們以 17 年 transformer 出現(xiàn)為開端,到它成熟期,比如說正好三年前 ChatGPT 發(fā)布作為一個(gè)成熟標(biāo)志的話,這個(gè)過程從十年加速到了五年。那我們今天來看具身智能這一塊,如果我們以 ALOHA 為代表,他打通了 Neural Network 在具身智能這一塊的技術(shù)方案。所以我們可以把 2023 年作為起始點(diǎn)的話,假設(shè)我們也是以最保守 5 年來估計(jì),從 23 年到 28 年,今天來算的話可能就三年,或者 18 個(gè)月,就已經(jīng)進(jìn)入到成熟期,這個(gè)周期是大大加快。

02

技術(shù)路線之爭:

「先驗(yàn)?zāi)P汀梗∕odel-based)

VS「數(shù)據(jù)規(guī)?!梗―ata-driven)

張鵬:極佳科技從自動駕駛世界模型切入具身智能,目前世界模型在具身智能領(lǐng)域已經(jīng)解決了什么問題?還有什么問題有待解決?

黃冠:覺得這個(gè)問題提得特別好,像「世界模型」「空間智能」這些概念都備受關(guān)注。大家探討其在內(nèi)容創(chuàng)作、自動駕駛以及具身智能等領(lǐng)域的應(yīng)用時(shí),我想先講講我個(gè)人對世界模型對具身智能領(lǐng)域價(jià)值的一些看法。

我認(rèn)為世界模型是物理 AGI 最后的瓶頸,并且它不是要 5 年、10 年被攻克掉,實(shí)際上我們已經(jīng)看到了它被解決的曙光,得益于整個(gè)生成式 AI 的發(fā)展,這是我對整個(gè)世界模型大的看法。

更具體,世界模型對具身智能的價(jià)值是全方位的。其實(shí)我們講一個(gè)具身模型,無非就是講數(shù)據(jù)來源、學(xué)習(xí)范式,以及模型架構(gòu)。世界模型在這三方面都有非常高的價(jià)值,首先數(shù)據(jù)來源,如果具身智能僅僅依賴真實(shí)機(jī)器和傳統(tǒng)仿真這兩種方式,可能會存在比較大的瓶頸。真機(jī)要采集到足夠的數(shù)據(jù)極其困難,基于規(guī)則構(gòu)建的傳統(tǒng)仿真上限也比較受限。而世界模型提供了一種非常高效生成世界的方式,雖然它目前并不完美,但已經(jīng)展現(xiàn)出巨大的價(jià)值,它是一個(gè)數(shù)據(jù)引擎,能夠?yàn)榫呱碇悄芴峁o限的所需的數(shù)據(jù)。

第二個(gè)是在學(xué)習(xí)范式上,模仿學(xué)習(xí)很有價(jià)值但是遠(yuǎn)遠(yuǎn)不夠,強(qiáng)化學(xué)習(xí)如果只是依賴真實(shí)環(huán)境去做,也是很低效的,包括大家現(xiàn)在看到 Pi0.6 star,雖然已經(jīng)進(jìn)步很大了,但仍然高度依賴真實(shí)環(huán)境;而世界模型實(shí)際上為強(qiáng)化學(xué)習(xí)提供了一個(gè)非常好的閉環(huán)環(huán)境,它是能夠被 action 驅(qū)動的,來預(yù)測未來環(huán)境變化的模型。

對,所以我們叫它是可以 Scale 的強(qiáng)化學(xué)習(xí),這是它作為模擬器的第二點(diǎn)價(jià)值。第三點(diǎn)就是更本質(zhì)了,叫做世界行動模型,可以替代 VLA,L 為什么會對 action 一定必須呢?我們過去做自動駕駛也沒有語言,所以 VLA 依賴這個(gè) L 問題是很大的,要真正實(shí)現(xiàn)智能,就得邁向世界行動模型,所以我認(rèn)為這三個(gè)點(diǎn)的價(jià)值都會非常大。

目前行業(yè)進(jìn)展上,在上面三個(gè)方面,無論是我們的一些工作,還是全球的包括像 Cosmos 很多一些工作,世界模型都已經(jīng)開始大規(guī)模的產(chǎn)生價(jià)值了。這是我對世界模型和具身智能關(guān)系的理解。

張鵬:世界模型能夠解決具身智能領(lǐng)域數(shù)據(jù)匱乏的問題,但世界模型也是模型,所需要的數(shù)據(jù)同樣匱乏,極佳是如何解決這個(gè)死循環(huán)的?

黃冠:這兩個(gè)問題都問得非常好,我還是思考一下,我可能這樣回答。我跟大家介紹一下,第一個(gè)是各個(gè)模型的關(guān)系,我們講三個(gè)模型,語言模型、世界模型、行動模型。語言模型輸出的是語言,世界模型輸出的是對未來世界的預(yù)測,未來的世界可以用 video 去表示,可以用 3D 去表示,當(dāng)然也可以把 physics 表示進(jìn)去。第三個(gè)行動模型輸出的是 action。所以這是三個(gè)非常不同的模型。

第二個(gè),為什么語言模型跟世界模型其實(shí)可能相比行動模型會好解決呢?就是因?yàn)閿?shù)據(jù)多,大家都知道,語言模型有互聯(lián)網(wǎng)上的海量文字?jǐn)?shù)據(jù)作為支撐。而世界模型所依賴的數(shù)據(jù)中,互聯(lián)網(wǎng)的視頻數(shù)據(jù)是最重要和基礎(chǔ)的部分,這些視頻數(shù)據(jù)看似沒有直接呈現(xiàn)三維(3D)和 physics,但實(shí)際上 3D 和 physics 都隱含在視頻的隱空間里了。大家看互聯(lián)網(wǎng)上的視頻,比如一個(gè)水杯被扔出去,這其中就蘊(yùn)含了非常豐富的物理規(guī)律。所以視頻數(shù)據(jù)其實(shí)是一個(gè)非常好的構(gòu)建世界基礎(chǔ)模型(world foundation model)的素材來源,雖然它并不完備,但是一個(gè)非常好的基礎(chǔ)。而我們最不缺的就是互聯(lián)網(wǎng)上記錄的海量的視頻數(shù)據(jù)。所以,語言模型和世界模型能夠更高效地利用豐富的語言和視頻數(shù)據(jù),進(jìn)而作為行動模型的基礎(chǔ)。

第三點(diǎn),我最近也思考很多,為什么智駕和具身可能不太一樣,在智駕里面,大家之前沒有所謂的 VLA,沒有世界模型,但也干得還不錯(cuò)。包括中午體驗(yàn)的地平線的一段式端到端,真的非常絲滑,為什么?因?yàn)橹邱{有大量數(shù)據(jù),只要數(shù)據(jù)足夠多,可以不依賴語言模型和世界模型,只需要場景的端到端駕駛數(shù)據(jù)就好。當(dāng)然,最后加上 VLA 和世界模型,會讓系統(tǒng)的推理能力更強(qiáng),迭代更高效。但是具身模型你會發(fā)現(xiàn),如果從頭做一個(gè) VA 的端到端模型,是基本不可能的,核心是因?yàn)榫呱眍I(lǐng)域太缺數(shù)據(jù)了,這會導(dǎo)致駕駛模型和具身模型非常不一樣的發(fā)展路徑。



張鵬:具身智能領(lǐng)域的模型訓(xùn)練會遵循 Scaling Law 嗎?跟大語言模型的 Scaling Law 會有什么不一樣?

李弘揚(yáng):這個(gè)我嘗試回答一下這個(gè)問題,這個(gè)問題還是問得非常前沿的,首先有個(gè)結(jié)論,具身智能領(lǐng)域一定會有 Scaling Law,到目前為止真正能算得上,做過 Scaling Law 實(shí)驗(yàn)的,這個(gè)世界上只有一家公司,就是 Generalist AI,前一陣的 Gen-0。其余包括 Physical intelligence(Pi),都沒有很大規(guī)模的用 Scaling Law 的實(shí)驗(yàn),都還談不上 Scaling Law。所以你問的下一個(gè)問題,如果真有規(guī)模法則 (Scaling Law),它會和大語言模型的規(guī)模法則呈現(xiàn)怎樣的情況呢?

其實(shí)大概率還是沿著一種冪律分布的,或者說是線性的,無論是指數(shù)級還是線性的增長的趨勢,這里面我想說一下,因?yàn)?Gen-0 這個(gè)工作一周積累 30 個(gè)小時(shí),300 萬條數(shù)據(jù)(有效的軌跡),我們大概也換算了一條,如果兩班倒的話,采集這個(gè)不同的 manipulation task,一班 8 個(gè)小時(shí),16 個(gè)小時(shí),其實(shí)有效的轉(zhuǎn)化率是 4、5 個(gè)小時(shí),因?yàn)檫€要涉及到數(shù)據(jù)質(zhì)檢、熟悉的過程等。這樣的話需要 Aloha 或者說主從臂這樣的一套設(shè)備需要 500 套,很顯然它不可能部署 500 套,所以肯定要走 UMI 等等這種低成本的路線。在具身領(lǐng)域大家都在談?wù)摂?shù)據(jù)金字塔、真機(jī)數(shù)據(jù)等概念,我覺得從算法、數(shù)據(jù)、硬件以及法律這幾個(gè)維度來看,如何構(gòu)建一套高效的數(shù)據(jù)采集系統(tǒng),在具身智能領(lǐng)域是非常關(guān)鍵,然后我們再來說 Scaling Law 這個(gè)事。

03

數(shù)據(jù)策略之爭:

仿真/合成數(shù)據(jù) VS 真機(jī)數(shù)據(jù)


張鵬:具身智能領(lǐng)域會有 ImageNet 時(shí)刻嗎?什么時(shí)候收集真機(jī)數(shù)據(jù)的速度可以快速成長?

黃冠:我覺得很可能不會有 ImageNet 時(shí)刻,因?yàn)閳D像分類任務(wù)很標(biāo)準(zhǔn)化,給一張圖片給了一個(gè)標(biāo)簽就行;但是具身機(jī)器人,所有的傳感器、執(zhí)行器、環(huán)境、物體都不一樣,本體也不一樣,具身不是打造一個(gè)數(shù)據(jù)集的問題。所以我認(rèn)為具身領(lǐng)域可能不會存在 ImageNet 的時(shí)刻,而是會直接到 chatgpt 時(shí)刻。

并且我們其實(shí)覺得沒那么遙遠(yuǎn),最近硅谷密集的出來一波公司,已經(jīng)積累了 10 萬小時(shí)以上的真機(jī)數(shù)據(jù)。所以可能明年很關(guān)鍵,明年全球可能會有 5-10 家公司,會把數(shù)據(jù)的量至少做到百萬小時(shí)的級別(當(dāng)然這里面大家數(shù)據(jù)來源的分布可能會不一樣),可能會有公司接近 GPT-3 時(shí)刻。所以其實(shí)我們對 ChatGPT 時(shí)刻也不用那么悲觀,就像凱哥開場的時(shí)候講的,可能具身三五年時(shí)間就進(jìn)入家庭場景了。我們其實(shí)更樂觀,因?yàn)檫@個(gè)行業(yè)很卷,只要大家意識到可以做,只要資源投入到位,就沒有那么大瓶頸,無論是數(shù)據(jù)獲取、模型架構(gòu),還是具身本體研發(fā),只需要時(shí)間,需要投入。明年可能會接近 GPT-3 的時(shí)刻,兩三年之內(nèi)有機(jī)會到 ChatGPT 時(shí)刻。

李弘揚(yáng):我沒有那么樂觀,跟黃總差不多,所以還是要遵循這個(gè)數(shù)據(jù)金字塔或者說 pyramid 的這種形式?;ヂ?lián)網(wǎng)數(shù)據(jù),即 ego-centric data,加上 simulation,加上遙操等等這些,互為補(bǔ)充吧。



04

場景之爭:工業(yè)場景 VS 家庭場景

張鵬:機(jī)器人觸達(dá) C 端用戶的路徑應(yīng)該是怎樣的,要讓機(jī)器人真正走進(jìn)千家萬戶需要突破哪些關(guān)鍵節(jié)點(diǎn)?

張笛:剛才大家提到兩個(gè)觀點(diǎn),一個(gè)是學(xué)院派,一個(gè)是產(chǎn)業(yè)派,一個(gè)是一口吃成個(gè)胖子,把通用實(shí)現(xiàn),另外一個(gè)是循序漸進(jìn)做通用。我們自己的觀察,現(xiàn)在走進(jìn)千家萬戶的具身機(jī)器人已經(jīng)非常多了,甚至是在幾百萬到上千萬以上這個(gè)數(shù)量級。

我們可以舉一些例子,什么叫循序漸進(jìn)的走向通用。當(dāng)某一天我們在家里面看到自己的掃地機(jī)器人除了掃地以外,突然之間有了安防巡檢的功能的時(shí)候,它就向通用邁出一步。當(dāng)它有了安防巡檢之后,又有一定的家居物品要維護(hù)的時(shí)候,它又向前走了一小步,但有一天總會有一個(gè)時(shí)刻,大家會忽然驚訝的發(fā)現(xiàn),原來我家里的小機(jī)器人能干的事情竟然越來越多,竟然變成這個(gè)樣子,竟然解決的問題已經(jīng)不再是我當(dāng)時(shí)一開始覺得它的這個(gè)樣子了,這是一個(gè)產(chǎn)品系列,這是它在怎么樣去逐漸走向通用的過程。

而且同時(shí),我們家用的小型清潔機(jī)器人廠商,一開始瞄準(zhǔn)的是室內(nèi)的場景,后續(xù)就會逐漸的希望我的機(jī)器人從室內(nèi)走出去,可以從室內(nèi)走上電梯里,可以走向自己家的草坪,可以走向街區(qū)。對于企業(yè)而言,要實(shí)現(xiàn)產(chǎn)品這樣循序漸進(jìn)地走向通用化,究竟該如何推進(jìn)呢?這兩個(gè)力量都可以讓一個(gè)行業(yè)從一開始對一個(gè)功能性的產(chǎn)品,從一個(gè)簡單的功能性的產(chǎn)品的期待,到逐步轉(zhuǎn)變?yōu)閷δ軒砀鼉?yōu)質(zhì)體驗(yàn)產(chǎn)品的期待。這樣的循序漸進(jìn)過程我覺得已經(jīng)正在發(fā)生,而且如火如荼,甚至正在加速發(fā)生。

張鵬聽起來你的思路是先聚焦于單一場景下的有效履約,就像掃地機(jī)器人也做出了千萬臺的市場一樣?;谝淮未纬晒Φ姆?wù)履約,逐步疊加任務(wù)能力、演進(jìn)產(chǎn)品形態(tài),最終實(shí)現(xiàn)通用化。而不是希望一下出現(xiàn)一個(gè)「iPhone 時(shí)刻」。

張笛:也不完全是這樣,一定是量變帶來質(zhì)變,在逐漸的履約的過程,現(xiàn)在的量變還不能引起質(zhì)變,還沒到那個(gè)關(guān)鍵節(jié)點(diǎn),沒到那個(gè) turning point,就像傳統(tǒng)的功能機(jī)時(shí)代,先有 BP 機(jī),再有大哥大,最后能發(fā)短信,有彩鈴,同時(shí)有 PDA,最后有一個(gè)大屏做整體的匯總,同時(shí)又能上網(wǎng),又能聽音樂?,F(xiàn)在我們處在前夜的狀態(tài)。

張鵬:C 端最有可能跑出來并且有商業(yè)價(jià)值的場景會是什么?

王叢:如果我們現(xiàn)在說具身能做很多東西的肯定是在家庭用戶場景,但問題是都做不出來。張笛哥說的我很認(rèn)同,真的做消費(fèi)電子的這幫人都很務(wù)實(shí),都一定是價(jià)格成本對應(yīng) PMF(市場匹配度)的價(jià)值,一定是找到它的一個(gè)很匹配的點(diǎn),這個(gè)東西才有可能在 C 端跑出來。C 端跑出來的東西絕對不是一個(gè)價(jià)格偏高,PMF(市場匹配度)沒有的東西,所以 C 端消費(fèi)電子產(chǎn)品的功能一定是一點(diǎn)點(diǎn)積累的,其實(shí) Iphone 也是功能積累起來的。

iPhone 如果大家看喬布斯的發(fā)布會,其實(shí)就是通訊、MP3 加上一個(gè)電話,三個(gè)已有功能整合到了一個(gè)產(chǎn)品上,然后慢慢構(gòu)建起一個(gè)生態(tài)系統(tǒng),從而有了所謂的智能手機(jī)。但是其實(shí)在 Iphone 之前的諾基亞也有不同的軟件,也叫智能機(jī),其實(shí)我覺得消費(fèi)電子一定還是回歸到最本身的產(chǎn)品需求,一點(diǎn)點(diǎn)疊功能發(fā)展出來,所以包括我們國內(nèi)很多客戶,就像掃地機(jī)最初只是負(fù)責(zé)平面的清潔,這件事情它的價(jià)格空間就已經(jīng)被定死了,因?yàn)樗褪堑孛娴那鍧?,就算把掃地機(jī)器人掃到 90 分、95 分、100 分,它的價(jià)格永遠(yuǎn)是那樣,除非它變成一個(gè)空間清潔,但即便如此價(jià)格空間也有限,因?yàn)檎垈€(gè)阿姨也就 40、50 塊錢一小時(shí),家庭清潔就三個(gè)小時(shí)家里都打掃一遍,其實(shí)它的價(jià)格也定死了,一定要找到那個(gè)關(guān)鍵增長點(diǎn)才能爆發(fā)。



張鵬:從情緒價(jià)值這個(gè)角度來看,具身智能有機(jī)會進(jìn)入家庭嗎?

王叢:情緒機(jī)器人這個(gè)事情我是很看好,但是它并不是嚴(yán)格意義上的價(jià)值,因?yàn)槊總€(gè)人,男人、女人、小孩、老人,每個(gè)人定義陪伴、定義情緒的概念太非標(biāo)了,所以你很難定義出來一個(gè)所謂的陪伴機(jī)器人。陪伴什么?我覺得這不是一個(gè)以場景定義產(chǎn)品的思路,真正好的產(chǎn)品定義,應(yīng)該是當(dāng)我想到某一個(gè)特定場景時(shí),就能立刻聯(lián)想到對應(yīng)的產(chǎn)品;同時(shí),當(dāng)我看到某個(gè)產(chǎn)品時(shí),也能馬上明確它要解決的是哪個(gè)具體場景的問題。所以大家看很多產(chǎn)品不能推廣,或者做的 idea 很好,但是賣不出去,雖然我覺得情緒機(jī)器人是個(gè)好東西,但是它一定要對應(yīng)到不同細(xì)分的場景當(dāng)中,大家才能進(jìn)一步去談這個(gè)問題。

05

生態(tài)模式之爭:生態(tài)開放 VS 全棧自研

張鵬:目前的頭部玩家很多都選擇全棧自研,地瓜機(jī)器人為什么選擇了「生態(tài)開放」路線?

王叢:我覺得這個(gè)選擇既有感性的一面,也有理性的一面。先說說感性的:任何一家公司做事情,創(chuàng)始人、CEO 都會有對未來的畫面感——地瓜機(jī)器人的畫面感是什么?或者說,什么事能讓我們這幫人發(fā)自內(nèi)心地開心?不是我們自己做出一個(gè)多智能、多厲害的機(jī)器人,而是看到各行各業(yè)的消費(fèi)電子、智能硬件,都能通過我們的技術(shù)賦能實(shí)現(xiàn)智能化,這才是我幻想中的畫面,也是能讓我們真正開心的事——這是感性層面的原因。

我覺得機(jī)器人行業(yè)就算發(fā)展十年,也依然會是非標(biāo)市場——各行各業(yè)的機(jī)器人本體形態(tài),大概率都會不一樣。哪怕幾年以后人形機(jī)器人變得非常泛化、智能,我也無法理解「用幾十萬的人形機(jī)器人來掃地」這件事——大家看的科幻電影里,未來是各種各樣的機(jī)器人各司其職,我覺得現(xiàn)實(shí)的未來也會是這樣。機(jī)器人這件事情就是它很非標(biāo),它的場景很碎,它并不是一個(gè)寡頭壟斷的市場,那我覺得這個(gè)時(shí)代是需要有一家公司去把底層的一些東西給做好,才能真的加速這個(gè)時(shí)代的到來。雖然說這是我們的立場,但我覺得未來機(jī)器人公司有很多自研的,有很多會選擇擁抱像地瓜這樣的供應(yīng)商,有很多公司會自研,這個(gè)太正常了。歷史這么多年,每個(gè)行業(yè)都會有這樣的分化:全棧自研的公司,比如蘋果,是非常偉大的公司;擁抱生態(tài)開放的公司,比如英偉達(dá),也是非常偉大的公司。所以世界是多元的,兩種路線都對,只是我們感性上的追求,讓我們選擇了生態(tài)開放這一端。



張鵬:李老師前一陣聯(lián)合智元開源了全球首個(gè)基于全域真實(shí)場景的百萬真機(jī)數(shù)據(jù)集 AgiBot World,開源數(shù)據(jù)集會給行業(yè)帶來哪些價(jià)值?

李弘揚(yáng):感謝,首先要嚴(yán)謹(jǐn)說明,「全球首個(gè)」是智元的宣傳表述,學(xué)術(shù)上還是要謹(jǐn)慎,畢竟說「the very first」很容易被人攻擊。其實(shí)最開始 2023 年我就和姚卯青合計(jì)這個(gè)事,2024 年的時(shí)候智元還處在比較早期的階段,但他能有這樣的雄心壯志——在上海張江有 2000 平的數(shù)采場,而不是在大學(xué)實(shí)驗(yàn)室的簡單的 pick-and-place,這一點(diǎn)才是最打動我的。后來才有了現(xiàn)在這樣的體量,包括我前兩天去那個(gè)數(shù)采廠,都已經(jīng)需要訪客門禁了,能看出來規(guī)模確實(shí)起來了。

這個(gè)百萬真機(jī)數(shù)據(jù)集,至少現(xiàn)在回過頭來看,可以用于預(yù)訓(xùn)練、世界模型的訓(xùn)練,能給那些沒有海量數(shù)據(jù)的高校實(shí)驗(yàn)室提供一個(gè)很好的平臺。但其實(shí)我們最近也在復(fù)盤,這樣的模式能不能復(fù)制?畢竟像 agibot world 這樣的數(shù)據(jù)集,買過來成本也不低,還需要一套完整的生態(tài),上到云服務(wù)的支撐等等,都得配套。所以在這之后,開源開放的數(shù)據(jù)集其實(shí)挑戰(zhàn)還是蠻多的,可能最后還是需要一個(gè)行業(yè)和眾力共建的平臺來牽引,搭建一個(gè)統(tǒng)一的真機(jī)測試場,而不是單純靠一家的數(shù)據(jù)集獨(dú)大,這樣的生態(tài)會更合適一些。

06

人際關(guān)系之爭:親密共生 VS 警惕控制

張鵬:不同人群對人機(jī)親密程度的需求差異顯著,是否會催生功能型機(jī)器人與陪伴型機(jī)器人的細(xì)分賽道?「情緒價(jià)值」是否可以如何翻譯成可落地的產(chǎn)品定義語言?

張笛:其實(shí)我覺得我的綜合判斷跟王叢哥講得比較類似,情緒價(jià)值這個(gè)事情怎么定義產(chǎn)品,其實(shí)是非常非常需要去仔細(xì)斟酌的一個(gè)方向,純粹的情緒需求把它翻譯成商業(yè)需求的語言,肯定是能夠去做的。不管你是孤獨(dú)也好,甚至孤獨(dú)也可以分成若干種,解決不同的孤獨(dú),可能會有不同的產(chǎn)品形式可以去做,這個(gè)時(shí)候你發(fā)現(xiàn)情緒需求并不依賴于一個(gè)全能的機(jī)器人,只要針對那樣專門的情緒需求定向去設(shè)計(jì)產(chǎn)品,這是我覺得最合理,也是最容易去取得一些市場進(jìn)展的方式和方法。

這幾年我們在觀察整個(gè)市場,包括我們也服務(wù)了非常多的客戶,這個(gè)過程當(dāng)中我們也看到,確實(shí)還是有一些情緒需求,可以靠這些能移動的機(jī)器人,或者不能移動的對話終端,來去解決,進(jìn)而形成一個(gè)比較穩(wěn)定的市場,也能形成一個(gè)未來有機(jī)會逐漸走向通用的這樣的 minimal available product(英),這些市場包括我們現(xiàn)在能看到方興未艾的一些小型的、甚至不能移動的對話終端——如果我們把具身智能列一個(gè)九宮格,橫軸看是否與物理世界產(chǎn)生接觸,縱軸是它到底要不要使用非常非常 fancy 的機(jī)器人算法,那這類對話終端其實(shí)就屬于「不接觸物理世界、僅依賴 NLP 算法」的類別,它確實(shí)也已經(jīng)在具身這個(gè)賽道下面,扎扎實(shí)實(shí)定義出了一個(gè) minimal availbable product,這是一個(gè)方向。

另外,在能運(yùn)動的機(jī)器人品類里面,我們也發(fā)現(xiàn)現(xiàn)在非常多小型的桌搭產(chǎn)品,開始逐漸疊加越來越多的新功能和新范式,而且這些桌搭產(chǎn)品里,情緒價(jià)值往往高過實(shí)用功能。那這樣的桌搭產(chǎn)品,甚至是純玩具類型的產(chǎn)品里面,其實(shí)也有機(jī)會跑出商業(yè)化路徑。既然已經(jīng)它是有 MVP 的這樣的一個(gè) minimal available 的這樣的一個(gè)小市場了,那其實(shí)依然有機(jī)會在通用化的道路上越走越遠(yuǎn)。



張鵬:機(jī)器人越來越像人,是提升用戶體驗(yàn)的必要設(shè)計(jì),還是會模糊人機(jī)邊界?如何定義「適度親密」的交互閾值?

石海林:其實(shí)在這個(gè)層面我們確實(shí)做過深入的思考,關(guān)于這個(gè)問題我們有一個(gè)比較適合的思考切入角度——從技術(shù)發(fā)展的速度來看,面向情感價(jià)值、情感陪護(hù)這個(gè)方向的機(jī)器人也好,具身智能產(chǎn)品也好,技術(shù)迭代真的非常快。從硬件上來說,不管是續(xù)航能力、結(jié)構(gòu)復(fù)雜度,還是散熱效果、運(yùn)行噪音,甚至是外觀設(shè)計(jì),這些其實(shí)都還有很大的進(jìn)步空間,但整體的發(fā)展速度非??臁奈覀冃袠I(yè)內(nèi)的觀察、實(shí)踐以及整個(gè)產(chǎn)業(yè)的推進(jìn)節(jié)奏來看,這些技術(shù)的收斂速度會高過我們以前對它的預(yù)期。

相對硬件來說,軟件這兩年其實(shí)是走在前面的,甚至如果我們今天把「情感陪伴」收窄到僅僅是「交互對話」這個(gè)范圍的話,它其實(shí)已經(jīng)是一個(gè)成熟的技術(shù)了。所以這個(gè)東西怎么說呢?軟件相對來說是一個(gè)更成熟的板塊,當(dāng)然我們今天說的交互,可能不僅僅是語言上的交互——它給人提供情緒價(jià)值,可能是因?yàn)轭佒底銐蛴懴?;比如我今天回家很累了,我的機(jī)器人幫我打掃完房間、收拾好碗筷,這個(gè)過程本身也能給我提供情緒價(jià)值;再比如它能跟我順暢互動、回應(yīng)我的需求,同樣能提供情緒價(jià)值。

我們回頭看,面向情感陪伴的具身智能技術(shù)發(fā)展這么快,它勢必會推動產(chǎn)品和功能的成熟化,也會推動整個(gè)市場化的成熟,這個(gè)趨勢其實(shí)不太以人的意志為轉(zhuǎn)移,它是一個(gè)技術(shù)驅(qū)動的必然結(jié)果。那我們今天來看,我本人屬于那種技術(shù)狂熱者,我會主動去買悟空機(jī)器人這種陪伴型產(chǎn)品。其實(shí)不只是我,陪伴型機(jī)器人的目標(biāo)人群會從現(xiàn)在的技術(shù)狂熱者,逐步滲透到普通大眾接受者,這個(gè)過程同樣不受人的意志為轉(zhuǎn)移。

所以從今天的技術(shù)勢頭來看,我們更應(yīng)該思考的是怎么擁抱它、去接受它,怎么樣更好地使用它,而不是抗拒這個(gè)趨勢。

*頭圖來源:地平線

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬斯克說了大實(shí)話:中國的真實(shí)實(shí)力是美國的2-3倍,GDP只是包裝

馬斯克說了大實(shí)話:中國的真實(shí)實(shí)力是美國的2-3倍,GDP只是包裝

卷史
2025-12-22 16:26:47
下午3點(diǎn),李凱爾親自辟謠:沒有把國籍變回美國!并配上中國國旗

下午3點(diǎn),李凱爾親自辟謠:沒有把國籍變回美國!并配上中國國旗

齊帥
2025-12-24 16:12:22
海南“零關(guān)稅”豪車真相:寶馬X5、保時(shí)捷卡宴鮮有符合要求車型,免稅進(jìn)口車僅限企業(yè)營運(yùn)

海南“零關(guān)稅”豪車真相:寶馬X5、保時(shí)捷卡宴鮮有符合要求車型,免稅進(jìn)口車僅限企業(yè)營運(yùn)

每日經(jīng)濟(jì)新聞
2025-12-23 16:32:04
有一次,馬未都去地?cái)倱炻?0元一個(gè)杯子,馬未都花200元買了5個(gè)

有一次,馬未都去地?cái)倱炻?0元一個(gè)杯子,馬未都花200元買了5個(gè)

忠于法紀(jì)
2025-12-19 18:24:40
數(shù)名醫(yī)生強(qiáng)調(diào):只要做過腸息肉切除手術(shù),術(shù)后患者一定關(guān)注這4點(diǎn)

數(shù)名醫(yī)生強(qiáng)調(diào):只要做過腸息肉切除手術(shù),術(shù)后患者一定關(guān)注這4點(diǎn)

華庭講美食
2025-12-23 14:36:32
日本電視臺男記者KTV與女同行打情罵俏 視頻流出惹嘩然

日本電視臺男記者KTV與女同行打情罵俏 視頻流出惹嘩然

環(huán)球趣聞分享
2025-12-24 13:24:04
弗拉格:能有機(jī)會上場打圣誕大戰(zhàn) 真的讓我興奮不已

弗拉格:能有機(jī)會上場打圣誕大戰(zhàn) 真的讓我興奮不已

北青網(wǎng)-北京青年報(bào)
2025-12-24 14:47:02
中國移動通信集團(tuán)青海有限公司發(fā)展戰(zhàn)略部原總經(jīng)理李延年被查

中國移動通信集團(tuán)青海有限公司發(fā)展戰(zhàn)略部原總經(jīng)理李延年被查

界面新聞
2025-12-24 15:59:53
深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產(chǎn)前狀態(tài)差

深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產(chǎn)前狀態(tài)差

照亮你的前行之路
2025-12-24 03:10:08
倫納德本賽季的罰球怎么這么準(zhǔn)? 92罰90中命中率超95%

倫納德本賽季的罰球怎么這么準(zhǔn)? 92罰90中命中率超95%

仰臥撐FTUer
2025-12-24 14:14:04
46歲秦嵐“蜜桃臀”刷屏熱搜:比身材更狠的,是她這份自律

46歲秦嵐“蜜桃臀”刷屏熱搜:比身材更狠的,是她這份自律

橙星文娛
2025-12-24 14:08:17
我家水費(fèi)每月四萬,關(guān)掉閘門后,物業(yè)發(fā)來消息:今天整棟樓停水

我家水費(fèi)每月四萬,關(guān)掉閘門后,物業(yè)發(fā)來消息:今天整棟樓停水

船長與船1
2025-12-20 10:39:50
終于把南博的高潮弄來了!

終于把南博的高潮弄來了!

李萬卿
2025-12-23 19:51:45
馬龍,獲國家級教練資格

馬龍,獲國家級教練資格

揚(yáng)子晚報(bào)
2025-12-24 12:34:27
2026主基調(diào) 機(jī)會風(fēng)險(xiǎn)并存

2026主基調(diào) 機(jī)會風(fēng)險(xiǎn)并存

中國李大霄
2025-12-24 16:21:45
20只以上就入刑!2023年上海男子嘴饞抓了33只,發(fā)臭還有微毒

20只以上就入刑!2023年上海男子嘴饞抓了33只,發(fā)臭還有微毒

萬象硬核本尊
2025-12-24 13:40:52
王勁松為小洛熙發(fā)聲,5個(gè)月嬰兒手術(shù)去世,涉事醫(yī)院做法人神共憤

王勁松為小洛熙發(fā)聲,5個(gè)月嬰兒手術(shù)去世,涉事醫(yī)院做法人神共憤

一盅情懷
2025-12-24 16:26:06
黑惡勢力換馬甲,湖南打響新戰(zhàn)役。

黑惡勢力換馬甲,湖南打響新戰(zhàn)役。

石辰搞笑日常
2025-12-24 11:21:13
穆勒:若梅西參加明年世界杯,會改變阿根廷的整體實(shí)力平衡

穆勒:若梅西參加明年世界杯,會改變阿根廷的整體實(shí)力平衡

懂球帝
2025-12-24 07:00:34
中東警報(bào)拉響!以色列劍指伊朗,急會特朗普,新戰(zhàn)火要燒起來了?

中東警報(bào)拉響!以色列劍指伊朗,急會特朗普,新戰(zhàn)火要燒起來了?

古史青云啊
2025-12-24 14:50:44
2025-12-24 17:20:49
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11694文章數(shù) 78745關(guān)注度
往期回顧 全部

科技要聞

馬斯克沒想到的"中國速度"!2026值得期待

頭條要聞

遼寧省三名廳官被開除黨籍 一人被指未經(jīng)批準(zhǔn)出入國境

頭條要聞

遼寧省三名廳官被開除黨籍 一人被指未經(jīng)批準(zhǔn)出入國境

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財(cái)經(jīng)要聞

假冒的“晴王”葡萄,還在賣

汽車要聞

“運(yùn)動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

家居
教育
健康
本地
親子

家居要聞

法式大平層 智能家居添彩

教育要聞

成都鹽外芙蓉學(xué)校第六屆教育教學(xué)研討會:探索素養(yǎng)導(dǎo)向育人新路徑

這些新療法,讓化療不再那么痛苦

本地新聞

云游安徽|一川江水潤安慶,一塔一戲一城史

親子要聞

媽媽對你的愛,永遠(yuǎn)拿得出手

無障礙瀏覽 進(jìn)入關(guān)懷版