国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從 IROS 2025談起,智能機(jī)器人何時(shí)迎來(lái)「GPT式爆發(fā)」? | GAIR Live 019

0
分享至



機(jī)器人覺(jué)醒:控制范式退場(chǎng),認(rèn)知時(shí)代降臨

作者丨岑峰

編輯丨馬曉寧

2025年10月,IROS(國(guó)際智能機(jī)器人與系統(tǒng)會(huì)議)在全球機(jī)器人從業(yè)者的目光中落幕。作為行業(yè)最具影響力的學(xué)術(shù)與產(chǎn)業(yè)盛會(huì),本屆在杭州召開(kāi)的IROS的“中國(guó)印記”與“具身智能轉(zhuǎn)向”尤為醒目——展臺(tái)上,國(guó)產(chǎn)具身智能企業(yè)扎堆亮相,靈巧手、低成本機(jī)械臂等硬件技術(shù)刷新全球認(rèn)知;會(huì)場(chǎng)內(nèi),“Learning驅(qū)動(dòng)具身智能”的論文占比突破60%,標(biāo)志著機(jī)器人從“傳統(tǒng)控制工具”向“智能認(rèn)知主體”的范式轉(zhuǎn)移。

當(dāng)“具身智能”從實(shí)驗(yàn)室熱詞走向產(chǎn)業(yè)實(shí)踐,當(dāng)硬件迭代與大模型技術(shù)碰撞出真實(shí)的商業(yè)可能,雷峰網(wǎng)AI科技評(píng)論特別邀請(qǐng)三位橫跨學(xué)界與業(yè)界的嘉賓:上海交通大學(xué)計(jì)算機(jī)學(xué)院助理教授、上海AI Lab青年研究員穆堯、SOMA Robotics創(chuàng)始人陳天一、 科羅拉多大學(xué)助理教授李正雄,共同解碼IROS 2025背后的具身智能前沿趨勢(shì)。

在討論中,嘉賓們的觀點(diǎn)圍繞“IROS觀察”“技術(shù)進(jìn)化”“商業(yè)落地”三大核心層層展開(kāi):

  • IROS現(xiàn)場(chǎng)的“變與不變”:最鮮明的“變”是中國(guó)企業(yè)的集體崛起,“國(guó)產(chǎn)靈巧手”從“跟隨者”變成“引領(lǐng)者”;最核心的“不變”是“硬件驅(qū)動(dòng)科研”的邏輯。傳統(tǒng)運(yùn)動(dòng)控制論文讓位于“具身智能學(xué)習(xí)”,真機(jī)數(shù)據(jù)訓(xùn)練與閉環(huán)反饋控制成為新主流;

  • 具身智能的“認(rèn)知升級(jí)”:嘉賓們一致認(rèn)為,“從控制到理解決策”是具身智能的核心趨勢(shì),這種“大腦(理解決策)+小腦(控制執(zhí)行)”的組合,正在讓機(jī)器人從“能做事”走向“會(huì)思考”;

  • Sim2Real的“實(shí)用邊界” :對(duì)于“Sim2Real是否接近實(shí)用”,嘉賓們給出“分場(chǎng)景判斷”:如物料分揀、零件分類等剛體任務(wù)已能通過(guò)Sim2Real落地,但復(fù)雜場(chǎng)景仍需突破,流體的物理模擬、柔性體的多面接觸,仍是Sim2Real的“卡脖子”問(wèn)題,而“安全驗(yàn)證”則是Sim2Real走向現(xiàn)實(shí)的“最后一公里”;

  • 商業(yè)落地的“路徑選擇”:嘉賓們看好“工業(yè)先于家庭”的路徑,因任務(wù)明確、成本可控已出現(xiàn)落地案例,而家庭服務(wù)則需等待“成本下降”與“泛化能力提升”,比如疊衣服機(jī)器人先應(yīng)用于醫(yī)院、酒店等垂直場(chǎng)景,再向家庭滲透;

  • 具身智能的“GPT時(shí)刻” :最后,關(guān)于具身智能的“爆發(fā)拐點(diǎn)”,嘉賓們預(yù)測(cè)“World Model+VLA”的組合將成為關(guān)鍵,世界模型的通用性可能先于具身智能本體到來(lái),而大規(guī)模機(jī)器人生態(tài)則是推動(dòng)技術(shù)爆發(fā)的“數(shù)據(jù)飛輪”,當(dāng)世界模型能通用推演未來(lái),當(dāng)機(jī)器人集群能生成海量真實(shí)數(shù)據(jù),具身智能或?qū)⒂瓉?lái)類似GPT的突破性時(shí)刻。

以下是此次圓桌討論的精彩分享,AI 科技評(píng)論進(jìn)行了不改原意的編輯整理:

01

IROS 2025 觀察

馬曉寧:大家好,歡迎來(lái)到雷峰網(wǎng) AI 科技評(píng)論的 live 欄目,本次主題是“從 IROS 2025 看智能機(jī)器人前沿趨勢(shì)”。我們邀請(qǐng)到了三位嘉賓:上海交通大學(xué)計(jì)算機(jī)學(xué)院助理教授、上海 AI Lab 青年研究員穆堯老師;SOMA Robotics 創(chuàng)始人陳天一;以及科羅拉多大學(xué)助理教授李正雄老師。感謝三位光臨。


上周我們共同參加了 IROS 大會(huì),感覺(jué)非常震撼和精彩。在 IROS 上,大家看到了哪些有趣的論文或令人印象深刻的產(chǎn)品?

穆堯:在本屆 IROS 期間,最吸引我的仍是展會(huì)上的新產(chǎn)品。硬件的迭代速度非常快,我從年初的 WAIC、WRC 到 IROS 所有的展會(huì)都參加了,每一次都有令人驚艷的東西。

本次 IROS 的一個(gè)標(biāo)志性現(xiàn)象是中國(guó)具身智能企業(yè)的崛起。具體到產(chǎn)品,主要吸引我的是靈巧手技術(shù)。有幾個(gè)展商表現(xiàn)突出,例如Sharpa,他們是首個(gè)將視觸覺(jué)集成到指尖的靈巧手制造商,并且展示了一個(gè)荷官在線發(fā)牌的 Demo,非常震撼。我們自己也做靈巧手,深知將視觸覺(jué)集成到與人手大小相近的指尖是非常不容易的,這要求電機(jī)直驅(qū),電機(jī)必須是自研以保證微小體積和足夠驅(qū)動(dòng)力。

另一個(gè)例子是舞肌科技,他們之前在網(wǎng)上發(fā)布了預(yù)熱的 CG Demo ,此次看到了實(shí)機(jī)展示,效果不錯(cuò)。盡管高自由度背后仍有電機(jī)發(fā)熱等技術(shù)挑戰(zhàn),但靈巧手技術(shù)正在日新月異。相對(duì)而言,低自由度、低成本的機(jī)械臂方案在幾次展會(huì)上方案已經(jīng)趨于收斂,但在靈巧手領(lǐng)域我看到了巨大的機(jī)會(huì)。

在科研方面,IROS 曾以傳統(tǒng)機(jī)器人運(yùn)動(dòng)控制的文章為主,但今年的一大趨勢(shì)是:Learning 驅(qū)動(dòng)的具身智能方法呈指數(shù)式攀升,占據(jù)了絕大多數(shù)的席位。得益于硬件的不斷發(fā)展,我們正邁向一個(gè)大批量使用真機(jī)數(shù)據(jù)來(lái)訓(xùn)練模型的時(shí)代;另外,我們也在真實(shí)世界中進(jìn)行自我探索,這是另一個(gè)進(jìn)行真機(jī)強(qiáng)化學(xué)習(xí)的時(shí)代。

馬曉寧:Learning 驅(qū)動(dòng)的方法成為主流確實(shí)是今年一個(gè)非常明顯的趨勢(shì)。正雄老師您怎么看?

李正雄:穆老師總結(jié)得非常全面和仔細(xì),他已經(jīng)概括了我在 IROS 上發(fā)現(xiàn)的幾個(gè)精彩點(diǎn),我來(lái)做一些補(bǔ)充:

首先關(guān)于靈巧手,從學(xué)術(shù)界角度來(lái)看,原來(lái)我們研究低自由度的動(dòng)作,現(xiàn)在隨著產(chǎn)品的進(jìn)化,我們開(kāi)始研究高自由度的復(fù)雜動(dòng)作。參會(huì)后我們發(fā)現(xiàn)實(shí)際看到的結(jié)果比預(yù)想的更好,這不光是手本體硬件設(shè)計(jì)的進(jìn)步,更關(guān)鍵是Learning 方面的提高,使其能夠?qū)崿F(xiàn)長(zhǎng)時(shí)間復(fù)雜任務(wù)的完成。

其次,正如穆老師所總結(jié)的,關(guān)于人形機(jī)器人或本體方面,很多我們此前只在網(wǎng)上看到的 Demo,在現(xiàn)場(chǎng)能夠真正看到、觸摸,甚至可以給出一些現(xiàn)場(chǎng)的任務(wù)指令。這是網(wǎng)上觀察與現(xiàn)場(chǎng)體驗(yàn)的主要區(qū)別,現(xiàn)場(chǎng)感受到的震撼是不同的。從工業(yè)界看,現(xiàn)在是百花齊放的局面,許多廠商推出了非常好的產(chǎn)品。我相信真正的落地或走進(jìn)千家萬(wàn)戶是指日可待的。

馬曉寧:在現(xiàn)場(chǎng)觀看時(shí),什么樣的動(dòng)作讓您覺(jué)得比較震撼?

李正雄:像靈巧手,廠商可以非常好地完成正常的握手、拿東西,或者完成指令性的任務(wù)。更具沖擊力的是,當(dāng)你真正用手去觸摸它時(shí),能夠感覺(jué)到從物理世界到賽博世界,有一種時(shí)代的跨越感。

馬曉寧:天一有什么要補(bǔ)充的嗎?

陳天一:兩位老師說(shuō)得非常好,特別是穆堯老師,我的關(guān)注點(diǎn)與他基本一致。我在 IROS 產(chǎn)品展上主要關(guān)注兩點(diǎn):靈巧手和桌面級(jí)機(jī)械臂。

靈巧手方面,我特別關(guān)注了Sharpa和舞肌科技。Sharpa自 ICRA 亮相后,因其是首款以電機(jī)直驅(qū)實(shí)現(xiàn) 22 自由度的工業(yè)級(jí)靈巧手而受到全球關(guān)注。他們將視觸覺(jué)技術(shù)工程化做得非常出色,無(wú)論是表面材質(zhì)選擇還是觸覺(jué)信號(hào)精度,都令人驚艷。

這一次,Sharpa也展示了令人印象深刻的 Demo,例如荷官發(fā)牌,即靈巧手捏住撲克牌并將其放置于桌面上,這類任務(wù)在之前的學(xué)術(shù)界靈巧手上是極難完成的。這體現(xiàn)了產(chǎn)業(yè)界在硬件層面已逐步超越此前學(xué)術(shù)界的探索。

在機(jī)械臂方面,我發(fā)現(xiàn)了一個(gè)趨勢(shì):業(yè)界和學(xué)界普遍使用的特定構(gòu)型機(jī)械臂,像方舟無(wú)限的構(gòu)型開(kāi)始增多,并且出現(xiàn)了更低價(jià)的替代方案。我發(fā)現(xiàn)一家名為星界機(jī)器人的公司,能夠?qū)⑦@類機(jī)械臂成本降低至 1,500 美元左右,直接將同構(gòu)型機(jī)械臂的成本降低了約四到五倍,這是一個(gè)非常亮眼的產(chǎn)品。

馬曉寧:成本降低到四五分之一,這是一個(gè)非??鋸埖慕捣,F(xiàn)在我們從整體上來(lái)看,各位嘉賓可以用一兩個(gè)熱詞來(lái)代表這次 IROS 的趨勢(shì)。

陳天一:我認(rèn)為是Learning from Demonstration,即以模仿學(xué)習(xí)為核心的學(xué)習(xí)方法。VLA 是一條相對(duì)清晰的技術(shù)路徑,作為一種端到端的方法,其熱度還是非常火爆的。

馬曉寧:穆堯老師,您認(rèn)為最能代表本次 IROS 的詞是什么?

穆堯:IROS 涵蓋了自動(dòng)駕駛、智能交通、飛行等廣闊領(lǐng)域。我需要補(bǔ)充一個(gè)令人印象深刻的 Demo:浙大湖州研究院的飛行背包,真的可以背在身上飛起來(lái),非常令人震撼,我覺(jué)得飛行背包可以作為第一個(gè)熱詞。

我們的研究更聚焦于機(jī)器人的操作(Manipulation),所以我認(rèn)為第二個(gè)熱詞應(yīng)該是靈巧操作(Dexterous Manipulation)。

02

具身智能的趨勢(shì):從控制到理解加決策

馬曉寧:飛行背包在現(xiàn)場(chǎng)看確實(shí)非常震撼。我們進(jìn)入下一個(gè)問(wèn)題:具身智能的發(fā)展,是否正在從控制加感知走向理解加決策?

李正雄:這種轉(zhuǎn)變正在發(fā)生,可以視為一種混合演進(jìn)。

過(guò)去的研究主要關(guān)注感知和底層的機(jī)械控制。而本次 IROS 展現(xiàn)的趨勢(shì)是,研究已升級(jí)到感知、表征、推理、決策的整個(gè)體系。許多研討會(huì)和演講都在討論“理解”或“想象”在長(zhǎng)期任務(wù)中的作用。

但是在工程化的實(shí)際系統(tǒng)當(dāng)中,仍然需要遵循經(jīng)典的控制和運(yùn)動(dòng)規(guī)劃,作為閉環(huán)的保障。但現(xiàn)場(chǎng)許多新的 Demo 已經(jīng)開(kāi)始將大模型的高層意識(shí)輸出,再由傳統(tǒng)的控制模塊進(jìn)行精細(xì)執(zhí)行。

因此,我的綜合判斷是:在短期內(nèi),大約 1 到 3 年,行業(yè)將采用“感知 + 控制 + 大模型作為高層理解決策”的混合框架,或者采用混合 VLA 的路徑。從長(zhǎng)期來(lái)看,行業(yè)可能更趨向于端到端、可解釋認(rèn)知的控制。但要完全替代傳統(tǒng)的控制和感知,仍需要時(shí)間。

馬曉寧:穆堯老師怎么看?

穆堯:首先,傳統(tǒng)機(jī)器人在執(zhí)行操作任務(wù)時(shí),模式通常是:感知模塊輸出一個(gè)Grasp Pose,再經(jīng)過(guò)軌跡規(guī)劃和控制模塊去執(zhí)行抓取。

我認(rèn)為“理解加決策”還不足夠。理解和決策是具身智能的“大腦”部分,而具身智能區(qū)別于傳統(tǒng)機(jī)器人的核心在于:多模態(tài)大模型賦予了機(jī)器人理解場(chǎng)景的能力和理解人類語(yǔ)言的能力。機(jī)器人具備基礎(chǔ)認(rèn)知后,能夠與人類交互并進(jìn)行推理。這正是多模態(tài)大模型為機(jī)器人領(lǐng)域帶來(lái)的機(jī)會(huì),也催生了“具身智能”這一熱詞。

因此,從這個(gè)角度來(lái)看,這種范式轉(zhuǎn)變確實(shí)存在。除了理解到?jīng)Q策的轉(zhuǎn)變,我認(rèn)為還存在一個(gè)進(jìn)一步的演進(jìn):控制模式的轉(zhuǎn)變。它不再是簡(jiǎn)單地給出一條軌跡然后去跟蹤執(zhí)行,或者進(jìn)行柔性控制,而是更多的是進(jìn)入了閉環(huán)反饋控制。這意味著當(dāng)執(zhí)行出現(xiàn)誤差時(shí),機(jī)器人能夠根據(jù)視覺(jué)捕捉,實(shí)時(shí)修正。例如“抓偏了,需要向右調(diào)整”,然后再次抓取。VLA 模型作為抓取或操作的“小腦模型”,正好彌補(bǔ)了這一點(diǎn)。這是我視角下的一種范式轉(zhuǎn)變。

馬曉寧:大家的感覺(jué)都是這是一個(gè)逐漸演進(jìn)的過(guò)程。在確保機(jī)器人能夠有效執(zhí)行任務(wù)的同時(shí),也要相信其高層次的理解能力。天一,你怎么認(rèn)為?

陳天一:我認(rèn)為,對(duì)于通用具身智能而言,控制、感知與理解、決策這兩部分都是必不可少的。在大模型出現(xiàn)之前,傳統(tǒng)機(jī)器人研究注重模塊化,將感知和控制分開(kāi)研究,再通過(guò)組合完成任務(wù)?,F(xiàn)在有了 VLA 和大模型的賦能,研究人員可以更多地關(guān)注理解和決策問(wèn)題。

但最終,我們肯定需要一個(gè)比較穩(wěn)定的底層控制能力(小腦),再加上層理解和決策的大腦能力。大腦和小腦缺一不可。如何將這兩部分融合起來(lái),是我們未來(lái)學(xué)術(shù)界和工業(yè)界都會(huì)重點(diǎn)研究的方向。但目前來(lái)看,正如正雄老師所說(shuō),工程落地方面,傳統(tǒng)的感知加決策方式仍然更為落地。未來(lái)我們將進(jìn)一步探索如何連接大腦和小腦,實(shí)現(xiàn)更實(shí)際的落地。這是我的觀點(diǎn)。

03

模型與算法演進(jìn):大模型如何重塑具身智能

馬曉寧 :保障性閉環(huán)與大模型決策之間的平衡是關(guān)鍵。接下來(lái)我們討論模型和算法的演進(jìn),在大模型發(fā)展到現(xiàn)在的時(shí)刻,它是如何改變具身智能的研究范式的?

陳天一:我發(fā)現(xiàn)LLM、VLM為機(jī)器人研究注入了非常新鮮的血液。在LLM、VLM 出現(xiàn)之前,研究更多是基于 Model-Based 的方法,側(cè)重于建模、優(yōu)化和控制。但現(xiàn)在有了 LLM、VLM 和強(qiáng)化學(xué)習(xí)等方法,我們看到了幾個(gè)趨勢(shì):

首先,將 LLM 指揮底層模塊執(zhí)行任務(wù)。其次,使用 VLM 去理解場(chǎng)景,評(píng)估場(chǎng)景的獎(jiǎng)勵(lì)(Reward),然后將其輸入給 RL 函數(shù),輔助 RL 算法學(xué)習(xí)復(fù)雜任務(wù)。我看到越來(lái)越多的 VLM 和新穎方法融入到機(jī)器人控制研究中。

馬曉寧:有觀點(diǎn)認(rèn)為,RL 仍然是機(jī)器人完成精細(xì)動(dòng)作的重要一環(huán)。正雄老師,您怎么看?

李正雄:的確,隨著大模型的發(fā)展,LLM、VLM 或世界模型帶來(lái)了一種新的研究范式。這種范式帶來(lái)的具體變化有三點(diǎn):

  1. 高層意圖與自然語(yǔ)言接口: 大模型使得機(jī)器人能更好地利用自然語(yǔ)言進(jìn)行任務(wù)規(guī)劃和分解,并在人機(jī)對(duì)話中提高性能。

  2. 訓(xùn)練范式的改變: 訓(xùn)練范式正在從監(jiān)督學(xué)習(xí)、自監(jiān)督加合成數(shù)據(jù),轉(zhuǎn)向少樣本指令微調(diào)。研究者可以利用大規(guī)模仿真或生成數(shù)據(jù)訓(xùn)練視覺(jué)或行為模型,再用現(xiàn)實(shí)環(huán)境的少量數(shù)據(jù)進(jìn)行適配,從而加快開(kāi)發(fā)節(jié)奏。

  3. 世界模型(World Model)的應(yīng)用: 通過(guò)構(gòu)建世界模型來(lái)進(jìn)行想象和規(guī)劃。世界模型可以被視為一種內(nèi)在仿真,AI Agent 或機(jī)器人模型可以在其中進(jìn)行試驗(yàn),預(yù)測(cè)合適的動(dòng)作序列,然后再落實(shí)到真實(shí)的機(jī)器人上。這種方法比以往更適合機(jī)器人任務(wù)的泛化。

總體而言,這些變化讓具身智能研究從任務(wù)特性化的感知堆棧,走向通用的表征、可組合的技能和自然語(yǔ)言的交流。但這些仍會(huì)依賴于數(shù)據(jù)、算力以及有效的現(xiàn)實(shí)環(huán)境適配策略。這是我目前觀察到的情況。

馬曉寧:穆堯老師,請(qǐng)教您的觀點(diǎn),并請(qǐng)您總結(jié)一下這個(gè)問(wèn)題。

穆堯:我認(rèn)為這是一個(gè)非常好的問(wèn)題。從 Language Model 到 VLM,語(yǔ)言模型對(duì)具身智能的革命性改變首先在于它解決了長(zhǎng)序任務(wù)的長(zhǎng)序推理。在缺乏多模態(tài)大模型時(shí),讓機(jī)器人自主決策完成一項(xiàng)新的、完整的任務(wù)(例如“做一杯完整的咖啡”),是非常困難的。

其次,VLM 實(shí)際上已成為大多數(shù)機(jī)器人基礎(chǔ)模型(如 VLA)的前置基礎(chǔ)模型。這牽引到具身智能的一個(gè)核心問(wèn)題:如何更好地建模 VLA 中的“A”(Action),以及如何使“A”與前端的 VLM 能夠協(xié)調(diào)、統(tǒng)一地在同一個(gè)訓(xùn)練范式中進(jìn)行訓(xùn)練。這是一個(gè)非常重要的問(wèn)題。

第三部分是世界模型(World Model)。世界模型受益于視頻生成模型(如 Sora)的強(qiáng)有力發(fā)展,帶來(lái)了革命性的變化。世界模型在機(jī)器人領(lǐng)域并非新詞,但強(qiáng)大的視頻生成能力賦予了具身智能巨大的機(jī)會(huì)。這種強(qiáng)大的機(jī)會(huì)在于,世界模型對(duì)未來(lái)的推演是 General 的,可以實(shí)現(xiàn)任意本體、任意場(chǎng)景、任意任務(wù)的空間智能推理過(guò)程的表達(dá)。

我們可以通過(guò)世界模型,對(duì)未來(lái)幾幀的模式進(jìn)行推演,以進(jìn)行空間智能推理。這也是李飛飛老師他們牽頭推進(jìn)的空間智能所強(qiáng)調(diào)的。具身智能額外需要解決的問(wèn)題是:在完成了世界模型的推演后,如何利用 Inverse Dynamics 等技術(shù),從未來(lái)幀的推演中推理出機(jī)器人各關(guān)節(jié)角的具體 Action。這是世界模型對(duì)具身智能的革命性推進(jìn)。

04

Sim2Real 的實(shí)用性:挑戰(zhàn)與局限

馬曉寧:我們好奇地追問(wèn)一句,世界模型(World Model)對(duì)具身智能的推演研究范式是否已經(jīng)產(chǎn)生了一些現(xiàn)實(shí)改進(jìn)?

穆堯:是的,它基本上革新了 VLA 的結(jié)構(gòu)。World VLA 的模式正在迅速興起,即通過(guò) Inverse Dynamics 的形式,將世界模型對(duì)未來(lái)時(shí)刻的推演直接嵌入到具身智能的 VLA 框架中。這可以說(shuō)是 VLA 范式中越來(lái)越熱門的一個(gè)方向。

馬曉寧:我總結(jié)一下:從大語(yǔ)言模型(LLM)的出現(xiàn)賦予了具身智能理解動(dòng)作本質(zhì)的能力,到 VLM 使其能夠更好地行動(dòng),再到 World Model 將其整體融入框架之中。那么,從 IROS 2025 的技術(shù)展示來(lái)看,自監(jiān)督 + 模擬 + 現(xiàn)實(shí)適應(yīng)(即 Sim2Real)是否已經(jīng)接近實(shí)用階段?

穆堯:Sim2Real 是我個(gè)人的重要研究方向之一(專注于仿真行業(yè)數(shù)據(jù))。但要判斷其是否“接近實(shí)用階段”,需要分任務(wù)、分場(chǎng)景來(lái)看。

對(duì)于大多數(shù)剛體任務(wù),例如物料分解、零件分類、揀選等,Sim2Real 的確已經(jīng)走向?qū)嵱?。例如,業(yè)界優(yōu)秀的模型,如由尤因和通用提出的 CRAFT-VLA,證實(shí)了 Sim2Real 在這些場(chǎng)景中的實(shí)用性。但我們的限定詞是:剛體,且主要面向抓取、放置等簡(jiǎn)單操作。

目前仿真解決得不夠好,或者說(shuō) Sim2Real 差距仍然很大的地方,包括:柔性體和流體。一個(gè)典型的例子是倒水任務(wù),機(jī)器人要做到不灑是非常困難的。在仿真中,流體的物理模擬和渲染都極具挑戰(zhàn)性。

特別是流體的物理模擬難度很大。對(duì)于柔性體,當(dāng)前的仿真能力可能只能模擬單層的 T 恤或毛巾等簡(jiǎn)單衣物;但對(duì)于復(fù)雜的棉服或外套,我認(rèn)為目前一個(gè)都無(wú)法精確模擬。因此,在這些任務(wù)上,很難說(shuō) Sim2Real 已經(jīng)進(jìn)入實(shí)用階段。

馬曉寧:聽(tīng)起來(lái)其局限性仍然很大。正雄老師,您在觀察這些研究和成果時(shí)有什么樣的感受?

李正雄:穆老師的描述非常全面。對(duì)于剛體或相對(duì)固定的物體,Sim2Real 確實(shí)做得相當(dāng)好。許多研究團(tuán)隊(duì)已經(jīng)公布了良好的訓(xùn)練策略來(lái)完成這類任務(wù)。但對(duì)于流體,目前仍處于研究階段,并未很好地邁向?qū)嵱?。本?IROS 也有相關(guān)的論文試圖解決這一問(wèn)題。

延續(xù)穆老師的觀點(diǎn),現(xiàn)在許多實(shí)驗(yàn)室或團(tuán)隊(duì)已能基于大量的仿真生成數(shù)據(jù),做到 Zero-shot 或 Few-shot 的 Sim2Real。這表明該技術(shù)路線正逐漸收斂和成熟,可以說(shuō)是趨于實(shí)用。

然而,在落地的“最后一公里”,仍存在一些工程上的挑戰(zhàn):例如現(xiàn)實(shí)世界中的 Corner Case(長(zhǎng)尾情況)、長(zhǎng)期的魯棒性(如何保證任務(wù)持續(xù)穩(wěn)定執(zhí)行)、復(fù)雜接觸動(dòng)力學(xué)(如穆老師提到的棉服的多面、不規(guī)則接觸),以及最重要的一點(diǎn):安全性驗(yàn)證。

Sim2Real 的落腳點(diǎn)是 Real,一旦涉及現(xiàn)實(shí)操作,安全驗(yàn)證是不可回避的話題。但目前對(duì)機(jī)器人安全驗(yàn)證的投入似乎力度不夠。因此,很多團(tuán)隊(duì)在 IROS 上特別強(qiáng)調(diào)需要大量的現(xiàn)實(shí)微調(diào)步驟和傳感器冗余,以確保落地和操作的安全。我的觀點(diǎn)是,它已從我們認(rèn)知中的“研究魔術(shù)”逐漸邁向工程實(shí)踐,部分任務(wù)表現(xiàn)優(yōu)異,但在多樣化或開(kāi)放環(huán)境中要做到普遍適用,仍需要大量工作。

馬曉寧:您剛才提到的安全問(wèn)題,如果在 Bad Case 上可能造成什么樣的安全隱患?

李正雄:舉例來(lái)說(shuō),如果機(jī)器人正在倒熱水,一旦馬達(dá)失控或某個(gè)關(guān)節(jié)動(dòng)作不到位,熱水可能會(huì)濺灑到人身上。如果機(jī)器人將來(lái)負(fù)責(zé)做飯,靈巧手拿菜刀切菜時(shí),一旦因摩擦力問(wèn)題導(dǎo)致刀具脫手飛出,就有可能傷及他人。這些都是需要關(guān)注的 Safety 或 Security 問(wèn)題。

馬曉寧:這聽(tīng)起來(lái)仍然非常嚴(yán)重,與實(shí)用性還有較大差距。天一,你怎么看?

陳天一:兩位老師說(shuō)得非常好,我簡(jiǎn)單補(bǔ)充兩點(diǎn)。

第一,Sim2Real 在哪些任務(wù)上做得好?我認(rèn)為是 Locomotion(下肢、雙足、四足運(yùn)動(dòng))和導(dǎo)航。這些任務(wù)與物體的接觸是有限的,不像接觸密集的操控(Contact-Rich Manipulation)需要與物體進(jìn)行多點(diǎn)多次接觸。

對(duì)于雙足/四足機(jī)器人的 Locomotion 來(lái)說(shuō),接觸點(diǎn)是有限且更少的。在這類任務(wù)中,我們看到了非常驚艷的 Demo,例如舞蹈等??梢哉f(shuō),Locomotion 領(lǐng)域的 Sim2Real 已經(jīng)是一個(gè)非常成熟的技術(shù)路線?,F(xiàn)在越來(lái)越多的 Locomotion 算法,其在仿真中訓(xùn)練出的策略已經(jīng)支持實(shí)時(shí)的遙操作,并能保持穩(wěn)定和完成復(fù)雜的動(dòng)作。

在 Manipulation 方面,局限性仍然非常大?;旧现辉趧傮w、或近似于落地的物流分揀、簡(jiǎn)單拿放等操作中可以應(yīng)用。而涉及到流體、柔性體,特別是復(fù)雜的摩擦力的任務(wù),目前效果是遠(yuǎn)不及前者的。

第二點(diǎn)補(bǔ)充是關(guān)于長(zhǎng)尾效應(yīng)。仿真展現(xiàn)了巨大潛力,但現(xiàn)實(shí)應(yīng)用場(chǎng)景的長(zhǎng)尾效應(yīng)非常嚴(yán)重。例如,每個(gè)人的家庭場(chǎng)景都是不一樣的。仿真面臨的挑戰(zhàn)是:能否在有限的仿真場(chǎng)景中獲得足夠的泛化能力?如果不能,我們是否需要以低成本或高效的方式將所有人的家都仿真一遍?或者,我們能否讓機(jī)器人在有限環(huán)境下學(xué)到的能力,高強(qiáng)度遷移到每個(gè)人的家里?

我認(rèn)為這個(gè)挑戰(zhàn)仍然非常大,需要持續(xù)觀察算法進(jìn)步的效率。我個(gè)人認(rèn)為,長(zhǎng)尾問(wèn)題是 Sim2Real 走向普及的一個(gè)巨大的挑戰(zhàn)。

馬曉寧:明白。核心還是通用具身智能的 Corner Case 數(shù)量過(guò)于龐大??偨Y(jié)來(lái)看,Sim2Real 在 Locomotion 和導(dǎo)航等領(lǐng)域已具有實(shí)用價(jià)值,可以落地;但在涉及流體、復(fù)雜柔性或摩擦力的泛化場(chǎng)景中,其實(shí)用性仍然非??皯n。

05

硬件趨勢(shì)與軟硬協(xié)同:具身智能的關(guān)鍵進(jìn)階

馬曉寧:IROS 2025 展現(xiàn)的硬件趨勢(shì)是什么?具身智能的下一個(gè)階段,關(guān)鍵是否在于軟硬協(xié)同?

陳天一:我認(rèn)為軟硬協(xié)同是一個(gè)非常重要的趨勢(shì)。從我們剛剛觀察到的產(chǎn)品來(lái)看,像Sharpa、舞肌科技以及各機(jī)械臂廠家,都在逐步向更強(qiáng)的軟硬協(xié)同方向發(fā)展。

在缺乏產(chǎn)品化機(jī)器人硬件的早期,軟件和硬件是分離的,研究者需要通用平臺(tái),且經(jīng)常要對(duì)硬件進(jìn)行特定改動(dòng)。而現(xiàn)在,具身智能產(chǎn)業(yè)正逐步邁向產(chǎn)業(yè)化和工程化,市場(chǎng)需要面向市場(chǎng)的產(chǎn)品。對(duì)于這些產(chǎn)品而言,如果希望達(dá)到極致的用戶體驗(yàn)和性能,軟硬協(xié)同是不可避免的關(guān)鍵要素。

馬曉寧:但現(xiàn)在推進(jìn)軟硬協(xié)同是否仍面臨許多難點(diǎn)?

陳天一 :是的,難點(diǎn)在于:在算法尚未收斂的情況下,如何確定清晰的路徑去優(yōu)化硬件?換句話說(shuō),在軟件尚不成熟時(shí),如何保證軟硬協(xié)同能夠高效地朝著最優(yōu)(Optimal)方向發(fā)展?這就考驗(yàn)了每個(gè)廠家具備的技術(shù)洞察力,即對(duì)未來(lái)方向的選擇和判斷。廠商需要通過(guò)多線并行的方案,以軟硬協(xié)同的方式聯(lián)合提升產(chǎn)品性能。

馬曉寧:總結(jié)來(lái)說(shuō),這是產(chǎn)品化倒逼技術(shù)進(jìn)步。穆堯老師可以從學(xué)術(shù)界的角度闡述這個(gè)問(wèn)題。

穆堯 :軟硬協(xié)同無(wú)疑是一個(gè)非常重要的趨勢(shì)。我們?cè)诟咝?nèi)與大多數(shù)具身智能公司都有合作,我們學(xué)術(shù)界為硬件廠商提供的幫助,主要是反饋意見(jiàn):在使用過(guò)程中,哪些功能未能達(dá)到要求。例如,我最近向所有機(jī)械臂廠家提出的要求是提供一個(gè)非常靈活的腕關(guān)節(jié),希望他們能盡快完善產(chǎn)品。

其次是生態(tài)建設(shè)。機(jī)器人若要實(shí)現(xiàn)大范圍推廣,需要一個(gè)良好的生態(tài)系統(tǒng)。其中最好的典范是 ROS-I(ROS Industrial)和樂(lè) Robot,它們?cè)谏鷳B(tài)建設(shè)上是成功的。

從算法研發(fā)的推動(dòng)作用來(lái)說(shuō),硬件改進(jìn)一點(diǎn)點(diǎn),算法上的進(jìn)步可以是一大截。例如,腕關(guān)節(jié)的靈活性提升,能顯著提高任務(wù)成功率。因?yàn)楝F(xiàn)在的 VLA 能夠?qū)W習(xí)到位置或姿態(tài)的基礎(chǔ)趨勢(shì),最終比拼的是操作的準(zhǔn)確度和效率,這必然需要軟硬協(xié)同。

值得注意的是,硬件廠商與學(xué)術(shù)界都在積極合作,這是必然的趨勢(shì)。過(guò)去,硬件研發(fā)周期長(zhǎng)(例如大公司從定型到量產(chǎn)),導(dǎo)致算法發(fā)展快于硬件。現(xiàn)在百花齊放,國(guó)內(nèi)展商在 IROS 上居多,且更具看點(diǎn),這實(shí)際上體現(xiàn)了在初創(chuàng)企業(yè)強(qiáng)大活力的推動(dòng)下,硬件的迭代速度變得非常快,這是一個(gè)非常好的趨勢(shì)。

馬曉寧:正雄老師,您長(zhǎng)期在美國(guó),這次回國(guó)有什么新的感受嗎?

李正雄:首先,硬件方面,其種類和功能都在增加:例如多模態(tài)傳感器(Lidar、主動(dòng)相機(jī)、高幀率 RGBD)、機(jī)器人本體(輪腿混合、模塊化的末端執(zhí)行器),以及邊緣算力加速器等硬件的日益普及和功能增強(qiáng)。

軟硬協(xié)同肯定是一個(gè)大趨勢(shì)。機(jī)器人是一個(gè)整體系統(tǒng),如果軟件無(wú)法充分利用硬件的高性能,就是一種浪費(fèi)。這是一個(gè)相互促進(jìn)的過(guò)程。同時(shí),從我們研究的角度,軟件調(diào)試的增多會(huì)發(fā)現(xiàn)當(dāng)前 Learning 上的缺陷,從而反過(guò)來(lái)指導(dǎo)硬件設(shè)計(jì)的優(yōu)化。我們?cè)?IROS 上有一篇關(guān)于觸覺(jué)傳感器(Tactile Sensor)的論文,探討了如何增加新的維度,使其更好地完成任務(wù)。

因此,這是一個(gè)相互促進(jìn)、互相協(xié)調(diào)的發(fā)展。軟硬協(xié)同必然是未來(lái)的趨勢(shì),硬件人員最好懂一點(diǎn)軟件,軟件人員也能更好地協(xié)助硬件人員,以提高整體系統(tǒng)性能。

馬曉寧:穆堯老師提到他們與許多業(yè)界公司合作研究軟硬協(xié)同,這對(duì)行業(yè)發(fā)展非常有意義。正雄老師,您是否有類似的合作,以及您如何看待這樣的生態(tài)發(fā)展?

李正雄:合作越緊密,對(duì)整個(gè)產(chǎn)業(yè)的發(fā)展促進(jìn)越好。大家能夠互相了解對(duì)方的需求,可能通過(guò)一次溝通或交流,就能發(fā)現(xiàn)新的行業(yè)機(jī)會(huì)。

馬曉寧:天一有和哪些機(jī)構(gòu)進(jìn)行過(guò)類似的合作嗎?

陳天一:我們是一家小型初創(chuàng)公司,與智元、以及穆堯老師提到的那些大型人形機(jī)器人公司相比,差距仍然較大。我們目前的產(chǎn)品領(lǐng)域也略有不同,因此暫時(shí)還沒(méi)有與學(xué)界進(jìn)行這方面的合作,主要專注于內(nèi)部研究。

06

商業(yè)潛力:從科研到創(chuàng)業(yè)的落地方向

馬曉寧:具身智能最具商業(yè)潛力的方向在哪里?

李正雄:從產(chǎn)業(yè)角度來(lái)看,我們團(tuán)隊(duì)看好三個(gè)大的中期機(jī)會(huì):工業(yè)化的巡檢和流水線、倉(cāng)儲(chǔ)物流,以及家庭服務(wù)。這三個(gè)領(lǐng)域在中長(zhǎng)期內(nèi)即可實(shí)現(xiàn)相關(guān)的落地應(yīng)用和商業(yè)化。

從長(zhǎng)期來(lái)看,家庭醫(yī)療維護(hù)、老年人康復(fù)、手術(shù)輔助,以及教育和陪伴,也具有很高的經(jīng)濟(jì)價(jià)值。但相較于前三者,它們?cè)诙唐诘纳虡I(yè)投資回報(bào)率上可能略遜一籌,但前景良好。

馬曉寧:穆堯老師,您的看法如何?

穆堯:我的看法與李老師相似。從短期來(lái)看,機(jī)會(huì)仍主要集中在工業(yè)落地。期望它短期內(nèi)進(jìn)入千家萬(wàn)戶的家庭服務(wù)可能還比較遙遠(yuǎn)。但即使是面向家庭服務(wù),其應(yīng)用也會(huì)是垂直領(lǐng)域的。

例如,像 DELA 做的疊衣服機(jī)器人,其應(yīng)用場(chǎng)景可能不是家庭,而是醫(yī)院(疊病號(hào)服)或酒店(疊毛巾、浴巾)。這實(shí)際上是具備走進(jìn)家庭的潛力,但短期內(nèi)缺乏強(qiáng)大的泛化能力。關(guān)鍵的落地標(biāo)志是:在一個(gè)垂直領(lǐng)域,機(jī)器能夠 24 小時(shí)運(yùn)轉(zhuǎn),且其效率大于等于人類 8 小時(shí)工作的效率。這便完成了基本的商業(yè)閉環(huán)。

馬曉寧:家庭場(chǎng)景的落地可能還需要較長(zhǎng)時(shí)間。但我發(fā)現(xiàn)一些場(chǎng)景,例如農(nóng)業(yè)摘果子,一個(gè)機(jī)械臂搭配吸盤或夾爪,就能達(dá)到兩名工人的勞動(dòng)效率,這非常實(shí)用。

陳天一:在機(jī)器人落地場(chǎng)景的觀察上,基本上涵蓋了兩位老師提到的方向:工業(yè)柔性制造、巡檢分揀、商業(yè)服務(wù)、家庭服務(wù)和養(yǎng)老。大家普遍看好的滲透路徑是:從工業(yè)到商業(yè)再到家庭。

這是因?yàn)楣I(yè)場(chǎng)景相對(duì)半結(jié)構(gòu)化,任務(wù)界定清晰(Well Defined),不如家庭場(chǎng)景那般非結(jié)構(gòu)化、隨機(jī)和復(fù)雜。此外,家庭場(chǎng)景的終端客戶對(duì)成本敏感度極高。因此,當(dāng)前的趨勢(shì)是先在工業(yè)場(chǎng)景賺取行業(yè)第一桶金,持續(xù)攤薄硬件成本,最終逐步向家庭滲透。

最近我了解到一則令人震驚的落地應(yīng)用:一個(gè)團(tuán)隊(duì)將端到端模型落地到了二維平面焊接場(chǎng)景,并且已經(jīng)接近投產(chǎn)階段。這很有意思,因?yàn)?strong>它挑戰(zhàn)了我們之前對(duì)具身智能多軸或人形機(jī)器人的想象。在這個(gè)應(yīng)用中,可能只是一個(gè)二自由度的焊接槍,但具身智能模型賦予它的優(yōu)勢(shì)是柔性化。它無(wú)需為每一個(gè)新工件從頭設(shè)計(jì)邏輯和程序,而是可以不斷積累經(jīng)驗(yàn)。在這種場(chǎng)景下,它確實(shí)提高了整個(gè)產(chǎn)線的研發(fā)效率,挑戰(zhàn)了我們對(duì)具身智能落地形態(tài)的認(rèn)知。

馬曉寧:這確實(shí)是一個(gè)與商業(yè)結(jié)合得比較完美的案例。接下來(lái)有一個(gè)線上觀眾提問(wèn):三位老師有沒(méi)有看到哪些比較驚艷的靈巧手產(chǎn)品?這個(gè)問(wèn)題可以不局限于 IROS。剛才我們談到了Sharpa和 舞肌科技。三位老師還有沒(méi)有其他日常接觸到的優(yōu)秀靈巧手推薦?

穆堯:我來(lái)補(bǔ)充幾個(gè),因?yàn)槲覍?duì)這塊接觸較多,且有合作。

  1. Proxy Hand 在 IROS 上發(fā)布了大規(guī)模靈巧操作數(shù)據(jù)集,以及代理 Converse 靈巧智能的靈巧手。這是一款高自由度的線驅(qū)靈巧手。

  2. 靈犀巧手: 它的整體手部較輕,且有多個(gè)高/低自由度版本。它有一個(gè)“學(xué)者計(jì)劃”,為學(xué)術(shù)界提供很好的資助,適合有研究需求的老師。

  3. 星際光聯(lián): 這家深圳公司提出了一個(gè)驅(qū)動(dòng)器與手部分離的方案,將驅(qū)動(dòng)器放置在胸部或臂部。這解決了傳統(tǒng)電機(jī)直驅(qū)或繩驅(qū)方式使手部過(guò)重或過(guò)大的問(wèn)題,是一個(gè)非常新穎的方案。

馬曉寧:天一和正雄兩位老師還有什么要補(bǔ)充的嗎?

李正雄:我可以補(bǔ)充兩款海外常用的靈巧手,一款是Allegro Hand: 韓國(guó)的產(chǎn)品;另一款是Shadow Dexterous Hand: X-On 公司旗下的產(chǎn)品。

馬曉寧:你們?nèi)粘槭裁磿?huì)選用這兩款?

李正雄:首先,從研究角度,預(yù)算是重要的考量因素。這兩款靈巧手相對(duì)比較開(kāi)源,且便于進(jìn)行二次維護(hù)和開(kāi)發(fā)。

07

總結(jié)與展望:具身智能的 GPT 時(shí)刻

馬曉寧:最后一個(gè)問(wèn)題,也是一個(gè)總結(jié)和預(yù)測(cè)性的問(wèn)題。在未來(lái)的三到五年內(nèi),具身智能經(jīng)歷了巨大的進(jìn)步和改變,包括實(shí)用性、研究范式和軟硬協(xié)同。我們所說(shuō)的關(guān)鍵拐點(diǎn),或者說(shuō)它的 GPT 時(shí)刻會(huì)是什么?是統(tǒng)一世界模型的出現(xiàn)?是真正可理解的人機(jī)協(xié)作智能?還是安全可控的社會(huì)行為?

李正雄:我認(rèn)為關(guān)鍵拐點(diǎn)將是 VLA 加世界模型(World Model)的組合,即可組合的通用世界模型的出現(xiàn)。如果能出現(xiàn)一個(gè)跨任務(wù)、又能高效適配現(xiàn)實(shí)的、具有良好 Reward 機(jī)制的世界模型,它將改變現(xiàn)有 AI 的訓(xùn)練和部署范式,并能在一定程度上高效地完成多種任務(wù)。

其他關(guān)鍵因素還包括軟硬協(xié)同這種工程范式的落地,相關(guān)的標(biāo)準(zhǔn)形成,硬件邊緣算力、仿真工具以及整個(gè)訓(xùn)練配套的成熟。這將使得 Sim2Real 能夠在產(chǎn)業(yè)級(jí)的場(chǎng)景中實(shí)現(xiàn)大規(guī)模復(fù)現(xiàn)和規(guī)?;瘧?yīng)用。最后,安全和可解釋性是不可或缺的。這既是滿足社會(huì)行為和法規(guī)的標(biāo)準(zhǔn)化要求,也能讓更多用戶安心使用我們的產(chǎn)品。

馬曉寧:穆堯老師對(duì)這個(gè)有什么不一樣的想法嗎?

穆堯:我高度贊同 VLA 和 World Model 的結(jié)合。我個(gè)人有一個(gè)暴論:世界模型的通用性會(huì)比具身智能的通用性來(lái)得更早一些

具身智能機(jī)器人受到本體發(fā)展等多種約束條件。但面向具身的世界模型可以更多地依賴人類行為數(shù)據(jù)。人類世界的數(shù)據(jù)是無(wú)窮無(wú)盡、非常海量的。對(duì)這方面數(shù)據(jù)的深入挖掘,將使世界模型的學(xué)習(xí)和訓(xùn)練有非常好的發(fā)展?,F(xiàn)在已經(jīng)有一些效果不錯(cuò)(Workable)的世界模型在逐漸出現(xiàn),雖然物理真實(shí)性有待考量,但我相信結(jié)合強(qiáng)化學(xué)習(xí)等技術(shù)可以使其學(xué)得越來(lái)越好。

如果出現(xiàn)一個(gè)非常好的世界模型,我們就可以實(shí)現(xiàn) World Model as a Simulator。這樣,即使沒(méi)有物理本體,我們也可以進(jìn)行推演和策略的更新迭代。這對(duì)具身策略學(xué)習(xí)的促進(jìn)將是革命性的。因此,我個(gè)人觀點(diǎn)是,世界模型的通用性會(huì)更早一步到來(lái)。

馬曉寧:如果我請(qǐng)您預(yù)測(cè)一個(gè)時(shí)間點(diǎn),您覺(jué)得會(huì)是多長(zhǎng)時(shí)間?

穆堯:這個(gè)時(shí)間點(diǎn)其實(shí)說(shuō)快也很快。Sora 2 的發(fā)展速度大家有目共睹。當(dāng)前學(xué)術(shù)界的另一個(gè)趨勢(shì)是 “互聯(lián)網(wǎng)數(shù)據(jù) Great Again”。具身智能研究始于互聯(lián)網(wǎng)數(shù)據(jù),但當(dāng)時(shí)計(jì)算機(jī)視覺(jué)技術(shù)不夠成熟?,F(xiàn)在,4D 高斯等技術(shù)的成熟,使得重建和姿態(tài)估計(jì)成為可能。在“Make Internet Data Great Again”的浪潮下,世界模型將向前推進(jìn)很大一步。我覺(jué)得近兩年內(nèi),世界模型就會(huì)有一個(gè)很大的突破。而具身智能最終要到落地的場(chǎng)景,我的估計(jì)是五年左右的時(shí)間。

馬曉寧:那我們五年之后再回過(guò)頭來(lái)驗(yàn)證這個(gè)問(wèn)題。天一,您覺(jué)得呢?

陳天一:我非常認(rèn)同兩位老師關(guān)于 World Model 和 VLA 的觀點(diǎn)。VLA 現(xiàn)在已經(jīng)有了,但能夠與 VLA 結(jié)合的優(yōu)質(zhì) World Model 尚未出現(xiàn)。但當(dāng)我相信這樣的世界模型出現(xiàn)時(shí),它能賦予機(jī)器人強(qiáng)大的能力,即在 World Model 里預(yù)測(cè)下一步動(dòng)作,這將給整個(gè)具身智能帶來(lái)一個(gè)技術(shù)奇點(diǎn)式的突破。

至于時(shí)間點(diǎn),我選擇相信穆堯老師的判斷,可能在兩到三年內(nèi)會(huì)有好的 World Model。但我還想補(bǔ)充一個(gè)非常重要的點(diǎn):大規(guī)模部署的機(jī)器人生態(tài)。即使有了基于互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練的世界模型,它在機(jī)器人本體上的效果如何?這仍然是一個(gè)不確定的問(wèn)題。

所以,如果有一個(gè)大規(guī)模部署的機(jī)器人生態(tài),它能同時(shí)為 VLA 和 World Model 提供良好的基礎(chǔ),促進(jìn)整個(gè)算法的發(fā)展。我認(rèn)為世界模型和大規(guī)模部署的機(jī)器人本體生態(tài),是促成具身智能爆發(fā)性拐點(diǎn)到來(lái)的兩個(gè)關(guān)鍵要素。

馬曉寧:您這個(gè)觀點(diǎn)有點(diǎn)像特斯拉的生態(tài)模式。

陳天一:是的。特斯拉之所以效果好,也是因?yàn)樗鼡碛幸粋€(gè)機(jī)器人艦隊(duì)(自動(dòng)駕駛汽車也是一種機(jī)器人),這對(duì)自動(dòng)駕駛的效果貢獻(xiàn)巨大。

馬曉寧:我好奇的是,這種大規(guī)模的機(jī)器人集群生態(tài),會(huì)是部署在什么樣的場(chǎng)景?

陳天一:我們公司目前正在探索這方面的方向,主要集中在居家場(chǎng)景。

馬曉寧:好的。總結(jié)一下,按照正雄老師和穆堯老師的觀點(diǎn),World Model 加 VLA 是關(guān)鍵節(jié)點(diǎn);天一則補(bǔ)充了大規(guī)模的機(jī)器人生態(tài)(可以理解為數(shù)據(jù)飛輪的成熟),這也非常具有啟發(fā)性。那五年之后,我們?cè)僖黄鸹剡^(guò)頭來(lái)驗(yàn)證今天的預(yù)測(cè)。

本次GAIR Live 圓桌論壇就到此結(jié)束了,非常感謝三位嘉賓。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
海南封關(guān),新加坡的沉默震耳欲聾!

海南封關(guān),新加坡的沉默震耳欲聾!

環(huán)球策論
2025-12-18 22:39:23
日本迫使蘋果調(diào)整iOS規(guī)則大幅降低蘋果稅,中國(guó)繼續(xù)人傻錢多?

日本迫使蘋果調(diào)整iOS規(guī)則大幅降低蘋果稅,中國(guó)繼續(xù)人傻錢多?

風(fēng)向觀察
2025-12-18 16:40:37
悲??!杭州小米交付中心被撞員工身亡:車主90后,剛提車,未上牌

悲?。『贾菪∶捉桓吨行谋蛔矄T工身亡:車主90后,剛提車,未上牌

娜烏和西卡
2025-12-19 11:10:31
量子科技上市公司46歲董事長(zhǎng),緣何在辦公室內(nèi)猝然離世

量子科技上市公司46歲董事長(zhǎng),緣何在辦公室內(nèi)猝然離世

穿透
2025-12-19 13:07:34
楊穎實(shí)慘越混越差,化大濃妝參加上海網(wǎng)紅聚會(huì),合照都在最角落里

楊穎實(shí)慘越混越差,化大濃妝參加上海網(wǎng)紅聚會(huì),合照都在最角落里

小娛樂(lè)悠悠
2025-12-18 15:05:19
“不要再查了,再查我怕過(guò)兩天南京博物院庫(kù)房就要著火了!”

“不要再查了,再查我怕過(guò)兩天南京博物院庫(kù)房就要著火了!”

迷世書童H9527
2025-12-18 10:00:25
“贗品”《江南春》,為何能被神秘“顧客”以6800元買走?

“贗品”《江南春》,為何能被神秘“顧客”以6800元買走?

木蹊說(shuō)
2025-12-19 14:07:19
新華社證實(shí)南京博物院賣了《江南春》,事情變得更加撲朔迷離

新華社證實(shí)南京博物院賣了《江南春》,事情變得更加撲朔迷離

銀河敘事
2025-12-19 13:00:27
中央戲劇學(xué)院院長(zhǎng)郝戎被查,劉燁、章子怡、靳東等為其學(xué)生,曾搭檔王志文、李冰冰演電視劇,被稱"明星導(dǎo)師"

中央戲劇學(xué)院院長(zhǎng)郝戎被查,劉燁、章子怡、靳東等為其學(xué)生,曾搭檔王志文、李冰冰演電視劇,被稱"明星導(dǎo)師"

大風(fēng)新聞
2025-12-19 11:54:20
3死1傷!廣西忻城縣突發(fā)兇殺案,當(dāng)?shù)鼐酵▓?bào),案發(fā)更多細(xì)節(jié)流出

3死1傷!廣西忻城縣突發(fā)兇殺案,當(dāng)?shù)鼐酵▓?bào),案發(fā)更多細(xì)節(jié)流出

火山詩(shī)話
2025-12-19 14:04:04
云南大理發(fā)生的這件事,有些人已經(jīng)徹底沒(méi)有底線了!

云南大理發(fā)生的這件事,有些人已經(jīng)徹底沒(méi)有底線了!

胖胖說(shuō)他不胖
2025-12-19 11:00:11
中小學(xué)將改“522學(xué)制”?官方最新回應(yīng)來(lái)了,落地時(shí)間表明確

中小學(xué)將改“522學(xué)制”?官方最新回應(yīng)來(lái)了,落地時(shí)間表明確

慧眼看世界哈哈
2025-12-19 11:50:03
剛剛,動(dòng)手了!30年首次。。

剛剛,動(dòng)手了!30年首次。。

格隆匯
2025-12-19 12:53:09
起底南博6位鑒定專家,個(gè)個(gè)來(lái)頭不小,龐家5幅畫真的是“偽作”?

起底南博6位鑒定專家,個(gè)個(gè)來(lái)頭不小,龐家5幅畫真的是“偽作”?

數(shù)字財(cái)經(jīng)智庫(kù)
2025-12-19 10:32:32
最新!抖音集團(tuán)副總裁回應(yīng)出新規(guī)

最新!抖音集團(tuán)副總裁回應(yīng)出新規(guī)

每日經(jīng)濟(jì)新聞
2025-12-16 21:12:04
嘉必優(yōu)上市六周年,長(zhǎng)期主義“復(fù)利”兌現(xiàn)!

嘉必優(yōu)上市六周年,長(zhǎng)期主義“復(fù)利”兌現(xiàn)!

智藥局
2025-12-19 14:27:16
重情重義!曝許亞軍為何晴付10年醫(yī)藥費(fèi),延長(zhǎng)生命偷偷打生活費(fèi)

重情重義!曝許亞軍為何晴付10年醫(yī)藥費(fèi),延長(zhǎng)生命偷偷打生活費(fèi)

查爾菲的筆記
2025-12-17 20:23:54
54歲陳松伶減重27斤,皮松臉黑括號(hào)紋很深,和老公站一起像兩代人

54歲陳松伶減重27斤,皮松臉黑括號(hào)紋很深,和老公站一起像兩代人

娛圈小愚
2025-12-19 10:03:35
1979年,楊顯東參觀完大寨后怒批陳永貴:他騙全國(guó)人民,騙黨中央

1979年,楊顯東參觀完大寨后怒批陳永貴:他騙全國(guó)人民,騙黨中央

帝哥說(shuō)史
2025-12-19 06:25:03
你無(wú)意中發(fā)現(xiàn)過(guò)別人哪些秘密?網(wǎng)友:這不是我一個(gè)單身狗能看的

你無(wú)意中發(fā)現(xiàn)過(guò)別人哪些秘密?網(wǎng)友:這不是我一個(gè)單身狗能看的

帶你感受人間冷暖
2025-12-18 00:10:08
2025-12-19 16:35:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7012文章數(shù) 20715關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

剎車失靈時(shí)速115飆490公里司機(jī):下車后渾身抖無(wú)法說(shuō)話

頭條要聞

剎車失靈時(shí)速115飆490公里司機(jī):下車后渾身抖無(wú)法說(shuō)話

體育要聞

沒(méi)有塔圖姆,還有塔禿姆

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無(wú)期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

時(shí)尚
房產(chǎn)
數(shù)碼
本地
教育

女友BELLA+封面 | Jimmy&Ohm:人生拼圖

房產(chǎn)要聞

猛降1.65億!大唐集團(tuán),再次出售三亞核心資產(chǎn)!

數(shù)碼要聞

KTC發(fā)布新款27英寸2K 275Hz顯示器H27E6S 售價(jià)999元內(nèi)置音箱

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

教育要聞

官宣!鼓勵(lì)高校為申報(bào)就業(yè)創(chuàng)業(yè)職稱的教師傾斜名額

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版