国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

「一腦多形」圓桌:世界模型、空間智能在具身智能出現(xiàn)了哪些具體進(jìn)展?|GAIR 2025

0
分享至



世界模型解決具身智能相關(guān)問(wèn)題,會(huì)不會(huì)距離太遠(yuǎn)?

作者丨張進(jìn)

編輯丨林覺(jué)民


在 12 月 13 日舉行的第八屆GAIR全球人工智能與機(jī)器人大會(huì)“數(shù)據(jù)&一腦多形”分論壇上,一場(chǎng)有關(guān)“一腦多形”的圓桌論壇,將整個(gè)會(huì)場(chǎng)氣氛推向高潮,在英諾天使基金 ED 王建明的主持下,浙江大學(xué)控制學(xué)院副教授,微分智飛創(chuàng)始人高飛,寧波東方理工大學(xué)助理教授金鑫,上海人工智能實(shí)驗(yàn)室青年科學(xué)家王靖博三位嘉賓圍繞著具身智能、空間智能、世界模型等話題進(jìn)行了熱烈討論。

通過(guò)主持人特有的投資人式、抽絲剝繭的提問(wèn),圍繞著幾位學(xué)者的研究和創(chuàng)業(yè)方向,我們可以了解到當(dāng)下最火熱的世界模型、空間智能在具身智能領(lǐng)域的研究進(jìn)展和細(xì)節(jié),從而得以穿透資本籠罩在世界模型、空間智能的迷霧,看到具身智能當(dāng)下遇到的挑戰(zhàn)與機(jī)遇。

01

具身智能技術(shù)路線仍未收斂

王建明:三位學(xué)者研究的方向都非常不一樣,開(kāi)場(chǎng)先問(wèn)一個(gè)共性的問(wèn)題熱熱場(chǎng),大家怎么看過(guò)去兩年具身智能的發(fā)展?

高飛:現(xiàn)在還沒(méi)到技術(shù)路線收斂的時(shí)候,還屬于探索階段,這是好事,有發(fā)散才有機(jī)會(huì)。這波具身智能的熱潮,大家本質(zhì)期待的還是 AI 結(jié)合本體能帶來(lái)的智能性的飛躍。我認(rèn)為從發(fā)散探索到技術(shù)路線收斂、到最后落地階段,大家還是要記住自己做具身智能的初心是什么。如果不是為了通用泛化智能,最后這個(gè)領(lǐng)域又收斂回工業(yè)自動(dòng)化了,可能就沒(méi)有太大的意義了。

金鑫:我也非常同意高老師的看法,我感覺(jué)這兩年留給高校的機(jī)會(huì)相對(duì)產(chǎn)業(yè)界來(lái)講比較少,希望未來(lái)更多把具身智能的核心問(wèn)題交給高校去突破,比如交互、人機(jī)協(xié)同、多智能體、世界模型等等抽象出的關(guān)鍵問(wèn)題,產(chǎn)業(yè)去做更落地的事情。希望未來(lái)兩年能看到高校跟企業(yè)更好地合作、平衡。

王靖博:相比較在純數(shù)字世界中做一些例如scaling up 的事情,我更關(guān)注具身智能軟硬件的 code design,比如人形機(jī)器人十年前的波士頓動(dòng)力 Atlas 就展示出了很好的運(yùn)動(dòng)能力,但它并沒(méi)有從實(shí)驗(yàn)室的產(chǎn)品進(jìn)入產(chǎn)業(yè)界,當(dāng)有了較好的軟硬件的 code design,可能會(huì)加快整個(gè)領(lǐng)域的進(jìn)程。

王建明:高飛老師的演講剛剛展示了特別多的能力,例如單個(gè)機(jī)器人的自主路徑的規(guī)劃決策、集群、飛行操作,demo 演示都非常驚艷,這些能力背后是如何做到的?跟您過(guò)往研究是否有協(xié)同?

高飛:很難有一句話來(lái)說(shuō)明白怎么做到的,不同的 demo 肯定有不同的技術(shù)路線,我之所以比較擅長(zhǎng)做一些比較 fancy 的 demo,可能是因?yàn)槲冶容^擅長(zhǎng)在保持著一定發(fā)散思維的情況下,還有比較好的執(zhí)行力,最后能把想法落實(shí)。在具體技術(shù)路線里,我的優(yōu)勢(shì)可能是:在無(wú)人機(jī)領(lǐng)域,我可能是比較懂 AI 的;在 AI 領(lǐng)域,我可能是比較懂無(wú)人機(jī)的。

單體機(jī)器人的研究思路是通過(guò)放大其極限情況下的小腦能力,現(xiàn)在比較合適收斂的技術(shù)路線越來(lái)越往端到端的方向傾斜。通過(guò)端到端可以降低整個(gè)系統(tǒng)的 compound error(復(fù)合誤差)和降低延遲。具體用什么解法,就要 case by case,做 robotics 的好處就是這是很尊重客觀事實(shí)、面向?qū)ο蟮囊粋€(gè)學(xué)科,什么好用我們用什么。

決策這塊,現(xiàn)在業(yè)界的共識(shí)可能要通過(guò)放大 VLM的能力,而對(duì)于群體機(jī)器人而言,打造一種柔性的、彈性的、分布式的、靈活的群體架構(gòu)才是一切的基礎(chǔ)。

王建明:我比較好奇無(wú)人機(jī)的端到端是什么端到端?我的簡(jiǎn)單粗化理解大家說(shuō)的端到端是一個(gè)黑箱操作,是data driven的事情。

高飛:我認(rèn)為端到端和 data driven 是兩個(gè)概念,舉個(gè)例子,無(wú)人機(jī)的端到端是圖像輸入,電機(jī)控制,那是不是一定要用到機(jī)器學(xué)習(xí)、黑箱、RL,其實(shí)不一定。20年前大家研究無(wú)人機(jī),就可能會(huì)在地上貼一個(gè)小球,無(wú)人機(jī)的攝像頭看到這個(gè)小球,通過(guò)把小球的像素點(diǎn)控制在像平面中間,讓無(wú)人機(jī)可以保持懸停。這是不是端到端?是,因?yàn)樗?PID把一端輸入的信息——圖像空間中的點(diǎn)誤差,映射到另一端輸出的控制指令。

端到端是一種范式,強(qiáng)化學(xué)習(xí)是一種解法,黑箱是一種模式,三者是不一樣的概念,不應(yīng)該被直接畫(huà)上等號(hào)。

王建明:所以高老師的端到端也用到各種解法?

高飛:各種各樣的解法,以解決問(wèn)題為唯一目標(biāo)。

王建明:也有涉及到強(qiáng)化學(xué)習(xí)?

高飛:現(xiàn)在用大量的強(qiáng)化學(xué)習(xí)。

王建明:無(wú)人機(jī)的高速穿越我印象里有強(qiáng)調(diào)強(qiáng)化學(xué)習(xí),高老師的工作中還是有一些 rule base 的東西存在?

高飛:我們不叫rule base,我們叫 model base 或者叫 principle base,我們很少去寫(xiě)規(guī)則。大家經(jīng)常會(huì)批判 rule base,但是如果只寫(xiě)了一個(gè)規(guī)則要怎么解釋你的算法可以在不同的地方避障。所以它一定不是一套規(guī)則,而是一種系統(tǒng)化的模式。

02

世界模型解決了自動(dòng)駕駛的哪些問(wèn)題?

王建明:金老師剛分享了很多世界模型在自動(dòng)駕駛領(lǐng)域的突破,金老師的研究方向主要是世界模型空間智能。最近一段時(shí)間世界模型的概念很火,那么自動(dòng)駕駛的具體什么問(wèn)題用世界模型來(lái)解決了?

金鑫:現(xiàn)在第一梯隊(duì)像特斯拉的方案基本都在用世界模型,之前他們收集到的數(shù)據(jù)已經(jīng)把數(shù)據(jù)飛輪轉(zhuǎn)起來(lái)了,這么多數(shù)據(jù)上已經(jīng)積累了大量的corner case,那么他們下一步可能就要通過(guò)世界模型模擬的方式再去生成更多海量數(shù)據(jù),例如覆蓋掉之前在國(guó)內(nèi)采集的數(shù)據(jù)以及之前布局不到的地方。

再一個(gè),跟原來(lái)通過(guò)離線數(shù)據(jù)訓(xùn)練相比,通過(guò)世界模型方式可以做閉環(huán)測(cè)試。閉環(huán)測(cè)試是指上線一個(gè)模型后,在世界模型里面跑,跑完后能輸出action得到未來(lái)的狀態(tài),再根據(jù)未來(lái)的狀態(tài)測(cè)試下一步該怎么做,就能把整個(gè)decision making 鏈路放到 world model 里面去做閉環(huán)的測(cè)試跟優(yōu)化。這是跟原來(lái)技術(shù)方案最大的不同。

現(xiàn)在世界模型在自動(dòng)駕駛領(lǐng)域?yàn)槭裁催@么火,主要還是因?yàn)樽詣?dòng)駕駛的場(chǎng)景生成還是比較簡(jiǎn)單,不像機(jī)器人。而自動(dòng)駕駛領(lǐng)域很早就有世界模型的概念,只是叫法不一樣叫閉環(huán)仿真器,用來(lái)做自動(dòng)駕駛安全測(cè)試。是生成式 AI 能力的提升才使得現(xiàn)在世界模型生成的數(shù)據(jù)已經(jīng)到了真假難辨的地步,為此提供大量非常有價(jià)值的訓(xùn)練樣本。

王建明:視頻生成是一種世界模型,如果帶上機(jī)器人的3D空間,再加上很多動(dòng)作維度,這個(gè)狀態(tài)表征可以是多種多樣的,那么在自動(dòng)駕駛領(lǐng)域的表征是什么?是一個(gè)共識(shí)嗎?

金鑫:機(jī)器人領(lǐng)域世界模型路線究竟對(duì)不對(duì)還存在爭(zhēng)議。對(duì)于世界模型的定義大家也有不同的看法,例如李飛飛跟 LeCun 就存在差異。李飛飛更偏重于"pixel-wise"(像素級(jí))重建,LeCun 認(rèn)為不需要重建成人人可見(jiàn)可視的video,直接“ latent-based”表達(dá)出來(lái)對(duì)應(yīng)的機(jī)器人的 latent state 就可以了,它也是一種世界模型,只要能夠給定前序的action,能夠預(yù)測(cè)出后續(xù)的action,或者state狀態(tài)應(yīng)該怎么變化,本體下個(gè)階段會(huì)出現(xiàn)什么情況,只要能把這個(gè)階段抽象地表達(dá)出來(lái),都算世界模型。

所以目前世界模型的定義還沒(méi)有定式,我認(rèn)為在自動(dòng)駕駛跟機(jī)器人兩個(gè)任務(wù)之間,對(duì)于世界模型的要求跟技術(shù)范式也都有區(qū)別。最初世界模型那篇 paper 提出的概念也很抽象,只要有能預(yù)測(cè)未來(lái)的能力并且有記憶,都可以被稱為世界模型。

王建明:我觀察到創(chuàng)業(yè)公司層面,現(xiàn)在做世界模型創(chuàng)業(yè)的很多公司創(chuàng)始人都有自動(dòng)駕駛背景,我想了解下自動(dòng)駕駛的狀態(tài)表征到底是個(gè)什么?

金鑫:可能主流的還是視頻生成。因?yàn)闋砍兜桨踩詥?wèn)題,如果連視頻模態(tài) RGB 的 video 都給不出來(lái),如何相信生出來(lái)的數(shù)據(jù)是有效的?自動(dòng)駕駛主要還是視頻的 ADAS,同時(shí)雷達(dá)、點(diǎn)云這些傳統(tǒng)的數(shù)據(jù)也要有,所以這是我為什么要做 UniScene,因?yàn)樯傻哪B(tài)越多,信息量越大,我認(rèn)為 multi model 的前景可能更好。

每家主機(jī)廠都在做自己的方案,因?yàn)閷?duì)安全性的要求以及道路場(chǎng)景的復(fù)雜度不同,偏重也都不一樣,例如特斯拉就是純視覺(jué)方案,華為有激光雷達(dá)輔助。

王建明:世界模型解決具身智能相關(guān)問(wèn)題,會(huì)不會(huì)距離太遠(yuǎn)?

金鑫:前兩天 LeCun 公布了多模態(tài) V-JEPA,他一直宣稱自己的 latent space 就是世界模型的方案之一。如果要把世界模型打造出來(lái),offline 先做好,再去驅(qū)動(dòng)具身,這個(gè)目前似乎沒(méi)有比較明確走通的技術(shù)方案,但像LeCun V-JEPA 直接通過(guò) representation learning 方式先學(xué)到對(duì)應(yīng)的預(yù)測(cè)能力,再去追問(wèn)輔助,其實(shí)已經(jīng)有不少工作,比如 VLA。

但是要說(shuō)它走通了嗎,把世界模型跟具身結(jié)合起來(lái)的方案已經(jīng)有人在售賣了,但要說(shuō)真正達(dá)到剛高老師說(shuō)的那種通用智能似乎又沒(méi)有,還需要時(shí)間驗(yàn)證。

王建明:現(xiàn)在一種說(shuō)法是把世界模型跟 VLA 對(duì)立起來(lái),你剛提到其實(shí)這兩種可以結(jié)合。

金鑫:我們昨天上線了一篇研究《Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey》就是將兩者結(jié)合起來(lái)。如何做我們梳理了兩種方式,一種是先創(chuàng)建世界模型,再做 policy learning,要么同時(shí)做,不分先后。

王建明:兩者結(jié)合解決的是不同層次的問(wèn)題?

金鑫:解決的還是老問(wèn)題,即原本 offline 數(shù)據(jù)集沒(méi)辦法通過(guò) imitation learning 模仿學(xué)習(xí)擁有長(zhǎng)程思維和未來(lái)預(yù)測(cè)的能力。

高飛:相當(dāng)于 MPC 中的 P(預(yù)測(cè))。很多人認(rèn)為 MPC 中的模型就是機(jī)器人,可以把其他所有狀態(tài)都放到 model 里,也會(huì)往前預(yù)測(cè)。

王建明:我可以理解MPC 可能是用一個(gè)方程來(lái) predict,而世界模型其實(shí)是用一個(gè)生成式方法來(lái) predict?

高飛:我認(rèn)為 MPC 里面的 M 怎么來(lái),其實(shí)是工程師跟科學(xué)家去做了抽象,而世界模型這種數(shù)據(jù)驅(qū)動(dòng)就是用 AI 自己去探索。本質(zhì)上如果我們用更多 AI,以后就可以不需要那么多科學(xué)家去抽象了。

王建明:那 predict 的下一個(gè)狀態(tài)是什么樣的?

金鑫:比如說(shuō)一個(gè)長(zhǎng)程任務(wù),我要想象出來(lái)后面怎么做,就相當(dāng)于把它抽象成一個(gè)一個(gè) long horizon 問(wèn)題,現(xiàn)在最難解決的就是長(zhǎng)程任務(wù),有了世界模型之后,長(zhǎng)程任務(wù)的理解、預(yù)測(cè)能力就能很好地賦予后續(xù)的 different policy 去學(xué)習(xí)。

03

什么是無(wú)人機(jī)的空間智能?

王建明:王博士您主要做全身控制(Whole-Body Control, WBC),把視覺(jué)引入到 Whole-Body Control,在這個(gè)方向,您覺(jué)得大概到什么時(shí)間點(diǎn)可能會(huì)實(shí)現(xiàn)一個(gè)看上去還不錯(cuò)的通用控制器。

王靖博:如果說(shuō)在仿真器里不做一些力矩的限制,要實(shí)現(xiàn)一個(gè)還不錯(cuò)的控制器不難,但會(huì)有精度的平衡,可能不太會(huì)像真的機(jī)械臂一樣指哪打哪。

如果在真實(shí)世界里,要實(shí)現(xiàn)這件事一方面是算法的問(wèn)題,一方面也看硬件,在上海 AI LAB 有非常多不同型號(hào)的人形機(jī)器人,相同的算法跑出來(lái)很多不同的結(jié)論,我覺(jué)得硬件能力的上限決定了什么時(shí)候能取得不錯(cuò)的成績(jī)。

王建明:高老師您剛給我們展示了多機(jī)的集群,包括多無(wú)人機(jī)的協(xié)同,這是否有點(diǎn)像集群學(xué)習(xí)?

高飛:集群學(xué)習(xí)具體的定義我不太熟,但是我們會(huì)采用集中學(xué)習(xí)、分布計(jì)算的模式,學(xué)習(xí)、訓(xùn)練的時(shí)候在一起,work 的時(shí)候各做各的,但是大家都有一個(gè)共同的目標(biāo)。

王建明:三位嘉賓共同探討的另一個(gè)共同點(diǎn)可能還有空間智能,包括無(wú)人機(jī)的空間感知、VLR(Vision-Language Reconstruction)。空間智能的定義也很大,怎么理解無(wú)人機(jī)領(lǐng)域的空間智能呢?

高飛:我覺(jué)得空間智能的定義不是特別清晰。感知是 robotics 非常重要的一塊,上一代 robotics 發(fā)展快的一個(gè)根源在于 SLAM(即時(shí)定位與地圖構(gòu)建)技術(shù),現(xiàn)在很多做 SLAM 技術(shù)都轉(zhuǎn)行做空間智能了。不是換了個(gè)概念,而是很多技術(shù)持續(xù)復(fù)用,可能現(xiàn)在用的更多的是 learning based 方法像 VGGT或者其他 grounding model,但大家的目的可能類似,都為了獲得機(jī)器人對(duì)空間幾何、 texture,以及各種信息的一種抽象和表征。

原來(lái)一些 SLAM 做不了的事情,可能需要 AI 技術(shù)進(jìn)一步建模,之后進(jìn)一步去做 learning,所以才有空間智能的概念。

王靖博:我感覺(jué)大家對(duì) Semantic(語(yǔ)義)的關(guān)注變多了,Semantic不僅包括物體的類別,用途,交互的方式,還包括物體中 Semantic 的可能性變多了。

王建明:空間物體的關(guān)系,語(yǔ)義信息等等都還處于比較早期的狀態(tài)。

金鑫:比如從第一排左邊開(kāi)始數(shù)第四個(gè)瓶子,類似于這種比較復(fù)雜的空間關(guān)系的描述對(duì)于機(jī)器人來(lái)講就比較困難,尤其是對(duì)于做機(jī)器人大腦的公司來(lái)說(shuō)很難實(shí)現(xiàn)。這種空間能力即所謂的空間智能對(duì)人來(lái)講很簡(jiǎn)單,但是機(jī)器人還不成熟。

王建明:解決空間智能問(wèn)題是缺數(shù)據(jù)嗎?

金鑫:就像剛王老師說(shuō)的,過(guò)去大家對(duì)這種 semantic 沒(méi)那么敏感,也不會(huì)有這方面相應(yīng)的解法跟數(shù)據(jù)。

高飛:我理解可能就像金老師說(shuō)的,大腦公司面臨的問(wèn)題是因?yàn)榇竽P偷臄?shù)據(jù)來(lái)源于語(yǔ)言模態(tài),本身其空間關(guān)系就很弱,所以大模型在空間關(guān)系上就會(huì)出現(xiàn)幻覺(jué)。但是傳統(tǒng)的 SLAM 在這塊很強(qiáng),所以要構(gòu)建專門的數(shù)據(jù)集把這些信息對(duì)齊。

王建明:現(xiàn)在具身智能很多基座,VLM 中的“Vision”基本上是 2D 的,多模態(tài)本身在 3D 模態(tài)還比較欠缺,所以現(xiàn)在反倒是那些做 SLAM 的公司會(huì)強(qiáng)調(diào)把 3D 模態(tài)補(bǔ)足,然后最終在看如何解決空間智能的問(wèn)題。

金鑫:是的,所以我們做 driver VLA 就加了 visual COT 的思路,也是同樣的道理,給了 depth 等更多信息。

04

具身智能創(chuàng)業(yè),奔赴星辰大海還是腳踏實(shí)地?

王建明:接下來(lái)我們聊聊三位老師在落地上的期待吧,比如像高老師做無(wú)人機(jī)應(yīng)用,您感覺(jué)在這個(gè)方向,未來(lái)我們現(xiàn)實(shí)生活中能看到什么類型的應(yīng)用?

高飛:我認(rèn)為拉長(zhǎng)時(shí)間跨度,我們會(huì)在生活中看到各種各樣的無(wú)人機(jī),這是我一直以來(lái)的夢(mèng)想。但是這個(gè)時(shí)間可能比較遠(yuǎn),二十年后我們往向窗外,如果沒(méi)有各種無(wú)人機(jī)在做高空作業(yè),例如送貨送人,那肯定是我們這幫學(xué)者、創(chuàng)業(yè)者和從業(yè)者的失敗。

我覺(jué)得很多時(shí)候我們的技術(shù)已經(jīng) almost there了,再努努力就能突破,但要讓它 work, 這一步總要有人去做,這其中有很多事情可以做,具體的落地過(guò)程肯定很痛苦,我們正經(jīng)歷這種痛苦。

王建明:無(wú)人機(jī)已經(jīng)經(jīng)歷過(guò)一波應(yīng)用潮,以大疆為主的硬件公司的迭代,到現(xiàn)在這個(gè)階段更多要用無(wú)人機(jī)來(lái)解決一些現(xiàn)實(shí)問(wèn)題,而不僅僅把它當(dāng)作一個(gè)設(shè)備。

高飛:可能好落地的應(yīng)用已經(jīng)做完了,但好做的事情其實(shí)在整個(gè)空中作業(yè)的生態(tài)里不到 1%,比如現(xiàn)在大家熟知的航拍、農(nóng)業(yè)植保機(jī),更多的就不一定說(shuō)得出來(lái)了。但是我們行業(yè)里仍有各種事情可以做,例如發(fā)生了火災(zāi)去高空滅火、高空清洗幕墻、無(wú)人機(jī)送貨、載人觀光,這些大家講了很久,但還沒(méi)有實(shí)現(xiàn)。

王建明:為什么還一直沒(méi)實(shí)現(xiàn)?問(wèn)題是什么?

在我看來(lái)肯定有很多卡點(diǎn),最大的一個(gè)問(wèn)題就是不夠智能?;蛘哒f(shuō)某個(gè)行業(yè)的無(wú)人機(jī)需要 rule- based,要寫(xiě)很多規(guī)則,就需要很多科學(xué)家、工程師夜以繼日地用人力去抽象,這件事就很難,也很難算過(guò)來(lái)賬。如果花了那么大代價(jià)開(kāi)發(fā)物流無(wú)人機(jī),最后還不如外賣小哥送得便宜,那么意義就不大。但是AI 的發(fā)展讓我們看到了希望。

機(jī)器人也類似,現(xiàn)在很多人形機(jī)器人做的事情,其實(shí)工廠里一個(gè)工業(yè)流水化設(shè)備也能做,可能成本更低,但機(jī)器人給人的期待不是一個(gè)流水化設(shè)備,而是機(jī)器人成功了以后什么事情都能做,我認(rèn)為天空端、地上、水下都有類似的邏輯。

王建明:所以還是 learning base 的控制范式的改變,也可以增加無(wú)人機(jī)的應(yīng)用場(chǎng)景。

高飛:這個(gè)階段用 AI 結(jié)合大模型,不僅控制、更多是決策,而決策是最難的問(wèn)題,我認(rèn)為我們可能看到了具備通用泛化解決問(wèn)題能力的基座模型的希望。

王建明:金老師您怎么看待整個(gè)具身智能的落地應(yīng)用?

金鑫:我自己也在寧波做一些產(chǎn)業(yè)化的事情,剛高老師講到不希望再回到工業(yè)自動(dòng)化的階段。但現(xiàn)在反倒是工業(yè)自動(dòng)化的需求非常著急,他們希望把機(jī)器人盡快用起來(lái),這就是其中一個(gè)很大的 gap。高校老師創(chuàng)業(yè),技術(shù)人員創(chuàng)業(yè),尤其是這種新興技術(shù)創(chuàng)業(yè),他們腦海中的想法跟現(xiàn)實(shí)世界發(fā)展存在差距,你想做的是個(gè)飛機(jī),可能工廠需要的就是一個(gè)自行車。

王建明:王博士,你主要做雙足人形的控制,現(xiàn)在這塊的硬件已經(jīng)相對(duì)比較成熟了,那么離最終的應(yīng)用落地您怎么看?

王靖博:今年機(jī)器人領(lǐng)域讓大家看到了一些跟提高操作能力無(wú)關(guān)的事情,例如巡檢、跳舞等等,大家貌似用一米四以下的機(jī)器人就能看起來(lái)不錯(cuò)了,但最終目的還是要讓機(jī)器人去干活,在能干活這件事上,硬件的迭代我覺(jué)得還不太清楚,無(wú)論是人形機(jī)器人的負(fù)載能力、在高負(fù)載下的平衡性、運(yùn)動(dòng)的穩(wěn)定性,還有靈巧手的方案,其實(shí)還有非常多的挑戰(zhàn)。所以我覺(jué)得這個(gè)事情還有很遠(yuǎn)的路要走。

王建明:在中國(guó)創(chuàng)業(yè)面臨一個(gè)很大的問(wèn)題就是最終要去解決一個(gè)宏大的問(wèn)題,但又不得不面臨短期商業(yè)化的矛盾。相比較美國(guó)創(chuàng)業(yè)公司,前段時(shí)間我看到 Scale AI 最新一輪的估值是 140 億美金,換成人民幣就是近千億的估值。那我們回頭看國(guó)內(nèi)的創(chuàng)業(yè)公司,不管是從融資規(guī)模還是估值規(guī)模上來(lái)說(shuō),你們認(rèn)為最終通用機(jī)器人在中美兩國(guó)的估值體系下會(huì)是什么樣?一個(gè)像 Scale AI 可能就融了三輪而已,估值已經(jīng)到 140 億美金,投資人也沒(méi)期待它能解決什么現(xiàn)實(shí)具體問(wèn)題,另一方面中國(guó)創(chuàng)業(yè)公司在幾億人民幣估值下,又要去奔赴星辰大海又要腳踏實(shí)地商業(yè)化,作為創(chuàng)業(yè)者的高老師您怎么看?

高飛:首先這個(gè)估值我肯定看不懂,只能說(shuō)我無(wú)法理解。那從創(chuàng)業(yè)者切身體會(huì),我既然在中國(guó)就走好中國(guó)路徑。我認(rèn)為接下來(lái)是關(guān)鍵的一代,每一代人都有每一代人的使命,最后誰(shuí)能把事情做成最重要,而不是看誰(shuí)估值更高。

金鑫:我也特別同意高老師剛剛的話。估值背后隱藏的東西太多,同時(shí)資本的力量太大了??赡鼙澈蟮馁Y本并不相信這件事一定能做成,只是說(shuō)要把場(chǎng)子熱起來(lái)。我覺(jué)得從中國(guó)角度來(lái)講,從 DeepSeek 之后,中國(guó)的投資人對(duì)技術(shù)的耐心多了一些,大家能看到這代年輕人還是能做出來(lái)東西。

王靖博:整個(gè)行業(yè)或者說(shuō)科研是一場(chǎng)馬拉松,會(huì)有一輪又一輪的浪潮,現(xiàn)在可能為了炒熱度,但下一輪真的浪潮來(lái)了之后,大家關(guān)心、討論的問(wèn)題也不一樣了。對(duì)一家公司的評(píng)估體現(xiàn)著估值上可能會(huì)有新的改觀。

05

觀眾提問(wèn)環(huán)節(jié):合成還是真機(jī)數(shù)據(jù)更有效,

還是要看任務(wù),不是真機(jī)數(shù)據(jù)就一定最合理。

觀眾提問(wèn):既然大家談到目前的技術(shù)路線還沒(méi)有收斂,為什么還有這么多學(xué)者下場(chǎng)創(chuàng)業(yè),他們創(chuàng)業(yè)的動(dòng)機(jī)是什么?是因?yàn)閷W(xué)術(shù)界的資源不夠來(lái)做這件事,還是純粹想蹭這波資本的紅利?

高飛:對(duì)于我來(lái)說(shuō),肯定不是為了蹭資本紅利,沒(méi)什么好蹭的。如果你創(chuàng)過(guò)業(yè),就會(huì)知道這里面要承擔(dān)多少壓力,有多少痛苦要經(jīng)歷。那為什么還要?jiǎng)?chuàng)業(yè)呢,我覺(jué)得恰恰要在技術(shù)沒(méi)有收斂的時(shí)候創(chuàng)業(yè),不然等收斂了,機(jī)會(huì)恐怕就不再屬于你了。對(duì)于我而言, 5 年前我肯定不會(huì)創(chuàng)業(yè)的,因?yàn)闆](méi)有足夠的變量可以幫助我把這件事情做成,而現(xiàn)在有這個(gè)機(jī)會(huì),那就 have a try,and try my best,就是這樣。

觀眾提問(wèn):有關(guān)機(jī)器人數(shù)據(jù)的問(wèn)題,現(xiàn)在機(jī)器人數(shù)據(jù)數(shù)量相對(duì)較少,現(xiàn)有三種方法,一種方法是真機(jī)采集,但真機(jī)比較昂貴,而且機(jī)器人本體會(huì)迭代,如果想要通過(guò)真機(jī)回流數(shù)據(jù)的話,其實(shí)迭代了之后再應(yīng)用也是個(gè)問(wèn)題。第二種方式是通過(guò)仿真,但仿真存在 simulation gap,不過(guò)仿真會(huì)相對(duì)便宜。第三種方式是我最近聽(tīng)說(shuō)是有用視頻生成模型來(lái)生成更加大量的數(shù)據(jù),就能彌補(bǔ)其中的誤差,但是這種方式會(huì)比較耗算力。想問(wèn)一下你們覺(jué)得以后的數(shù)據(jù)獲取的方向會(huì)是哪一種?或者是怎樣去結(jié)合?

金鑫:這個(gè)其實(shí)討論過(guò)很多次,數(shù)據(jù)金字塔,最底下的就是互聯(lián)網(wǎng)數(shù)據(jù)或者 video 的數(shù)據(jù),這個(gè)量也最大,獲取的成本也最低。但是可能只能支撐做一些 pretraining,就比如一些 foundation model,用這部分的 video 讓它去學(xué)是沒(méi)問(wèn)題的。再往上就是合成數(shù)據(jù)合成出來(lái)的高質(zhì)量數(shù)據(jù),real 跟 SIM 之間的 gap 比較小,能夠支撐做更多的任務(wù),提高泛化性。最上面是真機(jī)的數(shù)據(jù),遙操的數(shù)據(jù)。

但合成數(shù)據(jù)也分各種合成數(shù)據(jù),分無(wú)效的一些合成數(shù)據(jù),有價(jià)值的一些合成數(shù)據(jù),對(duì)于物理真實(shí)更重要的一些合成數(shù)據(jù),下面又細(xì)分了很多。對(duì)于 video 也是一樣,對(duì) video 到底是用人的 human video 去訓(xùn)它,還是說(shuō)機(jī)器人的一些 video 去訓(xùn)它,還是說(shuō)其他更加 in general 的 video 去訓(xùn)它?這個(gè)也不太一樣。所以我覺(jué)得目前還在探索哪部分?jǐn)?shù)據(jù)更有效的階段。我聽(tīng)過(guò)一個(gè)比例是721,就是 70% 的 Web data video data, 20% 的 synthetic data,然后 10% 的真機(jī)數(shù)據(jù),但是 who knows?

觀眾提問(wèn):現(xiàn)在直接用文生視頻、圖生視頻這種視頻生成模型直接生成機(jī)器人的數(shù)據(jù),相似度其實(shí)能夠達(dá)到 88%,但是會(huì)比較耗卡、耗算力,這種方式你們?cè)趺纯??銀河通用他們是 99% 都用合成數(shù)據(jù),就完全占合成數(shù)據(jù)那一派,所以想看一下你們的看法。

金鑫:耗卡這件事,有錢就可以做,主要還是看能不能生成有效的數(shù)據(jù)。但一定要合成出來(lái)的 video 才有效果嗎,也不一定。現(xiàn)在的 latent space 的生成也是一種生成方案,又回到剛剛那個(gè)老問(wèn)題,就是 word model for VLA 或者 word model for embody 那個(gè) word model 輸出來(lái)的東西一定是要 video 嗎?也不一定。

觀眾提問(wèn):視頻生成模型直接生成機(jī)器人的數(shù)據(jù),會(huì)比仿真的更接近真實(shí)。

金鑫:仿真跟生成要分得這么開(kāi)嗎,可能仿真的就是原來(lái) CAD 搓出來(lái)的 asset,就像群核智能,他們現(xiàn)在手里面有很多資產(chǎn),也是他們自己最大的護(hù)城河,但是現(xiàn)在生成出來(lái)的內(nèi)容可能也不見(jiàn)得會(huì)比那種手搓出來(lái)的要差。我覺(jué)得主要還是看你什么樣的數(shù)據(jù)有效,或者說(shuō)哪些是針對(duì)你要解決的那個(gè)任務(wù)有價(jià)值,這部分?jǐn)?shù)據(jù)該怎么去表達(dá)?是用 video 嗎?還是用其他的 modality,或者直接不用表達(dá),直接就是一個(gè)抽象的 latent 就足夠了,還是 case by case。

王靖博:我比較同意金老師的表達(dá)。哪部分?jǐn)?shù)據(jù)最有效還是要看任務(wù),不是真機(jī)數(shù)據(jù)就一定最合理。像我做足式控制,其中最基本的 locomotion,我可能都沒(méi)有 positive examples,我是在一個(gè)純仿真環(huán)境里,沒(méi)有任何的實(shí)調(diào)數(shù)據(jù)一樣可以把這件事做成,因?yàn)槲业娜蝿?wù)不需要那么多 contact reach 的東西。我只要能學(xué)到從各種各樣摔倒的環(huán)境里面怎么讓機(jī)器人恢復(fù)穩(wěn)定就好,其實(shí)是純依賴任務(wù)的一種形式。所以我覺(jué)得討論這個(gè)事之前,其實(shí)更重要的是看你需要做什么任務(wù),然后找那個(gè)任務(wù)最 scaling up 的一種方式去獲得數(shù)據(jù)。

講座完整視頻,詳見(jiàn)鏈接:https://youtu.be/txv3B90DlQQ


未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
74比95慘敗丟冠!女籃霸主狂輸21分被掀翻:1年連丟三冠太慘了

74比95慘敗丟冠!女籃霸主狂輸21分被掀翻:1年連丟三冠太慘了

籃球快餐車
2026-03-10 05:40:05
凌晨,杭州外賣小哥追尾轎車提出400元私了!車主反手一個(gè)操作,被千萬(wàn)網(wǎng)友夸爆!

凌晨,杭州外賣小哥追尾轎車提出400元私了!車主反手一個(gè)操作,被千萬(wàn)網(wǎng)友夸爆!

環(huán)球網(wǎng)資訊
2026-03-09 15:45:13
家長(zhǎng)曬女兒反被嘲:這不是小家碧玉,這是營(yíng)養(yǎng)不良

家長(zhǎng)曬女兒反被嘲:這不是小家碧玉,這是營(yíng)養(yǎng)不良

蝴蝶花雨話教育
2026-03-04 01:20:03
田曦薇胸前的珍珠好大,屬實(shí)是被 “夾住” 了!

田曦薇胸前的珍珠好大,屬實(shí)是被 “夾住” 了!

飛娛日記
2026-03-08 08:53:03
皇馬叫停保級(jí)聚餐!C隊(duì)小將沒(méi)吃成飯,反倒化悲憤為力量4-0大勝

皇馬叫停保級(jí)聚餐!C隊(duì)小將沒(méi)吃成飯,反倒化悲憤為力量4-0大勝

仰臥撐FTUer
2026-03-10 19:26:03
龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個(gè)“硬傷”

龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個(gè)“硬傷”

她時(shí)尚丫
2026-02-17 22:41:30
復(fù)出首秀24分!二年級(jí)的米切爾,雷霆又一神簽約!

復(fù)出首秀24分!二年級(jí)的米切爾,雷霆又一神簽約!

籃球?qū)嶄?/span>
2026-03-10 23:50:33
在線吃瓜,北京北控球員廖三寧被爆出軌

在線吃瓜,北京北控球員廖三寧被爆出軌

郭夷包工頭
2026-03-09 20:59:43
柳某、王某等4人被西安警方查獲

柳某、王某等4人被西安警方查獲

91.6陜西交通廣播
2026-03-10 08:09:25
23支液體、15個(gè)小時(shí)的連續(xù)輸注,娃的情緒已經(jīng)接近暴躁

23支液體、15個(gè)小時(shí)的連續(xù)輸注,娃的情緒已經(jīng)接近暴躁

果殼
2026-03-08 20:08:15
他26歲拼命追一34歲有病、不能生、還窮的女人,所有人都說(shuō)他瘋了

他26歲拼命追一34歲有病、不能生、還窮的女人,所有人都說(shuō)他瘋了

南權(quán)先生
2026-02-09 15:56:02
外媒緊盯,臺(tái)島震動(dòng)!兩艘“超級(jí)戰(zhàn)艦”突然部署東海,危險(xiǎn)信號(hào)!

外媒緊盯,臺(tái)島震動(dòng)!兩艘“超級(jí)戰(zhàn)艦”突然部署東海,危險(xiǎn)信號(hào)!

頭條爆料007
2026-03-09 12:58:08
伊朗確認(rèn)穆杰塔巴受傷;專家會(huì)議都是些什么專家?

伊朗確認(rèn)穆杰塔巴受傷;專家會(huì)議都是些什么專家?

寰宇大觀察
2026-03-09 15:24:05
價(jià)格暴漲!越漲越買!這里,進(jìn)入搶貨模式

價(jià)格暴漲!越漲越買!這里,進(jìn)入搶貨模式

齊魯壹點(diǎn)
2026-03-10 07:37:15
伊朗究竟有多少女忍者?

伊朗究竟有多少女忍者?

不相及研究所
2026-03-10 22:22:10
伊朗還能高強(qiáng)度作戰(zhàn)至少半年?專家:影響戰(zhàn)爭(zhēng)長(zhǎng)短和走向的因素有很多

伊朗還能高強(qiáng)度作戰(zhàn)至少半年?專家:影響戰(zhàn)爭(zhēng)長(zhǎng)短和走向的因素有很多

紅星新聞
2026-03-09 20:44:41
總把長(zhǎng)壽歸功于基因好?研究:全球百歲老人的共性是這份長(zhǎng)壽菜單

總把長(zhǎng)壽歸功于基因好?研究:全球百歲老人的共性是這份長(zhǎng)壽菜單

時(shí)光派健康抗衰
2026-03-10 11:00:03
重慶最不像鎮(zhèn)的一個(gè)鎮(zhèn),人口13萬(wàn)繁華叫板縣城,被稱為小香港

重慶最不像鎮(zhèn)的一個(gè)鎮(zhèn),人口13萬(wàn)繁華叫板縣城,被稱為小香港

帶著瓶蓋兒去旅行
2026-03-10 21:41:03
地中海又傳來(lái)一聲巨響,俄6萬(wàn)噸巨輪慘遭擊沉,普京:絕不輕饒!

地中海又傳來(lái)一聲巨響,俄6萬(wàn)噸巨輪慘遭擊沉,普京:絕不輕饒!

趣文說(shuō)娛
2026-03-09 17:52:17
日本遠(yuǎn)程導(dǎo)彈瞄準(zhǔn)上海?高市早已通告全球,解放軍新增2大利器

日本遠(yuǎn)程導(dǎo)彈瞄準(zhǔn)上海?高市早已通告全球,解放軍新增2大利器

千羽解讀
2026-03-10 19:38:35
2026-03-11 04:08:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣Token

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開(kāi)發(fā)表講話 官方回應(yīng)

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開(kāi)發(fā)表講話 官方回應(yīng)

體育要聞

加蘭沒(méi)那么差,但鱸魚(yú)會(huì)用嗎?

娛樂(lè)要聞

《逐玉》注水風(fēng)波升級(jí)!315評(píng)論區(qū)淪陷

財(cái)經(jīng)要聞

“龍蝦補(bǔ)貼”密集出爐 最高1000萬(wàn)!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

時(shí)尚
本地
手機(jī)
房產(chǎn)
公開(kāi)課

看來(lái)看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

本地新聞

云游中國(guó)|候鳥(niǎo)高顏值亮相!沉浸式打卡青海濕地

手機(jī)要聞

M5 Max 版 16 英寸 MacBook Pro 體驗(yàn):算力巔峰與專業(yè)視界

房產(chǎn)要聞

信號(hào)!千億巨頭入局,三亞開(kāi)啟新一輪大征拆!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版