網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

「一腦多形」圓桌：世界模型、空間智能在具身智能出現(xiàn)了哪些具體進(jìn)展？｜GAIR 2025

2025-12-22 23:11:30　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

世界模型解決具身智能相關(guān)問(wèn)題，會(huì)不會(huì)距離太遠(yuǎn)？

作者丨張進(jìn)

編輯丨林覺(jué)民

在 12 月 13 日舉行的第八屆GAIR全球人工智能與機(jī)器人大會(huì)“數(shù)據(jù)&一腦多形”分論壇上，一場(chǎng)有關(guān)“一腦多形”的圓桌論壇，將整個(gè)會(huì)場(chǎng)氣氛推向高潮，在英諾天使基金 ED 王建明的主持下，浙江大學(xué)控制學(xué)院副教授，微分智飛創(chuàng)始人高飛，寧波東方理工大學(xué)助理教授金鑫，上海人工智能實(shí)驗(yàn)室青年科學(xué)家王靖博三位嘉賓圍繞著具身智能、空間智能、世界模型等話題進(jìn)行了熱烈討論。

通過(guò)主持人特有的投資人式、抽絲剝繭的提問(wèn)，圍繞著幾位學(xué)者的研究和創(chuàng)業(yè)方向，我們可以了解到當(dāng)下最火熱的世界模型、空間智能在具身智能領(lǐng)域的研究進(jìn)展和細(xì)節(jié)，從而得以穿透資本籠罩在世界模型、空間智能的迷霧，看到具身智能當(dāng)下遇到的挑戰(zhàn)與機(jī)遇。

具身智能技術(shù)路線仍未收斂

王建明：三位學(xué)者研究的方向都非常不一樣，開(kāi)場(chǎng)先問(wèn)一個(gè)共性的問(wèn)題熱熱場(chǎng)，大家怎么看過(guò)去兩年具身智能的發(fā)展？

高飛：現(xiàn)在還沒(méi)到技術(shù)路線收斂的時(shí)候，還屬于探索階段，這是好事，有發(fā)散才有機(jī)會(huì)。這波具身智能的熱潮，大家本質(zhì)期待的還是 AI 結(jié)合本體能帶來(lái)的智能性的飛躍。我認(rèn)為從發(fā)散探索到技術(shù)路線收斂、到最后落地階段，大家還是要記住自己做具身智能的初心是什么。如果不是為了通用泛化智能，最后這個(gè)領(lǐng)域又收斂回工業(yè)自動(dòng)化了，可能就沒(méi)有太大的意義了。

金鑫：我也非常同意高老師的看法，我感覺(jué)這兩年留給高校的機(jī)會(huì)相對(duì)產(chǎn)業(yè)界來(lái)講比較少，希望未來(lái)更多把具身智能的核心問(wèn)題交給高校去突破，比如交互、人機(jī)協(xié)同、多智能體、世界模型等等抽象出的關(guān)鍵問(wèn)題，產(chǎn)業(yè)去做更落地的事情。希望未來(lái)兩年能看到高校跟企業(yè)更好地合作、平衡。

王靖博：相比較在純數(shù)字世界中做一些例如scaling up 的事情，我更關(guān)注具身智能軟硬件的 code design，比如人形機(jī)器人十年前的波士頓動(dòng)力 Atlas 就展示出了很好的運(yùn)動(dòng)能力，但它并沒(méi)有從實(shí)驗(yàn)室的產(chǎn)品進(jìn)入產(chǎn)業(yè)界，當(dāng)有了較好的軟硬件的 code design，可能會(huì)加快整個(gè)領(lǐng)域的進(jìn)程。

王建明：高飛老師的演講剛剛展示了特別多的能力，例如單個(gè)機(jī)器人的自主路徑的規(guī)劃決策、集群、飛行操作，demo 演示都非常驚艷，這些能力背后是如何做到的？跟您過(guò)往研究是否有協(xié)同？

高飛：很難有一句話來(lái)說(shuō)明白怎么做到的，不同的 demo 肯定有不同的技術(shù)路線，我之所以比較擅長(zhǎng)做一些比較 fancy 的 demo，可能是因?yàn)槲冶容^擅長(zhǎng)在保持著一定發(fā)散思維的情況下，還有比較好的執(zhí)行力，最后能把想法落實(shí)。在具體技術(shù)路線里，我的優(yōu)勢(shì)可能是：在無(wú)人機(jī)領(lǐng)域，我可能是比較懂 AI 的；在 AI 領(lǐng)域，我可能是比較懂無(wú)人機(jī)的。

單體機(jī)器人的研究思路是通過(guò)放大其極限情況下的小腦能力，現(xiàn)在比較合適收斂的技術(shù)路線越來(lái)越往端到端的方向傾斜。通過(guò)端到端可以降低整個(gè)系統(tǒng)的 compound error（復(fù)合誤差）和降低延遲。具體用什么解法，就要 case by case，做 robotics 的好處就是這是很尊重客觀事實(shí)、面向?qū)ο蟮囊粋€(gè)學(xué)科，什么好用我們用什么。

決策這塊，現(xiàn)在業(yè)界的共識(shí)可能要通過(guò)放大 VLM的能力，而對(duì)于群體機(jī)器人而言，打造一種柔性的、彈性的、分布式的、靈活的群體架構(gòu)才是一切的基礎(chǔ)。

王建明：我比較好奇無(wú)人機(jī)的端到端是什么端到端？我的簡(jiǎn)單粗化理解大家說(shuō)的端到端是一個(gè)黑箱操作，是data driven的事情。

高飛：我認(rèn)為端到端和 data driven 是兩個(gè)概念，舉個(gè)例子，無(wú)人機(jī)的端到端是圖像輸入，電機(jī)控制，那是不是一定要用到機(jī)器學(xué)習(xí)、黑箱、RL，其實(shí)不一定。20年前大家研究無(wú)人機(jī)，就可能會(huì)在地上貼一個(gè)小球，無(wú)人機(jī)的攝像頭看到這個(gè)小球，通過(guò)把小球的像素點(diǎn)控制在像平面中間，讓無(wú)人機(jī)可以保持懸停。這是不是端到端？是，因?yàn)樗?PID把一端輸入的信息——圖像空間中的點(diǎn)誤差，映射到另一端輸出的控制指令。

端到端是一種范式，強(qiáng)化學(xué)習(xí)是一種解法，黑箱是一種模式，三者是不一樣的概念，不應(yīng)該被直接畫(huà)上等號(hào)。

王建明：所以高老師的端到端也用到各種解法？

高飛：各種各樣的解法，以解決問(wèn)題為唯一目標(biāo)。

王建明：也有涉及到強(qiáng)化學(xué)習(xí)？

高飛：現(xiàn)在用大量的強(qiáng)化學(xué)習(xí)。

王建明：無(wú)人機(jī)的高速穿越我印象里有強(qiáng)調(diào)強(qiáng)化學(xué)習(xí)，高老師的工作中還是有一些 rule base 的東西存在？

高飛：我們不叫rule base，我們叫 model base 或者叫 principle base，我們很少去寫(xiě)規(guī)則。大家經(jīng)常會(huì)批判 rule base，但是如果只寫(xiě)了一個(gè)規(guī)則要怎么解釋你的算法可以在不同的地方避障。所以它一定不是一套規(guī)則，而是一種系統(tǒng)化的模式。

世界模型解決了自動(dòng)駕駛的哪些問(wèn)題？

王建明：金老師剛分享了很多世界模型在自動(dòng)駕駛領(lǐng)域的突破，金老師的研究方向主要是世界模型空間智能。最近一段時(shí)間世界模型的概念很火，那么自動(dòng)駕駛的具體什么問(wèn)題用世界模型來(lái)解決了？

金鑫：現(xiàn)在第一梯隊(duì)像特斯拉的方案基本都在用世界模型，之前他們收集到的數(shù)據(jù)已經(jīng)把數(shù)據(jù)飛輪轉(zhuǎn)起來(lái)了，這么多數(shù)據(jù)上已經(jīng)積累了大量的corner case，那么他們下一步可能就要通過(guò)世界模型模擬的方式再去生成更多海量數(shù)據(jù)，例如覆蓋掉之前在國(guó)內(nèi)采集的數(shù)據(jù)以及之前布局不到的地方。

再一個(gè)，跟原來(lái)通過(guò)離線數(shù)據(jù)訓(xùn)練相比，通過(guò)世界模型方式可以做閉環(huán)測(cè)試。閉環(huán)測(cè)試是指上線一個(gè)模型后，在世界模型里面跑，跑完后能輸出action得到未來(lái)的狀態(tài)，再根據(jù)未來(lái)的狀態(tài)測(cè)試下一步該怎么做，就能把整個(gè)decision making 鏈路放到 world model 里面去做閉環(huán)的測(cè)試跟優(yōu)化。這是跟原來(lái)技術(shù)方案最大的不同。

現(xiàn)在世界模型在自動(dòng)駕駛領(lǐng)域?yàn)槭裁催@么火，主要還是因?yàn)樽詣?dòng)駕駛的場(chǎng)景生成還是比較簡(jiǎn)單，不像機(jī)器人。而自動(dòng)駕駛領(lǐng)域很早就有世界模型的概念，只是叫法不一樣叫閉環(huán)仿真器，用來(lái)做自動(dòng)駕駛安全測(cè)試。是生成式 AI 能力的提升才使得現(xiàn)在世界模型生成的數(shù)據(jù)已經(jīng)到了真假難辨的地步，為此提供大量非常有價(jià)值的訓(xùn)練樣本。

王建明：視頻生成是一種世界模型，如果帶上機(jī)器人的3D空間，再加上很多動(dòng)作維度，這個(gè)狀態(tài)表征可以是多種多樣的，那么在自動(dòng)駕駛領(lǐng)域的表征是什么？是一個(gè)共識(shí)嗎？

金鑫：機(jī)器人領(lǐng)域世界模型路線究竟對(duì)不對(duì)還存在爭(zhēng)議。對(duì)于世界模型的定義大家也有不同的看法，例如李飛飛跟 LeCun 就存在差異。李飛飛更偏重于"pixel-wise"（像素級(jí)）重建，LeCun 認(rèn)為不需要重建成人人可見(jiàn)可視的video，直接“ latent-based”表達(dá)出來(lái)對(duì)應(yīng)的機(jī)器人的 latent state 就可以了，它也是一種世界模型，只要能夠給定前序的action，能夠預(yù)測(cè)出后續(xù)的action，或者state狀態(tài)應(yīng)該怎么變化，本體下個(gè)階段會(huì)出現(xiàn)什么情況，只要能把這個(gè)階段抽象地表達(dá)出來(lái)，都算世界模型。

所以目前世界模型的定義還沒(méi)有定式，我認(rèn)為在自動(dòng)駕駛跟機(jī)器人兩個(gè)任務(wù)之間，對(duì)于世界模型的要求跟技術(shù)范式也都有區(qū)別。最初世界模型那篇 paper 提出的概念也很抽象，只要有能預(yù)測(cè)未來(lái)的能力并且有記憶，都可以被稱為世界模型。

王建明：我觀察到創(chuàng)業(yè)公司層面，現(xiàn)在做世界模型創(chuàng)業(yè)的很多公司創(chuàng)始人都有自動(dòng)駕駛背景，我想了解下自動(dòng)駕駛的狀態(tài)表征到底是個(gè)什么？

金鑫：可能主流的還是視頻生成。因?yàn)闋砍兜桨踩詥?wèn)題，如果連視頻模態(tài) RGB 的 video 都給不出來(lái)，如何相信生出來(lái)的數(shù)據(jù)是有效的？自動(dòng)駕駛主要還是視頻的 ADAS，同時(shí)雷達(dá)、點(diǎn)云這些傳統(tǒng)的數(shù)據(jù)也要有，所以這是我為什么要做 UniScene，因?yàn)樯傻哪B(tài)越多，信息量越大，我認(rèn)為 multi model 的前景可能更好。

每家主機(jī)廠都在做自己的方案，因?yàn)閷?duì)安全性的要求以及道路場(chǎng)景的復(fù)雜度不同，偏重也都不一樣，例如特斯拉就是純視覺(jué)方案，華為有激光雷達(dá)輔助。

王建明：世界模型解決具身智能相關(guān)問(wèn)題，會(huì)不會(huì)距離太遠(yuǎn)？

金鑫：前兩天 LeCun 公布了多模態(tài) V-JEPA，他一直宣稱自己的 latent space 就是世界模型的方案之一。如果要把世界模型打造出來(lái)，offline 先做好，再去驅(qū)動(dòng)具身，這個(gè)目前似乎沒(méi)有比較明確走通的技術(shù)方案，但像LeCun V-JEPA 直接通過(guò) representation learning 方式先學(xué)到對(duì)應(yīng)的預(yù)測(cè)能力，再去追問(wèn)輔助，其實(shí)已經(jīng)有不少工作，比如 VLA。

但是要說(shuō)它走通了嗎，把世界模型跟具身結(jié)合起來(lái)的方案已經(jīng)有人在售賣了，但要說(shuō)真正達(dá)到剛高老師說(shuō)的那種通用智能似乎又沒(méi)有，還需要時(shí)間驗(yàn)證。

王建明：現(xiàn)在一種說(shuō)法是把世界模型跟 VLA 對(duì)立起來(lái)，你剛提到其實(shí)這兩種可以結(jié)合。

金鑫：我們昨天上線了一篇研究《Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey》就是將兩者結(jié)合起來(lái)。如何做我們梳理了兩種方式，一種是先創(chuàng)建世界模型，再做 policy learning，要么同時(shí)做，不分先后。

王建明：兩者結(jié)合解決的是不同層次的問(wèn)題？

金鑫：解決的還是老問(wèn)題，即原本 offline 數(shù)據(jù)集沒(méi)辦法通過(guò) imitation learning 模仿學(xué)習(xí)擁有長(zhǎng)程思維和未來(lái)預(yù)測(cè)的能力。

高飛：相當(dāng)于 MPC 中的 P(預(yù)測(cè))。很多人認(rèn)為 MPC 中的模型就是機(jī)器人，可以把其他所有狀態(tài)都放到 model 里，也會(huì)往前預(yù)測(cè)。

王建明：我可以理解MPC 可能是用一個(gè)方程來(lái) predict，而世界模型其實(shí)是用一個(gè)生成式方法來(lái) predict？

高飛：我認(rèn)為 MPC 里面的 M 怎么來(lái)，其實(shí)是工程師跟科學(xué)家去做了抽象，而世界模型這種數(shù)據(jù)驅(qū)動(dòng)就是用 AI 自己去探索。本質(zhì)上如果我們用更多 AI，以后就可以不需要那么多科學(xué)家去抽象了。

王建明：那 predict 的下一個(gè)狀態(tài)是什么樣的？

金鑫：比如說(shuō)一個(gè)長(zhǎng)程任務(wù)，我要想象出來(lái)后面怎么做，就相當(dāng)于把它抽象成一個(gè)一個(gè) long horizon 問(wèn)題，現(xiàn)在最難解決的就是長(zhǎng)程任務(wù)，有了世界模型之后，長(zhǎng)程任務(wù)的理解、預(yù)測(cè)能力就能很好地賦予后續(xù)的 different policy 去學(xué)習(xí)。

什么是無(wú)人機(jī)的空間智能？

王建明：王博士您主要做全身控制（Whole-Body Control, WBC），把視覺(jué)引入到 Whole-Body Control，在這個(gè)方向，您覺(jué)得大概到什么時(shí)間點(diǎn)可能會(huì)實(shí)現(xiàn)一個(gè)看上去還不錯(cuò)的通用控制器。

王靖博：如果說(shuō)在仿真器里不做一些力矩的限制，要實(shí)現(xiàn)一個(gè)還不錯(cuò)的控制器不難，但會(huì)有精度的平衡，可能不太會(huì)像真的機(jī)械臂一樣指哪打哪。

如果在真實(shí)世界里，要實(shí)現(xiàn)這件事一方面是算法的問(wèn)題，一方面也看硬件，在上海 AI LAB 有非常多不同型號(hào)的人形機(jī)器人，相同的算法跑出來(lái)很多不同的結(jié)論，我覺(jué)得硬件能力的上限決定了什么時(shí)候能取得不錯(cuò)的成績(jī)。

王建明：高老師您剛給我們展示了多機(jī)的集群，包括多無(wú)人機(jī)的協(xié)同，這是否有點(diǎn)像集群學(xué)習(xí)？

高飛：集群學(xué)習(xí)具體的定義我不太熟，但是我們會(huì)采用集中學(xué)習(xí)、分布計(jì)算的模式，學(xué)習(xí)、訓(xùn)練的時(shí)候在一起，work 的時(shí)候各做各的，但是大家都有一個(gè)共同的目標(biāo)。

王建明：三位嘉賓共同探討的另一個(gè)共同點(diǎn)可能還有空間智能，包括無(wú)人機(jī)的空間感知、VLR（Vision-Language Reconstruction）。空間智能的定義也很大，怎么理解無(wú)人機(jī)領(lǐng)域的空間智能呢？

高飛：我覺(jué)得空間智能的定義不是特別清晰。感知是 robotics 非常重要的一塊，上一代 robotics 發(fā)展快的一個(gè)根源在于 SLAM（即時(shí)定位與地圖構(gòu)建）技術(shù)，現(xiàn)在很多做 SLAM 技術(shù)都轉(zhuǎn)行做空間智能了。不是換了個(gè)概念，而是很多技術(shù)持續(xù)復(fù)用，可能現(xiàn)在用的更多的是 learning based 方法像 VGGT或者其他 grounding model，但大家的目的可能類似，都為了獲得機(jī)器人對(duì)空間幾何、 texture，以及各種信息的一種抽象和表征。

原來(lái)一些 SLAM 做不了的事情，可能需要 AI 技術(shù)進(jìn)一步建模，之后進(jìn)一步去做 learning，所以才有空間智能的概念。

王靖博：我感覺(jué)大家對(duì) Semantic（語(yǔ)義）的關(guān)注變多了，Semantic不僅包括物體的類別，用途，交互的方式，還包括物體中 Semantic 的可能性變多了。

王建明：空間物體的關(guān)系，語(yǔ)義信息等等都還處于比較早期的狀態(tài)。

金鑫：比如從第一排左邊開(kāi)始數(shù)第四個(gè)瓶子，類似于這種比較復(fù)雜的空間關(guān)系的描述對(duì)于機(jī)器人來(lái)講就比較困難，尤其是對(duì)于做機(jī)器人大腦的公司來(lái)說(shuō)很難實(shí)現(xiàn)。這種空間能力即所謂的空間智能對(duì)人來(lái)講很簡(jiǎn)單，但是機(jī)器人還不成熟。

王建明：解決空間智能問(wèn)題是缺數(shù)據(jù)嗎？

金鑫：就像剛王老師說(shuō)的，過(guò)去大家對(duì)這種 semantic 沒(méi)那么敏感，也不會(huì)有這方面相應(yīng)的解法跟數(shù)據(jù)。

高飛：我理解可能就像金老師說(shuō)的，大腦公司面臨的問(wèn)題是因?yàn)榇竽Ｐ偷臄?shù)據(jù)來(lái)源于語(yǔ)言模態(tài)，本身其空間關(guān)系就很弱，所以大模型在空間關(guān)系上就會(huì)出現(xiàn)幻覺(jué)。但是傳統(tǒng)的 SLAM 在這塊很強(qiáng)，所以要構(gòu)建專門的數(shù)據(jù)集把這些信息對(duì)齊。

王建明：現(xiàn)在具身智能很多基座，VLM 中的“Vision”基本上是 2D 的，多模態(tài)本身在 3D 模態(tài)還比較欠缺，所以現(xiàn)在反倒是那些做 SLAM 的公司會(huì)強(qiáng)調(diào)把 3D 模態(tài)補(bǔ)足，然后最終在看如何解決空間智能的問(wèn)題。

金鑫：是的，所以我們做 driver VLA 就加了 visual COT 的思路，也是同樣的道理，給了 depth 等更多信息。

具身智能創(chuàng)業(yè)，奔赴星辰大海還是腳踏實(shí)地？

王建明：接下來(lái)我們聊聊三位老師在落地上的期待吧，比如像高老師做無(wú)人機(jī)應(yīng)用，您感覺(jué)在這個(gè)方向，未來(lái)我們現(xiàn)實(shí)生活中能看到什么類型的應(yīng)用？

高飛：我認(rèn)為拉長(zhǎng)時(shí)間跨度，我們會(huì)在生活中看到各種各樣的無(wú)人機(jī)，這是我一直以來(lái)的夢(mèng)想。但是這個(gè)時(shí)間可能比較遠(yuǎn)，二十年后我們往向窗外，如果沒(méi)有各種無(wú)人機(jī)在做高空作業(yè)，例如送貨送人，那肯定是我們這幫學(xué)者、創(chuàng)業(yè)者和從業(yè)者的失敗。

我覺(jué)得很多時(shí)候我們的技術(shù)已經(jīng) almost there了，再努努力就能突破，但要讓它 work，這一步總要有人去做，這其中有很多事情可以做，具體的落地過(guò)程肯定很痛苦，我們正經(jīng)歷這種痛苦。

王建明：無(wú)人機(jī)已經(jīng)經(jīng)歷過(guò)一波應(yīng)用潮，以大疆為主的硬件公司的迭代，到現(xiàn)在這個(gè)階段更多要用無(wú)人機(jī)來(lái)解決一些現(xiàn)實(shí)問(wèn)題，而不僅僅把它當(dāng)作一個(gè)設(shè)備。

高飛：可能好落地的應(yīng)用已經(jīng)做完了，但好做的事情其實(shí)在整個(gè)空中作業(yè)的生態(tài)里不到 1%，比如現(xiàn)在大家熟知的航拍、農(nóng)業(yè)植保機(jī)，更多的就不一定說(shuō)得出來(lái)了。但是我們行業(yè)里仍有各種事情可以做，例如發(fā)生了火災(zāi)去高空滅火、高空清洗幕墻、無(wú)人機(jī)送貨、載人觀光，這些大家講了很久，但還沒(méi)有實(shí)現(xiàn)。

王建明：為什么還一直沒(méi)實(shí)現(xiàn)？問(wèn)題是什么？

高飛：在我看來(lái)肯定有很多卡點(diǎn)，最大的一個(gè)問(wèn)題就是不夠智能?；蛘哒f(shuō)某個(gè)行業(yè)的無(wú)人機(jī)需要 rule- based，要寫(xiě)很多規(guī)則，就需要很多科學(xué)家、工程師夜以繼日地用人力去抽象，這件事就很難，也很難算過(guò)來(lái)賬。如果花了那么大代價(jià)開(kāi)發(fā)物流無(wú)人機(jī)，最后還不如外賣小哥送得便宜，那么意義就不大。但是AI 的發(fā)展讓我們看到了希望。

機(jī)器人也類似，現(xiàn)在很多人形機(jī)器人做的事情，其實(shí)工廠里一個(gè)工業(yè)流水化設(shè)備也能做，可能成本更低，但機(jī)器人給人的期待不是一個(gè)流水化設(shè)備，而是機(jī)器人成功了以后什么事情都能做，我認(rèn)為天空端、地上、水下都有類似的邏輯。

王建明：所以還是 learning base 的控制范式的改變，也可以增加無(wú)人機(jī)的應(yīng)用場(chǎng)景。

高飛：這個(gè)階段用 AI 結(jié)合大模型，不僅控制、更多是決策，而決策是最難的問(wèn)題，我認(rèn)為我們可能看到了具備通用泛化解決問(wèn)題能力的基座模型的希望。

王建明：金老師您怎么看待整個(gè)具身智能的落地應(yīng)用？

金鑫：我自己也在寧波做一些產(chǎn)業(yè)化的事情，剛高老師講到不希望再回到工業(yè)自動(dòng)化的階段。但現(xiàn)在反倒是工業(yè)自動(dòng)化的需求非常著急，他們希望把機(jī)器人盡快用起來(lái)，這就是其中一個(gè)很大的 gap。高校老師創(chuàng)業(yè)，技術(shù)人員創(chuàng)業(yè)，尤其是這種新興技術(shù)創(chuàng)業(yè)，他們腦海中的想法跟現(xiàn)實(shí)世界發(fā)展存在差距，你想做的是個(gè)飛機(jī)，可能工廠需要的就是一個(gè)自行車。

王建明：王博士，你主要做雙足人形的控制，現(xiàn)在這塊的硬件已經(jīng)相對(duì)比較成熟了，那么離最終的應(yīng)用落地您怎么看？

王靖博：今年機(jī)器人領(lǐng)域讓大家看到了一些跟提高操作能力無(wú)關(guān)的事情，例如巡檢、跳舞等等，大家貌似用一米四以下的機(jī)器人就能看起來(lái)不錯(cuò)了，但最終目的還是要讓機(jī)器人去干活，在能干活這件事上，硬件的迭代我覺(jué)得還不太清楚，無(wú)論是人形機(jī)器人的負(fù)載能力、在高負(fù)載下的平衡性、運(yùn)動(dòng)的穩(wěn)定性，還有靈巧手的方案，其實(shí)還有非常多的挑戰(zhàn)。所以我覺(jué)得這個(gè)事情還有很遠(yuǎn)的路要走。

王建明：在中國(guó)創(chuàng)業(yè)面臨一個(gè)很大的問(wèn)題就是最終要去解決一個(gè)宏大的問(wèn)題，但又不得不面臨短期商業(yè)化的矛盾。相比較美國(guó)創(chuàng)業(yè)公司，前段時(shí)間我看到 Scale AI 最新一輪的估值是 140 億美金，換成人民幣就是近千億的估值。那我們回頭看國(guó)內(nèi)的創(chuàng)業(yè)公司，不管是從融資規(guī)模還是估值規(guī)模上來(lái)說(shuō)，你們認(rèn)為最終通用機(jī)器人在中美兩國(guó)的估值體系下會(huì)是什么樣？一個(gè)像 Scale AI 可能就融了三輪而已，估值已經(jīng)到 140 億美金，投資人也沒(méi)期待它能解決什么現(xiàn)實(shí)具體問(wèn)題，另一方面中國(guó)創(chuàng)業(yè)公司在幾億人民幣估值下，又要去奔赴星辰大海又要腳踏實(shí)地商業(yè)化，作為創(chuàng)業(yè)者的高老師您怎么看？

高飛：首先這個(gè)估值我肯定看不懂，只能說(shuō)我無(wú)法理解。那從創(chuàng)業(yè)者切身體會(huì)，我既然在中國(guó)就走好中國(guó)路徑。我認(rèn)為接下來(lái)是關(guān)鍵的一代，每一代人都有每一代人的使命，最后誰(shuí)能把事情做成最重要，而不是看誰(shuí)估值更高。

金鑫：我也特別同意高老師剛剛的話。估值背后隱藏的東西太多，同時(shí)資本的力量太大了?？赡鼙澈蟮馁Y本并不相信這件事一定能做成，只是說(shuō)要把場(chǎng)子熱起來(lái)。我覺(jué)得從中國(guó)角度來(lái)講，從 DeepSeek 之后，中國(guó)的投資人對(duì)技術(shù)的耐心多了一些，大家能看到這代年輕人還是能做出來(lái)東西。

王靖博：整個(gè)行業(yè)或者說(shuō)科研是一場(chǎng)馬拉松，會(huì)有一輪又一輪的浪潮，現(xiàn)在可能為了炒熱度，但下一輪真的浪潮來(lái)了之后，大家關(guān)心、討論的問(wèn)題也不一樣了。對(duì)一家公司的評(píng)估體現(xiàn)著估值上可能會(huì)有新的改觀。

觀眾提問(wèn)環(huán)節(jié)：合成還是真機(jī)數(shù)據(jù)更有效，

還是要看任務(wù)，不是真機(jī)數(shù)據(jù)就一定最合理。

觀眾提問(wèn)：既然大家談到目前的技術(shù)路線還沒(méi)有收斂，為什么還有這么多學(xué)者下場(chǎng)創(chuàng)業(yè)，他們創(chuàng)業(yè)的動(dòng)機(jī)是什么？是因?yàn)閷W(xué)術(shù)界的資源不夠來(lái)做這件事，還是純粹想蹭這波資本的紅利？

高飛：對(duì)于我來(lái)說(shuō)，肯定不是為了蹭資本紅利，沒(méi)什么好蹭的。如果你創(chuàng)過(guò)業(yè)，就會(huì)知道這里面要承擔(dān)多少壓力，有多少痛苦要經(jīng)歷。那為什么還要?jiǎng)?chuàng)業(yè)呢，我覺(jué)得恰恰要在技術(shù)沒(méi)有收斂的時(shí)候創(chuàng)業(yè)，不然等收斂了，機(jī)會(huì)恐怕就不再屬于你了。對(duì)于我而言， 5 年前我肯定不會(huì)創(chuàng)業(yè)的，因?yàn)闆](méi)有足夠的變量可以幫助我把這件事情做成，而現(xiàn)在有這個(gè)機(jī)會(huì)，那就 have a try，and try my best，就是這樣。

觀眾提問(wèn)：有關(guān)機(jī)器人數(shù)據(jù)的問(wèn)題，現(xiàn)在機(jī)器人數(shù)據(jù)數(shù)量相對(duì)較少，現(xiàn)有三種方法，一種方法是真機(jī)采集，但真機(jī)比較昂貴，而且機(jī)器人本體會(huì)迭代，如果想要通過(guò)真機(jī)回流數(shù)據(jù)的話，其實(shí)迭代了之后再應(yīng)用也是個(gè)問(wèn)題。第二種方式是通過(guò)仿真，但仿真存在 simulation gap，不過(guò)仿真會(huì)相對(duì)便宜。第三種方式是我最近聽(tīng)說(shuō)是有用視頻生成模型來(lái)生成更加大量的數(shù)據(jù)，就能彌補(bǔ)其中的誤差，但是這種方式會(huì)比較耗算力。想問(wèn)一下你們覺(jué)得以后的數(shù)據(jù)獲取的方向會(huì)是哪一種？或者是怎樣去結(jié)合？

金鑫：這個(gè)其實(shí)討論過(guò)很多次，數(shù)據(jù)金字塔，最底下的就是互聯(lián)網(wǎng)數(shù)據(jù)或者 video 的數(shù)據(jù)，這個(gè)量也最大，獲取的成本也最低。但是可能只能支撐做一些 pretraining，就比如一些 foundation model，用這部分的 video 讓它去學(xué)是沒(méi)問(wèn)題的。再往上就是合成數(shù)據(jù)合成出來(lái)的高質(zhì)量數(shù)據(jù)，real 跟 SIM 之間的 gap 比較小，能夠支撐做更多的任務(wù)，提高泛化性。最上面是真機(jī)的數(shù)據(jù)，遙操的數(shù)據(jù)。

但合成數(shù)據(jù)也分各種合成數(shù)據(jù)，分無(wú)效的一些合成數(shù)據(jù)，有價(jià)值的一些合成數(shù)據(jù)，對(duì)于物理真實(shí)更重要的一些合成數(shù)據(jù)，下面又細(xì)分了很多。對(duì)于 video 也是一樣，對(duì) video 到底是用人的 human video 去訓(xùn)它，還是說(shuō)機(jī)器人的一些 video 去訓(xùn)它，還是說(shuō)其他更加 in general 的 video 去訓(xùn)它？這個(gè)也不太一樣。所以我覺(jué)得目前還在探索哪部分?jǐn)?shù)據(jù)更有效的階段。我聽(tīng)過(guò)一個(gè)比例是721，就是 70% 的 Web data video data， 20% 的 synthetic data，然后 10% 的真機(jī)數(shù)據(jù)，但是 who knows？

觀眾提問(wèn)：現(xiàn)在直接用文生視頻、圖生視頻這種視頻生成模型直接生成機(jī)器人的數(shù)據(jù)，相似度其實(shí)能夠達(dá)到 88%，但是會(huì)比較耗卡、耗算力，這種方式你們?cè)趺纯?？銀河通用他們是 99% 都用合成數(shù)據(jù)，就完全占合成數(shù)據(jù)那一派，所以想看一下你們的看法。

金鑫：耗卡這件事，有錢就可以做，主要還是看能不能生成有效的數(shù)據(jù)。但一定要合成出來(lái)的 video 才有效果嗎，也不一定。現(xiàn)在的 latent space 的生成也是一種生成方案，又回到剛剛那個(gè)老問(wèn)題，就是 word model for VLA 或者 word model for embody 那個(gè) word model 輸出來(lái)的東西一定是要 video 嗎？也不一定。

觀眾提問(wèn)：視頻生成模型直接生成機(jī)器人的數(shù)據(jù)，會(huì)比仿真的更接近真實(shí)。

金鑫：仿真跟生成要分得這么開(kāi)嗎，可能仿真的就是原來(lái) CAD 搓出來(lái)的 asset，就像群核智能，他們現(xiàn)在手里面有很多資產(chǎn)，也是他們自己最大的護(hù)城河，但是現(xiàn)在生成出來(lái)的內(nèi)容可能也不見(jiàn)得會(huì)比那種手搓出來(lái)的要差。我覺(jué)得主要還是看你什么樣的數(shù)據(jù)有效，或者說(shuō)哪些是針對(duì)你要解決的那個(gè)任務(wù)有價(jià)值，這部分?jǐn)?shù)據(jù)該怎么去表達(dá)？是用 video 嗎？還是用其他的 modality，或者直接不用表達(dá)，直接就是一個(gè)抽象的 latent 就足夠了，還是 case by case。

王靖博：我比較同意金老師的表達(dá)。哪部分?jǐn)?shù)據(jù)最有效還是要看任務(wù)，不是真機(jī)數(shù)據(jù)就一定最合理。像我做足式控制，其中最基本的 locomotion，我可能都沒(méi)有 positive examples，我是在一個(gè)純仿真環(huán)境里，沒(méi)有任何的實(shí)調(diào)數(shù)據(jù)一樣可以把這件事做成，因?yàn)槲业娜蝿?wù)不需要那么多 contact reach 的東西。我只要能學(xué)到從各種各樣摔倒的環(huán)境里面怎么讓機(jī)器人恢復(fù)穩(wěn)定就好，其實(shí)是純依賴任務(wù)的一種形式。所以我覺(jué)得討論這個(gè)事之前，其實(shí)更重要的是看你需要做什么任務(wù)，然后找那個(gè)任務(wù)最 scaling up 的一種方式去獲得數(shù)據(jù)。

講座完整視頻，詳見(jiàn)鏈接：https://youtu.be/txv3B90DlQQ

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.