国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Z Waves|對話陳佳玉:AtomVLA 刷爆基準(zhǔn),真機(jī)完成高難度柔性物體操作,具身智能長程任務(wù)進(jìn)入深水區(qū)

0
分享至


具身智能的長程任務(wù)天花板,正在被捅破。

就在近日,大模型圈和機(jī)器人圈被一個名為AtomVLA的模型刷屏了。這個由原力無限團(tuán)隊發(fā)布的最新戰(zhàn)果,不僅直接在 LIBERO 權(quán)威基準(zhǔn)上刷出了97.0%的驚人成功率,更是在真機(jī)演示中,絲滑地完成了疊 T 恤、折毛巾等“地獄級難度”的柔性物體操作。

圍繞‘為機(jī)器人打造真正理解世界的大腦’這一核心方向,原力無限當(dāng)前正以端到端 VLA 多模態(tài)大模型與因果世界模型為技術(shù)底座,并以全棧 AI Infra 構(gòu)建數(shù)據(jù)與模型飛輪,推動機(jī)器人在虛擬世界學(xué)習(xí)、在真實(shí)世界進(jìn)化。

帶隊人,正是原力無限資深研究科學(xué)家——陳佳玉教授。

論文傳送門: https://arxiv.org/pdf/2603.08519 )


更重要的是,AtomVLA開創(chuàng)性地提出了“原子子任務(wù)分解 + 預(yù)測型世界模型離線評估 + 離線GRPO后訓(xùn)練”的完整范式,實(shí)現(xiàn)了不依賴昂貴真機(jī)在線交互的高效策略優(yōu)化。

在全球VLA后訓(xùn)練研究競爭日趨白熱化的當(dāng)下,這一框架提供了一條兼顧性能、效率與可擴(kuò)展性的全新技術(shù)路徑,標(biāo)志著VLA后訓(xùn)練正在從“依賴真機(jī)試錯”走向“世界模型驅(qū)動的離線進(jìn)化”新范式。

AtomVLA 的驚艷成績,源于陳佳玉教授對“復(fù)雜控制”十余年的深耕。從自動駕駛到核聚變等離子體控制,再到如今的具身智能,這位 ISTJ 科學(xué)家始終在追問:如何用數(shù)學(xué)和邏輯,讓機(jī)器擁有類人的進(jìn)化能力?

以下是ZF對于陳佳玉教授的深度訪談實(shí)錄。


Jane這期節(jié)目我們邀請到了一位非常年輕的科學(xué)家——陳佳玉陳老師。陳老師現(xiàn)在是原力無限資深研究科學(xué)家,歡迎陳老師!先簡單一兩句話介紹一下自己吧。

佳玉好的。我是陳佳玉,目前是香港大學(xué)數(shù)據(jù)與系統(tǒng)工程系的助理教授,研究方向是應(yīng)用強(qiáng)化學(xué)習(xí)到復(fù)雜控制,目前專注于具身智能方向的研究。

Jane陳老師雖然很年輕,但在機(jī)器人、自動駕駛、強(qiáng)化學(xué)習(xí)相關(guān)的研究上已經(jīng)非常資深了。那接下來進(jìn)入我們的快問快答環(huán)節(jié)——你的星座和MBTI是什么?

陳佳玉:星座是天秤座,MBTI 好像是一個叫"物流師"的類型,ISTJ 之類的。

Jane如果不用"助理教授""強(qiáng)化學(xué)習(xí)"這些標(biāo)簽,你一般會怎么向一個不懂AI的朋友介紹自己?

陳佳玉:我會說,我做的方向是解決一些比較復(fù)雜的控制問題。比如人形機(jī)器人控制,還有核聚變中等離子體的控制??偨Y(jié)來說,我是一個專注于復(fù)雜控制問題的人,可能用數(shù)學(xué)方法去解,也可能用人工智能方法去解。

Jane復(fù)系統(tǒng)的控制問題。最近一兩周你刷得比較多的論文,或者看得最多的相關(guān)項(xiàng)目是什么?

陳佳玉:最近看得比較多的是多模態(tài)大模型,還有基于應(yīng)用的世界模型這一塊。

Jane如果不做科研,你現(xiàn)在有可能在做什么?

陳佳玉:如果不做科研,我可能做一個體育新聞記者吧。

Jane同行!你覺得自己最大的非學(xué)術(shù)型能力是什么?

陳佳玉:我覺得我最強(qiáng)的是邏輯能力,做梳理的工作會比較好。其實(shí)這個能力有點(diǎn)類似 AI——你給我一個問題,我大量閱讀相關(guān)的東西,然后把它梳理成一個像報告一樣的東西。我最強(qiáng)的是邏輯部分,最強(qiáng)的非學(xué)術(shù)性能力可能就是這種總結(jié)和協(xié)作能力。但這個好像也偏學(xué)術(shù),所以我也不太清楚怎么回答這個問題。

第一部分:個人經(jīng)歷與強(qiáng)化學(xué)習(xí)的十年流變

Jane好,那我們直接切到個人經(jīng)歷這塊吧。先聊一下你整個研究經(jīng)歷,包括小時候是什么時候?qū)χ悄軝C(jī)器人這些產(chǎn)生興趣的,最終又是怎么一步步開始自己的研究的。

陳佳玉:我的研究經(jīng)歷應(yīng)該具體是從大學(xué)二年級開始。那時候選擇研究方向,其實(shí)也比較討巧——當(dāng)時 ImageNet 和 AlphaGo 都剛出來,深度學(xué)習(xí)的一些成果引起了很大的轟動,所以我就萌生了做人工智能的想法。

但人工智能涉及很多領(lǐng)域,比如計算機(jī)視覺、智能決策、自然語言處理。我比較喜歡那些具象化的東西,所以一開始選了自動駕駛這個方向,在北大做自動駕駛相關(guān)的研究。剛開始做的是感知層的工作,就是怎么讓自動駕駛汽車?yán)斫庵車沫h(huán)境——明白它看到的這一塊是灌木叢,那一塊是行人。

后來我接觸到了自動駕駛汽車決策層的東西。決策就是說,依據(jù)你的觀測,你要做自動駕駛汽車油門的控制或方向的控制,這涉及到一些決策算法。我漸漸發(fā)現(xiàn),結(jié)合我在北大和博士期間兩段經(jīng)歷來看,我其實(shí)更喜歡的是比較抽象的決策算法這一部分。

具體用到的算法是兩大類:一類是模仿學(xué)習(xí),從示例數(shù)據(jù)中學(xué)習(xí);一類是強(qiáng)化學(xué)習(xí),從仿真中學(xué)習(xí)。到了博士階段,我就開始研究這種比較抽象的決策算法,不再依賴于具體的應(yīng)用了。做了很多理論研究和算法設(shè)計,這些算法和理論雖然抽象,但應(yīng)用范圍比較廣,也奠定了我對這種技術(shù)更深層次的理解。因?yàn)榧夹g(shù)到更深層次的話,其實(shí)就是數(shù)學(xué)——一種依據(jù)數(shù)學(xué)、依據(jù)場景以及一些直覺所做出來的東西。這段經(jīng)歷讓我對決策算法,特別是對強(qiáng)化學(xué)習(xí)有了更本質(zhì)的認(rèn)識。

等到做博后的時候,我又意識到,純理論的強(qiáng)化學(xué)習(xí)研究已經(jīng)做得七七八八了。從 AlphaGo 之后強(qiáng)化學(xué)習(xí)熱潮就開始了,等我2024年畢業(yè)的時候,其實(shí)都已經(jīng)做得差不多了。大家的研究興趣慢慢轉(zhuǎn)向了強(qiáng)化學(xué)習(xí)在其他領(lǐng)域的應(yīng)用。比較耀眼的應(yīng)用有兩個:一個是在大模型上的應(yīng)用,大模型的后訓(xùn)練依賴于強(qiáng)化學(xué)習(xí);另一個是在人形機(jī)器人或其他物理過程上應(yīng)用強(qiáng)化學(xué)習(xí)。

我想,如果我要繼續(xù)做強(qiáng)化學(xué)習(xí)研究,就得給它找一個應(yīng)用。相比大語言模型,我選擇了物理控制這個領(lǐng)域,但我并沒有直接去做人形機(jī)器人,而是選擇了復(fù)雜的物理過程——具體講就是核聚變里的等離子體控制,應(yīng)用強(qiáng)化學(xué)習(xí)的方法去做。等到博后結(jié)束,開始做自己實(shí)驗(yàn)室的時候,我依然沿著這個思路——給強(qiáng)化學(xué)習(xí)找一個應(yīng)用場景??紤]到現(xiàn)實(shí)條件,我沒有辦法在香港繼續(xù)做核聚變研究,所以就把研究轉(zhuǎn)向了人形機(jī)器人,或者說具身智能上面的應(yīng)用。

總體來講,我的思路就是:從一個比較具象的技術(shù)出發(fā)——自動駕駛,慢慢找到自己對決策算法的興趣——強(qiáng)化學(xué)習(xí)。到后期為了讓研究興趣真正有 impact,我開始想它具體的應(yīng)用,最終錨定了具身智能。

做具身智能一段時間之后,我發(fā)現(xiàn)它實(shí)際上是一個非常綜合的領(lǐng)域。你想把具身智能做好,基本上就要解決 AI 領(lǐng)域所有的大問題:你要讓感知做得好,就得做計算機(jī)視覺;你想讓它既能聽懂語言,又能看懂圖片,還能感受到力,這就涉及多模態(tài)融合;你想讓機(jī)器人比較通用,就得喂給它很多數(shù)據(jù)并用大模型,這涉及大模型的問題;你想讓機(jī)器人很敏捷,又涉及機(jī)械工程的問題。所以具身智能這個領(lǐng)域包含了人工智能基本上所有大的挑戰(zhàn),我就越來越覺得它有意思,也想把它做一個長期攻堅的方向。

最后一點(diǎn),它不僅是多項(xiàng)技術(shù)的集合,更代表著一個未來——給人工智能裝一個身體。它不僅在思維上更像人,在行為上也更像人。以具身智能為載體,你會研究很多與類人智能相關(guān)的問題。從長遠(yuǎn)來看,這是一個非常有前景的方向。

陳佳玉:對。

Jane你大概是16年入學(xué),那一年AlphaGo基本上點(diǎn)燃了整個第一波中國自動駕駛公司和地平線等公司,就是那個時候誕生的。你經(jīng)歷了整個強(qiáng)化學(xué)習(xí)不斷融入先自動駕駛、后來又融入機(jī)器人的過程。你覺得強(qiáng)化學(xué)習(xí)這么多年,過程中那些關(guān)鍵的問題,所謂的"真問題",究竟在發(fā)生什么變化?

陳佳玉:這是一個好問題。我這么來回答吧——強(qiáng)化學(xué)習(xí)的研究大概分為幾派。

第一派是理論派。大家研究你需要多少采樣才能學(xué)到最終的 policy,在數(shù)學(xué)上進(jìn)行推演。其實(shí)相關(guān)的研究在上個世紀(jì)就開始了,只不過那時大家依賴比較強(qiáng)的假設(shè)以及不太切實(shí)際的 policy,研究的更多是有限的狀態(tài)和動作空間。這一波理論研究的話,大家就越來越把它推向無限的狀態(tài)動作空間下采樣效率的問題。但整體上會發(fā)現(xiàn),數(shù)學(xué)結(jié)果越漂亮的那些算法,離實(shí)際就越遠(yuǎn)。

第二派是以DeepMind為代表的算力派。他們在推算力對強(qiáng)化學(xué)習(xí)算法的影響,代表成果就是 AlphaGo、AlphaZero——把強(qiáng)化學(xué)習(xí)里的值學(xué)習(xí)和蒙特卡洛樹搜索(MCTS)結(jié)合在一起,用來解決非常復(fù)雜的決策問題,用算力來堆。這肯定是非常有用的,他們已經(jīng)造出了那種超越人類智能的系統(tǒng)——AlphaGo、AlphaFold、AlphaChip 等等,用算力結(jié)合強(qiáng)化學(xué)習(xí)堆出了很多實(shí)際上很有用的東西。但問題是他們的研究不太適合學(xué)術(shù)界,因?yàn)閷W(xué)術(shù)界沒那么多算力。

第三派是以學(xué)術(shù)界和伯克利為代表的深度強(qiáng)化學(xué)習(xí)派。沒那么理論,對算力要求也沒那么大,但做出了很多有代表性的深度強(qiáng)化學(xué)習(xí)算法。比如 Soft Actor-Critic(SAC),這是在線強(qiáng)化學(xué)習(xí)的代表性算法。然后慢慢做到了離線強(qiáng)化學(xué)習(xí)(Offline RL),代表算法有 CQL,也是他們這些組做出來的。再后來,大家又開始基于生成模型來做強(qiáng)化學(xué)習(xí)算法,代表性工作就是 Decision Transformer 和 Diffusion Policy??偟膩碚f,這一派沒那么理論,也不像 DeepMind 那樣依賴強(qiáng)算力,但誕生了一系列非常有代表性的深度強(qiáng)化學(xué)習(xí)算法。

大概在2022到2023年這個區(qū)間,大家就發(fā)現(xiàn)你再做更多的純強(qiáng)化學(xué)習(xí)算法,也比不了 PPO 有用,所以單純的強(qiáng)化學(xué)習(xí)算法研究遇到了瓶頸。大家逐漸轉(zhuǎn)向了強(qiáng)化學(xué)習(xí)的應(yīng)用。這時候特別是強(qiáng)化學(xué)習(xí)在大模型的后訓(xùn)練上有了非常好的效果,也就是我們說的RLHF第四波就起來了,以大模型公司為代表,做 RLHF 取得了很好的進(jìn)展。又過了一兩年,幾乎是同時,大家發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)算法,特別是 PPO,在人形機(jī)器人的控制上有非常好的效果,具體案例就像宇樹科技的那些跳舞或打太極的展示,大部分都是基于 RL 做出來的。所以我認(rèn)為現(xiàn)在更像是一個強(qiáng)化學(xué)習(xí)的應(yīng)用時代

如果再展望一下,之后強(qiáng)化學(xué)習(xí)會怎么樣?我認(rèn)為有一個特別關(guān)鍵的點(diǎn)——持續(xù)性的強(qiáng)化學(xué)習(xí)。就是你如何在學(xué)習(xí)新任務(wù)的時候不忘掉舊的任務(wù),在學(xué)習(xí)新任務(wù)時能基于舊任務(wù)中學(xué)到的知識快速學(xué)習(xí)。這實(shí)際上很重要。另一個點(diǎn)是,你在進(jìn)行強(qiáng)化學(xué)習(xí)的時候如何利用 Foundation Model 已有的知識進(jìn)行高效的強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)是一個很本質(zhì)的技術(shù)——你給它一個獎勵信號,然后期待它把完成那個獎勵信號的最好策略學(xué)出來。它的缺陷在于太本質(zhì)了、太像人了,以至于我們想真正發(fā)揮出它的威力,就得做出那種類人智能來,才能很好地應(yīng)用強(qiáng)化學(xué)習(xí)。這需要我們在算法設(shè)計上有新的突破。

Jane你剛說了強(qiáng)化學(xué)習(xí)接下來值得繼續(xù)研究的問題,一個是持續(xù)性的學(xué)習(xí),一個是把知識利用做得更有效率,這有點(diǎn)像大語言模型的記憶問題,殊途同歸。

陳佳玉:對。人也是基于獎勵信號在學(xué)習(xí)我們的策略——比如你的獎勵信號是考上一個大學(xué),然后我們每天調(diào)整自己的行為。強(qiáng)化學(xué)習(xí)大致也是這樣,你給它一個目標(biāo),比如走出迷宮,然后它不斷探索,直到學(xué)到那個行為。

但人和 Agent 的不同點(diǎn)在于,我們?nèi)耸且粋€持續(xù)學(xué)習(xí)的過程。完成上大學(xué)的目標(biāo)之后,還有讀研究生、讀博士或找好工作這一系列的目標(biāo)。而且我們在學(xué)新任務(wù)的時候,實(shí)際上是依賴過去知識的,我們在探索的時候也不是無目的的探索,是有先驗(yàn)知識來指導(dǎo)的。但這些先驗(yàn)知識和持續(xù)學(xué)習(xí)的過程,在當(dāng)今主流的 RL 算法中都還沒有做到。這是之后需要攻克的點(diǎn)。

Jane回到你個人研究的話,我看你發(fā)的論文涉及逆強(qiáng)化學(xué)習(xí)、Offline RL等等,都屬于深度強(qiáng)化學(xué)習(xí)里的一些分支,是不是?

陳佳玉:是的,深度強(qiáng)化學(xué)習(xí)。我也做一些強(qiáng)化學(xué)習(xí)理論相關(guān)的東西,也做過強(qiáng)化學(xué)習(xí)在大語言模型中的應(yīng)用,還做過強(qiáng)化學(xué)習(xí)在人形機(jī)器人上的應(yīng)用。整體思路就是隨著強(qiáng)化學(xué)習(xí)社區(qū)的遷移,從理論到算法,再從算法到應(yīng)用。

Jane你剛說到你從理論最后還是想做具體的應(yīng)用,你還記得是哪一刻覺得不想停留在理論階段了,想把它真正放到機(jī)器人身上或一些具體的事情來看到效果?

陳佳玉:要說具體哪一刻,應(yīng)該很難講。我做過一些理論工作,每次做理論工作的時候,不僅要推數(shù)學(xué),還要把算法寫成代碼,然后在實(shí)驗(yàn)上去跑。就發(fā)現(xiàn)你推出來數(shù)學(xué)結(jié)構(gòu)好的,寫成代碼運(yùn)行起來效果不一定好;反而是一些理論直覺上更差的東西,實(shí)際表現(xiàn)反而更好。這是一個點(diǎn)。

另一個點(diǎn)是,在做理論的過程中,你為了得到結(jié)果要引入一些假設(shè),但那些假設(shè)隱隱約約會感覺到與實(shí)際非常不相符。所以你可能花了很大精力做數(shù)學(xué)推導(dǎo),得到的結(jié)果可能沒太大實(shí)際意義。我覺得這是最大的一個 pain point。

而且還有一個 pain point——PPO 是2017年做出來的,現(xiàn)在大家用得最多的算法,無論在大語言模型還是機(jī)器人本體上,還是 PPO。所以我們應(yīng)該比較清晰地意識到這個問題:你再做出新的算法來,可能也不太會有人用。

Jane你其實(shí)是想看到更多真正落到實(shí)際上有意義和有價值的東西,這在你做的事情上是非常重要的一個衡量維度。

陳佳玉:對,因?yàn)槟慊ê芏鄷r間在做研究,總希望自己的研究能真的用在社會中的某一個角落里。把技術(shù)應(yīng)用到一個具體的領(lǐng)域里邊,這是非常重要的。我覺得對于做科研、做技術(shù)來講,這是非常重要的一個成就。

Jane然后講一下你在CMU機(jī)器人研究所的經(jīng)歷吧,它其實(shí)就是完全跟機(jī)器人相關(guān)的?

陳佳玉:是跟控制相關(guān)的。具體來說,我們跟美國的通用原子公司進(jìn)行合作,他們有核聚變設(shè)施。核聚變是要在一個裝置里,以水為燃料,產(chǎn)生一個比太陽里還要熱、壓強(qiáng)還要高的運(yùn)行環(huán)境。在那個環(huán)境里,會有一團(tuán)溫度和壓強(qiáng)都極高的等離子體。你要控制那個等離子體,不讓它接觸裝置壁,因?yàn)橐坏┙佑|到壁,就相當(dāng)于失敗了。所以這是一個難度非常大的控制問題。

由于它是非常極端的條件——高溫高壓——物理過程不完全清楚。一方面物理過程不清楚,另一方面控制問題又很難。所以我們的解決方法就是用他們提供的大量數(shù)據(jù),去學(xué)一個控制策略出來。

主要的技術(shù)棧就是強(qiáng)化學(xué)習(xí)。這也是強(qiáng)化學(xué)習(xí)吸引我的點(diǎn)——幾乎所有的決策問題,不管是離散的還是連續(xù)的,不管是過程控制問題還是機(jī)器人控制問題,只要它能被建模成一個馬爾可夫過程,就可以用強(qiáng)化學(xué)習(xí)去求解一個好的策略。

Jane我理解它是一個物理系統(tǒng),強(qiáng)化學(xué)習(xí)是一套軟件系統(tǒng),中間是通過軟件操控硬件,把這個用在上面。如果用通俗的方式來講,怎么能讓讀者更具象地感受到這件事?

陳佳玉:強(qiáng)化學(xué)習(xí)要學(xué)到的是一個策略,具體來講就是一個神經(jīng)網(wǎng)絡(luò)。這個神經(jīng)網(wǎng)絡(luò)的輸入是當(dāng)前的觀測,輸出是控制量。在核聚變裝置里,輸入是等離子體的速度、角度、壓強(qiáng)等,輸出是怎么用那些中子束去控制等離子體。如果放到人形機(jī)器人上面,仍然是一個神經(jīng)網(wǎng)絡(luò),輸入可能是機(jī)器人看到的東西和接受的指令,輸出是機(jī)器人的關(guān)節(jié)角度。

也就是說,強(qiáng)化學(xué)習(xí)學(xué)的就是一個神經(jīng)網(wǎng)絡(luò),但這個神經(jīng)網(wǎng)絡(luò)根據(jù)應(yīng)用場景,可以改變它的輸入和輸出。

Jane它其實(shí)是一個元技術(shù)。核聚變是一個具體范疇的東西,但不管什么領(lǐng)域,都可能涉及到?jīng)Q策。

陳佳玉:對,強(qiáng)化學(xué)習(xí)的應(yīng)用場景就是持續(xù)決策和控制。

Jane具體到場景的話,自動駕駛你早期研究過,還有機(jī)器人。這兩類系統(tǒng)在決策和控制方面,有哪些共性的難題,又有哪些不一樣的地方?

陳佳玉:共性難題是它們都是一個 Sensory-Motor System。都有傳感器去獲取觀測——比如汽車有視覺攝像頭、RGB-D 攝像頭,有的還有激光雷達(dá)去感知周圍的公路、草叢、行人;輸出可能就是當(dāng)前的速度和轉(zhuǎn)向。機(jī)器人本質(zhì)上也是這樣,只不過需要控制的維度更多——不是簡單控制速度和轉(zhuǎn)向,而是要控制每一個關(guān)節(jié)。

區(qū)別在于,我認(rèn)為可以把自動駕駛當(dāng)成是機(jī)器人問題中的一個子集。城市場景下的自動駕駛是一個結(jié)構(gòu)化或半結(jié)構(gòu)化場景中的問題——馬路的形狀是可以事先獲取的,交通規(guī)則是固定的,車道線也是固定的。但機(jī)器人的范圍很廣,比如家居場景的機(jī)器人要處理的是非結(jié)構(gòu)化的環(huán)境——每個人家都不一樣,沒有統(tǒng)一化的規(guī)則。所以我更傾向于把自動駕駛看作是機(jī)器人問題中的一個子問題,相對于通用機(jī)器人來講,是一個稍微簡單一些的問題。

Jane確實(shí),從機(jī)器人場景適應(yīng)的復(fù)雜性上來說,確實(shí)要比自動駕駛完全不是一個量級。

陳佳玉:對,因?yàn)闄C(jī)器人范圍很廣。工廠里有機(jī)械臂,深海探測有深海探測機(jī)器人,靶向用藥有納米機(jī)器人。機(jī)器人范疇很廣,自動駕駛可能就是機(jī)器人中的一個問題,它們并不是并列關(guān)系。

Jane現(xiàn)在你覺得在研究也好、產(chǎn)業(yè)也好,發(fā)展通用機(jī)器人的技術(shù)路徑上還有哪些非共識的地方?

陳佳玉:我認(rèn)為在發(fā)展通用機(jī)器人的路徑上,看似收斂,但方向?qū)Σ粚Υ蠹疫€不知道。

看似收斂是因?yàn)榇蠹液孟穸荚谟?VLA 在做。這可以理解,有兩個原因:第一,VLA 這個路徑本質(zhì)上是對大語言模型路徑的一個復(fù)制——用大數(shù)據(jù)、大算力、大模型得到一個通用的 Foundation Model。大家看到了大語言模型的成功,所以想走 VLA 這條路。第二,國外有一些領(lǐng)先的公司,比如 Physical Intelligence,確實(shí)做出了很好的 VLA 模型,導(dǎo)致特別是國內(nèi)公司基本上都在做 VLA,把精力放在采大量數(shù)據(jù)、堆算力、訓(xùn) VLA 模型、做 demo。

但實(shí)際上,正確的路是什么,大家現(xiàn)在還不知道。因?yàn)楝F(xiàn)在 VLA 還走不出 demo——任何一個公司發(fā)布了一個 VLA 之后,如果讓大家隨便去試,很容易發(fā)現(xiàn)它泛化性的問題。

VLA 成立的假設(shè)是你有無限多的數(shù)據(jù),就能學(xué)到一個像大語言模型那樣無所不能的東西。但這不太成立,因?yàn)榇笳Z言模型之所以成功,是因?yàn)樗幚淼恼Z言是單一模態(tài)。而 VLA 是一個多模態(tài)的問題,所需的數(shù)據(jù)要遠(yuǎn)遠(yuǎn)高于大語言模型,但我們擁有的視覺、觸覺數(shù)據(jù)以及包含 action 的數(shù)據(jù)非常少,采集成本非常高。也就是說,VLA 相比大語言模型需要更多的數(shù)據(jù),但采集成本更高。所以這個模式聽起來不太 work——你照搬了大語言模型的路,但照搬得不太對。

那如果不走這條路,我們怎么走向通用智能體?就像我剛才講的,它是一個非常復(fù)合的技術(shù),大家對這方面的技術(shù)路線還沒有形成共識。從我自己來講,我認(rèn)為要真走到那一步,就得真的去做類人智能的研究——持續(xù)性的強(qiáng)化學(xué)習(xí)以及很好地融合先驗(yàn)知識的強(qiáng)化學(xué)習(xí)過程,是很必要的。


第二部分:職業(yè)選擇與產(chǎn)學(xué)研合作

Aaron陳老師,我們現(xiàn)在聊一下職業(yè)選擇上的變化吧。你在港大之外,其實(shí)也加入了原力無限。我們比較好奇的是,從助理教授到正教授基本上已經(jīng)是大多數(shù)人覺得非常好的路徑了,特別是在港大這個平臺上。您為什么沒有走一條完全純學(xué)術(shù)的道路,而是選擇加入一家創(chuàng)業(yè)公司呢?

陳佳玉:因?yàn)槲覀円龅臇|西——通用的具身智能,實(shí)際上是一個需要很多很多資源的事情。比如你需要大量的研發(fā)資金來購買機(jī)器人和招學(xué)生,同時也需要很多算力來訓(xùn)那些基礎(chǔ)模型。最重要的是你得有做實(shí)驗(yàn)的場地。但作為一個 Junior Faculty 來講,在經(jīng)費(fèi)、算力和場地上都是非常窘迫的狀態(tài)。這是一個共有的問題,特別是場地問題——在港大,我們沒有實(shí)驗(yàn)的 space,基本上做不了任何真機(jī)的 Robot 實(shí)驗(yàn),這是一個現(xiàn)實(shí)的困境。

其實(shí)在接觸到原力無限之前,我就已經(jīng)給香港政府寫了一個 proposal 要做通用型家務(wù)機(jī)器人,但心里也有 concern,就是經(jīng)費(fèi)、算力和場地的問題。和原力無限合作的話,他們可以提供算力、場地以及研究經(jīng)費(fèi)。相當(dāng)于雙方在資源稟賦與研究能力上形成了互補(bǔ),這使很多原本難以推進(jìn)的真機(jī)研究得以加速展開。我覺得更像是一種產(chǎn)學(xué)研結(jié)合,不是說對港大這個平臺不滿意,而是我們確實(shí)需要更多資源來推進(jìn)我們想做的研究。

Aaron明白。這種算力和資源的稀缺,應(yīng)該是現(xiàn)在學(xué)術(shù)界一個非常普遍的狀況。不管是大語言模型的研發(fā)還是具身智能的研發(fā),其實(shí)是由產(chǎn)業(yè)界來主導(dǎo)的,因?yàn)樗麄兗扔兴懔σ灿绣X也有人。學(xué)術(shù)界可能反而稍微滯后了一些,所以就會采用這種產(chǎn)學(xué)合作的模式。

陳佳玉:對,是這樣。

陳佳玉:我覺得在于雙方合作中互相表現(xiàn)出的誠意。我認(rèn)為最重要的一點(diǎn)是愿景一致——我在接觸他們之前就寫了做家務(wù)機(jī)器人、通用機(jī)器人的 proposal,而他們想做的正好是具身大腦,以及商業(yè)、制造、文旅、家庭等多場景落地,這與我長期關(guān)注的通用機(jī)器人和家務(wù)場景研究方向能夠形成很好銜接。第二是他們的商業(yè)化做得很好,有充足的資金來支持研究,能給我們實(shí)驗(yàn)室提供比較穩(wěn)定的支持。第三是大家互相表現(xiàn)出誠意——公司給了我很大的信任,讓我去主導(dǎo)一個聯(lián)合實(shí)驗(yàn)室,投入了很多資源,讓我去探索我想探索的方向。愿景一致,又給了很多的支持和信任,Why not?

Aaron我比較好奇,從PhD階段在導(dǎo)師實(shí)驗(yàn)室里,到博后階段,到現(xiàn)在作為獨(dú)立faculty建立自己的實(shí)驗(yàn)室并主動選擇和產(chǎn)業(yè)界合作,這里面最大的變化是什么?

陳佳玉:做 PhD 期間主要就是埋頭研究,鍛煉獨(dú)立研究的能力,這是最大的 focus。到博后階段,就多了一些寫 proposal 和指導(dǎo)學(xué)生的經(jīng)歷,在為做 faculty 做準(zhǔn)備。到真正開始做獨(dú)立 faculty,我發(fā)現(xiàn)最重要的是能夠有自己的研究哲學(xué)——清楚自己可能很長的一段研究生涯要解決一個什么大問題。然后圍繞這些大問題去搭建自己的團(tuán)隊:最根本的是拿到足夠的研究經(jīng)費(fèi),基于經(jīng)費(fèi)去布置實(shí)驗(yàn)室的硬件,招相關(guān)方向的人。簡單來講就是拿錢,還有構(gòu)建自己的實(shí)驗(yàn)室,和做 PhD 以及做 PostDoc 還是蠻不一樣的。

Aaron也提過有自己的研究哲學(xué),跟原力無限之間有非常匹配的mission。能展開講一下嗎?包括你提到要做家務(wù)場景機(jī)器人,這是你們未來發(fā)展的方向?

陳佳玉:對的。最大的 match 是,我們都希望去解決通用機(jī)器人的核心問題。對公司而言,是圍繞具身大腦做多場景落地;對我個人而言,家庭/家務(wù)場景是其中一個最具挑戰(zhàn)也最有長期價值的方向。技術(shù)路線上,他們給了我比較大的信任,支持我做我本來就想做的技術(shù)路線。具體來說就是研究基于 VLA 的一個持續(xù)學(xué)習(xí)過程,以及融合世界模型、VLA 和一些多模態(tài)知識庫的類人智能。這是在探索一個和當(dāng)前大家做的都不太一樣的、但更接近類人智能的方向。我們想做的東西一致,研究方向上他們也給了很大的支持和信任。

Aaron那陳老師,在你眼里,目前具身智能領(lǐng)域最被高估的一類問題是什么?哪些問題可能被誤以為是核心問題,但實(shí)際上對行業(yè)本質(zhì)發(fā)展的貢獻(xiàn)是有限的?

陳佳玉:我認(rèn)為現(xiàn)在大家對具身智能最高估的一點(diǎn),就是把Scaling Law從大語言模型搬到 VLA 上。因?yàn)?Scaling Law 在大語言模型上得到了驗(yàn)證——更多的數(shù)據(jù)、更大的模型、更多的 test-time computation,效果就更好。現(xiàn)在大家想把那一套搬到 VLA 里,覺得采更多數(shù)據(jù)效果就會更好。

但我認(rèn)為這個東西非常貴——采數(shù)據(jù)貴,算力也貴,關(guān)鍵是它還沒那么 promising。你看現(xiàn)在 GPT-4o 和 GPT-5 的研發(fā)周期非常長,但效果不明顯。這說明即使在大語言模型這種有海量數(shù)據(jù)、單一模態(tài)的建模問題上,Scaling 都不會是最終解決方案。應(yīng)用到 VLA 上大概率也不是,因?yàn)?VLA 是非常多模態(tài)的、數(shù)據(jù)非常稀少的、采集成本非常高的。

我認(rèn)為大家應(yīng)該想一想——人工智能怎么在數(shù)據(jù)有限的情況下進(jìn)行學(xué)習(xí)?這才是一個性價比更高的方向?,F(xiàn)在大家都做 Data-Driven Research,一個方向是拼命搞更多的數(shù)據(jù),但大家普遍比較忽視的是怎么在數(shù)據(jù)有限的情況下更高效地學(xué)習(xí),也就是在學(xué)習(xí)機(jī)制上的研究。我認(rèn)為這是一個 misleading 的點(diǎn)。

陳佳玉:而且具身智能和大語言模型不一樣的另一個點(diǎn)是——大語言模型即便犯再離譜的錯誤,它也只是生成文本,用不用還是由人來決定。而具身智能如果在部署過程中出現(xiàn)大的錯誤,比如在工廠里或家里,實(shí)際上是很危險的。也就是說,它必須有可保證的泛化性、魯棒性和安全性。但目前這條路線要 copy 大語言模型,是沒辦法給出這種保證的。

Aaron明白。那你覺得長期被低估的硬核問題又是哪些?

陳佳玉:我認(rèn)為被低估的問題是——做更類人的智能。大家要去想人是怎么學(xué)習(xí)的,然后把它搬到機(jī)器上。這是一個非常被低估的方向,也是一個特有意思的方向。你去觀察那些嬰兒,他們接觸到很少很少的數(shù)據(jù)就能表現(xiàn)得非常 robust 和 general。人類比機(jī)器好的點(diǎn)就是——它的 robustness 和 generalization 都非常好,而且只依賴非常少的數(shù)據(jù)。

所以我認(rèn)為一個真正投入不足的點(diǎn),就是怎么更類人地去學(xué)習(xí)。大家現(xiàn)在也在做類人——做人形機(jī)器人,但做的內(nèi)容是像人的形態(tài)一樣。大家沒有去考慮類人的學(xué)習(xí)機(jī)制。這是一個被低估的方向。類人不能只是形態(tài)上的類人,我們必須要有學(xué)習(xí)機(jī)制上的類人。

Aaron你怎么理解現(xiàn)在具身智能的發(fā)展階段?如果用GPT來類比,現(xiàn)在算是GPT-3GPT-4還是能到GPT-5這個階段了?

陳佳玉:我覺得還遠(yuǎn)遠(yuǎn)沒到 ChatGPT 那個程度,我覺得大概是 GPT-1、GPT-2 差不多。因?yàn)?ChatGPT 剛出來的時候就已經(jīng)比較 capable 了,我當(dāng)時還試了一下,讓它證明數(shù)學(xué)分析里的一些定理,它出來之后一度引起 OpenAI 服務(wù)器宕機(jī)——說明它是真的有用了,而且能經(jīng)得住大家的測試。但現(xiàn)在的具身智能都走不出 demo,甚至 demo 都是精心剪輯才能做出來,更不要說能經(jīng)得住大家的測試了。

Aaron那你覺得具身智能的ChatGPT時刻還有多久?

陳佳玉:我不知道,但我之前看了楊立昆的一個 talk,他的愿景就是更類人,和我很一致。他給主持人的答復(fù)是五到二十年。我認(rèn)為要想真正做出可以用的具身智能,在算法方面還需要另一層突破——得更類人,達(dá)到像人那樣的數(shù)據(jù)效率、泛化性和魯棒性。這需要算法上的突破,我不知道需要多少年,但楊立昆說是五到二十年,所以 let's see。

Aaron你剛也提到很多機(jī)器人走不出demo場景。很多機(jī)器人在視頻里可能看起來非??苹?,疊衣服或者跳舞,但真正在一個陌生場景里就基本不太能function了。你怎么理解這種巨大的落差?到底是算法的問題,還是工程的問題?

陳佳玉:是算法上的問題。當(dāng)前算法依賴大量的數(shù)據(jù),但跨場景的數(shù)據(jù)需求是指數(shù)級增長的。當(dāng)前算法最大的弊病就是得有非常海量的數(shù)據(jù)才會有泛化性,數(shù)據(jù)不足就自然不會有泛化性。所以肯定是算法上的問題。

Aaron你想做的是家庭場景機(jī)器人,為什么選擇這個方向?你覺得現(xiàn)在很多機(jī)器人場景中,什么場景在短期內(nèi)比較promising?

陳佳玉:其實(shí)分三類場景——工業(yè)、商業(yè)和家庭。短期內(nèi)我認(rèn)為最好做的是商業(yè)場景。我們分析一下:工業(yè)場景要引入機(jī)器人,得有非常高的效率,有一個效率門檻;家庭場景有一個 safety 的問題——機(jī)器人不能出問題,撞壞家具是小事,撞壞人就是大事了。商業(yè)場景反而是對效率要求不高、對安全性要求也不高的,所以實(shí)際上最有可能率先落地。

從公司實(shí)踐來看,原力無限已經(jīng)在商業(yè)、制造、文旅等場景形成多類機(jī)器人產(chǎn)品和解決方案落地,短期更容易跑通的是結(jié)構(gòu)更清晰、容錯更高的商業(yè)化場景。

但我們之所以做家庭場景,是從長期來看。我們在選場景的時候得想,最希望機(jī)器人部署在哪?如果讓機(jī)器人部署在流水線上或工廠里替代藍(lán)領(lǐng)工作,實(shí)際上是一件非常殘酷的事情。我們更希望機(jī)器人出現(xiàn)在危險的場景下,或者出現(xiàn)在家庭場景下——假如人們都不需要做家務(wù)了,那就是一個非常大的 relief。做家庭機(jī)器人是從我們自身的愿景出發(fā),并不是單純認(rèn)為它短期內(nèi)好落地。

Aaron所以工業(yè)場景在你的理解中,是處于商業(yè)場景和家庭場景中間?最難的是家庭場景,因?yàn)榘踩宰罡撸?/strong>

陳佳玉:也不能這么說。工業(yè)場景對效率要求比較高,這是它的難點(diǎn);家庭場景對安全性要求比較高,這是另一個難點(diǎn)。但它們怎么比,不好比。


第三部分:具身大腦、世界模型與產(chǎn)業(yè)格局

Aaron在你看來,機(jī)器人要真正變得足夠能干,或者跟人一樣能干,最重要需要的能力項(xiàng)是什么?是需要更好的感知、更強(qiáng)的世界理解,還是真正的決策能力?

陳佳玉:我覺得它得更好地理解這個世界,理解這個世界的一些基礎(chǔ)因果?,F(xiàn)在的學(xué)習(xí)方法更像是——你給它一個視頻,你拿著杯子,突然撒手,杯子掉了。它很容易就學(xué)習(xí)到:你拿一個杯子,如果撒手就會掉。但如果它學(xué)到因果,它就會明白這個杯子掉是因?yàn)橛兄亓?,如果沒有一個向上的力,它就會掉。如果它學(xué)到因果,就可以很好地泛化——你把杯子換成一個壺,它也明白如果撒手也會掉。

也就是說,機(jī)器人如果真的理解了這個世界,就往類人方向進(jìn)了一大步?;谶@個理解,再連接它的小腦部分——更敏捷、更精確的控制,這個實(shí)際上是相對好做的。我認(rèn)為比較難做的是大腦這部分,就是真的有那種類人的、對世界的理解。

Aaron具有這種世界理解能力的世界模型,大概發(fā)展到什么階段了?

陳佳玉:世界模型比較特殊,它和 VLA 不一樣——世界模型的技術(shù)路線還沒有收斂。

比較有代表性的一派是**楊立昆(Yann LeCun)**之前在 Meta 做的JEPA(Joint Embedding Predictive Architecture),他認(rèn)為訓(xùn)練過程中不能有生成的部分——學(xué)術(shù)上講就是只能用 encoder,不能用 decoder。由于不能用 decoder,它就不能是一個監(jiān)督學(xué)習(xí),而是一個自監(jiān)督學(xué)習(xí)。這是一派。

另一派像李飛飛做視覺這一派,或者 OpenAI 做的Sora那種視頻生成模型,他們是用海量的視頻數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)來訓(xùn)世界模型。

兩派各自有自己的成果,但只能說技術(shù)路線還沒有收斂。而且比較成功的世界模型 demo,基本上就是用世界模型去生成視頻,或者用世界模型生成一個模擬器。它的邏輯和大語言模型沒有什么區(qū)別——給它輸入、給它輸出,做監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)本質(zhì)上就是一個 regression 問題,那它仍然會和大語言模型面臨一樣的問題:對數(shù)據(jù)依賴很強(qiáng),方法沒有保證。

我認(rèn)為現(xiàn)在世界模型還得再問深一點(diǎn)——有沒有一種學(xué)習(xí)機(jī)制,讓世界模型真的明白這個世界的一些物理定律或者因果?大家對這方面的研究還不深,我認(rèn)為這也是技術(shù)目前還沒有收斂的原因。

Aaron所以世界模型現(xiàn)在也跟大語言模型一樣,還在大力出奇跡的階段,算法也沒有特別有效率的出現(xiàn)。

陳佳玉:對。我認(rèn)為具身智能的下一步,絕對需要不同于 VLA 或世界模型的技術(shù)出現(xiàn)。而且研究重點(diǎn)應(yīng)該在大腦這一塊。

Aaron說回到?jīng)Q策上面,現(xiàn)在很多多模態(tài)大模型已經(jīng)能看懂很多東西了,但你覺得"看懂""會決定"之間大概是什么樣的差距?

陳佳玉:看懂和會決定,實(shí)際上就差一個策略——你得依據(jù)你看懂的東西,得出當(dāng)前應(yīng)該執(zhí)行的一個動作。這個策略可以通過模仿學(xué)習(xí)去學(xué),也可以通過強(qiáng)化學(xué)習(xí)去學(xué)。問題在于:如果用模仿學(xué)習(xí),你就得提供專家示例,那就是一個數(shù)據(jù)驅(qū)動的方法,依賴很多數(shù)據(jù);如果用強(qiáng)化學(xué)習(xí),就還是我剛才說的問題——當(dāng)前的強(qiáng)化學(xué)習(xí)算法每學(xué)一個新任務(wù)都要從頭學(xué),不是一個持續(xù)學(xué)習(xí)的過程。它不能應(yīng)用以前學(xué)到的知識,什么都得從頭學(xué),導(dǎo)致采樣效率非常低。

所以從能讀懂這個世界到能做出好的決策之間,我們其實(shí)還需要一個好的持續(xù)強(qiáng)化學(xué)習(xí)的算法。

Jane現(xiàn)在機(jī)器學(xué)習(xí)的能力還是沒有辦法做到快速遷移、適應(yīng)不同環(huán)境,對吧?

陳佳玉:還不能。遷移就是泛化。泛化的話,大語言模型已經(jīng)做得很好了,因?yàn)樗鼣?shù)據(jù)量夠大,而且是單一模態(tài)的任務(wù)。但具身智能的泛化性還是很差,因?yàn)閳D片包含的信息比文字要多得多。這意味著你要實(shí)現(xiàn)很好的泛化性,就要提供比文本數(shù)據(jù)多得多的視頻數(shù)據(jù)。但視覺數(shù)據(jù)又恰恰比文本數(shù)據(jù)更難獲取。所以泛化很難,以現(xiàn)在的算法途徑來看,遷移或適應(yīng)也很難。

Jane好,前面世界模型跟VLA是密不可分的,而且我覺得這兩個在定義層面都是極其非共識的地方。你怎么理解所謂的世界模型?有人甚至覺得它就是一個理論名詞。以及它和VLA之間的關(guān)系到底是什么?

陳佳玉:VLA 是依據(jù)當(dāng)前觀測得到當(dāng)前的動作;世界模型是依據(jù)當(dāng)前的觀測和當(dāng)前的動作,得到下一個時刻狀態(tài)的預(yù)測。

我這么解釋吧:你觀察到面前有一個杯子,然后你把它舉起來——這是一個從觀測到動作的過程,可以用 VLA 來實(shí)現(xiàn)。然后你想知道,把杯子舉起來之后它會是什么狀態(tài)?得到這個預(yù)測是通過世界模型來實(shí)現(xiàn)的。

也就是說,它們是兩個函數(shù),功能不一樣。

Jane現(xiàn)在各家公司都在做這塊,但背后各自的算法技術(shù)其實(shí)完全不一樣吧?

陳佳玉:我認(rèn)為恰恰相反。大家的算法其實(shí)是很相似的,不一樣的是數(shù)據(jù)和工程上的一些 tricks,但算法上相似度極高。

Jane你之前提到你們做的類人智能研究,它是哪個part的事情?

陳佳玉:實(shí)際上就是怎么去訓(xùn) VLA。大家現(xiàn)在訓(xùn) VLA 就是給它輸入數(shù)據(jù)、輸出數(shù)據(jù),做一個擬合——得到大量數(shù)據(jù),像訓(xùn)練大語言模型一樣訓(xùn)練一個 VLA。我們不一樣的點(diǎn)是,我們想用一種持續(xù)學(xué)習(xí)的機(jī)制來訓(xùn) VLA。他們用監(jiān)督學(xué)習(xí)方法來訓(xùn),我們想用持續(xù)學(xué)習(xí)方法來訓(xùn),這是區(qū)別點(diǎn)。

我們做的另一個不同點(diǎn)是,怎么去用世界模型。我們是把世界模型作為機(jī)器人知識庫的一部分,來輔助 VLA 的訓(xùn)練。

總結(jié)一下:第一,我們 VLA 的訓(xùn)練方式不一樣——大家普遍用監(jiān)督學(xué)習(xí),我們在探索一種持續(xù)學(xué)習(xí)的方式。第二,怎么用世界模型來訓(xùn) VLA,我們和大家做的也不太一樣?,F(xiàn)在大家用世界模型訓(xùn) VLA 基本上兩個路徑:一個是用世界模型去生成數(shù)據(jù),然后用生成數(shù)據(jù)去訓(xùn) VLA;另一個是把世界模型當(dāng)做一個模擬器,在模擬器里訓(xùn) VLA。我們則是要建立一個知識庫,知識庫里包含實(shí)體之間的聯(lián)系以及層次抽象,我們把世界模型作為層次抽象的一部分,用來訓(xùn) VLA。

Jane你自己的研究方向堅定會認(rèn)為這條路是有效的?

陳佳玉:對,因?yàn)楦惾恕N覀內(nèi)瞬痪褪且粋€持續(xù)學(xué)習(xí)的過程嘛——你今天學(xué)數(shù)學(xué)物理,明天學(xué) Robotics,學(xué) Robotics 的時候就是在應(yīng)用你學(xué)的數(shù)學(xué)和物理。人就是一個持續(xù)學(xué)習(xí)的過程,那你想做出一個類人的機(jī)器人來,為什么不用一個持續(xù)學(xué)習(xí)的過程呢?

Jane你們已經(jīng)在這條路上看到一些泛化能力的變化了嗎?

陳佳玉:對,我們在同時進(jìn)行好幾項(xiàng)關(guān)于持續(xù)學(xué)習(xí)的研究,后面會陸陸續(xù)續(xù)出來。因?yàn)槲覀冞@個合作其實(shí)也剛剛開始。

Jane還有一個數(shù)據(jù)的問題。大家堅持不同的數(shù)據(jù)路線,可能導(dǎo)致規(guī)?;怀闪⒌狞c(diǎn)是什么?每條路線的問題是什么?你們的選擇又是什么?

陳佳玉:數(shù)據(jù)方面,大家現(xiàn)在確實(shí)存在分歧。

Physical Intelligence為代表的一派認(rèn)為真實(shí)數(shù)據(jù)為王——必須給模型足夠多的真實(shí)數(shù)據(jù),才可能訓(xùn)出來比較好的 VLA。

英偉達(dá)為代表的一派認(rèn)為仿真數(shù)據(jù)為王——因?yàn)椴杉鎸?shí)數(shù)據(jù)成本太高,得依賴高度可信的仿真來并行化、低成本地產(chǎn)生大量數(shù)據(jù)。

還有一類,像李飛飛為代表的,認(rèn)為數(shù)據(jù)應(yīng)該是世界模型生成的——生成的環(huán)境更可控,給一個 text prompt 就能立刻生成一個環(huán)境,然后在里面生成數(shù)據(jù)。

大家這方面還沒有形成共識。目前來看最有效的是用真實(shí)數(shù)據(jù),以及真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)聯(lián)合訓(xùn)練。

我們目前不太做 data-centric research,我們會觀察哪種數(shù)據(jù)的成功率更好,follow 他們的研究用一樣的數(shù)據(jù)。因?yàn)槲覀兊难芯恐攸c(diǎn)不在于用什么數(shù)據(jù),而是采用什么樣的學(xué)習(xí)機(jī)制,可以更有效地應(yīng)用這些數(shù)據(jù)。

Jane關(guān)于真實(shí)數(shù)據(jù),之前有人提出一個質(zhì)疑——如果真實(shí)數(shù)據(jù)是真機(jī)采集的,一旦機(jī)器迭代,那些數(shù)據(jù)可能就完全沒用了,數(shù)據(jù)規(guī)模化非常難實(shí)現(xiàn)。

陳佳玉:對,所以你在采數(shù)據(jù)的時候,數(shù)據(jù)的形式要比較 general 一些,不能和采集設(shè)備綁得太死。比如你的輸入是圖片,輸出是歸一化之后的關(guān)節(jié)位置,這種通用格式的數(shù)據(jù)是可以遷移、甚至遷移到不同本體上的。

但我認(rèn)為大家還得想清楚一個問題:能不能在采數(shù)據(jù)之前,對需要采集的數(shù)據(jù)量進(jìn)行一個估算?如果估算出來采多少數(shù)據(jù)都不會達(dá)到最終目的,那你還要不要采這個數(shù)據(jù)?這是一個 question mark。

Jane而且不同機(jī)型的數(shù)據(jù)采集出來,也不是行業(yè)可以共用的,因?yàn)楝F(xiàn)在機(jī)型差別太大——身高大小、有沒有臂、輪子還是腳。

陳佳玉:對,你可以做一些 retargeting——比如兩個人形機(jī)器人大小不一樣,但參數(shù)你都有,比如臂長、身高,你可以用 retargeting 把小機(jī)器人的數(shù)據(jù) retarget 到大機(jī)器人身上,這是可以做到的。但如果跨得再厲害一些,比如人形機(jī)器人和機(jī)器狗之間,就不太好共用了。不過如果是同一類型的機(jī)器人只是大小不一樣,是可以做到一定程度的共用的。

Jane目前你們最缺的是哪種類型的數(shù)據(jù)?

陳佳玉:最缺的是那些真的需要人去采集、不能通過仿真來生成的數(shù)據(jù)。比如疊衣服、系鞋帶、擰螺絲這種——必須得用人來采,很難通過仿真或者生成的方式獲得。

Jane我突然意識到,遙操作作為一個商業(yè)模式產(chǎn)品,在這個時候其實(shí)非常成立。

陳佳玉:對,因?yàn)榫褪菫榱瞬蓴?shù)據(jù)。邏輯是這樣的:大語言模型驗(yàn)證了 Scaling Law 成立——從模型到 Scaling,從 Scaling 到數(shù)據(jù),從數(shù)據(jù)再到遙操作,它這個需求鏈條就是這樣的。

Jane然后原力無限"一腦多身多場景",為什么選擇這個范式?

陳佳玉:因?yàn)橐鐾ㄓ脵C(jī)器人,最難的部分就是做大腦——對世界的理解。如果你想做的是一個大腦,你就沒有必要限制它的應(yīng)用場景。只不過在具體的商業(yè)計劃中會一個一個場景地攻克——比如先做家居場景,再做商業(yè)場景,再做工業(yè)場景。但如果大腦做得很成熟了,就沒有必要限制應(yīng)用場景,它的應(yīng)用范圍會是非常廣的。這也是原力無限當(dāng)前‘聚焦具身大腦、賦能多形態(tài)本體、驅(qū)動場景規(guī)?;暮诵倪壿嫛?/p>

Jane現(xiàn)在大家錨定某個場景的核心原因,是因?yàn)榇_實(shí)大腦也只能用在那個場景中。

陳佳玉:是的。你做出來的模型只能用于一個場景,但你用來訓(xùn)那個模型的方法是可以跨場景應(yīng)用的。另外,如果你針對每一個場景都訓(xùn)練了模型,把它們分別部署到所屬的場景,它們就會日夜產(chǎn)生數(shù)據(jù),你就擁有了大量跨場景的數(shù)據(jù)。那你能不能運(yùn)用這些跨場景的數(shù)據(jù)去得到一個跨場景的模型呢?這是第二階段的問題了。

Jane現(xiàn)在大家都還在第一階段。

陳佳玉:對,先做出單場景好用的模型,部署下去產(chǎn)生數(shù)據(jù),然后再把一個多場景的模型做出來。這是第一階段和第二階段的關(guān)系。

Jane這個底層變化會不會有一個類似Transformer級別的技術(shù)架構(gòu),能突然讓這件事變成一個可以統(tǒng)一的事情?

陳佳玉:架構(gòu)和學(xué)習(xí)方法還是兩種東西。架構(gòu)的話,就是你用 Diffusion 還是 Transformer,這是架構(gòu)選擇上的問題。我倒覺得這個不是那么本質(zhì)。本質(zhì)的還是說,你怎么去學(xué)——你是用監(jiān)督學(xué)習(xí)、還是強(qiáng)化學(xué)習(xí)、還是一種持續(xù)性的學(xué)習(xí)?我認(rèn)為學(xué)習(xí)機(jī)制是一個比架構(gòu)更本質(zhì)的問題。

Jane那你覺得整個產(chǎn)業(yè)格局大概會走向什么樣的形態(tài)?

陳佳玉:我覺得最終可能會走向大公司做大腦,小公司做場景化的小腦。為什么?因?yàn)樽龃竽X需要大量的算力和數(shù)據(jù)投入,這不是小公司能承受的。小公司做什么呢?針對具體場景去落地——做場景化的小腦,用大公司的基礎(chǔ)大腦去適配特定場景。有點(diǎn)類似大語言模型的格局:OpenAI 做基礎(chǔ)模型,然后大量的應(yīng)用公司在上面做各種應(yīng)用。

Jane所以你覺得具身智能最終也會形成這種分層的格局?

陳佳玉:我覺得是有可能的。但也有可能不一樣——因?yàn)榫呱碇悄苌婕暗接布幌翊笳Z言模型純粹是軟件。硬件上的差異化可能導(dǎo)致小公司也有機(jī)會,因?yàn)槟阍谔囟ǖ挠布倔w上積累了足夠多的數(shù)據(jù)和經(jīng)驗(yàn),這本身就是壁壘。

Jane好。然后聊一下海外,你了解到的海外一些做具身智能的同行,他們現(xiàn)在在做什么?

陳佳玉:海外比較有意思的公司,除了 Physical Intelligence 之外,還有一些比較小但很有追求的公司。比如有一些公司是從前 OpenAI 的人出來創(chuàng)立的,他們的追求不是做一個產(chǎn)品,而是追求算法上的突破——希望做出真正的類人智能。這種公司在海外還是有一些的。

Jane比如?

陳佳玉:比如SSI(Safe Superintelligence Inc.),雖然他們主要是做大語言模型方向,但他們的追求就是純粹做算法突破。在具身智能領(lǐng)域也有一些類似的公司,雖然規(guī)模不大,但追求的是真正的算法創(chuàng)新而不是快速商業(yè)化。

Jane你怎么看中美在具身智能方面的差異?

陳佳玉:中美差異還是比較明顯的。美國的優(yōu)勢在于算力和學(xué)術(shù)驅(qū)動——他們有最強(qiáng)的算力資源,也有最好的高校和研究機(jī)構(gòu)在推動基礎(chǔ)研究。中國的優(yōu)勢在于本體和數(shù)據(jù)成本——中國有非常好的機(jī)器人本體制造能力,比如宇樹科技在本體上做得非常好,硬件成本也比較低。另外,中國的數(shù)據(jù)采集成本也比較低,因?yàn)槿肆Τ杀鞠鄬^低。

所以如果你要做大腦這種需要大算力的研究,美國可能更有優(yōu)勢。但如果你要做硬件或者做場景化落地,中國的供應(yīng)鏈和成本優(yōu)勢是很明顯的。

Jane波士頓動力現(xiàn)在的定位你怎么看?

陳佳玉:波士頓動力是一家非常有特點(diǎn)的公司。它的控制做得非常好,但在 AI 這一塊,至少從公開信息來看,還沒有特別多的成果。它更像是一家以機(jī)械控制見長的公司,而不是以 AI 見長的公司。

Jane我們來聊一下人形機(jī)器人。你覺得人形是通用機(jī)器人的最佳載體嗎?

陳佳玉:人形這個事情有兩面。一面是它確實(shí)有一些獨(dú)特的優(yōu)勢——人類的生活環(huán)境都是為人體設(shè)計的,門的高度、椅子的高度、樓梯的尺寸,所以一個人形的機(jī)器人可以更自然地適應(yīng)人類的生活環(huán)境。這是一個很好的愿景。

但另一面是,現(xiàn)在的人形機(jī)器人和人的差距實(shí)在太大了。你看那些人形機(jī)器人,它的靈巧手跟人的差距非常大,它的運(yùn)動能力跟人的差距也很大。所以通用本體是一個好愿景,但現(xiàn)在和人差太遠(yuǎn)。

我的看法是,你不一定非要用人形——取決于你的場景。如果你在家庭場景里,人形可能確實(shí)有優(yōu)勢。但如果在工廠里,一個機(jī)械臂可能比人形機(jī)器人效率高得多。所以本體的選擇應(yīng)該是跟場景匹配的,而不是一刀切地認(rèn)為人形就是最好的。

Jane你之前有提到一個觀點(diǎn)——大家不應(yīng)該只在形態(tài)上追求類人,學(xué)習(xí)機(jī)制上的類人可能更重要。

陳佳玉:對,這是我一直強(qiáng)調(diào)的。你的外表像人不代表你的智能像人。真正要像人的地方,是你的學(xué)習(xí)過程——能持續(xù)學(xué)習(xí)、能遷移、能從很少的數(shù)據(jù)中學(xué)到東西。這才是類人智能的核心。形態(tài)上的類人當(dāng)然有它的價值,但如果你的學(xué)習(xí)機(jī)制不類人,那你就只是一個外觀像人的傳統(tǒng)機(jī)器人。

Aaron最后一個比較大的問題——你覺得未來人和機(jī)器人的關(guān)系會走向什么樣的狀態(tài)?

陳佳玉:我覺得未來機(jī)器人會更可見地融入我們的日常生活。現(xiàn)在你在日常生活中很少能看到機(jī)器人——除了掃地機(jī)器人。但未來可能你去商場、去酒店、去停車場,都會看到各種各樣的機(jī)器人在工作。再遠(yuǎn)一點(diǎn)的話,家庭里可能也會有機(jī)器人。

我不覺得機(jī)器人會取代人,更像是人和機(jī)器人的一種共生。機(jī)器人做那些人不愿意做的、危險的、重復(fù)性的工作,人做更有創(chuàng)造性的、需要情感和社交的工作。這是一個比較理想的狀態(tài)。

但這個過程是漸進(jìn)的。不會突然有一天你家里就出現(xiàn)一個人形機(jī)器人在做飯。它是一步一步來的——先是簡單場景,再到復(fù)雜場景,先是輔助角色,再到更獨(dú)立的角色。


收尾:給年輕人的建議

Jane最后我們來做一個收尾。如果現(xiàn)在有年輕人想進(jìn)入具身智能領(lǐng)域,不管是做學(xué)術(shù)研究還是做產(chǎn)業(yè),你會給什么樣的建議?

陳佳玉:首先我覺得要聚焦真問題。不要跟風(fēng)做別人做的東西,要去想什么是這個領(lǐng)域真正的瓶頸,然后聚焦在那個瓶頸上。比如現(xiàn)在大家都在做 VLA,你再去跟著做 VLA 可能已經(jīng)晚了,但如果你能看到 VLA 之后的問題——比如怎么做持續(xù)學(xué)習(xí)、怎么做更好的泛化——這才是有價值的方向。

第二是要大膽探索。這個領(lǐng)域還非常早期,很多方向都還沒有被充分探索。不要被現(xiàn)有的框架限制住,要敢于去試不同的東西。

Jane那你覺得具體哪些細(xì)分方向比較值得年輕研究者去投入?

陳佳玉:我推薦三個方向。第一個是Manipulation——靈巧操作,就是怎么讓機(jī)器人的手像人一樣靈活。這是一個非常難但也非常重要的問題,現(xiàn)在做得好的人還不多。

第二個是多模態(tài)大模型——怎么把視覺、語言、觸覺等多種信息融合在一起,讓機(jī)器人有更全面的感知和理解。

第三個是我一直在說的——Robo Brain,就是機(jī)器人的大腦。怎么做出一個真正理解世界的、能持續(xù)學(xué)習(xí)的大腦。這個方向可能需要更長的時間才能看到成果,但它的價值也是最大的。

Aaron非常感謝陳老師今天的分享,信息量非常大。

陳佳玉:謝謝,很開心。

Jane謝謝陳老師!

加入ZF討論群,請先添加小助手微信

我們相信認(rèn)知能夠跨越階層,

致力于為年輕人提供高質(zhì)量的科技和財經(jīng)內(nèi)容。

稿件經(jīng)采用可獲邀進(jìn)入Z Finance內(nèi)部社群,優(yōu)秀者將成為簽約作者,00后更有機(jī)會成為Z Finance的早期共創(chuàng)成員。

我們正在招募新一期的實(shí)習(xí)生

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
錢再多有什么用!丁克了大半輩子的馬蘭,終究是為自己的荒唐買單

錢再多有什么用!丁克了大半輩子的馬蘭,終究是為自己的荒唐買單

一盅情懷
2026-04-29 16:29:59
巴黎5-4拜仁:這場進(jìn)球大戰(zhàn)暴露了英超什么秘密?

巴黎5-4拜仁:這場進(jìn)球大戰(zhàn)暴露了英超什么秘密?

競技風(fēng)云錄
2026-04-29 20:34:22
去銀行注銷銀行卡,柜員問銷卡還是銷戶?一字之差后果完全不一樣

去銀行注銷銀行卡,柜員問銷卡還是銷戶?一字之差后果完全不一樣

復(fù)轉(zhuǎn)這些年
2026-04-16 12:15:01
開拓者1比4出局楊瀚森尚未出汗,最快下賽季重返CBA

開拓者1比4出局楊瀚森尚未出汗,最快下賽季重返CBA

姜大叔侃球
2026-04-29 12:46:01
Manus,徹底涼涼了

Manus,徹底涼涼了

技術(shù)領(lǐng)導(dǎo)力
2026-04-27 20:37:27
71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
中科大少年班監(jiān)控事件!同學(xué)爆出更多細(xì)節(jié),沒弒母已經(jīng)很不錯了!

中科大少年班監(jiān)控事件!同學(xué)爆出更多細(xì)節(jié),沒弒母已經(jīng)很不錯了!

知曉科普
2026-04-29 07:00:24
上海文旅局:29日起,上海居民可赴金門、馬祖旅游

上海文旅局:29日起,上海居民可赴金門、馬祖旅游

上觀新聞
2026-04-29 20:21:11
實(shí)錘!羽協(xié)主席張軍被查,10余人落馬

實(shí)錘!羽協(xié)主席張軍被查,10余人落馬

史海流年號
2026-04-29 17:54:38
醫(yī)生發(fā)現(xiàn):堅持走路鍛煉的老人,過不了半個月,會迎來4大改善

醫(yī)生發(fā)現(xiàn):堅持走路鍛煉的老人,過不了半個月,會迎來4大改善

蜉蝣說
2026-04-29 16:56:00
1981年,陳伯達(dá)被判刑18年,出獄后提出唯一要求,組織:盡管提

1981年,陳伯達(dá)被判刑18年,出獄后提出唯一要求,組織:盡管提

瑾瑜聊情感
2025-07-04 18:06:06
卡巴耶娃:普京的緋聞女友,傳聞為他生下二子,普京卻不承認(rèn)再婚

卡巴耶娃:普京的緋聞女友,傳聞為他生下二子,普京卻不承認(rèn)再婚

莫地方
2026-04-29 00:10:03
鄧華妻子向梁興初求助,梁興初瞪著副政委:敢動老紅軍,你掂量下

鄧華妻子向梁興初求助,梁興初瞪著副政委:敢動老紅軍,你掂量下

觀史搜尋著
2026-03-07 02:10:58
不訪華了?特朗普聯(lián)合27國對華施壓,話音剛落,秒被中方制裁打臉

不訪華了?特朗普聯(lián)合27國對華施壓,話音剛落,秒被中方制裁打臉

鐵錘簡科
2026-04-29 14:32:40
北京一姑娘,因“生菜吃成老樁”火了,網(wǎng)友:種一次吃三年,值啊

北京一姑娘,因“生菜吃成老樁”火了,網(wǎng)友:種一次吃三年,值啊

原廣工業(yè)
2026-04-29 19:59:41
又一國家將開戰(zhàn)?防長身亡、首都危在旦夕,真相遠(yuǎn)比想象更殘酷

又一國家將開戰(zhàn)?防長身亡、首都危在旦夕,真相遠(yuǎn)比想象更殘酷

阿晪美食
2026-04-29 19:02:29
官宣!英超賽程確定,曼城周末后少賽兩場,曼聯(lián)利物浦可能改期

官宣!英超賽程確定,曼城周末后少賽兩場,曼聯(lián)利物浦可能改期

嗨皮看球
2026-04-29 19:48:03
2026斯諾克世錦賽再起爭議!羅伯遜公開呼吁禁用奧沙利文專屬巧粉

2026斯諾克世錦賽再起爭議!羅伯遜公開呼吁禁用奧沙利文專屬巧粉

冷桂零落
2026-04-29 18:36:43
余承東在華為權(quán)力排名

余承東在華為權(quán)力排名

生活新鮮市
2026-04-27 18:30:53
十年前,易建聯(lián)花1000萬在洛杉磯買下豪宅,如今出售市值多少?

十年前,易建聯(lián)花1000萬在洛杉磯買下豪宅,如今出售市值多少?

小蘭聊歷史
2026-04-26 08:44:22
2026-04-29 21:31:00
ZFinance
ZFinance
Z世代的一站式AI、科技和財經(jīng)資訊
174文章數(shù) 15關(guān)注度
往期回顧 全部

科技要聞

今晨庭審紀(jì)實(shí)|馬斯克當(dāng)庭講述OpenAI被偷走

頭條要聞

男子詐騙熟人350萬 朋友圈發(fā)文"我跑路了 你們報案吧"

頭條要聞

男子詐騙熟人350萬 朋友圈發(fā)文"我跑路了 你們報案吧"

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節(jié)目組2小時

財經(jīng)要聞

蘇州,率先進(jìn)入牛市

汽車要聞

技術(shù)天花板再摸高 全能型的奕境X9首秀

態(tài)度原創(chuàng)

本地
親子
房產(chǎn)
游戲
公開課

本地新聞

用青花瓷的方式,打開西溪濕地

親子要聞

這個#戶外大足球 真的是超推,爸爸跟娃今天都玩瘋了,運(yùn)動指拉滿了,對視力也很好,真的是孩子開心,媽媽...

房產(chǎn)要聞

80億投資!浙商總部基地+??诒闭?,金沙灣這是要起飛啊!

《GTA6》發(fā)售那天太多人請假!T2老板預(yù)測

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版