国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

不要只盯著宇樹(shù)翻跟頭了,這些工作才是具身智能的春晚

0
分享至


作者 | 郭海惟
郵箱 | guohaiwei@pingwest.com

當(dāng)十幾臺(tái)G1在舞臺(tái)“下腰”打醉拳的時(shí)候,你會(huì)覺(jué)得宇樹(shù)好像真的已經(jīng)把表演這件事情卷到頭了。

真的很難想象,羊年還能有什么比馬年更能震撼人心的表演。哪怕是讓機(jī)器人在舞臺(tái)上跳芭蕾(一個(gè)比后空翻難無(wú)數(shù)倍的動(dòng)作),難道就能給普通人比今天更強(qiáng)的視覺(jué)震撼了嗎?恐怕也很難說(shuō)。

如果說(shuō)今天具身存在一個(gè)“結(jié)構(gòu)性”的矛盾,大概有就是“日益增長(zhǎng)的姿態(tài)控制能力與硬件水平”和“落地場(chǎng)景不平衡、不充分”的發(fā)展之間的矛盾。前者帶來(lái)了人民對(duì)具身日益增長(zhǎng)的期待,而后者則讓人民感到困惑。

對(duì)于很多人來(lái)說(shuō),機(jī)器人的“技能樹(shù)”好像點(diǎn)錯(cuò)了——它明明該幫我們家務(wù),卻代替我們?cè)娫~歌賦、載歌載舞。

而這種技能樹(shù)錯(cuò)配背后,其實(shí)有第二個(gè)“結(jié)構(gòu)性”的矛盾:即“日益增長(zhǎng)的AI智能訴求”與“智能泛化能力不平衡、不充分”的發(fā)展之間的矛盾。前者讓行業(yè)的所有從業(yè)者都對(duì)AGI的明天充滿(mǎn)光明信心,而后者則讓從業(yè)者感到現(xiàn)金流的貧窮。

而所謂一切場(chǎng)景與智能的問(wèn)題,其實(shí)本質(zhì)都是數(shù)據(jù)與智能的關(guān)系。

在具身領(lǐng)域尤其如此。

而具身的數(shù)據(jù)問(wèn)題又可以分成兩種:

一個(gè)是數(shù)據(jù)規(guī)模帶來(lái)智能難以scaling;一個(gè)是現(xiàn)有智能情況下,樣本的學(xué)習(xí)和泛化能力。

多位具身行業(yè)資深人士曾對(duì)硅星人表示,具身數(shù)據(jù)問(wèn)題屬于“可解”的,但解決方案本質(zhì)大概率都會(huì)是“線(xiàn)性”的,可能會(huì)隨著投入的增加獲得更多的加速,但“指數(shù)型”爆炸的可能性不高。

究其原因,如果想要通過(guò)仿真數(shù)據(jù)實(shí)現(xiàn)高度的通用泛化,生產(chǎn)超高質(zhì)量仿真數(shù)據(jù)背后的難度,可能反而高于具身大腦泛化的難度,有點(diǎn)“雞生蛋、蛋生雞”悖論的味道。而互聯(lián)網(wǎng)數(shù)據(jù)理論上可行,但不夠精準(zhǔn),“畫(huà)馬難畫(huà)骨”,對(duì)齊難度大。

目前行業(yè)里普遍構(gòu)想的一個(gè)技術(shù)循環(huán)是:

數(shù)據(jù)采集→數(shù)據(jù)訓(xùn)練模型→模型進(jìn)入場(chǎng)景→場(chǎng)景生成數(shù)據(jù)→更好的數(shù)據(jù)→更強(qiáng)的模型→更多的場(chǎng)景和數(shù)據(jù)

這樣慢慢可以把數(shù)據(jù)轉(zhuǎn)起來(lái),等數(shù)據(jù)多了,具身就可以進(jìn)入GPT時(shí)刻了,盡管實(shí)際過(guò)程可能很緩慢。但即便如此,很多模型依然會(huì)卡死在第三步,導(dǎo)致數(shù)據(jù)飛輪遲遲無(wú)法轉(zhuǎn)起來(lái)。導(dǎo)致一些實(shí)際的技術(shù)循環(huán)其實(shí)是:

數(shù)據(jù)采集→數(shù)據(jù)訓(xùn)練模型→泛化能力卡死在sim to real上→等待更多的數(shù)據(jù)

不過(guò)最近兩個(gè)月來(lái),開(kāi)始陸續(xù)有更多的團(tuán)隊(duì)加入少樣本甚至零樣本的泛化能力的路線(xiàn)探索上來(lái),通過(guò)不同的路徑去解決的智能突破和泛化能力的問(wèn)題,堪比具身的馬年學(xué)術(shù)春晚:

χ0是香港科技大學(xué)團(tuán)隊(duì)在2月10日正式發(fā)布的技術(shù)成果。

此前這個(gè)團(tuán)隊(duì)在12月份的時(shí)候曾經(jīng)拿χ0做了24個(gè)小時(shí)的“家務(wù)直播”,主要是抓取、疊、掛衣服,展現(xiàn)了很強(qiáng)大的柔性物體處理能力。

根據(jù)后來(lái)發(fā)布的技術(shù)報(bào)告顯示,χ0可以在很少樣本(20小時(shí)人類(lèi)視頻)、低算力(8張A100)的情況下做出很好的泛化能力。而且根據(jù)他們自己的說(shuō)法,相比于π0.5,χ0的成功率能提升250%。

正如如這篇論文的標(biāo)題,“通過(guò)化解分布不一致性,實(shí)現(xiàn)資源受限下的魯棒操控”。

χ0展現(xiàn)的是柔性物體能力,但其實(shí)想要解決的是模型學(xué)習(xí)的魯棒性難題。而它的解決方案其實(shí)就是通過(guò)解決在不同模塊的數(shù)據(jù)分布對(duì)齊問(wèn)題。

比如,過(guò)去訓(xùn)練出來(lái)的模型內(nèi)參數(shù)分布和環(huán)境反饋的分布是不同的,就會(huì)導(dǎo)致智能的魯棒性受損。而他們就希望在各個(gè)環(huán)節(jié)上找到這些分布差異,然后對(duì)齊它——他們最后選擇從訓(xùn)練分布(Ptrain)、模型分布(Qmodel)以及部署分布(Ptest)三個(gè)角度出發(fā),從而讓流程的各個(gè)不同階段都能實(shí)現(xiàn)高效對(duì)齊。


https://arxiv.org/pdf/2602.09021

LingBot-VA是螞蟻靈波在1月30日官宣的技術(shù)成果,官方將它稱(chēng)為具身世界模型,首創(chuàng)了自回歸視頻-動(dòng)作世界建模框架。也是第一個(gè)將世界模型直接控制真機(jī)操作的研究成果。

而在此之前,螞蟻靈波還發(fā)布了LingBot-World開(kāi)源視頻生成世界模型,做到了將近 10 分鐘的無(wú)損穩(wěn)定生成。

與χ0一樣,LingBot-VA展現(xiàn)了更好的魯棒性

在 LIBERO 和 RoboTwin 等主流基準(zhǔn)測(cè)試中,分別以 98.5% 和 92%+ 的成功率大幅領(lǐng)先π0.5等現(xiàn)有模型。在針對(duì)具身控制中常見(jiàn)的“長(zhǎng)時(shí)漂移”難題,復(fù)雜任務(wù)成功率超過(guò) 98%。

同時(shí)也能實(shí)現(xiàn)較少樣本下的泛化能力

一個(gè)場(chǎng)景僅需 30~50 條演示數(shù)據(jù)即可完成適配。

但與χ0不同的是,LingBot-VA團(tuán)隊(duì)一開(kāi)始就選擇了一個(gè)在語(yǔ)義層面具備較高魯棒性的自回歸世界模型策略。他們的邏輯有點(diǎn)像在模型內(nèi)置了一個(gè)預(yù)測(cè)未來(lái)的大腦。本質(zhì)就是用一段視頻去預(yù)測(cè)下一段視頻的狀態(tài)。而當(dāng)模型知道下一段視頻流中的狀態(tài)時(shí),便可以反推并解碼成具體的執(zhí)行動(dòng)作。

這樣一來(lái),由于視頻與動(dòng)作之間存在明確的時(shí)間和邏輯關(guān)系,便自然就構(gòu)成了很明確的物理現(xiàn)實(shí)世界中的因果關(guān)系。所以這個(gè)技術(shù)成果被命名為:“面向機(jī)器人控制的因果世界建模”。

這套方案繞過(guò)了VLA常出現(xiàn)的表征糾纏問(wèn)題,將動(dòng)作、視頻預(yù)測(cè)、場(chǎng)景執(zhí)行情況,直接形成了相互映射的關(guān)系。而且在視頻生成模型中,天然會(huì)具備一定的世界模型知識(shí),因此獲得了更好的執(zhí)行效果。


https://github.com/Robbyant/lingbot-va/blob/main/LingBot_VA_paper.pdf

DreamZero是英偉達(dá)團(tuán)隊(duì)在2月份發(fā)布的技術(shù)論文,定位世界動(dòng)作模型(WAM)。

DreamZero比LingBot-VA晚發(fā)了十天左右,但思路上與LingBot-VA同為世界模型落地真機(jī)的路線(xiàn),因此在一些技術(shù)思路上也很相似。而且Lingbo-VAt搭配LingBot-World一起發(fā)布,而與DreamZero同期發(fā)布的還有DreamDojo的通用機(jī)器人世界模型。

這兩個(gè)團(tuán)隊(duì)在技術(shù)審美和產(chǎn)品發(fā)布的邏輯節(jié)奏上如此相似,可以說(shuō)目前在世界模型的探索上,分別都是東西半球的先行者,也相當(dāng)程度上確認(rèn)了這條技術(shù)路線(xiàn)的可行性。

他們都強(qiáng)調(diào)世界模型在運(yùn)動(dòng)控制中的作用,強(qiáng)調(diào)通過(guò)世界模型預(yù)測(cè)而非簡(jiǎn)單堆砌數(shù)據(jù)的重要性,以及受益于世界模型的技術(shù)路線(xiàn),DreamZero也呈現(xiàn)了較好的泛化性。

官方表示,DreamZero甚至在一些模型從來(lái)沒(méi)有見(jiàn)過(guò)的場(chǎng)景中,DreamZero也已經(jīng)可以實(shí)現(xiàn)0樣本泛化。而為了著重強(qiáng)調(diào)這一點(diǎn),他們甚至把自己的技術(shù)報(bào)告直接叫做,“世界動(dòng)作模型就是0樣本泛化的策略”(World Action Models are Zero-shot Policies )

最核心區(qū)別在于,LingBot采用了自回歸為主干的策略,而DreamZero則采用了以擴(kuò)散模型直接作為主干的策略。此外,作為各自模型未來(lái)的基礎(chǔ)設(shè)施,DreamDojo的核心是閉源的,而LingBot-World則是完全開(kāi)源的。


https://dreamzero0.github.io/

1

押注“非線(xiàn)性”增長(zhǎng)的物理世界

過(guò)去的具身技術(shù)路線(xiàn)正在受到越來(lái)越多的挑戰(zhàn)。

一方面,如本文開(kāi)頭所說(shuō),LLM成功的路徑依賴(lài)讓具身產(chǎn)業(yè)長(zhǎng)期患有數(shù)據(jù)饑渴癥。而數(shù)據(jù)規(guī)模短時(shí)間難以爆發(fā)式增長(zhǎng),就導(dǎo)致具身的智能缺乏像LLM那樣指數(shù)級(jí)增長(zhǎng)的手段;

另一方面,其實(shí)以VLA為代表的技術(shù)路線(xiàn),本身也在面臨更多的質(zhì)疑。越來(lái)越多人開(kāi)始質(zhì)疑VLA是否可以很好的完成動(dòng)作操控,是否有能力更好地泛化并突破Sim to real gap的魔咒。

而面對(duì)這種困局,不同的人想到的解決方案是不同的,也很難在短期達(dá)成共識(shí)。

以χ0這類(lèi)研究更像是通過(guò)不斷升級(jí)過(guò)去的架構(gòu)能力,從而在原有的路徑上解決問(wèn)題;而LingBot-VA、DreamZero這樣的產(chǎn)品,則是尋求一種革命性的范式創(chuàng)新。

今天一個(gè)行業(yè)內(nèi)逐步清晰的共識(shí)是:如果具身大腦的能力要擺脫數(shù)據(jù)貧血和泛化瓶頸的地心引力,從而復(fù)刻LLM的傳奇,那就必須有一些新的技術(shù)創(chuàng)新。要么,我們?cè)跀?shù)據(jù)層面上大幅突破;要么在架構(gòu)上另辟蹊徑。

而像VA、DreamZero這樣的工作顯然是后者,而他們能給我們的啟事是:

如果要在具身復(fù)刻LLM的scaling law奇跡,它未必是要通過(guò)平移scaling law的方式實(shí)現(xiàn)的,也可能是借一個(gè)更好的架構(gòu)來(lái)獲得原本在LLM就已經(jīng)具備的知識(shí)能力。

螞蟻靈波首席科學(xué)家沈宇軍在接受采訪(fǎng)時(shí)表示:

LingBot-VA和LingBot-World的思考其實(shí)是“一套技術(shù)體系的不同側(cè)重”,雙方會(huì)耦合地非常深,底層的數(shù)據(jù)引擎、代碼框架和優(yōu)化方法,都高度共通。

所以,沈宇軍的思路可能就是要繞過(guò)具身的scaling瓶頸,重新去審視和依托新的大模型能力,建設(shè)新的具身底層的智能基礎(chǔ)設(shè)施。

從這個(gè)角度來(lái)說(shuō),螞蟻靈波和英偉達(dá)可謂具身世界模型中“拓荒者”的角色,未來(lái)也不排除會(huì)有更多的像英偉達(dá)和螞蟻這樣的超級(jí)玩家加入。但隨著中美AI進(jìn)展生態(tài)的不同,未來(lái)英偉達(dá)會(huì)逐漸形成自己的生態(tài),而螞蟻靈波則會(huì)積極引領(lǐng)全球的開(kāi)源世界模型生態(tài)。

但他們的目標(biāo)都是一致的:

具身不一定就必須要按部就班,物理AI也值得一次爆炸式增長(zhǎng)的嘗試。


點(diǎn)個(gè)愛(ài)心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
區(qū)委副書(shū)記,任北京高校黨委書(shū)記

區(qū)委副書(shū)記,任北京高校黨委書(shū)記

TOP大學(xué)來(lái)了
2026-02-28 22:44:54
長(zhǎng)餐桌已經(jīng)退出中國(guó)家庭,學(xué)浙江人的做法,很多人都開(kāi)始紛紛效仿

長(zhǎng)餐桌已經(jīng)退出中國(guó)家庭,學(xué)浙江人的做法,很多人都開(kāi)始紛紛效仿

室內(nèi)設(shè)計(jì)師有料兒
2026-02-27 20:49:11
足壇一夜動(dòng)態(tài)!巴薩主場(chǎng)13連勝,拜仁絕殺多特,曼城施壓阿森納

足壇一夜動(dòng)態(tài)!巴薩主場(chǎng)13連勝,拜仁絕殺多特,曼城施壓阿森納

釘釘陌上花開(kāi)
2026-03-01 04:07:12
領(lǐng)克關(guān)掉的大燈,照亮了新能源車(chē)圈的吐槽大會(huì)

領(lǐng)克關(guān)掉的大燈,照亮了新能源車(chē)圈的吐槽大會(huì)

鈦媒體APP
2026-02-28 09:12:54
伊朗第九輪導(dǎo)彈射向以色列

伊朗第九輪導(dǎo)彈射向以色列

財(cái)聯(lián)社
2026-03-01 01:00:05
國(guó)防部直接把話(huà)挑明了,家里有滿(mǎn)18歲男青年必須辦的就是兵役登記

國(guó)防部直接把話(huà)挑明了,家里有滿(mǎn)18歲男青年必須辦的就是兵役登記

南權(quán)先生
2026-02-12 15:38:28
徹底決裂!沙特強(qiáng)勢(shì)警告伊朗,阿拉伯陣營(yíng)集體攤牌

徹底決裂!沙特強(qiáng)勢(shì)警告伊朗,阿拉伯陣營(yíng)集體攤牌

老馬拉車(chē)莫少裝
2026-02-28 20:35:31
鏢人血虧2億,吳京不服,又抬三部狠片,要問(wèn)鼎中國(guó)第一巨星了

鏢人血虧2億,吳京不服,又抬三部狠片,要問(wèn)鼎中國(guó)第一巨星了

娛樂(lè)圈筆娛君
2026-02-28 18:15:17
都說(shuō)不去日本,春節(jié)赴日的卻是這群人!日媒暗訪(fǎng)揭開(kāi)真相

都說(shuō)不去日本,春節(jié)赴日的卻是這群人!日媒暗訪(fǎng)揭開(kāi)真相

通鑒史智
2026-02-28 16:33:46
舊金山大學(xué)博士開(kāi)網(wǎng)約車(chē)送乘客到軍營(yíng)被ICE拘留!家屬:他愛(ài)美國(guó),可合法工作

舊金山大學(xué)博士開(kāi)網(wǎng)約車(chē)送乘客到軍營(yíng)被ICE拘留!家屬:他愛(ài)美國(guó),可合法工作

紐約時(shí)間
2026-02-28 04:44:28
又涼了一個(gè)

又涼了一個(gè)

求實(shí)處
2026-03-01 00:04:15
伊朗宣布啟動(dòng)“誠(chéng)實(shí)承諾4號(hào)”大規(guī)模軍事行動(dòng)

伊朗宣布啟動(dòng)“誠(chéng)實(shí)承諾4號(hào)”大規(guī)模軍事行動(dòng)

每日經(jīng)濟(jì)新聞
2026-02-28 18:47:10
新一輪導(dǎo)彈向以色列發(fā)射

新一輪導(dǎo)彈向以色列發(fā)射

財(cái)聯(lián)社
2026-02-28 16:30:07
1只也不行!山東老漢用捕獸夾抓1只售賣(mài),嘴塞木頭腿被砍掉

1只也不行!山東老漢用捕獸夾抓1只售賣(mài),嘴塞木頭腿被砍掉

萬(wàn)象硬核本尊
2026-02-25 20:25:39
以色列遭伊朗第三輪導(dǎo)彈襲擊

以色列遭伊朗第三輪導(dǎo)彈襲擊

每日經(jīng)濟(jì)新聞
2026-02-28 17:04:28
伯克希爾2025年凈利潤(rùn)超4500億元!現(xiàn)金儲(chǔ)備超2.5萬(wàn)億元,巴菲特已正式退休,卸任公司CEO

伯克希爾2025年凈利潤(rùn)超4500億元!現(xiàn)金儲(chǔ)備超2.5萬(wàn)億元,巴菲特已正式退休,卸任公司CEO

每日經(jīng)濟(jì)新聞
2026-02-28 22:56:28
伊朗外長(zhǎng):目前美伊之間沒(méi)有直接聯(lián)系

伊朗外長(zhǎng):目前美伊之間沒(méi)有直接聯(lián)系

界面新聞
2026-02-28 23:26:14
明查·持續(xù)更新|伊朗陸軍總司令生死反轉(zhuǎn),游戲畫(huà)面又被傳成沖突畫(huà)面

明查·持續(xù)更新|伊朗陸軍總司令生死反轉(zhuǎn),游戲畫(huà)面又被傳成沖突畫(huà)面

澎湃新聞
2026-02-28 19:06:28
4-0!中國(guó)隊(duì)殺瘋了,狂勝澳大利亞球隊(duì)!4場(chǎng)轟20球,沖亞洲杯冠軍

4-0!中國(guó)隊(duì)殺瘋了,狂勝澳大利亞球隊(duì)!4場(chǎng)轟20球,沖亞洲杯冠軍

籃球看比賽
2026-02-28 17:00:11
阿里的復(fù)仇:一場(chǎng)遲到了十年的清算

阿里的復(fù)仇:一場(chǎng)遲到了十年的清算

快消經(jīng)緯
2026-02-28 18:58:05
2026-03-01 05:08:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來(lái)的基礎(chǔ),歡迎來(lái)到這個(gè)星球。
2894文章數(shù) 10458關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話(huà)

頭條要聞

伊朗媒體公布反擊美軍軍事行動(dòng)結(jié)果

頭條要聞

伊朗媒體公布反擊美軍軍事行動(dòng)結(jié)果

體育要聞

球隊(duì)主力全報(bào)銷(xiāo)?頂風(fēng)擺爛演都不演了

娛樂(lè)要聞

周杰倫兒子正面照曝光,與父親好像

財(cái)經(jīng)要聞

沖突爆發(fā) 市場(chǎng)變天?

汽車(chē)要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
旅游
本地
公開(kāi)課

藝術(shù)要聞

驚艷!這位天使般的女子與油畫(huà)讓人心動(dòng)不已!

數(shù)碼要聞

小米超薄充電寶亮相MWC,98g有多能打?

旅游要聞

忻州古城×元宵節(jié) | “夯”爆了!看非遺社火解鎖忻州古城的超長(zhǎng)年味!

本地新聞

津南好·四時(shí)總相宜

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版