国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

對(duì)話原力靈機(jī)周而進(jìn):模型2.4B就夠用,關(guān)鍵是“具身原生”

0
分享至

衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

一個(gè)(暫時(shí))只做具身大腦的公司,拋出了一個(gè)只有2.4B參數(shù)的具身模型。

目前行業(yè)風(fēng)向標(biāo)如Physical Intelligence的π 0總計(jì)約33億參數(shù),π 0.6的參數(shù)量也約莫在50億以上。

在一個(gè)甚至連硬件形態(tài)都還沒定型的行業(yè)里,2.4B參數(shù)到底夠不夠用?

這家公司給出的答案是,夠用。

而且足以支撐它實(shí)時(shí)處理三視角的728x728畫面,推理延遲僅60毫秒;配合強(qiáng)化學(xué)習(xí)機(jī)制,它還能在真機(jī)上不斷試錯(cuò)進(jìn)化。

這就是具身智能創(chuàng)企原力靈機(jī)推出的首個(gè)具身原生模型產(chǎn)品DM0。

2.4B的輕量小蛋糕,RTX 5090就能跑。



因?yàn)閺牧阌?xùn)練以及對(duì)具身數(shù)采有不同于行業(yè)的看法等原因,該公司稱它為“首個(gè)具身原生大模型”。

與模型同時(shí)發(fā)布的還有開源具身原生框架Dexbotic 2.0,以及具身原生量產(chǎn)工作流DFOL。

這具身軟件三件套背后技術(shù)路線的操盤手,是原力靈機(jī)合伙人、負(fù)責(zé)大模型的周而進(jìn)。

他在AI圈早已名聲在外。



周而進(jìn)現(xiàn)在才33歲,但這人已經(jīng)在AI領(lǐng)域出名13年了——

早在2013年,深度學(xué)習(xí)和人工智能還是冷門的時(shí)候,大二的曠視實(shí)習(xí)生周而進(jìn)就以一作身份,拿下了ICCV 2013的自然環(huán)境人臉關(guān)鍵點(diǎn)定位比賽(300-W)工業(yè)界組冠軍。

但這個(gè)傳奇人物的出名比這個(gè)時(shí)間線更早。

他是信息學(xué)競(jìng)賽NOI、IOI金牌選手,初三就“保送”到了清華;作為清華的學(xué)生,他師從電子工程系長(zhǎng)聘教授、系主任汪玉。

后來作為曠視12號(hào)員工,他屢屢用算法軟件拿下全球第一。

就是這樣一位從AI 1.0時(shí)代走出來的少年天才,在去年,他和同為曠視同事的范浩強(qiáng)、汪天才,創(chuàng)業(yè)具身智能。

后來前曠視聯(lián)合創(chuàng)始人唐文斌也參與其中,擔(dān)任CEO。



周而進(jìn)對(duì)我們說,當(dāng)前具身行業(yè)的主流具身模型方案,大多數(shù)是VLM+Action Head思路。

也就是說,大模型負(fù)責(zé)識(shí)別和邏輯推理(比如看到冰箱里有牛奶),動(dòng)作頭負(fù)責(zé)執(zhí)行(去抓取牛奶)。

  • 這種方法在目前行之有效,但它是一種外掛式方案。



原力靈機(jī)想追求一種具身原生路線,強(qiáng)調(diào)從數(shù)據(jù)采集范式、推理方式到控制結(jié)構(gòu),都應(yīng)源自物理世界的反饋,而不是數(shù)字世界的派生模態(tài)。

也確實(shí)這么付諸實(shí)踐了。

剛提到的模型DM0,就“從底層建模上就將感知、推理、控制整合為閉環(huán),然后通過空間推理思維鏈(Spatial CoT),內(nèi)生出具身智能”。



DM0的核心是通過多源、多任務(wù)、多機(jī)型訓(xùn)練來打通具身智能。

具體的訓(xùn)練過程,分為三個(gè)階段。

第一階段是VLM Train。

團(tuán)隊(duì)從零構(gòu)建具身原生的多模態(tài)模型,將互聯(lián)網(wǎng)、智駕和具身多傳感數(shù)據(jù)融為一體,讓模型天生就理解物理環(huán)境,練就扎實(shí)的感知基本功。

第二階段是VLA Pre-Train,周而進(jìn)稱之為“具身能力涌現(xiàn)的關(guān)鍵”,分為多任務(wù)、多機(jī)型訓(xùn)練和空間推理思維鏈兩條主線。

第三階段是VLA Post-Train。這一步保留了針對(duì)特定應(yīng)用場(chǎng)景的適配能力。

在RoboChallenge大規(guī)模真機(jī)評(píng)測(cè)中,DM0拿下了單任務(wù)和多任務(wù)雙料第一。



這是原力靈機(jī)成立以來第一次成體系地發(fā)布具身技術(shù)產(chǎn)品。

從和周而進(jìn)的對(duì)談里我們發(fā)現(xiàn),原力靈機(jī)從模型、工具鏈、量產(chǎn)工作流,方方面面都不停地在講閉環(huán)、講具身原生。

在我們與周而進(jìn)的這次深度對(duì)話中,他也圍繞這些關(guān)鍵詞給出了更詳細(xì)的解讀:

  • 為什么要堅(jiān)持從零訓(xùn)練而不是微調(diào)?
  • 空間推理思維鏈?zhǔn)窃趺磶椭P蛻?yīng)對(duì)長(zhǎng)程任務(wù)?
  • “全身全時(shí)全域”的數(shù)據(jù)采集會(huì)帶來什么變化?
  • 機(jī)器人如何逐步走向擁有“社會(huì)身份”?
  • 以及,為什么必須7×24小時(shí)跑起來?為什么要從物流開始做具身?

諸如這些問題,在采訪中都得到了回應(yīng)。

(以下為對(duì)話實(shí)錄。在不改變對(duì)談?wù)弑救嗽獾幕A(chǔ)上,我們做了部分刪改,以方便閱讀)

對(duì)話實(shí)錄
關(guān)于“具身原生”

量子位:靈機(jī)把這次發(fā)布的DM0叫做“具身原生大模型”。原生不原生有什么區(qū)別?

周而進(jìn): 具身智能的核心是構(gòu)建感知-決策-執(zhí)行的閉環(huán)智能。

在大語言模型范式下,智能主要停留在信息處理層面,比如識(shí)別冰箱里有牛奶。

但具身智能不僅要看到牛奶,還要拿起牛奶,找到生產(chǎn)日期,從而判斷牛奶是否過期,實(shí)現(xiàn)從數(shù)字智能到物理智能的跨越。

量子位:DM0原生在哪里?

周而進(jìn):有兩個(gè)層面。

第一個(gè)是模型訓(xùn)練本身的起點(diǎn)從零開始。

希望模型從出生的第一天開始,就已經(jīng)充分理解物理世界,而不是在一個(gè)已經(jīng)被大量互聯(lián)網(wǎng)數(shù)據(jù)塑形過的模型上,后天再去補(bǔ)物理世界的東西。

物理世界在模型初始化階段,會(huì)給到非常多非常豐富的反饋,這種反饋如果放到后面再學(xué),本質(zhì)上是很難補(bǔ)回來的。

互聯(lián)網(wǎng)數(shù)據(jù)當(dāng)然很重要,它帶來了大量先驗(yàn),但我們的理念是,希望模型在一開始就見過真實(shí)的空間關(guān)系、交互關(guān)系,理解人與物理世界是如何對(duì)話的。

很多人會(huì)覺得,現(xiàn)在已經(jīng)有很強(qiáng)的通用大模型了,比如直接拿一個(gè)語言模型作為基模,再往后堆一些具身數(shù)據(jù),好像也能訓(xùn)出效果。

從工程上看,這條路是走得通的。但我們會(huì)覺得,這樣的路徑在認(rèn)知順序上是有問題的。無論是動(dòng)物還是人類,最早學(xué)會(huì)的都是動(dòng)作,是對(duì)物理世界的反應(yīng)能力,而語言、抽象思維反而是后天逐漸發(fā)展出來的。

一個(gè)不那么嚴(yán)謹(jǐn)?shù)念惐?,你很難想象一個(gè)嬰兒是先學(xué)會(huì)對(duì)話,再學(xué)會(huì)找奶瓶。

所以我們認(rèn)為具身模型也應(yīng)該遵循類似的路徑,從一開始就圍繞物理交互來構(gòu)建,而不是在一個(gè)已經(jīng)在數(shù)字世界訓(xùn)練好的模型上去嫁接動(dòng)作能力。

量子位:第二個(gè)原生的點(diǎn)呢?

周而進(jìn):第二個(gè)是數(shù)據(jù)的理解方式。

今天行業(yè)里關(guān)于具身數(shù)據(jù)怎么采、用仿真還是真機(jī),其實(shí)分歧非常大。

仿真派和真機(jī)派之間爭(zhēng)論了很久,但我們一直覺得用“仿真”還是“真機(jī)”來切分本身意義并不大,更像是在給自己貼標(biāo)簽。

我們的看法是,今天你采集的所有數(shù)據(jù),本質(zhì)上都是合成數(shù)據(jù),只是合成程度不同而已。

在仿真器里,任務(wù)定義、物理反饋、物理規(guī)則,全部是人為構(gòu)造的,這是高度合成的數(shù)據(jù);在真實(shí)世界里采數(shù)據(jù),看起來瓶子是真的、環(huán)境是真的,但任務(wù)是不是你定義的?Task instruction是不是人為設(shè)定的?物流場(chǎng)景里的流水線是不是人設(shè)計(jì)的?

從這個(gè)角度看,它們本質(zhì)上都處在一個(gè)合成光譜上。

我們更關(guān)心的不是用不用仿真,而是應(yīng)該把數(shù)據(jù)和算力投向哪里。

我們內(nèi)部有一個(gè)比較明確的判斷,物理確定性強(qiáng)的部分,用算力和仿真去解決;語義模糊、不確定性高的部分,用真實(shí)數(shù)據(jù)去覆蓋。

這也是我們?yōu)槭裁磿?huì)認(rèn)為從一開始就把“人、數(shù)據(jù)、物理世界的交互形式”放進(jìn)模型設(shè)計(jì)里非常重要。

如果模型最早接觸到的就是這些東西,它在后續(xù)面對(duì)不同硬件、不同形態(tài)機(jī)器人時(shí),學(xué)到的是操作邏輯,而不是某一臺(tái)機(jī)器的電機(jī)參數(shù)。



量子位:說到不同形態(tài)的機(jī)器人,資料顯示DM0的訓(xùn)練特意擴(kuò)充了不同本體的機(jī)器人數(shù)據(jù),目前是8種機(jī)器人。

周而進(jìn):如果模型只見過少數(shù)幾種機(jī)型,它很容易把“該怎么完成一個(gè)任務(wù)”和“這臺(tái)機(jī)器的關(guān)節(jié)要怎么轉(zhuǎn)”混在一起。

舉個(gè)例子,把水放到某個(gè)位置,模型真正應(yīng)該理解的是伸手、移動(dòng)、放置這個(gè)動(dòng)作序列,而不是某個(gè)關(guān)節(jié)需要轉(zhuǎn)多少度。

就像人開車一樣,一個(gè)合格的司機(jī)不會(huì)因?yàn)閾Q了一輛車就不會(huì)開了。

真正記住的是軌跡和操作邏輯,而不是方向盤的松緊程度。

從這個(gè)角度也很容易能理解具身原生是我們的路徑選擇。



關(guān)于數(shù)據(jù)和高/低熵場(chǎng)景

量子位:DM0用的數(shù)據(jù)來源有3個(gè),分別是互聯(lián)網(wǎng)數(shù)據(jù)、智能輔助駕駛數(shù)據(jù)和具身智能數(shù)據(jù)。

周而進(jìn):具身模型不是只靠一種數(shù)據(jù)就能訓(xùn)出來的。

如果仿真的物理引擎足夠強(qiáng),能模擬出真實(shí)世界的接觸力、摩擦力和碰撞反饋,那么仿真數(shù)據(jù)的價(jià)值就會(huì)極大提升。

但在目前的階段,特別是涉及到復(fù)雜的觸覺和細(xì)微操作時(shí),真實(shí)交互產(chǎn)生的硬核數(shù)據(jù)依然是不可替代的。

而且互聯(lián)網(wǎng)數(shù)據(jù)、自駕數(shù)據(jù)、具身數(shù)據(jù),這三類數(shù)據(jù)在模型里承擔(dān)的角色是完全不同的。

互聯(lián)網(wǎng)數(shù)據(jù)提供的是語言和概念層面的抽象能力,它讓模型理解“什么是什么”;自駕數(shù)據(jù)提供的是在開放環(huán)境中應(yīng)對(duì)長(zhǎng)尾事件的經(jīng)驗(yàn);而具身數(shù)據(jù)填補(bǔ)的是物理交互和接觸這一塊,這是前兩類數(shù)據(jù)完全無法覆蓋的。



量子位:三者有固定的混合比例嗎?

周而進(jìn):沒有,根據(jù)實(shí)驗(yàn)結(jié)果動(dòng)態(tài)調(diào)整。

現(xiàn)在具身數(shù)據(jù)確實(shí)相對(duì)少,但隨著采集規(guī)模的擴(kuò)大,它的占比一定會(huì)快速上升。

量子位:其中哪種會(huì)是未來訓(xùn)練具身模型的主導(dǎo)類別?

周而進(jìn):我們并不認(rèn)為未來一定是某一種數(shù)據(jù)占絕對(duì)主導(dǎo)。3類數(shù)據(jù)在不同階段承擔(dān)不同權(quán)重。



量子位:你們提到“熵在哪里,數(shù)據(jù)就投向哪里”,這句話怎么理解?

周而進(jìn):可以理解為決定數(shù)據(jù)采集的關(guān)鍵變量是環(huán)境的可描述性與熵(不確定性)。

最高效的方法一定是“能夠閉環(huán)的方法”。

如果數(shù)據(jù)采回來不能提升模型的泛化能力,或者采回來的全是重復(fù)的、低質(zhì)量的動(dòng)作,那只是在浪費(fèi)算力。

我們現(xiàn)在的策略是,先通過模型發(fā)現(xiàn)哪些任務(wù)是它干不好的,即“熵值高”的地方,然后針對(duì)性地去補(bǔ)那部分?jǐn)?shù)據(jù)。

這就叫以需定采,讓數(shù)據(jù)采集也具備反饋閉環(huán)。



環(huán)境規(guī)則明確的場(chǎng)景,數(shù)據(jù)就是計(jì)算的產(chǎn)物。我們可以充分發(fā)揮算力可擴(kuò)展的優(yōu)勢(shì),通過算力進(jìn)行狀態(tài)空間的探索。

高熵場(chǎng)景充滿不明的語義,人類偏好,還有開放世界的不確定性。這種情況下數(shù)據(jù)就是經(jīng)驗(yàn)的映射,必須依賴真實(shí)交互,從多樣經(jīng)驗(yàn)中歸納。

簡(jiǎn)單說,物理規(guī)則簡(jiǎn)潔確定的部分用算力生成數(shù)據(jù),物理模糊或語義模糊的部分用真機(jī)采集,這樣才能解決長(zhǎng)尾問題。

關(guān)于數(shù)據(jù)采集方式

量子位:你們的數(shù)據(jù)采集方式好像很獨(dú)特,不只采具身機(jī)器人的雙臂動(dòng)作。

周而進(jìn):我們做的是全身全域全時(shí)的采集。

量子位:什么是“全身全域全時(shí)”?

周而進(jìn):全身,指數(shù)據(jù)采集要包含底盤的移動(dòng)、軀干的協(xié)調(diào)以及所有傳感器的反饋。

具身智能是操作與導(dǎo)航的統(tǒng)一,你不能把路走得好和手干得好拆開來看,數(shù)據(jù)必須包含全身的協(xié)同。

全時(shí)強(qiáng)調(diào)的是數(shù)據(jù)的連續(xù)性和因果鏈。

數(shù)據(jù)采集不能只拍下某個(gè)瞬間,要從意圖產(chǎn)生、路徑規(guī)劃到動(dòng)作執(zhí)行,甚至是中間出錯(cuò)、修正的全過程都記錄下來。

正常人類對(duì)話,我問你“衛(wèi)生間在哪”,你手一指,說“在那”。

這個(gè)過程中你講了一個(gè)方位代詞,又做了一個(gè)肢體語言。這些東西其實(shí)是我們認(rèn)為能夠跟人長(zhǎng)時(shí)間,或者說24小時(shí)全時(shí)共處的一個(gè)機(jī)器人他就應(yīng)該具備的能力。

全域是空間域,相對(duì)其他兩個(gè),這個(gè)暫時(shí)還是一個(gè)未來規(guī)劃。

量子位:采集這種數(shù)據(jù)是一開始出發(fā)點(diǎn)就這樣,還是走了其它方式最后選擇了一種最work的?

周而進(jìn):我們從一開始去做數(shù)采的時(shí)候,就奔著要把全身的數(shù)據(jù)、全時(shí)間段的數(shù)據(jù)、全空間場(chǎng)景的數(shù)據(jù)都給覆蓋了,其實(shí)就是奔著一個(gè)更通用的目標(biāo)去做。

都說具身智能具身智能,那人類的全身的數(shù)據(jù)你是不是都應(yīng)該采到?

如果我今天只做桌面的雙臂抓取機(jī)器人,你好像只要用雙臂就行了。

但真實(shí)的人類動(dòng)作不只有雙臂和雙手的動(dòng)作。過程中你可能要彎腰,你可能要蹲下;如果要把東西遞出去,需要伸手……需要各種肢體語言。

具身智能的數(shù)據(jù)不能只關(guān)注手部動(dòng)作,應(yīng)該要用整體性的、連續(xù)的來訓(xùn)。

量子位:這樣煞費(fèi)苦心地采集,能帶來什么效果呢?

周而進(jìn):全身全時(shí)全域的采集是為了應(yīng)對(duì)物理世界的無限長(zhǎng)尾。

如果采集不夠全面,模型就會(huì)陷入無限打補(bǔ)丁的困境。

關(guān)于新發(fā)布的具身三件套



量子位:這次除了DM0,你們還發(fā)布了一個(gè)開源的具身框架Dexbotic2.0,以及解鎖具身應(yīng)用量產(chǎn)工作流的DFOL。動(dòng)作不少。

周而進(jìn):Dexbotic2.0是我們聯(lián)合RLinf一起打造“具身智能領(lǐng)域的PyTorch”。

它采用模塊化架構(gòu),視覺編碼器、LLM模塊、動(dòng)作專家模塊都可以像樂高一樣自由組合。

我們聯(lián)合了清華、無問芯穹共建,目標(biāo)是實(shí)現(xiàn)具身操作與導(dǎo)航、模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的統(tǒng)一。

DFOL則用來解鎖具身應(yīng)用量產(chǎn)工作流。

傳統(tǒng)非標(biāo)自動(dòng)化擁有極快的節(jié)拍和極高的確定性,但靈活性差,難以適應(yīng)頻繁換線;人工則具備極強(qiáng)的通用能力和高超操作技巧,但是效率低、成本高且穩(wěn)定性不足。

DFOL正處于這兩者之間最有價(jià)值的工作區(qū)間,它依托相對(duì)通用的硬件,通過強(qiáng)大的學(xué)習(xí)能力實(shí)現(xiàn)快速換線,以模型定義功能,并對(duì)復(fù)雜多變的輸入具備極強(qiáng)的柔性適應(yīng)能力。

既能保持較高效率與確定性,又擁有接近人類的靈活性和適應(yīng)性

我們用三個(gè)指標(biāo)評(píng)估它:

  • 成功率(接近100%的連續(xù)無故障作業(yè))
  • 動(dòng)作質(zhì)量(毫米級(jí)甚至更高的定位精度)
  • 節(jié)拍(即吞吐率,決定ROI)



關(guān)于具身模型的記憶

量子位:DM0模型里面用到了空間推理思維鏈(Spatial CoT),這和大語言模型的推理思維鏈(CoT)的本質(zhì)區(qū)別是什么?

周而進(jìn):大語言模型的CoT主要是一維的語義推理,具身智能面臨的挑戰(zhàn)是三維的物理世界。

空間推理的推理核心是“空間”,具備真實(shí)操作場(chǎng)景中的空間理解、時(shí)序組織與運(yùn)動(dòng)控制能力。

面對(duì)“收拾一下桌面”這種模糊指令,模型不是直接輸出動(dòng)作,而是先進(jìn)行子任務(wù)預(yù)測(cè)與規(guī)劃,然后完成物體識(shí)別與精確定位。

它必須把視覺特征轉(zhuǎn)化為精確的空間坐標(biāo)和軌跡,這是一種空間維度的推演。



量子位:在純文本大模型里,推理錯(cuò)了可能只是胡言亂語;但物理世界里的動(dòng)作一旦出錯(cuò),可能造成損壞、危險(xiǎn)或不可逆的后果。

周而進(jìn):對(duì)。所以空間推理思維鏈通過“子任務(wù)-識(shí)別定位-2D軌跡-3D動(dòng)作映射”的閉環(huán),確保每一步推理都與物理現(xiàn)實(shí)對(duì)齊。

它模擬“介入世界”后的物理反饋,從而彌合感知與執(zhí)行之間的斷層。

這類空間推理是DM0模型的設(shè)計(jì)核心。

量子位:空間推理思維鏈能帶來什么效果?

周而進(jìn):結(jié)合高分辨率的輸入,他能讓模型在毫米級(jí)精度的任務(wù)中(如工件擺放)識(shí)別微小的位置差異。

沒有這種層層遞進(jìn)的推理,模型無法學(xué)會(huì)物體左偏移2毫米意味著什么,但通過空間推理后就能計(jì)算并執(zhí)行這種差異。

普通的CoT無法告訴你杯子向左偏移2毫米意味著什么,但Spatial CoT必須能計(jì)算并執(zhí)行這種差異。

關(guān)于7x24運(yùn)行

量子位:關(guān)于數(shù)據(jù)閉環(huán)、物理直覺的形成,還有熵,你都在說“越早越好”。

周而進(jìn): 所有人都知道,機(jī)器人要上崗要運(yùn)行,但什么時(shí)候跑是一個(gè)很現(xiàn)實(shí)的問題。有的團(tuán)隊(duì)是先做demo,先做技術(shù),再考慮落地;我們是反過來。

我們一開始就想,這個(gè)東西必須7×24小時(shí)運(yùn)行,越早跑起來越好。

只有真實(shí)跑起來,才有真實(shí)數(shù)據(jù)。

你的模型再聰明,如果沒有數(shù)據(jù)回流,它永遠(yuǎn)學(xué)不會(huì)真實(shí)場(chǎng)景中的問題;你訓(xùn)練里沒有的東西,只能靠在跑的時(shí)候補(bǔ)回來。

而且越早跑起來,工程的穩(wěn)定性問題越早暴露,你就能越早修。

今天demo做得再好,一旦你要上崗7×24,你就會(huì)發(fā)現(xiàn)電源、網(wǎng)絡(luò)、攝像頭、支架,甚至天氣、光照,都會(huì)出問題。

量子位:原力靈機(jī)的模型已經(jīng)7x24在跑了嗎?

周而進(jìn):我們現(xiàn)在已經(jīng)在多個(gè)場(chǎng)地做部署,不是demo式的部署,是7×24的真實(shí)運(yùn)行。

哪怕剛開始成功率不高,也要跑起來。

關(guān)于精細(xì)操作

量子位:你們把工廠里的物流場(chǎng)景是具身智能應(yīng)用的重要延伸。

周而進(jìn):是的。

量子位:為什么從物流做起?

周而進(jìn):具身現(xiàn)在很難說脫離場(chǎng)景,一定得在一個(gè)比較明確的場(chǎng)景下面來做這件事情。

我們今天做物流有明確的產(chǎn)線,有明確的上下料的邏輯。

在這個(gè)場(chǎng)景上面,先把該干的活干好,然后一步一步去拓展能力。

靈機(jī)在物流場(chǎng)景里做了一個(gè)輪式雙臂機(jī)器人,專門用來做物料分揀。物料分揀實(shí)際上非常復(fù)雜,物料有柔性的,有剛性的,擺放也很亂,就是在物料箱里隨意堆滿。

要把這些物品一個(gè)一個(gè)分揀出來,有很多傳統(tǒng)的方法,比如用吸盤。但問題是吸盤對(duì)于柔性材料,對(duì)于表面不光澤的物體不work,有各種各樣的corner case。

在這樣一個(gè)明確且受限的應(yīng)用場(chǎng)景下,我們的目標(biāo)是探索能否讓機(jī)器人實(shí)現(xiàn)24小時(shí)不間斷運(yùn)行,滿足實(shí)際需求。

量子位:怎么理解“物流場(chǎng)景非常復(fù)雜”?光是聽起來,沒有什么具體的體會(huì)。

周而進(jìn):很多時(shí)候大家會(huì)被一些大動(dòng)作吸引,比如能不能搬箱子、能不能推門、能不能走路。

但真正難的其實(shí)是精細(xì)動(dòng)作。

精細(xì)動(dòng)作不是說動(dòng)作幅度小,而是說對(duì)連續(xù)狀態(tài)變化的控制要求非常高。

比如一個(gè)工件的擺放,你肉眼看可能覺得已經(jīng)放進(jìn)去了,但對(duì)工業(yè)來說,差一兩毫米就是失敗。

這種事情如果只是拍視頻是看不出來的,一旦真的放到產(chǎn)線上,就會(huì)發(fā)現(xiàn)成功率會(huì)非??斓氐粝聛?。

量子位:怎么讓具身機(jī)器人很好地完成這些精細(xì)動(dòng)作?

周而進(jìn):精細(xì)動(dòng)作的前提是精細(xì)感知。

如果你的視覺輸入分辨率不夠,模型看到的世界本身就是模糊的,那后面的推理和控制一定是漂的。很多時(shí)候模型它根本不知道現(xiàn)在這個(gè)工件到底偏了多少。

所以我們?cè)谀P驮O(shè)計(jì)時(shí),會(huì)非??粗馗叻直媛瘦斎胂碌姆€(wěn)定性,而不是只追求推理速度或者吞吐。



這又call back了我們反復(fù)強(qiáng)調(diào)具身原生。其中一個(gè)很重要的原因就是精細(xì)動(dòng)作沒辦法靠后期補(bǔ)。

如果模型在最早的訓(xùn)練階段,從來沒有在高精度、高要求的物理反饋下學(xué)過動(dòng)作,那后面你再加多少規(guī)則、加多少工程約束,都會(huì)非常吃力。

關(guān)于落地場(chǎng)景

量子位:說說你們的落地場(chǎng)景吧。

周而捷:我們挑選的是一個(gè)最標(biāo)準(zhǔn)化的場(chǎng)景,就是物流工人坐在工位上面,在物料箱上面做分揀;也有工人是在做物料箱的搬運(yùn),他要從這邊的一個(gè)AGV把箱子拿起來,然后塞到貨架上面。

也有工人在做打包。比如你買了三瓶可樂,工人要拿一個(gè)快遞箱,里面還要墊一些防震的泡沫紙,最后打包好。

這已經(jīng)涉及到一個(gè)人在工廠里面全身的動(dòng)作:走動(dòng)、蹲起、手部的靈巧操作……覆蓋的場(chǎng)景非常豐富了。

不過事情要一步一步來解決。我們現(xiàn)在先解鎖的還是靈巧抓取的問題。



量子位:你們?cè)趺纯创煌瑘?chǎng)景的優(yōu)先級(jí)?為什么先做物流,而不是一上來就做家庭之類的其它場(chǎng)景?

周如進(jìn):家庭場(chǎng)景確實(shí)是讓所有人都非常興奮的終局,但飯得一口一口吃。

我們現(xiàn)在的策略是,首先選一個(gè)能夠比較規(guī)模化、且具備高度可復(fù)制性的場(chǎng)景。

這種可復(fù)制性包含三個(gè)維度。

第一個(gè)是商業(yè)模式的復(fù)制,能不能形成標(biāo)準(zhǔn)化的投入產(chǎn)出比(ROI)?

第二個(gè)是施工難度的控制,環(huán)境要相對(duì)可控,不會(huì)像家庭環(huán)境那樣極端,復(fù)雜多變。

第三個(gè)是數(shù)據(jù)回流量復(fù)制, 這是最重要的——我們需要在一個(gè)場(chǎng)景里快速跑通閉環(huán),讓數(shù)據(jù)能成規(guī)模地回流,用來喂養(yǎng)模型。

量子位:為什么是這三個(gè)維度?

周而進(jìn):通過這些場(chǎng)景,我們可以逐步解鎖三個(gè)核心能力。

第一是模型的通用能力,第二是硬件的可靠性,第三是把供應(yīng)鏈和成本打下來。

如果直接進(jìn)家庭,這三座大山很難同時(shí)翻過去。

量子位:不過你剛才提到,“家庭”是“理想的終局場(chǎng)景”?你們的路線圖是什么樣的?

周而進(jìn):物流不僅有抓取,還有大量的搬運(yùn)和環(huán)境交互。

從物流開始,先做一些專項(xiàng)能力的產(chǎn)品,進(jìn)到倉儲(chǔ)環(huán)境;等能力穩(wěn)定了,再逐步推向ToB靠近ToC的場(chǎng)景,比如門店的導(dǎo)流、導(dǎo)客、導(dǎo)購。

最后,當(dāng)所有的技術(shù)、成本、安全性都經(jīng)過海量驗(yàn)證后,再往最終的To C家庭方向去走。

這就是我們說的先物流、后家庭,步步為營。



關(guān)于世界模型

量子位:DM0在設(shè)計(jì)中引入了具身空間建模機(jī)制,借鑒了世界模型的范式。你們?cè)趺纯创澜缒P停?/strong>

周而進(jìn):高階世界模型被我們視為提升模型泛化能力和處理復(fù)雜長(zhǎng)程任務(wù)的核心技術(shù)支撐。

量子位:你們?cè)趺炊x世界模型?

周而進(jìn):我們對(duì)它的定義跟大家不太一樣。

我們不認(rèn)為世界模型是一個(gè)萬能的、能直接輸出高質(zhì)量策略的現(xiàn)實(shí)仿真器。我們更傾向于它是一種模型內(nèi)的世界理解方式,它的關(guān)鍵點(diǎn)是你有沒有辦法在不執(zhí)行動(dòng)作的前提下,推理出這個(gè)動(dòng)作在當(dāng)前環(huán)境下會(huì)帶來什么結(jié)果。

這個(gè)東西才是核心。

如果你每做一個(gè)動(dòng)作都要試一下、都要采一次反饋,那太慢了。

世界模型的意義是讓你在心中模擬一次結(jié)果,然后挑最優(yōu)的那條路徑去做。

量子位:它不是讓你直接輸出結(jié)果,而是讓你學(xué)會(huì)怎么模擬。

周而進(jìn):對(duì)。

我們現(xiàn)在也在嘗試讓世界模型具備空間和時(shí)間上的腦補(bǔ)能力。

就是說,當(dāng)它看到前幾幀時(shí),它能不能想象出接下來幾幀會(huì)發(fā)生什么?;蛘哒f,如果我現(xiàn)在想做一個(gè)動(dòng)作,它能不能在執(zhí)行之前,先預(yù)測(cè)這個(gè)動(dòng)作在物理世界中可能發(fā)生的后果。



我們也會(huì)跟DM0這樣的具身模型做結(jié)合,讓世界模型的輸出能對(duì)動(dòng)作規(guī)劃起到支持作用,但不是說它能獨(dú)立解決所有問題。

更像是一個(gè)幫助你決策的inner loop,而不是一個(gè)萬能planner。

關(guān)于終極目標(biāo)與節(jié)奏判斷

量子位:除了落地家庭外,具身智能機(jī)器人還有更遙遠(yuǎn)的終極目標(biāo)嗎?

周而進(jìn):我覺得具身智能最終一定會(huì)走向擁有廣泛社會(huì)身份的階段。

但這個(gè)過程一定是分階段的。需要成熟可靠的硬件形態(tài),需要模型能用自然語言與人協(xié)作完成任務(wù),也需要用戶在心理上形成信任。

量子位:什么叫擁有廣泛的社會(huì)身份?

周而進(jìn):我們內(nèi)部討論過一個(gè)很有趣的概念,叫“機(jī)器人擁有自己的支付寶”。

機(jī)器人去執(zhí)行一個(gè)任務(wù),比如去超市幫主人買一瓶水,或者在園區(qū)里調(diào)用了另一個(gè)自動(dòng)化設(shè)備的服務(wù)時(shí),它可以具備獨(dú)立的支付和結(jié)算能力。

這種社會(huì)身份的建立,背后需要解決的是機(jī)器人的信用體系、支付體系以及責(zé)任追溯體系。

未來的具身機(jī)器人會(huì)像現(xiàn)在的智能手機(jī)一樣,是一個(gè)社會(huì)化接口。擁有支付能力只是第一步,擁有廣泛的社會(huì)身份才是它成為真正AGI的標(biāo)志。

為什么是原力靈機(jī)來做這件事?

量子位:早前曠視內(nèi)部有問“why me”的文化。現(xiàn)在自己出來再創(chuàng)業(yè),你覺得為什么要來做具身這件事?

周而進(jìn):第一個(gè)我覺得是說,具身這件事,不是你簡(jiǎn)單的去踩點(diǎn)數(shù)據(jù),或者把互聯(lián)網(wǎng)上現(xiàn)在各種的數(shù)據(jù)整合一下就能夠做出來的。

它涉及到軟件和硬件,尤其是它涉及到海量的跟物理世界的交互。所以我們覺得首先你要有場(chǎng)景。

對(duì)我們來說的話,物流其實(shí)就是一個(gè)非常好的場(chǎng)景。

舉個(gè)例子,比如說在物流里面,你說分揀物料它能干,但是你真把機(jī)器人搬進(jìn)去,這后面有很多的事情——對(duì)接上層業(yè)務(wù)系統(tǒng)?加入具身機(jī)器人后,你改變了整個(gè)流水線的節(jié)奏節(jié)拍,對(duì)吧?你如果東西掉地上了,你有兜底方案嗎?

所有的這些東西,都是這個(gè)具身到底能不能進(jìn)到這個(gè)場(chǎng)景里,從而帶來所謂的數(shù)據(jù)飛輪的前提。

那如果你搞不定這些東西,那你今天只能去工廠里面擺個(gè)拍個(gè)視頻。



量子位:那為什么是你們這群人來做這件事?

周而進(jìn):其實(shí)看一家公司能不能成,核心看這幾個(gè)要素:模型能力、硬件能力、行業(yè)認(rèn)知和工程落地。

我們團(tuán)隊(duì)的分工非常明確且閉環(huán)。

唐文斌是CEO,他不僅有極強(qiáng)的商業(yè)敏銳度,更重要的是他能把這幫人聚在一起。

我和汪天才負(fù)責(zé)基模訓(xùn)練,我們對(duì)大規(guī)模參數(shù)、多源數(shù)據(jù)混訓(xùn)有長(zhǎng)期的實(shí)戰(zhàn)經(jīng)驗(yàn)。

范浩強(qiáng)負(fù)責(zé)前沿算法探索和軟硬件協(xié)同,這是最難的部分。

我們這個(gè)組合不是臨時(shí)湊的,是經(jīng)過長(zhǎng)期驗(yàn)證、有默契的組合。

One More Thing

周而進(jìn)在AI領(lǐng)域真刀真槍做了13年了。

現(xiàn)在遇上新一輪風(fēng)口,他和昔日同伴們一起再戰(zhàn)具身智能。他說,大家老把AI時(shí)代劃分成AI 1.0和AI 2.0時(shí)代,聽起來給人一種割裂感。

但其實(shí)不是這樣的。身處其中,你是能觀察和感覺到技術(shù)的發(fā)展的。

因?yàn)锳I 1.0時(shí)代嶄露頭角的時(shí)候太過年輕,是少年天才,以至于周而進(jìn)和范浩強(qiáng)、汪天才等人,放在這一波AI創(chuàng)業(yè)隊(duì)伍中來,還是非常年輕。

我們問他,你有什么建議給現(xiàn)在的年輕人嗎?不管是搞信奧的還是搞AI的。

周而進(jìn)皺眉頭想了兩秒,突然哈哈大笑:

  • 年輕人才不喜歡聽建議呢!干就完了!



DM0技術(shù)報(bào)告:

https://dexmal.com/DM0_Tech_Report.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
庫爾圖瓦:穆里尼奧就是穆里尼奧,教練總得維護(hù)自己的俱樂部

庫爾圖瓦:穆里尼奧就是穆里尼奧,教練總得維護(hù)自己的俱樂部

懂球帝
2026-02-24 22:05:07
問界M6正式登陸華為商城,開放預(yù)約!無儀表+雙激光雷達(dá)

問界M6正式登陸華為商城,開放預(yù)約!無儀表+雙激光雷達(dá)

小南看車
2026-02-24 14:32:39
不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

我心縱橫天地間
2026-02-23 13:20:50
美稱中國一人工智能企業(yè)違反美出口管制,外交部:中方已多次表明原則立場(chǎng)

美稱中國一人工智能企業(yè)違反美出口管制,外交部:中方已多次表明原則立場(chǎng)

澎湃新聞
2026-02-24 15:34:26
這3條規(guī)劃高鐵開工遙遙無期,卻已搶破頭!

這3條規(guī)劃高鐵開工遙遙無期,卻已搶破頭!

鐵路叨叨嘴
2026-02-25 00:10:42
存款100萬后,請(qǐng)立刻放下這三個(gè)習(xí)慣。

存款100萬后,請(qǐng)立刻放下這三個(gè)習(xí)慣。

流蘇晚晴
2026-02-24 18:54:06
海外上映口碑爆棚,《鏢人》讓外媒直接用了“wuxia”這個(gè)詞

海外上映口碑爆棚,《鏢人》讓外媒直接用了“wuxia”這個(gè)詞

揚(yáng)子晚報(bào)
2026-02-23 22:10:35
中央定調(diào),延遲退休后,62歲退休,比60歲退休的多領(lǐng)10%養(yǎng)老金?

中央定調(diào),延遲退休后,62歲退休,比60歲退休的多領(lǐng)10%養(yǎng)老金?

另子維愛讀史
2026-02-17 19:02:27
今年春節(jié)檔平均票價(jià)47.8元,為近6年最低;《鏢人》成春節(jié)檔唯一實(shí)現(xiàn)票房連續(xù)逆跌的影片,首日票房?jī)H第4,第四日升至第2,檔期總票房為第3

今年春節(jié)檔平均票價(jià)47.8元,為近6年最低;《鏢人》成春節(jié)檔唯一實(shí)現(xiàn)票房連續(xù)逆跌的影片,首日票房?jī)H第4,第四日升至第2,檔期總票房為第3

北青網(wǎng)-北京青年報(bào)
2026-02-24 17:08:09
天天喝一杯,除了上癮還會(huì)讓你焦慮和抑郁,愛喝的人要避免了

天天喝一杯,除了上癮還會(huì)讓你焦慮和抑郁,愛喝的人要避免了

爆炸營養(yǎng)彭鑫蕊
2026-02-24 16:42:48
阿嬌的瓜又炸了,聊天記錄曝光,顛覆想象

阿嬌的瓜又炸了,聊天記錄曝光,顛覆想象

聽風(fēng)聽你
2024-12-25 22:41:20
美國被曝已決定對(duì)伊朗發(fā)動(dòng)軍事打擊,預(yù)計(jì)23日或24日

美國被曝已決定對(duì)伊朗發(fā)動(dòng)軍事打擊,預(yù)計(jì)23日或24日

每日經(jīng)濟(jì)新聞
2026-02-23 14:21:22
WTT新加坡大滿貫:男單16強(qiáng)決出8席!中韓法各2人,韓乒一哥逆轉(zhuǎn)

WTT新加坡大滿貫:男單16強(qiáng)決出8席!中韓法各2人,韓乒一哥逆轉(zhuǎn)

全言作品
2026-02-24 22:04:35
顛覆三觀!脫口秀女演員消費(fèi)亡父,地獄笑話的底線,被她踩得稀碎

顛覆三觀!脫口秀女演員消費(fèi)亡父,地獄笑話的底線,被她踩得稀碎

戧詞奪理
2026-02-23 15:35:40
開工第一天,廣東開工利是把成年人的體面,藏在最實(shí)在的煙火氣里

開工第一天,廣東開工利是把成年人的體面,藏在最實(shí)在的煙火氣里

我不叫阿哏
2026-02-24 19:02:06
濃眉:真正的冠軍球隊(duì),是沒有任何東西能動(dòng)搖其決心的

濃眉:真正的冠軍球隊(duì),是沒有任何東西能動(dòng)搖其決心的

懂球帝
2026-02-25 01:26:05
為什么同一碗面,國外吃的是肉,我們吃的是調(diào)味料

為什么同一碗面,國外吃的是肉,我們吃的是調(diào)味料

富貴說
2026-02-22 20:52:00
易夢(mèng)玲一雙金燦燦的大燈,明艷晃眼

易夢(mèng)玲一雙金燦燦的大燈,明艷晃眼

吃瓜黨二號(hào)頭目
2026-02-13 08:13:30
90后男生上門喂貓,春節(jié)前后20多天賺16萬,最多1天跑55單只睡3小時(shí),律師提醒:上門喂貓需提前明確責(zé)任

90后男生上門喂貓,春節(jié)前后20多天賺16萬,最多1天跑55單只睡3小時(shí),律師提醒:上門喂貓需提前明確責(zé)任

瀟湘晨報(bào)
2026-02-18 16:28:53
烏軍反攻,俄軍多條戰(zhàn)線潰不成軍

烏軍反攻,俄軍多條戰(zhàn)線潰不成軍

知兵
2026-02-25 00:28:43
2026-02-25 03:47:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12196文章數(shù) 176392關(guān)注度
往期回顧 全部

科技要聞

宇樹科技發(fā)布四足機(jī)器人Unitree As2

頭條要聞

男子摟住繼女強(qiáng)吻動(dòng)作親密 當(dāng)?shù)貗D聯(lián)介入

頭條要聞

男子摟住繼女強(qiáng)吻動(dòng)作親密 當(dāng)?shù)貗D聯(lián)介入

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個(gè)熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會(huì)照顧好3個(gè)孩子

財(cái)經(jīng)要聞

縣城消費(fèi)「限時(shí)繁榮」了十天

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

房產(chǎn)
教育
時(shí)尚
游戲
本地

房產(chǎn)要聞

330萬人涌入!春節(jié)全國樓市,第一個(gè)賣爆的區(qū)域出現(xiàn)了!

教育要聞

馬馬馬上上岸!!!TTS《大吉大利復(fù)試手冊(cè)》+復(fù)試班:紙質(zhì)筆記與1v1模擬面試堂堂上線!!

闊腿褲失寵了?這4條褲子承包你整個(gè)春天的時(shí)髦!

LOL傳奇選手公布戀情!發(fā)博曬照被夸夫妻相,女方身份曝光

本地新聞

春花齊放2026:《駿馬奔騰迎新歲》

無障礙瀏覽 進(jìn)入關(guān)懷版