国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

中國具身屠榜全球!10萬小時(shí)數(shù)據(jù)炸場,PI、英偉達(dá)集體破防

0
分享至


新智元報(bào)道

編輯:犀牛

【新智元導(dǎo)讀】10萬小時(shí)人類數(shù)據(jù)、不搞對齊只靠規(guī)模,靈初Psi-R2登頂MolmoSpaces。


具身智能領(lǐng)域最近有一個(gè)心照不宣的焦慮:真機(jī)遙操作數(shù)據(jù)這條路,可能走不下去了。

成本是一方面——采集一小時(shí)數(shù)據(jù)動(dòng)輒花數(shù)百元,還得搭一套專業(yè)動(dòng)捕環(huán)境。

速度更是硬傷:人盯著屏幕遙控機(jī)械臂,采集節(jié)奏很難跟上真實(shí)生產(chǎn)節(jié)拍。

這意味著,單純依賴遙操作數(shù)據(jù),恐怕無力同時(shí)支撐大規(guī)模訓(xùn)練與產(chǎn)業(yè)落地。

那換條路呢?

人類本來就在真實(shí)作業(yè)場景中完成海量高精細(xì)操作,讓人直接干活,再把人的操作數(shù)據(jù)扒下來給機(jī)器人用。

難點(diǎn)至少兩個(gè)。

第一,人手和機(jī)械手長得不一樣,人類操作不能直接平移到機(jī)器人身上。

第二,如果只靠第一視角視頻去還原人手動(dòng)作,精度又往往不夠,很難支撐高精細(xì)任務(wù)。

靈初智能最近交了一份答卷。

他們用10萬小時(shí)人類操作數(shù)據(jù)搭了一套PSI框架,里面有兩個(gè)大模型:策略模型Psi-R2負(fù)責(zé)學(xué)「任務(wù)該怎么做」,世界模型Psi-W0負(fù)責(zé)補(bǔ)換種做法會(huì)怎樣,再把人類操作一步步轉(zhuǎn)成機(jī)器人真能執(zhí)行的動(dòng)作。(tech blog鏈接:https://www.psibot.ai/from-human-skill-to-robotic-mastery/)

模型之外,靈初還亮出了近10萬小時(shí)人類數(shù)據(jù),以及1000小時(shí)開源數(shù)據(jù)集。

這套方法之外,靈初智能同時(shí)拿出了近10萬小時(shí)人類數(shù)據(jù),以及1000小時(shí)開源數(shù)據(jù)集。

一、10萬小時(shí)人類數(shù)據(jù)

開始被當(dāng)作機(jī)器人預(yù)訓(xùn)練的主料

這套路子的起點(diǎn)很簡單:把人類操作數(shù)據(jù)直接塞進(jìn)機(jī)器人預(yù)訓(xùn)練的主干。

據(jù)靈初披露,Psi-R2預(yù)訓(xùn)練同時(shí)用真機(jī)數(shù)據(jù)和人類數(shù)據(jù)。

真機(jī)數(shù)據(jù)來自靈初Psi-MobiDex數(shù)據(jù)集,5417小時(shí);人類數(shù)據(jù)總規(guī)模95472小時(shí),覆蓋294種場景、4821種任務(wù)、1382種物體。

背后是一種很直接的判斷。

具身智能長期缺「存量數(shù)據(jù)」——不像自動(dòng)駕駛有多年路測積累,也不像大模型能從互聯(lián)網(wǎng)白撿海量文本。

機(jī)器人想學(xué)會(huì)做事,沒法像文字或圖像那樣從現(xiàn)成語料里撈,只能靠現(xiàn)實(shí)世界一口一口喂。

真機(jī)遙操作曾經(jīng)是條相對自然的路,但模型規(guī)模一大、任務(wù)一復(fù)雜,這種數(shù)據(jù)供給方式就開始掉鏈子。

于是人類數(shù)據(jù)的價(jià)值被重新抬了上來。

它的吸引力就兩條:一是來源天然豐富,人本來就在不停干活;二是數(shù)據(jù)更貼近真實(shí)作業(yè),天然帶著任務(wù)目標(biāo)、動(dòng)作細(xì)節(jié)和節(jié)拍信息。

說白了,機(jī)器人想學(xué)會(huì)干活,最密集、最成熟的示范樣本,本來就長在人手上。

關(guān)鍵是怎么把人類數(shù)據(jù)和真機(jī)數(shù)據(jù)捏在一起訓(xùn)。

靈初試過一堆更復(fù)雜的招:圖像修復(fù)、關(guān)鍵點(diǎn)輔助損失、跨空間對齊……小數(shù)據(jù)量時(shí)確實(shí)管用。

但數(shù)據(jù)一上量,這些精巧模塊全成了瓶頸。

原因不復(fù)雜,這些方法本質(zhì)上是想讓人手和機(jī)械手看起來一樣,可它倆的物理規(guī)律壓根不同。

對手機(jī)裝配這種精細(xì)活,強(qiáng)行對齊反而引入誤差。

最后剩下的,反而是一條樸素的路線:Raw Data In, Raw Data Out。

落到工程上,就是把人手關(guān)節(jié)用運(yùn)動(dòng)學(xué)公式硬算成機(jī)械手關(guān)節(jié),圖像原封不動(dòng)直接喂給模型,人為處理越少越好。

從結(jié)果看,這條路線暫時(shí)跑通了。

據(jù)靈初披露,Psi-R2完成預(yù)訓(xùn)練后,只要用少于100條軌跡的真機(jī)數(shù)據(jù)微調(diào),就能干手機(jī)裝配、工業(yè)包裝、紙盒折疊這些長時(shí)序、高精度的活。

光有數(shù)據(jù)還不夠。

怎么讓機(jī)器人「吃」進(jìn)去?這就引出這套框架的真正核心——世界模型里的強(qiáng)化學(xué)習(xí)。

二、Psi-W0

把「如果失敗了會(huì)怎樣」補(bǔ)了回來

光看Psi-R2,這套方法有個(gè)天然缺口:它擅長從成功軌跡中學(xué)習(xí),但自己很難長出反事實(shí)能力。

這正是世界模型該上場的地方。

Psi-W0吃進(jìn)圖像、語言指令和機(jī)器人動(dòng)作軌跡,吐出未來場景的視頻預(yù)測。

它和Psi-R2最大的不同在于:動(dòng)作在這里不只是預(yù)測結(jié)果,而是直接參與條件生成。

說白了,它就是一個(gè)動(dòng)作條件型世界模型(AC-WM)。

再直白一點(diǎn):Psi-R2像「會(huì)做題的學(xué)生」,Psi-W0像一套能把過程重新推演的系統(tǒng)。

策略模型知道什么動(dòng)作曾經(jīng)成功,卻不知道動(dòng)作偏一點(diǎn)、順序亂一點(diǎn)、接觸晚一點(diǎn)會(huì)發(fā)生什么。

可偏偏強(qiáng)化學(xué)習(xí)、策略評(píng)估、人類動(dòng)作向機(jī)器人動(dòng)作的真正遷移,全都離不開這部分信息。

為了讓模型學(xué)會(huì)理解失敗,Psi-W0在訓(xùn)練里額外加入了約30%的失敗樣本,這些數(shù)據(jù)來自專項(xiàng)采集、常規(guī)采集和推理過程。

這樣一來,它不只認(rèn)識(shí)「成功長什么樣」,也開始知道「失敗會(huì)怎樣展開」。

在整套系統(tǒng)里,Psi-W0承擔(dān)著兩層作用。

第一層是評(píng)估。類數(shù)據(jù)規(guī)模再大,也不等于知識(shí)自動(dòng)進(jìn)了模型。

策略到底有沒有真學(xué)會(huì)「人怎么做這件事」?

需要一個(gè)能推演軌跡、判斷結(jié)果的系統(tǒng)來檢驗(yàn),Psi-W0就是這個(gè)角色。

第二層更關(guān)鍵:它直接參與把人類數(shù)據(jù)轉(zhuǎn)成機(jī)器人數(shù)據(jù)。

以抓取任務(wù)為例。人類抓蘋果的動(dòng)作映射到機(jī)器人身上,很可能就差那么一丁點(diǎn)就抓不起來。

對高精細(xì)任務(wù),這種偏差往往是致命的。

傳統(tǒng)做法得把場景和物體重建進(jìn)仿真器,再在仿真里做強(qiáng)化學(xué)習(xí)微調(diào)——流程重、成本高,還得忍受Sim2Real gap。

靈初智能的思路,是把這過程搬進(jìn)世界模型里完成。

先讓Psi-R2學(xué)一條人類數(shù)據(jù),再把軌跡交給Psi-W0推演,在機(jī)器人視覺和機(jī)器人動(dòng)力學(xué)條件下看動(dòng)作結(jié)果;不理想就繼續(xù)用強(qiáng)化學(xué)習(xí)調(diào),直到這條軌跡更貼近機(jī)器人真能執(zhí)行的狀態(tài)。

整體看,這相當(dāng)于多了一層「夢里試錯(cuò)」的空間。

好軌跡可以回流到訓(xùn)練中,成為新的有效數(shù)據(jù);偏掉的軌跡也有價(jià)值,它們幫助模型識(shí)別失敗邊界,推動(dòng)世界模型越來越準(zhǔn)。

所謂數(shù)據(jù)飛輪,就是這么轉(zhuǎn)起來的。

這套方法很快在公開榜單上被驗(yàn)證了。

在由美國 Allen Institute for AI 發(fā)起的 MolmoSpaces 榜單中,靈初智能的 Psi-R2 在總榜中位列第一,整體表現(xiàn)超過具身大模型標(biāo)桿 π 以及英偉達(dá) GEAR 等主流方案,并與其他基線模型拉開差距。

MolmoSpaces 是當(dāng)前具身智能領(lǐng)域少數(shù)與真實(shí)世界評(píng)測具有較強(qiáng)相關(guān)性的公開基準(zhǔn)之一。NVIDIA、PI 等全球頂尖團(tuán)隊(duì)均參與本次評(píng)測。而 Psi-R2 位列其上。


三、數(shù)據(jù)真正的分水嶺

在于信噪比、精度和節(jié)拍

如果說雙模型架構(gòu)回答的是「怎么學(xué)」,那這次發(fā)布里另一個(gè)更耐人尋味的問題,是「什么樣的數(shù)據(jù)才值得學(xué)」。

靈初智能給出了一個(gè)很干脆的判斷。

決定數(shù)據(jù)價(jià)值的核心因素,不在數(shù)量本身,而在信噪比。

低信噪比數(shù)據(jù)不光效率低,還會(huì)拖垮訓(xùn)練效果。

再往細(xì)了拆:在數(shù)據(jù)分布上,優(yōu)先級(jí)是任務(wù)多樣性 > 物體多樣性 >> 場景多樣性;在感知模態(tài)上,優(yōu)先級(jí)是精準(zhǔn)3D位姿 >> 觸覺模態(tài) > 2D圖像特征。

這組結(jié)論挺有指向性。

它說明具身智能模型真正缺的,是更豐富的任務(wù)類型、更扎實(shí)的物體交互、更高精度的動(dòng)作軌跡。

畢竟對操作任務(wù)來說,背景很多時(shí)候只是背景,模型真正要學(xué)的是物體、動(dòng)作和接觸關(guān)系。

在這幾個(gè)維度里,3D位姿精度尤其要命。

當(dāng)前常見的人類數(shù)據(jù)采集方式里,純第一視角視頻當(dāng)然成本低、規(guī)模大,但精度始終是硬傷。

據(jù)靈初披露的方案,他們通過端到端的第一視角手部檢測模型預(yù)測MANO參數(shù)和位姿,再結(jié)合DPVO和Any4D,把軌跡統(tǒng)一到世界坐標(biāo)系。

即便如此,只靠純第一視角視頻恢復(fù)的人手操作軌跡,誤差仍然在毫米級(jí);引入自研外骨骼手套之后,才能壓到亞毫米級(jí)。

這也是為什么精細(xì)裝配場景對采集精度格外敏感。手機(jī)裝配、紙盒插接、精密抓取這類任務(wù),很多時(shí)候不是靠「差不多」就能完成,誤差只要再放大一點(diǎn),動(dòng)作就會(huì)徹底失效。


除了位姿精度,另一條線索是觸覺。

這幾年,觸覺在機(jī)器人通用模型里一直是個(gè)稀罕物。

因?yàn)闄C(jī)器人端的觸覺傳感器本身就難穩(wěn)定部署,不同硬件廠商的數(shù)據(jù)格式也不兼容,想把它做成可規(guī)?;瘡?fù)用的數(shù)據(jù)源很難。

但人類側(cè)的觸覺采集條件寬松得多,設(shè)備更輕,成本也更低。

靈初這次把觸覺看作一條關(guān)鍵線索。

人和機(jī)器人外形不同、關(guān)節(jié)不同、動(dòng)力學(xué)不同,但「碰到了沒有」、「接觸發(fā)生在什么時(shí)候」這類信號(hào),本來就接近一種跨本體的共通語言。

考慮到現(xiàn)實(shí)里大多數(shù)機(jī)器人根本沒有成熟可用的觸覺通道,靈初用了Mask Training的方式:真機(jī)數(shù)據(jù)輸入時(shí)把觸覺通道屏蔽掉,讓模型去預(yù)測觸覺信號(hào),而不是直接拿它當(dāng)觀測輸入。

據(jù)其披露,引入觸覺后,Psi-W0的表現(xiàn)明顯提升,模型對機(jī)器人和物體交互過程的預(yù)判能力也更強(qiáng)。

再往下看,真正把實(shí)驗(yàn)室和工廠區(qū)分開的,還是節(jié)拍。

這也是人類數(shù)據(jù)被重新看重的另一個(gè)原因。

真實(shí)工廠里的標(biāo)準(zhǔn)作業(yè)流程,往往是長期打磨出來的最優(yōu)結(jié)果,每多一個(gè)動(dòng)作、每慢一個(gè)節(jié)拍,都可能在規(guī)?;a(chǎn)中被成倍放大。

假設(shè)機(jī)械臂物理運(yùn)動(dòng)上限是 1200,遙操作往往只能做到 800 甚至更低;而人在本職工作中完成操作時(shí),節(jié)拍可以逼近機(jī)械臂的運(yùn)動(dòng)極限。

換句話說,人類數(shù)據(jù)的價(jià)值不只在于采得更便宜,也在于它更貼近真實(shí) SOP,更貼近真實(shí)作業(yè)速度。

對于想走向落地的具身智能模型來說,這種數(shù)據(jù)天然更接近產(chǎn)業(yè)需求本身。

四、1000小時(shí)開源數(shù)據(jù)集

背后是一條更完整的訓(xùn)練路徑

靈初這次還順手甩出了一套開源數(shù)據(jù)集??偙P子接近10萬小時(shí)的人類操作數(shù)據(jù),先開源其中1000小時(shí)。

別小看這1000小時(shí)。

門道藏在結(jié)構(gòu)里:一類是高精度數(shù)據(jù),處理之后軌跡能高度對齊真機(jī),回放性極強(qiáng);另一類主攻大規(guī)模擴(kuò)展,精度可控,優(yōu)先把數(shù)據(jù)量和泛化空間拉滿。

一個(gè)管操作精度,一個(gè)管預(yù)訓(xùn)練邊界——兩種數(shù)據(jù)放在同一套體系里,訓(xùn)練框架才算真正閉環(huán)。

順著往下看,這次發(fā)布的核心看點(diǎn),早就不在模型名字、榜單排名或者開源數(shù)據(jù)本身。


靈初真正亮出來的,是一條完整的訓(xùn)練路徑:當(dāng)真機(jī)遙操作數(shù)據(jù)撐不起大規(guī)模預(yù)訓(xùn)練,就把人類數(shù)據(jù)塞進(jìn)訓(xùn)練主脈。

但光有人類數(shù)據(jù)遠(yuǎn)遠(yuǎn)不夠——得靠策略模型承接,得靠世界模型做反事實(shí)推演和強(qiáng)化學(xué)習(xí)調(diào)優(yōu),還得有一套轉(zhuǎn)換機(jī)制,把人的動(dòng)作穩(wěn)穩(wěn)當(dāng)當(dāng)變成機(jī)器人的動(dòng)作。

靈初想占的,顯然不是一次榜單的C位。它在賭的,是下一階段具身智能訓(xùn)練框架的卡位戰(zhàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
巴媒:巴鐵出兵沙特后獲120億美元購中國武器

巴媒:巴鐵出兵沙特后獲120億美元購中國武器

懸崖邊上的愛情
2026-04-14 10:40:07
研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

黯泉
2026-04-01 17:28:39
軍隊(duì)系統(tǒng)開始打假整風(fēng)了

軍隊(duì)系統(tǒng)開始打假整風(fēng)了

張嘴說財(cái)經(jīng)
2026-04-13 21:17:06
西班牙首相夫人正式被控多項(xiàng)腐敗罪行

西班牙首相夫人正式被控多項(xiàng)腐敗罪行

Nee看
2026-04-14 10:07:20
中國對航母需求多緊迫?福建艦僅服役1年,就要完全形成戰(zhàn)斗力

中國對航母需求多緊迫?福建艦僅服役1年,就要完全形成戰(zhàn)斗力

胖福的小木屋
2026-04-13 15:54:43
霍爾木茲海峽,突傳大消息!特朗普,最新發(fā)聲!比特幣直線跳水

霍爾木茲海峽,突傳大消息!特朗普,最新發(fā)聲!比特幣直線跳水

證券時(shí)報(bào)e公司
2026-04-11 21:48:29
全球首家AI妓院,革了成人行業(yè)的命

全球首家AI妓院,革了成人行業(yè)的命

廣告案例精選
2026-04-02 14:49:22
調(diào)查發(fā)現(xiàn):每天都喝酒的人,大多到了55歲后,身體或有4種痛苦

調(diào)查發(fā)現(xiàn):每天都喝酒的人,大多到了55歲后,身體或有4種痛苦

39健康網(wǎng)
2026-04-14 18:30:44
奧運(yùn)冠軍劉璇:36歲結(jié)4次婚,都嫁同一人,老公真實(shí)身份揭秘!

奧運(yùn)冠軍劉璇:36歲結(jié)4次婚,都嫁同一人,老公真實(shí)身份揭秘!

拳擊時(shí)空
2026-04-14 06:08:26
離岸人民幣對美元?jiǎng)?chuàng)近三年來新高

離岸人民幣對美元?jiǎng)?chuàng)近三年來新高

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-14 09:16:30
快訊!伊朗:談判延長一天

快訊!伊朗:談判延長一天

魯中晨報(bào)
2026-04-12 07:48:04
伊朗繳獲美軍飛行員的私人物品,有牙膏,內(nèi)褲,牛肉干,壓縮食品

伊朗繳獲美軍飛行員的私人物品,有牙膏,內(nèi)褲,牛肉干,壓縮食品

魔都姐姐雜談
2026-04-06 13:11:53
衛(wèi)報(bào):伊朗女足隊(duì)長加巴里被沒收的財(cái)產(chǎn)已被伊朗方面解凍

衛(wèi)報(bào):伊朗女足隊(duì)長加巴里被沒收的財(cái)產(chǎn)已被伊朗方面解凍

懂球帝
2026-04-14 11:39:07
70架軍機(jī)抵達(dá)以色列,又上當(dāng)了,巴鐵大軍出動(dòng),戰(zhàn)爭隨時(shí)爆發(fā)

70架軍機(jī)抵達(dá)以色列,又上當(dāng)了,巴鐵大軍出動(dòng),戰(zhàn)爭隨時(shí)爆發(fā)

咸魚金腦袋
2026-04-13 20:32:35
59歲王志文已準(zhǔn)備好了后事,一切從簡,骨灰回歸自然,遺憾公開!

59歲王志文已準(zhǔn)備好了后事,一切從簡,骨灰回歸自然,遺憾公開!

翰飛觀事
2026-04-13 22:14:07
雙航母封鎖伊朗,特朗普對華攤牌,中國船不許過,要買石油找美國

雙航母封鎖伊朗,特朗普對華攤牌,中國船不許過,要買石油找美國

健身狂人
2026-04-14 18:57:03
研究發(fā)現(xiàn):太陽位于銀河系的郊區(qū),但這反而是最大的幸運(yùn)

研究發(fā)現(xiàn):太陽位于銀河系的郊區(qū),但這反而是最大的幸運(yùn)

觀察宇宙
2026-04-13 09:23:50
現(xiàn)在干護(hù)士的都越來越美了

現(xiàn)在干護(hù)士的都越來越美了

微微熱評(píng)
2026-04-14 12:30:56
央行:4月15日將開展5000億元6個(gè)月買斷式逆回購操作

央行:4月15日將開展5000億元6個(gè)月買斷式逆回購操作

澎湃新聞
2026-04-14 18:02:30
拼多多3元一斤的豬肺,我哭著看完評(píng)論區(qū)

拼多多3元一斤的豬肺,我哭著看完評(píng)論區(qū)

風(fēng)味人間
2026-04-08 12:33:00
2026-04-14 20:31:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14968文章數(shù) 66769關(guān)注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

特朗普稱若發(fā)現(xiàn)中國對伊提供軍事支持將加稅 中方回應(yīng)

頭條要聞

特朗普稱若發(fā)現(xiàn)中國對伊提供軍事支持將加稅 中方回應(yīng)

體育要聞

帶出中超最大黑馬!他讓球迷們“排隊(duì)道歉”

娛樂要聞

宋祖兒劉宇寧戀情大反轉(zhuǎn) 正主火速辟謠

財(cái)經(jīng)要聞

許家印認(rèn)罪,他和恒大還有多少欠債?

汽車要聞

售12.99萬起/續(xù)航2000km 風(fēng)云T9L上市

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
數(shù)碼
手機(jī)
旅游

藝術(shù)要聞

這位美女畫家的夏天竟如此夢幻

秦嵐:風(fēng)里蕩秋千

數(shù)碼要聞

超頻三推出南岳SR700全塔工作站機(jī)箱

手機(jī)要聞

蘋果iOS 26.4現(xiàn)Bug:捷克語鍵盤缺失字符致用戶無法解鎖手機(jī)

旅游要聞

春日經(jīng)濟(jì)新圖景|這份原生態(tài),守住了春天最硬核的美!

無障礙瀏覽 進(jìn)入關(guān)懷版