国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中國具身屠榜全球!10萬小時數(shù)據(jù)炸場,PI、英偉達集體破防

0
分享至


新智元報道

編輯:犀牛

【新智元導讀】10萬小時人類數(shù)據(jù)、不搞對齊只靠規(guī)模,靈初Psi-R2登頂MolmoSpaces。


具身智能領域最近有一個心照不宣的焦慮:真機遙操作數(shù)據(jù)這條路,可能走不下去了。

成本是一方面——采集一小時數(shù)據(jù)動輒花數(shù)百元,還得搭一套專業(yè)動捕環(huán)境。

速度更是硬傷:人盯著屏幕遙控機械臂,采集節(jié)奏很難跟上真實生產(chǎn)節(jié)拍。

這意味著,單純依賴遙操作數(shù)據(jù),恐怕無力同時支撐大規(guī)模訓練與產(chǎn)業(yè)落地。

那換條路呢?

人類本來就在真實作業(yè)場景中完成海量高精細操作,讓人直接干活,再把人的操作數(shù)據(jù)扒下來給機器人用。

難點至少兩個。

第一,人手和機械手長得不一樣,人類操作不能直接平移到機器人身上。

第二,如果只靠第一視角視頻去還原人手動作,精度又往往不夠,很難支撐高精細任務。

靈初智能最近交了一份答卷。

他們用10萬小時人類操作數(shù)據(jù)搭了一套PSI框架,里面有兩個大模型:策略模型Psi-R2負責學「任務該怎么做」,世界模型Psi-W0負責補換種做法會怎樣,再把人類操作一步步轉成機器人真能執(zhí)行的動作。(tech blog鏈接:https://www.psibot.ai/from-human-skill-to-robotic-mastery/)

模型之外,靈初還亮出了近10萬小時人類數(shù)據(jù),以及1000小時開源數(shù)據(jù)集。

這套方法之外,靈初智能同時拿出了近10萬小時人類數(shù)據(jù),以及1000小時開源數(shù)據(jù)集。

一、10萬小時人類數(shù)據(jù)

開始被當作機器人預訓練的主料

這套路子的起點很簡單:把人類操作數(shù)據(jù)直接塞進機器人預訓練的主干。

據(jù)靈初披露,Psi-R2預訓練同時用真機數(shù)據(jù)和人類數(shù)據(jù)。

真機數(shù)據(jù)來自靈初Psi-MobiDex數(shù)據(jù)集,5417小時;人類數(shù)據(jù)總規(guī)模95472小時,覆蓋294種場景、4821種任務、1382種物體。

背后是一種很直接的判斷。

具身智能長期缺「存量數(shù)據(jù)」——不像自動駕駛有多年路測積累,也不像大模型能從互聯(lián)網(wǎng)白撿海量文本。

機器人想學會做事,沒法像文字或圖像那樣從現(xiàn)成語料里撈,只能靠現(xiàn)實世界一口一口喂。

真機遙操作曾經(jīng)是條相對自然的路,但模型規(guī)模一大、任務一復雜,這種數(shù)據(jù)供給方式就開始掉鏈子。

于是人類數(shù)據(jù)的價值被重新抬了上來。

它的吸引力就兩條:一是來源天然豐富,人本來就在不停干活;二是數(shù)據(jù)更貼近真實作業(yè),天然帶著任務目標、動作細節(jié)和節(jié)拍信息。

說白了,機器人想學會干活,最密集、最成熟的示范樣本,本來就長在人手上。

關鍵是怎么把人類數(shù)據(jù)和真機數(shù)據(jù)捏在一起訓。

靈初試過一堆更復雜的招:圖像修復、關鍵點輔助損失、跨空間對齊……小數(shù)據(jù)量時確實管用。

但數(shù)據(jù)一上量,這些精巧模塊全成了瓶頸。

原因不復雜,這些方法本質上是想讓人手和機械手看起來一樣,可它倆的物理規(guī)律壓根不同。

對手機裝配這種精細活,強行對齊反而引入誤差。

最后剩下的,反而是一條樸素的路線:Raw Data In, Raw Data Out

落到工程上,就是把人手關節(jié)用運動學公式硬算成機械手關節(jié),圖像原封不動直接喂給模型,人為處理越少越好。

從結果看,這條路線暫時跑通了。

據(jù)靈初披露,Psi-R2完成預訓練后,只要用少于100條軌跡的真機數(shù)據(jù)微調,就能干手機裝配、工業(yè)包裝、紙盒折疊這些長時序、高精度的活。

光有數(shù)據(jù)還不夠。

怎么讓機器人「吃」進去?這就引出這套框架的真正核心——世界模型里的強化學習。

二、Psi-W0

把「如果失敗了會怎樣」補了回來

光看Psi-R2,這套方法有個天然缺口:它擅長從成功軌跡中學習,但自己很難長出反事實能力。

這正是世界模型該上場的地方。

Psi-W0吃進圖像、語言指令和機器人動作軌跡,吐出未來場景的視頻預測。

它和Psi-R2最大的不同在于:動作在這里不只是預測結果,而是直接參與條件生成。

說白了,它就是一個動作條件型世界模型(AC-WM)。

再直白一點:Psi-R2像「會做題的學生」,Psi-W0像一套能把過程重新推演的系統(tǒng)。

策略模型知道什么動作曾經(jīng)成功,卻不知道動作偏一點、順序亂一點、接觸晚一點會發(fā)生什么。

可偏偏強化學習、策略評估、人類動作向機器人動作的真正遷移,全都離不開這部分信息。

為了讓模型學會理解失敗,Psi-W0在訓練里額外加入了約30%的失敗樣本,這些數(shù)據(jù)來自專項采集、常規(guī)采集和推理過程。

這樣一來,它不只認識「成功長什么樣」,也開始知道「失敗會怎樣展開」。

在整套系統(tǒng)里,Psi-W0承擔著兩層作用

第一層是評估。類數(shù)據(jù)規(guī)模再大,也不等于知識自動進了模型。

策略到底有沒有真學會「人怎么做這件事」?

需要一個能推演軌跡、判斷結果的系統(tǒng)來檢驗,Psi-W0就是這個角色。

第二層更關鍵:它直接參與把人類數(shù)據(jù)轉成機器人數(shù)據(jù)。

以抓取任務為例。人類抓蘋果的動作映射到機器人身上,很可能就差那么一丁點就抓不起來。

對高精細任務,這種偏差往往是致命的。

傳統(tǒng)做法得把場景和物體重建進仿真器,再在仿真里做強化學習微調——流程重、成本高,還得忍受Sim2Real gap。

靈初智能的思路,是把這過程搬進世界模型里完成。

先讓Psi-R2學一條人類數(shù)據(jù),再把軌跡交給Psi-W0推演,在機器人視覺和機器人動力學條件下看動作結果;不理想就繼續(xù)用強化學習調,直到這條軌跡更貼近機器人真能執(zhí)行的狀態(tài)。

整體看,這相當于多了一層「夢里試錯」的空間。

好軌跡可以回流到訓練中,成為新的有效數(shù)據(jù);偏掉的軌跡也有價值,它們幫助模型識別失敗邊界,推動世界模型越來越準。

所謂數(shù)據(jù)飛輪,就是這么轉起來的。

這套方法很快在公開榜單上被驗證了。

在由美國 Allen Institute for AI 發(fā)起的 MolmoSpaces 榜單中,靈初智能的 Psi-R2 在總榜中位列第一,整體表現(xiàn)超過具身大模型標桿 π 以及英偉達 GEAR 等主流方案,并與其他基線模型拉開差距。

MolmoSpaces 是當前具身智能領域少數(shù)與真實世界評測具有較強相關性的公開基準之一。NVIDIA、PI 等全球頂尖團隊均參與本次評測。而 Psi-R2 位列其上。


三、數(shù)據(jù)真正的分水嶺

在于信噪比、精度和節(jié)拍

如果說雙模型架構回答的是「怎么學」,那這次發(fā)布里另一個更耐人尋味的問題,是「什么樣的數(shù)據(jù)才值得學」。

靈初智能給出了一個很干脆的判斷。

決定數(shù)據(jù)價值的核心因素,不在數(shù)量本身,而在信噪比。

低信噪比數(shù)據(jù)不光效率低,還會拖垮訓練效果。

再往細了拆:在數(shù)據(jù)分布上,優(yōu)先級是任務多樣性 > 物體多樣性 >> 場景多樣性;在感知模態(tài)上,優(yōu)先級是精準3D位姿 >> 觸覺模態(tài) > 2D圖像特征。

這組結論挺有指向性。

它說明具身智能模型真正缺的,是更豐富的任務類型、更扎實的物體交互、更高精度的動作軌跡。

畢竟對操作任務來說,背景很多時候只是背景,模型真正要學的是物體、動作和接觸關系。

在這幾個維度里,3D位姿精度尤其要命。

當前常見的人類數(shù)據(jù)采集方式里,純第一視角視頻當然成本低、規(guī)模大,但精度始終是硬傷。

據(jù)靈初披露的方案,他們通過端到端的第一視角手部檢測模型預測MANO參數(shù)和位姿,再結合DPVO和Any4D,把軌跡統(tǒng)一到世界坐標系。

即便如此,只靠純第一視角視頻恢復的人手操作軌跡,誤差仍然在毫米級;引入自研外骨骼手套之后,才能壓到亞毫米級。

這也是為什么精細裝配場景對采集精度格外敏感。手機裝配、紙盒插接、精密抓取這類任務,很多時候不是靠「差不多」就能完成,誤差只要再放大一點,動作就會徹底失效。


除了位姿精度,另一條線索是觸覺。

這幾年,觸覺在機器人通用模型里一直是個稀罕物。

因為機器人端的觸覺傳感器本身就難穩(wěn)定部署,不同硬件廠商的數(shù)據(jù)格式也不兼容,想把它做成可規(guī)?;瘡陀玫臄?shù)據(jù)源很難。

但人類側的觸覺采集條件寬松得多,設備更輕,成本也更低。

靈初這次把觸覺看作一條關鍵線索。

人和機器人外形不同、關節(jié)不同、動力學不同,但「碰到了沒有」、「接觸發(fā)生在什么時候」這類信號,本來就接近一種跨本體的共通語言。

考慮到現(xiàn)實里大多數(shù)機器人根本沒有成熟可用的觸覺通道,靈初用了Mask Training的方式:真機數(shù)據(jù)輸入時把觸覺通道屏蔽掉,讓模型去預測觸覺信號,而不是直接拿它當觀測輸入。

據(jù)其披露,引入觸覺后,Psi-W0的表現(xiàn)明顯提升,模型對機器人和物體交互過程的預判能力也更強。

再往下看,真正把實驗室和工廠區(qū)分開的,還是節(jié)拍。

這也是人類數(shù)據(jù)被重新看重的另一個原因。

真實工廠里的標準作業(yè)流程,往往是長期打磨出來的最優(yōu)結果,每多一個動作、每慢一個節(jié)拍,都可能在規(guī)?;a(chǎn)中被成倍放大。

假設機械臂物理運動上限是 1200,遙操作往往只能做到 800 甚至更低;而人在本職工作中完成操作時,節(jié)拍可以逼近機械臂的運動極限。

換句話說,人類數(shù)據(jù)的價值不只在于采得更便宜,也在于它更貼近真實 SOP,更貼近真實作業(yè)速度。

對于想走向落地的具身智能模型來說,這種數(shù)據(jù)天然更接近產(chǎn)業(yè)需求本身。

四、1000小時開源數(shù)據(jù)集

背后是一條更完整的訓練路徑

靈初這次還順手甩出了一套開源數(shù)據(jù)集??偙P子接近10萬小時的人類操作數(shù)據(jù),先開源其中1000小時。

別小看這1000小時。

門道藏在結構里:一類是高精度數(shù)據(jù),處理之后軌跡能高度對齊真機,回放性極強;另一類主攻大規(guī)模擴展,精度可控,優(yōu)先把數(shù)據(jù)量和泛化空間拉滿。

一個管操作精度,一個管預訓練邊界——兩種數(shù)據(jù)放在同一套體系里,訓練框架才算真正閉環(huán)。

順著往下看,這次發(fā)布的核心看點,早就不在模型名字、榜單排名或者開源數(shù)據(jù)本身。


靈初真正亮出來的,是一條完整的訓練路徑:當真機遙操作數(shù)據(jù)撐不起大規(guī)模預訓練,就把人類數(shù)據(jù)塞進訓練主脈。

但光有人類數(shù)據(jù)遠遠不夠——得靠策略模型承接,得靠世界模型做反事實推演和強化學習調優(yōu),還得有一套轉換機制,把人的動作穩(wěn)穩(wěn)當當變成機器人的動作。

靈初想占的,顯然不是一次榜單的C位。它在賭的,是下一階段具身智能訓練框架的卡位戰(zhàn)。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
縣城少婦們的幸福感很強

縣城少婦們的幸福感很強

微微熱評
2026-04-11 12:04:02
我國肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

我國肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

岐黃傳人孫大夫
2026-04-12 06:30:03
徐江:成都主帥技戰(zhàn)術能力強,國安主帥有框架但隨意,浙江這位慢吞吞

徐江:成都主帥技戰(zhàn)術能力強,國安主帥有框架但隨意,浙江這位慢吞吞

懂球帝
2026-04-12 23:09:00
如何優(yōu)雅地謀殺一座城:陳麗華的推土機與華新民的廢紙

如何優(yōu)雅地謀殺一座城:陳麗華的推土機與華新民的廢紙

有戲
2026-04-11 09:21:04
從王石“被抓”到“一切安好”,其實有些事情很不科學

從王石“被抓”到“一切安好”,其實有些事情很不科學

科學伙伴
2026-04-12 20:59:33
第三波來了!多架專機直飛中國,東南亞11國選邊站,中方已致賀電

第三波來了!多架專機直飛中國,東南亞11國選邊站,中方已致賀電

瀲滟晴方DAY
2026-04-12 23:52:01
斯諾克2場7-2!3大冠軍上半場落后,江俊告急,龐俊旭5-0到5-4!

斯諾克2場7-2!3大冠軍上半場落后,江俊告急,龐俊旭5-0到5-4!

劉姚堯的文字城堡
2026-04-12 21:32:31
殘陣廣東為何勝廣廈,聽聽媒體專家怎么說,廣東隊“殺手锏”太強

殘陣廣東為何勝廣廈,聽聽媒體專家怎么說,廣東隊“殺手锏”太強

曾蠃愛旅行
2026-04-12 22:46:47
全紅嬋后續(xù):香港媒體爆料,廣東體委撐腰,滬圈京圈打壓窮孩子!

全紅嬋后續(xù):香港媒體爆料,廣東體委撐腰,滬圈京圈打壓窮孩子!

眼光很亮
2026-04-10 14:29:21
現(xiàn)場打成一團!委內瑞拉爆發(fā)大示威,抗議人士怒:我們已忍了4年

現(xiàn)場打成一團!委內瑞拉爆發(fā)大示威,抗議人士怒:我們已忍了4年

燈光玄幻天天看
2026-04-12 23:02:00
扛不住了?巴拿馬總統(tǒng)突然發(fā)聲,對中國說了句讓所有人意外的話

扛不住了?巴拿馬總統(tǒng)突然發(fā)聲,對中國說了句讓所有人意外的話

近史博覽
2026-04-12 05:12:17
成都蓉城逆轉國安!媒體人熱議:真的要奪冠,蛻變成真正強隊

成都蓉城逆轉國安!媒體人熱議:真的要奪冠,蛻變成真正強隊

奧拜爾
2026-04-12 21:52:55
小米食堂發(fā)布新品“小米”冰激凌:標準、Pro、Max版,售價分別為5.99元、6.99元、8.99元

小米食堂發(fā)布新品“小米”冰激凌:標準、Pro、Max版,售價分別為5.99元、6.99元、8.99元

魯中晨報
2026-04-10 09:32:05
莫文蔚的腿真不是開玩笑的,連超模奚夢瑤坐在她旁邊都被比下去了

莫文蔚的腿真不是開玩笑的,連超模奚夢瑤坐在她旁邊都被比下去了

動物奇奇怪怪
2026-04-12 19:57:04
“人養(yǎng)屋,屋養(yǎng)人”真有道理,家里這3個地方越干凈,人越有福!

“人養(yǎng)屋,屋養(yǎng)人”真有道理,家里這3個地方越干凈,人越有福!

唯晨說
2026-04-11 08:40:06
NBA歷史首現(xiàn)!約基奇單賽季包攬助攻王+籃板王:MVP還有戲嗎?

NBA歷史首現(xiàn)!約基奇單賽季包攬助攻王+籃板王:MVP還有戲嗎?

羅說NBA
2026-04-12 06:35:40
張敬軒公開認錯:我所心系的國家,為過去不當言論深刻反省及后悔,向公眾致歉...

張敬軒公開認錯:我所心系的國家,為過去不當言論深刻反省及后悔,向公眾致歉...

廣州筍嘢益街坊
2026-04-12 11:09:05
重慶某設計院發(fā)低保:員工窮到絕望!

重慶某設計院發(fā)低保:員工窮到絕望!

黯泉
2026-04-12 20:09:56
快訊!萬斯突然宣布了!

快訊!萬斯突然宣布了!

達文西看世界
2026-04-12 13:20:48
0-1!熱刺轟然倒下:8億歐豪陣也沒用,陷入降級區(qū),保級形勢惡化

0-1!熱刺轟然倒下:8億歐豪陣也沒用,陷入降級區(qū),保級形勢惡化

足球狗說
2026-04-12 23:02:41
2026-04-13 00:32:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領航智能+時代
14954文章數(shù) 66768關注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風日產(chǎn):尊重同行

頭條要聞

特朗普:將封鎖任何試圖進出霍爾木茲海峽的船只

頭條要聞

特朗普:將封鎖任何試圖進出霍爾木茲海峽的船只

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭

財經(jīng)要聞

美伊談判破裂的三大癥結

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

本地
藝術
教育
公開課
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

藝術要聞

山東第一高樓即將完工!濟南CBD,顏值爆表!

教育要聞

高中地理必會知識點115條全梳理

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國副總統(tǒng)萬斯:美伊談判未能達成協(xié)議

無障礙瀏覽 進入關懷版