国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

Physical Intelligence發(fā)現(xiàn)人機遷移能力與預訓練多樣性正相關

0
分享至

就在不久前,機器人初創(chuàng)公司 Generalist AI 發(fā)布了他們的 GEN-0 模型,聲稱首次在機器人領域建立了類似語言模型的 scaling law,即隨著預訓練數(shù)據(jù)和計算量的增加,下游任務性能呈現(xiàn)可預測的冪律提升。

他們的訓練數(shù)據(jù)規(guī)模達到驚人的 27 萬小時真實世界操作視頻,遠超目前公開的任何機器人數(shù)據(jù)集。這一發(fā)現(xiàn)在業(yè)內引發(fā)了廣泛關注,因為它意味著機器人智能可能終于踏上了與大語言模型類似的可預測增長軌道。

今天,另一家知名的機器人初創(chuàng) Physical Intelligence 又發(fā)表了一項研究,從另一個角度佐證了規(guī)模效應的存在,而且揭示了一個此前容易被忽略的現(xiàn)象:不僅機器人策略本身會從規(guī)模中獲益,從異質數(shù)據(jù)源汲取知識的能力同樣是規(guī)模的產物。


圖丨相關論文(來源:Physical Intelligence)

具體而言,當 VLA(Vision-Language-Action,視覺-語言-動作)模型在足夠多樣化的場景、任務和機器人形態(tài)上完成預訓練之后,一種此前難以實現(xiàn)的能力會以“涌現(xiàn)”的方式出現(xiàn):模型突然具備了從人類視頻中學習技能并遷移到機器人執(zhí)行的能力。而在預訓練規(guī)模不足時,無論你怎么精心設計對齊機制,這種跨具身形態(tài)的遷移效果都難以令人滿意。


(來源:Physical Intelligence)

讓機器人觀看人類操作視頻來學習技能,是業(yè)內目前探索的重要路徑之一。它的吸引力顯而易見:人類視頻俯拾皆是,而機器人示范數(shù)據(jù)的采集成本高昂且進展緩慢。然而現(xiàn)實是,直接把人類視頻喂給機器人模型訓練,效果往往令人失望。

視覺上,人類的手與機器人的夾爪形態(tài)迥異;運動學上,人體關節(jié)自由度與機器人末端執(zhí)行器的動作空間天差地別。這道“跨具身形態(tài)”的鴻溝橫亙在人機之間,此前的解決方案大多依賴于各種精心設計的對齊技術,關鍵點追蹤、潛在動作編碼、獎勵建模、仿射變換等等。Physical Intelligence 這項研究的核心貢獻在于表明,在足夠的預訓練規(guī)模下,這些顯式對齊步驟可能根本不需要。

這項研究由 Physical Intelligence 聯(lián)合 Georgia Tech 的研究人員完成。第一作者 Simar Kareer 是 Georgia Tech 計算機視覺方向的博士生,此前他就以 EgoMimic 項目在業(yè)內嶄露頭角。那套系統(tǒng)用 Meta 的 Project Aria 眼鏡錄制人類第一人稱視頻,讓機器人通過模仿學習掌握疊衣服等家務技能,性能提升幅度達 400%。

EgoMimic 的成功依賴于一系列精心設計的跨域對齊技術,這也是此前該領域的通行做法。而這次的新研究則試圖回答一個更激進的問題:如果完全不做顯式對齊,純粹依靠預訓練規(guī)模,能否讓模型自己學會跨越具身形態(tài)的鴻溝?

為此,研究團隊設計了一套簡單到近乎粗暴的聯(lián)合訓練方案。他們把人類視頻當作 VLA 訓練混合數(shù)據(jù)中的“又一種機器人形態(tài)”來處理,采用與機器人數(shù)據(jù)完全相同的訓練目標:低層級的末端執(zhí)行器軌跡預測和高層級的子任務語言預測。

人類手部的 3D 姿態(tài)通過手勢追蹤技術提取,映射為類似機器人末端執(zhí)行器的相對運動;子任務標注則與機器人數(shù)據(jù)的標注格式保持一致。在微調階段,人類數(shù)據(jù)與對應任務的機器人數(shù)據(jù)按 50:50 的比例混合。沒有任何域適應模塊,沒有對抗訓練,沒有手工設計的特征對齊。

研究團隊刻意不去額外“照顧”模型,把那些常見的域適應與顯式對齊組件都拿掉,只保留最樸素的共同訓練配方,用這種近乎苛刻的設置來檢驗:模型能否僅憑預訓練打下的基礎,把這些異質數(shù)據(jù)真正消化并轉化為可執(zhí)行的策略。

實驗結果呈現(xiàn)出一條清晰的分界線。當 VLA 模型沒有經過預訓練或只在有限數(shù)據(jù)上預訓練時,加入人類視頻非但沒有幫助,有時甚至會產生負遷移效應。但隨著預訓練數(shù)據(jù)的多樣性逐步提升,從 25% 到 50%、75%,直至完整的多機器人跨形態(tài)預訓練,人類視頻帶來的增益開始顯著上升。在他們的四項泛化基準測試中,最強版本的模型幾乎將整體性能翻了一番。


(來源:Physical Intelligence)

這四項基準覆蓋了不同維度的泛化挑戰(zhàn)。場景泛化測試中,機器人需要在從未見過的公寓里整理調料架或梳妝臺,而這些新場景只出現(xiàn)在人類視頻中。物體泛化測試中,機器人要收拾桌上的新廚具,同樣是人類數(shù)據(jù)引入的品類。最具說服力的是任務泛化測試:機器人數(shù)據(jù)只演示過把雞蛋放進蛋托的動作,而人類視頻額外展示了按顏色分揀雞蛋的操作。

結果是,未經人類數(shù)據(jù)訓練的模型只會隨機放置,分揀正確率約 57%;而聯(lián)合訓練后的模型達到了 78% 的準確率,平均每次多正確放置 4 個雞蛋。機器人從人類視頻中學會了“分揀”這個它從未在機器人示范中見過的語義概念。

而且,這種能力并非線性增長,而是在跨過某個預訓練門檻后才突然顯現(xiàn)出來。

以雞蛋分揀任務為例,單純增加預訓練多樣性并不能讓只用機器人數(shù)據(jù)訓練的模型學會分揀,因為分揀這個概念根本不存在于機器人數(shù)據(jù)中。但增加預訓練多樣性卻能讓模型更有效地從人類視頻中獲取這一知識。

類似地,在梳妝臺整理任務上,50% 預訓練規(guī)模以下的模型從人類視頻中獲益甚微甚至出現(xiàn)負遷移,但在 75% 到 100% 的預訓練規(guī)模區(qū)間,增益開始穩(wěn)定累積。這種非線性的涌現(xiàn)模式與大語言模型中觀察到的現(xiàn)象如出一轍:某些能力不是漸進出現(xiàn)的,而是在跨越特定規(guī)模門檻后突然“解鎖”。

研究團隊進一步分析了這種涌現(xiàn)現(xiàn)象背后的機理。通過對模型最后一層視覺令牌的 t-SNE 降維可視化,他們發(fā)現(xiàn)了一個有趣的規(guī)律:在弱預訓練條件下,人類數(shù)據(jù)和機器人數(shù)據(jù)的表征呈現(xiàn)出明顯的分離態(tài)勢,模型似乎在用兩套不同的“語言”理解這兩類數(shù)據(jù)。但隨著預訓練多樣性增加,兩類數(shù)據(jù)的表征開始逐漸重疊,最終趨于高度混合。

換言之,充分多樣化的預訓練使得模型形成了“具身無關”的中間表示,人類手臂的揮動和機械臂的伸展在這個表示空間里可以被映射到語義相近的區(qū)域。這就解釋了為什么顯式對齊變得不再必要,模型自己完成了這項工作。

另外,這項研究也揭示,人類數(shù)據(jù)并不是萬能的。在某些任務上,人類視頻的效果接近于直接使用目標機器人數(shù)據(jù),研究團隊在整理梳妝臺和分揀雞蛋任務上觀察到了這一點。但在收拾餐桌的測試中,真實機器人數(shù)據(jù)仍然明顯優(yōu)于人類數(shù)據(jù)。

研究者將人類數(shù)據(jù)與來自另一款 UR5 機器人的跨形態(tài)遷移數(shù)據(jù)做了對比,發(fā)現(xiàn)兩者表現(xiàn)出相似的遷移特性:都比基線有所提升,但都不及目標機器人自身的數(shù)據(jù)。所以,在 VLA 的數(shù)據(jù)混合策略中,人類視頻更應該被視為一種有價值的補充數(shù)據(jù)源,而非完全替代方案。

另一個細節(jié)是腕部相機的作用。研究團隊讓人類數(shù)據(jù)采集者佩戴類似機器人腕部相機的微型攝像頭,以縮小傳感器配置上的域差距。在某些任務上,這些額外視角確實帶來了性能提升,但在另一些任務上影響甚微。這提示我們,人類數(shù)據(jù)采集的傳感器配置可能需要根據(jù)目標任務的特點進行權衡。

目前困擾整個行業(yè)的核心瓶頸之一是高質量機器人示范數(shù)據(jù)的采集成本。遙操作需要專業(yè)人員花費大量時間,而且容易引入操作失誤。如果人類視頻能夠有效補充機器人數(shù)據(jù),那么數(shù)據(jù)采集的邊際成本將大幅降低。普通人佩戴智能眼鏡從事日常活動產生的視頻流,理論上都可以成為機器人學習的素材。

Figure AI 最近宣布的 Project Go-Big 計劃走的就是這條路線,他們與房地產巨頭 Brookfield 合作,打算從其遍布全球的十萬余套住宅單元中大規(guī)模采集人類生活視頻,并聲稱已經實現(xiàn)了從純人類視頻到機器人導航的零樣本遷移。

不過,Physical Intelligence 的研究也給這種愿景設置了一個前提條件:想要有效利用人類視頻,你首先得有一個足夠強大的預訓練基礎。沒有經過充分多樣化預訓練的模型,拿到再多人類視頻也是枉然。也就是說,你必須先投入大量資源構建多樣化的機器人預訓練數(shù)據(jù)集,才能“解鎖”從人類視頻中學習的能力。


(來源:Physical Intelligence)

還有一點值得關注:這項研究使用的人類數(shù)據(jù)量相當有限,每個任務僅 3 到 5 小時,遠不及網絡上可獲取的海量人類活動視頻。研究者也坦承,他們目前的數(shù)據(jù)采集方式仍然是片段式的,尚未涉足“在野”環(huán)境下的被動采集。未來如何有效利用這些非結構化、非片段式的人類視頻數(shù)據(jù),仍是一個開放問題。但至少,這項研究確立了一個重要的基線:在適當?shù)念A訓練條件下,即便是相對少量的人類視頻也能產生可觀的遷移效果。

回顧整個發(fā)現(xiàn)的內在邏輯,其實并不難理解。充分多樣化的預訓練迫使模型學會抽象,因為它必須找到不同機器人形態(tài)、不同場景、不同任務之間的共性才能有效泛化。

這種被迫形成的抽象能力,恰好也是跨越人機鴻溝所需要的。當模型的內部表示不再緊密綁定于某一種特定的視覺外觀或運動學參數(shù),而是捕捉到更高層級的語義和意圖,人類手臂和機械手臂之間的差異就變得不再是無法逾越的障礙。

大語言模型領域的研究者很早就注意到,某些能力只有在模型規(guī)??缭教囟ㄩT檻后才會涌現(xiàn)。現(xiàn)在看來,機器人基礎模型也存在類似的規(guī)模門檻效應,只不過這里的“規(guī)?!辈粌H指參數(shù)量,更關鍵的是預訓練數(shù)據(jù)在場景、任務和具身形態(tài)三個維度上的多樣性。對于那些正在規(guī)劃機器人數(shù)據(jù)采集策略的團隊來說,這是一個值得認真對待的發(fā)現(xiàn):數(shù)據(jù)量固然重要,但數(shù)據(jù)的多樣性可能更加關鍵。

參考資料:

1.https://www.pi.website/download/human_to_robot.pdf

2.https://www.pi.website/research/human_to_robot

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
拔出蘿卜帶出泥,何猷君慘遭媒體爆料,揭開了賭王家里不倫的一面

拔出蘿卜帶出泥,何猷君慘遭媒體爆料,揭開了賭王家里不倫的一面

小嵩
2025-08-01 12:00:18
26歲小伙南太行墜亡!救援隊曝猛料,本來可以活,領隊被警方抓走

26歲小伙南太行墜亡!救援隊曝猛料,本來可以活,領隊被警方抓走

阿纂看事
2026-01-03 10:46:25
套人最多,跌得最慘的5只股票!

套人最多,跌得最慘的5只股票!

財經智多星
2026-01-04 11:47:43
委內瑞拉3000億桶石油的“詛咒”,連鎖反應開始了

委內瑞拉3000億桶石油的“詛咒”,連鎖反應開始了

大貓財經Pro
2026-01-04 11:30:29
醫(yī)生:脈壓差超過這個值,馬上管住嘴巴,血壓值再正常也不行

醫(yī)生:脈壓差超過這個值,馬上管住嘴巴,血壓值再正常也不行

健康之光
2026-01-03 15:15:03
美預言家朱迪再爆猛料:美日中命運已定,此島將首遭災

美預言家朱迪再爆猛料:美日中命運已定,此島將首遭災

心靈短笛
2025-11-14 09:28:10
腿粗屁股大的女生別亂穿衣服?灰色T恤搭配白色打底褲,魅力十足

腿粗屁股大的女生別亂穿衣服?灰色T恤搭配白色打底褲,魅力十足

朝史暮夕
2026-01-02 00:25:05
張小雷涉案1554億:為4個情婦揮霍2億元,他說最狠的話挨最毒的打

張小雷涉案1554億:為4個情婦揮霍2億元,他說最狠的話挨最毒的打

素衣讀史
2025-12-30 17:27:14
再度秒光!1499元飛天茅臺連續(xù)兩天上線即售罄,記者實測:半小時內6次放貨均被秒空

再度秒光!1499元飛天茅臺連續(xù)兩天上線即售罄,記者實測:半小時內6次放貨均被秒空

極目新聞
2026-01-02 10:01:58
斯諾克最新戰(zhàn)報:兩場2-5,世界第3第4都輸了!墨菲又戰(zhàn)勝丁俊暉

斯諾克最新戰(zhàn)報:兩場2-5,世界第3第4都輸了!墨菲又戰(zhàn)勝丁俊暉

球場沒跑道
2026-01-03 23:31:02
換個身份,上海男籃的功勛隊長回來了!

換個身份,上海男籃的功勛隊長回來了!

新民晚報
2026-01-04 09:49:39
天箭科技凈利潤或減少超2億元,陷退市危機!股民可索賠

天箭科技凈利潤或減少超2億元,陷退市危機!股民可索賠

揚子晚報
2026-01-03 17:01:43
特朗普為什么要搞掉委內瑞拉總統(tǒng),而當初美國人沒對查韋斯下手

特朗普為什么要搞掉委內瑞拉總統(tǒng),而當初美國人沒對查韋斯下手

老土歷史
2026-01-03 20:46:45
“今日委內瑞拉,明日任何一國”,智利總統(tǒng)譴責美軍事行動

“今日委內瑞拉,明日任何一國”,智利總統(tǒng)譴責美軍事行動

界面新聞
2026-01-04 06:57:44
女王:一種關于清醒的隱喻

女王:一種關于清醒的隱喻

疾跑的小蝸牛
2026-01-03 15:15:36
宋慶齡不愿與孫中山合葬,直言緣由:“這個人陪了我 53年,我早就答應過,要和她葬在一起?!?>
    </a>
        <h3>
      <a href=宋慶齡不愿與孫中山合葬,直言緣由:“這個人陪了我 53年,我早就答應過,要和她葬在一起。” 史海孤雁
2025-12-27 20:40:17
方媛元旦曬三胎!笑稱女兒比自己還漂亮,承諾對三個寶貝一樣疼愛

方媛元旦曬三胎!笑稱女兒比自己還漂亮,承諾對三個寶貝一樣疼愛

娛圈小愚
2026-01-04 10:22:13
周深唱到零點,香港人沒投訴,全球網友卻瘋了

周深唱到零點,香港人沒投訴,全球網友卻瘋了

東方不敗然多多
2026-01-03 10:45:02
方媛上海購物被偶遇!生圖個子矮小身形肥碩,溜肩駝背無名媛氣質

方媛上海購物被偶遇!生圖個子矮小身形肥碩,溜肩駝背無名媛氣質

娛圈小愚
2026-01-04 11:01:31
全網嘲諷“丈夫因一臺電腦想離婚”事件:這種父母禍害了多少孩子

全網嘲諷“丈夫因一臺電腦想離婚”事件:這種父母禍害了多少孩子

凡知
2026-01-02 09:10:36
2026-01-04 13:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16072文章數(shù) 514446關注度
往期回顧 全部

科技要聞

雷軍:罵小米汽車有流量,但別故意抹黑

頭條要聞

男子在村口畫"天安門"墻繪爆火:因英語5考央美均落榜

頭條要聞

男子在村口畫"天安門"墻繪爆火:因英語5考央美均落榜

體育要聞

離開中超后,他成了足壇“倒鉤之王”

娛樂要聞

謝玲玲為101歲林老太慶生,四代同堂

財經要聞

委內瑞拉華商親歷:顧客排隊買生活物資

汽車要聞

最高續(xù)航310km 嵐圖泰山8或將上半年發(fā)布

態(tài)度原創(chuàng)

游戲
房產
家居
健康
軍事航空

一款PlayStation獨占游戲突然要下架!引發(fā)玩家擔憂

房產要聞

單盤最高狂賣64億!海南樓市2025年最全榜單發(fā)布!

家居要聞

黑白碰撞 個性多元冷冽風

這些新療法,讓化療不再那么痛苦

軍事要聞

視頻:馬杜羅被美特工押送走下飛機

無障礙瀏覽 進入關懷版