網易首頁 > 網易號 > 正文申請入駐

Physical Intelligence發(fā)現(xiàn)人機遷移能力與預訓練多樣性正相關

2025-12-17 13:18:32　來源: DeepTech深科技

北京舉報

分享至

就在不久前，機器人初創(chuàng)公司 Generalist AI 發(fā)布了他們的 GEN-0 模型，聲稱首次在機器人領域建立了類似語言模型的 scaling law，即隨著預訓練數(shù)據(jù)和計算量的增加，下游任務性能呈現(xiàn)可預測的冪律提升。

他們的訓練數(shù)據(jù)規(guī)模達到驚人的 27 萬小時真實世界操作視頻，遠超目前公開的任何機器人數(shù)據(jù)集。這一發(fā)現(xiàn)在業(yè)內引發(fā)了廣泛關注，因為它意味著機器人智能可能終于踏上了與大語言模型類似的可預測增長軌道。

今天，另一家知名的機器人初創(chuàng) Physical Intelligence 又發(fā)表了一項研究，從另一個角度佐證了規(guī)模效應的存在，而且揭示了一個此前容易被忽略的現(xiàn)象：不僅機器人策略本身會從規(guī)模中獲益，從異質數(shù)據(jù)源汲取知識的能力同樣是規(guī)模的產物。

圖丨相關論文（來源：Physical Intelligence）

具體而言，當 VLA（Vision-Language-Action，視覺－語言－動作）模型在足夠多樣化的場景、任務和機器人形態(tài)上完成預訓練之后，一種此前難以實現(xiàn)的能力會以“涌現(xiàn)”的方式出現(xiàn)：模型突然具備了從人類視頻中學習技能并遷移到機器人執(zhí)行的能力。而在預訓練規(guī)模不足時，無論你怎么精心設計對齊機制，這種跨具身形態(tài)的遷移效果都難以令人滿意。

（來源：Physical Intelligence）

讓機器人觀看人類操作視頻來學習技能，是業(yè)內目前探索的重要路徑之一。它的吸引力顯而易見：人類視頻俯拾皆是，而機器人示范數(shù)據(jù)的采集成本高昂且進展緩慢。然而現(xiàn)實是，直接把人類視頻喂給機器人模型訓練，效果往往令人失望。

視覺上，人類的手與機器人的夾爪形態(tài)迥異；運動學上，人體關節(jié)自由度與機器人末端執(zhí)行器的動作空間天差地別。這道“跨具身形態(tài)”的鴻溝橫亙在人機之間，此前的解決方案大多依賴于各種精心設計的對齊技術，關鍵點追蹤、潛在動作編碼、獎勵建模、仿射變換等等。Physical Intelligence 這項研究的核心貢獻在于表明，在足夠的預訓練規(guī)模下，這些顯式對齊步驟可能根本不需要。

這項研究由 Physical Intelligence 聯(lián)合 Georgia Tech 的研究人員完成。第一作者 Simar Kareer 是 Georgia Tech 計算機視覺方向的博士生，此前他就以 EgoMimic 項目在業(yè)內嶄露頭角。那套系統(tǒng)用 Meta 的 Project Aria 眼鏡錄制人類第一人稱視頻，讓機器人通過模仿學習掌握疊衣服等家務技能，性能提升幅度達 400％。

EgoMimic 的成功依賴于一系列精心設計的跨域對齊技術，這也是此前該領域的通行做法。而這次的新研究則試圖回答一個更激進的問題：如果完全不做顯式對齊，純粹依靠預訓練規(guī)模，能否讓模型自己學會跨越具身形態(tài)的鴻溝？

為此，研究團隊設計了一套簡單到近乎粗暴的聯(lián)合訓練方案。他們把人類視頻當作 VLA 訓練混合數(shù)據(jù)中的“又一種機器人形態(tài)”來處理，采用與機器人數(shù)據(jù)完全相同的訓練目標：低層級的末端執(zhí)行器軌跡預測和高層級的子任務語言預測。

人類手部的 3D 姿態(tài)通過手勢追蹤技術提取，映射為類似機器人末端執(zhí)行器的相對運動；子任務標注則與機器人數(shù)據(jù)的標注格式保持一致。在微調階段，人類數(shù)據(jù)與對應任務的機器人數(shù)據(jù)按 50：50 的比例混合。沒有任何域適應模塊，沒有對抗訓練，沒有手工設計的特征對齊。

研究團隊刻意不去額外“照顧”模型，把那些常見的域適應與顯式對齊組件都拿掉，只保留最樸素的共同訓練配方，用這種近乎苛刻的設置來檢驗：模型能否僅憑預訓練打下的基礎，把這些異質數(shù)據(jù)真正消化并轉化為可執(zhí)行的策略。

實驗結果呈現(xiàn)出一條清晰的分界線。當 VLA 模型沒有經過預訓練或只在有限數(shù)據(jù)上預訓練時，加入人類視頻非但沒有幫助，有時甚至會產生負遷移效應。但隨著預訓練數(shù)據(jù)的多樣性逐步提升，從 25％到 50％、75％，直至完整的多機器人跨形態(tài)預訓練，人類視頻帶來的增益開始顯著上升。在他們的四項泛化基準測試中，最強版本的模型幾乎將整體性能翻了一番。

（來源：Physical Intelligence）

這四項基準覆蓋了不同維度的泛化挑戰(zhàn)。場景泛化測試中，機器人需要在從未見過的公寓里整理調料架或梳妝臺，而這些新場景只出現(xiàn)在人類視頻中。物體泛化測試中，機器人要收拾桌上的新廚具，同樣是人類數(shù)據(jù)引入的品類。最具說服力的是任務泛化測試：機器人數(shù)據(jù)只演示過把雞蛋放進蛋托的動作，而人類視頻額外展示了按顏色分揀雞蛋的操作。

結果是，未經人類數(shù)據(jù)訓練的模型只會隨機放置，分揀正確率約 57％；而聯(lián)合訓練后的模型達到了 78％的準確率，平均每次多正確放置 4 個雞蛋。機器人從人類視頻中學會了“分揀”這個它從未在機器人示范中見過的語義概念。

而且，這種能力并非線性增長，而是在跨過某個預訓練門檻后才突然顯現(xiàn)出來。

以雞蛋分揀任務為例，單純增加預訓練多樣性并不能讓只用機器人數(shù)據(jù)訓練的模型學會分揀，因為分揀這個概念根本不存在于機器人數(shù)據(jù)中。但增加預訓練多樣性卻能讓模型更有效地從人類視頻中獲取這一知識。

類似地，在梳妝臺整理任務上，50％預訓練規(guī)模以下的模型從人類視頻中獲益甚微甚至出現(xiàn)負遷移，但在 75％到 100％的預訓練規(guī)模區(qū)間，增益開始穩(wěn)定累積。這種非線性的涌現(xiàn)模式與大語言模型中觀察到的現(xiàn)象如出一轍：某些能力不是漸進出現(xiàn)的，而是在跨越特定規(guī)模門檻后突然“解鎖”。

研究團隊進一步分析了這種涌現(xiàn)現(xiàn)象背后的機理。通過對模型最后一層視覺令牌的 t-SNE 降維可視化，他們發(fā)現(xiàn)了一個有趣的規(guī)律：在弱預訓練條件下，人類數(shù)據(jù)和機器人數(shù)據(jù)的表征呈現(xiàn)出明顯的分離態(tài)勢，模型似乎在用兩套不同的“語言”理解這兩類數(shù)據(jù)。但隨著預訓練多樣性增加，兩類數(shù)據(jù)的表征開始逐漸重疊，最終趨于高度混合。

換言之，充分多樣化的預訓練使得模型形成了“具身無關”的中間表示，人類手臂的揮動和機械臂的伸展在這個表示空間里可以被映射到語義相近的區(qū)域。這就解釋了為什么顯式對齊變得不再必要，模型自己完成了這項工作。

另外，這項研究也揭示，人類數(shù)據(jù)并不是萬能的。在某些任務上，人類視頻的效果接近于直接使用目標機器人數(shù)據(jù)，研究團隊在整理梳妝臺和分揀雞蛋任務上觀察到了這一點。但在收拾餐桌的測試中，真實機器人數(shù)據(jù)仍然明顯優(yōu)于人類數(shù)據(jù)。

研究者將人類數(shù)據(jù)與來自另一款 UR5 機器人的跨形態(tài)遷移數(shù)據(jù)做了對比，發(fā)現(xiàn)兩者表現(xiàn)出相似的遷移特性：都比基線有所提升，但都不及目標機器人自身的數(shù)據(jù)。所以，在 VLA 的數(shù)據(jù)混合策略中，人類視頻更應該被視為一種有價值的補充數(shù)據(jù)源，而非完全替代方案。

另一個細節(jié)是腕部相機的作用。研究團隊讓人類數(shù)據(jù)采集者佩戴類似機器人腕部相機的微型攝像頭，以縮小傳感器配置上的域差距。在某些任務上，這些額外視角確實帶來了性能提升，但在另一些任務上影響甚微。這提示我們，人類數(shù)據(jù)采集的傳感器配置可能需要根據(jù)目標任務的特點進行權衡。

目前困擾整個行業(yè)的核心瓶頸之一是高質量機器人示范數(shù)據(jù)的采集成本。遙操作需要專業(yè)人員花費大量時間，而且容易引入操作失誤。如果人類視頻能夠有效補充機器人數(shù)據(jù)，那么數(shù)據(jù)采集的邊際成本將大幅降低。普通人佩戴智能眼鏡從事日常活動產生的視頻流，理論上都可以成為機器人學習的素材。

Figure AI 最近宣布的 Project Go-Big 計劃走的就是這條路線，他們與房地產巨頭 Brookfield 合作，打算從其遍布全球的十萬余套住宅單元中大規(guī)模采集人類生活視頻，并聲稱已經實現(xiàn)了從純人類視頻到機器人導航的零樣本遷移。

不過，Physical Intelligence 的研究也給這種愿景設置了一個前提條件：想要有效利用人類視頻，你首先得有一個足夠強大的預訓練基礎。沒有經過充分多樣化預訓練的模型，拿到再多人類視頻也是枉然。也就是說，你必須先投入大量資源構建多樣化的機器人預訓練數(shù)據(jù)集，才能“解鎖”從人類視頻中學習的能力。

（來源：Physical Intelligence）

還有一點值得關注：這項研究使用的人類數(shù)據(jù)量相當有限，每個任務僅 3 到 5 小時，遠不及網絡上可獲取的海量人類活動視頻。研究者也坦承，他們目前的數(shù)據(jù)采集方式仍然是片段式的，尚未涉足“在野”環(huán)境下的被動采集。未來如何有效利用這些非結構化、非片段式的人類視頻數(shù)據(jù)，仍是一個開放問題。但至少，這項研究確立了一個重要的基線：在適當?shù)念A訓練條件下，即便是相對少量的人類視頻也能產生可觀的遷移效果。

回顧整個發(fā)現(xiàn)的內在邏輯，其實并不難理解。充分多樣化的預訓練迫使模型學會抽象，因為它必須找到不同機器人形態(tài)、不同場景、不同任務之間的共性才能有效泛化。

這種被迫形成的抽象能力，恰好也是跨越人機鴻溝所需要的。當模型的內部表示不再緊密綁定于某一種特定的視覺外觀或運動學參數(shù)，而是捕捉到更高層級的語義和意圖，人類手臂和機械手臂之間的差異就變得不再是無法逾越的障礙。

大語言模型領域的研究者很早就注意到，某些能力只有在模型規(guī)?？缭教囟ㄩT檻后才會涌現(xiàn)。現(xiàn)在看來，機器人基礎模型也存在類似的規(guī)模門檻效應，只不過這里的“規(guī)?！辈粌H指參數(shù)量，更關鍵的是預訓練數(shù)據(jù)在場景、任務和具身形態(tài)三個維度上的多樣性。對于那些正在規(guī)劃機器人數(shù)據(jù)采集策略的團隊來說，這是一個值得認真對待的發(fā)現(xiàn)：數(shù)據(jù)量固然重要，但數(shù)據(jù)的多樣性可能更加關鍵。

參考資料：

1.https://www.pi.website/download/human_to_robot.pdf

2.https://www.pi.website/research/human_to_robot

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.