Ψ?剛剛開源了！邁向通用人形機器人的基座模型

2026-03-25 15:21:27　來源: 機器之心Pro

河北舉報

分享至

人形機器人在春晚舞臺上大放異彩！然而，人們在看慣了機器人跳舞、后空翻，乃至武術表演之后，不禁開始思考：機器人何時才能真正走進大眾生活，解決日常生活中的瑣碎任務，從而解放人類的雙手？

剛剛，來自南加州大學的團隊開源了一個邁向通用人形機器人的基座模型 Ψ?（中文讀作：賽零），助力人形機器人的通用移動操作。在總體任務成功率和子任務指標上，Ψ?平均領先 NVIDIA 最新開源模型 GR00T N1.6 超過 40%。

01 引言從人類第一視角視頻中學習操作先驗知識

人形機器人移動操作（loco-manipulation）是當前具身智能領域最具挑戰(zhàn)性的研究方向之一。近年來，RT-1/2、OpenVLA、Gemini Robotics、GR00T、π0/0.5 等一系列工作相繼表明，大模型能夠顯著提升機器人操作的泛化能力。然而，這些方法普遍嚴重依賴大規(guī)模遙操作數(shù)據(jù)，而對于人形機器人而言，此類數(shù)據(jù)的采集成本十分高昂。

幸運的是，第一人稱視角人類視頻（egocentric human videos）由于信息豐富且易于獲取，為機器人學習提供了一種極具可擴展性的替代方案。

對于這類數(shù)據(jù)的利用，現(xiàn)有方法通常采用一種看似直覺的策略：將大量人類視頻數(shù)據(jù)與機器人數(shù)據(jù)混合在一起進行聯(lián)合訓練，試圖通過單純擴大數(shù)據(jù)規(guī)模來彌合人與機器人之間的差距。然而，這一策略真的是最優(yōu)解嗎？混合數(shù)據(jù)訓練往往會迫使模型同時學習兩種分布差異顯著的數(shù)據(jù)，這可能在一定程度上削弱模型的學習能力。

針對這一難題，南加州大學助理教授王越領銜的 Psi-Lab 聯(lián)合 NVIDIA 與 WorldEngine 提出了富有洞察力的新方案Ψ?。該基座模型僅需80 條真機遙操作數(shù)據(jù)，即可掌握長程移動操作能力。在論文中，研究團隊設計了八個包含移動與靈巧操作的長程任務進行評測。實驗結(jié)果表明，Ψ? 在總體任務成功率和子任務指標上，平均領先 NVIDIA 最新開源大模型GR00T N1.6超過40%。

論文標題：Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
論文鏈接：https://arxiv.org/abs/2603.12263
主頁鏈接：https://psi-lab.ai/Psi0/
代碼鏈接：https://github.com/physical-superintelligence-lab/Psi0

02 數(shù)據(jù)篇：真機遙操采集高質(zhì)量數(shù)據(jù)，

助力模型快速掌握新技能

圖 1 Ψ? 基座模型使用的訓練數(shù)據(jù)

高質(zhì)量的領域內(nèi)數(shù)據(jù)是模型學習長時域移動操作任務的關鍵。然而，現(xiàn)有遙操作系統(tǒng)仍存在明顯短板：端到端全身遙操作方案魯棒性不足，且大多將靈巧手簡化為低維夾爪指令；而將操作與行走解耦的方案雖提升了系統(tǒng)穩(wěn)定性，卻往往需要多人協(xié)作，實用性受到限制。

為此，Ψ? 團隊提出了一套定制化遙操作框架，將上半身姿態(tài)、靈巧手與行走控制三者解耦，實現(xiàn)單人完成全身控制。如圖 1 所示，操作者通過 PICO 頭顯和手腕追蹤器提供上半身姿態(tài)信息，由逆運動學求解器實時計算手臂與軀干的位置；MANUS 數(shù)據(jù)手套用于采集手指的精細動作，并直接控制靈巧手的全部自由度；行走指令則由腰部和腳部追蹤器推斷得到，并傳遞給 RL 策略負責下半身的穩(wěn)定控制。

這套輕量化的可穿戴方案不僅實現(xiàn)了單人全身操控，同時手腕追蹤器與 MANUS 手套的組合也有效規(guī)避了視覺 VR 追蹤中常見的遮擋與丟失問題，從而顯著提升了追蹤精度與系統(tǒng)可靠性。

03 模型訓練篇：經(jīng)典三階段訓練范式，

最大化不同類型數(shù)據(jù)的價值

Ψ? 的研究團隊發(fā)現(xiàn)，人類與人形機器人之間存在根本性的運動學差異以及動作分布鴻溝。簡單地將這兩類異構數(shù)據(jù)混合進行訓練，模型往往難以有效區(qū)分并利用不同來源數(shù)據(jù)各自的優(yōu)勢，從而導致數(shù)據(jù)利用效率不理想。那么，如何才能真正高效地利用這些異構數(shù)據(jù)呢？

核心思路在于 “解耦”：與其讓模型在統(tǒng)一混合訓練中自行消化所有數(shù)據(jù)，不如將學習過程拆分為多個階段，使每個階段都聚焦于從最合適的數(shù)據(jù)源中學習最關鍵的能力。

具體而言，Ψ? 提出了一種分階段訓練范式：

預訓練階段：在大規(guī)模第一人稱視角的人類操作視頻上進行自回歸預訓練，使視覺語言模型（VLM）學習可泛化的視覺 — 動作表征。這一階段的目標并非學習精確的機器人控制，而是從人類豐富的操作經(jīng)驗中提取高層次的視覺理解與動作語義。
后訓練階段：在高質(zhì)量的人形機器人真機數(shù)據(jù)上，訓練一個基于流匹配的多模態(tài)擴散動作專家，以學習精確的關節(jié)控制能力。這一階段的目標是將前一階段獲得的通用能力 “落地” 到具體的機器人本體上。
微調(diào)階段：在針對特定任務收集的少量真機遙操作數(shù)據(jù)上進行微調(diào)，使模型能夠快速適應具體任務場景與操作目標。這一階段的目標是利用少量高質(zhì)量數(shù)據(jù)對模型進行任務級對齊，使其在保持通用能力的同時，實現(xiàn)高成功率的任務執(zhí)行。

圖 2 Ψ? 采用經(jīng)典的三階段訓練配方

訓練配方（Training Recipe）

1. 預訓練：從人類視頻中學習操作先驗

Ψ? 的預訓練階段主要基于兩個數(shù)據(jù)集：EgoDex（約 829 小時的人類第一人稱靈巧操作視頻）和 Humanoid Everyday（約 31 小時、覆蓋 260 種任務的人形機器人數(shù)據(jù)）。

為實現(xiàn)人類手部數(shù)據(jù)與機器人末端執(zhí)行器數(shù)據(jù)的統(tǒng)一訓練，團隊設計了共享的任務空間動作表征：左右手各 24 維動作表示，其中包含 9 維腕部位姿（3D 位置 + 6D 旋轉(zhuǎn)）以及五根手指的 3D 指尖位置，總計 48 維。

在訓練效率方面，團隊做出了一個關鍵取舍：預訓練階段的核心目標是讓 VLM 習得操作語義與視覺表征，而非精確的運動控制，因此僅預測單步動作即可，無需預測完整的動作序列。具體實現(xiàn)上，研究團隊采用 FAST tokenizer 將連續(xù)動作離散化，將每條 48 維動作壓縮為約 20 個 token。

2. 后訓練：在真機數(shù)據(jù)上學習精確控制

預訓練賦予了 VLM 操作語義理解與視覺表征能力。接下來的問題是：如何將這些高層能力轉(zhuǎn)化為關節(jié)級的精確控制？

Ψ? 的做法是凍結(jié)已訓練好的 VLM 參數(shù)，從零訓練動作專家模塊 —— 以 VLM 提取的隱層特征為條件，通過 Flow Matching 學習生成精確的關節(jié)空間動作序列。動作專家采用 MM-DiT 架構，在這一階段發(fā)揮了關鍵作用：模型利用 flow 時間步特征分別調(diào)制動作（A）特征和視覺 — 語言（VL）特征，并在每個 Transformer Block 中使動作 token 與 VL token 進行聯(lián)合的全局注意力計算。

這一階段使用跨任務的真實人形機器人數(shù)據(jù)進行訓練，為后續(xù)特定任務的微調(diào)打下了堅實基礎。

3. 微調(diào)：少量數(shù)據(jù)快速習得復雜技能

在擁有預訓練的 VLM 與后訓練得到的動作專家之后，整個模型可以在少量領域內(nèi)遙操作數(shù)據(jù)上進行端到端微調(diào)，從而快速習得長時域、高靈巧度的全身操作能力。

04 模型架構篇：三大系統(tǒng)各司其職，

解耦大小腦實現(xiàn)全身控制

圖3 Ψ? 的模型架構

Ψ? 在模型架構上同樣遵循 “解耦” 的設計理念。考慮到視覺理解、動作生成與底層運動控制屬于不同層級的問題，系統(tǒng)將這些能力拆分為三個協(xié)同模塊：視覺語言策略、動作專家以及底層控制器。三者分工協(xié)作，從高層語義理解到低層控制逐級完成決策與執(zhí)行。

System-2：視覺語言骨干網(wǎng)絡

Ψ? 的高層策略以視覺語言模型（VLM）作為 “大腦”，負責理解視覺場景與語言指令。具體實現(xiàn)上，團隊選用了當前性能領先的 Qwen3-VL-2B-Instruct 作為該模塊的基座模型。

System-1：多模態(tài)擴散 Transformer 動作專家

在 VLM 提取的視覺 — 語言特征條件引導下，一個約 5 億參數(shù)的動作專家負責預測全身動作序列（動作片段，action chunk）。該模塊采用基于 Flow Matching 的多模態(tài)擴散 Transformer（MM-DiT）架構。相比普通的 DiT 動作頭，MM-DiT 能夠更高效地融合動作特征與視覺 — 語言特征，從而實現(xiàn)更精準的動作生成。

System-0：強化學習運動控制器

動作專家輸出的全身動作中，上半身的 28 個自由度關節(jié)角直接下發(fā)執(zhí)行；下半身的 8 維高層動作指令（包含俯仰角、身體高度、線速度等）則傳遞給 System-0—— 一個基于強化學習的底層跟蹤策略。該模塊采用現(xiàn)成的 AMO 控制器，負責將這些高層指令映射為 15 個自由度下半身關節(jié)角（3 個腰部 + 12 個腿部自由度）。

三個系統(tǒng)協(xié)同配合，最終輸出 43 個自由度的全身控制動作，實現(xiàn)人形機器人的靈巧操作與穩(wěn)定移動。

05 模型部署篇：實時動作輸出，

一倍速絲滑執(zhí)行各類任務

在人形機器人任務中，模型不僅需要生成精確動作，還需要滿足實時控制的要求。然而，大規(guī)模視覺 — 語言 — 動作模型往往存在推理延遲，容易導致機器人動作不連續(xù)，并可能出現(xiàn)抖動。Ψ? 通過在訓練階段引入實時動作分塊（RTC）機制，使模型在推理時能夠平滑銜接動作序列，從而實現(xiàn)穩(wěn)定、流暢的實時控制。

圖 4 Ψ? 展示的真機技能：倒水、握住把手、推車一氣呵成

訓練時實時動作分塊（Training-time RTC）

人形機器人需要流暢、快速響應的控制能力，尤其是在執(zhí)行需要長時域規(guī)劃的精細操作任務時。然而，目前主流的視覺 — 語言 — 動作模型（VLA）普遍參數(shù)量達到數(shù)十億級，這不可避免地帶來了推理延遲，導致機器人出現(xiàn) “不自然的走走停?！?行為。

為此，Ψ? 團隊在訓練階段引入了實時動作分塊（Real-Time Chunking，RTC）機制。RTC 的核心思想是：每次預測下一段動作時，模型會將上一段已提交執(zhí)行的動作塊作為條件輸入。這樣，模型能夠輸出連貫一致的未來動作序列。

為了讓訓練過程真實反映實際推理中的延遲情況，團隊在訓練時隨機對前 d 個動作 token 去除擴散噪聲，并在損失計算中將其屏蔽。其中，d 在 0 到 d_max 之間均勻采樣，d_max 表示以時間步為單位的最大推理延遲上限。

06 真機評測：八項任務實測，

平均成功率超基線 40%

為了驗證模型在真實環(huán)境中的泛化能力與穩(wěn)定性表現(xiàn)，Ψ? 在多個真實場景中的長時域操作任務上進行了系統(tǒng)性評測。實驗結(jié)果表明，在僅使用約 800 小時人類視頻數(shù)據(jù)和 30 小時真機數(shù)據(jù)進行訓練的情況下，Ψ? 在整體成功率上仍顯著領先現(xiàn)有基線方法。

圖 5 Ψ? 展示的真機任務，轉(zhuǎn)身倒水、擦碗、疊碗

如圖 4～8 所示，Ψ? 在八個真實場景的長時域操作任務上進行了評估，涵蓋了日常生活中的多種場景 —— 從抓取放置、推物、擦拭等基礎交互，到需要精細手指協(xié)調(diào)的靈巧操作（如擰水龍頭、勾出薯片托盤），再到涉及軀干旋轉(zhuǎn)、下蹲等全身動作，以及行走和轉(zhuǎn)向的移動任務，任務難度跨度極大。

在評估協(xié)議方面，每個任務收集了 80 條遙操作軌跡，所有基線模型均在相同數(shù)據(jù)集上進行了微調(diào)。每個任務由 3 到 5 個子任務組成，在報告整體成功率的同時，也單獨統(tǒng)計了每個子任務的成功率。

圖6 與基線模型的評估實驗結(jié)果對比

如圖 6 所示，Ψ? 模型在所有基線方法中表現(xiàn)最為突出，在八個長時域靈巧移動操作任務中均保持最穩(wěn)定的性能。尤其值得一提的是，它的平均整體成功率比排名第二的GR00T-N1.6—— 最新發(fā)布的人形機器人基礎模型 —— 高出至少 40%，而這些基線方法通常使用的訓練數(shù)據(jù)規(guī)模超過 Ψ? 的 10 倍。

圖 7 Ψ? 展示的真機任務：擰水龍頭，給人類遞水果籃

Ψ? 的優(yōu)異表現(xiàn)源于其分階段訓練范式：模型首先在大規(guī)模人類第一人稱操作視頻上進行視覺語言預訓練，從而學習與操作任務相關的視覺語義與動作先驗。隨后，利用高質(zhì)量的人形機器人真機數(shù)據(jù)訓練動作專家，使模型在機器人關節(jié)空間中建立精確的控制能力。通過這種逐步對齊的學習過程，高層語義理解可以自然過渡到低層運動控制，從而在復雜長時域操作任務中實現(xiàn)穩(wěn)定且高效的表現(xiàn)。

圖 8 Ψ? 展示的真機任務：抽出薯片筒，扔垃圾，雙手抱物下蹲

07 結(jié)論

這一結(jié)果有力地說明了一個關鍵洞察：有效的 scaling 并非單純堆積數(shù)據(jù)，而是用合適的數(shù)據(jù)，以正確的方式進行 scaling。具體而言，高質(zhì)量的第一人稱人類操作數(shù)據(jù)與領域特定的真機軌跡數(shù)據(jù)的組合，能夠帶來顯著優(yōu)異的性能表現(xiàn)。

更重要的是，這僅僅是一個開始。未來，隨著模型記憶能力的增強、更靈巧的機械手的引入，以及觸覺等多模態(tài)感知的加入，我們有理由相信，機器人將逐步具備更強的理解、學習與適應能力。它們不僅能夠完成單一任務，還將能夠在復雜的真實世界中持續(xù)學習、協(xié)作與進化。我們期待，這一方向的探索能夠推動通用機器人邁向一個更加開放、充滿可能性的未來。

作者簡介：

PSI-0項目由南加州大學 Physical Superintelligence Lab（PSI Lab，https://psi-lab.ai）與 WorldEngine 合作完成。該工作由南加州大學計算機科學助理教授王越指導，主要作者包括南加州大學博士生魏松林、李博謙、景弘毅，以及本科生趙振宇。

PSI Lab 致力于構建能夠在真實人類環(huán)境中安全、自主運行的物理智能體，推動人形機器人從實驗室走向日常生活。圍繞這一目標，實驗室持續(xù)開展機器人數(shù)據(jù)引擎、學習算法與系統(tǒng)部署等方向的研究，重點關注多模態(tài)數(shù)據(jù)構建、world model 與VLA、全身控制以及靈巧操作等關鍵問題，并強調(diào)算法研發(fā)與真實機器人系統(tǒng)落地的緊密結(jié)合。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.