網易首頁 > 網易號 > 正文申請入駐

港科大聯手社區(qū)開源StarVLA：一個框架揭秘所有主流VLA

2026-05-09 11:30:18　來源: 機器之心Pro

天津舉報

分享至

如果說 2017 年的 PyTorch 讓深度學習從 "少數派的煉丹爐" 變成了 "人人可用的工程平臺"，那么具身智能（Embodied AI）正在等待屬于它自己的 "PyTorch 時刻"。

過去兩年，VLA（Vision-Language-Action，視覺-語言-動作）模型幾乎是機器人領域最火熱的方向：從 Google 的 RT-2、Physical Intelligence 的 π?，到 NVIDIA 的 GR00T、OpenVLA、Cosmos…… 幾乎每隔幾周就有新模型刷屏。但走進任何一個機器人實驗室你都會發(fā)現一個尷尬的現實：

想復現一篇論文？代碼不全、數據接口對不上；
想公平對比兩種方法？訓練協(xié)議、評估基準各搞一套；
想換個動作頭試試？整個工程幾乎要重寫一遍；
想知道 "VLM 主干" 和 "World Model 主干" 到底誰更強？沒有人在同等條件下比過。

整個 VLA 領域看似繁榮，實則像是一個個 "黑箱" 散落在不同實驗室里。

最近，來自港科大和開源社區(qū)團隊推出了StarVLA開放研究平臺。與其說他們創(chuàng)造了一個全新的 VLA 模型，不如說他們做了一件更 “基礎設施” 的事：將當前主流的 VLA 范式、動作頭、訓練策略和評估基準，統(tǒng)一整合到同一個開源框架中，讓所有實驗都可以在公平、透明、可復現的條件下進行。

值得一提的是，StarVLA 并非一蹴而就的新品，它早已在社區(qū)中經過充分檢驗，擁有超過 2.2k的 star，并獲得了廣泛認可，一直是社區(qū)最流行的框架之一，僅次于美國 NVIDIA 和 Physics Intelligent，在國內同類項目中中斷檔領先。

這或許正是 VLA 領域所需要的 “PyTorch 時刻”—— 不再只是比誰的 demo 更炫，而是讓研究者們站在同一條起跑線上，將 VLA 真正作為一門可以科學驗證的學科來深入研究。

論文標題：StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing
論文：https://arxiv.org/pdf/2604.05014
代碼：https://github.com/starVLA/starVLA
支持基準：LIBERO / SimplerEnv / RoboTwin 2.0 / RoboCasa-GR1 / BEHAVIOR-1K / VLA-Arena / Calvin / DOMINO ...

一、為什么說 VLA 需要一個 "PyTorch 時刻"？

回顧深度學習的發(fā)展史，會發(fā)現一個規(guī)律：任何一個領域真正爆發(fā)，都離不開一個統(tǒng)一的、開放的、可復現的實驗平臺。

計算機視覺之于 ImageNet + Caffe / PyTorch；
自然語言處理之于 HuggingFace Transformers；
大模型微調之于 LLaMA-Factory、DeepSpeed。

而 VLA 目前正處在 ImageNet 之前的 "前夜"：模型很多、demo 很炫、論文產出很快，但沒有人能告訴你，在嚴格控制變量的前提下，哪種設計真的更好。

舉幾個具體的 "靈魂拷問"：

自回歸動作分詞（FAST）、并行回歸（OFT）、Flow Matching（π?）、雙系統(tǒng)（GR00T）——這四種動作頭在同一個主干下的表現到底差多少？
VLM 路線（RT-2、π?）和 World Model 路線（Cosmos， DreamZero）——真的是兩條本質不同的路，還是只是 "輔助信號" 的選擇不同？
多模態(tài)協(xié)同訓練、跨具身聯合訓練 ——到底有沒有用？提升有多大？
在 LIBERO 上 SOTA 的方法，到 RoboCasa、RoboTwin, Behavior 上還能打嗎？

在 StarVLA 之前，這些問題幾乎沒有人能給出系統(tǒng)性答案—— 因為根本沒有同時支持這一切的統(tǒng)一平臺。

二、StarVLA 是什么？一個 "全棧式" 的 VLA 實驗平臺

StarVLA 的設計哲學非?？酥疲?strong>不發(fā)明新方法，而是把別人發(fā)明的好方法，統(tǒng)一搬到一個屋檐下。

整個框架由四層可插拔模塊組成：

每一層都可以自由替換、自由組合。想做 "換動作頭不換主干" 的對比？改一行配置。想驗證 "協(xié)同訓練" 的效果？改一個開關。想把 LIBERO 上訓好的模型搬到 RoboTwin 上跑實機？同一個接口。

這就是為什么我們說它是 VLA 領域的 "PyTorch 時刻"——它把之前需要重寫整個工程才能做的事，變成了改一行配置文件的事。

三、廣義 VLA 視角：所有方法，其實是一個公式

在統(tǒng)一這些方法的過程中，作者還提出了一個非常漂亮的理論觀察。

VLA 看似流派眾多 —— 有的基于語言模型，有的基于視頻生成模型；有的自回歸，有的擴散；有的單系統(tǒng)，有的雙系統(tǒng) —— 但當你把它們都塞進同一個框架后會發(fā)現，它們在數學結構上可以用同一個公式表達：

不同方法的本質區(qū)別，僅在于選用什么 "預訓練模型初始化" 以及 "輔助訓練的信號" 是什么：

VLM 路線：輔助信號是語言推理（讓模型繼續(xù) "會說話"）；
World Model 路線：輔助信號是未來畫面預測（讓模型繼續(xù) "會想象"）；
極簡路線：干脆沒有輔助信號，純動作監(jiān)督。

作者把這個統(tǒng)一視角稱為"廣義 VLA"（Generalized VLA）。它意味著：與其糾結 "該選哪條路線"，不如思考 "該選什么樣的輔助信號"。這一視角，為后續(xù) VLA 的系統(tǒng)性研究提供了一個清晰的理論坐標系。

VLM to VLA 和 World-Model to VLA 的統(tǒng)一架構

四、幾個 "反直覺" 的實驗發(fā)現

雖然 StarVLA 主打 "平臺" 而非 "刷榜"，但作者在搭建過程中也 "順手" 做了一批嚴格控制變量的實驗，結果頗有意思：

發(fā)現 1：極簡設置就能打出強基線

不做任何數據增強、只用基準原始數據和公開預訓練權重，StarVLA 在 LIBERO 上僅用 30K 步就達到了 98.8% 的成功率，在其他主流的 SimplerEnv, Robocasa-GR1, Robotwin 2.0, LIBERO-Plus 上也都有和主流大廠的模型具有非常接近的效果。

而前人代表方法 OpenVLA-OFT， GR00T, PI 等在同一基準上需要 175K 步 ——訓練步數減少了 6 倍。

這說明：以前很多論文堆的 "訓練 trick"，可能并沒有想象中那么必要。一個干凈、統(tǒng)一的工程實現本身，就能釋放出巨大的性能空間。

發(fā)現 2：數據 "雜" 反而更強 —— 通用模型超越專用模型

把 LIBERO、SimplerEnv、RoboTwin、RoboCasa 四個基準的數據混在一起訓練同一個模型，結果在難度最高的類人操作基準RoboCasa-GR1 上，成功率從 48.8% 提升到了 57.3%。

這意味著：跨任務、跨形態(tài)的多樣化數據并不會 "互相干擾"，反而會帶來正向遷移。這是支持 "機器人大一統(tǒng)模型" 路線的一個重要經驗證據。

發(fā)現 3：VLM 主干 vs World Model 主干，差距沒有想象中大

在同一個 OFT 動作頭下分別接入 Qwen3-VL（VLM 路線）和 Cosmos-Predict2（World Model 路線），兩者的性能相當接近。

這是一個非常重要的初步結論：業(yè)界一直在爭論的 "哪條路線才是 VLA 的未來"，可能本身就是個偽命題—— 真正決定性能的，也許并不是主干的 "血統(tǒng)"，而是輔助信號、訓練策略和數據組合。

發(fā)現 4：不做協(xié)同訓練，VLM 會在幾千步內 "失憶"

把一個預訓練好的 VLM 微調成機器人策略時，它在幾千步內就會迅速丟失原有的視覺理解和語言推理能力—— 物體識別變差、空間定位崩壞、指令理解退化。

而加入多模態(tài)協(xié)同訓練后，模型可以同時保住 "動腦" 和 "動手" 兩種能力。這一現象在論文中以清晰的曲線圖呈現，給所有想要微調 VLM 做機器人的研究者提了一個醒。

五、為什么這件事 "值得被看見"？

VLA 是當前最受資本和學術界關注的具身智能方向之一，但它也是最容易陷入 "內卷式刷榜" 的方向：每家都報告自己 SOTA，但沒人能在公平條件下被驗證。

StarVLA 的意義恰恰在于打破這種困境：

?對研究者：終于有了一個可復現、可控制變量的實驗平臺，做消融、做對比不再需要從零造輪子；

?對工程師：模塊化設計 + 統(tǒng)一接口，從 "換主干" 到 "換基準" 再到 "上實機" 全部打通；

?對整個領域：當所有方法都能在同一個框架里被公平地 "擺出來"，VLA 的發(fā)展就從 "比誰聲音大"，進入到 "比誰經得起驗證" 的科學階段。

這正是一個領域走向成熟的標志 —— 也正是我們說它是具身智能的"PyTorch 時刻"的原因。

六、開源信息

StarVLA 由香港科技大學團隊聯合開源社區(qū)共同推出，目前全部代碼、訓練腳本、評估接口與預訓練權重已開源，并將持續(xù)迭代。

論文：https://arxiv.org/pdf/2604.05014
代碼倉庫：https://github.com/starVLA/starVLA (目前已經 2.2k star, 感謝大家)
已支持基準：LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K
已集成方法：[QwenVL and Wan] X [FAST、OFT、π?、GR00T] 各式各樣的 backbone X action header …

如果你正在做 VLA 研究、想搭一套機器人策略基線、或者只是想搞清楚 "這些花里胡哨的 VLA 模型到底差在哪"——這個倉庫，值得 Star 一下。

本文報道由港科大 StarVLA 團隊提供素材，面向關注具身智能與機器人大模型的讀者。歡迎在 GitHub 上參與討論與共建。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.