剛剛，智元提出SOP，讓VLA模型在真實世界實現(xiàn)可擴展的在線進化

2026-01-06 17:50:12　來源: 機器之心Pro

北京舉報

分享至

編輯｜Panda、+0

對于電子產(chǎn)品，我們已然習(xí)慣了「出廠即巔峰」的設(shè)定：開箱的那一刻往往就是性能的頂點，隨后的每一天都在折舊。

但對于通用機器人來說，這個設(shè)定必須被顛覆。

試想，如果一個在實驗室里完成訓(xùn)練的 AI 機器人，一進家門面對光線稍暗的房間或堆滿雜物的茶幾就大腦宕機，那它就永遠(yuǎn)只能是一個昂貴的實驗品。這正是當(dāng)前具身智能面臨的尷尬真相：我們在互聯(lián)網(wǎng)知識里訓(xùn)練出了博學(xué)的預(yù)訓(xùn)練模型，可一旦讓它們走進充滿未知的物理世界，這些「理論巨人」往往會因為環(huán)境變化而束手無策：「懂」很多道理，卻依然干不好家務(wù)。

通用機器人的出路，絕不應(yīng)是被困在出廠設(shè)置里的「靜態(tài)標(biāo)品」，而應(yīng)當(dāng)是能在真實部署中、在每一次失敗和糾正中持續(xù)變強的生命體。

為了實現(xiàn)這一跨越，智元具身研究中心提出了SOP（Scalable Online Post-training）框架

論文標(biāo)題：SOP: A Scalable Online Post-Training System for Vision-Language-Action Models
官方博客：https://www.agibot.com/research/sop_zh

SOP，即可擴展在線后訓(xùn)練，是一種顛覆性的機器人學(xué)習(xí)新范式。據(jù)了解，這是業(yè)界首次在物理世界的后訓(xùn)練中深度整合了在線、分布式和多任務(wù)機制

通過 SOP 框架，智元具身研究中心構(gòu)建了一個「多機平行現(xiàn)實」與「云端集中進化」的閉環(huán)，進而打破了機器人認(rèn)知的時間邊界，讓智能的進化不再止步于出廠的那一刻。

SOP：讓機器人實現(xiàn)在真實世界中的分布式持續(xù)學(xué)習(xí)

在過去幾年里，基于互聯(lián)網(wǎng)海量數(shù)據(jù)預(yù)訓(xùn)練的 VLA（視覺 - 語言 - 動作）模型，雖然賦予了機器人一定的通用泛化能力，但始終面臨一個難以逾越的鴻溝：「懂」不代表「能」

預(yù)訓(xùn)練模型或許「懂」什么是疊衣服，但當(dāng)它真正面對一件材質(zhì)松軟、光照復(fù)雜的真實衣物時，往往會因為分布偏移而束手無策。

為了解決這個問題，傳統(tǒng)的做法是后訓(xùn)練（post-training）。但這通常是一條離線、單機、順序的漫漫長路：采集數(shù)據(jù)、離線訓(xùn)練、更新模型、再次部署。這種模式下，機器人探索慢、迭代慢，且很容易在學(xué)習(xí)新任務(wù)時遺忘舊能力。

智元具身研究中心提出的 SOP 顛覆了這一陳舊范式。

它將 VLA 的后訓(xùn)練從「單機單打獨斗」轉(zhuǎn)變?yōu)椤?strong>在線、集群、并行」的集團軍作戰(zhàn)。形象地說，SOP 構(gòu)建了一個「多機平行現(xiàn)實 → 云端集中學(xué)習(xí) → 模型即時回流」的超級閉環(huán)。

分布式機器人隊伍：構(gòu)建「平行現(xiàn)實」

在 SOP 架構(gòu)下，不再是一臺機器人在苦苦探索，而是多臺機器人組成集群，共享同一個 VLA 策略。

這就好比在同一時間開啟了多個「平行現(xiàn)實」：有的機器人在嘗試疊衣服，有的在整理雜貨，有的在處理紙盒。

這種空間上的并行，大幅拓寬了真實世界中狀態(tài) - 動作分布的覆蓋面，讓系統(tǒng)能瞬間接觸到極其廣泛的場景，直接避開了單機學(xué)習(xí)容易陷入的局部瓶頸。

值得注意的是，人類還可以通過施加少量的干預(yù)性修正來加速學(xué)習(xí)過程

云端集中在線更新：分鐘級的進化速度

所有的運行軌跡、獎勵信號甚至人工糾正信息，都會被實時流式上傳至云端 GPU 集群。在這里，一個通才學(xué)習(xí)器（Generalist Learner）夜以繼日地運轉(zhuǎn)，持續(xù)對策略模型進行在線更新。

為了支撐這種大規(guī)模的實時并發(fā)，SOP 在底層架構(gòu)上搭建了一套工業(yè)級的分布式數(shù)據(jù)基座

系統(tǒng)采用了先進的Actor-Learner 分離架構(gòu)，通過消息隊列完全解耦了數(shù)據(jù)生產(chǎn)與消費。這意味著系統(tǒng)具備了「零配置」的彈性水平擴展能力：新的機器人加入集群無需修改任何代碼或停機配置，只需連接消息隊列即可即插即用，自動分擔(dān)數(shù)據(jù)采集任務(wù)。

同時，針對物理世界復(fù)雜的網(wǎng)絡(luò)環(huán)境，SOP 建立了嚴(yán)苛的容錯與數(shù)據(jù)原子性機制。依靠本地緩沖和對象存儲的原子寫入特性，確保了即便在網(wǎng)絡(luò)波動或節(jié)點故障時，數(shù)據(jù)要么完整保存，要么完全回滾，絕不讓臟數(shù)據(jù)污染核心訓(xùn)練池。

為了讓學(xué)習(xí)更高效，SOP 內(nèi)置了一個聰明的動態(tài)采樣器（Adaptive Sampler）。它不像傳統(tǒng)模型那樣盲目混合數(shù)據(jù)，而是能根據(jù)任務(wù)的實時訓(xùn)練損失「查漏補缺」，也就是自動加大對當(dāng)前薄弱環(huán)節(jié)的在線數(shù)據(jù)訓(xùn)練權(quán)重。這種有的放矢的學(xué)習(xí)策略，讓位于邊緣端的機器人能在數(shù)秒至數(shù)十秒內(nèi)獲得云端最新進化的大腦，真正實現(xiàn)了群體智能的實時同步。

這意味著，如果一臺機器人在北京學(xué)會了某個抓取動作的微調(diào)，幾分鐘后，位于上海的另一臺機器人就能用上這套最新的記憶。

破解災(zāi)難性遺忘：泛化與精度的共存

傳統(tǒng)的單機在線訓(xùn)練往往面臨一個兩難：為了精通某項任務(wù)（如疊衣服），模型很容易退化成只懂這一件事的專家，喪失了通用的 VLA 能力。

SOP 通過多任務(wù)并行巧妙化解了這一矛盾。因為它是在更廣闊的分布中同時進行多任務(wù)學(xué)習(xí)，而非按順序一個個學(xué)，從而確保了 VLA 的通用性不會因針對某一任務(wù)的性能提升而受損。

下面展示 SOP 的偽代碼：

有效性驗證：從魯棒性涌現(xiàn)到具身智能的 Scaling Law

為了驗證 SOP 的有效性，智元具身研究中心團隊思考了三個問題：

SOP 對于預(yù)訓(xùn)練 VLA 的性能究竟有多大的提升？跟之前的一些離線方案相比呢？
分布式機器人隊伍的數(shù)量規(guī)模擴展會如何影響性能？
對于不同質(zhì)量的預(yù)訓(xùn)練模型，SOP 能否提供一致的性能增益？

為了解答這三個問題，智元具身研究中心基于自家的智元精靈 G1（Agibot G1）機器人平臺進行了實驗驗證。這是一款擁有雙臂 14 個自由度的移動操縱機器人，其頭頂與手腕配備的「三目」RGB 視覺系統(tǒng)，配合 7 自由度的靈活手臂和 30Hz 的高頻控制，使其具備了在復(fù)雜非結(jié)構(gòu)化環(huán)境中執(zhí)行精細(xì)微操的硬件基礎(chǔ)。

結(jié)果呢？相當(dāng)亮眼！下面我們將深入挖掘?qū)嶒灁?shù)據(jù)，你將看到：SOP 的技術(shù)可行性不僅得到了驗證，更展示了極高的「訓(xùn)練性價比」。

超越離線：不僅是成功率的提升，更是魯棒性的涌現(xiàn)

首先看看實驗所選的任務(wù) —— 可以說極具挑戰(zhàn)性：從雜貨補貨任務(wù)中涵蓋的 500 多種不同形態(tài)商品，到疊衣服任務(wù)中涉及的柔軟易變形物體，甚至包括協(xié)同打開冰柜門等復(fù)雜動作。這些場景不僅考驗機器人的認(rèn)知能力，更對操作的魯棒性提出了嚴(yán)苛要求。

在有效性驗證中，團隊選擇了HG-DAgger（典型的單機在線算法）RECAP（最新的 SOTA 離線方法）作為對比基準(zhǔn)。實驗設(shè)計非常直觀：先看基線模型表現(xiàn)，再看經(jīng)過這些算法打磨后的效果，最后看接入 SOP 框架后的「終極形態(tài)」。

在各類測試場景下，結(jié)合 SOP 的在線多機方案全面碾壓了傳統(tǒng)單機或離線方法。更令人驚喜的細(xì)節(jié)出現(xiàn)在「疊衣服」和「疊紙盒」這類長序列任務(wù)中：SOP 訓(xùn)練出的模型展現(xiàn)了顯著的「恢復(fù)行為」。

這意味著，當(dāng)機器人在操作中出現(xiàn)細(xì)微偏差時，它不再像過去那樣直接導(dǎo)致任務(wù)失敗或中止，而是學(xué)會了類似人類的微調(diào)動作進行補救。

這種在動態(tài)交互中獲得的魯棒性，直接經(jīng)受住了極限壓力的考驗：在疊衣服和組裝紙盒的長程評估中，SOP 系統(tǒng)實現(xiàn)了超過 36 小時的連續(xù)運行且無性能衰減。這種穩(wěn)定性同時轉(zhuǎn)化為效率的質(zhì)變，特別是在疊衣服任務(wù)中，SOP 將系統(tǒng)的吞吐量直接翻倍，從每小時 21 件提升至 45 件。

以下視頻展示了配備了 SOP 的智元精靈 G1 連續(xù) 36 小時疊衣服與疊紙盒的視頻片段（已加速）：

文中視頻鏈接：https://mp.weixin.qq.com/s/3I-zhRIZe6gPk_wR2GklcA

具身智能的 Scaling Law：用硬件換時間，效率達到原來 2.4 倍

如果說單機試驗只是「小試牛刀」，那么關(guān)于擴展性的實驗則回應(yīng)了工業(yè)界最關(guān)心問題：堆機器人數(shù)量，真的有用嗎？

團隊設(shè)置了單機、雙機和四機三種配置。實驗結(jié)果（見下表）展現(xiàn)了一個清晰的趨勢：隨著分布式集群規(guī)模的擴大，模型性能呈現(xiàn)出近乎線性的增長

在嚴(yán)格限制總訓(xùn)練時長為 3 小時的前提下，四機并行學(xué)習(xí)的最終成功率達到了92.5%，比單機提升了 12%。更關(guān)鍵的是，SOP 成功將硬件的擴展轉(zhuǎn)化為了學(xué)習(xí)時長的極致壓縮。要達到 80% 的性能基準(zhǔn)線，單機苦練需要 174 分鐘，而四機戰(zhàn)隊僅需 72 分鐘，訓(xùn)練速度達到原來的 2.4 倍

這表明，多機并行采集不僅能防止模型對單機特征的過擬合，也證實了在物理世界中，通過增加設(shè)備數(shù)量來加速模型進化的 Scaling Law 是真實有效的

突破預(yù)訓(xùn)練瓶頸：3 小時實戰(zhàn) > 上百小時數(shù)據(jù)堆砌

最后一組實驗揭示了 SOP 在訓(xùn)練成本上的優(yōu)勢。

團隊對比了分別使用 20 小時、80 小時和 160 小時數(shù)據(jù)預(yù)訓(xùn)練的模型。數(shù)據(jù)顯示，雖然預(yù)訓(xùn)練規(guī)模決定了模型的初始能力，但 SOP 給所有不同基礎(chǔ)的模型都帶來了穩(wěn)定的提升。

關(guān)鍵的對比出現(xiàn)在投入產(chǎn)出比上：當(dāng)預(yù)訓(xùn)練數(shù)據(jù)從 80 小時增加到 160 小時，巨大的算力和數(shù)據(jù)投入僅帶來了 4% 的性能提升，明顯的邊際效應(yīng)遞減已經(jīng)出現(xiàn)。然而，在同樣的瓶頸期，SOP 僅用了 3 小時的在軌經(jīng)驗，就換來了約 30% 的性能提升。這一數(shù)據(jù)有力地證明：部署后的在線學(xué)習(xí)不是對預(yù)訓(xùn)練的簡單重復(fù)，而是更高維度的優(yōu)化。

但也需要指出，SOP 并非萬能藥。實驗發(fā)現(xiàn)，最終的性能上限依然被預(yù)訓(xùn)練模型的初始規(guī)模所錨定。這表明在線學(xué)習(xí)本質(zhì)上是既有知識的超級優(yōu)化器，而非大規(guī)模預(yù)訓(xùn)練的完全替代品。

因此，對于追求極致性能的具身智能系統(tǒng)而言，在解決特定長尾問題和彌合「仿真 - 現(xiàn)實」差距時，幾小時的真實場景交互，往往比單純增加幾十小時的離線數(shù)據(jù)更為關(guān)鍵。

當(dāng)機器人開始進化……

當(dāng)我們重新審視 SOP 時，會發(fā)現(xiàn)它改變的不僅僅是某一項具體的訓(xùn)練技巧，而是整個通用機器人系統(tǒng)的生命周期。在傳統(tǒng)的工業(yè)邏輯中，產(chǎn)品交付即意味著研發(fā)的終點，但在具身智能時代，這個邏輯正被反轉(zhuǎn)。

智元具身研究中心通過 SOP 傳達了一個核心理念：通用機器人應(yīng)當(dāng)是一個在真實運行中持續(xù)進化的「生命體」

這種范式轉(zhuǎn)變意味著機器人可以帶著尚不完美的初始模型上線。對于產(chǎn)業(yè)而言，這極大地降低了落地的門檻：我們不再需要等到模型完美無缺才敢讓機器人走出實驗室，因為部署就是通往完美之路。SOP 能讓機器人的每一次任務(wù)執(zhí)行、每一次失敗后的糾正都轉(zhuǎn)化為寶貴的訓(xùn)練數(shù)據(jù)。部署不再是技術(shù)迭代的終點，而是更大規(guī)模學(xué)習(xí)的起點。

隨著遠(yuǎn)征、靈犀、精靈、Q1 等機器人走入真實世界，分布式集群的規(guī)模將呈指數(shù)級增長，我們也將見證一種前所未見的群體智能增長速度。

如果說 VLA 模型讓機器人第一次具備了通用的理解與行動能力，那么 SOP 所做的是讓眾多機器人的經(jīng)驗共同驅(qū)動智能的快速成長。它讓訓(xùn)練不再被鎖死在過去的數(shù)據(jù)集中，而是讓機器智能在每一次交互中不斷成長。這或許就是通用機器人走向大規(guī)模真實世界部署的關(guān)鍵一步。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.