国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,智元提出SOP,讓VLA模型在真實世界實現(xiàn)可擴展的在線進化

0
分享至



編輯|Panda、+0

對于電子產(chǎn)品,我們已然習(xí)慣了「出廠即巔峰」的設(shè)定:開箱的那一刻往往就是性能的頂點,隨后的每一天都在折舊。

但對于通用機器人來說,這個設(shè)定必須被顛覆。

試想,如果一個在實驗室里完成訓(xùn)練的 AI 機器人,一進家門面對光線稍暗的房間或堆滿雜物的茶幾就大腦宕機,那它就永遠(yuǎn)只能是一個昂貴的實驗品。這正是當(dāng)前具身智能面臨的尷尬真相:我們在互聯(lián)網(wǎng)知識里訓(xùn)練出了博學(xué)的預(yù)訓(xùn)練模型,可一旦讓它們走進充滿未知的物理世界,這些「理論巨人」往往會因為環(huán)境變化而束手無策:「懂」很多道理,卻依然干不好家務(wù)。

通用機器人的出路,絕不應(yīng)是被困在出廠設(shè)置里的「靜態(tài)標(biāo)品」,而應(yīng)當(dāng)是能在真實部署中、在每一次失敗和糾正中持續(xù)變強的生命體。

為了實現(xiàn)這一跨越,智元具身研究中心提出了SOP(Scalable Online Post-training)框架



  • 論文標(biāo)題:SOP: A Scalable Online Post-Training System for Vision-Language-Action Models
  • 官方博客:https://www.agibot.com/research/sop_zh

SOP,即可擴展在線后訓(xùn)練,是一種顛覆性的機器人學(xué)習(xí)新范式。據(jù)了解,這是業(yè)界首次在物理世界的后訓(xùn)練中深度整合了在線、分布式和多任務(wù)機制

通過 SOP 框架,智元具身研究中心構(gòu)建了一個「多機平行現(xiàn)實」與「云端集中進化」的閉環(huán),進而打破了機器人認(rèn)知的時間邊界,讓智能的進化不再止步于出廠的那一刻。



SOP:讓機器人實現(xiàn)在真實世界中的分布式持續(xù)學(xué)習(xí)

在過去幾年里,基于互聯(lián)網(wǎng)海量數(shù)據(jù)預(yù)訓(xùn)練的 VLA(視覺 - 語言 - 動作)模型,雖然賦予了機器人一定的通用泛化能力,但始終面臨一個難以逾越的鴻溝:「懂」不代表「能」

預(yù)訓(xùn)練模型或許「懂」什么是疊衣服,但當(dāng)它真正面對一件材質(zhì)松軟、光照復(fù)雜的真實衣物時,往往會因為分布偏移而束手無策。

為了解決這個問題,傳統(tǒng)的做法是后訓(xùn)練(post-training)。但這通常是一條離線、單機、順序的漫漫長路:采集數(shù)據(jù)、離線訓(xùn)練、更新模型、再次部署。這種模式下,機器人探索慢、迭代慢,且很容易在學(xué)習(xí)新任務(wù)時遺忘舊能力。

智元具身研究中心提出的 SOP 顛覆了這一陳舊范式。



它將 VLA 的后訓(xùn)練從「單機單打獨斗」轉(zhuǎn)變?yōu)椤?strong>在線、集群、并行」的集團軍作戰(zhàn)。形象地說,SOP 構(gòu)建了一個「多機平行現(xiàn)實 → 云端集中學(xué)習(xí) → 模型即時回流」的超級閉環(huán)。



分布式機器人隊伍:構(gòu)建「平行現(xiàn)實」

在 SOP 架構(gòu)下,不再是一臺機器人在苦苦探索,而是多臺機器人組成集群,共享同一個 VLA 策略。

這就好比在同一時間開啟了多個「平行現(xiàn)實」:有的機器人在嘗試疊衣服,有的在整理雜貨,有的在處理紙盒。



這種空間上的并行,大幅拓寬了真實世界中狀態(tài) - 動作分布的覆蓋面,讓系統(tǒng)能瞬間接觸到極其廣泛的場景,直接避開了單機學(xué)習(xí)容易陷入的局部瓶頸。

值得注意的是,人類還可以通過施加少量的干預(yù)性修正來加速學(xué)習(xí)過程



云端集中在線更新:分鐘級的進化速度

所有的運行軌跡、獎勵信號甚至人工糾正信息,都會被實時流式上傳至云端 GPU 集群。在這里,一個通才學(xué)習(xí)器(Generalist Learner)夜以繼日地運轉(zhuǎn),持續(xù)對策略模型進行在線更新。

為了支撐這種大規(guī)模的實時并發(fā),SOP 在底層架構(gòu)上搭建了一套工業(yè)級的分布式數(shù)據(jù)基座

系統(tǒng)采用了先進的Actor-Learner 分離架構(gòu),通過消息隊列完全解耦了數(shù)據(jù)生產(chǎn)與消費。這意味著系統(tǒng)具備了「零配置」的彈性水平擴展能力:新的機器人加入集群無需修改任何代碼或停機配置,只需連接消息隊列即可即插即用,自動分擔(dān)數(shù)據(jù)采集任務(wù)。



同時,針對物理世界復(fù)雜的網(wǎng)絡(luò)環(huán)境,SOP 建立了嚴(yán)苛的容錯與數(shù)據(jù)原子性機制。依靠本地緩沖和對象存儲的原子寫入特性,確保了即便在網(wǎng)絡(luò)波動或節(jié)點故障時,數(shù)據(jù)要么完整保存,要么完全回滾,絕不讓臟數(shù)據(jù)污染核心訓(xùn)練池。

為了讓學(xué)習(xí)更高效,SOP 內(nèi)置了一個聰明的動態(tài)采樣器(Adaptive Sampler)。它不像傳統(tǒng)模型那樣盲目混合數(shù)據(jù),而是能根據(jù)任務(wù)的實時訓(xùn)練損失「查漏補缺」,也就是自動加大對當(dāng)前薄弱環(huán)節(jié)的在線數(shù)據(jù)訓(xùn)練權(quán)重。這種有的放矢的學(xué)習(xí)策略,讓位于邊緣端的機器人能在數(shù)秒至數(shù)十秒內(nèi)獲得云端最新進化的大腦,真正實現(xiàn)了群體智能的實時同步。

這意味著,如果一臺機器人在北京學(xué)會了某個抓取動作的微調(diào),幾分鐘后,位于上海的另一臺機器人就能用上這套最新的記憶。

破解災(zāi)難性遺忘:泛化與精度的共存

傳統(tǒng)的單機在線訓(xùn)練往往面臨一個兩難:為了精通某項任務(wù)(如疊衣服),模型很容易退化成只懂這一件事的專家,喪失了通用的 VLA 能力。

SOP 通過多任務(wù)并行巧妙化解了這一矛盾。因為它是在更廣闊的分布中同時進行多任務(wù)學(xué)習(xí),而非按順序一個個學(xué),從而確保了 VLA 的通用性不會因針對某一任務(wù)的性能提升而受損。

下面展示 SOP 的偽代碼:



有效性驗證:從魯棒性涌現(xiàn)到具身智能的 Scaling Law

為了驗證 SOP 的有效性,智元具身研究中心團隊思考了三個問題:

  • SOP 對于預(yù)訓(xùn)練 VLA 的性能究竟有多大的提升?跟之前的一些離線方案相比呢?
  • 分布式機器人隊伍的數(shù)量規(guī)模擴展會如何影響性能?
  • 對于不同質(zhì)量的預(yù)訓(xùn)練模型,SOP 能否提供一致的性能增益?

為了解答這三個問題,智元具身研究中心基于自家的智元精靈 G1(Agibot G1)機器人平臺進行了實驗驗證。這是一款擁有雙臂 14 個自由度的移動操縱機器人,其頭頂與手腕配備的「三目」RGB 視覺系統(tǒng),配合 7 自由度的靈活手臂和 30Hz 的高頻控制,使其具備了在復(fù)雜非結(jié)構(gòu)化環(huán)境中執(zhí)行精細(xì)微操的硬件基礎(chǔ)。

結(jié)果呢?相當(dāng)亮眼!下面我們將深入挖掘?qū)嶒灁?shù)據(jù),你將看到:SOP 的技術(shù)可行性不僅得到了驗證,更展示了極高的「訓(xùn)練性價比」。

超越離線:不僅是成功率的提升,更是魯棒性的涌現(xiàn)

首先看看實驗所選的任務(wù) —— 可以說極具挑戰(zhàn)性:從雜貨補貨任務(wù)中涵蓋的 500 多種不同形態(tài)商品,到疊衣服任務(wù)中涉及的柔軟易變形物體,甚至包括協(xié)同打開冰柜門等復(fù)雜動作。這些場景不僅考驗機器人的認(rèn)知能力,更對操作的魯棒性提出了嚴(yán)苛要求。

在有效性驗證中,團隊選擇了HG-DAgger(典型的單機在線算法)RECAP(最新的 SOTA 離線方法)作為對比基準(zhǔn)。實驗設(shè)計非常直觀:先看基線模型表現(xiàn),再看經(jīng)過這些算法打磨后的效果,最后看接入 SOP 框架后的「終極形態(tài)」。



在各類測試場景下,結(jié)合 SOP 的在線多機方案全面碾壓了傳統(tǒng)單機或離線方法。更令人驚喜的細(xì)節(jié)出現(xiàn)在「疊衣服」和「疊紙盒」這類長序列任務(wù)中:SOP 訓(xùn)練出的模型展現(xiàn)了顯著的「恢復(fù)行為」。





這意味著,當(dāng)機器人在操作中出現(xiàn)細(xì)微偏差時,它不再像過去那樣直接導(dǎo)致任務(wù)失敗或中止,而是學(xué)會了類似人類的微調(diào)動作進行補救。

這種在動態(tài)交互中獲得的魯棒性,直接經(jīng)受住了極限壓力的考驗:在疊衣服和組裝紙盒的長程評估中,SOP 系統(tǒng)實現(xiàn)了超過 36 小時的連續(xù)運行且無性能衰減。這種穩(wěn)定性同時轉(zhuǎn)化為效率的質(zhì)變,特別是在疊衣服任務(wù)中,SOP 將系統(tǒng)的吞吐量直接翻倍,從每小時 21 件提升至 45 件。

以下視頻展示了配備了 SOP 的智元精靈 G1 連續(xù) 36 小時疊衣服與疊紙盒的視頻片段(已加速):



文中視頻鏈接:https://mp.weixin.qq.com/s/3I-zhRIZe6gPk_wR2GklcA

具身智能的 Scaling Law:用硬件換時間,效率達到原來 2.4 倍

如果說單機試驗只是「小試牛刀」,那么關(guān)于擴展性的實驗則回應(yīng)了工業(yè)界最關(guān)心問題:堆機器人數(shù)量,真的有用嗎?

團隊設(shè)置了單機、雙機和四機三種配置。實驗結(jié)果(見下表)展現(xiàn)了一個清晰的趨勢:隨著分布式集群規(guī)模的擴大,模型性能呈現(xiàn)出近乎線性的增長



在嚴(yán)格限制總訓(xùn)練時長為 3 小時的前提下,四機并行學(xué)習(xí)的最終成功率達到了92.5%,比單機提升了 12%。更關(guān)鍵的是,SOP 成功將硬件的擴展轉(zhuǎn)化為了學(xué)習(xí)時長的極致壓縮。要達到 80% 的性能基準(zhǔn)線,單機苦練需要 174 分鐘,而四機戰(zhàn)隊僅需 72 分鐘,訓(xùn)練速度達到原來的 2.4 倍

這表明,多機并行采集不僅能防止模型對單機特征的過擬合,也證實了在物理世界中,通過增加設(shè)備數(shù)量來加速模型進化的 Scaling Law 是真實有效的

突破預(yù)訓(xùn)練瓶頸:3 小時實戰(zhàn) > 上百小時數(shù)據(jù)堆砌

最后一組實驗揭示了 SOP 在訓(xùn)練成本上的優(yōu)勢。

團隊對比了分別使用 20 小時、80 小時和 160 小時數(shù)據(jù)預(yù)訓(xùn)練的模型。數(shù)據(jù)顯示,雖然預(yù)訓(xùn)練規(guī)模決定了模型的初始能力,但 SOP 給所有不同基礎(chǔ)的模型都帶來了穩(wěn)定的提升。



關(guān)鍵的對比出現(xiàn)在投入產(chǎn)出比上:當(dāng)預(yù)訓(xùn)練數(shù)據(jù)從 80 小時增加到 160 小時,巨大的算力和數(shù)據(jù)投入僅帶來了 4% 的性能提升,明顯的邊際效應(yīng)遞減已經(jīng)出現(xiàn)。然而,在同樣的瓶頸期,SOP 僅用了 3 小時的在軌經(jīng)驗,就換來了約 30% 的性能提升。這一數(shù)據(jù)有力地證明:部署后的在線學(xué)習(xí)不是對預(yù)訓(xùn)練的簡單重復(fù),而是更高維度的優(yōu)化。

但也需要指出,SOP 并非萬能藥。實驗發(fā)現(xiàn),最終的性能上限依然被預(yù)訓(xùn)練模型的初始規(guī)模所錨定。這表明在線學(xué)習(xí)本質(zhì)上是既有知識的超級優(yōu)化器,而非大規(guī)模預(yù)訓(xùn)練的完全替代品。

因此,對于追求極致性能的具身智能系統(tǒng)而言,在解決特定長尾問題和彌合「仿真 - 現(xiàn)實」差距時,幾小時的真實場景交互,往往比單純增加幾十小時的離線數(shù)據(jù)更為關(guān)鍵。

當(dāng)機器人開始進化……

當(dāng)我們重新審視 SOP 時,會發(fā)現(xiàn)它改變的不僅僅是某一項具體的訓(xùn)練技巧,而是整個通用機器人系統(tǒng)的生命周期。在傳統(tǒng)的工業(yè)邏輯中,產(chǎn)品交付即意味著研發(fā)的終點,但在具身智能時代,這個邏輯正被反轉(zhuǎn)。

智元具身研究中心通過 SOP 傳達了一個核心理念:通用機器人應(yīng)當(dāng)是一個在真實運行中持續(xù)進化的「生命體」

這種范式轉(zhuǎn)變意味著機器人可以帶著尚不完美的初始模型上線。對于產(chǎn)業(yè)而言,這極大地降低了落地的門檻:我們不再需要等到模型完美無缺才敢讓機器人走出實驗室,因為部署就是通往完美之路。SOP 能讓機器人的每一次任務(wù)執(zhí)行、每一次失敗后的糾正都轉(zhuǎn)化為寶貴的訓(xùn)練數(shù)據(jù)。部署不再是技術(shù)迭代的終點,而是更大規(guī)模學(xué)習(xí)的起點。

隨著遠(yuǎn)征、靈犀、精靈、Q1 等機器人走入真實世界,分布式集群的規(guī)模將呈指數(shù)級增長,我們也將見證一種前所未見的群體智能增長速度。



如果說 VLA 模型讓機器人第一次具備了通用的理解與行動能力,那么 SOP 所做的是讓眾多機器人的經(jīng)驗共同驅(qū)動智能的快速成長。它讓訓(xùn)練不再被鎖死在過去的數(shù)據(jù)集中,而是讓機器智能在每一次交互中不斷成長。這或許就是通用機器人走向大規(guī)模真實世界部署的關(guān)鍵一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
日軍為何攻不進延安?一位大將透露:在毛主席面前日本人還嫩著呢

日軍為何攻不進延安?一位大將透露:在毛主席面前日本人還嫩著呢

老范談史
2025-11-28 23:40:12
全球難度最高的直升機:美國獨霸技術(shù)60年,神話終于被中國打破

全球難度最高的直升機:美國獨霸技術(shù)60年,神話終于被中國打破

歷史求知所
2025-11-11 07:55:03
李顯龍說臺海:新加坡反對武力收臺,一旦爆發(fā)沖突,我們都很麻煩

李顯龍說臺海:新加坡反對武力收臺,一旦爆發(fā)沖突,我們都很麻煩

青途歷史
2026-01-09 14:38:18
東體:申花的人員調(diào)整還沒有結(jié)束,外援需要做減法

東體:申花的人員調(diào)整還沒有結(jié)束,外援需要做減法

懂球帝
2026-01-09 10:26:41
女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點到不赴約

女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點到不赴約

漢史趣聞
2025-11-08 09:27:32
中共湖北省委直屬機關(guān)工委領(lǐng)導(dǎo)班子調(diào)整

中共湖北省委直屬機關(guān)工委領(lǐng)導(dǎo)班子調(diào)整

王姐懶人家常菜
2026-01-08 15:52:34
對重傷球員施暴!阿森納紅星遭狂噴:可恥逃紅 利物浦全隊該揍他

對重傷球員施暴!阿森納紅星遭狂噴:可恥逃紅 利物浦全隊該揍他

我愛英超
2026-01-09 07:51:15
重磅!住房公積金將迎來大改革!

重磅!住房公積金將迎來大改革!

南通樓市說說
2026-01-08 16:36:38
第一批免簽去俄羅斯的中產(chǎn)傻眼了

第一批免簽去俄羅斯的中產(chǎn)傻眼了

風(fēng)向觀察
2025-12-16 18:26:08
釋永信塌房后,被曝為女明星開光,除了李湘外,多名女星被拉下水

釋永信塌房后,被曝為女明星開光,除了李湘外,多名女星被拉下水

阿器談史
2026-01-08 13:16:09
爆雷百億的浙金受害人,開始回款了

爆雷百億的浙金受害人,開始回款了

鳴金網(wǎng)
2026-01-08 18:54:10
1976年毛主席追悼會后,葉帥密會許世友,只問了一句話,南京軍區(qū)的指揮權(quán)到底在誰手里?

1976年毛主席追悼會后,葉帥密會許世友,只問了一句話,南京軍區(qū)的指揮權(quán)到底在誰手里?

文史明鑒
2026-01-04 18:33:13
女人坐了28年牢,出獄去辦證,民警一查系統(tǒng),當(dāng)場愣了

女人坐了28年牢,出獄去辦證,民警一查系統(tǒng),當(dāng)場愣了

卡西莫多的故事
2025-10-30 11:33:46
馬德興:U23男足還在爬坡中,整個亞洲都很膠著,0-0可以接受

馬德興:U23男足還在爬坡中,整個亞洲都很膠著,0-0可以接受

懂球帝
2026-01-09 12:12:14
同樣是20屆選秀,華子解鎖1萬分!三球5419分,馬克西哈利伯頓呢

同樣是20屆選秀,華子解鎖1萬分!三球5419分,馬克西哈利伯頓呢

兵哥籃球故事
2026-01-09 13:49:14
俄交通部確認(rèn)美軍登船 稱與“馬里涅拉號”失去聯(lián)系

俄交通部確認(rèn)美軍登船 稱與“馬里涅拉號”失去聯(lián)系

環(huán)球網(wǎng)資訊
2026-01-07 23:17:39
無緣中超!28歲日本名將加盟延邊 29場造24球助鐵人沖超+曾任隊長

無緣中超!28歲日本名將加盟延邊 29場造24球助鐵人沖超+曾任隊長

我愛英超
2026-01-09 10:58:59
我那兄弟娶了個洋媳婦,天天哀嚎:摟著俄羅斯老婆睡,堪比抱刺猬

我那兄弟娶了個洋媳婦,天天哀嚎:摟著俄羅斯老婆睡,堪比抱刺猬

前沿天地
2025-12-29 11:22:33
10萬元或能清零癌細(xì)胞?國產(chǎn)新型抗癌技術(shù)獲突破,治什么癌?

10萬元或能清零癌細(xì)胞?國產(chǎn)新型抗癌技術(shù)獲突破,治什么癌?

元爸體育
2026-01-09 12:33:54
不到24小時,中方又對日本命脈下手,高市承認(rèn),中國要來真的了

不到24小時,中方又對日本命脈下手,高市承認(rèn),中國要來真的了

悄悄史話
2026-01-09 01:21:30
2026-01-09 15:52:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142532關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

"老板"拉群開口就要150萬 女財務(wù)付100萬后感覺天塌了

頭條要聞

"老板"拉群開口就要150萬 女財務(wù)付100萬后感覺天塌了

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

英偉達的野心:做一套自動駕駛的“安卓系統(tǒng)”

態(tài)度原創(chuàng)

健康
時尚
手機
數(shù)碼
本地

這些新療法,讓化療不再那么痛苦

新年燙頭不想顯老10歲?看這篇就夠了

手機要聞

摩根大通正式接替高盛,成為蘋果Apple Card發(fā)卡機構(gòu)

數(shù)碼要聞

避免老設(shè)備“變磚”,Bose開源SoundTouch智能音箱API

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

無障礙瀏覽 進入關(guān)懷版