国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepMind 顛覆機(jī)器人學(xué)習(xí)范式:讓機(jī)器像人一樣 “自由成長”

0
分享至



從 “模仿者” 到 “學(xué)習(xí)者”,機(jī)器人的進(jìn)化更進(jìn)一步。

作者丨劉欣

編輯丨陳彩嫻

機(jī)器人在底層控制方面的應(yīng)用始終局限于行為克隆,這種類似于照貓畫虎的學(xué)習(xí)方式,要求機(jī)器人必須依賴海量標(biāo)注的模仿數(shù)據(jù),不僅收集成本極高,更無法讓機(jī)器人應(yīng)對訓(xùn)練數(shù)據(jù)之外的全新場景。

谷歌 DeepMind 的最新研究試圖打破這一現(xiàn)狀,他們受到大型語言模型微調(diào)中強(qiáng)化學(xué)習(xí)階段成功經(jīng)驗(yàn)的啟發(fā),提出了一種面向機(jī)器人學(xué)的兩階段后訓(xùn)練方法,第一階段是監(jiān)督微調(diào)( Supervised Fine-Tuning, SFT ),第二階段是自我提升( Self-Improvement )。

通過在真實(shí)世界與仿真機(jī)器人實(shí)體( LanguageTable 與 Aloha )上開展的大量實(shí)驗(yàn),提出的后訓(xùn)練方法在具身基礎(chǔ)模型上取得了顯著成果,機(jī)器人能自主練習(xí)并習(xí)得元朝訓(xùn)練時模仿學(xué)習(xí)數(shù)據(jù)集中所觀察到行為的新技能,并實(shí)現(xiàn)廣泛泛化。



論文鏈接:https://arxiv.org/pdf/2509.15155

01

兩階段后訓(xùn)練框架

本研究的核心是探究強(qiáng)化學(xué)習(xí)后訓(xùn)練在機(jī)器人具身基礎(chǔ)模型中的有效性。然而,機(jī)器人強(qiáng)化學(xué)習(xí)(尤其是操作任務(wù))面臨的關(guān)鍵挑戰(zhàn)是獎勵工程問題:設(shè)計(jì)有效的獎勵函數(shù)需要反復(fù)迭代訓(xùn)練策略并修正獎勵定義以規(guī)避非預(yù)期結(jié)果;此外,即便獎勵定義完美,在真實(shí)世界中測量獎勵也需要大量工程投入。因此,當(dāng)團(tuán)隊(duì)致力于訓(xùn)練能夠完成日益廣泛任務(wù)的機(jī)器人時,人工設(shè)計(jì)獎勵函數(shù)在真實(shí)世界機(jī)器人學(xué)中已難以為繼。


DeepMind 通過學(xué)習(xí)數(shù)據(jù)驅(qū)動型獎勵函數(shù)克服了這一障礙,該函數(shù)同時繼承了底層基礎(chǔ)模型經(jīng)網(wǎng)絡(luò)級預(yù)訓(xùn)練所具備的穩(wěn)健性與泛化性。提出的后訓(xùn)練框架如上圖所示,包含兩個階段:第一階段為監(jiān)督微調(diào)( Supervised Fine-Tuning, SFT ),利用以下兩種目標(biāo)對預(yù)訓(xùn)練基礎(chǔ)模型進(jìn)行微調(diào):a) 行為克隆;b) 剩余步驟預(yù)測( steps-to-go prediction )。第二階段為自我提升( Self-Improvement ),剩余步驟預(yù)測能夠助力提取平滑的獎勵函數(shù)與穩(wěn)健的成功檢測器,使機(jī)器人集群可在極少人工監(jiān)督的情況下自主練習(xí)下游任務(wù)。至關(guān)重要的是,數(shù)據(jù)驅(qū)動型獎勵設(shè)計(jì)無需真值獎勵,且能借助底層基礎(chǔ)模型的穩(wěn)健性與泛化性。

研究首先在第一階段先對模仿數(shù)據(jù)集進(jìn)行假設(shè),再基于數(shù)據(jù)集以預(yù)訓(xùn)練基礎(chǔ)模型初始化具身基礎(chǔ)模型,對行為克隆損失、剩余步驟預(yù)測損失這兩個目標(biāo)進(jìn)行監(jiān)督微調(diào)。在第二階段,則是想通過在線強(qiáng)化學(xué)習(xí)對具身基礎(chǔ)模型進(jìn)行下游任務(wù)微調(diào),以快速提升策略性能。研究對獎勵函數(shù)和成功指示器進(jìn)行了定義,即可對具身基礎(chǔ)模型進(jìn)行下游任務(wù)的在線強(qiáng)化學(xué)習(xí)微調(diào),凍結(jié)了一個第一階段的檢查點(diǎn)用于獎勵函數(shù)計(jì)算與成功檢測,同時也從第一階段檢查點(diǎn)初始化第二階段的策略。

研究提出了以下問題:

  • Q1:自我提升能否在監(jiān)督學(xué)習(xí)階段的基礎(chǔ)上進(jìn)一步提升下游任務(wù)性能?

  • Q2:監(jiān)督學(xué)習(xí)與自我提升的結(jié)合是否比單純的監(jiān)督學(xué)習(xí)具有更高的樣本效率?

  • Q3:依賴強(qiáng)化學(xué)習(xí)的自我提升方法是否足夠可靠且可復(fù)現(xiàn),能夠應(yīng)用于真實(shí)世界機(jī)器人學(xué)?

  • Q4:預(yù)訓(xùn)練對自我提升流程有何貢獻(xiàn)?

  • Q5:網(wǎng)絡(luò)級基礎(chǔ)模型預(yù)訓(xùn)練能否使自我提升在超出模仿數(shù)據(jù)集覆蓋范圍的任務(wù)上生效?

02

從“模仿者”到“學(xué)習(xí)者”

DeepMind 基于 LanguageTable 與 Aloha 兩種機(jī)器人實(shí)體,在仿真與真實(shí)世界環(huán)境中開展實(shí)驗(yàn),來驗(yàn)證所提自我提升框架的有效性,研究全程采用 30 億參數(shù)的 PaLI 視覺 - 語言模型作為基礎(chǔ)預(yù)訓(xùn)練模型。研究主要進(jìn)行了6個實(shí)驗(yàn)來回答上述問題,分別是:

(1)仿真 LanguageTable 實(shí)驗(yàn)

仿真 LanguageTable 領(lǐng)域第一階段策略訓(xùn)練所使用的數(shù)據(jù)集來自原始研究,包含 181,020 條人類生成軌跡,以及 78,623 條描述軌跡目標(biāo)的獨(dú)特指令。對該數(shù)據(jù)集進(jìn)行子采樣,生成 3 個新數(shù)據(jù)集(原始規(guī)模的 10%、20% 和 80%)。針對每個數(shù)據(jù)集規(guī)模,在第一階段訓(xùn)練后,采用 3 個隨機(jī)種子進(jìn)行第二階段微調(diào),以驗(yàn)證自我提升流程的可靠性。第二階段微調(diào)聚焦于 Block2Block 任務(wù)子集(例如 “將藍(lán)色月亮形狀塊移至紅色五邊形形狀塊處”),當(dāng)策略成功率趨于穩(wěn)定時停止訓(xùn)練。

(2)真實(shí)世界 LanguageTable 實(shí)驗(yàn)

上述實(shí)驗(yàn)中展現(xiàn)的高樣本效率與穩(wěn)健性表明,自我提升流程確實(shí)可應(yīng)用于真實(shí)世界機(jī)器人學(xué)。研究將所提方法應(yīng)用于真實(shí)世界 LanguageTable 領(lǐng)域,分別采用 20% 和 80% 規(guī)模的模仿學(xué)習(xí)數(shù)據(jù)集。與仿真場景相同,第二階段微調(diào)聚焦于 Block2Block 任務(wù)子集。由于指令采樣、獎勵標(biāo)記與成功檢測均為自動化流程,在自我提升階段,一名人類操作員即可監(jiān)控所有 LanguageTable 機(jī)器人工作站。操作員的唯一職責(zé)是在積木掉落桌面或工作站超過 5 分鐘未洗牌重置時進(jìn)行重置。每個實(shí)驗(yàn)持續(xù)約 20 小時。

(3)仿真 Aloha 單插入任務(wù)實(shí)驗(yàn)

研究還在第二種機(jī)器人實(shí)體 —— 雙臂 Aloha 操作平臺上驗(yàn)證了所提微調(diào)框架。設(shè)計(jì)并收集了雙臂插入任務(wù)的數(shù)據(jù):左臂拿起套筒,右臂拿起插銷并將其插入套筒。該任務(wù)具有更復(fù)雜的觀測空間、70 維動作空間以及更小的模仿數(shù)據(jù)集,為驗(yàn)證所提方法提供了挑戰(zhàn)性場景。

研究還構(gòu)建了 3 個規(guī)模分別為 5K、10K 和 15K 片段的模仿數(shù)據(jù)集,對 5K 和 10K 規(guī)模數(shù)據(jù)集執(zhí)行兩階段微調(diào),并報(bào)告 15K 規(guī)模數(shù)據(jù)集的監(jiān)督學(xué)習(xí)結(jié)果以作對比。與 LanguageTable 領(lǐng)域?qū)嶒?yàn)相比,本實(shí)驗(yàn)的方法差異在于:1)第二階段策略初始化的檢查點(diǎn)選擇;2)由于相機(jī)無法觀測到插銷完全插入套筒的成功條件,在獎勵函數(shù)中加入了一個小的正常數(shù)以標(biāo)記成功狀態(tài)。

(4)基礎(chǔ)模型預(yù)訓(xùn)練實(shí)驗(yàn)

為消融 PaLI 中嵌入的多模態(tài)知識的影響,實(shí)驗(yàn)基于 PaLI 模型的變體開展兩階段微調(diào):

  • 隨機(jī)初始化( Scratch ):采用 PaLI 架構(gòu),但參數(shù)隨機(jī)初始化。

  • 單模態(tài) PaLI( Uni-PaLI ):PaLI 參數(shù)由單獨(dú)預(yù)訓(xùn)練的視覺模型與語言模型初始化,未進(jìn)行聯(lián)合多模態(tài)視覺 - 語言微調(diào)。

在仿真 LanguageTable 領(lǐng)域采用與第一個實(shí)驗(yàn)相同的設(shè)置進(jìn)行對比實(shí)驗(yàn)。將消融實(shí)驗(yàn)聚焦于自我提升階段:從 PaLI 第一階段檢查點(diǎn)初始化策略,使用隨機(jī)初始化或 Uni-PaLI 檢查點(diǎn)進(jìn)行獎勵計(jì)算。

(5)仿真與真實(shí)世界間的域遷移

首先探究較簡單的泛化形式 —— 仿真與真實(shí)世界間的域遷移。Sim2Real 是一類重要方法,可大幅減少訓(xùn)練高性能機(jī)器人策略所需的真實(shí)世界經(jīng)驗(yàn),并已在多個場景中成功應(yīng)用。為簡化實(shí)驗(yàn),在 LanguageTable 領(lǐng)域探究反向問題 ——Real2Sim 遷移:使用 80% 的真實(shí)世界 LanguageTable 數(shù)據(jù)集訓(xùn)練第一階段模型,在仿真 LanguageTable 環(huán)境中執(zhí)行第二階段自我提升。

(6)習(xí)得新技能的強(qiáng)泛化能力

為了進(jìn)一步探究更強(qiáng)的泛化形式:預(yù)訓(xùn)練基礎(chǔ)模型的自我提升能否使策略練習(xí)并習(xí)得超出第一階段模仿數(shù)據(jù)集所觀察到的全新行為技能?;谡鎸?shí)世界 LanguageTable 數(shù)據(jù)集訓(xùn)練的策略與獎勵模型,在一個名為 “BananaTable” 的新任務(wù)上執(zhí)行自我提升。

與以往研究中機(jī)器人基礎(chǔ)模型的語義泛化能力不同,BananaTable 任務(wù)的遷移需要行為泛化,要求策略習(xí)得新技能。例如,由于香蕉的細(xì)長幾何形狀,推擊位置不準(zhǔn)確會導(dǎo)致香蕉自轉(zhuǎn)而非按預(yù)期方向移動,如下圖所示。


03

邁向自主學(xué)習(xí)新路徑

通過在 LanguageTable 與 Aloha 兩種機(jī)器人實(shí)體的真實(shí)與仿真環(huán)境中開展大量實(shí)驗(yàn),DeepMind 證實(shí)了所提新型后訓(xùn)練框架的驚人有效性。首先,自我提升不僅能穩(wěn)健地超越行為克隆的策略性能,且監(jiān)督微調(diào)與自我提升的結(jié)合在樣本效率上遠(yuǎn)優(yōu)于單純擴(kuò)大模仿數(shù)據(jù)規(guī)模的監(jiān)督學(xué)習(xí)。例如,在 LanguageTable 領(lǐng)域,僅增加 10% 的機(jī)器人自我提升訓(xùn)練時間,就能將策略成功率從 45% 提升至 75%;而將機(jī)器人模仿數(shù)據(jù)量增加 8 倍,成功率僅從 45% 提升至 60%。進(jìn)一步的消融實(shí)驗(yàn)凸顯了基礎(chǔ)模型預(yù)訓(xùn)練在實(shí)現(xiàn)這一樣本效率與穩(wěn)健性中的核心作用。

更為振奮人心的是,在線自我提升與網(wǎng)絡(luò)級預(yù)訓(xùn)練的創(chuàng)新結(jié)合,還解鎖了現(xiàn)有方法無法實(shí)現(xiàn)的獨(dú)特能力:使機(jī)器人能夠自主練習(xí)并習(xí)得新技能。與以往研究中展示的語義泛化不同,這個組合方案實(shí)現(xiàn)了行為泛化,其范圍遠(yuǎn)超第一階段模仿數(shù)據(jù)所覆蓋的行為。本研究凸顯了將預(yù)訓(xùn)練基礎(chǔ)模型與在線自我提升相結(jié)合的變革性潛力,為機(jī)器人自主技能習(xí)得開辟了新路徑。

雖然這項(xiàng)研究在機(jī)器人自主學(xué)習(xí)新技能上取得了巨大的進(jìn)步,但在一些方面仍具有局限性:第一,樣本片段與技能邊界的規(guī)?;瘶?biāo)注:人工標(biāo)注成本過高,需要創(chuàng)新策略(如利用現(xiàn)有多模態(tài)基礎(chǔ)模型)從原始交互日志中恢復(fù)一致的邊界。探索此類自動分割方法是未來研究的重要方向。第二,在這個框架中,獎勵推斷無實(shí)時性要求,延遲約束極小,因此可使用更大規(guī)模的模型 —— 甚至迭代式、思維鏈推理 —— 以獲得更高保真度的標(biāo)記。

第三,本研究微調(diào)的通用視覺 - 語言骨干網(wǎng)絡(luò)在預(yù)訓(xùn)練階段從未接觸過機(jī)器人數(shù)據(jù)。隨著更大規(guī)模的機(jī)器人經(jīng)驗(yàn)多模態(tài)語料庫的出現(xiàn),設(shè)計(jì)預(yù)訓(xùn)練課程至關(guān)重要 —— 既要賦予具身基礎(chǔ)模型強(qiáng)大的物理推理先驗(yàn),又要保留其廣泛的視覺 - 語義知識。

第四,研究選擇使用不重用數(shù)據(jù)的在線 REINFORCE 算法。這一選擇規(guī)避了 “致命三要素” 中的兩個要素:自舉法與離線學(xué)習(xí)。但該選擇也放棄了現(xiàn)代離線算法的數(shù)據(jù)重用優(yōu)勢。探究可擴(kuò)展至大型模型的離線變體有望進(jìn)一步降低機(jī)器人時間需求。

最后,團(tuán)隊(duì)觀察到,當(dāng)自我提升超出性能峰值后,成功率會下降,這表明需要更好的停止準(zhǔn)則或自適應(yīng)正則化器,以避免對塑形獎勵的過度優(yōu)化。對獎勵函數(shù)選擇的理論探究也可能揭示這種性能下降的原因。


未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
長城汽車董事長魏建軍:隱藏式門把手不實(shí)用且危險,今后不再采用

長城汽車董事長魏建軍:隱藏式門把手不實(shí)用且危險,今后不再采用

財(cái)聞
2025-12-17 12:13:55
孫殿英風(fēng)評變好,這意味著什么?

孫殿英風(fēng)評變好,這意味著什么?

十柱
2025-12-18 15:14:26
王室與軍方的陽謀!泰王下旨"皇家庇護(hù)"兜底傷亡,讓泰軍放手去打

王室與軍方的陽謀!泰王下旨"皇家庇護(hù)"兜底傷亡,讓泰軍放手去打

李健政觀察
2025-12-17 16:45:21
太瘋狂!PC廠商為何要漲價了:16G內(nèi)存條從380元漲到899元

太瘋狂!PC廠商為何要漲價了:16G內(nèi)存條從380元漲到899元

快科技
2025-12-18 09:00:04
湖人本季關(guān)鍵時刻0負(fù)!東契奇轟45分大號三雙創(chuàng)4大神跡:隊(duì)史首人

湖人本季關(guān)鍵時刻0負(fù)!東契奇轟45分大號三雙創(chuàng)4大神跡:隊(duì)史首人

Emily說個球
2025-12-19 13:02:42
從澳大利亞探親回來,才敢說幾句真心話,移民真的不適合所有人嗎

從澳大利亞探親回來,才敢說幾句真心話,移民真的不適合所有人嗎

i書與房
2025-12-18 11:10:02
東北這晚,給王詩齡側(cè)身讓位的何超瓊,把人情世故體現(xiàn)得淋漓盡致

東北這晚,給王詩齡側(cè)身讓位的何超瓊,把人情世故體現(xiàn)得淋漓盡致

社會日日鮮
2025-12-18 11:44:39
這種碳水每天吃,4個月“洗掉”30%身體脂肪,讓70%的人悄悄瘦了

這種碳水每天吃,4個月“洗掉”30%身體脂肪,讓70%的人悄悄瘦了

時光派健康抗衰
2025-12-08 16:00:09
泰王又封00后“新妃”,王后素顏跑馬淡定!真宮斗冠軍不在怕的

泰王又封00后“新妃”,王后素顏跑馬淡定!真宮斗冠軍不在怕的

商務(wù)范
2025-12-18 14:16:58
中國U152-0韓國,東亞杯首輪比賽結(jié)果

中國U152-0韓國,東亞杯首輪比賽結(jié)果

李絙在北漂
2025-12-19 11:36:16
A股:大家要做好準(zhǔn)備了,下周一,沒有意外的話會這么走

A股:大家要做好準(zhǔn)備了,下周一,沒有意外的話會這么走

財(cái)經(jīng)大拿
2025-12-19 13:39:50
浙江多個縣(市、區(qū))委書記調(diào)整

浙江多個縣(市、區(qū))委書記調(diào)整

上觀新聞
2025-12-19 08:47:13
央視《老舅》被觀眾要求下架,理由:劇情太假,掛羊頭賣狗肉!

央視《老舅》被觀眾要求下架,理由:劇情太假,掛羊頭賣狗肉!

甜檸聊史
2025-12-17 09:23:55
許亞軍也沒想到,24歲兒子許何,如今成了他深陷罵聲中的“救贖”

許亞軍也沒想到,24歲兒子許何,如今成了他深陷罵聲中的“救贖”

叨嘮
2025-12-17 06:30:10
不出意外,中國未來超一半人口將流入到這幾個城市,房價將反彈

不出意外,中國未來超一半人口將流入到這幾個城市,房價將反彈

山丘樓評
2025-12-17 21:02:21
質(zhì)疑劉煒?新疆混血后衛(wèi)坐冷板凳后破防:我在替補(bǔ)席怎么打?

質(zhì)疑劉煒?新疆混血后衛(wèi)坐冷板凳后破防:我在替補(bǔ)席怎么打?

大嘴爵爺侃球
2025-12-19 10:13:37
日本首相:日方愿與中方開展包括領(lǐng)導(dǎo)層在內(nèi)的各層面對話

日本首相:日方愿與中方開展包括領(lǐng)導(dǎo)層在內(nèi)的各層面對話

俄羅斯衛(wèi)星通訊社
2025-12-18 15:27:23
中國農(nóng)歷有多厲害?王蒙:世界上沒有任何歷法同時知道太陽和月亮

中國農(nóng)歷有多厲害?王蒙:世界上沒有任何歷法同時知道太陽和月亮

芳芳?xì)v史燴
2025-12-08 19:17:49
加時力克東部第一!弗拉格23分10板,濃眉15+14,CC空砍20+10+9

加時力克東部第一!弗拉格23分10板,濃眉15+14,CC空砍20+10+9

無術(shù)不學(xué)
2025-12-19 12:56:43
南博盜賣國寶級文物!失蹤5件寶藏黑幕重重!新書記能否理舊賬?

南博盜賣國寶級文物!失蹤5件寶藏黑幕重重!新書記能否理舊賬?

大江看潮
2025-12-18 21:39:11
2025-12-19 14:51:00
AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
7012文章數(shù) 20715關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

中戲院長郝戎被查 劉燁、章子怡、靳東等為其學(xué)生

頭條要聞

中戲院長郝戎被查 劉燁、章子怡、靳東等為其學(xué)生

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
家居
游戲
公開課

房產(chǎn)要聞

猛降1.65億!大唐集團(tuán),再次出售三亞核心資產(chǎn)!

數(shù)碼要聞

三星Galaxy Book6 Pro筆記本電腦照片曝光

家居要聞

高端私宅 理想隱居圣地

雙旦好禮巨獻(xiàn)!《極限競速》系列Steam冬促來襲!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版