国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)新機器人亮相,學(xué)會穿鞋帶了!

0
分享至


機器人前瞻(公眾號:robot_pro)
作者 江宇
編輯 漠影

機器人前瞻12月2日報道,今日,字節(jié)跳動Seed具身智能團隊發(fā)布最新成果強化訓(xùn)練模型GR-RL,首次在真機條件下完成“整只鞋連續(xù)穿鞋帶”任務(wù),并在這一精細(xì)操控場景中將成功率從45.7%提升至83.3%,減少了近70%的失敗情況。


▲ByteMini-v2完成“穿鞋帶”任務(wù)

與此前主要依靠模仿學(xué)習(xí)的路線不同,該成果采用了真機強化學(xué)習(xí)(Real-world Reinforcement Learning)的方式,通過多階段訓(xùn)練框架提升機器人在長程任務(wù)中的穩(wěn)定表現(xiàn)。


值得注意的是,今年7月22日,Seed團隊曾發(fā)布了通用機器人模型GR-3及雙臂移動機器人ByteMini,展示了其在泛化、新環(huán)境適應(yīng)及柔性物體操作方面的能力。

本次研究則在長時程精細(xì)靈巧操作方向進(jìn)一步推進(jìn),新一代雙臂輪式機器人ByteMini-v2也同步亮相。


▲上為ByteMini,下為ByteMini-v2

論文鏈接:https://arxiv.org/abs/2512.01801
項目主頁:https://seed.bytedance.com/gr_rl

一、從“看得懂”到“做得準(zhǔn)”,穿鞋帶是通用模型失效的典型場景

Seed團隊將穿鞋帶設(shè)為驗證任務(wù),是因為它集中體現(xiàn)了真實環(huán)境中的三類難點:柔性物體的不確定性、毫米級的穿孔精度、以及多步驟連續(xù)執(zhí)行的穩(wěn)定性。

鞋帶會隨牽引和摩擦即時改變狀態(tài),孔徑較小,對抓取角度要求嚴(yán)格,機器人需要在持續(xù)的視覺反饋中調(diào)整動作。而整個過程可能持續(xù)數(shù)分鐘,每一次滑落、偏移或姿態(tài)變化,都可能影響后續(xù)動作。

Seed團隊發(fā)現(xiàn),基于模仿學(xué)習(xí)、具有較強泛化能力的通用模型GR-3在這一任務(wù)上的表現(xiàn)也不穩(wěn)定,他們將這種情況歸因于模仿學(xué)習(xí)的結(jié)構(gòu)性限制。

一是人類演示數(shù)據(jù)存在“次優(yōu)片段”,人類演示包含放慢、猶豫、嘗試與回退等片段,模型在學(xué)習(xí)過程中會一并吸收,從而產(chǎn)生“動作保守”“執(zhí)行停頓”等行為;

二是訓(xùn)練與推理存在“執(zhí)行錯位”,訓(xùn)練階段學(xué)到的是預(yù)測動作,而部署時執(zhí)行的動作經(jīng)過推理平滑、軌跡整形等處理,這種訓(xùn)練與執(zhí)行之間的偏移,在毫米級任務(wù)中會被放大。

這將導(dǎo)致:模型即使“理解”人類動作,而是在關(guān)鍵節(jié)點上缺乏連續(xù)性與決斷性,難以把任務(wù)高效完成。

二、GR-RL的核心思路:從篩掉“壞動作”開始,再讓機器人自己積累經(jīng)驗

GR-RL并非簡單增加數(shù)據(jù)量或延長訓(xùn)練時間,而是在結(jié)構(gòu)上引入了一個額外的判別器網(wǎng)絡(luò)(Critic Transformer),用于判斷每一個動作片段的價值,對動作序列中每個時刻的動作都進(jìn)行一次打分。


▲GR-RL的模型架構(gòu)

Seed團隊在離線數(shù)據(jù)中標(biāo)記出“演示重新開始”的關(guān)鍵幀,將其之前的片段視為負(fù)樣本,用于補足失敗數(shù)據(jù)來源。這樣做的目的,是讓模型在監(jiān)督學(xué)習(xí)前先學(xué)會辨別哪些行為在后續(xù)執(zhí)行中會導(dǎo)致失敗。

在此基礎(chǔ)上,Seed團隊使用時序差分方法訓(xùn)練評估網(wǎng)絡(luò),以動作后果作為回報信號,過濾掉質(zhì)量較低的軌跡片段,保留較穩(wěn)定的演示數(shù)據(jù)作為基礎(chǔ)策略。


▲評估模型評判采集軌跡片段的好壞

由于穿鞋帶涉及空間關(guān)系和左右協(xié)同動作,Seed團隊對圖像、機器人狀態(tài)及動作軌跡進(jìn)行鏡像增強,使模型在雙臂協(xié)作中獲得對稱性理解,從而減少對單一演示路徑的依賴。

GR-RL訓(xùn)練的第二階段發(fā)生在真實機器人上。Seed團隊采用導(dǎo)向強化學(xué)習(xí)方法,通過調(diào)整模型生成動作的隱空間噪聲,使其在實際探索中逐漸靠近更高回報的策略,而不是在關(guān)節(jié)層面隨機擾動。


▲ByteMini-v2機器人

為了防止模型“遺忘先前策略”或短期偏移,他們引入“雙緩沖池”策略,將歷史軌跡與最新軌跡分開存儲,訓(xùn)練時按固定比例抽取,保證探索與穩(wěn)定并行。

這種訓(xùn)練方式的核心是在“允許模型犯錯”的前提下,讓它逐步形成適應(yīng)真實環(huán)境的動作序列。

三、ByteMini-v2真機完成驗證,成功率階梯式提升

GR-RL的驗證是在雙臂輪式機器人ByteMini-v2上完成的。與初代相比,該機型保留了多自由度結(jié)構(gòu),并通過球形腕部關(guān)節(jié)獲得更靈活的局部動作空間,適合在狹窄區(qū)域完成旋轉(zhuǎn)與穿孔操作。

實驗使用稀疏獎勵策略,即任務(wù)完全完成才計分,其余情況均為0。這一設(shè)定避免了模型對局部中間狀態(tài)的過度依賴,也提高了對整體策略的約束。

實驗中,基線模型GR-3的成功率為45.7%。在離線數(shù)據(jù)過濾后,成功率提升至61.6%,加入鏡像增強后達(dá)到72.7%。

在此基礎(chǔ)上進(jìn)行約150條真機探索后,最終成功率提升至83.3%。這種結(jié)果呈現(xiàn)出明顯的“階梯式”變化,與訓(xùn)練流程中每一階段的作用對應(yīng)。


▲左圖:多階段訓(xùn)練實現(xiàn)階梯式成功率提升;右圖:在線強化學(xué)習(xí)的成功率變化曲線

在多輪實驗中,Seed團隊還觀察到任務(wù)執(zhí)行過程中的行為變化。當(dāng)鞋帶在穿孔過程中滑落時,模型會重新進(jìn)行抓取或調(diào)整角度。當(dāng)初始擺放夾帶阻礙時,模型會改變狀態(tài)再繼續(xù)執(zhí)行任務(wù)。




▲面對失誤情況能自發(fā)重試,擺放位置別扭時會主動調(diào)整。

這些行為并非額外編碼,而是強化階段逐漸形成的策略表現(xiàn)。它們呈現(xiàn)為一種連續(xù)執(zhí)行能力,而非記憶某一條“正確答案”。

結(jié)語:從實驗室到人類家庭,精細(xì)操作依然是具身智能的“門檻”

在數(shù)據(jù)驅(qū)動和模型擴大的推動下,具身智能已經(jīng)能完成越來越多看得懂、能上手的任務(wù)。

但當(dāng)機器人離開實驗室,走進(jìn)真實家庭,面對穿鞋帶這種看似普通、卻涉及柔性物體、連續(xù)動作和高精度控制的任務(wù)時,通用模型的能力邊界就會暴露出來。

機器人不僅要看得清,還要在不斷的反饋中穩(wěn)定執(zhí)行任務(wù),這一環(huán)節(jié)目前仍是最難被可靠解決的部分。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國拒絕參加泰國反詐聯(lián)盟,柬埔寨首相表示“衷心感謝”

中國拒絕參加泰國反詐聯(lián)盟,柬埔寨首相表示“衷心感謝”

跟著老李看世界
2025-12-22 13:29:51
南京博物院退休員工實名舉報前院長,前院長、當(dāng)?shù)丶o(jì)委等多方回應(yīng)

南京博物院退休員工實名舉報前院長,前院長、當(dāng)?shù)丶o(jì)委等多方回應(yīng)

大象新聞
2025-12-22 16:45:19
瞞不住了!南博《江南春》后續(xù):40名職工舉報,前院長盜竊、走私

瞞不住了!南博《江南春》后續(xù):40名職工舉報,前院長盜竊、走私

娜烏和西卡
2025-12-22 12:57:40
男子銀行內(nèi)放聲大哭:買房貸款208萬,每月還9100,還了9年本金一分沒少,全是利息!銀行:跟我們無關(guān)!

男子銀行內(nèi)放聲大哭:買房貸款208萬,每月還9100,還了9年本金一分沒少,全是利息!銀行:跟我們無關(guān)!

譚老師地理大課堂
2025-12-22 18:37:08
網(wǎng)絡(luò)女主播謊稱“同意外出發(fā)生性關(guān)系”誘騙粉絲打賞1萬元,收款后將其拉黑!判了

網(wǎng)絡(luò)女主播謊稱“同意外出發(fā)生性關(guān)系”誘騙粉絲打賞1萬元,收款后將其拉黑!判了

紅星新聞
2025-12-22 16:54:14
施羅德24+7+10制勝三分國王OT險勝火箭,威少21+13KD24+10+8

施羅德24+7+10制勝三分國王OT險勝火箭,威少21+13KD24+10+8

湖人崛起
2025-12-22 13:46:31
野村:中國經(jīng)濟兩大支柱的極端分化

野村:中國經(jīng)濟兩大支柱的極端分化

紫京講談
2025-12-21 22:53:13
越南最終選擇德國西門子來建高鐵,以后就不要提和我們并軌了

越南最終選擇德國西門子來建高鐵,以后就不要提和我們并軌了

我心縱橫天地間
2025-12-22 16:41:06
中央安全生產(chǎn)考核巡查組在江蘇明查暗訪:客船未執(zhí)行限航規(guī)定 動火作業(yè)未按要求審批

中央安全生產(chǎn)考核巡查組在江蘇明查暗訪:客船未執(zhí)行限航規(guī)定 動火作業(yè)未按要求審批

環(huán)球網(wǎng)資訊
2025-12-22 12:00:15
美國飛行員報告看見銀色罐狀不明飛行物,空管回應(yīng):祝你好運

美國飛行員報告看見銀色罐狀不明飛行物,空管回應(yīng):祝你好運

瀟湘晨報
2025-12-22 11:43:20
澳大利亞的鐵礦嚴(yán)格來說,那地方根本就不是鐵礦,就是一坨鐵

澳大利亞的鐵礦嚴(yán)格來說,那地方根本就不是鐵礦,就是一坨鐵

南權(quán)先生
2025-12-22 17:15:44
受權(quán)發(fā)布|中共中央辦公廳 國務(wù)院辦公廳印發(fā)《關(guān)于做好2026年元旦春節(jié)期間有關(guān)工作的通知》

受權(quán)發(fā)布|中共中央辦公廳 國務(wù)院辦公廳印發(fā)《關(guān)于做好2026年元旦春節(jié)期間有關(guān)工作的通知》

新華社
2025-12-22 17:18:17
泰柬沖突這塊地,老胡怕是洗不干凈

泰柬沖突這塊地,老胡怕是洗不干凈

近距離
2025-12-22 08:08:34
萬萬沒想到,46條中日航線剛?cè)咳∠?,就炸出來一群“妖魔鬼怪?>
    </a>
        <h3>
      <a href=云上烏托邦
2025-12-22 18:13:21
方永飛公開批評雷軍:“還要不要一點臉啊,樣樣世界第一”

方永飛公開批評雷軍:“還要不要一點臉啊,樣樣世界第一”

大白聊IT
2025-12-22 10:03:54
演都不演了?檢察官為兒子強奸未成年做無罪辯護,輿論都炸了

演都不演了?檢察官為兒子強奸未成年做無罪辯護,輿論都炸了

派大星紀(jì)錄片
2025-12-22 13:20:46
高層下場,蓋子捂不住了!

高層下場,蓋子捂不住了!

亞哥談古論今
2025-12-21 18:19:33
硬抗42天,日本走出了危險一步,中方發(fā)出警告,條件已經(jīng)成熟

硬抗42天,日本走出了危險一步,中方發(fā)出警告,條件已經(jīng)成熟

策略述
2025-12-22 15:09:07
劉嘉玲曝林青霞家中的麻將房掛“東方不敗”照片:坐在她家里面打麻將要嚇?biāo)懒?>
    </a>
        <h3>
      <a href=紅星新聞
2025-12-22 18:29:10
中美較量開始了:世紀(jì)號油輪事件,是特朗普對中國的敲打,中國硬核回?fù)簦?>
    </a>
        <h3>
      <a href=V記錄號
2025-12-21 14:58:44
2025-12-22 21:11:00
機器人前瞻
機器人前瞻
專注于機器人報道的媒體
270文章數(shù) 5關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場 痛批主流機器人技術(shù)大錯

頭條要聞

特朗普任命格陵蘭島特使 特使稱要將格陵蘭島并入美國

頭條要聞

特朗普任命格陵蘭島特使 特使稱要將格陵蘭島并入美國

體育要聞

戴琳,中國足球的反向代言人

娛樂要聞

張柏芝不再隱瞞,三胎生父早有答案?

財經(jīng)要聞

央行信用新政:為失信者提供"糾錯"通道

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

態(tài)度原創(chuàng)

游戲
旅游
教育
藝術(shù)
本地

獵魂世界:比比東+寧榮榮抽取價值分析!這波答案顯而易見了!

旅游要聞

當(dāng)中國游客集體轉(zhuǎn)身,日本旅游業(yè)的“海嘯”來了

教育要聞

為什么越來越多孩子開始憎惡父母?

藝術(shù)要聞

萬年松樹開花,震驚你的雙眼!

本地新聞

云游安徽|走進(jìn)銅陵,照見三千年不滅的爐火

無障礙瀏覽 進(jìn)入關(guān)懷版