国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

更強(qiáng)大的GigaBrain-0.5M*來了,世界模型原生的新一代范式登場!

0
分享至

具身世界模型新一代原生范式重磅登場!繼具身基礎(chǔ)模型GigaBrain-0.1斬獲 RoboChallenge 全球第一后,性能更強(qiáng)大的GigaBrain-0.5M*又來了。作為依托世界模型實(shí)現(xiàn)自我進(jìn)化的 VLA 大模型,GigaBrain-0.5M*在家庭疊衣、服務(wù)沖煮咖啡、工業(yè)折紙盒等多個(gè)真實(shí)機(jī)器人任務(wù)中,均實(shí)現(xiàn)數(shù)小時(shí)零失誤、持續(xù)穩(wěn)定運(yùn)轉(zhuǎn)。

GigaBrain-0.5M* 作為一款基于世界模型條件驅(qū)動(dòng)(World Model-Conditioned)的 VLA 大模型,以世界模型對(duì)未來狀態(tài)與價(jià)值的預(yù)測結(jié)果作為條件輸入,可顯著提升模型在長時(shí)程任務(wù)中的魯棒性。在此基礎(chǔ)上,GigaBrain-0.5M* 創(chuàng)新引入人在回路(Human-in-the-Loop)持續(xù)學(xué)習(xí)機(jī)制,系統(tǒng)依托經(jīng)人工篩選與校正的模型推演軌跡開展迭代訓(xùn)練,基于真實(shí)環(huán)境交互反饋持續(xù)優(yōu)化決策策略,最終實(shí)現(xiàn) “行動(dòng) — 反思 — 進(jìn)化” 的閉環(huán)式持續(xù)學(xué)習(xí)與自主迭代升級(jí)



論文鏈接:https://arxiv.org/pdf/2602.12099

項(xiàng)目鏈接:https://gigabrain05m.github.io/

01 基于世界模型的強(qiáng)化學(xué)習(xí)的訓(xùn)練范式

在 GigaBrain-0.5M* 的研發(fā)中,我們提出基于世界模型的強(qiáng)化學(xué)習(xí)范式,并采用迭代式四階段閉環(huán)訓(xùn)練流程

  • 基于大規(guī)模機(jī)器人操作數(shù)據(jù)完成世界模型預(yù)訓(xùn)練,實(shí)現(xiàn)對(duì)未來狀態(tài)及對(duì)應(yīng)價(jià)值的精準(zhǔn)預(yù)測;
  • 以世界模型輸出的未來狀態(tài)預(yù)測與價(jià)值評(píng)估為條件,對(duì)策略網(wǎng)絡(luò)進(jìn)行微調(diào),以指引動(dòng)作決策;
  • 將條件化策略部署至真實(shí)物理環(huán)境,依托人在環(huán)干預(yù)機(jī)制,采集模型自主推演軌跡數(shù)據(jù);
  • 利用經(jīng)篩選后的有效軌跡數(shù)據(jù)集,聯(lián)合優(yōu)化世界模型與決策策略,實(shí)現(xiàn)模型持續(xù)學(xué)習(xí)與自主進(jìn)化。



02數(shù)小時(shí)連續(xù)零失誤執(zhí)行

在與 AWR、RECAP 等主流模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)基線方法的系統(tǒng)對(duì)比中,GigaBrain-0.5M* 展現(xiàn)出顯著優(yōu)勢,在相同任務(wù)設(shè)定下,相較于由π*0.6由所提出的RECAP 基線,任務(wù)成功率提升近 30%,并實(shí)現(xiàn)了穩(wěn)定可靠的模型效果。

尤其在高難度長時(shí)程任務(wù)中,面對(duì)折紙盒、咖啡制備、衣物折疊等包含多階段操作、精細(xì)感知與持續(xù)決策的復(fù)雜場景,GigaBrain?0.5M* 均實(shí)現(xiàn)接近 100% 的任務(wù)成功率,并可穩(wěn)定復(fù)現(xiàn)成功執(zhí)行軌跡,充分彰顯出卓越的策略魯棒性。



03 高效且準(zhǔn)確的價(jià)值預(yù)測

實(shí)驗(yàn)結(jié)果表明,基于世界模型的價(jià)值預(yù)測方案在執(zhí)行效率與預(yù)測精度上,均優(yōu)于π*0.6所提出的VLM方案。該方案的核心優(yōu)勢源自對(duì)未來狀態(tài)的顯式建模與世界模型單步降噪機(jī)制,可為價(jià)值函數(shù)提供關(guān)鍵的時(shí)序上下文支撐,讓價(jià)值估計(jì)實(shí)現(xiàn)更高效、更精準(zhǔn)、更穩(wěn)定的輸出。

以疊衣服任務(wù)為例:任務(wù)初期,機(jī)械臂反復(fù)調(diào)整衣物姿態(tài)時(shí),預(yù)測價(jià)值呈現(xiàn)合理波動(dòng);當(dāng)衣物擺正、進(jìn)入穩(wěn)定疊放階段,價(jià)值曲線穩(wěn)步上升;若中途出現(xiàn)干擾物,價(jià)值驟降以反映任務(wù)受阻;待干擾物被移除后,價(jià)值迅速恢復(fù)增長趨勢。這種與任務(wù)物理進(jìn)程高度對(duì)齊的價(jià)值演化,正是世界模型提供“認(rèn)知先驗(yàn)”的直接體現(xiàn)。



04 上萬小時(shí)的訓(xùn)練數(shù)據(jù)

GigaBrain-0.5M* 的基座模型 GigaBrain-0.5 基于總計(jì) 10,931 小時(shí)的多樣化機(jī)器人操作數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,其中 61%(6,653 小時(shí))由自研具身世界模型 GigaWorld 高保真合成,覆蓋紋理遷移、視角變換、人手到機(jī)械臂映射等豐富場景;剩余 39%(4,278 小時(shí))源自真實(shí)機(jī)器人采集,確保策略在物理世界中的可執(zhí)行性。海量數(shù)據(jù)的引入顯著拓展了模型的任務(wù)覆蓋廣度與策略魯棒性,使其在面對(duì)復(fù)雜、長時(shí)程操作任務(wù)時(shí)具備更強(qiáng)的泛化能力;而 GigaWorld 生成的合成數(shù)據(jù)則有效突破了真實(shí)采集的長尾瓶頸。通過可控地生成新紋理、新物體位姿與新觀測視角下的訓(xùn)練樣本,增強(qiáng)了模型在分布外場景中的適應(yīng)性,為具身智能走向開放世界奠定了數(shù)據(jù)基石。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
網(wǎng)友詢問:哈梅內(nèi)伊為何不給民主發(fā)槍抵抗,評(píng)論區(qū)炸鍋,輿論撕裂

網(wǎng)友詢問:哈梅內(nèi)伊為何不給民主發(fā)槍抵抗,評(píng)論區(qū)炸鍋,輿論撕裂

眼光很亮
2026-03-01 16:12:51
牛鬼蛇神現(xiàn)原形!周煒當(dāng)選會(huì)長還不到3天,惡心的一幕出現(xiàn)了

牛鬼蛇神現(xiàn)原形!周煒當(dāng)選會(huì)長還不到3天,惡心的一幕出現(xiàn)了

開著車去流浪
2026-02-10 02:58:51
送走馬蓉又來馮清,43歲“老實(shí)人”王寶強(qiáng),還是沒逃出“女人圈”

送走馬蓉又來馮清,43歲“老實(shí)人”王寶強(qiáng),還是沒逃出“女人圈”

陳意小可愛
2026-03-03 02:59:25
開個(gè)會(huì),要你命:伊朗高層因開會(huì)被團(tuán)滅過,哈梅內(nèi)伊還是如此大意

開個(gè)會(huì),要你命:伊朗高層因開會(huì)被團(tuán)滅過,哈梅內(nèi)伊還是如此大意

黃娜老師
2026-03-01 23:31:17
500萬英鎊輸光,住出租屋的破產(chǎn)冠軍,對(duì)陣開勞斯萊斯的豪門公子

500萬英鎊輸光,住出租屋的破產(chǎn)冠軍,對(duì)陣開勞斯萊斯的豪門公子

情感大頭說說
2026-03-01 13:41:53
是不是吹牛啊,比亞迪將要發(fā)布的“顛覆性技術(shù)”,到底有多顛覆?

是不是吹牛啊,比亞迪將要發(fā)布的“顛覆性技術(shù)”,到底有多顛覆?

光電科技君
2026-03-03 00:43:04
美國駐巴基斯坦卡拉奇領(lǐng)館遭沖擊 至少8人死亡

美國駐巴基斯坦卡拉奇領(lǐng)館遭沖擊 至少8人死亡

中國網(wǎng)
2026-03-01 22:32:20
「蜘蛛人」湯姆霍蘭德和千黛亞爆低調(diào)完婚! 造型師:你們錯(cuò)過了

「蜘蛛人」湯姆霍蘭德和千黛亞爆低調(diào)完婚! 造型師:你們錯(cuò)過了

ETtoday星光云
2026-03-02 13:02:05
曝網(wǎng)紅辛巴美國發(fā)生車禍!紅色氣囊彈出,體態(tài)發(fā)福多位美女相伴

曝網(wǎng)紅辛巴美國發(fā)生車禍!紅色氣囊彈出,體態(tài)發(fā)福多位美女相伴

裕豐娛間說
2026-03-02 08:53:35
陳凱歌要哭暈了,25歲陳飛宇終于演了年代劇,結(jié)果紅的是王天辰!

陳凱歌要哭暈了,25歲陳飛宇終于演了年代劇,結(jié)果紅的是王天辰!

樂悠悠娛樂
2026-03-02 11:30:38
對(duì)話在以色列的四川工友:32小時(shí)聽到幾十次爆炸聲,但生活工作沒受到太大影響

對(duì)話在以色列的四川工友:32小時(shí)聽到幾十次爆炸聲,但生活工作沒受到太大影響

封面新聞
2026-03-02 16:05:25
13萬產(chǎn)品僅變現(xiàn)9300,又一知名二手平臺(tái)出事!央視曝光回收黑幕

13萬產(chǎn)品僅變現(xiàn)9300,又一知名二手平臺(tái)出事!央視曝光回收黑幕

財(cái)經(jīng)八卦
2026-03-02 19:07:34
71歲老人哭訴:雖然我有6500退休金,30萬存款,但依然過得很凄涼

71歲老人哭訴:雖然我有6500退休金,30萬存款,但依然過得很凄涼

烙任情感
2026-03-01 10:56:58
江蘇女工救助一男孩不圖回報(bào),2015年,女兒結(jié)婚時(shí)收到1500萬匯款

江蘇女工救助一男孩不圖回報(bào),2015年,女兒結(jié)婚時(shí)收到1500萬匯款

談史論天地
2026-03-02 15:51:12
央視主持沙桐:離婚后妻子嘲諷二人多年沒性生活,前妻直言別扯淡

央視主持沙桐:離婚后妻子嘲諷二人多年沒性生活,前妻直言別扯淡

冷紫葉
2026-02-25 15:28:41
特朗普同意對(duì)話,以色列卻再撂狠話,美以聯(lián)合行動(dòng)能持續(xù)多久?

特朗普同意對(duì)話,以色列卻再撂狠話,美以聯(lián)合行動(dòng)能持續(xù)多久?

新民晚報(bào)
2026-03-02 10:32:41
哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學(xué)真相

哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學(xué)真相

一口娛樂
2026-02-27 12:42:23
43歲迪拜最帥王儲(chǔ)和馬斯克同框,又黑又矮濾鏡全碎,一人帶一個(gè)娃

43歲迪拜最帥王儲(chǔ)和馬斯克同框,又黑又矮濾鏡全碎,一人帶一個(gè)娃

照見古今
2025-12-23 18:19:01
美軍稱已有6名軍人在對(duì)伊朗的行動(dòng)中身亡

美軍稱已有6名軍人在對(duì)伊朗的行動(dòng)中身亡

新華社
2026-03-03 05:44:02
伊朗稱擊落三架美軍戰(zhàn)斗機(jī),美軍否認(rèn):確實(shí)掉了3架飛機(jī),但明顯是遭友軍擊落

伊朗稱擊落三架美軍戰(zhàn)斗機(jī),美軍否認(rèn):確實(shí)掉了3架飛機(jī),但明顯是遭友軍擊落

每日經(jīng)濟(jì)新聞
2026-03-02 19:50:07
2026-03-03 06:27:00
創(chuàng)業(yè)邦 incentive-icons
創(chuàng)業(yè)邦
關(guān)注創(chuàng)新經(jīng)濟(jì)及其推動(dòng)者。
15835文章數(shù) 112012關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

數(shù)碼
游戲
親子
公開課
軍事航空

數(shù)碼要聞

蘋果新款iPad Air發(fā)布:4799元起 搭載M4芯片

外媒給《寶可夢》新作60分:不夠有趣的縫合怪

親子要聞

開學(xué)了!珠海香洲:筑牢安全防線,保障托育機(jī)構(gòu)順利開園復(fù)托

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國中央司令部透露對(duì)伊朗動(dòng)武全部武器裝備清單

無障礙瀏覽 進(jìn)入關(guān)懷版