国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Sci Robot最新封面:豐田研究院等重磅發(fā)布,新任務(wù)學(xué)習(xí)效率提5倍

0
分享至

從科幻電影中的全能管家,到現(xiàn)實工業(yè)中的自動化臂膀,我們對“通用機器人”的想象與探索從未停止。近年來,隨著人工智能領(lǐng)域大型語言模型(LLM)和視覺基礎(chǔ)模型的巨大成功,一個自然而然的問題擺在了機器人學(xué)界面前:我們能否為機器人也打造一個“基礎(chǔ)模型”,讓它像人類一樣,能夠理解多樣的指令,并靈活完成各種從未見過的任務(wù)?



這個問題的答案,或許就藏在剛剛登上國際頂級期刊《科學(xué)·機器人學(xué)》(Science Robotics)最新一期封面的研究中。來自豐田研究院(TRI)等機構(gòu)的研究團隊,通過一項重磅實驗為我們揭示了大型行為模型(Large Behavior Models, LBMs)的真實能力。這項研究并非停留在理論或簡單的模擬,而是基于約1700小時的機器人演示數(shù)據(jù),在模擬和真實世界中進行了超過47000次的嚴(yán)苛測試,最終為通往通用機器人的道路提供了堅實的經(jīng)驗證據(jù)和洞見。



01.

“大海撈針”式的預(yù)訓(xùn)練:從海量數(shù)據(jù)中學(xué)習(xí)通用技能

要讓機器人變得“通用”,傳統(tǒng)的“專才”培養(yǎng)模式顯然行不通。過去,研究者們通常會為一個特定任務(wù)(比如“拿起蘋果”)訓(xùn)練一個專門的模型。這種模型在特定場景下表現(xiàn)優(yōu)異,但一旦任務(wù)或環(huán)境稍有變化(比如蘋果換成梨,或者光線變暗),它就可能“罷工”。這種脆弱性,是通往通用機器人之路的最大障礙之一。

受AI領(lǐng)域“大力出奇跡”的啟發(fā),研究者們提出了大型行為模型(LBM)這一新范式。其核心思想很簡單:不再為每個任務(wù)單獨訓(xùn)練模型,而是用一個龐大而統(tǒng)一的模型,去學(xué)習(xí)成百上千種不同任務(wù)的解決方式。就像人類通過觀察和實踐學(xué)會各種技能一樣,LBM的目標(biāo)是從海量、多樣化的數(shù)據(jù)中,自主提煉出關(guān)于物理世界和機器人操作的通用知識。

為了實現(xiàn)這一目標(biāo),研究團隊構(gòu)建了一個名為“Ramen”的龐大預(yù)訓(xùn)練數(shù)據(jù)集。這個數(shù)據(jù)集包含了約1700小時的機器人操作演示,涵蓋了超過500個內(nèi)部收集的高多樣性任務(wù)以及大量公開的機器人數(shù)據(jù)。這些任務(wù)五花八門,從簡單的“把杯子放到杯墊旁”,到復(fù)雜的“整理早餐托盤”,再到需要精細操作的“給蘋果去核”。這些數(shù)據(jù)不僅有真實的機器人操作錄像,也包含了模擬環(huán)境中的數(shù)據(jù),形成了一個虛實結(jié)合的龐大知識庫。

有了數(shù)據(jù),還需要一個足夠聰明的“大腦”來學(xué)習(xí)。研究團隊采用了一種名為“擴散策略(Diffusion Policy)”的生成模型。簡單來說,這個模型能夠接收來自多個攝像頭的RGB圖像、描述任務(wù)的文本指令(例如“將獼猴桃放到桌子中央”)以及機器人自身的狀態(tài)信息作為輸入,然后像AI繪畫一樣,“生成”一系列精準(zhǔn)的、連續(xù)的機器人動作指令。其內(nèi)部核心是一個強大的Transformer架構(gòu)(DiT),使其能夠高效地處理和整合不同來源的信息,做出最終決策。

02.

嚴(yán)格的“大考”:LBM與單一任務(wù)模型的正面交鋒

模型訓(xùn)練好了,但它真的比傳統(tǒng)方法更好嗎?為了回答這個問題,研究團隊設(shè)計了一套嚴(yán)苛的評估流程,旨在以最客觀、最嚴(yán)格的方式檢驗LBM的真實能力。

這次“大考”的核心是“盲測”和“隨機A/B測試”。在真實機器人評估環(huán)節(jié),操作員在測試時完全不知道自己正在運行的是哪個模型——是經(jīng)過預(yù)訓(xùn)練和微調(diào)的LBM,還是從零開始訓(xùn)練的單一任務(wù)基線模型。模型的測試順序也是完全隨機的,從而排除了因環(huán)境變化(如光線改變)或人為偏好帶來的任何潛在偏見。這種雙盲測試在臨床醫(yī)學(xué)中是黃金標(biāo)準(zhǔn),但在機器人學(xué)研究中卻因其復(fù)雜性而鮮有應(yīng)用。

整個實驗的物理平臺、評估環(huán)境和任務(wù)多樣性共同構(gòu)成了這次嚴(yán)苛的考驗,其規(guī)模和復(fù)雜性見下圖,涵蓋了從簡單的放置到需要精細雙臂協(xié)調(diào)的復(fù)雜長序列任務(wù)。



團隊在真實世界中進行了1800次這樣的盲測,同時在模擬環(huán)境中進行了超過47000次的自動化測試。評估分為兩大類:“已見任務(wù)(Seen Tasks)”和“未見任務(wù)(Unseen Tasks)”

對于模型在預(yù)訓(xùn)練數(shù)據(jù)中已經(jīng)“見過”的任務(wù),結(jié)果顯示,經(jīng)過微調(diào)的LBM在性能上全面優(yōu)于單一任務(wù)基線模型。尤其是在引入“分布偏移”(Distribution Shift,即測試環(huán)境與訓(xùn)練環(huán)境有細微差別,例如物體初始位置稍有變動)后,LBM的優(yōu)勢更加明顯。這表明,從海量數(shù)據(jù)中學(xué)習(xí)到的通用知識,讓LBM變得更加穩(wěn)?。╮obust),對環(huán)境變化的適應(yīng)能力更強。



然而,真正的考驗在于“未見任務(wù)”——那些LBM在預(yù)訓(xùn)練階段從未接觸過的全新挑戰(zhàn)。這直接關(guān)系到模型是否具備“舉一反三”的泛化能力。在這里,LBM展現(xiàn)了其最驚人的價值:數(shù)據(jù)效率(Data Efficiency)。

研究結(jié)果清晰地表明,要在一個新任務(wù)上達到與單一任務(wù)模型相當(dāng)?shù)男阅?,?jīng)過預(yù)訓(xùn)練的LBM僅需要一小部分(a fraction of)的訓(xùn)練數(shù)據(jù)。在模擬實驗中,研究團隊發(fā)現(xiàn),LBM平均只需要不到30%的數(shù)據(jù),就能追平甚至超越在100%數(shù)據(jù)上訓(xùn)練的單一任務(wù)模型。



這個結(jié)論在真實世界實驗中得到了更有力的印證。以“擺放早餐桌(SetBreakfastTable)”這個復(fù)雜的長序列任務(wù)為例,它從未出現(xiàn)在預(yù)訓(xùn)練數(shù)據(jù)中。

研究團隊發(fā)現(xiàn),僅使用了15%的專屬任務(wù)數(shù)據(jù)進行微調(diào)的LBM,其任務(wù)完成度的表現(xiàn)就已經(jīng)在統(tǒng)計上顯著優(yōu)于使用了全部100%數(shù)據(jù)從零開始訓(xùn)練的單一任務(wù)模型!LBM僅需不到五分之一的數(shù)據(jù)就能超越傳統(tǒng)模型,學(xué)習(xí)效率提升超過5倍。這意味著,預(yù)訓(xùn)練賦予了LBM一個極高的“起點”,使其能夠以數(shù)倍于傳統(tǒng)方法的效率快速學(xué)習(xí)和掌握新技能。這對于降低機器人學(xué)習(xí)新任務(wù)的成本和時間至關(guān)重要,是LBM最具吸引力的優(yōu)勢之一。



03.

從量變到質(zhì)變?通往通用機器人之路的啟示

這項規(guī)模宏大的研究,為機器人領(lǐng)域關(guān)于大型行為模型(LBM)的討論,從眾說紛紜的猜想推向了堅實的實證科學(xué)。它清晰地回答了核心問題:在當(dāng)前技術(shù)水平下,基于大規(guī)模、多樣化數(shù)據(jù)進行多任務(wù)預(yù)訓(xùn)練,是一條切實有效且充滿希望的技術(shù)路徑。

研究團隊進一步探索了“規(guī)模效應(yīng)(Scaling Laws)”。他們發(fā)現(xiàn),隨著預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模的擴大,LBM在未見任務(wù)上的最終性能也隨之平滑提升。這意味著,至少在當(dāng)前的數(shù)據(jù)和模型規(guī)模下,我們還遠未觸及性能的天花板。“更多的數(shù)據(jù),更好的模型”這一在AI領(lǐng)域被反復(fù)驗證的規(guī)律,在機器人學(xué)中同樣適用。這無疑為未來的研究指明了方向:繼續(xù)擴大數(shù)據(jù)的多樣性和規(guī)模,有望催生出能力更強的機器人基礎(chǔ)模型。



當(dāng)然,這項研究也保持了科學(xué)的嚴(yán)謹(jǐn)和審慎。研究者們指出,雖然前景光明,但LBM并非“銀彈”。例如,未經(jīng)任務(wù)專屬數(shù)據(jù)微調(diào)的“零樣本”LBM,其表現(xiàn)并不穩(wěn)定,有時甚至無法正確理解任務(wù)指令。這表明,“預(yù)訓(xùn)練+微調(diào)”的范式在現(xiàn)階段仍然是不可或缺的。此外,研究還強調(diào)了嚴(yán)格統(tǒng)計分析的重要性,警示領(lǐng)域內(nèi)許多研究可能因樣本量不足而得出不可靠的結(jié)論,為未來的機器人學(xué)研究設(shè)立了更高的實驗標(biāo)準(zhǔn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
斯諾克世錦賽中國軍團首位出局出爐!丁俊暉第一階段7-2王炸開局

斯諾克世錦賽中國軍團首位出局出爐!丁俊暉第一階段7-2王炸開局

鳥語花香的季節(jié)
2026-04-19 22:56:52
少了杜蘭特,火箭被湖人暴打!66個回合投進40球!輸?shù)貌辉?>
    </a>
        <h3>
      <a href=Haviven聊球
2026-04-19 23:21:07
沈騰攜妻子參加聚會,王琦穿新中式又白又美,兩人私下穿搭反差大

沈騰攜妻子參加聚會,王琦穿新中式又白又美,兩人私下穿搭反差大

古希臘掌管松餅的神
2026-04-18 13:08:33
原來他是王治郅兒子,身高超2米,在成都上大學(xué),如今已放棄籃球

原來他是王治郅兒子,身高超2米,在成都上大學(xué),如今已放棄籃球

閱微札記
2026-04-19 14:41:49
恒大0.69%清償率:一個時代神話的墓志銘

恒大0.69%清償率:一個時代神話的墓志銘

流蘇晚晴
2026-04-17 18:20:43
“傷害性不大,侮辱性極強”!賽那穩(wěn)坐MPV冠軍,騰勢D9跌至第七

“傷害性不大,侮辱性極強”!賽那穩(wěn)坐MPV冠軍,騰勢D9跌至第七

小李子體育
2026-04-19 01:51:05
世錦賽最新戰(zhàn)報!趙心童10-7晉級16強,張安達比賽中斷丁俊暉出戰(zhàn)

世錦賽最新戰(zhàn)報!趙心童10-7晉級16強,張安達比賽中斷丁俊暉出戰(zhàn)

曹說體育
2026-04-19 10:49:19
成都“鄧?yán)习濉钡馁e利,花了400多萬,送去修車時,竟被維修工氣笑了

成都“鄧?yán)习濉钡馁e利,花了400多萬,送去修車時,竟被維修工氣笑了

劉哥談體育
2026-04-19 14:58:27
中甲5輪積分榜:3支球隊積分上雙,廣州豹居榜首,1隊負(fù)分墊底

中甲5輪積分榜:3支球隊積分上雙,廣州豹居榜首,1隊負(fù)分墊底

中超偽球迷
2026-04-19 21:36:43
美方評估伊朗仍保有約七成戰(zhàn)前導(dǎo)彈庫存

美方評估伊朗仍保有約七成戰(zhàn)前導(dǎo)彈庫存

財聯(lián)社
2026-04-19 16:50:04
曾被全網(wǎng)罵渣男!NBA球星TT湯普森,和三女四娃竟處成一家人了

曾被全網(wǎng)罵渣男!NBA球星TT湯普森,和三女四娃竟處成一家人了

羅氏八卦
2026-04-19 18:00:03
2026一定要多存錢:經(jīng)濟下行,建議你不要再買這9樣?xùn)|西

2026一定要多存錢:經(jīng)濟下行,建議你不要再買這9樣?xùn)|西

阿晪美食
2026-04-09 18:09:47
斯諾克美女裁判波娃專訪:提議出桿計時,進攻限30秒做障礙球另算

斯諾克美女裁判波娃專訪:提議出桿計時,進攻限30秒做障礙球另算

楊華評論
2026-04-19 04:28:56
29歲男隊老將再遭沖擊!王皓倫敦世乒布局生變,后備方案真該用了

29歲男隊老將再遭沖擊!王皓倫敦世乒布局生變,后備方案真該用了

體話我說
2026-04-19 11:38:58
30分+30分+36分!這才是被嚴(yán)重低估的頂級大外援,下賽季身價暴漲

30分+30分+36分!這才是被嚴(yán)重低估的頂級大外援,下賽季身價暴漲

老葉評球
2026-04-19 16:45:48
任澤平退款730萬:價值4500萬的恒大花瓶

任澤平退款730萬:價值4500萬的恒大花瓶

超先聲
2026-04-17 16:34:01
日本驚出一身冷汗!

日本驚出一身冷汗!

安安說
2026-04-19 15:03:39
火箭3主力身價暴跌!申京三無產(chǎn)品,謝潑德攻守全崩,阿門狂被帽

火箭3主力身價暴跌!申京三無產(chǎn)品,謝潑德攻守全崩,阿門狂被帽

籃球資訊達人
2026-04-19 12:26:12
華誼兄弟,8年虧光85億

華誼兄弟,8年虧光85億

中國新聞周刊
2026-04-19 07:32:09
張水華跑一公里就拿出場費是否合理?知情人:她已超額回饋賽事方

張水華跑一公里就拿出場費是否合理?知情人:她已超額回饋賽事方

楊華評論
2026-04-19 17:03:40
2026-04-19 23:59:00
機器人大講堂 incentive-icons
機器人大講堂
立德機器人平臺,是一個集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機器人垂直領(lǐng)域服務(wù)平臺
6472文章數(shù) 4583關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

旅游
手機
藝術(shù)
時尚
公開課

旅游要聞

首季中國經(jīng)濟調(diào)研行|從“過客”到“歸人”:紅河旅居涌新潮

手機要聞

8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

藝術(shù)要聞

拿下阿聯(lián)酋高鐵,中東成了中國基建的“第二主場”!

裝修“精神角落”,就是這么上癮

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版