国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別機器人“斷片”!KAIST和UC Berkeley團隊讓VLA模型擁有記憶

0
分享至

機器人伸手去拿桌上的杯子,它需要知道自己剛才有沒有抓住過這個杯子嗎?答案是肯定的。但現(xiàn)有的視覺-語言-動作模型(VLA)大多只盯著當前畫面做決策,完全沒有“歷史記憶”。這就導(dǎo)致機器人在處理遮擋物體、多步驟堆疊這類需要上下文的任務(wù)時,很容易陷入混亂。



近日,來自KAIST和UC Berkeley 的團隊提出了一個名為HAMLET的框架,給預(yù)訓(xùn)練VLA模型補上了“歷史感知”的短板。這個輕量級插件不需要從頭訓(xùn)練大模型,卻能讓機器人在長時操控任務(wù)中,平均成功率直接提升47.2%。在真實場景的“蓋方塊 疊杯子”任務(wù)里,HAMLET更是把成功率從37.5%拉到了79.2%,徹底解決了機器人“斷片”的問題。

01.

沒有記憶的機器人 連疊杯子都做不好

當下主流的VLA模型,比如GR00T N1.5、CogACT,都遵循“單幀假設(shè)”,只靠當前的視覺畫面和文本指令來預(yù)測下一步動作。這種設(shè)計在簡單任務(wù)里沒問題,但遇到需要上下文的長時任務(wù),就會立刻露怯。

舉個例子,“用最近的杯子蓋住方塊,再把另一個杯子疊上去”這個任務(wù),當機器人用第一個杯子蓋住方塊后,方塊就被遮擋住了。如果沒有歷史記憶,機器人看著眼前的兩個杯子,根本不知道哪個杯子下面藏著方塊,大概率會重復(fù)抓取同一個杯子。論文里的實驗也印證了這一點:GR00T N1.5在這個任務(wù)上的成功率只有37.5%,甚至?xí)霈F(xiàn)“拿起杯子又放下,反復(fù)橫跳”的滑稽場面。

更麻煩的是,給模型簡單堆砌歷史幀根本行不通。研究團隊發(fā)現(xiàn),在VLA輸入里多塞4幀歷史畫面,會讓模型的前向推理速度變慢35%,峰值內(nèi)存占用直接暴漲3.6倍。這種粗暴的方法不僅效率低下,還會因為引入冗余信息,導(dǎo)致模型在復(fù)雜場景下的泛化能力下降。

02.

HAMLET的兩大核心:給每一刻“拍快照”,再用記憶模塊整合

HAMLET的巧妙之處在于,它沒有拋棄現(xiàn)有的VLA模型,而是通過兩個核心組件,給模型加裝了一個輕量化的“記憶系統(tǒng)”,整個過程只需要微調(diào),不用從頭訓(xùn)練。

1、時刻令牌:給每個時間步拍一張“信息快照”

首先,HAMLET設(shè)計了 時刻令牌(moment tokens) ,用來給每個時間步的場景信息做“壓縮存檔”。這些令牌是可學(xué)習(xí)的向量,會被拼接到VLA模型的輸入序列里。



為了讓時刻令牌只記住關(guān)鍵信息,團隊用了時間對比學(xué)習(xí)(TCL)的方法來初始化它們。具體來說,就是讓同一個時間步的增強圖像(比如加了模糊、噪聲的版本)對應(yīng)的令牌盡可能相似,讓不同時間步的令牌盡可能不同。這樣一來,時刻令牌就會自動忽略掉桌子、墻壁這些靜態(tài)背景,只聚焦于機器人抓手、待操作物體這些動態(tài)變化的關(guān)鍵區(qū)域。

經(jīng)過TCL初始化的時刻令牌,相當于給每個時間步的場景拍了一張“信息快照”,既保留了任務(wù)相關(guān)的動態(tài)特征,又剔除了冗余信息,為后續(xù)的記憶整合打下了基礎(chǔ)。

2、輕量記憶模塊:只提取有用的歷史信息

有了時刻令牌這個“快照庫”,接下來就需要一個 記憶模塊 來篩選和整合這些快照。HAMLET沒有用復(fù)雜的循環(huán)神經(jīng)網(wǎng)絡(luò),而是選擇了一個兩層的Transformer架構(gòu),專門用來處理歷史時刻令牌。



這個記憶模塊會把最近的T個時刻令牌堆疊成一個歷史矩陣,再通過因果自注意力機制,自動判斷哪些歷史時刻對當前決策更重要。比如在“交換兩個方塊”的任務(wù)中,當機器人需要決定下一步抓哪個方塊時,記憶模塊會重點關(guān)注“藍色方塊被放到輔助位置”的那個時間步,而忽略掉無關(guān)的移動過程。

最終,記憶模塊會輸出一個融合了歷史信息的特征向量,把它和VLA模型原本的單幀特征拼接在一起,再輸入到動作預(yù)測頭里。這樣一來,模型就能同時參考當前畫面和歷史上下文,做出更準確的決策。

03.

實測:長時任務(wù)成功率碾壓基線,效率還更高

為了驗證HAMLET的效果,團隊在真實機器人和仿真環(huán)境中做了大量實驗,測試對象包括GR00T N1.5和CogACT兩款主流VLA模型。



在真實場景的三項長時任務(wù)中,HAMLET的表現(xiàn)堪稱驚艷。在“兩次拾取放置”任務(wù)里,它把GR00T N1.5的成功率從12.5%提升到66.7%;在“交換方塊”任務(wù)中,成功率從37.5%躍升至83.3%,平均成功率直接達到76.4%,比基線模型高出47.2個百分點。



即便是在通用仿真基準測試中,HAMLET也展現(xiàn)出了強大的泛化能力:在RoboCasa Kitchen數(shù)據(jù)集上,它把成功率從64.1%提升到66.4%;在LIBERO數(shù)據(jù)集上,更是將行業(yè)領(lǐng)先的95.6%成功率推高到97.7%。



更關(guān)鍵的是,HAMLET在提升性能的同時,還保持了極高的效率。對比簡單堆疊歷史幀的方法,當歷史長度為8時,后者會讓模型推理速度變慢2.4倍,內(nèi)存占用暴漲7倍;而HAMLET的推理速度僅增加7%,內(nèi)存占用僅增加1倍,完全不會給部署帶來額外負擔(dān)。

04.

不只是 機器人:記憶模塊還能跨任務(wù)遷移

HAMLET的另一個驚喜之處在于,它的記憶模塊具備 跨任務(wù)遷移能力 。團隊做了一個有趣的實驗:先在LIBERO數(shù)據(jù)集上訓(xùn)練記憶模塊,然后直接把它遷移到RoboCasa Kitchen數(shù)據(jù)集上測試。結(jié)果顯示,遷移后的記憶模塊依然能讓模型成功率提升1.9個百分點,幾乎和在目標數(shù)據(jù)集上訓(xùn)練的效果持平。

這意味著,HAMLET的記憶模塊學(xué)到的不是某個特定任務(wù)的歷史規(guī)律,而是一種通用的“歷史信息處理能力”。未來只要在一個數(shù)據(jù)集上訓(xùn)練好記憶模塊,就能直接用到其他機器人操控任務(wù)中,大大降低了部署成本。

05.

結(jié)語與未來:

HAMLET的出現(xiàn),解決了VLA模型“沒有歷史記憶”的核心痛點。它不需要重構(gòu)大模型的架構(gòu),也不需要海量的訓(xùn)練數(shù)據(jù),只通過時刻令牌和輕量記憶模塊的組合,就能讓現(xiàn)有VLA模型快速具備歷史感知能力。

在機器人邁向通用化的路上,“記憶”無疑是不可或缺的一環(huán)。當機器人能記住自己剛才做了什么,能分辨出哪個物體是之前操作過的,它才能真正理解復(fù)雜的人類指令,完成更具挑戰(zhàn)性的長時操控任務(wù)。

論文地址:https://arxiv.org/pdf/2510.00695

項目地址:https://myungkyukoo.github.io/hamlet/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
分錢了!新加坡大滿貫國乒17人,分別拿到多少獎金?莎頭積分破萬

分錢了!新加坡大滿貫國乒17人,分別拿到多少獎金?莎頭積分破萬

體育大學(xué)僧
2026-03-02 10:18:17
醒醒吧!就算臺灣愿意和平回歸,臺灣也不可能允許解放軍對臺駐軍

醒醒吧!就算臺灣愿意和平回歸,臺灣也不可能允許解放軍對臺駐軍

老狊說體育
2026-02-11 22:47:13
2019年江西彩禮殺人案:25歲新郎舉債40萬遭退婚,連砍新娘70刀

2019年江西彩禮殺人案:25歲新郎舉債40萬遭退婚,連砍新娘70刀

談史論天地
2026-02-20 12:11:30
中美沖突升級的下一步,一定是軍事較量,我們要做好全面準備

中美沖突升級的下一步,一定是軍事較量,我們要做好全面準備

曾經(jīng)年少
2025-04-14 16:03:33
醫(yī)生提醒:無論多壞的肺,只要常吃這5樣,肺一天比一天好

醫(yī)生提醒:無論多壞的肺,只要常吃這5樣,肺一天比一天好

路醫(yī)生健康科普
2026-02-28 23:20:03
特朗普稱美方“基本摧毀”伊朗海軍總部

特朗普稱美方“基本摧毀”伊朗海軍總部

財聯(lián)社
2026-03-02 01:29:13
中國新婚夫妻中東度蜜月突遇戰(zhàn)爭爆發(fā),新娘在領(lǐng)空關(guān)閉前離境,新郎滯留:不時傳來爆炸聲,買了餅干和水,機票改簽到10多天后

中國新婚夫妻中東度蜜月突遇戰(zhàn)爭爆發(fā),新娘在領(lǐng)空關(guān)閉前離境,新郎滯留:不時傳來爆炸聲,買了餅干和水,機票改簽到10多天后

大象新聞
2026-03-01 23:45:04
41歲阿Sa真敢穿!紅白條紋泳裝秀22寸螞蟻腰,網(wǎng)友:沒身材別硬秀

41歲阿Sa真敢穿!紅白條紋泳裝秀22寸螞蟻腰,網(wǎng)友:沒身材別硬秀

葉公子
2026-03-02 12:06:04
體制內(nèi)情商高能帶來啥意外驚喜?網(wǎng)友:別在地鐵看,別問我為什么

體制內(nèi)情商高能帶來啥意外驚喜?網(wǎng)友:別在地鐵看,別問我為什么

帶你感受人間冷暖
2026-02-24 01:03:13
劉濤這美臀,算是圈內(nèi)第一了吧,麻花辮配包臀裙太顯年輕了?

劉濤這美臀,算是圈內(nèi)第一了吧,麻花辮配包臀裙太顯年輕了?

娛樂領(lǐng)航家
2026-02-25 23:00:03
為什么說要得饒人處且饒人?網(wǎng)友:卡里幾千萬,為了5塊錢命沒了

為什么說要得饒人處且饒人?網(wǎng)友:卡里幾千萬,為了5塊錢命沒了

另子維愛讀史
2026-02-25 23:23:26
伊朗只是開始,美國三張王牌全部失效,全球衰落不可避免!

伊朗只是開始,美國三張王牌全部失效,全球衰落不可避免!

毛豆論道
2026-03-01 17:27:17
我們的網(wǎng)友給內(nèi)塔尼亞胡起了一個外號

我們的網(wǎng)友給內(nèi)塔尼亞胡起了一個外號

清暉有墨
2025-09-08 17:18:01
被稱為“中國最大忽悠”的賈躍亭,似乎要翻身了。

被稱為“中國最大忽悠”的賈躍亭,似乎要翻身了。

流蘇晚晴
2026-02-19 16:19:47
美國沒想到,俄羅斯也沒想到!中國石油,如今會成為“遙遙領(lǐng)先”

美國沒想到,俄羅斯也沒想到!中國石油,如今會成為“遙遙領(lǐng)先”

來科點譜
2026-02-20 07:16:30
你啥時候意識到錢的重要性?網(wǎng)友:錢能解決85%以上的雞毛蒜皮事

你啥時候意識到錢的重要性?網(wǎng)友:錢能解決85%以上的雞毛蒜皮事

帶你感受人間冷暖
2026-02-23 01:22:30
安東尼奧膽子真大!可能同時招入4位07后球員,進U23國足名單

安東尼奧膽子真大!可能同時招入4位07后球員,進U23國足名單

振剛說足球
2026-03-02 10:07:52
難以置信!特殊時刻,竟有那么多中國網(wǎng)友對特朗普歡呼……

難以置信!特殊時刻,竟有那么多中國網(wǎng)友對特朗普歡呼……

慧翔百科
2026-03-02 11:26:17
笑不活了,看來傍大款這碗飯不是誰都能吃的!網(wǎng)友:我可下不了嘴

笑不活了,看來傍大款這碗飯不是誰都能吃的!網(wǎng)友:我可下不了嘴

另子維愛讀史
2026-03-01 23:17:53
美國發(fā)出警告:中國不還100年前的舊債,美國絕不承認欠中國的錢

美國發(fā)出警告:中國不還100年前的舊債,美國絕不承認欠中國的錢

霽寒飄雪
2026-01-26 16:18:59
2026-03-02 15:04:49
機器人大講堂 incentive-icons
機器人大講堂
立德機器人平臺,是一個集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機器人垂直領(lǐng)域服務(wù)平臺
6314文章數(shù) 4577關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

體育要聞

卡里克主場5連勝!隊史第2人通過最大考驗

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

中東局勢影響如何?十大券商策略來了

汽車要聞

預(yù)售11.28萬起 狐全新阿爾法S5標配寧德時代

態(tài)度原創(chuàng)

家居
時尚
本地
親子
軍事航空

家居要聞

萬物互聯(lián) 享科技福祉

從每天只睡4小時到8小時:一個失眠者的自救指南

本地新聞

津南好·四時總相宜

親子要聞

小時候“不合群”的孩子,長大后更有出息?3個優(yōu)勢普通人比不了

軍事要聞

美軍動用新型武器:山寨伊朗的

無障礙瀏覽 進入關(guān)懷版