国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

北大發(fā)布 ManualVLA:首個(gè)長程「生成–理解–動(dòng)作」一體化模型

0
分享至



視覺–語言–動(dòng)作(VLA)模型在機(jī)器人場景理解與操作上展現(xiàn)出較強(qiáng)的通用性,但在需要明確目標(biāo)終態(tài)的長時(shí)序任務(wù)(如樂高搭建、物體重排)中,仍難以兼顧高層規(guī)劃與精細(xì)操控。

針對這一問題,北京大學(xué)、香港中文大學(xué)與至簡動(dòng)力團(tuán)隊(duì)提出了全新的「生成–理解–動(dòng)作」一體化模型 ManualVLA。



  • 論文題目:ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation
  • 論文鏈接:https://arxiv.org/abs/2512.02013
  • 項(xiàng)目主頁:https://sites.google.com/view/maunalvla


https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A

不同于 π0 等端到端模型在處理復(fù)雜長程任務(wù)時(shí)仍面臨的推理與執(zhí)行割裂問題,ManualVLA 摒棄了將「高層次規(guī)劃」與「動(dòng)作生成」拆分的傳統(tǒng)分層級(jí)聯(lián)方案,構(gòu)建了全新通用基礎(chǔ)模型 Mixture-of-Transformers (MoT) 架構(gòu),在同一模型中統(tǒng)一多專家模塊,實(shí)現(xiàn)多模態(tài)生成與動(dòng)作執(zhí)行的緊密協(xié)同。

首先由「規(guī)劃專家」生成由圖像、空間位置提示和文字說明組成的多模態(tài)操作說明書,再通過顯式與隱式相結(jié)合的「思維鏈」(ManualCoT)推理,將信息反饋給「動(dòng)作專家」,為每一步操作提供清晰的顯式控制條件的同時(shí),通過潛在表征為動(dòng)作生成提供持續(xù)的隱式引導(dǎo),實(shí)現(xiàn)理解與生成的高度統(tǒng)一。

實(shí)驗(yàn)結(jié)果表明,ManualVLA 在現(xiàn)實(shí)場景任務(wù)中表現(xiàn)出顯著優(yōu)勢,其平均成功率相較于分層結(jié)構(gòu)的最新基線方法提升約 32%,充分驗(yàn)證了「生成手冊–指導(dǎo)動(dòng)作」這一統(tǒng)一范式的有效性。

一、研究背景與挑戰(zhàn)

近年來,VLA 模型在機(jī)器人場景理解和泛化操作方面取得了顯著進(jìn)展,推動(dòng)了通用具身智能體的發(fā)展。但當(dāng)面臨需要精確定義最終目標(biāo)狀態(tài)的長周期任務(wù),例如復(fù)雜的樂高組裝或物體重新排列時(shí),現(xiàn)有模型仍然難以協(xié)調(diào)高級(jí)規(guī)劃與精確操作。

這些任務(wù)主要面臨兩個(gè)核心難題:首先,VLA 模型必須執(zhí)行精確操作以嚴(yán)格對齊預(yù)定義的最終場景或物體配置;其次,模型必須有效地將長周期規(guī)劃與細(xì)粒度控制相集成,同時(shí)保持對多樣化現(xiàn)實(shí)世界環(huán)境的泛化能力。

現(xiàn)有的分層方法通過依賴人工制作說明書或人類演示視頻來模仿這種能力,然而,這些方法通常在泛化到未見過的最終目標(biāo)狀態(tài)方面存在局限性,在系統(tǒng)復(fù)雜度、部署成本和泛化性之間難以取得兼顧,難以形成一個(gè)統(tǒng)一、可端到端訓(xùn)練和部署的體系。

二、ManualVLA 方法陳述

為此,ManualVLA 讓模型學(xué)會(huì)「自己生成說明書,再按說明書去執(zhí)行動(dòng)作」。在推理階段,系統(tǒng)首先接收自然語言指令、當(dāng)前場景圖像和最終目標(biāo)圖像,由規(guī)劃專家生成包含關(guān)鍵步驟的多模態(tài)手冊:由文字描述指出要操控哪些物體以及要完成的子目標(biāo),像素級(jí)坐標(biāo)給出目標(biāo)物體在圖像中的精確位置,子目標(biāo)圖像則展示子目標(biāo)完成后的「預(yù)期畫面」。動(dòng)作專家在閉環(huán)控制中執(zhí)行這一子目標(biāo),直到達(dá)到預(yù)期狀態(tài),再進(jìn)入下一次手冊生成與執(zhí)行。通過這種逐步推進(jìn)的方式,原本困難的長時(shí)序任務(wù)被拆解為一系列可控、可解釋的短階段。



▲ 圖 1| (a) 諸如樂高拼搭或物體重排等具有預(yù)定義目標(biāo)狀態(tài)的長程任務(wù),對智能機(jī)器人構(gòu)成了重大挑戰(zhàn)。(b) 為了解決此類任務(wù),我們提出了 ManualVLA。這是一個(gè)基于 MoT 架構(gòu)構(gòu)建的統(tǒng)一 VLA 模型,它通過一種精心設(shè)計(jì)的「說明書思維鏈」(Manual Chain-of-Thought),實(shí)現(xiàn)了多模態(tài)手冊生成與動(dòng)作生成之間的緊密協(xié)同。


https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A

架構(gòu)設(shè)計(jì)

ManualVLA 將 Janus-Pro 1B 拓展到 MoT 架構(gòu),形成統(tǒng)一 VLA 模型并集成「規(guī)劃專家」和「動(dòng)作專家」,實(shí)現(xiàn)了多模態(tài)手冊生成和動(dòng)作執(zhí)行之間的連貫協(xié)作。

  • 規(guī)劃專家:處理圖像信息時(shí),ManualVLA 采用了基于 VQ 的視覺分詞器 (VQ-based vision tokenizer),該分詞器遵循 VQ-GAN 的編碼器-量化器-解碼器架構(gòu),對子目標(biāo)圖像進(jìn)行離散化建模。
  • 動(dòng)作專家:采用基于擴(kuò)散去噪的方法進(jìn)行動(dòng)作建模,通過兩層 MLP 構(gòu)建將噪聲動(dòng)作注入動(dòng)作專家的噪聲編碼器,以及用于從潛在表示中預(yù)測噪聲的噪聲解碼器。在動(dòng)作生成的視覺輸入上,ManualVLA 采用了 SigLIP-large,從 384×384 輸入圖像中提取高維語義特征。

ManualCoT 思維鏈機(jī)制

該機(jī)制從顯式與隱式兩條路徑影響動(dòng)作生成。

  • 顯式路徑:模型把規(guī)劃專家預(yù)測的目標(biāo)位置以 visual prompt 形式疊加在當(dāng)前圖像上,構(gòu)成帶有明顯操作區(qū)域提示的「提示圖」,動(dòng)作專家直接以此作為視覺輸入之一,仿佛在圖像上用熒光筆圈出了「請?jiān)谶@里操作」。
  • 隱式路徑:手冊生成時(shí)產(chǎn)生的內(nèi)部特征——無論對應(yīng)文字描述、坐標(biāo)還是子目標(biāo)圖像——都通過專門設(shè)計(jì)的注意力掩碼被動(dòng)作專家讀取,相當(dāng)于在看不見的空間中不斷提醒動(dòng)作模塊「當(dāng)前在做什么、應(yīng)該做到什么程度、做完以后世界會(huì)是什么樣」。消融實(shí)驗(yàn)表明,去掉任一路徑都會(huì)顯著降低長任務(wù)中的成功率,說明只有顯隱結(jié)合,才能兼顧精度與穩(wěn)健性。



▲ 圖 2| (a) 該框架包含兩個(gè)專家模塊:負(fù)責(zé)生成多模態(tài)「說明書」的規(guī)劃專家,以及負(fù)責(zé)預(yù)測精確動(dòng)作的動(dòng)作專家。規(guī)劃專家處理人類指令、當(dāng)前圖像和最終目標(biāo)圖像,生成結(jié)合了下一步圖像、位置坐標(biāo)和子任務(wù)指令的中間手冊。我們引入了一個(gè)顯式思維鏈 (Explicit CoT)推理過程,其中每個(gè)位置指示符都作為一個(gè)視覺提示 (Visual Prompt) 嵌入到動(dòng)作專家的觀測輸入中。(b) 結(jié)合跨任務(wù)共享注意力機(jī)制和專門設(shè)計(jì)的 Attention mask,生成的「說明書」token 也被用作動(dòng)作生成的條件信號(hào),從而實(shí)現(xiàn)了一種能有效引導(dǎo)動(dòng)作專家的隱式思維鏈 (Implicit CoT)推理過程。

三階段訓(xùn)練

  • 第一階段:基于互聯(lián)網(wǎng)機(jī)器人數(shù)據(jù)集,篩選與裝配和重排相關(guān)的軌跡,構(gòu)建超過 40 萬條示例的預(yù)訓(xùn)練集,只更新動(dòng)作專家,學(xué)習(xí)抓取、搬運(yùn)和放置技能。
  • 第二階段:利用基于三維高斯表示的數(shù)字孿生工具,對樂高板、單塊積木和常見桌面物體進(jìn)行三維重建,在虛擬空間中反復(fù)隨機(jī)排列組合,自動(dòng)渲染每個(gè)中間狀態(tài)的圖像并記錄對應(yīng)的位置和文字描述模板,為每個(gè)任務(wù)合成上萬幀帶有精確標(biāo)注的手冊數(shù)據(jù),用于訓(xùn)練規(guī)劃專家。
  • 第三階段:在真實(shí)雙臂平臺(tái)上通過遙操作采集每個(gè)任務(wù) 100 條專家示范軌跡,自動(dòng)抽取關(guān)鍵幀生成與真實(shí)執(zhí)行過程一致的手冊–動(dòng)作配對,在此基礎(chǔ)上對規(guī)劃與動(dòng)作兩個(gè)專家進(jìn)行聯(lián)合微調(diào),使模型在真實(shí)環(huán)境中的規(guī)劃–執(zhí)行閉環(huán)更加貼合物理世界。



▲ 圖 3| 數(shù)字孿生示例 (a) 我們重建了 3D 高斯濺射表征,隨后將其分解為樂高底板和單個(gè)積木。(b) 我們逐步地將積木放置在底板上/將物體放置在盒子上。

三、真機(jī)、模擬器、泛化性實(shí)驗(yàn)

真機(jī)實(shí)驗(yàn)

在 Franka 雙臂平臺(tái)上,ManualVLA 測試了三個(gè)需要明確目標(biāo)狀態(tài)的長周期真實(shí)世界任務(wù)——2D 樂高組裝、3D 樂高組裝和物體重新排列。在手冊生成方面,規(guī)劃專家在 300 個(gè)未見過的測試樣本上生成了令人滿意的中間圖像(例如 2D 樂高組裝的 PSNR 達(dá) 29.01),低 FID 分?jǐn)?shù)(例如物體重新排列為 24.46)證實(shí)了生成圖像的真實(shí)性和保真度,而極低的 MAE 分?jǐn)?shù)(例如 2D 樂高組裝為 3.23)則突顯了模型在預(yù)測目標(biāo)對象位置方面的精確性。



▲ 圖 5| 「規(guī)劃專家」逐步生成 ManualCoT「說明書」,Pred 指代模型生成的預(yù)測結(jié)果,GT 指代真實(shí)圖像。



▲ 表 1| 在三個(gè)長程任務(wù)上,ManualVLA 生成的中間目標(biāo)圖像與 UV 坐標(biāo)的質(zhì)量的量化結(jié)果。

動(dòng)作生成結(jié)果

ManualVLA 在所有三個(gè)真實(shí)世界長周期任務(wù)中均取得了最高成功率,相比最強(qiáng)的分層基線 (VLM + π0.5),最終任務(wù)完成率提高了 15% 到 30%,平均成功率高出 32%?;€模型通常難以在整個(gè)長序列中保持性能,但 ManualVLA 通過 ManualCoT 策略有效地將復(fù)雜任務(wù)分解并錨定到精確動(dòng)作中,緩解了性能隨步驟數(shù)增加而下降的問題。


https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A


https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A



▲ 表 2| 我們使用 20 個(gè)模型均未見過的目標(biāo)狀態(tài)進(jìn)行測試,得到完成長程任務(wù)的操作成功率與關(guān)鍵中間步驟的成功率。

仿真實(shí)驗(yàn)

ManualVLA 在 RLBench 的 10 個(gè)仿真任務(wù)上取得了 70% 的平均成功率,超越了 SOTA 方法 π0 的 63%,進(jìn)一步驗(yàn)證了 ManualCoT 策略在指導(dǎo)精確動(dòng)作生成方面的優(yōu)勢,在通用原子任務(wù)上也能表現(xiàn)出良好效果。



▲ 表 3| ManualVLA 與各 Baseline 模型在仿真環(huán)境 RLBench 上各項(xiàng)原子任務(wù)的成功率與方差。

消融與泛化實(shí)驗(yàn)

消融實(shí)驗(yàn)證明,說明書中所有模態(tài)信息(文本、圖像、UV 坐標(biāo))和隱式 CoT(潛在空間中的條件信號(hào))推理對于解決長周期、目標(biāo)明確的操作任務(wù)是不可或缺的,兩者結(jié)合才能達(dá)到最佳性能。同時(shí),ManualVLA 在未見過的背景、物體形狀和光照變化下也表現(xiàn)出魯棒的泛化能力。



▲ 表 4| 我們探究了如下因素對任務(wù)成功率的影響:(a) 說明書中包含的信息;(b) 顯式與隱式的 ManualCoT 思維鏈機(jī)制;(c) MoT 架構(gòu)與 action 生成范式。



▲ 表 5| 在明顯變化且模型未見過的背景、物體形狀和光照變化下,ManualVLA 的任務(wù)成功率。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鹿晗、關(guān)曉彤“靜默式”分手藏著多少秘密

鹿晗、關(guān)曉彤“靜默式”分手藏著多少秘密

阿訊說天下
2025-12-19 11:50:04
河南省紀(jì)委監(jiān)委:張樹仁涉嫌嚴(yán)重違紀(jì)違法,主動(dòng)投案被查

河南省紀(jì)委監(jiān)委:張樹仁涉嫌嚴(yán)重違紀(jì)違法,主動(dòng)投案被查

大象新聞
2025-12-19 10:53:03
火箭三核83分卻遭逆轉(zhuǎn)!9投9分,錫安被取代不冤,鵜鶘獲黑皮申京

火箭三核83分卻遭逆轉(zhuǎn)!9投9分,錫安被取代不冤,鵜鶘獲黑皮申京

你的籃球頻道
2025-12-19 11:51:56
細(xì)思極恐!8800萬捐贈(zèng)古畫拿去拍賣,3年前該院就有復(fù)制品展出…

細(xì)思極恐!8800萬捐贈(zèng)古畫拿去拍賣,3年前該院就有復(fù)制品展出…

火山詩話
2025-12-18 05:50:56
比剪刀手更可怕的是“中國式大媽姿勢”,以為上鏡,實(shí)際又裝又土

比剪刀手更可怕的是“中國式大媽姿勢”,以為上鏡,實(shí)際又裝又土

生活新鮮市
2025-12-11 12:32:21
南京導(dǎo)航集體失靈,定位軟件全趴窩!連北斗都不行,戰(zhàn)時(shí)就危險(xiǎn)了

南京導(dǎo)航集體失靈,定位軟件全趴窩!連北斗都不行,戰(zhàn)時(shí)就危險(xiǎn)了

普陀動(dòng)物世界
2025-12-19 07:38:11
演員王傳君因病退出,王陽緊急接替

演員王傳君因病退出,王陽緊急接替

貴州小娟
2025-12-19 10:33:43
突發(fā)!一地衛(wèi)健委原主任,年滿64歲主動(dòng)投案

突發(fā)!一地衛(wèi)健委原主任,年滿64歲主動(dòng)投案

梅斯醫(yī)學(xué)
2025-12-19 10:45:14
太陽報(bào):曼城允許小蜜蜂使用訓(xùn)練場,瓜帥邀請安德魯斯喝咖啡

太陽報(bào):曼城允許小蜜蜂使用訓(xùn)練場,瓜帥邀請安德魯斯喝咖啡

懂球帝
2025-12-19 03:46:08
縱覽熱點(diǎn)|村支書證實(shí)27歲患胃萎縮暴瘦至35斤女孩“巧巧”離世,遺體今天已經(jīng)火化

縱覽熱點(diǎn)|村支書證實(shí)27歲患胃萎縮暴瘦至35斤女孩“巧巧”離世,遺體今天已經(jīng)火化

縱覽新聞
2025-12-18 23:29:17
中國在爭議區(qū)建了22個(gè)村莊,不丹已經(jīng)拆光建筑,印度只能干著急了

中國在爭議區(qū)建了22個(gè)村莊,不丹已經(jīng)拆光建筑,印度只能干著急了

削桐作琴
2025-12-14 16:43:23
笑噴了!38歲張雨綺,參加盛典險(xiǎn)被認(rèn)錯(cuò),整張臉垮掉,丟失辨識(shí)度

笑噴了!38歲張雨綺,參加盛典險(xiǎn)被認(rèn)錯(cuò),整張臉垮掉,丟失辨識(shí)度

丁丁鯉史紀(jì)
2025-12-18 12:23:23
勸你一句:少吃外面的飯,真的不太干凈!

勸你一句:少吃外面的飯,真的不太干凈!

新住家居
2025-12-01 22:16:53
毛主席在56年,就已預(yù)言:中國將來要和全世界做生意!

毛主席在56年,就已預(yù)言:中國將來要和全世界做生意!

顧史
2025-12-18 21:19:40
布倫森絕殺寫傳奇,湖人三殺懸念拉滿

布倫森絕殺寫傳奇,湖人三殺懸念拉滿

籃球看比賽
2025-12-19 12:00:52
特斯拉發(fā)文:一味堆電池只會(huì)增加車重,一些車100度電池續(xù)航也沒超過Model 3

特斯拉發(fā)文:一味堆電池只會(huì)增加車重,一些車100度電池續(xù)航也沒超過Model 3

金融界
2025-12-16 16:52:45
21號(hào)就是冬至了!為什么說今年的冬至可不一般,60年一遇?

21號(hào)就是冬至了!為什么說今年的冬至可不一般,60年一遇?

阿天愛旅行
2025-12-17 00:16:32
絕殺!逆轉(zhuǎn)!這哪里是打球,分明是人生!

絕殺!逆轉(zhuǎn)!這哪里是打球,分明是人生!

籃球看比賽
2025-12-19 11:33:30
“多花一小時(shí)省30塊”,最省錢的打工人坐綠皮火車通勤

“多花一小時(shí)省30塊”,最省錢的打工人坐綠皮火車通勤

新周刊
2025-12-18 11:03:52
何晴離世不到48小時(shí),入殮師曝光告別儀式內(nèi)幕,惡心的事發(fā)生了

何晴離世不到48小時(shí),入殮師曝光告別儀式內(nèi)幕,惡心的事發(fā)生了

攬星河的筆記
2025-12-17 21:45:40
2025-12-19 13:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11953文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

媒體:美方官宣史上對臺(tái)單筆最大軍售 野心藏不住了

頭條要聞

媒體:美方官宣史上對臺(tái)單筆最大軍售 野心藏不住了

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬

態(tài)度原創(chuàng)

健康
藝術(shù)
時(shí)尚
房產(chǎn)
數(shù)碼

這些新療法,讓化療不再那么痛苦

藝術(shù)要聞

諸樂三的寫意花鳥

“煙管褲”今年冬天爆火,怎么搭都時(shí)髦!

房產(chǎn)要聞

萬科·三亞嘉瀾地,萬科高端旅居系1號(hào)作品全球發(fā)布

數(shù)碼要聞

虛幻引擎5.7對比5.4測試:GPU最高提升25%、CPU最高提升35%

無障礙瀏覽 進(jìn)入關(guān)懷版