国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北大發(fā)布 ManualVLA:首個長程「生成–理解–動作」一體化模型

0
分享至



視覺–語言–動作(VLA)模型在機器人場景理解與操作上展現(xiàn)出較強的通用性,但在需要明確目標終態(tài)的長時序任務(如樂高搭建、物體重排)中,仍難以兼顧高層規(guī)劃與精細操控。

針對這一問題,北京大學、香港中文大學與至簡動力團隊提出了全新的「生成–理解–動作」一體化模型 ManualVLA。



  • 論文題目:ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation
  • 論文鏈接:https://arxiv.org/abs/2512.02013
  • 項目主頁:https://sites.google.com/view/maunalvla


https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A

不同于 π0 等端到端模型在處理復雜長程任務時仍面臨的推理與執(zhí)行割裂問題,ManualVLA 摒棄了將「高層次規(guī)劃」與「動作生成」拆分的傳統(tǒng)分層級聯(lián)方案,構(gòu)建了全新通用基礎模型 Mixture-of-Transformers (MoT) 架構(gòu),在同一模型中統(tǒng)一多專家模塊,實現(xiàn)多模態(tài)生成與動作執(zhí)行的緊密協(xié)同。

首先由「規(guī)劃專家」生成由圖像、空間位置提示和文字說明組成的多模態(tài)操作說明書,再通過顯式與隱式相結(jié)合的「思維鏈」(ManualCoT)推理,將信息反饋給「動作專家」,為每一步操作提供清晰的顯式控制條件的同時,通過潛在表征為動作生成提供持續(xù)的隱式引導,實現(xiàn)理解與生成的高度統(tǒng)一。

實驗結(jié)果表明,ManualVLA 在現(xiàn)實場景任務中表現(xiàn)出顯著優(yōu)勢,其平均成功率相較于分層結(jié)構(gòu)的最新基線方法提升約 32%,充分驗證了「生成手冊–指導動作」這一統(tǒng)一范式的有效性。

一、研究背景與挑戰(zhàn)

近年來,VLA 模型在機器人場景理解和泛化操作方面取得了顯著進展,推動了通用具身智能體的發(fā)展。但當面臨需要精確定義最終目標狀態(tài)的長周期任務,例如復雜的樂高組裝或物體重新排列時,現(xiàn)有模型仍然難以協(xié)調(diào)高級規(guī)劃與精確操作。

這些任務主要面臨兩個核心難題:首先,VLA 模型必須執(zhí)行精確操作以嚴格對齊預定義的最終場景或物體配置;其次,模型必須有效地將長周期規(guī)劃與細粒度控制相集成,同時保持對多樣化現(xiàn)實世界環(huán)境的泛化能力。

現(xiàn)有的分層方法通過依賴人工制作說明書或人類演示視頻來模仿這種能力,然而,這些方法通常在泛化到未見過的最終目標狀態(tài)方面存在局限性,在系統(tǒng)復雜度、部署成本和泛化性之間難以取得兼顧,難以形成一個統(tǒng)一、可端到端訓練和部署的體系。

二、ManualVLA 方法陳述

為此,ManualVLA 讓模型學會「自己生成說明書,再按說明書去執(zhí)行動作」。在推理階段,系統(tǒng)首先接收自然語言指令、當前場景圖像和最終目標圖像,由規(guī)劃專家生成包含關(guān)鍵步驟的多模態(tài)手冊:由文字描述指出要操控哪些物體以及要完成的子目標,像素級坐標給出目標物體在圖像中的精確位置,子目標圖像則展示子目標完成后的「預期畫面」。動作專家在閉環(huán)控制中執(zhí)行這一子目標,直到達到預期狀態(tài),再進入下一次手冊生成與執(zhí)行。通過這種逐步推進的方式,原本困難的長時序任務被拆解為一系列可控、可解釋的短階段。



▲ 圖 1| (a) 諸如樂高拼搭或物體重排等具有預定義目標狀態(tài)的長程任務,對智能機器人構(gòu)成了重大挑戰(zhàn)。(b) 為了解決此類任務,我們提出了 ManualVLA。這是一個基于 MoT 架構(gòu)構(gòu)建的統(tǒng)一 VLA 模型,它通過一種精心設計的「說明書思維鏈」(Manual Chain-of-Thought),實現(xiàn)了多模態(tài)手冊生成與動作生成之間的緊密協(xié)同。


https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A

架構(gòu)設計

ManualVLA 將 Janus-Pro 1B 拓展到 MoT 架構(gòu),形成統(tǒng)一 VLA 模型并集成「規(guī)劃專家」和「動作專家」,實現(xiàn)了多模態(tài)手冊生成和動作執(zhí)行之間的連貫協(xié)作。

  • 規(guī)劃專家:處理圖像信息時,ManualVLA 采用了基于 VQ 的視覺分詞器 (VQ-based vision tokenizer),該分詞器遵循 VQ-GAN 的編碼器-量化器-解碼器架構(gòu),對子目標圖像進行離散化建模。
  • 動作專家:采用基于擴散去噪的方法進行動作建模,通過兩層 MLP 構(gòu)建將噪聲動作注入動作專家的噪聲編碼器,以及用于從潛在表示中預測噪聲的噪聲解碼器。在動作生成的視覺輸入上,ManualVLA 采用了 SigLIP-large,從 384×384 輸入圖像中提取高維語義特征。

ManualCoT 思維鏈機制

該機制從顯式與隱式兩條路徑影響動作生成。

  • 顯式路徑:模型把規(guī)劃專家預測的目標位置以 visual prompt 形式疊加在當前圖像上,構(gòu)成帶有明顯操作區(qū)域提示的「提示圖」,動作專家直接以此作為視覺輸入之一,仿佛在圖像上用熒光筆圈出了「請在這里操作」。
  • 隱式路徑:手冊生成時產(chǎn)生的內(nèi)部特征——無論對應文字描述、坐標還是子目標圖像——都通過專門設計的注意力掩碼被動作專家讀取,相當于在看不見的空間中不斷提醒動作模塊「當前在做什么、應該做到什么程度、做完以后世界會是什么樣」。消融實驗表明,去掉任一路徑都會顯著降低長任務中的成功率,說明只有顯隱結(jié)合,才能兼顧精度與穩(wěn)健性。



▲ 圖 2| (a) 該框架包含兩個專家模塊:負責生成多模態(tài)「說明書」的規(guī)劃專家,以及負責預測精確動作的動作專家。規(guī)劃專家處理人類指令、當前圖像和最終目標圖像,生成結(jié)合了下一步圖像、位置坐標和子任務指令的中間手冊。我們引入了一個顯式思維鏈 (Explicit CoT)推理過程,其中每個位置指示符都作為一個視覺提示 (Visual Prompt) 嵌入到動作專家的觀測輸入中。(b) 結(jié)合跨任務共享注意力機制和專門設計的 Attention mask,生成的「說明書」token 也被用作動作生成的條件信號,從而實現(xiàn)了一種能有效引導動作專家的隱式思維鏈 (Implicit CoT)推理過程。

三階段訓練

  • 第一階段:基于互聯(lián)網(wǎng)機器人數(shù)據(jù)集,篩選與裝配和重排相關(guān)的軌跡,構(gòu)建超過 40 萬條示例的預訓練集,只更新動作專家,學習抓取、搬運和放置技能。
  • 第二階段:利用基于三維高斯表示的數(shù)字孿生工具,對樂高板、單塊積木和常見桌面物體進行三維重建,在虛擬空間中反復隨機排列組合,自動渲染每個中間狀態(tài)的圖像并記錄對應的位置和文字描述模板,為每個任務合成上萬幀帶有精確標注的手冊數(shù)據(jù),用于訓練規(guī)劃專家。
  • 第三階段:在真實雙臂平臺上通過遙操作采集每個任務 100 條專家示范軌跡,自動抽取關(guān)鍵幀生成與真實執(zhí)行過程一致的手冊–動作配對,在此基礎上對規(guī)劃與動作兩個專家進行聯(lián)合微調(diào),使模型在真實環(huán)境中的規(guī)劃–執(zhí)行閉環(huán)更加貼合物理世界。



▲ 圖 3| 數(shù)字孿生示例 (a) 我們重建了 3D 高斯濺射表征,隨后將其分解為樂高底板和單個積木。(b) 我們逐步地將積木放置在底板上/將物體放置在盒子上。

三、真機、模擬器、泛化性實驗

真機實驗

在 Franka 雙臂平臺上,ManualVLA 測試了三個需要明確目標狀態(tài)的長周期真實世界任務——2D 樂高組裝、3D 樂高組裝和物體重新排列。在手冊生成方面,規(guī)劃專家在 300 個未見過的測試樣本上生成了令人滿意的中間圖像(例如 2D 樂高組裝的 PSNR 達 29.01),低 FID 分數(shù)(例如物體重新排列為 24.46)證實了生成圖像的真實性和保真度,而極低的 MAE 分數(shù)(例如 2D 樂高組裝為 3.23)則突顯了模型在預測目標對象位置方面的精確性。



▲ 圖 5| 「規(guī)劃專家」逐步生成 ManualCoT「說明書」,Pred 指代模型生成的預測結(jié)果,GT 指代真實圖像。



▲ 表 1| 在三個長程任務上,ManualVLA 生成的中間目標圖像與 UV 坐標的質(zhì)量的量化結(jié)果。

動作生成結(jié)果

ManualVLA 在所有三個真實世界長周期任務中均取得了最高成功率,相比最強的分層基線 (VLM + π0.5),最終任務完成率提高了 15% 到 30%,平均成功率高出 32%。基線模型通常難以在整個長序列中保持性能,但 ManualVLA 通過 ManualCoT 策略有效地將復雜任務分解并錨定到精確動作中,緩解了性能隨步驟數(shù)增加而下降的問題。


https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A


https://mp.weixin.qq.com/s/5d8G8SHTagcJO8pKRZpI6A



▲ 表 2| 我們使用 20 個模型均未見過的目標狀態(tài)進行測試,得到完成長程任務的操作成功率與關(guān)鍵中間步驟的成功率。

仿真實驗

ManualVLA 在 RLBench 的 10 個仿真任務上取得了 70% 的平均成功率,超越了 SOTA 方法 π0 的 63%,進一步驗證了 ManualCoT 策略在指導精確動作生成方面的優(yōu)勢,在通用原子任務上也能表現(xiàn)出良好效果。



▲ 表 3| ManualVLA 與各 Baseline 模型在仿真環(huán)境 RLBench 上各項原子任務的成功率與方差。

消融與泛化實驗

消融實驗證明,說明書中所有模態(tài)信息(文本、圖像、UV 坐標)和隱式 CoT(潛在空間中的條件信號)推理對于解決長周期、目標明確的操作任務是不可或缺的,兩者結(jié)合才能達到最佳性能。同時,ManualVLA 在未見過的背景、物體形狀和光照變化下也表現(xiàn)出魯棒的泛化能力。



▲ 表 4| 我們探究了如下因素對任務成功率的影響:(a) 說明書中包含的信息;(b) 顯式與隱式的 ManualCoT 思維鏈機制;(c) MoT 架構(gòu)與 action 生成范式。



▲ 表 5| 在明顯變化且模型未見過的背景、物體形狀和光照變化下,ManualVLA 的任務成功率。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
戰(zhàn)勝衛(wèi)冕冠軍!森林狼仍不滿意,3換1報價助攻王,雄鹿打錯算盤了

戰(zhàn)勝衛(wèi)冕冠軍!森林狼仍不滿意,3換1報價助攻王,雄鹿打錯算盤了

體育大朋說
2025-12-20 21:43:01
青山菜菜:被初戀臉騙了!甜妹皮下是「業(yè)界卷王」の反差核彈

青山菜菜:被初戀臉騙了!甜妹皮下是「業(yè)界卷王」の反差核彈

素然追光
2025-12-21 00:40:09
大量浙江游客涌入沈陽,打著旅游幌子不去旅游不吃美食,為啥來

大量浙江游客涌入沈陽,打著旅游幌子不去旅游不吃美食,為啥來

另子維愛讀史
2025-11-29 07:53:16
越南為何至今無力翻身?許世友撤軍前發(fā)布的3個命令,真是太高明

越南為何至今無力翻身?許世友撤軍前發(fā)布的3個命令,真是太高明

鶴羽說個事
2025-11-27 11:07:38
耗資33億,首日票房僅5000萬,卡梅隆懵了:中國觀眾憑啥不買賬?

耗資33億,首日票房僅5000萬,卡梅隆懵了:中國觀眾憑啥不買賬?

八卦南風
2025-12-19 14:40:36
給《老舅》演技最好10位演員排個名:郭京飛僅第2,第1沒有爭議

給《老舅》演技最好10位演員排個名:郭京飛僅第2,第1沒有爭議

小丸子的娛樂圈
2025-12-20 17:25:37
遺憾??!錯過和三個巨星合作,無奈加盟掘金,艾弗森痛失冠軍希望

遺憾啊!錯過和三個巨星合作,無奈加盟掘金,艾弗森痛失冠軍希望

大衛(wèi)的籃球故事
2025-12-21 00:05:14
A股唯一打破壟斷龍頭,三年暴跌80%,4家社?;鹬貍}被套牢

A股唯一打破壟斷龍頭,三年暴跌80%,4家社?;鹬貍}被套牢

鵬哥投研
2025-12-20 22:31:15
南京博物館事件還未結(jié)束,呂梁市博物館又發(fā)布接受社會捐贈公告

南京博物館事件還未結(jié)束,呂梁市博物館又發(fā)布接受社會捐贈公告

映射生活的身影
2025-12-20 18:01:22
一旦戰(zhàn)事大規(guī)模爆發(fā),我國必須死保8座城市,關(guān)鍵時候能抵御外敵

一旦戰(zhàn)事大規(guī)模爆發(fā),我國必須死保8座城市,關(guān)鍵時候能抵御外敵

策略述
2025-11-25 11:24:04
1-1大冷!中國隊逼平韓國隊,末輪贏球=擺脫倒數(shù)第一

1-1大冷!中國隊逼平韓國隊,末輪贏球=擺脫倒數(shù)第一

何老師呀
2025-12-20 16:36:13
你無意中發(fā)現(xiàn)過別人哪些秘密?網(wǎng)友:這不是我一個單身狗能看的

你無意中發(fā)現(xiàn)過別人哪些秘密?網(wǎng)友:這不是我一個單身狗能看的

帶你感受人間冷暖
2025-12-18 00:10:08
融入德國!樊振東開凱迪拉克豪車上班,戴白手套按工作人員指引泊車

融入德國!樊振東開凱迪拉克豪車上班,戴白手套按工作人員指引泊車

818體育
2025-12-20 16:57:47
香港再無董建華

香港再無董建華

華人星光
2025-11-25 12:01:27
鄭曉燕、李舜涉嫌嚴重違紀違法被查

鄭曉燕、李舜涉嫌嚴重違紀違法被查

彩云熱線
2025-12-20 10:42:18
陳妍希帶兒子現(xiàn)身機場被偶遇,9歲的小星星正臉曝光,帥氣十足!

陳妍希帶兒子現(xiàn)身機場被偶遇,9歲的小星星正臉曝光,帥氣十足!

負面黑洞
2025-12-20 20:20:11
肝癌是喝茶喝出來的?醫(yī)生:就算是鐵打的肝臟,也怕天天喝5種茶

肝癌是喝茶喝出來的?醫(yī)生:就算是鐵打的肝臟,也怕天天喝5種茶

健康科普365
2025-12-20 16:30:03
柴智屏評價F4變F3:朱孝天性格20年沒變!青禾扮演者被拉黑很無奈

柴智屏評價F4變F3:朱孝天性格20年沒變!青禾扮演者被拉黑很無奈

一盅情懷
2025-12-20 17:52:25
出大事了,轟炸機直逼東京,日本投票結(jié)果出來了,或迎首個核武器

出大事了,轟炸機直逼東京,日本投票結(jié)果出來了,或迎首個核武器

混沌錄
2025-12-19 23:46:12
日本可能買了認知戰(zhàn)的通稿

日本可能買了認知戰(zhàn)的通稿

求實處
2025-12-19 23:58:43
2025-12-21 01:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

印度官員:若"臺灣有事" 印度不太可能像西方那樣回應

頭條要聞

印度官員:若"臺灣有事" 印度不太可能像西方那樣回應

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經(jīng)要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產(chǎn)測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

教育
健康
藝術(shù)
本地
公開課

教育要聞

高二英語詞匯量有3000,成績只有40多分,原因有兩個

這些新療法,讓化療不再那么痛苦

藝術(shù)要聞

投資26億!廣州“獨角獸”的總部大樓,躍出地面!

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風骨

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版