国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

突破模型瓶頸:QDepth-VLA讓機器人擁有更精準的3D空間感知

0
分享至



視覺-語言-動作模型(VLA)在機器人操控領(lǐng)域展現(xiàn)出巨大潛力。通過賦予預(yù)訓(xùn)練視覺-語言模型(VLM)動作生成能力,機器人能夠理解自然語言指令并在多樣化場景中展現(xiàn)出強大的泛化能力。然而,這類模型在應(yīng)對長時序或精細操作任務(wù)時,仍然存在性能下降的現(xiàn)象。

這種現(xiàn)象的根源在于,模型雖具備語義理解能力,卻缺乏對三維空間的幾何感知與推理能力,導(dǎo)致其難以準確捕捉如機械臂夾爪與物體之間相對位置關(guān)系等關(guān)鍵三維信息。

為此,由中國科學(xué)院自動化研究所與靈寶 CASBOT 共同提出了QDepth-VLA—— 一種結(jié)合量化深度預(yù)測(Quantized Depth Prediction) 的 3D 信息增強型 VLA 模型。它通過獨立的Depth Expert模塊來學(xué)習(xí)離散化的深度表示。這種設(shè)計在保持原有語義對齊能力的同時,顯著提升了機器人在復(fù)雜操作場景下的空間推理與操控精度。



  • 論文標(biāo)題:QDepth-VLA: Quantized Depth Prediction as Auxiliary Supervision for Vision–Language–Action Models
  • 論文鏈接:https://arxiv.org/pdf/2510.14836

研究背景

如何讓模型具備真實三維空間理解能力,一直是視覺 - 語言 - 動作領(lǐng)域面臨的關(guān)鍵挑戰(zhàn)。盡管 VLA 模型在語義理解與指令跟隨方面取得了顯著進展,但其空間感知能力仍然有限。當(dāng)任務(wù)涉及精細化或長時程多步驟操作時,模型往往難以建立穩(wěn)定的三維幾何關(guān)聯(lián),導(dǎo)致定位誤差和操作失敗。

為填補二維視覺語義理解與 3D 空間感知之間的鴻溝,研究者近年開始探索將三維信息融入 VLA 模型的多種路徑。主流方向可分為三類:

1. 直接注入 3D 特征。這類方法通常將點云或深度圖編碼為三維特征,再與 VLM 主干網(wǎng)絡(luò)或動作專家模塊融合,從而顯式引入幾何信息。盡管能夠提供更豐富的空間線索,但這種方式顯著增加了模型復(fù)雜度,并可能破壞大規(guī)模 VLM 預(yù)訓(xùn)練中形成的二維視覺先驗。

2.3D 特征投影方法。另一類方法將三維特征投影為多視角二維圖像,再輸入原有視覺 - 語言結(jié)構(gòu)。該策略在最大程度上保持了 VLM 的視覺語言能力,但投影過程不可避免地造成信息損失,難以保留細粒度的空間幾何特征。

3. 輔助 3D 視覺預(yù)測任務(wù)。相比直接融合 3D 特征,最新的趨勢是通過引入輔助任務(wù)(如深度估計或未來場景預(yù)測)來隱式強化模型的三維空間理解。這種方式無需額外傳感器輸入,具有更好的兼容性與可擴展性,是一條更具潛力的研究路線。

然而,已有工作表明,這類基于深度預(yù)測的輔助監(jiān)督并非總能帶來性能提升。例如,DreamVLA 等研究發(fā)現(xiàn),直接以像素級深度圖作為輔助任務(wù)可能引入噪聲監(jiān)督或冗余信號,反而削弱模型的策略學(xué)習(xí)穩(wěn)定性。因此,如何設(shè)計更高效、語義一致的深度監(jiān)督機制,使 VLA 在保持二維視覺語義理解的同時獲得穩(wěn)健的三維感知能力,仍然是當(dāng)前研究的核心難題。

方法設(shè)計

為解決深度預(yù)測輔助任務(wù)存在的監(jiān)督噪聲和信號冗余問題,中國科學(xué)院自動化研究所與靈寶 CASBOT 共同提出了QDepth-VLA,通過引入量化深度預(yù)測機制與混合注意力結(jié)構(gòu),使模型在保持語義一致性的同時,獲得穩(wěn)健的三維空間感知與動作決策能力。整體方法包括三部分 (如圖):



1.深度圖標(biāo)注

首先采用 Video-Depth-Anything 對視頻幀進行高精度深度標(biāo)注,顯著提升了時空一致性,從源頭上減少了噪聲和漂移。

2.深度量化與 Depth Expert

為了避免直接預(yù)測像素級深度圖的噪聲干擾,首先分別利用標(biāo)注好的數(shù)據(jù)集分別訓(xùn)練對應(yīng)的 VQ-VAE,之后使用 VQ-VAE 對深度圖進行離散化編碼,將其轉(zhuǎn)化為結(jié)構(gòu)化的深度 token。模型優(yōu)化目標(biāo)如下:





設(shè)計了獨立的 Depth Expert 模塊,其結(jié)構(gòu)與 Action Expert 相似,均基于 Transformer 架構(gòu),用于預(yù)測深度 token,從而在不干擾視覺 - 語言主干的前提下提供穩(wěn)定的幾何感知信號。

3.混合注意力機制

為實現(xiàn)跨模態(tài)融合,減小深度模態(tài)可能存在的噪聲干擾,團隊還設(shè)計了Hybrid Attention Mask,在不同模態(tài)間調(diào)控信息流:

  • 文本與圖像 token 僅在各自模態(tài)內(nèi)自注意,保持語義一致性;
  • 深度 token 同時關(guān)注圖像與文本,獲得語義上下文;
  • 動作 token 則融合前述所有模態(tài),實現(xiàn)視覺 — 深度 — 動作一體化建模。

這種塊狀注意力設(shè)計有效防止深度噪聲干擾動作生成,同時保持不同模態(tài)之間的對齊能力。

4.聯(lián)合優(yōu)化目標(biāo)

整體訓(xùn)練目標(biāo)整合動作與深度兩類監(jiān)督信號:





通過上述設(shè)計,QDepth-VLA 實現(xiàn)了視覺語義、空間幾何與動作策略的協(xié)同學(xué)習(xí),在多任務(wù)、多場景中展現(xiàn)出更強的泛化與穩(wěn)定性。

實驗驗證

為全面評估 QDepth-VLA 的性能,團隊在兩個主流機器人仿真環(huán)境 (SimplerLIBERO) 與真實環(huán)境下進行了測試,涵蓋多種物體抓取、空間定位與多步操作任務(wù)。結(jié)果顯示,QDepth-VLA 在不同測試平臺上均取得了顯著提升。

這些結(jié)果驗證了該方法能夠有效提升模型在長時程、多場景操作任務(wù)中的任務(wù)完成能力。

1. Simpler 仿真結(jié)果

在 Simpler 任務(wù)中,分別基于 Bridge V2 與 Fractal 數(shù)據(jù)集從頭訓(xùn)練了 QDepth-VLA。實驗結(jié)果表明,在 Simpler 仿真器 的 WidowX250 與 Google Robot 任務(wù)上,相比基礎(chǔ)模型 Open π0,平均成功率分別提升了8.5% 與 3.7%





2. LIBERO 仿真結(jié)果

而在 LIBERO 任務(wù)中,QDepth-VLA 則在 Fractal 數(shù)據(jù)集小規(guī)模預(yù)訓(xùn)練得到的權(quán)重基礎(chǔ)上,進一步在對應(yīng)的 LIBERO 數(shù)據(jù)集上進行微調(diào)。如下圖所示,在 LIBERO 仿真器上,相較于基于深度圖輸入的 3D-CAVLA,QDepth-VLA 依然保持領(lǐng)先,平均提升約 2.8%。



3. 真機實驗結(jié)果



  • Task1 : pick the banana into the yellow basket
  • Task2 : put the chili into the bowl
  • Task3 : put the green block into the bowl
  • Task4 : stack the green block ontop of the yellow block



4. 消融實驗

為了驗證 QDepth-VLA 各組件的實際貢獻,團隊還在 Simpler 任務(wù)上進行了系統(tǒng)的消融實驗。

當(dāng)團隊將深度損失權(quán)重設(shè)為 0,僅保留模型結(jié)構(gòu)時,平均成功率由 68.5% 降至 65.6%,尤其在 Carrot(-9.6%)和 Eggplant(-12.5%)任務(wù)上下降明顯,表明深度監(jiān)督確實提供了有意義的空間幾何先驗。相反,移除 Depth Expert 后,性能下降最為顯著(-8.5%),在需要精準三維對齊的 Stack Block 任務(wù)中跌幅高達 - 23.8%,驗證了顯式深度分支對立體空間感知的關(guān)鍵作用。

此外,將潛在深度預(yù)測替換為像素級回歸導(dǎo)致平均性能下降至 64.6%,說明量化深度表征更能捕捉抽象幾何信息。而移除混合注意力機制(Hybrid Attention)后,模型在 Carrot 任務(wù)中的表現(xiàn)顯著下降(-15.8%),表明該機制能有效協(xié)調(diào)深度感知與動作生成。

總體來看,深度監(jiān)督與混合注意力的協(xié)同作用是 QDepth-VLA 取得高性能的關(guān)鍵,它們共同強化了模型的空間理解與動作一致性,為復(fù)雜操控任務(wù)提供了穩(wěn)定的三維感知基礎(chǔ)。



總結(jié)與展望

QDepth-VLA 作為一種將量化深度預(yù)測引入視覺 - 語言 - 動作建模的機制,旨在增強機器人在三維空間中的感知與推理能力。基于 Simpler、LIBERO 以及真實環(huán)境的系統(tǒng)實驗結(jié)果顯示,引入量化深度監(jiān)督能夠在長程與精細操作任務(wù)中帶來顯著的成功率提升,說明三維幾何先驗在機器人穩(wěn)定操控中具有重要價值。

未來的研究方向可主要圍繞以下兩點展開:

  • 面向未來的深度預(yù)測:在當(dāng)前深度推斷基礎(chǔ)上擴展至未來時刻的空間結(jié)構(gòu)預(yù)測,以支持更長時程的策略規(guī)劃;
  • 更高效的深度表征學(xué)習(xí):通過改進 VAE 編碼與表征壓縮方式,進一步提升深度信息的精確度、可泛化性與推理穩(wěn)定性。

總體來看,QDepth-VLA 為增強 VLA 模型的空間理解能力提供了一條兼具語義一致性與工程可落地性的路徑。從具身智能的發(fā)展趨勢來看,具備真實三維空間理解能力的策略模型,是機器人從 “可演示” 邁向 “可長期實際工作” 的關(guān)鍵基礎(chǔ)。QDepth-VLA 強化的三維幾何感知與動作一致性能力,將作為核心能力模塊逐步融入靈寶 CASBOT 的多產(chǎn)品序列中:

  • CASBOT 02:用于支持桌面級與生活化任務(wù)中的穩(wěn)定抓取、遞交、精細放置;
  • CASBOT W1:用于工業(yè)與商服場景下的多步驟、多對象柔性操作;
  • Handle-L1 靈巧手:用于更高精度、多接觸點的結(jié)構(gòu)化操控與協(xié)作。

在此路徑中,深度量化表征、跨模態(tài)一致性建模與在線自適應(yīng)學(xué)習(xí)將持續(xù)協(xié)同演進,支撐靈寶 CASBOT 構(gòu)建從模型 — 本體 — 場景 — 部署的長期閉環(huán)能力,推動具身智能走向可規(guī)模化、可復(fù)制、可持續(xù)的真實應(yīng)用階段。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
全民漲工資,即將進入落實階段…

全民漲工資,即將進入落實階段…

大碗樓市
2025-12-20 08:08:42
“我要回圣彼得堡了,和阿薩德做鄰居,當(dāng)標(biāo)題去吧!”

“我要回圣彼得堡了,和阿薩德做鄰居,當(dāng)標(biāo)題去吧!”

觀察者網(wǎng)
2025-12-20 18:47:13
倒反天罡!日本明治天皇玄孫發(fā)文稱世界上最野蠻的國家是中國

倒反天罡!日本明治天皇玄孫發(fā)文稱世界上最野蠻的國家是中國

我心縱橫天地間
2025-12-17 14:35:24
陸毅家這一幕太真實了!富養(yǎng)的孩子真會缺基本共情力嗎

陸毅家這一幕太真實了!富養(yǎng)的孩子真會缺基本共情力嗎

西樓知趣雜談
2025-12-20 18:05:32
云南大理發(fā)生的這件事,有些人已經(jīng)徹底沒有底線了!

云南大理發(fā)生的這件事,有些人已經(jīng)徹底沒有底線了!

胖胖說他不胖
2025-12-19 11:00:11
美隊抱娃回歸,喜當(dāng)?shù)?!《?fù)仇者聯(lián)盟5》首支預(yù)告泄露,網(wǎng)友炸鍋

美隊抱娃回歸,喜當(dāng)?shù) 稄?fù)仇者聯(lián)盟5》首支預(yù)告泄露,網(wǎng)友炸鍋

頭號電影院
2025-12-20 00:04:49
中戲院長郝戎被查!網(wǎng)友曝中戲18年藝考成績單,牽扯多位當(dāng)紅明星

中戲院長郝戎被查!網(wǎng)友曝中戲18年藝考成績單,牽扯多位當(dāng)紅明星

鬼菜生活
2025-12-20 07:04:51
給《老舅》演技最好10位演員排個名:郭京飛僅第2,第1沒有爭議

給《老舅》演技最好10位演員排個名:郭京飛僅第2,第1沒有爭議

小丸子的娛樂圈
2025-12-20 17:25:37
CCTV直播!感謝亞足聯(lián)幫忙 中國隊抽好簽 U23亞洲杯進8強=創(chuàng)歷史

CCTV直播!感謝亞足聯(lián)幫忙 中國隊抽好簽 U23亞洲杯進8強=創(chuàng)歷史

侃球熊弟
2025-12-20 23:59:33
房子貶值后才想通:那幾百萬不是憑空消失了,是被偷走了...

房子貶值后才想通:那幾百萬不是憑空消失了,是被偷走了...

深度報
2025-12-19 23:14:12
特朗普:美將在月球部署核反應(yīng)堆

特朗普:美將在月球部署核反應(yīng)堆

參考消息
2025-12-19 16:01:06
手術(shù)室護士長王嬌被查,涉嫌嚴重違法!

手術(shù)室護士長王嬌被查,涉嫌嚴重違法!

醫(yī)脈圈
2025-12-17 20:54:04
摩爾線程,重大發(fā)布!

摩爾線程,重大發(fā)布!

數(shù)據(jù)寶
2025-12-20 18:11:50
浙江一退休教授的家,才知什么叫歲月靜好,一進屋就被治愈了

浙江一退休教授的家,才知什么叫歲月靜好,一進屋就被治愈了

好運常伴吾身
2025-12-20 20:36:37
廣東宏遠VS青島男籃!杜鋒拒絕輸球,麥考爾上演首秀,央視直播

廣東宏遠VS青島男籃!杜鋒拒絕輸球,麥考爾上演首秀,央視直播

體壇瞎白話
2025-12-20 11:10:45
今夜,大漲!降息50個基點

今夜,大漲!降息50個基點

中國基金報
2025-12-20 00:22:33
浙江金華一?;ê闷?, 身高170cm,體重50kg 美的讓人移不開眼

浙江金華一?;ê闷?, 身高170cm,體重50kg 美的讓人移不開眼

TVB的四小花
2025-12-20 10:19:02
摧毀了6座電詐園區(qū),繳獲大批中式導(dǎo)彈!泰軍為什么要死磕柬埔寨

摧毀了6座電詐園區(qū),繳獲大批中式導(dǎo)彈!泰軍為什么要死磕柬埔寨

墨蘭史書
2025-12-16 03:10:03
哈佛大學(xué)驚人發(fā)現(xiàn):世界上最健康長壽的運動,竟然簡單到一學(xué)就會

哈佛大學(xué)驚人發(fā)現(xiàn):世界上最健康長壽的運動,竟然簡單到一學(xué)就會

原來仙女不講理
2025-12-17 17:16:38
太絕了!這水果蒸完,喉嚨里的痰“嘩嘩”化,全家人都愛喝!

太絕了!這水果蒸完,喉嚨里的痰“嘩嘩”化,全家人都愛喝!

江江食研社
2025-12-16 08:30:06
2025-12-21 01:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

印度官員:若"臺灣有事" 印度不太可能像西方那樣回應(yīng)

頭條要聞

印度官員:若"臺灣有事" 印度不太可能像西方那樣回應(yīng)

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經(jīng)要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產(chǎn)測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

親子
時尚
手機
旅游
房產(chǎn)

親子要聞

邊牧和德牧帶娃在外面挖坑,三個小朋友加起來800個心眼子!

最顯腿細的騎士靴,誰穿誰是腿精

手機要聞

vivo X200T再曝,天璣 9400+芯片加持

旅游要聞

虹口新春“五必”榜單來啦!一季度“樂購樂游”攻略輕松拿捏!

房產(chǎn)要聞

廣州有態(tài)度,一座國際化社區(qū)給出的城市答案

無障礙瀏覽 進入關(guān)懷版