国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

關(guān)于具身智能「觸覺」,你想知道的都在這篇綜述里了

0
分享至



在具身智能的感知拼圖中,觸覺一直扮演著不可或缺卻難以被完美量化的角色。它提供了視覺等遠程傳感器無法替代的關(guān)于接觸幾何、材料特性和交互動態(tài)的直接反饋。

隨著大語言模型(LLM)、世界動作模型(WAM)和視覺 - 語言 - 動作(VLA)大模型的爆發(fā),將觸覺與視覺、語言相融合,以彌合物理交互與高級語義推理之間的鴻溝,已成為機器人領(lǐng)域的必然趨勢。

本文由香港科技大學(xué)(廣州)熊輝教授團隊牽頭,聯(lián)合靈心巧手(LinkerBot)以及西安交通大學(xué)、復(fù)旦大學(xué)、北京郵電大學(xué)、南京大學(xué)等,以《Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms》為主題,全面梳理并分析截至 2026 年第一季度的前沿研究,提出了一個涵蓋多模態(tài)數(shù)據(jù)集、模型方法、傳感器硬件和評估體系的層次分類法。本文將帶你全面拆解這篇重磅綜述的核心干貨。



  • 論文題目:Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms
  • 作者單位:香港科技大學(xué)(廣州)、靈心巧手、西安交大、復(fù)旦、南大、北郵、武大等
  • 論文地址:https://www.researchgate.net/publication/403306640_Tactile-based_Multimodal_Fusion_in_Embodied_Intelligence_A_Survey_of_Vision_Language_and_Contact-Driven_Paradigms
  • GitHub 倉庫:https://github.com/Wayne-coding/Multimodal-Tactile-Sensing-and-Fusion



圖 1. 多模態(tài)觸覺融合綜述的結(jié)構(gòu)概述

一、 為什么具身智能不可缺少觸覺?

與視覺等遠端模態(tài)不同,觸覺提供了表面紋理、材料屬性和接觸動態(tài)的直接、近端反饋,這對于解決視覺模糊性至關(guān)重要。對于具身智能體而言,觸覺反饋不僅僅是一種輔助模態(tài),更是感知 - 行動閉環(huán)中的基本組成部分,觸覺作為連接被動觀察與主動物理交互的橋梁,能夠提供關(guān)于物體幾何形狀、材質(zhì)屬性以及接觸動力學(xué)最直接的反饋,這是遠距離傳感器無法替代的。在充滿物理接觸的環(huán)境中,這種多傳感器線索的協(xié)同作用(尤其是視覺與觸覺的協(xié)同),是構(gòu)建穩(wěn)健的感知和控制系統(tǒng)、使智能體能夠真正在物理世界中進行精確操作和穩(wěn)定抓取的關(guān)鍵。



圖 2. 多模態(tài)觸覺融合的代表性數(shù)據(jù)集和方法綜述

二、底層邏輯:多模態(tài)觸覺融合的四階段 Pipeline

與視覺或語言不同,觸覺信號是接觸驅(qū)動的,只有在物理交互發(fā)生時才會產(chǎn)生。綜述指出,現(xiàn)有的多模態(tài)觸覺融合系統(tǒng)在底層基本都遵循一個嚴謹?shù)乃碾A段處理流程:

  1. 物理轉(zhuǎn)導(dǎo)與時空觀察: 傳感器將形變、力或振動等物理刺激轉(zhuǎn)化為數(shù)字信號(如高維矩陣或圖像串)。
  2. 特定模態(tài)表征學(xué)習: 針對不同模態(tài)使用專屬的編碼器(如用于視覺 / 觸覺編碼的 ResNet 或 ViT,用于自然語言編碼的 OpenCLIP),將其轉(zhuǎn)化為統(tǒng)一維度的潛在特征向量。
  3. 跨模態(tài)融合: 通過特征拼接、交叉注意力機制或?qū)Ρ葘W(xué)習對齊,將單模態(tài)特征融合成共享的聯(lián)合表征。
  4. 具身解碼與任務(wù)執(zhí)行: 將融合后的特征輸出為最終結(jié)果,比如物體類別、生成的文本描述或機器人的控制動作。

三、多模態(tài)觸覺融合的全景藍圖

本綜述創(chuàng)新性地提出了一個層次化分類體系,將多模態(tài)觸覺融合系統(tǒng)地劃分為三大支柱:多模態(tài)數(shù)據(jù)集、多模態(tài)方法和觸覺傳感器。



圖 3. 2015 - 2026 年多模態(tài)觸覺融合論文發(fā)表趨勢。

1. 數(shù)據(jù)集篇:從實驗室單一配對走向真實世界的豐富語義



圖 4. 基于觸覺的多模態(tài)融合數(shù)據(jù)集的比較總結(jié)

數(shù)據(jù)集是跨模態(tài)學(xué)習的 “燃料”。文章根據(jù)模態(tài)組成,將現(xiàn)有數(shù)據(jù)集的發(fā)展脈絡(luò)劃分為四大階段:

  • 觸覺 - 視覺 (T-V) 數(shù)據(jù)集: 早期(如 VT Dataset)主要關(guān)注受控環(huán)境下的機器人抓;近期則向無約束的野外環(huán)境(如 Touch in the Wild)和復(fù)雜形變物體(如 TouchClothing)發(fā)展。
  • 觸覺 - 語言 (T-L) 數(shù)據(jù)集: 旨在建立觸覺與人類認知的橋梁。例如 PhysiCLEAR 記錄了物體的軟硬、粗糙度,而最新的 STOLA 則支持開放式的觸覺常識推理,打破了過去只能依賴視覺進行語義接地的局限。
  • 觸覺 - 視覺 - 語言 (T-V-L) 數(shù)據(jù)集: 迎合當前大模型趨勢的終極形態(tài)。比如 Touch100k 包含了超 10 萬個三模態(tài)對齊樣本,不僅有短語標簽,還有長文本自然語言描述,完美支持跨模態(tài)對齊。
  • 觸覺 - 視覺 - 其他 (T-V-O) 數(shù)據(jù)集: 引入了動作、音頻或本體感覺。著名的 ObjectFolder 系列結(jié)合了撞擊音頻;而 OmniViTac 等數(shù)據(jù)集則加入了動作序列,支持端到端的接觸豐富型操作策略學(xué)習。

2. 方法論的三大范式:感知、生成與控制的全面進化

在算法層面,綜述將數(shù)百篇前沿工作結(jié)構(gòu)化為三個核心方向,并對其進行了詳細的子任務(wù)拆解:



圖 5. 多模態(tài)觸覺融合與下游任務(wù)的一般范例

(1)多模態(tài)感知與識別

這是目前研究最廣泛的范式,核心在于理解,具體包括四個子任務(wù):

  • 多模態(tài)物體識別: 結(jié)合全局視覺和局部觸覺,通過早期特征拼接或最新的 Transformer 聯(lián)合查詢機制(如 VHTformer),在視覺模糊(如透明物體)時依然能準確識別物體。
  • 屬性與材料識別: 從早期的監(jiān)督學(xué)習分類,進化到如今基于 CLIP 等大模型的零樣本(Zero-shot)識別。模型(如 UniTouch)可以通過語言文本提示,直接推斷物理材質(zhì)。
  • 抓取成功 / 失敗預(yù)測: 區(qū)別于抓取前的視覺規(guī)劃,它利用接觸后的實時觸覺反饋(如滑動、受力分布)來判斷抓取是否穩(wěn)定,是機器人閉環(huán)控制的關(guān)鍵一環(huán)。
  • 跨模態(tài)檢索與匹配: 作為評估表征對齊質(zhì)量的標準任務(wù),測試模型能否用一段觸覺數(shù)據(jù)搜出對應(yīng)的視覺圖片或文字描述。



圖 6. 多模態(tài)感知和識別的分類,包括多模態(tài)物體識別、多模態(tài)屬性和材質(zhì)識別、抓取成功或失敗預(yù)測以及跨模態(tài)檢索和匹配

(2)跨模態(tài)生成與轉(zhuǎn)換

不再局限于識別,而是讓模型擁有跨感官的合成能力:

  • 視 - 觸雙向生成: 看到粗糙的巖石照片,模型能生成對應(yīng)的觸覺形變圖;摸到材質(zhì),能反推物體的視覺紋理。
  • 語言 - 觸覺翻譯: 包含 “觸覺轉(zhuǎn)語言”(為接觸生成自然語言 Caption,如 VTV-LLM)以及極具挑戰(zhàn)的 “文本生成觸覺”(Text-to-Tactile,僅靠一段文字描述合成物理觸感數(shù)據(jù))。



圖 7. 多模態(tài)跨模態(tài)生成和轉(zhuǎn)換的分類,包括視覺 - 觸覺生成和翻譯和語言 - 觸覺生成和翻譯

(3)多模態(tài)交互與操作

將感知直接與物理控制耦合,分為兩大路徑:

  • 多模態(tài)感知驅(qū)動的機器人操作: 結(jié)合觸覺反饋進行精細裝配(如插孔任務(wù))或維持穩(wěn)定抓取。例如,DexTac 利用精確的接觸區(qū)域提示來完成注射器操作等高精度任務(wù)。
  • 語言指令下的多模態(tài)操作: 融合大語言模型的終極形態(tài)(VLA)。人類下達抽象指令(如 “輕輕抓住那個軟物體”),系統(tǒng)聯(lián)合語言語義、視覺幾何與觸覺實時反饋來生成連續(xù)動作。



圖 8. 多模態(tài)交互和操作的分類,包括具有多模態(tài)感知的機器人操作和語言指令下的多模態(tài)操作



圖 9. 2026 年第一季度之前發(fā)表的多模態(tài)觸覺融合方法綜述

3. 硬件篇:觸覺傳感器的多樣化形態(tài)

觸覺信號的質(zhì)量直接受制于硬件設(shè)計與物理交互界面的形態(tài)。文章將觸覺傳感平臺分為四類:

  • 可穿戴觸覺系統(tǒng): 主要用于捕捉人類交互先驗,支持可擴展的數(shù)據(jù)收集和向機器人的技能轉(zhuǎn)移。
  • 手持與指尖傳感器: 提供局部高分辨率的接觸感知,緊湊的體積使其非常適合直接集成到機器人末端執(zhí)行器中。
  • 機器皮膚與多模態(tài)傳感器貼片: 強調(diào)大面積可擴展性、機械順應(yīng)性和分布式感知,以支持機器人的全身接觸感知。
  • 夾爪安裝與集成傳感器: 直接在操作界面集成感知能力,為閉環(huán)控制提供緊湊且共址的實時多模態(tài)反饋。



圖 10. 具有代表性的觸覺傳感器

四、 尚未統(tǒng)一的大考:評估指標與基準

盡管發(fā)展迅速,但多模態(tài)觸覺融合仍缺乏統(tǒng)一的基準,現(xiàn)有的評估協(xié)議高度依賴于特定任務(wù)。文章尖銳地指出了當前領(lǐng)域面臨的四大核心挑戰(zhàn):

  • 數(shù)據(jù)碎片化與可擴展性瓶頸: 現(xiàn)有數(shù)據(jù)集往往是任務(wù)定制且依賴特定傳感器的,規(guī)模遠小于視覺 - 語言資源,這限制了基礎(chǔ)模型的零樣本遷移能力。
  • 模態(tài)不對齊與噪聲干擾: 稀疏觸覺輸入與密集視覺 / 語言輸入之間存在固有的時空不對齊,傳感器漂移和視覺遮擋等現(xiàn)實問題會進一步削弱對齊的可靠性。
  • 軟硬件集成壁壘: 觸覺傳感器形態(tài)各異且缺乏標準接口,其耐久性和功耗限制了與大型視覺 - 語言模型在具身系統(tǒng)中的實時閉環(huán)融合。
  • 評估與基準的不一致性: 指標碎片化,缺乏端到端的具身基準,難以綜合評估模型在實際物理交互中的安全性和魯棒性。



圖 11. 多模態(tài)觸覺融合評價指標綜述

五、挑戰(zhàn)與未來:通往通用具身智能之路

盡管進展迅速,多模態(tài)觸覺融合仍面臨著諸多亟待突破的瓶頸。目前的數(shù)據(jù)規(guī)模與大型語言模型的訓(xùn)練需求相比仍有巨大差距,且異構(gòu)傳感器之間缺乏統(tǒng)一的數(shù)據(jù)標準。同時在非結(jié)構(gòu)化環(huán)境中,稀疏的觸覺輸入與密集的視覺或語言信息之間經(jīng)常出現(xiàn)空間和時間上的不對齊。此外現(xiàn)有的評估指標往往局限于特定任務(wù),缺乏一個能全面衡量觸覺真實性、語義一致性和控制有效性的統(tǒng)一端到端基準測試。

對于未來,構(gòu)建統(tǒng)一且可擴展的大規(guī)模數(shù)據(jù)集是打破發(fā)展瓶頸的關(guān)鍵所在。算法層面需要向?qū)哟位娜诤霞軜?gòu)演進,將觸覺作為多模態(tài)推理的底層支撐。在硬件端,柔性、耐用且具備端側(cè)處理能力的仿生觸覺皮膚將極大拓展機器人的感知邊界。通過將觸覺反饋作為連續(xù)的監(jiān)督信號直接嵌入決策閉環(huán),具身智能系統(tǒng)必將從受控的實驗室環(huán)境穩(wěn)步邁向復(fù)雜多變的人類生活空間。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了!

趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了!

青煙小先生
2026-03-14 10:26:24
繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

潮鹿逐夢
2026-04-02 12:31:48
美國完全陷入中國的圈套!紐約時報:特朗普正在領(lǐng)導(dǎo)超級大國自殺

美國完全陷入中國的圈套!紐約時報:特朗普正在領(lǐng)導(dǎo)超級大國自殺

混沌錄
2026-04-07 22:00:06
轟30分+三分9中8!中國女籃19歲新星崛起:女版歐文閃耀大學(xué)聯(lián)賽

轟30分+三分9中8!中國女籃19歲新星崛起:女版歐文閃耀大學(xué)聯(lián)賽

李喜林籃球絕殺
2026-04-08 12:26:34
陳麗華66歲兒子趙勇?lián)胃蝗A國際集團總裁,是陳麗華和前夫所生

陳麗華66歲兒子趙勇?lián)胃蝗A國際集團總裁,是陳麗華和前夫所生

觀魚聽雨
2026-04-07 17:58:37
伊朗發(fā)布美軍士兵遺體照:在一架墜毀運輸機殘骸中發(fā)現(xiàn),這是特朗普“可恥失敗的又一證據(jù)”

伊朗發(fā)布美軍士兵遺體照:在一架墜毀運輸機殘骸中發(fā)現(xiàn),這是特朗普“可恥失敗的又一證據(jù)”

都市快報橙柿互動
2026-04-06 14:32:22
DRAM價格超越黃金價格,克價逼近1500元人民幣

DRAM價格超越黃金價格,克價逼近1500元人民幣

風向觀察
2026-04-08 07:14:28
王寶強與女友現(xiàn)身青島被偶遇,女友好高,穿平底鞋比王寶強高一頭

王寶強與女友現(xiàn)身青島被偶遇,女友好高,穿平底鞋比王寶強高一頭

扒蝦侃娛
2026-04-07 15:10:01
美副總統(tǒng)萬斯:美以已完成伊朗戰(zhàn)爭的軍事目的 戰(zhàn)爭將很快結(jié)束

美副總統(tǒng)萬斯:美以已完成伊朗戰(zhàn)爭的軍事目的 戰(zhàn)爭將很快結(jié)束

財聯(lián)社
2026-04-07 20:38:06
靠著亂翻譯特朗普的話,來獲得快樂,真不太體面!

靠著亂翻譯特朗普的話,來獲得快樂,真不太體面!

走讀新生
2026-04-07 08:58:51
深圳一救護車違反調(diào)度指令將患者拉至所屬民營醫(yī)院 家屬稱因延誤搶救致死

深圳一救護車違反調(diào)度指令將患者拉至所屬民營醫(yī)院 家屬稱因延誤搶救致死

閃電新聞
2026-04-08 00:35:09
即期布倫特原油價格漲至144.42美元/桶 創(chuàng)歷史新高

即期布倫特原油價格漲至144.42美元/桶 創(chuàng)歷史新高

財聯(lián)社
2026-04-08 03:05:05
三星家族結(jié)清12萬億遺產(chǎn)稅!兄妹3人與母砸鍋賣鐵硬扛

三星家族結(jié)清12萬億遺產(chǎn)稅!兄妹3人與母砸鍋賣鐵硬扛

時尚的弄潮
2026-04-08 02:41:46
2.0升!豐田新車官宣:17.98萬元起

2.0升!豐田新車官宣:17.98萬元起

手機評測室
2026-04-08 11:49:40
地下黨被關(guān)押在破廟里,一個賊對他說:你把手表給我,再揍我兩拳

地下黨被關(guān)押在破廟里,一個賊對他說:你把手表給我,再揍我兩拳

云端小院
2026-04-08 08:53:33
伊朗停火聲明發(fā)布,全文令人淚目,伊朗第一個要感謝的居然是中國

伊朗;鹇暶靼l(fā)布,全文令人淚目,伊朗第一個要感謝的居然是中國

荷蘭豆愛健康
2026-04-08 12:34:58
安徽女童遇害后續(xù):父親含淚回應(yīng),知情人爆料,聯(lián)合家人兩次埋尸

安徽女童遇害后續(xù):父親含淚回應(yīng),知情人爆料,聯(lián)合家人兩次埋尸

阿傖說事
2026-04-08 01:37:04
霍思燕帶狗泰國奪冠!肥肚三層、發(fā)際線好假,女兒出鏡像女版杜江

霍思燕帶狗泰國奪冠!肥肚三層、發(fā)際線好假,女兒出鏡像女版杜江

每一次點擊
2026-04-07 12:01:22
事關(guān)霍爾木茲!伊朗外長稱未來兩周可通行 “過路費”計劃亦迎關(guān)鍵進展

事關(guān)霍爾木茲!伊朗外長稱未來兩周可通行 “過路費”計劃亦迎關(guān)鍵進展

財聯(lián)社
2026-04-08 10:49:07
2個證件正在發(fā)放,每個人都有,沒有的抓緊時間去領(lǐng)

2個證件正在發(fā)放,每個人都有,沒有的抓緊時間去領(lǐng)

普陀動物世界
2026-04-08 02:38:05
2026-04-08 14:44:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12709文章數(shù) 142618關(guān)注度
往期回顧 全部

科技要聞

造出地表最強AI,卻死活不給你用!

頭條要聞

美聯(lián)社:伊朗同意;鹎爸袊雒娼槿 萬斯也參與斡旋

頭條要聞

美聯(lián)社:伊朗同意停火前中國出面介入 萬斯也參與斡旋

體育要聞

40歲,但實力倒退12年

娛樂要聞

楊穎鄧超低調(diào)現(xiàn)身觀眾席 支持陳赫話劇

財經(jīng)要聞

特朗普同意;饍芍 伊朗:接受停火提議

汽車要聞

5門5座/新復(fù)古造型 繽果Pro將于4月14日開啟預(yù)售

態(tài)度原創(chuàng)

游戲
旅游
時尚
本地
軍事航空

養(yǎng)女兒游戲《Machine Child》發(fā)布Steam和諧還原補丁

旅游要聞

非遺社火點亮第三屆周口伏羲文化旅游節(jié)

闊腿褲失寵了?今年這幾條褲子最時髦!

本地新聞

跟著歌聲游安徽,聽古村回響

軍事要聞

文化符號當“彈藥” 美伊將信息戰(zhàn)帶入新階段

無障礙瀏覽 進入關(guān)懷版