国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICCV 2025 | TriDi:3D人物交互建模新突破,三向擴散模型顯著提升三維交互性能

0
分享至

隨著三維計算機視覺技術(shù)的不斷進步,三維人類-物體交互(3D Human-Object Interaction,3D HOI)建模成為了一個備受關(guān)注的研究方向,尤其是在虛擬現(xiàn)實、增強現(xiàn)實和機器人技術(shù)等領(lǐng)域?,F(xiàn)有方法主要局限于單向建模,需要為每種條件設(shè)計獨立的模型,無法靈活處理復(fù)雜的交互場景。本文介紹一篇來自德國蒂賓根大學(xué)和慕尼黑工業(yè)大學(xué)的工作,目前已經(jīng)發(fā)表在計算機視覺頂會ICCV2025上。本文提出了一種名為TriDi的方法,通過三向擴散(Trilateral Diffusion)過程可以同時建模人類、物體和交互的聯(lián)合分布,打破了傳統(tǒng)單向模型的局限,能夠在多種輸入條件下生成高質(zhì)量的三維交互模型。


論文題目: TriDi: Trilateral Diffusion of 3D Humans, Objects and Interactions 文章鏈接: https://arxiv.org/abs/2412.06334 項目鏈接: https://virtualhumans.mpi-inf.mpg.de/tridi/
一、研究動機

目前的三維人類-物體交互(3D HOI)建模方法存在以下兩大問題,影響了模型的準(zhǔn)確性和應(yīng)用范圍:

  • 單向建模。目前3D HOI方法仍然是單向建模方法,這類方法的主要問題在于,模型需要為每一個特定的條件(如“給定物體,生成人體姿勢”或“給定人體姿勢,生成物體”)設(shè)計不同的架構(gòu)和訓(xùn)練流程,這使得模型在擴展性和效率方面表現(xiàn)不佳。并且,這種單向建模方法難以充分利用三者之間的結(jié)構(gòu)性依賴,也限制了模型在復(fù)雜條件下的生成能力。

  • 缺乏交互細節(jié)?,F(xiàn)實世界中,人、物和交互是高度耦合的,人的行為和姿勢會依賴于被操作的物體,人和物體的交互又受到人體姿態(tài)的約束。單向建模方法僅通過基于物體或人體的幾何特征來恢復(fù)另一方的姿勢,未能深入考慮交互過程中人物與物體之間的微妙細節(jié)。

因此,目前該領(lǐng)域迫切需要一個統(tǒng)一的概率模型來同時建模人體 、物體 、人與物體的交互 三種模態(tài)之間的聯(lián)合分布,來實現(xiàn)跨模態(tài)的條件生成和推理。


本文提出了首個將人體姿態(tài)( )、物體( )與人與物之間交互( )進行統(tǒng)一建模的聯(lián)合概率模型TriDi,如上圖所示。TriDi模型將三種模態(tài)融合為一個整體框架,旨在捕捉它們之間復(fù)雜且緊密的依賴關(guān)系。TriDi支持在七種不同的條件配置下進行采樣,涵蓋了以往工作中分別處理的多種場景。

二、本文方法

本文提出的TriDi模型旨在對人體( )、物體( )和 交互( )的三變量聯(lián)合分布 進行建模,從而統(tǒng)一處理人類、物體與交互之間的復(fù)雜關(guān)系,具體框架如下圖所示。


2.1 模態(tài)表示

在這一節(jié)中主要介紹TriDi模型如何表示人體( )、物體( )和 交互( )三種模態(tài)。

(1)人體的表示:基于常用于人體姿態(tài)與形狀建模的SMPL+H體模方法。人體的表示被分解為姿勢 、形狀 和全局姿勢 ,定義為:


(2)物體的表示:由物體特征 和物體類別 兩部分表示,TriDi模型接收由用戶提供的物體幾何形狀作為輸入。


(3)交互的表示:采用接觸圖文本描述結(jié)合的聯(lián)合表示方法,本文提出了一種學(xué)習(xí)緊湊統(tǒng)一潛在表示的方法,將交互 編碼到一個共享的潛在空間中,如下圖所示:


具體而言,給定一組配對數(shù)據(jù) ,其中 為該交互的文本描述, 為定義在人體表面頂點集 上的接觸圖,本文同時訓(xùn)練以下編碼器和解碼器:

  • 接觸圖編碼器 :將接觸圖映射到潛在空間中的向量 ;

  • 文本編碼器 :通過 CLIP 模型將文本 編碼為文本特征

  • 接觸圖解碼器 :用于將潛在表示重新解碼回接觸圖 。

為了統(tǒng)一這兩種模態(tài),作者設(shè)計了如下?lián)p失函數(shù) 進行優(yōu)化:

最終,交互 轉(zhuǎn)換為統(tǒng)一潛在空間的一個緊湊向量,表示為 。

2.2 三向擴散模型

隨后作者提出了一個三向擴散模型,該模型基于擴散過程進行聯(lián)合建模,在擴散過程下的噪聲期望定義如下:

為了學(xué)習(xí)三模態(tài)的聯(lián)合分布,模型參數(shù) 通過最小化擴展后的聯(lián)合擴散重建損失進行優(yōu)化,損失函數(shù)定義為:

, , 表示在擴散過程中的人體、物體和交互的表示, , , 表示相應(yīng)的時間步, 是物體的條件信息。通過這個過程,TriDi能夠在三種模態(tài)之間進行生成和推理。

2.3 具體實現(xiàn)

在詳細實現(xiàn)時,本文以Transformer 架構(gòu)為主體,額外引入了一個embedding層,將所有輸入模態(tài)映射到統(tǒng)一的 token 空間中,如以下公式所示:

在所有輸入中,唯一必需的條件是物體的表示,其他模態(tài)的輸入屬于可選。為了幫助網(wǎng)絡(luò)學(xué)習(xí)三種模態(tài)之間的聯(lián)合依賴關(guān)系, 、 、 這三種輸入分別轉(zhuǎn)化為 token,并通過自注意機制實現(xiàn)跨模態(tài)交互,從而捕捉人-物-交互之間的細粒度耦合關(guān)系。

三、實驗結(jié)果

本文使用了四個數(shù)據(jù)集來評估TriDi模型的性能,分別是BEHAVE、GRAB、InterCap和OMOMO數(shù)據(jù)集。這些數(shù)據(jù)集包含了3D人體、物體及其交互數(shù)據(jù),用于訓(xùn)練和驗證TriDi模型的生成能力。作者將TriDi與現(xiàn)有的單向建模方法(如GNet)以及其他基于擴散模型的HOI建模方法進行了比較,以驗證TriDi在生成3D人體、物體姿勢和交互建模上的優(yōu)越性。

3.1 定量分析

如上表所示,TriDi在生成的分布質(zhì)量上顯著優(yōu)于基線方法。在BEHAVE數(shù)據(jù)集的 模式下,TriDi的COV達到了51.71%,MMD為0.166,顯著優(yōu)于ObjPOP+cVAE方法。較高的COV,表明TriDi生成的樣本更好地覆蓋了目標(biāo)分布。較低的MMD說明TriDi生成的樣本與地面真實數(shù)據(jù)的對齊度較高。

3.2 定性結(jié)果

隨后作者也展示了本文方法與其他方法的定性對比結(jié)果。前兩列分別展示了TriDi在 和 模式下的生成效果。例如,在 模式下,TriDi生成的樣本避免了與物體(球)之間的穿透,并且在人類與物體的接觸點上表現(xiàn)得更加一致。相比之下,GNet方法則出現(xiàn)了物體交疊或細節(jié)缺失的問題。在 模式下,TriDi生成的結(jié)果更加自然流暢,特別是在不受接觸限制的肢體表現(xiàn)上,準(zhǔn)確性也更高。

3.3 場景填充實驗結(jié)果

本文還驗證了TriDi在多種條件下進行場景填充的實用性,實驗結(jié)果如上圖所示。在這些實驗中,作者將一個虛擬物體或人物放置在HPS數(shù)據(jù)集中的場景中,并利用TriDi生成與之匹配的交互結(jié)果。上圖中的左圖展示了在人與物體交互條件下TriDi生成的結(jié)果。右圖則展示了TriDi用于人與物體聯(lián)合生成的效果。這些實驗結(jié)果展現(xiàn)了其在動態(tài)場景中生成合理交互的能力。

3.4 從圖像中重建3D交互結(jié)果

本文提出的TriDi方法還能夠間接地從圖像中重建3D人類-物體交互。上圖展示了來自DAMON數(shù)據(jù)集的示例,該數(shù)據(jù)集為HOT圖像以及人體接觸標(biāo)注。盡管TriDi并未在DECO數(shù)據(jù)集上進行專門訓(xùn)練,但其出色的泛化能力使得它能夠成功地擴展到這類場景中,并生成準(zhǔn)確的3D交互結(jié)果。

四、總結(jié)

本文提出了一種創(chuàng)新的三模態(tài)聯(lián)合生成模型TriDi,用于同時建模和生成人體、物體交互。TriDi通過三向擴散過程將這三種模態(tài)的聯(lián)合分布進行建模,能夠在多種條件下靈活生成與人體、物體和交互相關(guān)的3D樣本。該方法結(jié)合了文本描述和接觸圖的優(yōu)勢,通過共享的潛在空間實現(xiàn)了更加直觀和精確的控制。TriDi不僅能處理復(fù)雜的交互場景,還能擴展到未見過的幾何形狀和場景,展現(xiàn)了強大的泛化能力和多模態(tài)生成的潛力,特別是在虛擬現(xiàn)實、增強現(xiàn)實及虛擬人類建模等應(yīng)用中具有廣泛的應(yīng)用前景。

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
北京銀行要甩的雷,可不止富力地產(chǎn)這一顆

北京銀行要甩的雷,可不止富力地產(chǎn)這一顆

源媒匯
2026-03-13 14:28:25
美專家猛然發(fā)現(xiàn):中國早就準(zhǔn)備好,一旦沖突,先廢掉美軍最強戰(zhàn)力

美專家猛然發(fā)現(xiàn):中國早就準(zhǔn)備好,一旦沖突,先廢掉美軍最強戰(zhàn)力

涵豆說娛
2026-03-10 12:09:41
上海新規(guī)!非機動車、行人罰單逾期每日加罰3%,今起實施!視頻詳解

上海新規(guī)!非機動車、行人罰單逾期每日加罰3%,今起實施!視頻詳解

上觀新聞
2026-03-13 13:36:05
混社會的人出來之后變得怎樣了 看網(wǎng)友講述 發(fā)現(xiàn)真的好慘

混社會的人出來之后變得怎樣了 看網(wǎng)友講述 發(fā)現(xiàn)真的好慘

侃神評故事
2026-03-12 15:25:05
歐冠1/4決賽對陣預(yù)測:皇任大戰(zhàn) 巴黎連戰(zhàn)紅藍軍 薩競+槍耀

歐冠1/4決賽對陣預(yù)測:皇任大戰(zhàn) 巴黎連戰(zhàn)紅藍軍 薩競+槍耀

智道足球
2026-03-13 13:22:17
重慶冠軍賽:只贏一場就直通!張本美和3:0大獲全勝,迎中日對決

重慶冠軍賽:只贏一場就直通!張本美和3:0大獲全勝,迎中日對決

銜春信
2026-03-13 16:38:59
G聯(lián)賽:楊瀚森背靠背16+13+2+1帽 難阻混音遭快船雙殺

G聯(lián)賽:楊瀚森背靠背16+13+2+1帽 難阻混音遭快船雙殺

醉臥浮生
2026-03-13 12:33:30
13:2,聯(lián)合國安理會通過譴責(zé)伊朗決議,伊代表當(dāng)眾大喊:不公平

13:2,聯(lián)合國安理會通過譴責(zé)伊朗決議,伊代表當(dāng)眾大喊:不公平

混沌錄
2026-03-13 16:50:07
詹姆斯:東里持球我就努力搶板、接球,為球隊我愿做任何犧牲

詹姆斯:東里持球我就努力搶板、接球,為球隊我愿做任何犧牲

懂球帝
2026-03-13 14:28:30
萊萬談瓜迪奧拉:備戰(zhàn)一周的戰(zhàn)術(shù),比賽當(dāng)天卻被要求全盤推翻

萊萬談瓜迪奧拉:備戰(zhàn)一周的戰(zhàn)術(shù),比賽當(dāng)天卻被要求全盤推翻

懂球帝
2026-03-13 13:45:04
中方回應(yīng)特朗普計劃訪華

中方回應(yīng)特朗普計劃訪華

第一財經(jīng)資訊
2026-03-12 15:48:23
iPhone 18 Pro Max被曝機身尺寸變化不大 厚度達8.8mm

iPhone 18 Pro Max被曝機身尺寸變化不大 厚度達8.8mm

CNMO科技
2026-03-12 09:30:35
“全世界都看到了美軍的表現(xiàn),中國大有可為”

“全世界都看到了美軍的表現(xiàn),中國大有可為”

觀察者網(wǎng)
2026-03-12 22:37:22
生育大局已定:不出意外的話,2026年起中國人口將迎來3大變化

生育大局已定:不出意外的話,2026年起中國人口將迎來3大變化

大魚簡科
2026-03-13 10:29:12
68歲廖偉雄首談破產(chǎn)原因,幫朋友擔(dān)保暴雷,直言有他就無周星馳

68歲廖偉雄首談破產(chǎn)原因,幫朋友擔(dān)保暴雷,直言有他就無周星馳

裕豐娛間說
2026-03-12 08:51:54
這羞答答的抿嘴,沒有男人能拒絕??!

這羞答答的抿嘴,沒有男人能拒絕??!

貴圈真亂
2026-03-13 12:41:35
油價最新調(diào)整通知 !

油價最新調(diào)整通知 !

時間財經(jīng)
2026-03-12 15:20:55
爆冷晉級16強卻收壞消息!溫瑞博下輪死磕隊友!高情商回應(yīng)擊敗世界第二

爆冷晉級16強卻收壞消息!溫瑞博下輪死磕隊友!高情商回應(yīng)擊敗世界第二

好乒乓
2026-03-13 12:24:14
春節(jié)返回家中的第一件事,就是買它來煲湯,喝完舒服多了

春節(jié)返回家中的第一件事,就是買它來煲湯,喝完舒服多了

江江食研社
2026-03-12 15:30:07
國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

霹靂炮
2026-01-19 22:24:13
2026-03-13 17:43:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無腦”硬件或被淘汰

頭條要聞

媒體:若穆杰塔巴公開露面顯得虛弱 會嚴(yán)重打擊政權(quán)士氣

頭條要聞

媒體:若穆杰塔巴公開露面顯得虛弱 會嚴(yán)重打擊政權(quán)士氣

體育要聞

叕戰(zhàn)奧運,張雨霏要做回“小將”

娛樂要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財經(jīng)要聞

2月M2同增9% 前兩個月存款增加9.26萬億

汽車要聞

大眾汽車與小鵬首款聯(lián)合開發(fā)車型與眾08正式量產(chǎn)

態(tài)度原創(chuàng)

房產(chǎn)
時尚
藝術(shù)
數(shù)碼
游戲

房產(chǎn)要聞

不容易??!??诮K于又要賣地了!

直播|| 最近超愛的兩只包,好用到天天背

藝術(shù)要聞

吳冠中:歷代畫竹大都缺乏厚度與深度

數(shù)碼要聞

小米手表S5外觀設(shè)計公布:三款不銹鋼表圈,可選真皮表帶

《控制:共振》確認支持 NVIDIA DLSS 4.5 與路徑追蹤技 術(shù) ,次世代畫面表現(xiàn)再升級

無障礙瀏覽 進入關(guān)懷版