国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

智源清華帶來PAM,手物交互數(shù)據(jù)生成新SOTA | CVPR 2026

0
分享至


PAM僅需初始/目標(biāo)手部姿態(tài)與物體幾何信息,即可生成高保真交互視頻。

Project Page: https://gasaiyu.github.io/PAM.github.io/

01

TL;DR

? 在只給定初始姿態(tài)、目標(biāo)姿態(tài)和不含外觀的物體幾何信息的輸入下,如何直接生成逼真的手物交互(HOI)視頻?

? 現(xiàn)有方法存在一系列問題:姿態(tài)合成方法只能預(yù)測 MANO 軌跡,而不能生成像素細(xì)節(jié);文生圖方法能生成能產(chǎn)生外觀,但缺乏動(dòng)態(tài)信息;而視頻生成方法目前大多依賴完整的姿態(tài)序列和首幀作為輸入,導(dǎo)致其無法真正應(yīng)用于 Sim-to-Real數(shù)據(jù)生成管線。

? 我們提出PAM (Pose-Appearance-Motion),一個(gè)統(tǒng)一的數(shù)據(jù)生成引擎,利用姿態(tài)、外觀和運(yùn)動(dòng)的解耦生成過程,完美解決上述痛點(diǎn)。

? 這是第一個(gè)僅需條件初始姿態(tài)、目標(biāo)姿態(tài)和物體的幾何信息作為輸入,即可實(shí)現(xiàn)高質(zhì)量 Sim-to-Real 手物交互視頻生成的框架,且利用這個(gè)管線合成的數(shù)據(jù)能顯著提升下游任務(wù)(例如手部姿態(tài)估計(jì))的性能。

02


簡介


手物交互(HOI)的重建與合成正逐漸成為具身智能和 AR/VR 領(lǐng)域的核心基石。盡管數(shù)據(jù)驅(qū)動(dòng)范式推動(dòng)了準(zhǔn)確的手部姿態(tài)估計(jì)和視頻生成領(lǐng)域的的快速發(fā)展,但獲取帶有詳細(xì)標(biāo)注的真實(shí) HOI序列需要耗費(fèi)極大的人力物力,這嚴(yán)重限制了可擴(kuò)展性。

為了打破這一數(shù)據(jù)壁壘,北京大學(xué)聯(lián)合清華大學(xué)、智源研究院(BAAI)、上海交通大學(xué)及東方理工大學(xué)提出了一個(gè)突破性的統(tǒng)一引擎——PAM。PAM 能夠?qū)⒆藨B(tài)(Pose)、外觀(Appearance)和運(yùn)動(dòng)(Motion)無縫整合到一個(gè)連貫的框架中。用戶只需提供初始和目標(biāo)姿態(tài)以及物體幾何形狀,PAM 就能生成具有連貫動(dòng)態(tài)和逼真手物交互的視頻。實(shí)驗(yàn)證明,PAM 不僅在視頻保真度和幾何準(zhǔn)確度上大幅超越現(xiàn)有方法,其生成的合成視頻還能直接作為數(shù)據(jù)增強(qiáng)工具,使下游手部姿態(tài)估計(jì)模型在僅使用 50%真實(shí)數(shù)據(jù)加上合成數(shù)據(jù)的情況下,就能匹配使用100%真實(shí)數(shù)據(jù)的效果!

03


研究動(dòng)機(jī)

隨著深度學(xué)習(xí)和擴(kuò)散模型的出現(xiàn),大規(guī)模生成 HOI 視頻展現(xiàn)出了巨大潛力。然而,縱觀當(dāng)前最先進(jìn)的方法,整個(gè)研究領(lǐng)域呈現(xiàn)出三種趨勢:

1.純姿態(tài)合成(Pose-only synthesis只預(yù)測手部MANO軌跡而不生成外觀,缺乏視覺真實(shí)感,降低了其實(shí)用價(jià)值。

2.單圖外觀生成(Appearance generation根據(jù)掩碼或 2D 提示生成外觀,但完全無法捕捉時(shí)間上的動(dòng)態(tài)連貫性。

3.視頻運(yùn)動(dòng)生成(Motion generation雖然能生成視頻,但需要完整的姿態(tài)序列和真實(shí)的視頻第一幀作為輸入,這些條件在實(shí)際場景中較難獲得,容易獲得的是模擬器中的手部姿態(tài)數(shù)據(jù),但由于模擬器中根本無法獲取真實(shí)的第一幀,這類方法不適合 Sim-to-Real的部署。

基于上述痛點(diǎn),研究團(tuán)隊(duì)認(rèn)為 HOI 生成亟需一個(gè)能統(tǒng)一融合姿態(tài)、外觀和運(yùn)動(dòng)的引擎。因此,PAM 引入了整合運(yùn)動(dòng)與外觀的擴(kuò)散過程,繞過了對(duì)第一幀條件和完成手部姿態(tài)序列的依賴,從而最大化了運(yùn)動(dòng)和外觀的多樣性。

04


PAM 方法


方法概覽

給定初始 MANO 手部姿態(tài) 、無外觀的物體 Mesh 、初始 6-DoF 物體姿態(tài) 以及目標(biāo)手部 MANO 姿態(tài) ,PAM 的目標(biāo)是生成一段逼真的 HOI 視頻。整個(gè)模型可以形式化為一個(gè)生成函數(shù) :

該模型最終輸出一段連貫且具有物理約束的 RGB 視頻幀序列 。為了應(yīng)對(duì)生成 HOI 視頻的高維時(shí)空流形的復(fù)雜性,PAM 將生成過程解構(gòu)為三個(gè)核心階段:

第一階段:姿態(tài)生成 (Pose Generation)

在這個(gè)階段,模型主要解決中間物理運(yùn)動(dòng)的插值問題。使用預(yù)訓(xùn)練的姿態(tài)生成模型(如 GraspXL)來合成對(duì)齊的手物交互姿態(tài)序列。模型接收 作為輸入,輸出時(shí)間上連貫的手部和物體運(yùn)動(dòng)軌跡 。這確保了物理一致性,為后續(xù)的視覺渲染奠定幾何基礎(chǔ)。

第二階段:外觀生成 (Appearance Generation)

為了解決從模擬器到真實(shí)視頻的視覺鴻溝,PAM 利用可控的圖像擴(kuò)散模型 Flux 來合成逼真的視頻第一幀 。單靠深度圖和語義掩碼不足以處理手部的高自由度。模型將以下三種條件融合并作為生成引導(dǎo),它們均為 的特征圖:

?深度圖 (Depth Maps):保證全局的幾何連貫性。

?語義掩碼 (Semantic Masks)保證實(shí)例級(jí)別的語義一致性。

?手部關(guān)鍵點(diǎn)映射 (Hand Keypoints):提供精確的手部骨骼拓?fù)浣Y(jié)構(gòu),保證手部細(xì)節(jié)生成的一致性。

這些條件首先通過 VAE 編碼為 的潛在表示,在通道維度上拼接后,注入到 ControlNet 分支的 DiT 塊中。特征的注入計(jì)算公式如下:

其中 是原始 Flux 模型中第 7 層 DiT 塊的輸出, 是接收拼接條件輸入的復(fù)制 DiT 塊的輸出,而零卷積層 (Zero-convolution layer) 為參數(shù)全零初始化的 卷積層。

第三階段:運(yùn)動(dòng)生成 (Motion Generation)

在生成首幀 后,模型將第一階段生成的序列 逐幀渲染,得到對(duì)應(yīng)的深度圖、語義圖和關(guān)鍵點(diǎn)序列。隨后,利用預(yù)訓(xùn)練的視頻 VAE 將這些空間條件編碼為形狀為 的潛在張量。

PAM 采用基于 CogVideoX 的可控視頻擴(kuò)散模型來生成最終的視頻流。為了保持與姿態(tài)序列的一致性,視頻模型沿用了上述公式的特征融合機(jī)制,將多模態(tài)特征通過 12 個(gè)復(fù)制的 DiT 塊注入網(wǎng)絡(luò)。特別地,在訓(xùn)練階段,為了防止模型過度依賴某單一模態(tài)特征,每種條件都會(huì)以 的概率被隨機(jī)掩碼,從而提升模型的泛化能力。

05


實(shí)驗(yàn)結(jié)果

基準(zhǔn)測試

團(tuán)隊(duì)在 DexYCB(聚焦于單手交互)和 OAKINK2(聚焦于雙手復(fù)雜交互)兩個(gè)基準(zhǔn)數(shù)據(jù)集上對(duì) PAM 進(jìn)行了全面評(píng)估,并與當(dāng)前最先進(jìn)的 ManiVideo、InterDyn 和 CosHand 等方法進(jìn)行了對(duì)比。

定量結(jié)果


? 在DexYCB數(shù)據(jù)集上:PAM 實(shí)現(xiàn)了 29.13 的 FVD(Fréchet Video Distance,反映視頻整體的時(shí)空連貫性與真實(shí)度,該數(shù)值越低越好),大幅優(yōu)于 InterDyn 的 38.83。在反映手部姿態(tài)準(zhǔn)確度的 MPJPE 指標(biāo)上,PAM 達(dá)到了19.37 mm,遠(yuǎn)優(yōu)于 CosHand 的 30.05 mm。此外,在結(jié)構(gòu)相似性(SSIM)和運(yùn)動(dòng)保真度(MF)等指標(biāo)上,PAM 也穩(wěn)居第一。

?OAKINK2數(shù)據(jù)集上面對(duì)更復(fù)雜的雙手交互場景,PAM 同樣展現(xiàn)出強(qiáng)大的建模能力,將 FVD 從 CosHand 的 68.76 顯著降至 46.31,MPJPE 從 14.49 mm 大幅降低至 7.01 mm。

?更高清的分辨率相比于基線方法生成的256 \times 256 (CosHand) 或 256 \times 384 (InterDyn) 模糊視頻,PAM 能夠穩(wěn)定生成 480 \times 720 的高保真、高分辨率交互視頻。

定性結(jié)果


?如上圖所示,現(xiàn)有方法(如 CosHand)由于僅依賴手部掩碼作為單一條件,缺乏深度的幾何引導(dǎo),且缺少顯式的時(shí)間建模機(jī)制,導(dǎo)致生成的視頻往往出現(xiàn)手部姿態(tài)畸變以及嚴(yán)重的幀間閃爍。相比之下,PAM 利用帶有時(shí)間注意力機(jī)制的視頻擴(kuò)散基礎(chǔ)模型,加以多條件的控制,保證了較強(qiáng)的幀間連貫性。

06


多條件的消融實(shí)驗(yàn)



? DexYCB數(shù)據(jù)集上的消融實(shí)驗(yàn)證實(shí),PAM 的“深度圖+語義掩碼+手部關(guān)鍵點(diǎn)”多模態(tài)控制組合缺一不可。如上圖所示,僅靠手部關(guān)鍵點(diǎn)會(huì)導(dǎo)致整體外觀質(zhì)量下降,而僅靠語義掩碼或深度圖則會(huì)引發(fā)手部姿態(tài)的錯(cuò)位失真。PAM 巧妙結(jié)合了全局場景理解(深度與語義)與局部手部細(xì)節(jié)(關(guān)鍵點(diǎn)),明確保留了手部結(jié)構(gòu)的細(xì)節(jié)。這使得 PAM 不僅在背景和前景的生成上具備更高的視覺保真度,還成功消除了幾何錯(cuò)位,生成了準(zhǔn)確、流暢且符合物理常理的視頻序列。

07


Sim-To-Real生成


如上圖所示,PAM 展現(xiàn)了強(qiáng)大的 Sim-to-Real 遷移能力。僅僅給定初始和終止?fàn)顟B(tài)的HOI Pose,利用解耦架構(gòu),模型成功結(jié)合了 GraspXL 的運(yùn)動(dòng)先驗(yàn)與擴(kuò)散模型的外觀建模,合成了具有不同主體和背景的多樣化、逼真的視頻。這些視頻為之后的下游任務(wù)提供了源源不斷的數(shù)據(jù)生成管線。

08


下游任務(wù)驗(yàn)證


為了評(píng)估生成視頻的實(shí)用性,研究人員將合成視頻用于下游手部姿態(tài)估計(jì)任務(wù)(SimpleHand 模型)的數(shù)據(jù)增強(qiáng)。PAM 訓(xùn)練生成了 3,400 個(gè)視頻序列(包含 207,400 幀)作為增強(qiáng)數(shù)據(jù)。

結(jié)果表明,使用合成數(shù)據(jù)結(jié)合不同比例的真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練,始終能提高手部姿態(tài)估計(jì)的準(zhǔn)確度。從上圖中可以看到,僅使用 50% 真實(shí)數(shù)據(jù)加上 PAM 生成的合成樣本,其性能就足以具備與使用 100% 真實(shí)數(shù)據(jù)基線相競爭的實(shí)力!這證明了合成數(shù)據(jù)能有效彌補(bǔ)真實(shí)數(shù)據(jù)量的不足。

09


總結(jié)

PAM 提出了一個(gè)創(chuàng)新的 Pose-Appearance-Motion 解耦架構(gòu),成功打破了傳統(tǒng)方法依賴真實(shí)第一幀的瓶頸,實(shí)現(xiàn)了從極簡姿態(tài)輸入到高保真 HOI 視頻的生成。其卓越的感知質(zhì)量、幾何準(zhǔn)確度以及對(duì)下游任務(wù)的顯著增益,為具身智能領(lǐng)域的生成模型研究提供了堅(jiān)實(shí)的基礎(chǔ)。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不玩游戲、偶像包袱重、前胸貼白鹿后背,《奔跑吧》他干嘛來了?

不玩游戲、偶像包袱重、前胸貼白鹿后背,《奔跑吧》他干嘛來了?

洲洲影視娛評(píng)
2026-04-25 14:24:44
兩位知名港星聲援馬蹄露!廣東雨神直播拉票,張敬軒必?cái)o疑

兩位知名港星聲援馬蹄露!廣東雨神直播拉票,張敬軒必?cái)o疑

涵豆說娛
2026-04-25 12:07:14
張雪峰多位愛將離職,真相很殘忍

張雪峰多位愛將離職,真相很殘忍

新浪財(cái)經(jīng)
2026-04-24 19:11:55
澳洲折扣超市取代Coles, Woolies! 大批澳人瘋狂掃貨, 最高可省80%!

澳洲折扣超市取代Coles, Woolies! 大批澳人瘋狂掃貨, 最高可省80%!

澳微Daily
2026-04-25 15:42:43
辛納談阿卡退出法網(wǎng):安心養(yǎng)傷是明智之舉,期待溫網(wǎng)見到他

辛納談阿卡退出法網(wǎng):安心養(yǎng)傷是明智之舉,期待溫網(wǎng)見到他

懂球帝
2026-04-25 16:55:04
60分12板8助!大號(hào)文班真強(qiáng)?。√交?0+11+11一劍封喉1

60分12板8助!大號(hào)文班真強(qiáng)啊!探花50+11+11一劍封喉1

貴圈真亂
2026-04-25 13:54:25
燃?xì)夤旧祥T安檢,根本不是查漏氣!真正目的其實(shí)是這3個(gè)

燃?xì)夤旧祥T安檢,根本不是查漏氣!真正目的其實(shí)是這3個(gè)

匹夫來搞笑
2026-04-20 13:24:51
眼紅?。」べY到賬19380.52元,自稱“長沙教培牛馬”發(fā)帖刷爆網(wǎng)絡(luò)

眼紅??!工資到賬19380.52元,自稱“長沙教培牛馬”發(fā)帖刷爆網(wǎng)絡(luò)

火山詩話
2026-04-24 07:35:54
全球最疲憊總統(tǒng)宣布退場

全球最疲憊總統(tǒng)宣布退場

劉瀾昌
2026-04-25 08:43:52
59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

一盅情懷
2026-03-16 16:52:57
膽大包天!伊朗33艘快艇閃電突襲:美軍來不及出動(dòng),眼睜睜吃敗仗

膽大包天!伊朗33艘快艇閃電突襲:美軍來不及出動(dòng),眼睜睜吃敗仗

伴史緣
2026-04-25 14:02:08
昔日和王鈺棟齊名并稱國少雙星 如今卻淪落中甲碌碌無為 5輪0進(jìn)球

昔日和王鈺棟齊名并稱國少雙星 如今卻淪落中甲碌碌無為 5輪0進(jìn)球

零度眼看球
2026-04-25 08:54:32
我敢說,大部分會(huì)跟我一樣,選擇黑色衣服那個(gè)女孩!

我敢說,大部分會(huì)跟我一樣,選擇黑色衣服那個(gè)女孩!

草莓解說體育
2026-04-12 17:05:01
巔峰之夜!亞冠決賽今晚打響:吉達(dá)vs町田 馬寧擔(dān)任第四官員

巔峰之夜!亞冠決賽今晚打響:吉達(dá)vs町田 馬寧擔(dān)任第四官員

新英體育
2026-04-25 09:09:10
近7場1勝 皇馬球迷貼面怒罵球員:不知羞恥 姆巴佩用帽遮臉+逃離

近7場1勝 皇馬球迷貼面怒罵球員:不知羞恥 姆巴佩用帽遮臉+逃離

我愛英超
2026-04-25 07:46:50
印度終于搶到化肥,卻被狠宰一刀!算清這筆賬,為何中國不慌?

印度終于搶到化肥,卻被狠宰一刀!算清這筆賬,為何中國不慌?

丁丁鯉史紀(jì)
2026-04-25 11:45:39
看完伊朗,再看中國,盧卡申科做出一個(gè)神預(yù)測,特朗普怕就是這個(gè)

看完伊朗,再看中國,盧卡申科做出一個(gè)神預(yù)測,特朗普怕就是這個(gè)

落梅如雪亂飛
2026-04-22 13:31:47
?;韬詈啝┑膬r(jià)值,為什么遠(yuǎn)高于他墓中的巨量黃金

海昏侯簡牘的價(jià)值,為什么遠(yuǎn)高于他墓中的巨量黃金

澎湃新聞
2026-04-21 08:08:40
徹底焊死了!

徹底焊死了!

安安說
2026-04-25 11:52:50
C羅被媒體放出來的那份食譜太反科學(xué)!被認(rèn)為是在搞營銷!

C羅被媒體放出來的那份食譜太反科學(xué)!被認(rèn)為是在搞營銷!

歷史第一人梅西
2026-04-25 01:36:38
2026-04-25 18:35:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7222文章數(shù) 20749關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

頭條要聞

伊朗最高領(lǐng)袖一條腿截肢面部嚴(yán)重?zé)齻?通信方式披露

頭條要聞

伊朗最高領(lǐng)袖一條腿截肢面部嚴(yán)重?zé)齻?通信方式披露

體育要聞

火箭0-3觸發(fā)百分百出局定律:本季加時(shí)賽9戰(zhàn)8敗

娛樂要聞

鄧超最大的幸運(yùn),就是遇見孫儷

財(cái)經(jīng)要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態(tài)度原創(chuàng)

藝術(shù)
親子
旅游
教育
房產(chǎn)

藝術(shù)要聞

美國發(fā)現(xiàn)一部《十七帖》!這字還原真實(shí)的王羲之筆法,放大10倍仍無瑕疵

親子要聞

孩子上幼兒園第一天又哭又鬧?幾個(gè)原因,家長提前了解

旅游要聞

繁花未盡 音浪已起——新鄉(xiāng)何以常來?!靶隆保?/h3>

教育要聞

秀我中國|當(dāng)大學(xué)生之前,先來村小當(dāng)“小先生”

房產(chǎn)要聞

新一輪教育大爆發(fā)來了!海口,開始瘋狂建學(xué)校!

無障礙瀏覽 進(jìn)入關(guān)懷版