国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

告別“黑箱”:LIA-X用稀疏運(yùn)動(dòng)字典重定義可控肖像動(dòng)畫生成

0
分享至

Latent Image Animator (LIA)作為隱式圖像動(dòng)畫模型的代表性工作,憑借其卓越性能,已成為當(dāng)前音視頻驅(qū)動(dòng)Talking Head任務(wù)的重要基礎(chǔ)模型。本文介紹由上海AI實(shí)驗(yàn)室與法國(guó)Inria聯(lián)合推出的升級(jí)框架 --LIA-X。該模型在LIA基礎(chǔ)上進(jìn)行了全面增強(qiáng),其核心創(chuàng)新在于提出了稀疏運(yùn)動(dòng)字典技術(shù),通過(guò)自監(jiān)督學(xué)習(xí)實(shí)現(xiàn)了運(yùn)動(dòng)表征的語(yǔ)義解耦,有效突破了原始LIA在隱空間可控性方面的限制,使得對(duì)局部區(qū)域?qū)崿F(xiàn)細(xì)粒度分離控制(如精準(zhǔn)調(diào)控"眨眼"、"嘴角上揚(yáng)"、"轉(zhuǎn)動(dòng)頭部"等獨(dú)立動(dòng)作)。實(shí)驗(yàn)證明,LIA-X在肖像動(dòng)畫任務(wù)的多項(xiàng)指標(biāo)上均達(dá)到當(dāng)前最優(yōu)水平。同時(shí),其單步推理特性,相比基于擴(kuò)散模型的方案,在生成效率上展現(xiàn)出顯著優(yōu)勢(shì)。


論文題目: LIA-X: Interpretable Latent Portrait Animator 論文鏈接: https://arxiv.org/pdf/2508.09959 代碼鏈接: https://github.com/wyhsirius/LIA-X 項(xiàng)目主頁(yè): https://wyhsirius.github.io/LIA-X-project/
一、研究動(dòng)機(jī)

LIA-X的核心目標(biāo)是解決當(dāng)前視頻驅(qū)動(dòng)肖像動(dòng)畫(Portrait Animation)領(lǐng)域在可控性與可解釋性方面存在的根本性挑戰(zhàn)?,F(xiàn)有方法主要面臨兩類問(wèn)題:

  • 基于顯式特征(如人臉關(guān)鍵點(diǎn)、3D模型)的方法,其表示能力受限于預(yù)定義模型,對(duì)復(fù)雜表情和未知人物泛化能力不足;

  • 基于隱空間自監(jiān)督學(xué)習(xí)的方法(如LIA),雖能生成高質(zhì)量視頻,但其運(yùn)動(dòng)控制機(jī)制如同"黑箱",因無(wú)法理解每個(gè)運(yùn)動(dòng)基對(duì)應(yīng)的具體語(yǔ)義,難以對(duì)輸出結(jié)果進(jìn)行控制。

針對(duì)上述問(wèn)題,LIA-X提出了一種全新的可解釋隱空間肖像動(dòng)畫框架。該框架首次在自監(jiān)督學(xué)習(xí)范式下,實(shí)現(xiàn)了高度可解釋的運(yùn)動(dòng)表示與精準(zhǔn)控制。其核心創(chuàng)新在于設(shè)計(jì)了稀疏運(yùn)動(dòng)字典(Sparse Motion Dictionary),通過(guò)將復(fù)雜的面部運(yùn)動(dòng)分解為多個(gè)正交的基向量,使模型能夠?qū)Ⅱ?qū)動(dòng)視頻中的復(fù)雜運(yùn)動(dòng)自動(dòng)解耦為若干語(yǔ)義方向的稀疏線性組合(如"眨眼"、"點(diǎn)頭"、"嘴角上揚(yáng)"等)。這一機(jī)制使用戶能夠通過(guò)直接調(diào)整不同語(yǔ)義方向的組合系數(shù),直觀、精準(zhǔn)地編輯與控制所生成的動(dòng)畫效果,實(shí)現(xiàn)了從"黑箱生成"到"白盒控制"的范式轉(zhuǎn)變。

二、方法

LIA-X繼承了LIA的核心思想,將顯式運(yùn)動(dòng)建模轉(zhuǎn)化為運(yùn)動(dòng)編碼在隱空間中的"線性導(dǎo)航(Linear Navigation)",同時(shí)提出了通過(guò)對(duì)語(yǔ)義分解與重組進(jìn)行稀疏化限制,從而實(shí)現(xiàn)高度可控的生成結(jié)果。其方法框架主要包括以下三個(gè)關(guān)鍵環(huán)節(jié):

2.1 隱空間編碼與語(yǔ)義基底構(gòu)建LIA-X模型框架

LIA-X首先將源圖像 與驅(qū)動(dòng)圖像 分別編碼至隱空間,得到源編碼 與驅(qū)動(dòng)編碼 。模型通過(guò)隱空間"線性導(dǎo)航",將從源到驅(qū)動(dòng)的運(yùn)動(dòng)編碼表示為:


同時(shí)建立一個(gè)運(yùn)動(dòng)字典(Motion Dictionary) ,即一組可學(xué)習(xí)的正交基底來(lái)表示驅(qū)動(dòng)編碼:


其中,每一個(gè) 對(duì)應(yīng)一個(gè)潛在的語(yǔ)義運(yùn)動(dòng)方向; 為對(duì)應(yīng)基底的系數(shù)。通過(guò)這種線性表示,模型將連續(xù)運(yùn)動(dòng)分解為語(yǔ)義基底的線性組合。

2.2 稀疏運(yùn)動(dòng)字典與語(yǔ)義解耦

為實(shí)現(xiàn)基底的可解釋性與離散化,LIA-X提出稀疏運(yùn)動(dòng)字典機(jī)制。在訓(xùn)練過(guò)程中,通過(guò)對(duì)系數(shù) 施加稀疏正則項(xiàng) ,迫使模型僅使用少數(shù)基底重建目標(biāo)運(yùn)動(dòng)。其優(yōu)化目標(biāo)為:


其中 為重建函數(shù), 為稀疏權(quán)重。該約束使得每一驅(qū)動(dòng)輸入僅激活少量具有明確語(yǔ)義的基底(如"嘴角上揚(yáng)"、"眨眼"等),其余系數(shù)趨近于零,從而實(shí)現(xiàn)運(yùn)動(dòng)表示的語(yǔ)義解耦。


對(duì)比使用稠密(左)與稀疏(右)運(yùn)動(dòng)字典對(duì)同一視頻重建的系數(shù) 激活圖 2.3 基于語(yǔ)義系數(shù)的可控生成

在生成階段,目標(biāo)隱編碼 通過(guò)線性組合源編碼 與稀疏激活的語(yǔ)義基底得到:


其中 為被激活的基底索引集合。用戶可通過(guò)編輯系數(shù) 對(duì)生成動(dòng)作進(jìn)行細(xì)粒度控制,例如增強(qiáng)某一語(yǔ)義強(qiáng)度或抑制無(wú)關(guān)運(yùn)動(dòng)。該方法支持單張圖像與視頻級(jí)別的編輯,在保持身份特征的同時(shí)可實(shí)現(xiàn)高效、精準(zhǔn)的生成。

三、實(shí)驗(yàn)分析

為驗(yàn)證LIA-X的卓越性能,作者整合了VoxCelebHQ、TalkingHead-1KH、HDTF、MEAD以及內(nèi)部數(shù)據(jù)集進(jìn)行了統(tǒng)一的大規(guī)模訓(xùn)練,數(shù)據(jù)集總計(jì)包含0.5M視頻(約55,000個(gè)不同ID)。實(shí)驗(yàn)將LIA-X與現(xiàn)有主流方法在肖像動(dòng)畫與視頻重建兩大任務(wù)上進(jìn)行了系統(tǒng)比較。

3.1 定量分析


定量分析肖像驅(qū)動(dòng)任務(wù)(左)與視頻重建任務(wù)(右)

結(jié)果表明,在肖像動(dòng)畫任務(wù)中,LIA-X在256與512兩種分辨率下,幾乎在所有評(píng)估指標(biāo)上超越了當(dāng)前SOTA方法,相較于前代LIA模型也實(shí)現(xiàn)了顯著性能提升。在視頻重建任務(wù)中,LIA-X在身份保持度與圖像質(zhì)量方面同樣取得了當(dāng)前最優(yōu)的表現(xiàn)。

3.2 定性分析


定性對(duì)比LIA-X與當(dāng)前SOTA結(jié)果

定性實(shí)驗(yàn)顯示,LIA-X通過(guò)語(yǔ)義基控制能夠生成視覺效果最佳的驅(qū)動(dòng)結(jié)果。與現(xiàn)有SOTA模型相比,LIA-X能更好地保持源圖像的身份特征,且未出現(xiàn)臉部形變或偽影等問(wèn)題,展現(xiàn)出優(yōu)異的生成魯棒性。

3.3 可擴(kuò)展性分析

作者進(jìn)一步分析了LIA-X的可擴(kuò)展性。在VoxCelebHQ與TalkingHead-1KH數(shù)據(jù)集上的實(shí)驗(yàn)表明,隨著模型參數(shù)規(guī)模的擴(kuò)大,LIA-X在各項(xiàng)指標(biāo)上均呈現(xiàn)穩(wěn)定提升,顯示出良好的性能擴(kuò)展?jié)摿?;定性結(jié)果表示,擴(kuò)大模型規(guī)??梢燥@著提高生成細(xì)節(jié)(如牙齒)的質(zhì)量。


在VoxCelebHQ(左)與TalkingHead-1KH(右)定量驗(yàn)證模型可擴(kuò)展性


定性分析擴(kuò)大模型規(guī)模所帶來(lái)的視覺效果提升 四、總結(jié)

LIA-X提出了一個(gè)具有高度可解釋性的肖像動(dòng)畫框架,通過(guò)引入"稀疏運(yùn)動(dòng)字典"這一創(chuàng)新設(shè)計(jì),成功將肖像動(dòng)畫與可解釋性理論相結(jié)合,實(shí)現(xiàn)了模型從"黑盒"到"白盒"的轉(zhuǎn)變。該框架不僅能夠使靜態(tài)畫像生動(dòng)地"活"起來(lái),更使用戶能夠像操作調(diào)音臺(tái)一般,精準(zhǔn)而直觀地"調(diào)配"所需表情與動(dòng)作。LIA-X的提出標(biāo)志著肖像動(dòng)畫技術(shù)在交互性與可控性方面取得了新進(jìn)展,為下一代交互式智能內(nèi)容生成提供了潛在的方案。

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
李金羽:恭喜銅梁龍取得中超首分;和對(duì)手既熟悉也比較陌生

李金羽:恭喜銅梁龍取得中超首分;和對(duì)手既熟悉也比較陌生

懂球帝
2026-03-13 18:42:26
現(xiàn)代戰(zhàn)爭(zhēng)中的偽裝術(shù)!中國(guó)民企的軍用充氣模型1:1還原+自行移動(dòng),衛(wèi)星雷達(dá)都難分真假

現(xiàn)代戰(zhàn)爭(zhēng)中的偽裝術(shù)!中國(guó)民企的軍用充氣模型1:1還原+自行移動(dòng),衛(wèi)星雷達(dá)都難分真假

三言四拍
2026-03-13 10:14:32
古巴稱已同美國(guó)政府會(huì)談,旨在通過(guò)對(duì)話尋求解決方案

古巴稱已同美國(guó)政府會(huì)談,旨在通過(guò)對(duì)話尋求解決方案

界面新聞
2026-03-13 19:22:14
47歲男子娶82歲老太,硬塞1000元和20個(gè)雞蛋當(dāng)彩禮!“以為是假結(jié)婚沒想到是真的” 老人家人氣憤找上門去質(zhì)問(wèn)

47歲男子娶82歲老太,硬塞1000元和20個(gè)雞蛋當(dāng)彩禮!“以為是假結(jié)婚沒想到是真的” 老人家人氣憤找上門去質(zhì)問(wèn)

大風(fēng)新聞
2026-03-13 17:34:11
不滿1-2出局!朝鮮隊(duì)球員賽后哭了,中國(guó)女足13點(diǎn)打響決戰(zhàn)

不滿1-2出局!朝鮮隊(duì)球員賽后哭了,中國(guó)女足13點(diǎn)打響決戰(zhàn)

何老師呀
2026-03-13 20:41:40
5天突擊花掉501億美元,除牛排、龍蝦,竟還買了卡通貼紙?!美國(guó)防部“奢靡賬單”究竟有多離譜……

5天突擊花掉501億美元,除牛排、龍蝦,竟還買了卡通貼紙?!美國(guó)防部“奢靡賬單”究竟有多離譜……

新民周刊
2026-03-13 20:11:02
人要壞成什么樣子,才能干出這種自導(dǎo)自演砸人飯碗的事?

人要壞成什么樣子,才能干出這種自導(dǎo)自演砸人飯碗的事?

胖胖說(shuō)他不胖
2026-03-13 09:00:25
交物業(yè)費(fèi)又收車位管理費(fèi)?2026新規(guī):這4種情況屬重復(fù)收費(fèi)可拒交

交物業(yè)費(fèi)又收車位管理費(fèi)?2026新規(guī):這4種情況屬重復(fù)收費(fèi)可拒交

李博世財(cái)經(jīng)
2026-03-13 14:13:28
中方接到了通知,特朗普修改訪華規(guī)格,他要帶領(lǐng)美國(guó)對(duì)華彎道超車

中方接到了通知,特朗普修改訪華規(guī)格,他要帶領(lǐng)美國(guó)對(duì)華彎道超車

快看張同學(xué)
2026-03-13 10:19:30
北控3人20+輕取天津結(jié)束2連敗 廖三寧23+7鄒雨宸20+7

北控3人20+輕取天津結(jié)束2連敗 廖三寧23+7鄒雨宸20+7

醉臥浮生
2026-03-13 21:31:14
日本正式宣布將釋放石油儲(chǔ)備

日本正式宣布將釋放石油儲(chǔ)備

界面新聞
2026-03-13 16:29:46
美軍中央司令部:在伊拉克墜毀的加油機(jī)上確認(rèn)4人死亡

美軍中央司令部:在伊拉克墜毀的加油機(jī)上確認(rèn)4人死亡

界面新聞
2026-03-13 17:39:25
遼寧15分逆轉(zhuǎn)山西豪取4連勝 趙繼偉9+4+5+3迪亞洛25+10

遼寧15分逆轉(zhuǎn)山西豪取4連勝 趙繼偉9+4+5+3迪亞洛25+10

醉臥浮生
2026-03-13 21:37:56
時(shí)隔76年,繼朝鮮戰(zhàn)爭(zhēng)之后聯(lián)合國(guó)再次通過(guò)國(guó)家自衛(wèi)權(quán)

時(shí)隔76年,繼朝鮮戰(zhàn)爭(zhēng)之后聯(lián)合國(guó)再次通過(guò)國(guó)家自衛(wèi)權(quán)

鳳眼論
2026-03-13 12:14:53
隨著朝鮮1-2出局,2026女足亞洲杯四強(qiáng)誕生1席:東道主昂首晉級(jí)

隨著朝鮮1-2出局,2026女足亞洲杯四強(qiáng)誕生1席:東道主昂首晉級(jí)

側(cè)身凌空斬
2026-03-13 19:57:06
花600萬(wàn)買別墅簽完合同才發(fā)現(xiàn)旁邊有公墓,拒付4萬(wàn)中介費(fèi),買方被中介告上法庭

花600萬(wàn)買別墅簽完合同才發(fā)現(xiàn)旁邊有公墓,拒付4萬(wàn)中介費(fèi),買方被中介告上法庭

紅星新聞
2026-03-13 16:28:10
各國(guó)原油庫(kù)存剩余天數(shù)

各國(guó)原油庫(kù)存剩余天數(shù)

東京新青年
2026-03-13 16:58:08
特朗普拆東墻補(bǔ)西墻,伊朗成功反殺,讓美國(guó)失去針對(duì)中國(guó)的王牌

特朗普拆東墻補(bǔ)西墻,伊朗成功反殺,讓美國(guó)失去針對(duì)中國(guó)的王牌

空天力量
2026-03-13 20:10:39
被盜國(guó)保琉璃在閑魚被公開售賣,標(biāo)價(jià)3.6萬(wàn),閑魚回應(yīng):積極主動(dòng)配合警方;涉事店鋪的商品均已下架

被盜國(guó)保琉璃在閑魚被公開售賣,標(biāo)價(jià)3.6萬(wàn),閑魚回應(yīng):積極主動(dòng)配合警方;涉事店鋪的商品均已下架

瀟湘晨報(bào)
2026-03-13 16:23:25
巧合?伊朗最高領(lǐng)袖剛發(fā)表首份聲明,美軍就掉了一架大型加油機(jī)

巧合?伊朗最高領(lǐng)袖剛發(fā)表首份聲明,美軍就掉了一架大型加油機(jī)

樞密院十號(hào)
2026-03-13 18:49:02
2026-03-13 22:11:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無(wú)腦”硬件或被淘汰

頭條要聞

特朗普鼓動(dòng)油輪"大膽"過(guò)霍爾木茲海峽:伊朗沒有海軍

頭條要聞

特朗普鼓動(dòng)油輪"大膽"過(guò)霍爾木茲海峽:伊朗沒有海軍

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂(lè)要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財(cái)經(jīng)要聞

中小銀行定存利率落入“1”時(shí)代

汽車要聞

置換補(bǔ)貼價(jià)8.68萬(wàn) 五菱繽果S 525km旗艦款上市

態(tài)度原創(chuàng)

時(shí)尚
本地
游戲
房產(chǎn)
數(shù)碼

今日熱點(diǎn):王鶴潤(rùn)方向王玉雯道歉;正午陽(yáng)光辟謠《瑯琊榜3》陣容信息……

本地新聞

坐標(biāo)北京,過(guò)敏季反向遷徒

《Exodus》《術(shù)士》分別于2027上半年和下半年發(fā)售

房產(chǎn)要聞

不容易??!??诮K于又要賣地了!

數(shù)碼要聞

開源鴻蒙搶灘智慧家庭 電商巨頭激戰(zhàn)科技消費(fèi)|直擊AWE

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版