網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

SIGGRAPH Asia 2025 | 只用一部手機(jī)創(chuàng)建和渲染高質(zhì)量3D數(shù)字人

2025-12-18 19:16:41　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

計(jì)算機(jī)圖形學(xué)、三維視覺(jué)、虛擬人、XR 領(lǐng)域，SIGGRAPH 是毫無(wú)爭(zhēng)議的 “天花板級(jí)會(huì)議”。SIGGRAPH Asia作為 SIGGRAPH 系列兩大主會(huì)之一，每年只接收全球最頂尖研究團(tuán)隊(duì)的成果稿件，代表著學(xué)術(shù)與工業(yè)界的最高研究水平與最前沿技術(shù)趨勢(shì)

我們是淘寶技術(shù) - Meta 技術(shù)團(tuán)隊(duì)，在 3D、XR、3D 真人數(shù)字人和三維重建等方向擁有深厚的技術(shù)積累和業(yè)務(wù)沉淀，我們自研了專(zhuān)業(yè)的多視角拍攝影棚，在今年 CVPR 2025 會(huì)議上作為 Highlight Paper 發(fā)表了TaoAvatar，并在淘寶未來(lái)旗艦店中實(shí)現(xiàn)了業(yè)內(nèi)首個(gè) 3D 真人導(dǎo)購(gòu)體驗(yàn)，下面視頻展示了杭州西溪園區(qū) C 區(qū)淘寶未來(lái)旗艦店的精彩瞬間，歡迎大家到來(lái)訪園區(qū)進(jìn)行體驗(yàn)。

今年我們團(tuán)隊(duì)迎來(lái)另一個(gè)重要里程碑：我們撰寫(xiě)的針對(duì)移動(dòng)端的高保真實(shí)時(shí) 3D 數(shù)字人重建與渲染系統(tǒng)論文首次登錄了國(guó)際頂級(jí)計(jì)算機(jī)圖形學(xué)會(huì)議 SIGGRAPH Asia！這是我們技術(shù)實(shí)力的一次正式 “官宣”，也是我們?cè)?3D/XR 方向長(zhǎng)期投入的階段性成果展示。

我們研發(fā)的基于手機(jī)單目視頻生成高保真且可實(shí)時(shí)驅(qū)動(dòng)的 3D 數(shù)字人的系統(tǒng)名叫HRM2Avatar，不同于依賴(lài)多相機(jī)陣列或深度硬件的方案，其在普通手機(jī)拍攝條件下重建人物形體、服飾結(jié)構(gòu)以及細(xì)節(jié)級(jí)外觀表達(dá)，并支持在移動(dòng)設(shè)備上實(shí)時(shí)渲染與動(dòng)畫(huà)驅(qū)動(dòng)。系統(tǒng)采用顯式服裝網(wǎng)格與高斯表示相結(jié)合的建模方式：網(wǎng)格提供穩(wěn)定的結(jié)構(gòu)與可控性，高斯則用于呈現(xiàn)褶皺、材質(zhì)和光照變化等細(xì)節(jié)，使虛擬人在不同姿態(tài)下依舊保持連續(xù)、自然的外觀表現(xiàn)。此外，基于輕量化推理設(shè)計(jì)與移動(dòng)端渲染優(yōu)化策略，生成的數(shù)字人可在手機(jī)、頭顯等移動(dòng)設(shè)備上流暢運(yùn)行。實(shí)驗(yàn)結(jié)果表明，我們的系統(tǒng)在視覺(jué)真實(shí)感、跨姿態(tài)一致性以及移動(dòng)端實(shí)時(shí)渲染之間取得了良好平衡。

論文主頁(yè)：https://acennr-engine.github.io/HRM2Avatar/
TaoAvatar 主頁(yè)：https://pixelai-team.github.io/TaoAvatar/
Taobao3D GitHub 倉(cāng)庫(kù)：https://github.com/alibaba/Taobao3D
MNN GitHub 倉(cāng)庫(kù)：https://github.com/alibaba/MNN

問(wèn)題定義

HRM2Avatar整體框架

想生成一個(gè)真實(shí)又能動(dòng)的 3D 數(shù)字人，聽(tīng)起來(lái)很酷，但門(mén)檻非常高，現(xiàn)在高精度建模方式如 TaoAvatar、CodecAvatar 等，通常需要使用昂貴的三維重建設(shè)備。這些系統(tǒng)確實(shí)效果好，但搭建復(fù)雜、調(diào)試?yán)щy，還很難攜帶出實(shí)驗(yàn)室，普通人幾乎無(wú)法自己操作。而我們正是從 “普通人也能用” 的角度出發(fā)，重新思考：如何只用一部手機(jī)，就能創(chuàng)建和渲染高質(zhì)量 3D 數(shù)字人？

但是僅使用手機(jī)條件下，會(huì)存在多個(gè)關(guān)鍵難題：

幾何與局部細(xì)節(jié)缺失：由于手機(jī)拍攝距離遠(yuǎn)、視角有限，衣物褶皺、材質(zhì)結(jié)構(gòu)、頭發(fā)等高頻細(xì)節(jié)難以穩(wěn)定恢復(fù)；
外觀-動(dòng)作耦合：外觀變化、布料形變、光照變化與姿態(tài)變化混雜，導(dǎo)致姿勢(shì)相關(guān)的形變與光照難以獨(dú)立建模；
實(shí)時(shí)推理受限：盡管神經(jīng)渲染與 3DGS 表示提升了表達(dá)能力，但許多方法仍依賴(lài)高性能桌面級(jí) GPU 實(shí)現(xiàn)實(shí)時(shí)驅(qū)動(dòng)，在移動(dòng)端設(shè)備上運(yùn)行仍具有挑戰(zhàn)。

因此，如何在僅依賴(lài)手機(jī)單目輸入的條件下，重建高保真、可動(dòng)畫(huà)的數(shù)字人，并實(shí)現(xiàn)移動(dòng)端實(shí)時(shí)渲染，仍是一個(gè)尚未充分解決的問(wèn)題。

方法概覽

基于上述挑戰(zhàn)，我們提出了針對(duì)移動(dòng)端的高保真實(shí)時(shí) 3D 數(shù)字人重建與渲染系統(tǒng) HRM2Avatar，核心采用兩階段采集方式、顯式衣物網(wǎng)格表示與基于高斯的動(dòng)態(tài)細(xì)節(jié)建模，并結(jié)合面向移動(dòng)端設(shè)備的高效渲染優(yōu)化策略，在保證外觀質(zhì)量與動(dòng)態(tài)表現(xiàn)的同時(shí)，實(shí)現(xiàn)從掃描到實(shí)時(shí)驅(qū)動(dòng)的完整重建流程。

HRM2Avatar 流程概覽

核心模塊包括：

手機(jī)掃描采集，采用靜態(tài)與動(dòng)態(tài)結(jié)合的手機(jī)掃描方式，同時(shí)獲取全身結(jié)構(gòu)與局部細(xì)節(jié)變化，為后續(xù)動(dòng)態(tài)建模提供可靠外觀與姿態(tài)變化信號(hào)。
表征與重建，系統(tǒng)構(gòu)建可動(dòng)畫(huà)的穿衣人體模型，并采用顯式網(wǎng)格與高斯的混合表達(dá)方式：網(wǎng)格提供穩(wěn)定的結(jié)構(gòu)與動(dòng)畫(huà)一致性，而高斯用于建模隨姿態(tài)變化的細(xì)節(jié)與光照（姿態(tài)相關(guān)的形變和陰影建模），從而在運(yùn)動(dòng)過(guò)程中保持材質(zhì)、細(xì)節(jié)與視覺(jué)一致性。
移動(dòng)端渲染，結(jié)合輕量化推理模型和面向移動(dòng)設(shè)備的渲染優(yōu)化策略，生成的數(shù)字人可在手機(jī)等設(shè)備上實(shí)現(xiàn)實(shí)時(shí)驅(qū)動(dòng)與高質(zhì)量顯示

采集與預(yù)處理

系統(tǒng)在進(jìn)入重建階段前，需要將手機(jī)掃描得到的視頻轉(zhuǎn)換為結(jié)構(gòu)一致、可用于建模的輸入數(shù)據(jù)，過(guò)程包括拍攝協(xié)議相機(jī)與人體參數(shù)初始化，以及服飾網(wǎng)格提取

拍攝協(xié)議

采集采用雙序列拍攝方式，包括靜態(tài)掃描和動(dòng)態(tài)掃描。靜態(tài)掃描階段，用戶(hù)保持相對(duì)固定姿態(tài)，手機(jī)圍繞身體移動(dòng)拍攝，覆蓋全身結(jié)構(gòu)和局部紋理細(xì)節(jié)。動(dòng)態(tài)掃描階段，用戶(hù)執(zhí)行自然動(dòng)作，用于捕捉衣物褶皺、遮擋變化和光照響應(yīng)。該流程無(wú)需額外硬件或標(biāo)記，可在單目條件下提供重建與動(dòng)態(tài)建模所需的信號(hào)。

初始相機(jī)參數(shù)和姿態(tài)估計(jì)

系統(tǒng)對(duì)采集到的靜態(tài)序列和動(dòng)態(tài)序列進(jìn)行處理，以獲得后續(xù)重建所需的相機(jī)參數(shù)和初始人體姿態(tài)估計(jì)，其中靜態(tài)序列是核心階段

靜態(tài)序列

靜態(tài)序列由近景（Close-up）全身（Full-body）兩類(lèi)圖像組成，它們承擔(dān)不同但互補(bǔ)的作用：

全身幀

全身視角提供穩(wěn)定的人體輪廓與結(jié)構(gòu)，使系統(tǒng)能夠估計(jì)初始人體姿態(tài)參數(shù)。該姿態(tài)不僅用于靜態(tài)階段的重建，還作為動(dòng)態(tài)序列處理時(shí)的參考姿態(tài)來(lái)源。

近景幀

此類(lèi)幀主要覆蓋局部區(qū)域，如頭部、胸部或衣物細(xì)節(jié)，視野中人體結(jié)構(gòu)比例有限，因此通常無(wú)法檢測(cè)到可靠的人體關(guān)鍵點(diǎn)，也無(wú)法直接推斷出合理姿態(tài)。然而，這些圖像對(duì)于恢復(fù)高頻紋理和幾何區(qū)域至關(guān)重要。為了使這些幀參與建模，我們對(duì)近景與全身幀聯(lián)合運(yùn)行SfM，并利用跨尺度視角一致性來(lái)穩(wěn)定近景幀的相機(jī)軌跡。

通過(guò)聯(lián)合利用近景與全身幀，系統(tǒng)既獲得了穩(wěn)定的相機(jī)軌跡，也為后續(xù)網(wǎng)格重建與動(dòng)態(tài)建模奠定了可靠的初始化條件。

動(dòng)態(tài)序列

在動(dòng)態(tài)序列中，系統(tǒng)不再更新形體參數(shù)，而是直接使用靜態(tài)階段得到的 SMPL-X身體參數(shù)作為固定模板。在此基礎(chǔ)上，僅對(duì)每一幀估計(jì)姿態(tài)變化，用于捕獲隨動(dòng)作產(chǎn)生的衣物變形、遮擋變化和光照響應(yīng)。

服飾網(wǎng)格提取

HRM2Avatar 服飾網(wǎng)格提取流程

在獲得相機(jī)與姿態(tài)初始化后，系統(tǒng)從靜態(tài)序列中構(gòu)建可動(dòng)畫(huà)的穿衣人體網(wǎng)格。這一過(guò)程包括以下步驟：

1.幾何重建，使用靜態(tài)序列圖像運(yùn)行 NeuS2，生成服飾表面的幾何代理，用于提供連續(xù)且高質(zhì)量的體表結(jié)構(gòu)。

2.服裝區(qū)域提取，通過(guò)語(yǔ)義分割引導(dǎo)從代理幾何中提取衣物區(qū)域，確保服飾邊界清晰，避免身體與衣物表面混合。

3.重拓?fù)渑c蒙皮綁定，對(duì)提取的服飾網(wǎng)格進(jìn)行重網(wǎng)格化，并將其轉(zhuǎn)移至與身體一致的蒙皮權(quán)重體系，使其具備一致的動(dòng)畫(huà)控制結(jié)構(gòu)。

4.綁定對(duì)齊，將綁定后的網(wǎng)格逆皮膚回歸到綁定模板姿態(tài)，得到拓?fù)涓蓛簟⒔Y(jié)構(gòu)一致、可綁定動(dòng)畫(huà)的最終服飾網(wǎng)格。

生成的穿衣人體網(wǎng)格作為幾何基底參與后續(xù)混合表示學(xué)習(xí)，并用于支持姿態(tài)變化下的外觀建模與實(shí)時(shí)動(dòng)畫(huà)驅(qū)動(dòng)。

實(shí)時(shí)可驅(qū)動(dòng)的數(shù)字人重建

為了重建實(shí)時(shí)可驅(qū)動(dòng)的數(shù)字人，我們著重從混合表示，幾何生成，動(dòng)態(tài)光照建模，訓(xùn)練流程，輕量網(wǎng)絡(luò)蒸餾五個(gè)方面進(jìn)行了細(xì)致的考慮和設(shè)計(jì)。

混合表示

HRM2Avatar 混合表達(dá)

在穿衣人體網(wǎng)格上，我們?yōu)槊總€(gè)三角形附著高斯點(diǎn)，構(gòu)建混合數(shù)字人表征：

1.高斯位置與綁定

每個(gè)高斯用重心坐標(biāo)和法向在三角形上定位：

2.協(xié)方差構(gòu)造

高斯的尺度由三角形雅可比矩陣、旋轉(zhuǎn)和縮放組合得到：

3.可見(jiàn)性與語(yǔ)義分區(qū)

每個(gè)高斯關(guān)聯(lián)可見(jiàn)性標(biāo)記，僅在三角形朝向視點(diǎn)時(shí)參與渲染。基于語(yǔ)義分割，將高斯分為兩個(gè)區(qū)域：

頭發(fā)區(qū)域，使用 3DGS 建模軟性過(guò)渡，
非頭發(fā)區(qū)域，使用 2DGS 貼合網(wǎng)格表面。

該混合表示在保持結(jié)構(gòu)約束的同時(shí)，為后續(xù)姿態(tài)相關(guān)的形變與光照建模提供了可控的高斯參數(shù)空間。

幾何生成

HRM2Avatar 幾何生成模塊

其中偏移量定義為：

動(dòng)態(tài)光照建模

HRM2Avatar動(dòng)態(tài)光照建模

人體姿態(tài)變化會(huì)導(dǎo)致光照分布發(fā)生變化，例如陰影位置偏移、局部亮度變化等。為建模這種隨動(dòng)作變化的光照效應(yīng)，我們引入一個(gè)輕量化的單通道姿態(tài)相關(guān)光照項(xiàng)，用于描述運(yùn)動(dòng)驅(qū)動(dòng)的光照變化特征。

渲染過(guò)程中，高斯的外觀屬性會(huì)與該光照項(xiàng)進(jìn)行調(diào)制，最終顏色計(jì)算如下：

訓(xùn)練流程

HRM2Avatar訓(xùn)練流程

系統(tǒng)的完整優(yōu)化過(guò)程如圖所示。訓(xùn)練階段同時(shí)使用近景與全身圖像作為監(jiān)督信號(hào)，其中近景提供更強(qiáng)的外觀約束，全身圖像用于保持整體一致性。模型渲染結(jié)果與輸入圖像通過(guò)多種監(jiān)督方式進(jìn)行對(duì)齊，包括：

顏色一致性監(jiān)督，
語(yǔ)義掩碼約束，
身體與服飾區(qū)域的碰撞約束，
幾何與參數(shù)平滑正則化。

在優(yōu)化策略上，高斯屬性、幾何偏移與光照參數(shù)從零開(kāi)始訓(xùn)練，而相機(jī)姿態(tài)與人體姿勢(shì)只進(jìn)行輕量微調(diào)，用于消除殘余配準(zhǔn)誤差，而非重新估計(jì)結(jié)構(gòu)。經(jīng)過(guò)訓(xùn)練，系統(tǒng)得到姿態(tài)無(wú)關(guān)的高斯表示，以及針對(duì)每一幀的幾何形變與光照變化，從而支持后續(xù)實(shí)時(shí)驅(qū)動(dòng)與渲染。

輕量網(wǎng)絡(luò)蒸餾

HRM2Avatar網(wǎng)絡(luò)蒸餾模塊

在重建階段，我們已經(jīng)獲得了逐幀的姿態(tài)、幾何偏移和光照參數(shù)。基于這些結(jié)果，我們采用蒸餾方式訓(xùn)練一個(gè)輕量級(jí)的預(yù)測(cè)網(wǎng)絡(luò)，使其學(xué)習(xí)姿態(tài)到幾何形變與光照變化的映射關(guān)系。訓(xùn)練完成后，系統(tǒng)不再依賴(lài)逐幀重建數(shù)據(jù)，僅輸入姿態(tài)即可實(shí)時(shí)預(yù)測(cè)對(duì)應(yīng)的幾何偏移與光照參數(shù)，從而支持移動(dòng)端的實(shí)時(shí)驅(qū)動(dòng)與渲染。

高性能移動(dòng)端實(shí)時(shí)渲染

為了實(shí)現(xiàn)移動(dòng)端實(shí)時(shí)運(yùn)行，我們對(duì)渲染階段進(jìn)行了系統(tǒng)性?xún)?yōu)化，包括層級(jí)裁剪、高效投影、量化排序和基于顯卡硬件的加速渲染。該設(shè)計(jì)避免了傳統(tǒng) 3DGS 渲染中高帶寬、高冗余計(jì)算的瓶頸，使最終數(shù)字人能夠在手機(jī)上穩(wěn)定運(yùn)行。

HRM2Avatar實(shí)時(shí)渲染模塊

層級(jí)裁剪

為了盡量減少無(wú)效高斯的冗余計(jì)算，系統(tǒng)采用多級(jí)裁剪策略：

網(wǎng)格級(jí)視錐裁剪（CPU 側(cè)）：剔除完全不在視野范圍內(nèi)的身體部件；
三角片級(jí)背面裁剪（GPU 側(cè)）：丟棄背對(duì)攝像機(jī)的三角面；
高斯級(jí)視錐裁剪（GPU 側(cè)）：進(jìn)一步剔除不可見(jiàn)的高斯實(shí)例。

這種多級(jí)裁剪方式顯著減少了需要參與排序與渲染的高斯數(shù)量，極大地提升了渲染效率。

投影

對(duì)于參與渲染的高斯點(diǎn)，我們采用基于需求的精簡(jiǎn)投影流程：

按需解碼存儲(chǔ)塊，避免一次性展開(kāi)全部數(shù)據(jù)；
優(yōu)先提取空間位置和索引用于可見(jiàn)性判斷；
僅對(duì)可見(jiàn)高斯點(diǎn)進(jìn)行完整屬性解碼（旋轉(zhuǎn)、尺度、不透明度、球諧系數(shù)等）。

這種按需處理方式有效降低了解碼帶寬開(kāi)銷(xiāo)。

排序

渲染高斯需要按深度順序合成。我們采用量化排序以提升效率：

將連續(xù)深度范圍映射至緊湊區(qū)間；
使用 16 Bit 或 12 Bit 深度存儲(chǔ)替代 32Bit 浮點(diǎn)；
結(jié)合 GPU 并行 Radix Sort 與硬件 Wave 操作加速排序。
該方法在保持排序精度的同時(shí)，大幅減少排序負(fù)擔(dān)和顯存帶寬使用。

渲染

最終渲染階段使用 GPU 的硬件柵格化，對(duì)每個(gè)高斯生成面元并進(jìn)行屏幕合成。為進(jìn)一步提升性能和視覺(jué)質(zhì)量，我們采用：

自適應(yīng)面元縮放：在保證外觀一致的前提下縮小面元面積；
基于透明度修剪：剔除貢獻(xiàn)極小的邊界像素；
反向透明度估計(jì)：根據(jù)高斯分布推斷最小必要面元尺寸。

這些策略使系統(tǒng)在有限算力環(huán)境下仍能保持高質(zhì)量渲染。

通過(guò)上述優(yōu)化，數(shù)字人渲染不依賴(lài)實(shí)時(shí)體渲染混合或高開(kāi)銷(xiāo)著色器，而采用緊湊、高度可并行、緩存友好的繪制方式，最終達(dá)成在移動(dòng)端平臺(tái)上的實(shí)時(shí)表現(xiàn)。

結(jié)果展示

AR｜MR效果

與現(xiàn)有方法對(duì)比

我們?cè)谧詷?gòu)的服飾人體數(shù)據(jù)上對(duì)HRM2Avatar進(jìn)行了系統(tǒng)評(píng)測(cè)，并與現(xiàn)有單目輸入條件下的可動(dòng)畫(huà)數(shù)字人方法進(jìn)行了對(duì)比，包括基于隱式場(chǎng)、可動(dòng)畫(huà)神經(jīng)表示以及基于高斯表示的方案。對(duì)比實(shí)驗(yàn)主要關(guān)注兩個(gè)方面：靜態(tài)重建質(zhì)量與姿態(tài)驅(qū)動(dòng)下的外觀一致性

從定性結(jié)果可以觀察到，在僅使用單目輸入的條件下，現(xiàn)有方法在衣物邊界、高頻紋理和細(xì)節(jié)區(qū)域（如褶皺、印花、層次結(jié)構(gòu)等）往往表現(xiàn)較弱，容易出現(xiàn)模糊化或紋理漂移，而 HRM2Avatar 依托顯式衣物網(wǎng)格與高斯表示相結(jié)合的結(jié)構(gòu)，能夠保持更穩(wěn)定的視覺(jué)細(xì)節(jié)和結(jié)構(gòu)表達(dá)。尤其在跨視角與跨姿態(tài)驅(qū)動(dòng)條件下，我們的方法在外觀一致性上表現(xiàn)更穩(wěn)定，未出現(xiàn)明顯的拉伸或表面扭曲偽影。

在客觀指標(biāo)上，我們使用 PSNR、SSIM 和 LPIPS 對(duì)方法進(jìn)行量化比較。結(jié)果表明，HRM2Avatar 在所有指標(biāo)上均取得更優(yōu)表現(xiàn)：在 LPIPS 上分?jǐn)?shù)更低，而在 PSNR 和 SSIM 上更高，顯示出更清晰的紋理保留和更穩(wěn)定的結(jié)構(gòu)一致性。值得注意的是，即使在新的姿態(tài)條件下，這一優(yōu)勢(shì)仍然保持，說(shuō)明所建模的姿態(tài)相關(guān)的外表建模能夠有效避免紋理漂移并提升跨姿態(tài)一致性。

我們進(jìn)一步在 Neuman 數(shù)據(jù)集上評(píng)估了 HRM2Avatar 的泛化性能。該數(shù)據(jù)集包含更復(fù)雜的服飾結(jié)構(gòu)與動(dòng)態(tài)動(dòng)作模式，可用于驗(yàn)證方法在非自采場(chǎng)景下的適應(yīng)能力。

在 Neuman 數(shù)據(jù)集上，我們進(jìn)一步評(píng)估了模型的泛化表現(xiàn)。該數(shù)據(jù)集包含更豐富的動(dòng)態(tài)動(dòng)作與服飾外觀變化，可用于檢驗(yàn)?zāi)Ｐ驮诜亲圆蓤?chǎng)景下的穩(wěn)定性。從定性結(jié)果來(lái)看，現(xiàn)有方法在快速動(dòng)作或較大姿態(tài)變化條件下，容易出現(xiàn)紋理模糊、漂移或表面結(jié)構(gòu)不穩(wěn)定等現(xiàn)象，而HRM2Avatar 能保持較為穩(wěn)定的外觀呈現(xiàn)，服飾細(xì)節(jié)在動(dòng)作驅(qū)動(dòng)過(guò)程中仍具備可辨識(shí)度。同時(shí)，在袖口、褶皺等高頻區(qū)域，模型能夠維持視覺(jué)上連續(xù)且合理的外觀變化。值得注意的是，即使目標(biāo)姿態(tài)未在掃描序列中出現(xiàn)，基于兩階段采集策略學(xué)習(xí)的姿態(tài)相關(guān)的外表建模仍能生成與動(dòng)作一致的外觀響應(yīng)，沒(méi)有出現(xiàn)明顯視覺(jué)斷層或重建不連續(xù)情況。

總體而言，Neuman 數(shù)據(jù)集實(shí)驗(yàn)表明，在具有動(dòng)作變化和服飾結(jié)構(gòu)復(fù)雜性的場(chǎng)景中，模型能夠保持重建外觀與姿態(tài)一致性，并具備跨姿態(tài)條件下的穩(wěn)定表現(xiàn)。

消融實(shí)驗(yàn)

我們進(jìn)一步進(jìn)行了消融實(shí)驗(yàn)，以驗(yàn)證系統(tǒng)中各個(gè)組成模塊對(duì)最終效果的影響。實(shí)驗(yàn)依次移除關(guān)鍵設(shè)計(jì)，包括顯式服裝網(wǎng)格、姿態(tài)相關(guān)的外表建模以及兩階段掃描協(xié)議，并在相同條件下比較生成結(jié)果。

從定性結(jié)果可以看到，當(dāng)移除顯式服裝網(wǎng)格時(shí)，重建表面在服飾邊界區(qū)域出現(xiàn)不連續(xù)或拓?fù)淠：那闆r，且局部細(xì)節(jié)難以保持一致。進(jìn)一步移除姿態(tài)相關(guān)的外表建模后，模型在動(dòng)作變化過(guò)程中易產(chǎn)生紋理漂移或不穩(wěn)定現(xiàn)象，尤其在手臂抬起等較大姿態(tài)變化階段更為明顯。此外，若不采用兩階段掃描采集策略，僅依賴(lài)單序列輸入，模型在訓(xùn)練階段難以獲得可靠的靜態(tài)參考，表現(xiàn)為紋理分辨率下降以及動(dòng)作驅(qū)動(dòng)時(shí)局部外觀變化不合理。

總體來(lái)看，消融實(shí)驗(yàn)表明，各設(shè)計(jì)模塊在系統(tǒng)中均發(fā)揮必要作用：顯式服裝網(wǎng)格用于提供穩(wěn)定的拓?fù)浣Y(jié)構(gòu)，姿態(tài)相關(guān)的外表建模對(duì)于跨姿態(tài)一致性至關(guān)重要，而兩階段掃描策略為重建細(xì)節(jié)和外觀穩(wěn)定性提供有效約束。

性能表現(xiàn)

我們?cè)u(píng)估了 HRM2Avatar 在移動(dòng)端設(shè)備上的運(yùn)行表現(xiàn)，并在 iPhone 15 Pro Max 與 Apple Vision Pro 上進(jìn)行了實(shí)時(shí)驅(qū)動(dòng)測(cè)試。實(shí)驗(yàn)使用相同渲染配置，并控制高斯數(shù)量以驗(yàn)證模型在不同數(shù)字人規(guī)模下的運(yùn)行穩(wěn)定性。

在單個(gè)數(shù)字人配置下（約 53 萬(wàn)高斯點(diǎn)），系統(tǒng)能夠在 iPhone 15 Pro Max 上以2K 分辨率、120 FPS穩(wěn)定運(yùn)行；多數(shù)字人場(chǎng)景下仍可保持實(shí)時(shí)表現(xiàn)，例如同時(shí)渲染三個(gè)數(shù)字人時(shí)，可達(dá)到2K@30 FPS。在 Apple Vision Pro 上，系統(tǒng)同樣實(shí)現(xiàn)了2K@90 FPS的實(shí)時(shí)渲染效果。

我們進(jìn)一步分析了各渲染優(yōu)化策略對(duì)系統(tǒng)性能的影響，包括分級(jí)裁剪（Hierarchical Culling）、按需屬性解碼（On-demand Decoding）、深度量化排序（Depth Quantization）以及單通道視圖渲染等策略。實(shí)驗(yàn)結(jié)果表明，這些設(shè)計(jì)能夠有效降低計(jì)算與內(nèi)存開(kāi)銷(xiāo)，使混合的高斯和網(wǎng)格表示能夠在移動(dòng)硬件上實(shí)現(xiàn)實(shí)時(shí)驅(qū)動(dòng)。

整體來(lái)看，性能測(cè)試表明 HRM2Avatar 能夠在移動(dòng)設(shè)備上維持穩(wěn)定的實(shí)時(shí)運(yùn)行表現(xiàn)，同時(shí)兼顧高分辨率渲染質(zhì)量與系統(tǒng)響應(yīng)延遲，為實(shí)際交互場(chǎng)景部署提供可行性基礎(chǔ)。

總結(jié)與展望

圍繞“讓普通人也能擁有高質(zhì)量數(shù)字人”這一目標(biāo)，我們提出了 HRM2Avatar，一種基于手機(jī)單目掃描，即可生成可動(dòng)畫(huà)、高保真數(shù)字人的系統(tǒng)方案。在真實(shí)應(yīng)用場(chǎng)景中，HRM2Avatar 能夠應(yīng)對(duì)不同服飾結(jié)構(gòu)、姿態(tài)變化與光照條件，在穩(wěn)定性和一致性方面表現(xiàn)良好，為移動(dòng)端數(shù)字人應(yīng)用提供了可行技術(shù)路徑。

我們也客觀看待當(dāng)前技術(shù)階段，作為一項(xiàng)前沿探索，HRM2Avatar 仍然存在進(jìn)一步優(yōu)化空間。例如對(duì)于結(jié)構(gòu)復(fù)雜或非固定拓?fù)涞姆棧ㄈ顼h帶、寬松衣物等），重建精度仍有改善余地，此外在極端光照或動(dòng)態(tài)遮擋場(chǎng)景下，效果仍有提升空間。這些也正是我們下一階段持續(xù)投入攻關(guān)的方向。

HRM2Avatar 并不是 “終點(diǎn)”，而是我們推動(dòng)：數(shù)字人從專(zhuān)業(yè)設(shè)備走向普通用戶(hù)，從實(shí)驗(yàn)室能力走向真實(shí)應(yīng)用場(chǎng)景過(guò)程中的一個(gè)重要里程碑。我們相信，隨著算法、模型工程與硬件能力的共同進(jìn)化，高質(zhì)量、實(shí)時(shí)、可普及的數(shù)字人體驗(yàn)，將不再遙遠(yuǎn)。

團(tuán)隊(duì)介紹

我們是大淘寶技術(shù) Meta Team，負(fù)責(zé)面向消費(fèi)場(chǎng)景的 3D/XR 基礎(chǔ)技術(shù)建設(shè)和創(chuàng)新應(yīng)用探索，通過(guò)技術(shù)和應(yīng)用創(chuàng)新找到以手機(jī)及 XR 新設(shè)備為載體的消費(fèi)購(gòu)物 3D/XR 新體驗(yàn)。團(tuán)隊(duì)在端智能、商品三維重建、3D 引擎、XR 引擎等方面有深厚的技術(shù)積累，同時(shí)在 OSDI、MLSys、CVPR、ICCV、NeurIPS、TPAMI、SIGGRAPH 等頂級(jí)學(xué)術(shù)會(huì)議和期刊上發(fā)表了多篇論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.