不止動起來：SentiAvatar重新定義3D數(shù)字人動作生成范式

2026-04-08 11:23:10　來源: 機器之心Pro

北京舉報

分享至

機器之心發(fā)布

當(dāng)你和 3D 數(shù)字人對話時，有沒有遇到過這種詭異時刻：它的嘴在動，但表情依舊僵硬；手在揮舞，但和說話內(nèi)容完全脫節(jié)；更糟的是，那種外表像真人但動作不自然的違和感，讓人瞬間陷入 “恐怖谷”。

問題的根源在于，人類溝通從來不只是語言或動作的單一呈現(xiàn)。一個聳肩可以表達(dá)無奈，一個點頭傳遞認(rèn)同，而微微揚起的眉毛則暗示懷疑。這些由手勢、姿態(tài)與面部表情構(gòu)成的非語言信號，是真實交流中不可或缺的關(guān)鍵維度。

當(dāng)前大多數(shù) 3D 數(shù)字人的動作生成仍停留在通用動作拼接層面，難以承載復(fù)雜語義與情緒表達(dá)。而這種自然、連貫且富有情緒的表現(xiàn)力對 3D 數(shù)字角色至關(guān)重要：數(shù)字人需要它來建立信任，機器人需要它來與人類協(xié)作，游戲則需要它讓角色更加生動。

AI 初創(chuàng)公司 SentiPulse 聯(lián)合中國人民大學(xué)高瓴人工智能學(xué)院博士生團(tuán)隊的最新研究，提出了一套 3D 數(shù)字人動作生成新范式SentiAvatar，它是用于構(gòu)建具備表現(xiàn)力的交互式 3D 數(shù)字人框架。團(tuán)隊基于此打造了虛擬角色SUSU，使其能夠?qū)崟r進(jìn)行語言表達(dá)、動作表現(xiàn)與情緒傳達(dá)

視頻鏈接：https://mp.weixin.qq.com/s/13XKw1FLyDr9V3IxaPZltg

今天，SentiAvatar 框架、3D 數(shù)字人 SUSU 角色模型及高質(zhì)量動作數(shù)據(jù)集 SuSuInterActs全球同步開源

論文標(biāo)題：SentiAvatar: Towards Expressive and Interactive Digital Humans
論文地址：https://arxiv.org/abs/2604.02908
項目主頁：https://sentiavatar.github.io/

一眼假的 3D 數(shù)字人

困在三個 "無人區(qū)"

讓 3D 數(shù)字人在真實對話中自然地手舞足蹈，聽起來只是一個工程問題，但它實際上橫跨了三個長期未被同時解決的研究缺口：

第一，高質(zhì)量數(shù)據(jù)荒。現(xiàn)有數(shù)據(jù)集要么以英語語料為主，要么缺乏與動作同步的面部表情，中文對話場景下的高質(zhì)量全身動作數(shù)據(jù)幾乎空白。

第二，復(fù)合語義動作漂移。當(dāng)描述從簡單的“揮手”變成“無奈地聳肩”、“認(rèn)同地點頭” 這種復(fù)合語義時，模型的理解能力急劇退化。

第三，對話節(jié)奏錯亂。模型生成的動作要么像機器人一樣勻速機械，要么和語音的重音、停頓完全錯位。

能不能讓數(shù)字人既理解“要說什么”，又能做出能跟上說話的節(jié)奏的流暢動作？

問題本質(zhì)

語義與韻律是兩個時間尺度的問題

現(xiàn)有方法在對話驅(qū)動的動作生成上陷入兩難：全局語義對齊要求模型理解句子級的行為語義，如：無奈地聳肩，并生成宏觀動作結(jié)構(gòu)；幀級韻律對齊則要求動作的速度起伏精確響應(yīng)語音的重音、停頓與節(jié)律變化。兩者分別工作在句子級和幀級兩個時間尺度，單一模型難以兼顧。

以往的共語音手勢生成方法（EMAGE、TalkShow 等）將動作視為音頻的低階反射，缺乏句子級語義規(guī)劃；而文本驅(qū)動的動作生成方法（T2M-GPT、MoMask 等）則完全丟棄了音頻信號，無法捕捉語音韻律對動作時序的精細(xì)調(diào)制。

SentiAvatar 的出發(fā)點正是將這兩個目標(biāo)解耦，將句子級語義規(guī)劃與幀級韻律驅(qū)動分階段處理，而非強行塞進(jìn)一個端到端模型。

SentiAvatar

3D 數(shù)字人動作生成新范式

為了解決以上問題，SentiPulse 團(tuán)隊基于統(tǒng)一技術(shù)框架SentiAvatar打造了虛擬角色 SUSU，并構(gòu)建SuSuInterActs 數(shù)據(jù)集（包含 2.1 萬段片段，總計 37 小時），該對話語料通過光學(xué)動捕技術(shù)采集，圍繞單一角色，包含同步的語音、全身動作與面部表情。其次，在超過 20 萬條動作序列上預(yù)訓(xùn)練了一個動作基礎(chǔ)模型 Motion Foundation Model，使其具備豐富的動作先驗，能力遠(yuǎn)超對話場景本身。在此基礎(chǔ)上，團(tuán)隊創(chuàng)新提出了一種全新的模型架構(gòu) plan-then-infill，將句子級語義規(guī)劃與逐幀的韻律驅(qū)動插值解耦，從而使生成的動作既符合語義，又在節(jié)奏上與語音高度一致。

SuSuInterActs 數(shù)據(jù)集

數(shù)據(jù)瓶頸是 SentiAvatar 解決的一個硬核問題。現(xiàn)有共語音數(shù)據(jù)集的兩個主要局限：1）以英語為主 2）缺乏同步的面部表情數(shù)據(jù)，在中文對話場景下尤為突出。

SentiPulse 圍繞單一虛擬角色 SUSU（22 歲，溫柔活潑，情感豐富），從頭構(gòu)建了SuSuInterActs 數(shù)據(jù)集。該數(shù)據(jù)集包含2.1 萬段片段、37 小時的多模態(tài)對話語料，涵蓋同步語音、行為標(biāo)注文本、全身動作與面部表情。

數(shù)據(jù)采集流程分四步：

角色與場景設(shè)計。
LLM 生成帶行為標(biāo)注的對話腳本，比如：動作 “攤手無奈”、表情 “擔(dān)憂” 等標(biāo)簽。
專業(yè)動捕演員使用 Nokov 光學(xué)動捕系統(tǒng) + MANUS 手套 + iPhone ARKit 系統(tǒng)完整錄制。
后處理與時間對齊（統(tǒng)一幀率 20FPS，幀級同步）。

最終數(shù)據(jù)集規(guī)模：21,133 條片段，36.9 小時，覆蓋日常聊天、情感支持、趣味互動等多類場景。每條樣本包含四路同步模態(tài)：中文對話文本（含行為語義標(biāo)注）、語音音頻（WAV）、全身骨骼動作（63 關(guān)節(jié)，6D 旋轉(zhuǎn)表示）、面部混合形狀系數(shù)（blendshape coefficient）（51 維 ARKit 參數(shù)）。其中 14,278 條含非默認(rèn)動作標(biāo)注，9,412 條含非默認(rèn)表情標(biāo)注。

聚焦單一角色是一個有意為之的設(shè)計選擇，相比 BEAT2 等多角色數(shù)據(jù)集，它帶來了更一致的行為模式，有利于角色特定的動作與表情風(fēng)格學(xué)習(xí)。

動作基礎(chǔ)模型：200K 序列的異質(zhì)預(yù)訓(xùn)練

對話數(shù)據(jù)集的動作分布天然受限于對話場景。團(tuán)隊在預(yù)訓(xùn)練階段引入了自研的 Motion Foundation Model 動作基礎(chǔ)模型，在 200K + 條異質(zhì)動作序列（約 676 小時）上訓(xùn)練通用運動先驗。數(shù)據(jù)來源如下：

蒸餾流程值得關(guān)注：通過挖掘原子動詞、LLM 擴(kuò)展同義短語、組合模板生成復(fù)合動作描述（最多 4 個動作），以及引入奧運運動、仿生動作等專項類別，系統(tǒng)性地擴(kuò)展了動作先驗的覆蓋邊界。

基礎(chǔ)模型以 Qwen-0.5B 為骨干，擴(kuò)展詞表至包含 2,048 個動作 Token（R-VQVAE，4 層殘差量化，每層碼本 512）和音頻 Token（HuBERT K-means 量化）。預(yù)訓(xùn)練任務(wù)為文本-動作生成，所有文本描述統(tǒng)一翻譯為中文，保持語言空間一致性。

核心架構(gòu) plan-then-infill

用對話生成動作的核心在于理解高層語義意圖，模型需要先知道 “做什么動作”，再決定 “如何逐幀執(zhí)行”，這一過程建模是一個規(guī)劃問題。SentiAvatar 采用雙通道并行架構(gòu) plan-then-infill，身體動作與面部表情分離處理，身體動作通道由兩個串聯(lián)階段構(gòu)成。

1. 身體動作通道

第一階段，LLM 語義規(guī)劃器接收行為標(biāo)簽文本和稀疏音頻 Token，輸出稀疏關(guān)鍵幀動作 Token 序列。為支持多輪流式連續(xù)生成，模型以前一句話的最后兩個關(guān)鍵幀音頻 - 動作 Token 對作為上下文前綴，從下一個關(guān)鍵幀位置續(xù)寫，實現(xiàn)無縫跨句過渡。

第二階段，Body Infill Transformer在相鄰關(guān)鍵幀之間填入中間 3 幀，以逐幀 HuBERT 連續(xù)特征（768 維，20FPS）作為條件信號。模型采用 5 幀滑動窗口，首尾幀已知，預(yù)測中間 3 幀（12 個動作 Token）。推理時使用迭代置信度解碼策略（默認(rèn) 6 步），逐步接受高置信度預(yù)測，避免一次性預(yù)測的質(zhì)量退化。

2. 面部表情通道

直接繞過 LLM 規(guī)劃階段，面部表情的動態(tài)與語音韻律高度耦合，無需句子級語義規(guī)劃。Face Infill Transformer結(jié)構(gòu)與 Body Infill Transformer 類似，但操作 2Token / 幀的面部離散表示，直接從音頻特征生成面部 Token，再由 Face R-VQVAE 解碼為 51 維 ARKit 混合形狀系數(shù)序列。

兩通道共享 HuBERT 特征提取，端到端延遲約 0.53 秒生成 6 秒動作，支持無限多輪流式輸出

實時性能：0.3 秒內(nèi)生成 6 秒輸出

FGD/BC 雙刷 SOTA

整體實驗結(jié)果：跨數(shù)據(jù)集均達(dá)最優(yōu)水平

實驗結(jié)果表明，SentiAvatar 在 SuSuInterActs 和 BEATv2 兩個數(shù)據(jù)集上均達(dá)到了當(dāng)前最優(yōu)水平。

在自建 SuSuInterActs 測試集上，SentiAvatar 的文本 - 動作檢索召回率 R@1 達(dá) 43.64%，接近次優(yōu)基線 T2M-GPT（23.12%）的兩倍，F(xiàn)ID 降至 8.912（對比：T2M-GPT 67.78，EMAGE 441.6）。
在跨數(shù)據(jù)集評測 BEATv2 上，SentiAvatar 以 FGD 4.941、BC 8.078 同時刷新兩項指標(biāo)的 SOTA ，超越此前最優(yōu)的 Language-of-Motion（FGD 5.301）和 SynTalker（BC 7.971），驗證了方法的跨語言、跨數(shù)據(jù)集泛化能力。
SentiAvatar 在所有生成方法中取得最低 ESD（0.456 秒，真實動作基準(zhǔn)為 0.308 秒）。

注：評測指標(biāo) ESD（Event Sync Distance），是一種用于衡量生成動作與驅(qū)動信號（如語音節(jié)奏）之間時間同步性的客觀評測指標(biāo)，它直接反映了數(shù)字人或機器人的動作是否 “對得上拍子”。

定性分析結(jié)果：SentiAvatar 動作生成效果最佳

團(tuán)隊將 SentiAvatar 與幾種 3D 動作生成主流 AI 模型進(jìn)行對比。下圖中每一行展示特定動作與語音的關(guān)鍵幀序列，相同顏色的文字和箭頭代表同一時間，紅色箭頭表示動作錯誤。

多模型對比結(jié)果：SentiAvatar 呈現(xiàn)出最自然的生成效果，動作語義正確，并且在時間上與音頻波形高度對齊。MoMask 能夠從文本標(biāo)簽中部分捕捉動作語義，但由于無法獲取語音信息，生成的動作節(jié)奏較為靜態(tài)，且與音頻不存在對應(yīng)關(guān)系。MEAGE 可以生成與音頻同步的動作，但動作較為通用，忽略了標(biāo)簽中指定的語義意圖。AT2M-GPT 盡管能同時接受音頻和文本輸入，但常常會誤解動作語義。HunYuan-Motion 因未基于高質(zhì)量動捕數(shù)據(jù)進(jìn)行訓(xùn)練，生成結(jié)果中存在明顯的身體畸形和不自然姿態(tài)，整體表現(xiàn)最差。

消融實驗結(jié)果：驗證核心架構(gòu)各部分不可替代

在架構(gòu)消融實驗中，移除 LLM 規(guī)劃器會導(dǎo)致性能大幅下降：R@1 從 43.64% 驟降至 28.06%，F(xiàn)ID 從 8.912 劣化至 27.567，說明句子語義規(guī)劃至關(guān)重要；移除 Infill Transformer 同樣會導(dǎo)致所有指標(biāo)下降，R@1 降至 27.52%，ESD 惡化至 0.503 秒，因為僅依賴稀疏關(guān)鍵幀會產(chǎn)生不連續(xù)、節(jié)奏不自然的動作。

音頻條件消融進(jìn)一步揭示，Infill Transformer 中的連續(xù) HuBERT 特征是幀級同步的主要驅(qū)動力，而 LLM 中的離散音頻 Token 則更多貢獻(xiàn)于整體動作質(zhì)量和節(jié)律規(guī)劃，驗證了 “粗粒度音頻規(guī)劃+細(xì)粒度音頻對齊” 的協(xié)同效果。

在實驗?zāi)芰ν?，工程落地能力同樣關(guān)鍵。SentiAvatar 實現(xiàn)了 0.3 秒內(nèi)生成 6 秒動作序列，支持無限輪次的流式交互。這意味著數(shù)字人可以在實時對話中持續(xù)生成連貫的動作與表情，無需等待整句結(jié)束再批量處理。

開源與未來

從 "數(shù)字人" 到下一代 "數(shù)字生命"

今天，SentiAvatar 框架、SuSuInterActs 數(shù)據(jù)集及預(yù)訓(xùn)練模型重磅開源，上線 GitHub。SentiPulse 團(tuán)隊邀請全球?qū)?3D 動作生成感興趣的研究機構(gòu)、開發(fā)者，共同突破 3D 數(shù)字人技術(shù)與應(yīng)用的新邊界。

SentiPulse 看到的未來不止于此。當(dāng)前 3D 數(shù)字人的競爭焦點仍在數(shù)字人的視覺形象和基礎(chǔ)語音動作能力，下一步技術(shù)躍遷，是構(gòu)建像人一樣的認(rèn)知和表達(dá)能力：更完整的表達(dá)模型、更統(tǒng)一的人格系統(tǒng)、更長期的交互記憶。3D 數(shù)字人未來的競爭重心，將不再是誰渲染得更真實，而是誰能構(gòu)建更完整的認(rèn)知-表達(dá)閉環(huán)。

當(dāng)數(shù)字人不再只是 "提線木偶"，而是能感知語境、理解情緒、主動表達(dá)的交互主體，人機關(guān)系的底層邏輯將被重寫，下一代 “數(shù)字生命” 也即將走進(jìn)現(xiàn)實。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.