国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不止動起來:SentiAvatar重新定義3D數(shù)字人動作生成范式

0
分享至

機器之心發(fā)布

當(dāng)你和 3D 數(shù)字人對話時,有沒有遇到過這種詭異時刻:它的嘴在動,但表情依舊僵硬;手在揮舞,但和說話內(nèi)容完全脫節(jié);更糟的是,那種外表像真人但動作不自然的違和感,讓人瞬間陷入 “恐怖谷”。

問題的根源在于,人類溝通從來不只是語言或動作的單一呈現(xiàn)。一個聳肩可以表達(dá)無奈,一個點頭傳遞認(rèn)同,而微微揚起的眉毛則暗示懷疑。這些由手勢、姿態(tài)與面部表情構(gòu)成的非語言信號,是真實交流中不可或缺的關(guān)鍵維度。

當(dāng)前大多數(shù) 3D 數(shù)字人的動作生成仍停留在通用動作拼接層面,難以承載復(fù)雜語義與情緒表達(dá)。而這種自然、連貫且富有情緒的表現(xiàn)力對 3D 數(shù)字角色至關(guān)重要:數(shù)字人需要它來建立信任,機器人需要它來與人類協(xié)作,游戲則需要它讓角色更加生動。

AI 初創(chuàng)公司 SentiPulse 聯(lián)合中國人民大學(xué)高瓴人工智能學(xué)院博士生團(tuán)隊的最新研究,提出了一套 3D 數(shù)字人動作生成新范式SentiAvatar,它是用于構(gòu)建具備表現(xiàn)力的交互式 3D 數(shù)字人框架。團(tuán)隊基于此打造了虛擬角色SUSU,使其能夠?qū)崟r進(jìn)行語言表達(dá)、動作表現(xiàn)與情緒傳達(dá)



視頻鏈接:https://mp.weixin.qq.com/s/13XKw1FLyDr9V3IxaPZltg

今天,SentiAvatar 框架、3D 數(shù)字人 SUSU 角色模型及高質(zhì)量動作數(shù)據(jù)集 SuSuInterActs全球同步開源



  • 論文標(biāo)題:SentiAvatar: Towards Expressive and Interactive Digital Humans
  • 論文地址:https://arxiv.org/abs/2604.02908
  • 項目主頁:https://sentiavatar.github.io/

一眼假的 3D 數(shù)字人

困在三個 "無人區(qū)"

讓 3D 數(shù)字人在真實對話中自然地手舞足蹈,聽起來只是一個工程問題,但它實際上橫跨了三個長期未被同時解決的研究缺口:

第一,高質(zhì)量數(shù)據(jù)荒。現(xiàn)有數(shù)據(jù)集要么以英語語料為主,要么缺乏與動作同步的面部表情,中文對話場景下的高質(zhì)量全身動作數(shù)據(jù)幾乎空白。

第二,復(fù)合語義動作漂移。當(dāng)描述從簡單的“揮手”變成“無奈地聳肩”、“認(rèn)同地點頭” 這種復(fù)合語義時,模型的理解能力急劇退化。

第三,對話節(jié)奏錯亂。模型生成的動作要么像機器人一樣勻速機械,要么和語音的重音、停頓完全錯位。

能不能讓數(shù)字人既理解“要說什么”,又能做出能跟上說話的節(jié)奏的流暢動作?

問題本質(zhì)

語義與韻律是兩個時間尺度的問題

現(xiàn)有方法在對話驅(qū)動的動作生成上陷入兩難:全局語義對齊要求模型理解句子級的行為語義,如:無奈地聳肩,并生成宏觀動作結(jié)構(gòu);幀級韻律對齊則要求動作的速度起伏精確響應(yīng)語音的重音、停頓與節(jié)律變化。兩者分別工作在句子級和幀級兩個時間尺度,單一模型難以兼顧。

以往的共語音手勢生成方法(EMAGE、TalkShow 等)將動作視為音頻的低階反射,缺乏句子級語義規(guī)劃;而文本驅(qū)動的動作生成方法(T2M-GPT、MoMask 等)則完全丟棄了音頻信號,無法捕捉語音韻律對動作時序的精細(xì)調(diào)制。

SentiAvatar 的出發(fā)點正是將這兩個目標(biāo)解耦,將句子級語義規(guī)劃與幀級韻律驅(qū)動分階段處理,而非強行塞進(jìn)一個端到端模型。

SentiAvatar

3D 數(shù)字人動作生成新范式



為了解決以上問題,SentiPulse 團(tuán)隊基于統(tǒng)一技術(shù)框架SentiAvatar打造了虛擬角色 SUSU,并構(gòu)建SuSuInterActs 數(shù)據(jù)集(包含 2.1 萬段片段,總計 37 小時),該對話語料通過光學(xué)動捕技術(shù)采集,圍繞單一角色,包含同步的語音、全身動作與面部表情。其次,在超過 20 萬條動作序列上預(yù)訓(xùn)練了一個動作基礎(chǔ)模型 Motion Foundation Model,使其具備豐富的動作先驗,能力遠(yuǎn)超對話場景本身。在此基礎(chǔ)上,團(tuán)隊創(chuàng)新提出了一種全新的模型架構(gòu) plan-then-infill,將句子級語義規(guī)劃與逐幀的韻律驅(qū)動插值解耦,從而使生成的動作既符合語義,又在節(jié)奏上與語音高度一致。

SuSuInterActs 數(shù)據(jù)集

數(shù)據(jù)瓶頸是 SentiAvatar 解決的一個硬核問題。現(xiàn)有共語音數(shù)據(jù)集的兩個主要局限:1) 以英語為主 2)缺乏同步的面部表情數(shù)據(jù),在中文對話場景下尤為突出。

SentiPulse 圍繞單一虛擬角色 SUSU(22 歲,溫柔活潑,情感豐富),從頭構(gòu)建了SuSuInterActs 數(shù)據(jù)集。該數(shù)據(jù)集包含2.1 萬段片段、37 小時的多模態(tài)對話語料,涵蓋同步語音、行為標(biāo)注文本、全身動作與面部表情。



數(shù)據(jù)采集流程分四步:

  1. 角色與場景設(shè)計。
  2. LLM 生成帶行為標(biāo)注的對話腳本,比如:動作 “攤手無奈”、表情 “擔(dān)憂” 等標(biāo)簽。
  3. 專業(yè)動捕演員使用 Nokov 光學(xué)動捕系統(tǒng) + MANUS 手套 + iPhone ARKit 系統(tǒng)完整錄制。
  4. 后處理與時間對齊(統(tǒng)一幀率 20FPS,幀級同步)。

最終數(shù)據(jù)集規(guī)模:21,133 條片段,36.9 小時,覆蓋日常聊天、情感支持、趣味互動等多類場景。每條樣本包含四路同步模態(tài):中文對話文本(含行為語義標(biāo)注)、語音音頻(WAV)、全身骨骼動作(63 關(guān)節(jié),6D 旋轉(zhuǎn)表示)、面部混合形狀系數(shù)(blendshape coefficient)(51 維 ARKit 參數(shù))。其中 14,278 條含非默認(rèn)動作標(biāo)注,9,412 條含非默認(rèn)表情標(biāo)注。

聚焦單一角色是一個有意為之的設(shè)計選擇,相比 BEAT2 等多角色數(shù)據(jù)集,它帶來了更一致的行為模式,有利于角色特定的動作與表情風(fēng)格學(xué)習(xí)。

動作基礎(chǔ)模型:200K 序列的異質(zhì)預(yù)訓(xùn)練

對話數(shù)據(jù)集的動作分布天然受限于對話場景。團(tuán)隊在預(yù)訓(xùn)練階段引入了自研的 Motion Foundation Model 動作基礎(chǔ)模型,在 200K + 條異質(zhì)動作序列(約 676 小時)上訓(xùn)練通用運動先驗。數(shù)據(jù)來源如下:



蒸餾流程值得關(guān)注:通過挖掘原子動詞、LLM 擴(kuò)展同義短語、組合模板生成復(fù)合動作描述(最多 4 個動作),以及引入奧運運動、仿生動作等專項類別,系統(tǒng)性地擴(kuò)展了動作先驗的覆蓋邊界。

基礎(chǔ)模型以 Qwen-0.5B 為骨干,擴(kuò)展詞表至包含 2,048 個動作 Token(R-VQVAE,4 層殘差量化,每層碼本 512)和音頻 Token(HuBERT K-means 量化)。預(yù)訓(xùn)練任務(wù)為文本-動作生成,所有文本描述統(tǒng)一翻譯為中文,保持語言空間一致性。

核心架構(gòu) plan-then-infill

用對話生成動作的核心在于理解高層語義意圖,模型需要先知道 “做什么動作”,再決定 “如何逐幀執(zhí)行”,這一過程建模是一個規(guī)劃問題。SentiAvatar 采用雙通道并行架構(gòu) plan-then-infill,身體動作與面部表情分離處理,身體動作通道由兩個串聯(lián)階段構(gòu)成。

1. 身體動作通道



第一階段,LLM 語義規(guī)劃器接收行為標(biāo)簽文本和稀疏音頻 Token,輸出稀疏關(guān)鍵幀動作 Token 序列。為支持多輪流式連續(xù)生成,模型以前一句話的最后兩個關(guān)鍵幀音頻 - 動作 Token 對作為上下文前綴,從下一個關(guān)鍵幀位置續(xù)寫,實現(xiàn)無縫跨句過渡。

第二階段,Body Infill Transformer在相鄰關(guān)鍵幀之間填入中間 3 幀,以逐幀 HuBERT 連續(xù)特征(768 維,20FPS)作為條件信號。模型采用 5 幀滑動窗口,首尾幀已知,預(yù)測中間 3 幀(12 個動作 Token)。推理時使用迭代置信度解碼策略(默認(rèn) 6 步),逐步接受高置信度預(yù)測,避免一次性預(yù)測的質(zhì)量退化。

2. 面部表情通道

直接繞過 LLM 規(guī)劃階段,面部表情的動態(tài)與語音韻律高度耦合,無需句子級語義規(guī)劃。Face Infill Transformer結(jié)構(gòu)與 Body Infill Transformer 類似,但操作 2Token / 幀的面部離散表示,直接從音頻特征生成面部 Token,再由 Face R-VQVAE 解碼為 51 維 ARKit 混合形狀系數(shù)序列。

兩通道共享 HuBERT 特征提取,端到端延遲約 0.53 秒生成 6 秒動作,支持無限多輪流式輸出

實時性能:0.3 秒內(nèi)生成 6 秒輸出

FGD/BC 雙刷 SOTA

整體實驗結(jié)果:跨數(shù)據(jù)集均達(dá)最優(yōu)水平

實驗結(jié)果表明,SentiAvatar 在 SuSuInterActs 和 BEATv2 兩個數(shù)據(jù)集上均達(dá)到了當(dāng)前最優(yōu)水平。

  • 在自建 SuSuInterActs 測試集上,SentiAvatar 的文本 - 動作檢索召回率 R@1 達(dá) 43.64%,接近次優(yōu)基線 T2M-GPT(23.12%)的兩倍,F(xiàn)ID 降至 8.912(對比:T2M-GPT 67.78,EMAGE 441.6)。
  • 在跨數(shù)據(jù)集評測 BEATv2 上,SentiAvatar 以 FGD 4.941、BC 8.078 同時刷新兩項指標(biāo)的 SOTA ,超越此前最優(yōu)的 Language-of-Motion(FGD 5.301)和 SynTalker(BC 7.971),驗證了方法的跨語言、跨數(shù)據(jù)集泛化能力。
  • SentiAvatar 在所有生成方法中取得最低 ESD(0.456 秒,真實動作基準(zhǔn)為 0.308 秒)。

注:評測指標(biāo) ESD(Event Sync Distance),是一種用于衡量生成動作與驅(qū)動信號(如語音節(jié)奏)之間時間同步性的客觀評測指標(biāo),它直接反映了數(shù)字人或機器人的動作是否 “對得上拍子”。

定性分析結(jié)果:SentiAvatar 動作生成效果最佳

團(tuán)隊將 SentiAvatar 與幾種 3D 動作生成主流 AI 模型進(jìn)行對比。下圖中每一行展示特定動作與語音的關(guān)鍵幀序列,相同顏色的文字和箭頭代表同一時間,紅色箭頭表示動作錯誤。



多模型對比結(jié)果:SentiAvatar 呈現(xiàn)出最自然的生成效果,動作語義正確,并且在時間上與音頻波形高度對齊。MoMask 能夠從文本標(biāo)簽中部分捕捉動作語義,但由于無法獲取語音信息,生成的動作節(jié)奏較為靜態(tài),且與音頻不存在對應(yīng)關(guān)系。MEAGE 可以生成與音頻同步的動作,但動作較為通用,忽略了標(biāo)簽中指定的語義意圖。AT2M-GPT 盡管能同時接受音頻和文本輸入,但常常會誤解動作語義。HunYuan-Motion 因未基于高質(zhì)量動捕數(shù)據(jù)進(jìn)行訓(xùn)練,生成結(jié)果中存在明顯的身體畸形和不自然姿態(tài),整體表現(xiàn)最差。

消融實驗結(jié)果:驗證核心架構(gòu)各部分不可替代

在架構(gòu)消融實驗中,移除 LLM 規(guī)劃器會導(dǎo)致性能大幅下降:R@1 從 43.64% 驟降至 28.06%,F(xiàn)ID 從 8.912 劣化至 27.567,說明句子語義規(guī)劃至關(guān)重要;移除 Infill Transformer 同樣會導(dǎo)致所有指標(biāo)下降,R@1 降至 27.52%,ESD 惡化至 0.503 秒,因為僅依賴稀疏關(guān)鍵幀會產(chǎn)生不連續(xù)、節(jié)奏不自然的動作。

音頻條件消融進(jìn)一步揭示,Infill Transformer 中的連續(xù) HuBERT 特征是幀級同步的主要驅(qū)動力,而 LLM 中的離散音頻 Token 則更多貢獻(xiàn)于整體動作質(zhì)量和節(jié)律規(guī)劃,驗證了 “粗粒度音頻規(guī)劃+細(xì)粒度音頻對齊” 的協(xié)同效果。

在實驗?zāi)芰ν?,工程落地能力同樣關(guān)鍵。SentiAvatar 實現(xiàn)了 0.3 秒內(nèi)生成 6 秒動作序列,支持無限輪次的流式交互。這意味著數(shù)字人可以在實時對話中持續(xù)生成連貫的動作與表情,無需等待整句結(jié)束再批量處理。

開源與未來

從 "數(shù)字人" 到下一代 "數(shù)字生命"

今天,SentiAvatar 框架、SuSuInterActs 數(shù)據(jù)集及預(yù)訓(xùn)練模型重磅開源,上線 GitHub。SentiPulse 團(tuán)隊邀請全球?qū)?3D 動作生成感興趣的研究機構(gòu)、開發(fā)者,共同突破 3D 數(shù)字人技術(shù)與應(yīng)用的新邊界。

SentiPulse 看到的未來不止于此。當(dāng)前 3D 數(shù)字人的競爭焦點仍在數(shù)字人的視覺形象和基礎(chǔ)語音動作能力,下一步技術(shù)躍遷,是構(gòu)建像人一樣的認(rèn)知和表達(dá)能力:更完整的表達(dá)模型、更統(tǒng)一的人格系統(tǒng)、更長期的交互記憶。3D 數(shù)字人未來的競爭重心,將不再是誰渲染得更真實,而是誰能構(gòu)建更完整的認(rèn)知-表達(dá)閉環(huán)。

當(dāng)數(shù)字人不再只是 "提線木偶",而是能感知語境、理解情緒、主動表達(dá)的交互主體,人機關(guān)系的底層邏輯將被重寫,下一代 “數(shù)字生命” 也即將走進(jìn)現(xiàn)實。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
事關(guān)霍爾木茲!伊朗外長稱未來兩周可通行 “過路費”計劃亦迎關(guān)鍵進(jìn)展

事關(guān)霍爾木茲!伊朗外長稱未來兩周可通行 “過路費”計劃亦迎關(guān)鍵進(jìn)展

財聯(lián)社
2026-04-08 10:49:07
以色列空軍暫未收到停飛命令,大規(guī)模襲擊伊朗重工業(yè)目標(biāo)

以色列空軍暫未收到停飛命令,大規(guī)模襲擊伊朗重工業(yè)目標(biāo)

界面新聞
2026-04-08 07:45:46
跳水運動員全紅嬋涉嫌遭網(wǎng)暴,全紅嬋所在訓(xùn)練中心已向公安機關(guān)報警

跳水運動員全紅嬋涉嫌遭網(wǎng)暴,全紅嬋所在訓(xùn)練中心已向公安機關(guān)報警

界面新聞
2026-04-08 12:41:59
1978年,陳麗華丈夫遲重瑞的留影,這年遲重瑞26歲

1978年,陳麗華丈夫遲重瑞的留影,這年遲重瑞26歲

有態(tài)度網(wǎng)友19uQxk
2026-04-08 07:24:14
伊朗以色列沒?;?>
    </a>
        <h3>
      <a href=21世紀(jì)經(jīng)濟(jì)報道
2026-04-08 11:19:43
全網(wǎng)刷屏!鄭麗文抵滬的一顆扣子,為何讓國人熱淚盈眶

全網(wǎng)刷屏!鄭麗文抵滬的一顆扣子,為何讓國人熱淚盈眶

小陸搞笑日常
2026-04-08 07:29:42
零緩沖!全國一刀切!6月1日起,車主自己去車管所“橫著走”!

零緩沖!全國一刀切!6月1日起,車主自己去車管所“橫著走”!

混沌錄
2026-04-07 22:00:19
江蘇百畝大蔥被哄搶,場面宛如蝗蟲過境,戶主哭訴太慘了,已報警

江蘇百畝大蔥被哄搶,場面宛如蝗蟲過境,戶主哭訴太慘了,已報警

眼光很亮
2026-04-07 13:53:06
特朗普怒斥CNN發(fā)布虛假伊朗聲明,已啟動刑事調(diào)查

特朗普怒斥CNN發(fā)布虛假伊朗聲明,已啟動刑事調(diào)查

不掉線電波
2026-04-08 09:30:40
特朗普的一個更大麻煩,來了……

特朗普的一個更大麻煩,來了……

補壹刀
2026-04-08 09:45:35
在迪拜工作的華人感慨:別信媒體吹牛,迪拜就相當(dāng)于我國二線城市

在迪拜工作的華人感慨:別信媒體吹牛,迪拜就相當(dāng)于我國二線城市

共工之錨
2026-04-08 00:17:30
張雪機車LOGO被指抄襲,張雪曾表示花了40萬元,設(shè)計公司回應(yīng)

張雪機車LOGO被指抄襲,張雪曾表示花了40萬元,設(shè)計公司回應(yīng)

極目新聞
2026-04-08 12:16:43
日本餐飲巨頭食其家創(chuàng)始人心梗去世,終年77歲

日本餐飲巨頭食其家創(chuàng)始人心梗去世,終年77歲

紅星新聞
2026-04-07 13:24:07
中俄反對涉霍爾木茲海峽決議草案,草案未獲通過;伊朗代表:感謝中俄!

中俄反對涉霍爾木茲海峽決議草案,草案未獲通過;伊朗代表:感謝中俄!

大風(fēng)新聞
2026-04-08 11:03:05
網(wǎng)傳全紅嬋遭微信群長期網(wǎng)暴,若屬實,體育管理部門責(zé)無旁貸

網(wǎng)傳全紅嬋遭微信群長期網(wǎng)暴,若屬實,體育管理部門責(zé)無旁貸

胡言炫語
2026-04-08 02:39:28
伊拉克民兵武裝宣布停火兩周

新華社
2026-04-08 13:45:16

巴基斯坦怒了:巴基斯坦不是卡塔爾,動我們的人,打到你服!

巴基斯坦怒了:巴基斯坦不是卡塔爾,動我們的人,打到你服!

人生錄
2026-04-08 00:37:17
“一盒只加一滴”?北冰洋NFC葡萄汁添加量僅0.005%,公司回應(yīng):產(chǎn)品沒問題

“一盒只加一滴”?北冰洋NFC葡萄汁添加量僅0.005%,公司回應(yīng):產(chǎn)品沒問題

紅星資本局
2026-04-07 20:40:07
深圳地鐵突然火了!網(wǎng)友:已加入“必吃榜”

深圳地鐵突然火了!網(wǎng)友:已加入“必吃榜”

深圳晚報
2026-04-08 12:58:04
送勇士鎖定第十!快船力克獨行俠小卡34分創(chuàng)紀(jì)錄 弗拉格25+9

送勇士鎖定第十!快船力克獨行俠小卡34分創(chuàng)紀(jì)錄 弗拉格25+9

醉臥浮生
2026-04-08 12:57:56
2026-04-08 14:04:50
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12709文章數(shù) 142618關(guān)注度
往期回顧 全部

科技要聞

造出地表最強AI,卻死活不給你用!

頭條要聞

裝修工強奸未遂殺雇主 死者兒子跟"媽"聊天發(fā)現(xiàn)不對勁

頭條要聞

裝修工強奸未遂殺雇主 死者兒子跟"媽"聊天發(fā)現(xiàn)不對勁

體育要聞

皇馬1.5億巨星浪費超級單刀 丟球攤手抱怨

娛樂要聞

楊穎鄧超低調(diào)現(xiàn)身觀眾席 支持陳赫話劇

財經(jīng)要聞

特朗普同意停火兩周 伊朗:接受?;鹛嶙h

汽車要聞

5門5座/新復(fù)古造型 繽果Pro將于4月14日開啟預(yù)售

態(tài)度原創(chuàng)

時尚
游戲
藝術(shù)
親子
數(shù)碼

闊腿褲失寵了?今年這幾條褲子最時髦!

國產(chǎn)新高度!實機展示“絲襪”質(zhì)感 還能拉扯?

藝術(shù)要聞

齊白石『凌波仙子』

親子要聞

我會多種動物語言!

數(shù)碼要聞

小米REDMI K Pad 2本月發(fā)布:搭載9100mAh電池、天璣9500處理器

無障礙瀏覽 進(jìn)入關(guān)懷版