国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

3D版ControlNet突破多模態(tài)控制,實(shí)現(xiàn)高精度3D資產(chǎn)生成

0
分享至



近年來,3D 原生生成模型在游戲、影視和設(shè)計(jì)領(lǐng)域的資產(chǎn)創(chuàng)建中展現(xiàn)出強(qiáng)大潛力。然而,大多數(shù)現(xiàn)有方法仍主要依賴圖像作為條件輸入,缺乏細(xì)粒度、多模態(tài)的控制能力,限制了其在實(shí)際生產(chǎn)流程中的應(yīng)用。

為解決這一瓶頸,騰訊混元團(tuán)隊(duì)推出了混元 3D-Omni,一個(gè)基于 Hunyuan3D 2.1 構(gòu)建的統(tǒng)一多模態(tài)可控 3D 生成框架。該框架不僅支持圖像作為輸入,還可接受點(diǎn)云、體素、邊界框與骨骼姿態(tài)等多種控制信號(hào),實(shí)現(xiàn)對生成物體幾何結(jié)構(gòu)、拓?fù)渑c姿態(tài)的精細(xì)控制。



  • 技術(shù)報(bào)告:Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
  • 研發(fā)團(tuán)隊(duì):Tencent Hunyuan3D Team, 2025.
  • 混元 3D 主頁:https://3d.hunyuan.tencent.com
  • 代碼下載:https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni
  • 權(quán)重下載:https://huggingface.co/tencent/Hunyuan3D-Omni
  • 報(bào)告鏈接:https://arxiv.org/pdf/2509.21245

一、背景與挑戰(zhàn)

隨著 3D 數(shù)據(jù)規(guī)模不斷擴(kuò)大,基于原生 3D 表示(如點(diǎn)云、體素)的生成模型逐漸成為主流。這類方法通常結(jié)合 3D 變分自編碼器(VAE)與潛在擴(kuò)散模型(LDM),能夠高效生成高質(zhì)量 3D 模型。例如,Hunyuan3D 2.1 借助 VecSet 表示和 Diffusion Transformer(DiT),實(shí)現(xiàn)了從單圖像到 3D 模型的快速生成。

然而,僅依賴圖像輸入存在諸多局限:

  • 單視角圖像易受圖像遮擋、光照或視角干擾,生成結(jié)果缺乏幾何準(zhǔn)確性;
  • 難以精細(xì)控制生成對象的比例、姿態(tài)和結(jié)構(gòu)細(xì)節(jié);
  • 無法適應(yīng)多模態(tài)輸入(如深度圖、LiDAR 點(diǎn)云、骨架動(dòng)作等),限制了在實(shí)際場景中的使用。

二、Hunyuan3D Omni 的核心創(chuàng)新



圖 1:混元 3D-Omni 可支持多種模態(tài)作為控制條件,實(shí)現(xiàn)精細(xì)化 3D 資產(chǎn)生成

混元 3D-Omni 是一個(gè)支持多種控制條件的 3D 資產(chǎn)創(chuàng)建系統(tǒng)。它通過兩個(gè)關(guān)鍵性的創(chuàng)新來推動(dòng)尖端 3D 生成技術(shù)的發(fā)展: 其一,采用輕量化的統(tǒng)一控制編碼器,實(shí)現(xiàn)多種控制條件的統(tǒng)一支持;其二,引入漸進(jìn)式難度感知訓(xùn)練策略,提升模型對多模態(tài)融合的魯棒性。

作為業(yè)界首個(gè)統(tǒng)一多種條件控制的 3D 生成模型,混元 3D-Omni 可融合多達(dá)四類控制條件,顯著提升生成結(jié)果的可控性及質(zhì)量。同時(shí)該系統(tǒng)將完整開放推理代碼以及權(quán)重,加速可控 3D 生成模型在學(xué)術(shù)領(lǐng)域研究以及工業(yè)落地部署。創(chuàng)新點(diǎn)總結(jié)如下:

1. 多模態(tài)控制信號(hào)統(tǒng)一處理

Hunyuan3D-Omni 引入了四種控制信號(hào):

  • 骨骼姿態(tài)(Skeleton):用于角色動(dòng)作控制;
  • 邊界框(Bounding Box):調(diào)整生成對象在標(biāo)準(zhǔn)空間中的長寬高比例;
  • 點(diǎn)云(Point Cloud):提供幾何結(jié)構(gòu)先驗(yàn),增強(qiáng)細(xì)節(jié)還原;
  • 體素(Voxel):稀疏幾何提示,改善比例與結(jié)構(gòu)一致性。

2. 輕量化統(tǒng)一控制編碼器

所有控制信號(hào)被統(tǒng)一表示為點(diǎn)云形式,并通過一個(gè)共享的控制編碼器提取特征。該編碼器對不同模態(tài)條件進(jìn)行區(qū)分,避免控制目標(biāo)之間的混淆。最終的控制特征與圖像 DINO 特征拼接,作為 DiT 的聯(lián)合輸入。

3. 漸進(jìn)式難度感知訓(xùn)練策略

在訓(xùn)練過程中,模型隨機(jī)選擇一種控制條件,并偏向采樣難度較高的信號(hào)(如骨骼姿態(tài)),同時(shí)降低簡單信號(hào)(如點(diǎn)云)的權(quán)重。這種策略提升了模型對多模態(tài)融合的魯棒性,也能優(yōu)雅處理輸入缺失的情況。

三、關(guān)鍵實(shí)現(xiàn)方法



圖 2:混元 3D-Omni 模型框架圖

混元 3D-Omni 的模型架構(gòu)建立在混元 3D 2.1的基礎(chǔ)之上,通過引入統(tǒng)一的多模態(tài)控制編碼機(jī)制,實(shí)現(xiàn)了對點(diǎn)云、體素、邊界框和骨骼等多種控制信號(hào)的高效融合與處理。其整體框架延續(xù)了基于 VecSet 表示的 3D VAE 與 3D 擴(kuò)散模型結(jié)合的主干結(jié)構(gòu),但在條件控制機(jī)制上進(jìn)行了重要?jiǎng)?chuàng)新。

模型首先使用 3D VAE 將輸入點(diǎn)云 (含坐標(biāo)和法向信息)編碼為潛在表示。解碼器則從潛在表示重建符號(hào)距離函數(shù)(SDF)場,并通過等值面提取得到顯式網(wǎng)格輸出。在擴(kuò)散階段,模型采用基于流匹配的 3D Latent Diffusion Model(LDM)。

混元 3D-Omni 的核心創(chuàng)新在于設(shè)計(jì)了統(tǒng)一控制編碼器(Unified Control Encoder),用于處理四種不同類型的控制信號(hào):

  1. 骨骼條件控制采用 3D 骨骼起點(diǎn)坐標(biāo)表示姿態(tài),通過隨機(jī)采樣不同動(dòng)作幀構(gòu)建訓(xùn)練對,實(shí)現(xiàn)對生成模型姿態(tài)的靈活控制;
  2. 邊界框條件將長寬比例轉(zhuǎn)化為標(biāo)準(zhǔn)空間中的八個(gè)頂點(diǎn)坐標(biāo),通過對渲染圖像或點(diǎn)云施加隨機(jī)擾動(dòng),提升模型對比例控制的泛化能力;
  3. 點(diǎn)云支持多種輸入來源(如深度相機(jī)、LiDAR 或重建模型),并引入隨機(jī)丟棄與噪聲擾動(dòng)以模擬真實(shí)場景;
  4. 體素則通過將點(diǎn)云量化到 [0,16]^3 網(wǎng)格中,再映射至 [-1,1]^3 空間,形成稀疏幾何提示。

所有控制信號(hào)均被統(tǒng)一表示為點(diǎn)云形式。編碼器首先對輸入點(diǎn)云進(jìn)行位置編碼,然后通過線性層提取特征,并疊加可學(xué)習(xí)的模態(tài)標(biāo)識(shí)嵌入以區(qū)分不同控制類型,最終控制特征與圖像特征拼接形成聯(lián)合條件,輸入至 DiT 模塊參與去噪過程。

為提升模型對多模態(tài)信號(hào)的魯棒性,訓(xùn)練過程中采用難度感知采樣策略:1)每批次隨機(jī)選擇一種控制模態(tài);2)對難度較高的信號(hào)(如骨骼姿態(tài))賦予更高采樣概率,對簡單信號(hào)(如點(diǎn)云)進(jìn)行降權(quán)重處理;3)支持部分控制信號(hào)缺失的容錯(cuò)訓(xùn)練。

四、實(shí)驗(yàn)結(jié)果



圖 3:骨骼控制人物姿態(tài)

骨骼控制條件的核心目標(biāo)在于調(diào)整輸入圖像的姿態(tài)特征,該功能主要應(yīng)用于角色類物體的生成過程中。如圖 3 所示,在以骨骼條件作為額外輸入的前提下,我們的 Omni 模型能夠生成高質(zhì)量且與目標(biāo)姿態(tài)精確對應(yīng)的角色幾何形體,包括 A 姿態(tài)、單手抬起姿態(tài)以及雙手上舉姿態(tài)等多種姿態(tài)。我們采用了多種風(fēng)格的角色圖像作為條件輸入,其中包括從 3D 角色數(shù)據(jù)渲染得到的圖像,以及通過生成式模型合成的圖像。

值得注意的是,無論輸入風(fēng)格如何變化,我們的 Omni 模型均能持續(xù)生成具有精細(xì)幾何細(xì)節(jié)的人體網(wǎng)格,且生成結(jié)果與輸入骨架保持嚴(yán)格對齊,未出現(xiàn)任何畸變。



圖 4:邊界框控制不同比例



圖 5:邊界框控制解決單圖生成 “紙片” 問題

邊界框控制信號(hào)能夠自由調(diào)節(jié)生成物體的長寬比例。如圖 4 所示,在相同圖像條件下,不同尺寸的邊界框成功調(diào)控了生成模型的尺寸。需要特別指出的是,這種尺寸調(diào)控并非簡單的線性拉伸:當(dāng)沙發(fā)長度增加時(shí),模型會(huì)自動(dòng)生成額外的支撐腿結(jié)構(gòu);凱旋門模型在比例調(diào)整后同樣保持合理的建筑形態(tài)。這證明邊界框控制能觸發(fā)生成網(wǎng)絡(luò)的智能幾何重構(gòu)能力。

更為重要的是,如圖 5 的對比實(shí)驗(yàn)所示,當(dāng)僅用單視角圖像作為條件生成 “紙片物體” 這類失敗情況下,注入邊界框信號(hào)能夠提供線索,成功生成正確的 3D 資產(chǎn)。



圖 6:點(diǎn)云控制補(bǔ)充三維信息

針對點(diǎn)云控制,我們展示了兩種設(shè)置下的生成結(jié)果:僅使用圖像輸入,以及圖像結(jié)合點(diǎn)云控制輸入。對于后者,我們進(jìn)一步考慮了三種點(diǎn)云輸入類型:完整點(diǎn)云、深度圖像生成的表面點(diǎn)云以及掃描獲得的噪聲點(diǎn)云。

在前兩個(gè)案例中可以看到,提供完整點(diǎn)云作為控制信號(hào)能有效解決單視圖輸入固有的幾何歧義問題,并成功還原被遮擋的內(nèi)部結(jié)構(gòu)。在第三和第四個(gè)案例中,通過深度圖獲取的表面點(diǎn)云同樣減輕了單視圖歧義,確保生成幾何在尺度上與真實(shí)物體精確對齊。在第五個(gè)案例中,即使輸入來自掃描的噪聲表面點(diǎn)云,生成幾何與原始物體的對齊效果仍明顯優(yōu)于僅使用圖像的基線方法,有效解決了圖像編碼器容易忽略真實(shí)物體姿態(tài)的問題。

綜上所述,一旦提供點(diǎn)云輸入,我們的 Omni 模型能夠有效將生成幾何與真實(shí)幾何結(jié)構(gòu)對齊,即使是部分點(diǎn)云也能作為提升 3D 幾何生成質(zhì)量的重要線索,顯著緩解了單視圖歧義。



圖 7:體素控制物體結(jié)構(gòu)

與點(diǎn)云條件相似,體素條件通過提供稀疏幾何線索,有效解決單張圖像輸入固有的歧義性問題。如圖 7 所示,在第一個(gè)和第五個(gè)案例中,額外的體素控制條件確保生成物體在尺度上與真實(shí)幾何結(jié)構(gòu)精確對齊。案例 2、3、4 進(jìn)一步展示了體素條件在恢復(fù)精細(xì)幾何細(xì)節(jié)方面的顯著效果:成功重建盾牌的平整表面、精準(zhǔn)捕捉鳥類翅膀的形態(tài)特征,以及高度還原杯子的低多邊形風(fēng)格幾何結(jié)構(gòu)。

這些實(shí)例充分證明,引入體素條件后,模型能夠同時(shí)準(zhǔn)確重建物體的比例關(guān)系和細(xì)節(jié)特征,從而全面提升生成質(zhì)量。









五、總結(jié)

混元 3D-Omni 作為一個(gè)輕量級(jí)、多模態(tài)、可控的 3D 生成框架,在不破壞基礎(chǔ)模型能力的前提下,通過統(tǒng)一控制編碼器整合多種幾何與控制信號(hào)。

實(shí)驗(yàn)表明,該框架能夠顯著提升生成準(zhǔn)確性、支持幾何感知的變換,并增強(qiáng)生產(chǎn)流程的穩(wěn)定性與魯棒性。這項(xiàng)研究不僅推動(dòng)了 3D 生成模型的可控性與實(shí)用性,也為未來融合多模態(tài)信號(hào)的通用 3D 生成奠定了基礎(chǔ)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
搞笑男朋友冷笑話,我交了個(gè)男朋友一共領(lǐng)回家五次,第一次回去我媽給包了餃子吃第二次回去我媽給做了!

搞笑男朋友冷笑話,我交了個(gè)男朋友一共領(lǐng)回家五次,第一次回去我媽給包了餃子吃第二次回去我媽給做了!

天天明星
2025-12-19 15:01:31
“阿詩瑪”楊麗坤:精神失常后生下兩個(gè)兒子,丈夫用一生懷念她

“阿詩瑪”楊麗坤:精神失常后生下兩個(gè)兒子,丈夫用一生懷念她

小熊侃史
2025-12-19 11:04:19
北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來

北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來

小哥很OK
2025-12-12 14:33:01
邢自強(qiáng):如果房地產(chǎn)不實(shí)現(xiàn)止跌回穩(wěn),很難打破消費(fèi)疲軟等問題

邢自強(qiáng):如果房地產(chǎn)不實(shí)現(xiàn)止跌回穩(wěn),很難打破消費(fèi)疲軟等問題

新浪財(cái)經(jīng)
2025-12-18 15:48:03
中國損失70噸稀金,26人被判刑!要和美國算總賬,取消13萬噸訂單

中國損失70噸稀金,26人被判刑!要和美國算總賬,取消13萬噸訂單

博覽歷史
2025-12-19 18:59:11
大部分人的存款都將歸零。

大部分人的存款都將歸零。

愛吃糖的貓cat
2025-12-20 18:11:26
終于有肉販肯說實(shí)話:今年豬肉這么便宜,為啥做臘腸的反而少了?

終于有肉販肯說實(shí)話:今年豬肉這么便宜,為啥做臘腸的反而少了?

曉肂愛八卦
2025-12-19 18:02:20
每年冬天杭州都有不少人中招,劇痛難忍……盡早去正規(guī)醫(yī)院!

每年冬天杭州都有不少人中招,劇痛難忍……盡早去正規(guī)醫(yī)院!

環(huán)球網(wǎng)資訊
2025-12-20 14:38:51
這是有史以來最大的市場泡沫嗎?

這是有史以來最大的市場泡沫嗎?

常滌非觀點(diǎn)
2025-12-21 07:16:04
泰國轟炸柬埔寨電詐園區(qū),中國民眾拉橫幅表示感謝

泰國轟炸柬埔寨電詐園區(qū),中國民眾拉橫幅表示感謝

深度報(bào)
2025-12-20 20:50:45
笑死!老一輩總能精準(zhǔn)找到最貴的隨手用,網(wǎng)友:簡直一模一樣

笑死!老一輩總能精準(zhǔn)找到最貴的隨手用,網(wǎng)友:簡直一模一樣

夜深愛雜談
2025-12-19 15:40:30
又一個(gè)省會(huì)城市!辦了證的網(wǎng)約車,65%不活躍了!

又一個(gè)省會(huì)城市!辦了證的網(wǎng)約車,65%不活躍了!

網(wǎng)約車焦點(diǎn)
2025-12-19 17:27:38
不要忙著打日本,中國應(yīng)該去全國各地的武器倉庫突擊大檢查!

不要忙著打日本,中國應(yīng)該去全國各地的武器倉庫突擊大檢查!

時(shí)分秒說
2025-12-09 12:11:20
特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會(huì)執(zhí)行死刑的

特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會(huì)執(zhí)行死刑的

博覽歷史
2025-07-21 17:59:30
CBA與抖音直播版權(quán)費(fèi)曝光!并不是楊毅說的3千萬,遠(yuǎn)超這個(gè)數(shù)

CBA與抖音直播版權(quán)費(fèi)曝光!并不是楊毅說的3千萬,遠(yuǎn)超這個(gè)數(shù)

體育哲人
2025-12-20 14:10:28
商業(yè)航天:低軌組網(wǎng)引爆千億賽道 2只核心標(biāo)的硬核卡位

商業(yè)航天:低軌組網(wǎng)引爆千億賽道 2只核心標(biāo)的硬核卡位

風(fēng)風(fēng)順
2025-12-21 05:00:05
拉亞:大家在防守端做得非常出色,幾乎沒有給對手太多機(jī)會(huì)

拉亞:大家在防守端做得非常出色,幾乎沒有給對手太多機(jī)會(huì)

懂球帝
2025-12-21 07:41:58
脾氣大,本事更大的三個(gè)星座,氣場十足,沒有人敢跟他們對著干

脾氣大,本事更大的三個(gè)星座,氣場十足,沒有人敢跟他們對著干

知書夜話
2025-12-21 05:48:01
絕了!臺(tái)灣頂級(jí)辣媽!果然是深藏不露

絕了!臺(tái)灣頂級(jí)辣媽!果然是深藏不露

吃瓜黨二號(hào)頭目
2025-12-08 10:12:52
曾仕強(qiáng)教授:2026年是一道大坎,很多人恐怕?lián)尾贿^去

曾仕強(qiáng)教授:2026年是一道大坎,很多人恐怕?lián)尾贿^去

心靈短笛
2025-12-03 10:08:19
2025-12-21 08:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

媒體:南博獲捐的137件書畫中 《江南春》算不上頂級(jí)

頭條要聞

媒體:南博獲捐的137件書畫中 《江南春》算不上頂級(jí)

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

時(shí)尚
本地
家居
健康
公開課

最顯腿細(xì)的騎士靴,誰穿誰是腿精

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

家居要聞

高端私宅 理想隱居圣地

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版