国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

MeshCoder:大語言模型驅(qū)動(dòng),點(diǎn)云到可編輯結(jié)構(gòu)化物體代碼的革新

0
分享至



生成式 AI 的浪潮賦予了機(jī)器無盡的創(chuàng)造力,我們已親眼見證它在文字與圖像世界 “點(diǎn)石成金” 的魔力。然而,當(dāng)這股浪潮涌向更復(fù)雜的三維空間,挑戰(zhàn)也隨之升級(jí)。過去的 3D 生成 AI 如孩童堆積木,成果粗糙模糊;如今,它渴望成長為一名 “數(shù)字建筑師”,去建造結(jié)構(gòu)精巧、可被編輯改造的虛擬世界。

為了實(shí)現(xiàn)這一目標(biāo),一種流行的方法是讓 AI 學(xué)習(xí)定義 “內(nèi)外” 的邊界來隱式地塑造物體。這種方法雖能生成外形平滑的物體,但其成果好比一座 “固化” 的雕塑 —— 一個(gè)不可分割的靜態(tài)外殼,很難像玩樂高一樣拆解重組。對(duì)于藝術(shù)家而言,這座雕塑的表面覆蓋著一張雜亂的 “漁網(wǎng)”(無序三角網(wǎng)格),而非規(guī)整的 “布料”,任何微調(diào)都如同對(duì)整片網(wǎng)進(jìn)行重新編織,極其困難,難以融入專業(yè)的創(chuàng)作流程。

受到以上啟發(fā),我們不再滿足于生成雜亂的網(wǎng)格,而是渴望一種更原生、更結(jié)構(gòu)化、更符合設(shè)計(jì)師與工程師直覺的表征方式 —— 代碼。如何讓模型像程序員一樣,用邏輯和參數(shù)構(gòu)建三維世界?如何讓生成的物體不僅形似,更能被理解、被編輯、被二次創(chuàng)作?帶著這些思考,我們團(tuán)隊(duì)推出了MeshCoder。它是一條探索 3D 程序化生成的新路徑,其核心思想是訓(xùn)練一個(gè)強(qiáng)大的多模態(tài)模型,直接將三維輸入(如點(diǎn)云)翻譯成結(jié)構(gòu)化、可執(zhí)行的 Blender Python 代碼。

我們工作的亮點(diǎn)在于,MeshCoder 生成的不是一個(gè) “死” 的模型,而是一套 “活” 的程序。它具有以下鮮明優(yōu)勢(shì):

1.分零部件生成:如下視頻所示,MeshCoder 能理解物體的語義結(jié)構(gòu),將椅子、桌子等自動(dòng)分解為椅背、椅腿、桌面等獨(dú)立部件進(jìn)行代碼生成,邏輯清晰。

2.拓?fù)淞己玫乃倪吤?/strong>:如下圖所示,MeshCoder 生成的代碼直接構(gòu)建出高質(zhì)量的四邊面(Quad Mesh)網(wǎng)格,這對(duì)于后續(xù)的編輯,展 UV 上材質(zhì)至關(guān)重要。



下圖是使用傳統(tǒng)常用的 Marching Cube 算法從分界面中提取網(wǎng)格的結(jié)果,可以看到得到的是雜亂無序的三角面網(wǎng)格。與這些網(wǎng)格相比,上圖中 MeshCoder 得到的 Mesh 具有規(guī)整的四邊面。



3.易于理解和編輯:如下圖所示,MeshCoder 生成的 Python 代碼具備高可讀性,用戶可以通過修改參數(shù)(如尺寸、位置)或函數(shù)調(diào)用,輕松實(shí)現(xiàn)對(duì)三維模型的編輯。



4.可控的網(wǎng)格密度:如下圖所示,通過調(diào)整代碼中的分辨率等參數(shù),用戶可以自由控制生成網(wǎng)格的精細(xì)程度,在細(xì)節(jié)與性能之間找到平衡。



我們相信,這只是探索的開始。我們選擇將 MeshCoder 開源,衷心期待它能引發(fā)更多有價(jià)值的討論,并希望能與社區(qū)的研究者一起,繼續(xù)推動(dòng)三維生成技術(shù)的演進(jìn)。



  • 論文鏈接:https://huggingface.co/papers/2508.14879
  • 項(xiàng)目網(wǎng)站:https://daibingquan.github.io/MeshCoder
  • GitHub 鏈接:https://github.com/InternRobotics/MeshCoder
  • 模型鏈接:https://huggingface.co/InternRobotics/MeshCoder
  • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/InternRobotics/MeshCoderDataset

我們是如何做到的?

MeshCoder 的實(shí)現(xiàn)路徑清晰,其核心是一個(gè)強(qiáng)大的代碼庫與一套創(chuàng)新的數(shù)據(jù)構(gòu)建流程。

第一步:構(gòu)建零部件數(shù)據(jù)集并訓(xùn)練零件代碼推理模型

萬丈高樓平地起,我們首先需要讓模型具備理解基礎(chǔ)幾何的能力。

  • 專屬工具:開發(fā) Blender Python API
  • MeshCoder 的基石是我們?yōu)?Blender 定制開發(fā)的一套簡潔且功能強(qiáng)大的 Python API。(Blender,作為一款開源且功能強(qiáng)大的三維計(jì)算機(jī)圖形軟件,為我們提供了堅(jiān)實(shí)的程序化建模環(huán)境。)這套 API 封裝了從創(chuàng)建基礎(chǔ)圖元到執(zhí)行復(fù)雜布爾運(yùn)算、陣列等一系列高級(jí)建模操作,讓用簡潔的代碼構(gòu)建復(fù)雜幾何體成為可能。
  • 海量數(shù)據(jù):構(gòu)建千萬級(jí)零部件數(shù)據(jù)集
  • 我們利用這套強(qiáng)大的 API,通過參數(shù)化隨機(jī)采樣的方式,程序化地生成了海量的、由簡單到復(fù)雜的幾何零部件,最終構(gòu)建了一個(gè)千萬級(jí)別、圖文并茂的 “零部件代碼” 配對(duì)數(shù)據(jù)集。下圖是我們零部件數(shù)據(jù)集的一些樣例。



  • 模型設(shè)計(jì)與訓(xùn)練:從點(diǎn)云到代碼的初代模型
  • 基于這個(gè)龐大的零部件數(shù)據(jù)集,我們訓(xùn)練了一個(gè)強(qiáng)大的零件代碼推理模型。該模型的核心設(shè)計(jì)在于:首先通過一個(gè)形狀編碼器,從輸入的零部件點(diǎn)云中抽取出固定長度的詞元(Token)特征;然后,一個(gè)大型語言模型(LLM)會(huì)接收這些特征,并自回歸地生成能夠重建該零部件的結(jié)構(gòu)化代碼。此步驟完成后,我們的初代模型就具備了將任意單個(gè)部件的點(diǎn)云精準(zhǔn)翻譯為 Blender 代碼的能力。模型的架構(gòu)可以參見第二步的圖片。

第二步:構(gòu)建物體數(shù)據(jù)集并訓(xùn)練最終物體代碼推理模型

在初代模型掌握了 “識(shí)部件、懂代碼” 的技能后,我們利用它以及規(guī)則來 “教會(huì)” 最終模型如何理解和搭建完整的復(fù)雜物體。

  • 數(shù)據(jù)升級(jí):構(gòu)建百萬級(jí) “物體 - 代碼” 數(shù)據(jù)集
  • 高質(zhì)量的數(shù)據(jù)是訓(xùn)練強(qiáng)大模型的燃料。我們首先利用 Infinigen Indoor 生成模型,生成了一個(gè)百萬級(jí)別的、可被拆分為零部件的復(fù)雜物體數(shù)據(jù)集。接著,我們調(diào)用第一步訓(xùn)練好的初代模型,為每一個(gè)物體的每一個(gè)零部件自動(dòng)生成其對(duì)應(yīng)的代碼。最后,通過精心設(shè)計(jì)的規(guī)則,我們將所有部件的代碼與其在物體中的原始位置信息相結(jié)合,“組裝” 成一段完整的、帶有豐富語義信息的物體級(jí)代碼。下圖以椅子為例展示了這個(gè)過程。



  • 最終訓(xùn)練:得到可重建物體的 MeshCoder
  • 在這個(gè)百萬規(guī)模的 “物體 - 代碼” 大規(guī)模數(shù)據(jù)集上,我們訓(xùn)練出了最終的 MeshCoder 模型。通過學(xué)習(xí)這些完整的物體代碼,MeshCoder 不僅繼承了對(duì)基礎(chǔ)部件的理解,更學(xué)會(huì)了物體不同部件間的空間與語義關(guān)系,使其最終具備了從整體上理解復(fù)雜物體并生成完整、結(jié)構(gòu)化代碼的強(qiáng)大能力。下圖是 MeshCoder 從物體點(diǎn)云推理出代碼的 pipeline。



下圖是形狀編碼器 (Shape Tokenizer) 的網(wǎng)絡(luò)結(jié)構(gòu)。



強(qiáng)大的重建、編輯與理解能力

MeshCoder 的真正實(shí)力,不僅在于創(chuàng)新的理念,更在于堅(jiān)實(shí)的實(shí)驗(yàn)數(shù)據(jù)。我們?cè)诙鄠€(gè)維度上對(duì)其進(jìn)行了嚴(yán)格的測(cè)試,結(jié)果證明了其卓越的性能。

一、高保真重建:精度大幅領(lǐng)先

我們將 MeshCoder 與當(dāng)前的兩種 Shape-to-Code 方法(Shape2Prog 和 PLAD)在Infinigen Indoor數(shù)據(jù)集上進(jìn)行了比較。該數(shù)據(jù)集涵蓋了從椅子、臺(tái)燈到浴缸、馬桶等 41 個(gè)常見室內(nèi)物體類別,極具挑戰(zhàn)性。

  • 在精度上超越了基準(zhǔn)方法:我們使用 “Chamfer 距離 (CD)” 和 “交并比 (IoU)” 這兩個(gè)核心指標(biāo)來衡量重建的準(zhǔn)確度。數(shù)據(jù)顯示,MeshCoder 在幾乎所有類別上都取得了數(shù)量級(jí)的領(lǐng)先。例如,在 “椅子 (Chair)” 類別中,我們的 CD 誤差僅為(越小越好),遠(yuǎn)低于 PLAD 的 2.26 和 Shape2Prog 的 1.30。而在整體平均 IoU(越大越好)上,MeshCoder 達(dá)到了的86.75%,而兩個(gè)對(duì)比方法分別只有 67.62% 和 45.03%。





  • 能夠還原復(fù)雜結(jié)構(gòu):從以下對(duì)比圖可以直觀地看到,對(duì)于門上的扇葉、窗戶的格柵、沙發(fā)的扶手等復(fù)雜結(jié)構(gòu),傳統(tǒng)方法往往會(huì)產(chǎn)生模糊、粘連甚至錯(cuò)誤的幾何形狀,而 MeshCoder 能夠精準(zhǔn)地重建出每一個(gè)獨(dú)立的部件和清晰的邊界,效果與原始三維模型(Ground Truth)高度一致。





二、代碼化編輯:打開創(chuàng)造力的窗口

代碼化編輯是 MeshCoder 最重要的能力之一。我們將 3D 模型變成了可讀、可改的程序代碼,賦予了用戶前所未有的控制自由。這不僅僅是簡單的參數(shù)調(diào)整,而是涵蓋了幾何與拓?fù)涞纳疃染庉嫞?/p>

  • 幾何編輯(改變形狀):想象一下,想把一張方桌變成圓桌,您需要做什么?在傳統(tǒng)流程中,這可能需要復(fù)雜的建模操作。而在 MeshCoder 中,如下圖所示,您只需在生成的代碼里,將創(chuàng)建桌面的函數(shù) create_primitive 的 primitive_type 參數(shù)從 'cube' 改為 'cylinder' 即可。



  • 拓?fù)渚庉嫞ǜ淖儾季€):需要一個(gè)更精細(xì)或更粗糙的模型?沒問題。通過修改代碼中的 resolution 參數(shù),您可以輕松控制生成網(wǎng)格的密度。從低分辨率的快速原型,到高分辨率的精細(xì)模型,如下圖所示,通過改動(dòng)一個(gè)數(shù)字的方式,我們就可以讓 3D 資產(chǎn)適應(yīng)不同場(chǎng)景的需求,在性能與精度之間找到平衡。



三、賦能三維理解:利于大模型理解形狀

MeshCoder 生成的代碼不僅僅是指令,它本身就是一種富含語義的結(jié)構(gòu)化知識(shí)。當(dāng)我們將這些代碼以及對(duì)使用部 Blender Python API 的文檔 “喂” 給像 GPT-4 這樣的大型語言模型時(shí),奇妙的事情發(fā)生了:

  • GPT-4 看懂了 3D 模型:如下圖所示,我們向 GPT-4 展示了一段由 MeshCoder 生成的辦公椅代碼以及對(duì)應(yīng)代碼功能的描述,然后用自然語言提問:“這把椅子有幾個(gè)輪子?” GPT-4 通過分析代碼中 part_1: wheel 等注釋和 create_primitive (name='wheel_1', ...) 等函數(shù),準(zhǔn)確地回答出:“4 個(gè)”。



  • 實(shí)現(xiàn)復(fù)雜的結(jié)構(gòu)推理:如下圖所示,我們進(jìn)一步提問,關(guān)于洗碗機(jī)的內(nèi)部結(jié)構(gòu)。GPT-4 同樣通過閱讀代碼,清晰地總結(jié)出:“這是一個(gè)洗碗機(jī),主體由多個(gè)立方體構(gòu)成,內(nèi)部有用于放置碗碟的架子,架子由矩形和圓柱體陣列構(gòu)成……”。并且,代碼在推斷物體的尺寸上是有明顯的優(yōu)勢(shì)的。我們分別將洗碗機(jī)的代碼和圖片輸入到 GPT-4 中,讓 GPT-4 給定洗碗機(jī)的高度來推測(cè)洗碗機(jī)的寬度時(shí)。我們發(fā)現(xiàn),GPT-4 很難只從圖片中推斷得到準(zhǔn)確的尺寸,但是當(dāng)有代碼作為輸入時(shí),GPT-4 可以輕松根據(jù)代碼中的 scale 參數(shù)來判斷洗碗機(jī)的寬度。







這個(gè)實(shí)驗(yàn)有力地證明,MeshCoder 搭建了一座橋梁,將物體的形狀信息以及尺寸信息提取成有語義的描述提取到代碼中,極大的幫助了大語言模型理解三維世界,通過閱讀結(jié)構(gòu)化代碼來 “理解” 三維物體的組成、部件關(guān)系乃至功能屬性,為 AI 的 3D 認(rèn)知能力開辟了激動(dòng)人心的新方向。

局限性與未來展望

MeshCoder 是我們對(duì) 3D 程序化生成模型的一次深刻探索。它證明了,通過代碼化的方式來表征和生成 3D 世界是一條充滿潛力且極具價(jià)值的道路。當(dāng)然,這只是探索的開始。我們坦誠地認(rèn)識(shí)到,作為一個(gè)對(duì)新范式的初步探索,MeshCoder 在展現(xiàn)出巨大潛力的同時(shí),也存在一些挑戰(zhàn)。其中最主要的是,訓(xùn)練集的多樣性與數(shù)量仍然不足,當(dāng)面對(duì)與我們訓(xùn)練數(shù)據(jù)分布差異較大的物體時(shí),模型的重建效果會(huì)打折扣,泛化能力有待進(jìn)一步提升

因此,我們的下一步工作重心將是采集更多樣化的數(shù)據(jù),持續(xù)擴(kuò)充數(shù)據(jù)集的廣度與深度,以提升模型的泛化能力與魯棒性。我們相信,坦誠地面對(duì)這些挑戰(zhàn),是推動(dòng)領(lǐng)域前進(jìn)的第一步。MeshCoder 的開源是團(tuán)隊(duì)為此付出的努力,也希望能成為社區(qū)進(jìn)一步研究的基石。我們期待與全球的研究者和開發(fā)者交流與合作,共同推動(dòng) 3D 生成技術(shù)向前發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
10人U22國足1-0中亞黑馬!西亞拉練迎開門紅 王鈺棟制勝+彭嘯復(fù)出

10人U22國足1-0中亞黑馬!西亞拉練迎開門紅 王鈺棟制勝+彭嘯復(fù)出

我愛英超
2025-12-24 12:24:07
零跑十周年朱江明發(fā)布內(nèi)部信:從跟跑到領(lǐng)跑,以世界級(jí)車企要求自己

零跑十周年朱江明發(fā)布內(nèi)部信:從跟跑到領(lǐng)跑,以世界級(jí)車企要求自己

金融界
2025-12-24 12:18:04
唇語專家揭秘勇士將帥爭吵!追夢(mèng)情緒失控怒噴科爾:法克魷

唇語專家揭秘勇士將帥爭吵!追夢(mèng)情緒失控怒噴科爾:法克魷

羅說NBA
2025-12-24 10:08:26
白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
控糖冠軍被發(fā)現(xiàn),每天吃一點(diǎn),強(qiáng)胰島,降血糖,遠(yuǎn)離小糖人

控糖冠軍被發(fā)現(xiàn),每天吃一點(diǎn),強(qiáng)胰島,降血糖,遠(yuǎn)離小糖人

讀懂世界歷史
2025-12-23 20:55:16
快手「驚魂夜」:不是鬧劇,是悲劇

快手「驚魂夜」:不是鬧劇,是悲劇

數(shù)字力場(chǎng)
2025-12-23 23:17:45
弘一法師:少跟孩子生氣,孩子投胎到你家,有這幾種原因

弘一法師:少跟孩子生氣,孩子投胎到你家,有這幾種原因

木言觀
2025-12-23 18:35:55
去日本航班取消,去柬埔寨機(jī)票還很好買

去日本航班取消,去柬埔寨機(jī)票還很好買

名人茍或
2025-12-23 06:04:32
闞清子被曝早產(chǎn)女嬰,多重畸形搶救無效去世,細(xì)節(jié)曝光嘆真不應(yīng)該

闞清子被曝早產(chǎn)女嬰,多重畸形搶救無效去世,細(xì)節(jié)曝光嘆真不應(yīng)該

李健政觀察
2025-12-24 09:23:10
開拓者4分惜敗魔術(shù),2連??!阿夫迪亞25+6+8,楊瀚森創(chuàng)NBA里程碑

開拓者4分惜敗魔術(shù),2連??!阿夫迪亞25+6+8,楊瀚森創(chuàng)NBA里程碑

球場(chǎng)沒跑道
2025-12-24 13:37:58
維尼修斯曬和女友迪拜度假,后者已是三個(gè)娃的媽

維尼修斯曬和女友迪拜度假,后者已是三個(gè)娃的媽

懂球帝
2025-12-24 06:15:04
還交易嗎?記者:多隊(duì)想低價(jià)打劫獨(dú)行俠換濃眉,后者場(chǎng)均21+11

還交易嗎?記者:多隊(duì)想低價(jià)打劫獨(dú)行俠換濃眉,后者場(chǎng)均21+11

懂球帝
2025-12-24 11:25:05
古代上京的考生盤纏豐厚,為何土匪不搶?土匪:你不看腰上綁的啥

古代上京的考生盤纏豐厚,為何土匪不搶?土匪:你不看腰上綁的啥

小豫講故事
2025-12-08 06:00:07
媽媽吐槽16歲兒子特意讓煮紅糖姜茶帶學(xué)校,也沒敢問,評(píng)論區(qū)炸鍋

媽媽吐槽16歲兒子特意讓煮紅糖姜茶帶學(xué)校,也沒敢問,評(píng)論區(qū)炸鍋

觀察鑒娛
2025-12-24 09:09:51
確診了!右肩靜脈血栓!火箭扔掉的NBA首輪秀

確診了!右肩靜脈血栓!火箭扔掉的NBA首輪秀

籃球?qū)崙?zhàn)寶典
2025-12-24 07:19:33
“左”和 “右”不是絕對(duì)的,約翰遜警告特朗普可能會(huì)被彈劾

“左”和 “右”不是絕對(duì)的,約翰遜警告特朗普可能會(huì)被彈劾

山河路口
2025-12-23 23:08:12
民政局澄清“上海46歲獨(dú)居女子離世,遺產(chǎn)歸公無法買墓地爭議”:買墓地可從中支付

民政局澄清“上海46歲獨(dú)居女子離世,遺產(chǎn)歸公無法買墓地爭議”:買墓地可從中支付

農(nóng)視網(wǎng)
2025-12-23 09:31:55
72年敵特入境被捕,專案組提出做逆向工作,周總理批示:不妨一試

72年敵特入境被捕,專案組提出做逆向工作,周總理批示:不妨一試

漫步史書
2025-12-23 10:10:17
突發(fā)!確診血栓+無限期缺陣,NBA生涯懸了,他才21歲啊,可惜了

突發(fā)!確診血栓+無限期缺陣,NBA生涯懸了,他才21歲啊,可惜了

球童無忌
2025-12-24 13:20:13
星鏈訂戶突破900萬,重新度量全球影響力

星鏈訂戶突破900萬,重新度量全球影響力

三體引力波
2025-12-23 11:52:17
2025-12-24 13:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11982文章數(shù) 142518關(guān)注度
往期回顧 全部

科技要聞

馬斯克沒想到的"中國速度"!2026值得期待

頭條要聞

幼兒園園長載著多名幼兒落水致8死 疑用私家車當(dāng)校車

頭條要聞

幼兒園園長載著多名幼兒落水致8死 疑用私家車當(dāng)校車

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財(cái)經(jīng)要聞

快手到底惹了誰?

汽車要聞

將于明年一季度上市 零跑D19內(nèi)飾官圖發(fā)布

態(tài)度原創(chuàng)

健康
游戲
時(shí)尚
手機(jī)
親子

這些新療法,讓化療不再那么痛苦

虛幻引擎5.7有多完美?人氣游戲開發(fā)商盛贊!

歲月不敗美人,50歲銀發(fā)的她們也太會(huì)穿了

手機(jī)要聞

量大管飽!蘋果明年將推出20+新產(chǎn)品,覆蓋手機(jī)、可穿戴與AI眼鏡

親子要聞

冉瑩穎12歲兒打生長激素一年長高8厘米,父母均高1米63

無障礙瀏覽 進(jìn)入關(guān)懷版