国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

MeshCoder:大語言模型驅(qū)動(dòng),點(diǎn)云到可編輯結(jié)構(gòu)化物體代碼的革新

0
分享至



生成式 AI 的浪潮賦予了機(jī)器無盡的創(chuàng)造力,我們已親眼見證它在文字與圖像世界 “點(diǎn)石成金” 的魔力。然而,當(dāng)這股浪潮涌向更復(fù)雜的三維空間,挑戰(zhàn)也隨之升級(jí)。過去的 3D 生成 AI 如孩童堆積木,成果粗糙模糊;如今,它渴望成長為一名 “數(shù)字建筑師”,去建造結(jié)構(gòu)精巧、可被編輯改造的虛擬世界。

為了實(shí)現(xiàn)這一目標(biāo),一種流行的方法是讓 AI 學(xué)習(xí)定義 “內(nèi)外” 的邊界來隱式地塑造物體。這種方法雖能生成外形平滑的物體,但其成果好比一座 “固化” 的雕塑 —— 一個(gè)不可分割的靜態(tài)外殼,很難像玩樂高一樣拆解重組。對(duì)于藝術(shù)家而言,這座雕塑的表面覆蓋著一張雜亂的 “漁網(wǎng)”(無序三角網(wǎng)格),而非規(guī)整的 “布料”,任何微調(diào)都如同對(duì)整片網(wǎng)進(jìn)行重新編織,極其困難,難以融入專業(yè)的創(chuàng)作流程。

受到以上啟發(fā),我們不再滿足于生成雜亂的網(wǎng)格,而是渴望一種更原生、更結(jié)構(gòu)化、更符合設(shè)計(jì)師與工程師直覺的表征方式 —— 代碼。如何讓模型像程序員一樣,用邏輯和參數(shù)構(gòu)建三維世界?如何讓生成的物體不僅形似,更能被理解、被編輯、被二次創(chuàng)作?帶著這些思考,我們團(tuán)隊(duì)推出了MeshCoder。它是一條探索 3D 程序化生成的新路徑,其核心思想是訓(xùn)練一個(gè)強(qiáng)大的多模態(tài)模型,直接將三維輸入(如點(diǎn)云)翻譯成結(jié)構(gòu)化、可執(zhí)行的 Blender Python 代碼。

我們工作的亮點(diǎn)在于,MeshCoder 生成的不是一個(gè) “死” 的模型,而是一套 “活” 的程序。它具有以下鮮明優(yōu)勢:

1.分零部件生成:如下視頻所示,MeshCoder 能理解物體的語義結(jié)構(gòu),將椅子、桌子等自動(dòng)分解為椅背、椅腿、桌面等獨(dú)立部件進(jìn)行代碼生成,邏輯清晰。

2.拓?fù)淞己玫乃倪吤?/strong>:如下圖所示,MeshCoder 生成的代碼直接構(gòu)建出高質(zhì)量的四邊面(Quad Mesh)網(wǎng)格,這對(duì)于后續(xù)的編輯,展 UV 上材質(zhì)至關(guān)重要。



下圖是使用傳統(tǒng)常用的 Marching Cube 算法從分界面中提取網(wǎng)格的結(jié)果,可以看到得到的是雜亂無序的三角面網(wǎng)格。與這些網(wǎng)格相比,上圖中 MeshCoder 得到的 Mesh 具有規(guī)整的四邊面。



3.易于理解和編輯:如下圖所示,MeshCoder 生成的 Python 代碼具備高可讀性,用戶可以通過修改參數(shù)(如尺寸、位置)或函數(shù)調(diào)用,輕松實(shí)現(xiàn)對(duì)三維模型的編輯。



4.可控的網(wǎng)格密度:如下圖所示,通過調(diào)整代碼中的分辨率等參數(shù),用戶可以自由控制生成網(wǎng)格的精細(xì)程度,在細(xì)節(jié)與性能之間找到平衡。



我們相信,這只是探索的開始。我們選擇將 MeshCoder 開源,衷心期待它能引發(fā)更多有價(jià)值的討論,并希望能與社區(qū)的研究者一起,繼續(xù)推動(dòng)三維生成技術(shù)的演進(jìn)。



  • 論文鏈接:https://huggingface.co/papers/2508.14879
  • 項(xiàng)目網(wǎng)站:https://daibingquan.github.io/MeshCoder
  • GitHub 鏈接:https://github.com/InternRobotics/MeshCoder
  • 模型鏈接:https://huggingface.co/InternRobotics/MeshCoder
  • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/InternRobotics/MeshCoderDataset

我們是如何做到的?

MeshCoder 的實(shí)現(xiàn)路徑清晰,其核心是一個(gè)強(qiáng)大的代碼庫與一套創(chuàng)新的數(shù)據(jù)構(gòu)建流程。

第一步:構(gòu)建零部件數(shù)據(jù)集并訓(xùn)練零件代碼推理模型

萬丈高樓平地起,我們首先需要讓模型具備理解基礎(chǔ)幾何的能力。

  • 專屬工具:開發(fā) Blender Python API
  • MeshCoder 的基石是我們?yōu)?Blender 定制開發(fā)的一套簡潔且功能強(qiáng)大的 Python API。(Blender,作為一款開源且功能強(qiáng)大的三維計(jì)算機(jī)圖形軟件,為我們提供了堅(jiān)實(shí)的程序化建模環(huán)境。)這套 API 封裝了從創(chuàng)建基礎(chǔ)圖元到執(zhí)行復(fù)雜布爾運(yùn)算、陣列等一系列高級(jí)建模操作,讓用簡潔的代碼構(gòu)建復(fù)雜幾何體成為可能。
  • 海量數(shù)據(jù):構(gòu)建千萬級(jí)零部件數(shù)據(jù)集
  • 我們利用這套強(qiáng)大的 API,通過參數(shù)化隨機(jī)采樣的方式,程序化地生成了海量的、由簡單到復(fù)雜的幾何零部件,最終構(gòu)建了一個(gè)千萬級(jí)別、圖文并茂的 “零部件代碼” 配對(duì)數(shù)據(jù)集。下圖是我們零部件數(shù)據(jù)集的一些樣例。



  • 模型設(shè)計(jì)與訓(xùn)練:從點(diǎn)云到代碼的初代模型
  • 基于這個(gè)龐大的零部件數(shù)據(jù)集,我們訓(xùn)練了一個(gè)強(qiáng)大的零件代碼推理模型。該模型的核心設(shè)計(jì)在于:首先通過一個(gè)形狀編碼器,從輸入的零部件點(diǎn)云中抽取出固定長度的詞元(Token)特征;然后,一個(gè)大型語言模型(LLM)會(huì)接收這些特征,并自回歸地生成能夠重建該零部件的結(jié)構(gòu)化代碼。此步驟完成后,我們的初代模型就具備了將任意單個(gè)部件的點(diǎn)云精準(zhǔn)翻譯為 Blender 代碼的能力。模型的架構(gòu)可以參見第二步的圖片。

第二步:構(gòu)建物體數(shù)據(jù)集并訓(xùn)練最終物體代碼推理模型

在初代模型掌握了 “識(shí)部件、懂代碼” 的技能后,我們利用它以及規(guī)則來 “教會(huì)” 最終模型如何理解和搭建完整的復(fù)雜物體。

  • 數(shù)據(jù)升級(jí):構(gòu)建百萬級(jí) “物體 - 代碼” 數(shù)據(jù)集
  • 高質(zhì)量的數(shù)據(jù)是訓(xùn)練強(qiáng)大模型的燃料。我們首先利用 Infinigen Indoor 生成模型,生成了一個(gè)百萬級(jí)別的、可被拆分為零部件的復(fù)雜物體數(shù)據(jù)集。接著,我們調(diào)用第一步訓(xùn)練好的初代模型,為每一個(gè)物體的每一個(gè)零部件自動(dòng)生成其對(duì)應(yīng)的代碼。最后,通過精心設(shè)計(jì)的規(guī)則,我們將所有部件的代碼與其在物體中的原始位置信息相結(jié)合,“組裝” 成一段完整的、帶有豐富語義信息的物體級(jí)代碼。下圖以椅子為例展示了這個(gè)過程。



  • 最終訓(xùn)練:得到可重建物體的 MeshCoder
  • 在這個(gè)百萬規(guī)模的 “物體 - 代碼” 大規(guī)模數(shù)據(jù)集上,我們訓(xùn)練出了最終的 MeshCoder 模型。通過學(xué)習(xí)這些完整的物體代碼,MeshCoder 不僅繼承了對(duì)基礎(chǔ)部件的理解,更學(xué)會(huì)了物體不同部件間的空間與語義關(guān)系,使其最終具備了從整體上理解復(fù)雜物體并生成完整、結(jié)構(gòu)化代碼的強(qiáng)大能力。下圖是 MeshCoder 從物體點(diǎn)云推理出代碼的 pipeline。



下圖是形狀編碼器 (Shape Tokenizer) 的網(wǎng)絡(luò)結(jié)構(gòu)。



強(qiáng)大的重建、編輯與理解能力

MeshCoder 的真正實(shí)力,不僅在于創(chuàng)新的理念,更在于堅(jiān)實(shí)的實(shí)驗(yàn)數(shù)據(jù)。我們在多個(gè)維度上對(duì)其進(jìn)行了嚴(yán)格的測試,結(jié)果證明了其卓越的性能。

一、高保真重建:精度大幅領(lǐng)先

我們將 MeshCoder 與當(dāng)前的兩種 Shape-to-Code 方法(Shape2Prog 和 PLAD)在Infinigen Indoor數(shù)據(jù)集上進(jìn)行了比較。該數(shù)據(jù)集涵蓋了從椅子、臺(tái)燈到浴缸、馬桶等 41 個(gè)常見室內(nèi)物體類別,極具挑戰(zhàn)性。

  • 在精度上超越了基準(zhǔn)方法:我們使用 “Chamfer 距離 (CD)” 和 “交并比 (IoU)” 這兩個(gè)核心指標(biāo)來衡量重建的準(zhǔn)確度。數(shù)據(jù)顯示,MeshCoder 在幾乎所有類別上都取得了數(shù)量級(jí)的領(lǐng)先。例如,在 “椅子 (Chair)” 類別中,我們的 CD 誤差僅為(越小越好),遠(yuǎn)低于 PLAD 的 2.26 和 Shape2Prog 的 1.30。而在整體平均 IoU(越大越好)上,MeshCoder 達(dá)到了的86.75%,而兩個(gè)對(duì)比方法分別只有 67.62% 和 45.03%。





  • 能夠還原復(fù)雜結(jié)構(gòu):從以下對(duì)比圖可以直觀地看到,對(duì)于門上的扇葉、窗戶的格柵、沙發(fā)的扶手等復(fù)雜結(jié)構(gòu),傳統(tǒng)方法往往會(huì)產(chǎn)生模糊、粘連甚至錯(cuò)誤的幾何形狀,而 MeshCoder 能夠精準(zhǔn)地重建出每一個(gè)獨(dú)立的部件和清晰的邊界,效果與原始三維模型(Ground Truth)高度一致。





二、代碼化編輯:打開創(chuàng)造力的窗口

代碼化編輯是 MeshCoder 最重要的能力之一。我們將 3D 模型變成了可讀、可改的程序代碼,賦予了用戶前所未有的控制自由。這不僅僅是簡單的參數(shù)調(diào)整,而是涵蓋了幾何與拓?fù)涞纳疃染庉嫞?/p>

  • 幾何編輯(改變形狀):想象一下,想把一張方桌變成圓桌,您需要做什么?在傳統(tǒng)流程中,這可能需要復(fù)雜的建模操作。而在 MeshCoder 中,如下圖所示,您只需在生成的代碼里,將創(chuàng)建桌面的函數(shù) create_primitive 的 primitive_type 參數(shù)從 'cube' 改為 'cylinder' 即可。



  • 拓?fù)渚庉嫞ǜ淖儾季€):需要一個(gè)更精細(xì)或更粗糙的模型?沒問題。通過修改代碼中的 resolution 參數(shù),您可以輕松控制生成網(wǎng)格的密度。從低分辨率的快速原型,到高分辨率的精細(xì)模型,如下圖所示,通過改動(dòng)一個(gè)數(shù)字的方式,我們就可以讓 3D 資產(chǎn)適應(yīng)不同場景的需求,在性能與精度之間找到平衡。



三、賦能三維理解:利于大模型理解形狀

MeshCoder 生成的代碼不僅僅是指令,它本身就是一種富含語義的結(jié)構(gòu)化知識(shí)。當(dāng)我們將這些代碼以及對(duì)使用部 Blender Python API 的文檔 “喂” 給像 GPT-4 這樣的大型語言模型時(shí),奇妙的事情發(fā)生了:

  • GPT-4 看懂了 3D 模型:如下圖所示,我們向 GPT-4 展示了一段由 MeshCoder 生成的辦公椅代碼以及對(duì)應(yīng)代碼功能的描述,然后用自然語言提問:“這把椅子有幾個(gè)輪子?” GPT-4 通過分析代碼中 part_1: wheel 等注釋和 create_primitive (name='wheel_1', ...) 等函數(shù),準(zhǔn)確地回答出:“4 個(gè)”。



  • 實(shí)現(xiàn)復(fù)雜的結(jié)構(gòu)推理:如下圖所示,我們進(jìn)一步提問,關(guān)于洗碗機(jī)的內(nèi)部結(jié)構(gòu)。GPT-4 同樣通過閱讀代碼,清晰地總結(jié)出:“這是一個(gè)洗碗機(jī),主體由多個(gè)立方體構(gòu)成,內(nèi)部有用于放置碗碟的架子,架子由矩形和圓柱體陣列構(gòu)成……”。并且,代碼在推斷物體的尺寸上是有明顯的優(yōu)勢的。我們分別將洗碗機(jī)的代碼和圖片輸入到 GPT-4 中,讓 GPT-4 給定洗碗機(jī)的高度來推測洗碗機(jī)的寬度時(shí)。我們發(fā)現(xiàn),GPT-4 很難只從圖片中推斷得到準(zhǔn)確的尺寸,但是當(dāng)有代碼作為輸入時(shí),GPT-4 可以輕松根據(jù)代碼中的 scale 參數(shù)來判斷洗碗機(jī)的寬度。







這個(gè)實(shí)驗(yàn)有力地證明,MeshCoder 搭建了一座橋梁,將物體的形狀信息以及尺寸信息提取成有語義的描述提取到代碼中,極大的幫助了大語言模型理解三維世界,通過閱讀結(jié)構(gòu)化代碼來 “理解” 三維物體的組成、部件關(guān)系乃至功能屬性,為 AI 的 3D 認(rèn)知能力開辟了激動(dòng)人心的新方向。

局限性與未來展望

MeshCoder 是我們對(duì) 3D 程序化生成模型的一次深刻探索。它證明了,通過代碼化的方式來表征和生成 3D 世界是一條充滿潛力且極具價(jià)值的道路。當(dāng)然,這只是探索的開始。我們坦誠地認(rèn)識(shí)到,作為一個(gè)對(duì)新范式的初步探索,MeshCoder 在展現(xiàn)出巨大潛力的同時(shí),也存在一些挑戰(zhàn)。其中最主要的是,訓(xùn)練集的多樣性與數(shù)量仍然不足,當(dāng)面對(duì)與我們訓(xùn)練數(shù)據(jù)分布差異較大的物體時(shí),模型的重建效果會(huì)打折扣,泛化能力有待進(jìn)一步提升

因此,我們的下一步工作重心將是采集更多樣化的數(shù)據(jù),持續(xù)擴(kuò)充數(shù)據(jù)集的廣度與深度,以提升模型的泛化能力與魯棒性。我們相信,坦誠地面對(duì)這些挑戰(zhàn),是推動(dòng)領(lǐng)域前進(jìn)的第一步。MeshCoder 的開源是團(tuán)隊(duì)為此付出的努力,也希望能成為社區(qū)進(jìn)一步研究的基石。我們期待與全球的研究者和開發(fā)者交流與合作,共同推動(dòng) 3D 生成技術(shù)向前發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
多名院士調(diào)查發(fā)現(xiàn):吃一口放久變軟的香蕉,或等于進(jìn)一次毒?真的

多名院士調(diào)查發(fā)現(xiàn):吃一口放久變軟的香蕉,或等于進(jìn)一次毒?真的

垚垚分享健康
2026-04-21 10:49:25
小S淚灑自責(zé)不該帶全家去日本發(fā)生憾事!曝大S「最后反常舉動(dòng)」

小S淚灑自責(zé)不該帶全家去日本發(fā)生憾事!曝大S「最后反常舉動(dòng)」

達(dá)達(dá)哥
2026-04-20 12:47:34
河北曲周一KTV服務(wù)員被指強(qiáng)奸14歲女生,案件已移交檢方

河北曲周一KTV服務(wù)員被指強(qiáng)奸14歲女生,案件已移交檢方

澎湃新聞
2026-04-21 18:46:26
司美格魯肽仿制藥審批暫停,企業(yè)還要干等一年?

司美格魯肽仿制藥審批暫停,企業(yè)還要干等一年?

健識(shí)局
2026-04-22 01:30:57
金莎曬“五金”翻車?網(wǎng)友拿起放大鏡,三條神評(píng)讓她無法回答!

金莎曬“五金”翻車?網(wǎng)友拿起放大鏡,三條神評(píng)讓她無法回答!

老吳教育課堂
2026-04-21 09:09:45
太心酸了!42歲著名女歌手江蘇走穴,賓客只顧吃席沒人搭理

太心酸了!42歲著名女歌手江蘇走穴,賓客只顧吃席沒人搭理

小徐講八卦
2026-02-12 12:13:20
中超爭議判罰!顏駿凌超巨失誤,VAR介入,陳純新笑納大禮

中超爭議判罰!顏駿凌超巨失誤,VAR介入,陳純新笑納大禮

奧拜爾
2026-04-21 20:54:59
長三角議事廳·周報(bào)|存量博弈下,長三角誰在吸人、誰在變老

長三角議事廳·周報(bào)|存量博弈下,長三角誰在吸人、誰在變老

澎湃新聞
2026-04-21 09:39:05
為什么2026年教育突然松綁了?學(xué)歷的紅利,如今真的消失了嗎?

為什么2026年教育突然松綁了?學(xué)歷的紅利,如今真的消失了嗎?

戶外阿毽
2026-04-21 02:42:17
安全性重估疊加新動(dòng)能 經(jīng)濟(jì)數(shù)據(jù)彰顯中國資產(chǎn)底氣

安全性重估疊加新動(dòng)能 經(jīng)濟(jì)數(shù)據(jù)彰顯中國資產(chǎn)底氣

新華社
2026-04-21 09:39:25
拼多多暴力抗法細(xì)節(jié)曝光,把全國網(wǎng)友都看傻了

拼多多暴力抗法細(xì)節(jié)曝光,把全國網(wǎng)友都看傻了

新浪財(cái)經(jīng)
2026-04-22 03:40:54
河南省省長王凱到明陽集團(tuán)考察調(diào)研

河南省省長王凱到明陽集團(tuán)考察調(diào)研

風(fēng)電頭條
2026-04-22 00:07:38
哈登生涯最佳一戰(zhàn)!狂轟28+5+4+5+1全能爆發(fā),加盟騎士成最優(yōu)解!

哈登生涯最佳一戰(zhàn)!狂轟28+5+4+5+1全能爆發(fā),加盟騎士成最優(yōu)解!

田先生籃球
2026-04-21 10:25:55
1979年打越南,高層其實(shí)吵翻了天?葉劍英粟裕為何反對(duì)出兵?

1979年打越南,高層其實(shí)吵翻了天?葉劍英粟裕為何反對(duì)出兵?

勇哥讀史
2026-04-21 07:52:13
米切爾打趣哈登:你有5個(gè)失誤我才1個(gè),那我才是助攻王啊

米切爾打趣哈登:你有5個(gè)失誤我才1個(gè),那我才是助攻王啊

懂球帝
2026-04-21 16:13:22
伊朗:盡管美副總統(tǒng)萬斯及美國談判團(tuán)隊(duì)成員正前往巴基斯坦,但伊朗不參加談判的決定尚未改變;特朗普威脅如?;鸬狡诿酪廖催_(dá)成協(xié)議,那么大量炸彈將開始爆炸

伊朗:盡管美副總統(tǒng)萬斯及美國談判團(tuán)隊(duì)成員正前往巴基斯坦,但伊朗不參加談判的決定尚未改變;特朗普威脅如?;鸬狡诿酪廖催_(dá)成協(xié)議,那么大量炸彈將開始爆炸

每日經(jīng)濟(jì)新聞
2026-04-21 01:44:17
上海外灘某銀行地下金庫,存了80年從不清點(diǎn),央行:凍結(jié)所有賬戶

上海外灘某銀行地下金庫,存了80年從不清點(diǎn),央行:凍結(jié)所有賬戶

小哥很OK
2026-01-28 19:15:53
年輕人不買房不結(jié)婚了:就怪那個(gè)把房婚捆綁的人

年輕人不買房不結(jié)婚了:就怪那個(gè)把房婚捆綁的人

三言四拍
2026-04-16 16:29:36
69 歲申軍誼腦梗 4 年,走路得拄拐??粗?37 歲女兒還單身

69 歲申軍誼腦梗 4 年,走路得拄拐。看著 37 歲女兒還單身

歲月有情1314
2026-04-22 02:08:35
三星“不講武德”,上市僅兩個(gè)月,6.3英寸小屏旗艦跳水1500元

三星“不講武德”,上市僅兩個(gè)月,6.3英寸小屏旗艦跳水1500元

北境不忘
2026-04-20 09:57:53
2026-04-22 04:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12822文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

創(chuàng)造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財(cái)經(jīng)要聞

現(xiàn)實(shí)是最大的荒誕:千億平臺(tái)的沖突始末

汽車要聞

全新坦克700正式上市 售價(jià)42.8萬-50.8萬元

態(tài)度原創(chuàng)

游戲
本地
健康
公開課
軍事航空

漲價(jià)兩周即回調(diào)!索尼官方PS5數(shù)字版定價(jià)重回399美元

本地新聞

春色滿城關(guān)不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普公開對(duì)伊開戰(zhàn)真正原因

無障礙瀏覽 進(jìn)入關(guān)懷版