莫斯科國立大學(xué)團(tuán)隊用AI進(jìn)化算法創(chuàng)造工業(yè)級CAD設(shè)計

2026-02-25 21:27:13　來源: 至頂AI實驗室

北京舉報

分享至

計算機(jī)輔助設(shè)計（CAD）在工程和制造領(lǐng)域一直扮演著至關(guān)重要的角色，但最大的瓶頸卻是數(shù)據(jù)的匱乏。這項由莫斯科國立大學(xué)、巴黎多菲納大學(xué)、因諾波利斯大學(xué)和FusionBrain實驗室共同完成的突破性研究，發(fā)表于2026年2月的arXiv預(yù)印本服務(wù)器（論文編號：arXiv:2602.16317v1），徹底改變了這一現(xiàn)狀。研究團(tuán)隊開發(fā)出一個名為CADEvolve的革命性系統(tǒng)，它就像給計算機(jī)裝上了工程師的大腦，能夠從簡單的幾何體開始，逐步"進(jìn)化"出復(fù)雜的工業(yè)級CAD設(shè)計。

傳統(tǒng)的CAD數(shù)據(jù)集就像一個只會做煎蛋的廚師食譜集——雖然有很多種煎蛋方法，但缺少制作復(fù)雜菜肴的步驟?，F(xiàn)有的公開CAD數(shù)據(jù)主要局限于簡單的"畫圖-拉伸"操作序列，就好比只會用直線和方塊搭建房子，而缺乏旋轉(zhuǎn)、掃掠、倒角等高級操作的組合運(yùn)用。這導(dǎo)致AI模型在學(xué)習(xí)CAD設(shè)計時，就像只學(xué)會了基礎(chǔ)運(yùn)算的學(xué)生，無法處理復(fù)雜的數(shù)學(xué)問題。

研究團(tuán)隊的解決方案極其巧妙。他們設(shè)計了一個"進(jìn)化型"數(shù)據(jù)生成流水線，從46個手工編寫的基礎(chǔ)幾何體開始，讓大語言模型（GPT-5-mini）充當(dāng)"設(shè)計導(dǎo)師"，不斷提出改進(jìn)建議。每個建議都必須通過嚴(yán)格的驗證：代碼能否正確執(zhí)行、生成的幾何體是否有效、視覺效果是否與設(shè)計描述相符。只有通過全部檢驗的設(shè)計才能"存活"下來，成為下一輪進(jìn)化的"父母"。這個過程就像自然界中的物種進(jìn)化，適者生存，劣者淘汰，最終產(chǎn)生了7945個復(fù)雜的參數(shù)化幾何體生成器。

更令人驚嘆的是，研究團(tuán)隊并沒有止步于此。他們從這些生成器中采樣出約80萬個可執(zhí)行程序，配上對應(yīng)的幾何形狀，然后進(jìn)行了一系列精巧的處理。首先是代碼風(fēng)格的多樣化改寫，避免AI學(xué)習(xí)時產(chǎn)生固化的代碼模板。接著是"標(biāo)準(zhǔn)化"處理，就像給所有設(shè)計圖紙統(tǒng)一了比例尺和坐標(biāo)系，讓AI更容易學(xué)習(xí)其中的規(guī)律。最終，他們構(gòu)建了一個包含約130萬個腳本的統(tǒng)一數(shù)據(jù)集CADEvolve-C，這是第一個覆蓋完整CadQuery操作集的開源CAD序列數(shù)據(jù)集。

在這個數(shù)據(jù)集上訓(xùn)練的視覺-語言模型CADEvolve-M展現(xiàn)出了令人矚目的性能。在三個權(quán)威的CAD重建基準(zhǔn)測試中——DeepCAD、Fusion 360和MCB，該模型都達(dá)到了最先進(jìn)的水平。更重要的是，與傳統(tǒng)方法相比，CADEvolve能夠處理旋轉(zhuǎn)、掃掠、放樣、面選擇器和復(fù)雜孔洞模式等高級操作，這些正是工業(yè)設(shè)計中不可或缺的技術(shù)。

一、從簡單積木到復(fù)雜機(jī)械：CADEvolve的進(jìn)化奇跡

CADEvolve的工作原理就像一個永不疲倦的設(shè)計工作室。在這個工作室里，有一位經(jīng)驗豐富的AI"設(shè)計師"（GPT-5-mini），還有一套嚴(yán)格的質(zhì)量檢驗流程。整個過程從46個精心設(shè)計的"種子"幾何體開始，這些種子就像基礎(chǔ)的樂高積木，包含了齒輪、楔形體、棱鏡、環(huán)形段等基本形狀，覆蓋了擠壓、旋轉(zhuǎn)、放樣、掃掠、殼體、倒角等核心操作。

每一輪進(jìn)化過程都遵循嚴(yán)格的規(guī)律。系統(tǒng)首先從現(xiàn)有的設(shè)計庫中隨機(jī)選擇幾個"父母"設(shè)計，然后請AI設(shè)計師基于這些父母的特征，提出新的設(shè)計想法。這些想法不僅包括形狀名稱、抽象描述和詳細(xì)說明，還要明確指出從哪些父母那里繼承了什么特征。接下來，系統(tǒng)會根據(jù)這些描述，利用檢索增強(qiáng)技術(shù)找到相似的代碼模板，然后讓AI編寫出完整的CadQuery代碼。

最關(guān)鍵的是三重驗證機(jī)制。首先是執(zhí)行檢查，確保代碼能夠正常運(yùn)行并生成唯一的實體。其次是幾何有效性驗證，檢查生成的形狀是否符合CAD的嚴(yán)格標(biāo)準(zhǔn)。最后是視覺-文本一致性檢查，系統(tǒng)會從七個不同角度渲染新設(shè)計（一個等距視圖加六個正交投影），然后讓AI比較渲染結(jié)果是否與原始描述相符。如果任何一個環(huán)節(jié)出現(xiàn)問題，系統(tǒng)會要求AI進(jìn)行有針對性的修復(fù)。

經(jīng)過這樣嚴(yán)格的篩選，只有真正優(yōu)秀的設(shè)計才能進(jìn)入下一輪進(jìn)化。整個過程持續(xù)進(jìn)行，直到達(dá)到預(yù)設(shè)的計算預(yù)算或者創(chuàng)新性飽和為止。研究團(tuán)隊發(fā)現(xiàn)，隨著進(jìn)化的深入，無效提案的比例會急劇上升到約85%，而新穎樣本的接受率也會降至40-50%，這表明設(shè)計空間正在逐漸飽和。

這種進(jìn)化方法的精妙之處在于，它不是簡單的隨機(jī)搜索，而是有目標(biāo)、有約束的智能探索。每個新設(shè)計都必須比父母更復(fù)雜、更有趣，同時還要保持幾何的有效性。這就像培育新品種的花卉，既要保持基本的生物特征，又要追求新的色彩和形狀。

二、從生成器到可執(zhí)行程序：精確控制每個參數(shù)

擁有了7945個參數(shù)化生成器后，研究團(tuán)隊面臨了一個新挑戰(zhàn)：如何從這些生成器中提取出豐富多樣的具體設(shè)計實例？這就像擁有了一套萬能模具，現(xiàn)在需要用它們制造出各種不同規(guī)格的產(chǎn)品。

團(tuán)隊采用了質(zhì)量-多樣性優(yōu)化策略。對于每個生成器，他們設(shè)計了一個雙重目標(biāo)函數(shù)。質(zhì)量方面，系統(tǒng)會檢查生成的CAD形狀是否有效——必須是唯一的水密實體，最長邊要在60到200單位范圍內(nèi)，整個形狀要位于特定的立方體空間中。多樣性方面，系統(tǒng)會將每個新樣本與已接受樣本進(jìn)行比較，如果新樣本與現(xiàn)有樣本過于相似，就會被拒絕。

為了解決這個非可微的優(yōu)化問題，團(tuán)隊選擇了著名的CMA-ES（協(xié)方差矩陣自適應(yīng)進(jìn)化策略）算法。這種算法就像一個聰明的探險家，能夠根據(jù)之前的探索經(jīng)驗調(diào)整搜索策略，逐漸找到參數(shù)空間中那些既有效又新穎的區(qū)域。對每個生成器，系統(tǒng)會持續(xù)搜索，直到找到15個滿足條件的參數(shù)組合，或者達(dá)到計算預(yù)算限制。

找到有效的參數(shù)組合后，系統(tǒng)會進(jìn)行"程序展開"過程。這個過程就像把一個智能烹飪機(jī)器人的食譜轉(zhuǎn)換成詳細(xì)的手工操作步驟。系統(tǒng)會運(yùn)行一次參數(shù)化生成器，記錄下每一個幾何操作，跳過那些不影響最終結(jié)果的分支和循環(huán)，只保留真正構(gòu)造幾何體的CadQuery操作。最終輸出一個扁平化的、確定性的腳本，包含最小的導(dǎo)入語句和統(tǒng)一的輸出變量名。

這個過程特別重要，因為它解決了參數(shù)化代碼的一個根本問題：同一個生成器可能包含復(fù)雜的條件分支和循環(huán)結(jié)構(gòu)，直接用于訓(xùn)練會讓AI學(xué)習(xí)到錯誤的模式。通過展開過程，每個腳本都變成了一個清晰的操作序列，就像把"如果天氣好就用烤箱，否則用微波爐"這樣的條件指令，轉(zhuǎn)換成具體的"用烤箱200度烘烤20分鐘"這樣的確定步驟。

經(jīng)過這個階段，團(tuán)隊獲得了74918個具體的可執(zhí)行腳本，每個都對應(yīng)一個獨(dú)特的幾何形狀，并且包含完整的構(gòu)造歷史。這些腳本構(gòu)成了CADEvolve-P數(shù)據(jù)集的核心。

三、代碼增強(qiáng)與自舉：打破模板固化的創(chuàng)新突破

當(dāng)研究團(tuán)隊用初始的74918個腳本訓(xùn)練AI模型時，他們遇到了一個意想不到的問題：模板固化。由于同一個生成器產(chǎn)生的腳本共享相同的標(biāo)識符和操作序列，只有參數(shù)值不同，就像用同一個模具制作的產(chǎn)品，形狀類似但尺寸不同。這導(dǎo)致訓(xùn)練出的小型Qwen2-VL-2B模型學(xué)會了幾何形狀與固定代碼框架之間的虛假關(guān)聯(lián)，生成的結(jié)果幾乎無法使用。

為了解決這個問題，團(tuán)隊設(shè)計了代碼級增強(qiáng)策略。他們要求GPT-5-mini為每個腳本生成多達(dá)10個語義等價的重寫版本——使用不同的變量名、不同的操作順序、不同的代碼結(jié)構(gòu)，但產(chǎn)生完全相同的幾何體。這就像用不同的語言描述同一個故事，或者用不同的路線到達(dá)同一個目的地。

在這個過程中，系統(tǒng)還會自動清理無用的操作，比如刪除沒有貢獻(xiàn)的草圖、未使用的工作平面、無效果的倒角操作等。每個重寫版本都必須通過驗證，確保能夠正確執(zhí)行并生成預(yù)期的幾何體。經(jīng)過過度生成和篩選，最終保留了744780個有效的腳本變體。

然而，即使有了這些改進(jìn)，模型的幾何保真度仍然不夠理想。研究團(tuán)隊采用了一個巧妙的自舉策略：他們用第一輪訓(xùn)練得到的不完美模型去預(yù)測ABC和ShapeNet數(shù)據(jù)集中網(wǎng)格的對應(yīng)CadQuery程序，然后將這些預(yù)測結(jié)果作為新的訓(xùn)練數(shù)據(jù)。這種做法看起來反直覺，但實際上非常有效——雖然預(yù)測的程序可能不完美，但它們提供了更大的覆蓋范圍和多樣性。

具體來說，團(tuán)隊用第一輪模型對ABC數(shù)據(jù)集預(yù)測得到875632個腳本，對ShapeNet數(shù)據(jù)集預(yù)測得到119437個腳本。結(jié)合原有的重寫腳本，總訓(xùn)練集達(dá)到了1739849個樣本。雖然第二輪訓(xùn)練的性能提升有限，但這為后續(xù)的標(biāo)準(zhǔn)化處理奠定了基礎(chǔ)。

四、標(biāo)準(zhǔn)化革命：統(tǒng)一格式帶來的質(zhì)量飛躍

面對訓(xùn)練數(shù)據(jù)過于復(fù)雜和多樣化的問題，研究團(tuán)隊實施了一套全面的標(biāo)準(zhǔn)化流程，這可能是整個研究中最關(guān)鍵的創(chuàng)新之一。這個過程就像給所有不同風(fēng)格的建筑圖紙制定統(tǒng)一的繪圖標(biāo)準(zhǔn)，讓AI能夠更容易地學(xué)習(xí)和理解設(shè)計規(guī)律。

標(biāo)準(zhǔn)化包含四個核心步驟。首先是統(tǒng)一化，系統(tǒng)會移除所有非幾何相關(guān)的Python代碼，只保留影響幾何構(gòu)造的CadQuery調(diào)用，然后重新整理成扁平的、類似宏的序列，使用穩(wěn)定的臨時變量名（wp1、wp2等）和最小的導(dǎo)入語句。

接下來是居中處理。系統(tǒng)會構(gòu)建每個實體，計算其軸對齊邊界框的中心，然后注入一個確定性的平移操作，確保最終對象的中心位于原點(diǎn)(0,0,0)。這就像把所有家具都搬到房間的正中央，方便統(tǒng)一管理。

第三步是尺度標(biāo)準(zhǔn)化。系統(tǒng)會應(yīng)用均勻縮放，使邊界框的最長邊等于固定目標(biāo)值（200單位），這樣所有形狀都會大致位于[-100,100]?的立方體內(nèi)。這確保了不同來源的模型都有相似的尺寸范圍，避免AI被尺寸差異干擾。

最后是二值化處理。系統(tǒng)會量化所有數(shù)值字面值——將微小的epsilon值歸零，其余值四舍五入為整數(shù)。這個步驟移除了浮點(diǎn)噪聲，將參數(shù)空間約束到一致的網(wǎng)格上，大大簡化了AI的學(xué)習(xí)任務(wù)。

標(biāo)準(zhǔn)化過程偶爾會引入幾何沖突，因此團(tuán)隊重新驗證了所有轉(zhuǎn)換后的腳本，最終保留了1002002個有效程序：69201個來自CADEvolve，813378個來自ABC預(yù)測，119312個來自ShapeNet預(yù)測。

為了進(jìn)一步優(yōu)化訓(xùn)練效果，團(tuán)隊還實施了基于長度的過濾和截斷策略。他們將數(shù)據(jù)集分為兩組：849558個腳本少于3000字符，152444個腳本超過3000字符。對于較長的腳本，系統(tǒng)會截斷到3000字符并重新通過標(biāo)準(zhǔn)化流程，最終獲得129961個有效腳本。去重后，對應(yīng)111742個唯一腳本。因此，最終少于3000字符的腳本數(shù)量為961300個。

五、草圖多樣性增強(qiáng)：解決早期操作單一性問題

在標(biāo)準(zhǔn)化后的訓(xùn)練中，研究團(tuán)隊發(fā)現(xiàn)了另一個微妙但重要的問題：草圖多樣性不足。許多CADEvolve腳本的標(biāo)準(zhǔn)化第一原語都撞到了標(biāo)準(zhǔn)化邊界（比如最大范圍200的軸對齊盒子或直徑/高度為200的圓柱體），這導(dǎo)致早期草圖操作過于單一。

為了解決這個問題，團(tuán)隊采用了草圖多樣性增強(qiáng)策略。他們識別出那些第一原語達(dá)到標(biāo)準(zhǔn)化邊界的CADEvolve腳本，然后用CADRecode數(shù)據(jù)集中的腳本替換基礎(chǔ)原語。CADRecode以其豐富的草圖變化而聞名，這種替換為數(shù)據(jù)集注入了更多的早期結(jié)構(gòu)變化。

這個過程為訓(xùn)練集貢獻(xiàn)了963096個額外腳本。結(jié)合之前的長度過濾步驟，團(tuán)隊為最終的腳本集生成了STL網(wǎng)格。由于渲染和幾何驗證失敗，最終只為1382928個腳本成功生成了STL文件。

最后一步是旋轉(zhuǎn)增強(qiáng)，這對提高模型的魯棒性至關(guān)重要。在實踐中，同一個CAD零件可以在任意旋轉(zhuǎn)下存儲或觀察，而其構(gòu)造邏輯和參數(shù)化保持不變。如果沒有增強(qiáng)，模型可能會隱式依賴于數(shù)據(jù)集特定的標(biāo)準(zhǔn)姿態(tài)，這會降低對未見方向的泛化能力。

旋轉(zhuǎn)增強(qiáng)過程使用基于腳本的旋轉(zhuǎn)程序，通過旋轉(zhuǎn)CadQuery工作平面構(gòu)造調(diào)用的參數(shù)來改變后續(xù)操作使用的參考平面的方向和偏移。系統(tǒng)考慮24種旋轉(zhuǎn)變體，分為三類：繞Z軸的0°、90°、180°或270°旋轉(zhuǎn)；先繞Z軸旋轉(zhuǎn)，然后繞Y軸旋轉(zhuǎn)90°，再繞Z軸旋轉(zhuǎn)；先繞Z軸旋轉(zhuǎn)，然后繞Y軸旋轉(zhuǎn)180°。

對每個數(shù)據(jù)集元素，系統(tǒng)會隨機(jī)應(yīng)用一種旋轉(zhuǎn)并將結(jié)果樣本添加到訓(xùn)練集中。最終，通過旋轉(zhuǎn)增強(qiáng)獲得了額外的1337553個腳本，使最終的監(jiān)督微調(diào)訓(xùn)練集包含2720481個腳本。

六、CADEvolve-M模型：視覺到代碼的完美轉(zhuǎn)換

為了驗證CADEvolve數(shù)據(jù)集的有效性，研究團(tuán)隊開發(fā)了CADEvolve-M，這是一個專門針對Image2CAD任務(wù)優(yōu)化的視覺-語言模型。這個任務(wù)的設(shè)定很直觀：給定一個形狀的固定多視圖渲染，模型需要生成一個能夠編譯成匹配實體的CadQuery程序。

與Text2CAD相比，Image2CAD不需要文本描述，這對于增強(qiáng)數(shù)據(jù)很有用，因為研究團(tuán)隊沒有為這些腳本提供文本描述。與PC2CAD相比，它不需要訓(xùn)練點(diǎn)云編碼器。團(tuán)隊將多視圖圖像網(wǎng)格直接輸入到VLM的內(nèi)置視覺編碼器中，除了基礎(chǔ)模型之外不引入額外的圖像主干、適配器或預(yù)訓(xùn)練。

實驗設(shè)置經(jīng)過精心優(yōu)化。對于CADEvolve-P，系統(tǒng)使用7個視圖（6個正交+1個等距）；對于CADEvolve-C的最終實驗，使用8個標(biāo)準(zhǔn)視圖：六個正交投影（±X、±Y、±Z）和兩個等距視圖。形狀經(jīng)過剛性對齊并位于[-100,100]?范圍內(nèi)。對每個正交視圖，系統(tǒng)渲染該框的238×238圖像，并通過強(qiáng)度編碼沿視圖軸的深度。為保持軸方向一致，-Z、+Y、+X圖像會水平鏡像。八個圖像連接成2×4網(wǎng)格輸入模型。

與cadrille的4-iso設(shè)置不同，6-正交+1-2等距布局為倒角和圓角提供了更清晰的線索。團(tuán)隊使用Qwen2-VL-2B作為視覺-語言主干，用多視圖網(wǎng)格提示并解碼CadQuery tokens。

訓(xùn)練過程分為兩個階段。監(jiān)督微調(diào)階段，團(tuán)隊進(jìn)行兩個epoch的監(jiān)督微調(diào)，目標(biāo)是在視圖條件下的代碼的token級交叉熵。強(qiáng)化學(xué)習(xí)微調(diào)階段，團(tuán)隊采用與cadrille相同的在線RL訓(xùn)練和獎勵，即GRPO目標(biāo)與Dr. GRPO和CPPO變體（Dr. CPPO），以及結(jié)合IoU（縮放以強(qiáng)調(diào)準(zhǔn)確性）和無效生成懲罰（非編譯或非水密）的程序化獎勵。

獎勵函數(shù)設(shè)計簡單有效：如果代碼編譯成功，r = 10 × IoU；否則r = -10。團(tuán)隊在兩種配置上各訓(xùn)練20個epoch：RL1使用cadrille RL訓(xùn)練集（從DeepCAD和Fusion360訓(xùn)練分片選擇的部分，不在SFT語料中）；RL2在RL1基礎(chǔ)上增加MCB訓(xùn)練分片，MCB按團(tuán)隊重新分片，測試集覆蓋所有ISO類別且從未用于RL。

七、突破性實驗結(jié)果：全面超越現(xiàn)有技術(shù)

CADEvolve-M在三個權(quán)威基準(zhǔn)測試中的表現(xiàn)令人驚嘆，全面超越了現(xiàn)有的最先進(jìn)方法。在DeepCAD、Fusion360和MCB數(shù)據(jù)集上，該模型都取得了顯著的性能提升，特別是在處理復(fù)雜幾何操作方面展現(xiàn)出了前所未有的能力。

從數(shù)據(jù)集演進(jìn)的角度來看，實驗結(jié)果清晰地展現(xiàn)了每個改進(jìn)步驟的價值。即使經(jīng)過代碼級增強(qiáng)，CADEvolve-P后增強(qiáng)版本（SFT）與最強(qiáng)基線相比仍有很大差距，盡管增強(qiáng)確實將指標(biāo)推向了正確方向。這支持了研究團(tuán)隊的解釋：語義保留重寫確實減少了模板過擬合，但如果沒有代碼風(fēng)格和形狀大小的標(biāo)準(zhǔn)化是不夠的。

從CADEvolve-C小型版本到中型版本的巨大躍升表明，添加預(yù)測派生監(jiān)督（ABC/ShapeNet）顯著改善了幾何保真度。大型版本進(jìn)一步改善了性能，為后續(xù)的強(qiáng)化學(xué)習(xí)奠定了堅實基礎(chǔ)。

在強(qiáng)化學(xué)習(xí)階段，CADEvolve-C大型版本（RL1）在所有數(shù)據(jù)集上的CD/IoU指標(biāo)都超過了cadrille RL，代價是略高的無效率，這與更頻繁使用復(fù)雜、易碰撞的操作一致。RL2通過在RL池中增加MCB訓(xùn)練形狀來解決其領(lǐng)域轉(zhuǎn)移問題（由于更高的STL容差導(dǎo)致的更柔和輪廓），在保持DeepCAD和Fusion360接近c(diǎn)adrille性能的同時，在MCB上取得了實質(zhì)性改進(jìn)。

定性比較結(jié)果更加令人印象深刻。在復(fù)雜的工業(yè)級零件重建任務(wù)中，CADEvolve-M能夠準(zhǔn)確重建通過旋轉(zhuǎn)、掃掠、放樣、面選擇器和復(fù)雜孔洞模式構(gòu)建的零件，而傳統(tǒng)的基于草圖-擠壓-布爾運(yùn)算的方法通常無法很好地近似這些結(jié)構(gòu)。這種能力的差異在測試樣例中表現(xiàn)得尤為明顯：當(dāng)目標(biāo)包含復(fù)雜的曲面、精密的孔洞排列或需要多步驟操作序列時，cadrille等基線方法往往失敗，而CADEvolve-M能夠生成幾乎完美匹配的重建結(jié)果。

性能指標(biāo)的分析也很有啟發(fā)性。CADEvolve-M雖然在無效率上略高，但這實際上反映了一個積極的特征：模型敢于嘗試更復(fù)雜的操作組合。傳統(tǒng)方法往往局限于安全的草圖-擠壓組合，因為它們不太可能產(chǎn)生幾何沖突，但也限制了能夠處理的形狀復(fù)雜度。CADEvolve-M的稍高無效率實際上表明它正在探索更豐富的操作空間，這是實現(xiàn)工業(yè)級CAD重建能力的必要代價。

八、數(shù)據(jù)集特征分析：豐富度與復(fù)雜性的全面提升

CADEvolve數(shù)據(jù)集在操作覆蓋度、序列長度和幾何復(fù)雜性方面都展現(xiàn)出了顯著的優(yōu)勢。通過詳細(xì)的統(tǒng)計分析，研究團(tuán)隊證明了這個數(shù)據(jù)集確實填補(bǔ)了現(xiàn)有CAD訓(xùn)練語料的重要空白。

從操作統(tǒng)計來看，CADEvolve的分布大體上遵循真實CAD程序歷史的模式，但有兩個值得注意的變化：較少的旋轉(zhuǎn)、倒角、殼體和鏡像操作，以及更多的孔洞操作和大量的變換和放樣操作。盡管存在這些差異，最常用的操作都有足夠的數(shù)量來支持可靠的訓(xùn)練和評估。擠壓操作出現(xiàn)在83.05%的腳本中，倒角出現(xiàn)在27.78%中，這確保了核心CAD操作得到了充分覆蓋。

序列長度分布顯示了CADEvolve的一個關(guān)鍵優(yōu)勢：程序長度的廣泛分布和高度程序化模型的長尾。許多CADEvolve腳本超過25個操作，長尾中包含大量高度程序化的模型，這表明數(shù)據(jù)集的程序深度遠(yuǎn)超典型基準(zhǔn)。這種特征對訓(xùn)練能夠處理復(fù)雜、多步驟CAD設(shè)計流程的AI模型至關(guān)重要。

幾何復(fù)雜性的分析更加令人印象深刻。面數(shù)統(tǒng)計顯示，CADEvolve零件經(jīng)常包含數(shù)千個多邊形面，反映了精細(xì)的幾何細(xì)節(jié)和比現(xiàn)有基準(zhǔn)更高的形狀復(fù)雜度。這種復(fù)雜性不是人為制造的，而是通過進(jìn)化過程自然產(chǎn)生的，確保了訓(xùn)練數(shù)據(jù)的真實性和實用性。

進(jìn)化過程的動態(tài)分析揭示了系統(tǒng)的行為特征。在搜索過程中，無效提案率穩(wěn)步上升，在后期迭代中達(dá)到約85%。同時，新穎樣本的接受率也下降到40-50%，表明在固定API或計算預(yù)算下的收益遞減。這些趨勢說明了一個關(guān)鍵權(quán)衡：雖然探索可以繼續(xù)，但效率會大幅下降，進(jìn)一步擴(kuò)展過程需要更強(qiáng)的提案策略而不是簡單地運(yùn)行更長時間。

旋轉(zhuǎn)增強(qiáng)的實施確保了模型對全局方向的魯棒性。通過24種旋轉(zhuǎn)變體的應(yīng)用，數(shù)據(jù)集涵蓋了實際應(yīng)用中可能遇到的各種方向，避免了模型對特定標(biāo)準(zhǔn)姿態(tài)的過度依賴。這種增強(qiáng)策略顯著提升了模型的泛化能力，使其能夠處理任意方向的輸入圖像。

九、技術(shù)創(chuàng)新點(diǎn)與方法論突破

CADEvolve的成功不僅在于最終的性能表現(xiàn)，更在于其背后的一系列方法論創(chuàng)新。這些創(chuàng)新為AI輔助CAD設(shè)計開辟了全新的研究方向。

最重要的創(chuàng)新是將進(jìn)化計算與大語言模型相結(jié)合的數(shù)據(jù)生成范式。傳統(tǒng)的CAD數(shù)據(jù)生成要么依賴人工標(biāo)注（成本高昂且規(guī)模有限），要么使用規(guī)則生成（靈活性不足且難以產(chǎn)生復(fù)雜結(jié)構(gòu)）。CADEvolve通過讓LLM充當(dāng)"進(jìn)化壓力"，在保持嚴(yán)格幾何約束的同時實現(xiàn)了開放式的創(chuàng)意探索。這種方法的關(guān)鍵在于平衡了自由度與約束：LLM提供創(chuàng)意和多樣性，而幾何驗證確保實用性和有效性。

代碼標(biāo)準(zhǔn)化流水線的設(shè)計也具有重要的方法論意義。研究團(tuán)隊認(rèn)識到，原始的參數(shù)化代碼雖然功能完整，但其復(fù)雜的條件分支和循環(huán)結(jié)構(gòu)會誤導(dǎo)AI學(xué)習(xí)。通過追蹤執(zhí)行、展開分支、統(tǒng)一格式和量化參數(shù)，標(biāo)準(zhǔn)化過程將復(fù)雜的程序邏輯轉(zhuǎn)換為清晰的操作序列。這種"從程序到序列"的轉(zhuǎn)換為AI提供了更適合學(xué)習(xí)的數(shù)據(jù)表示。

自舉式數(shù)據(jù)擴(kuò)充策略展現(xiàn)了另一種創(chuàng)新思路。通過用不完美的模型生成更多訓(xùn)練數(shù)據(jù)，然后用擴(kuò)充后的數(shù)據(jù)訓(xùn)練更好的模型，這種方法突破了標(biāo)注數(shù)據(jù)稀缺的瓶頸。雖然生成的數(shù)據(jù)可能不完美，但它們提供了更大的覆蓋范圍和多樣性，最終帶來了整體性能的提升。

多階段驗證機(jī)制確保了生成數(shù)據(jù)的質(zhì)量。執(zhí)行檢查、幾何有效性驗證和視覺-文本一致性檢查構(gòu)成了三重保險，每個階段都有針對性的修復(fù)機(jī)制。這種分層驗證避免了"垃圾進(jìn)，垃圾出"的問題，確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量。

視覺渲染策略的優(yōu)化也值得關(guān)注。6正交+2等距的8視圖配置相比傳統(tǒng)的4等距設(shè)置，為倒角和圓角提供了更清晰的幾何線索。深度編碼通過強(qiáng)度值的巧妙設(shè)計，讓AI能夠從2D圖像中推斷3D幾何信息。這些看似細(xì)微的改進(jìn)積累起來對最終性能產(chǎn)生了顯著影響。

十、實際應(yīng)用潛力與局限性分析

CADEvolve的成功為多個實際應(yīng)用場景開辟了可能性。在工程設(shè)計領(lǐng)域，該技術(shù)可以作為設(shè)計師的智能助手，根據(jù)草圖或參考圖像快速生成可編輯的CAD模型，大大加速概念設(shè)計到詳細(xì)設(shè)計的過程。在逆向工程方面，CADEvolve能夠從產(chǎn)品照片或掃描數(shù)據(jù)重建參數(shù)化模型，為產(chǎn)品改進(jìn)和制造提供便利。

在教育領(lǐng)域，這項技術(shù)可以幫助學(xué)生學(xué)習(xí)CAD操作序列，通過觀察AI如何將復(fù)雜形狀分解為基礎(chǔ)操作步驟來理解設(shè)計思路。對于CAD軟件開發(fā)商來說，CADEvolve提供了一個強(qiáng)大的自動化工具，可以集成到現(xiàn)有軟件中提供智能建模功能。

在制造業(yè)，特別是3D打印和快速原型制造領(lǐng)域，CADEvolve能夠快速將設(shè)計想法轉(zhuǎn)換為可制造的模型，縮短產(chǎn)品開發(fā)周期。對于定制化制造，客戶可以通過簡單的圖像描述獲得專業(yè)的CAD模型，降低了定制產(chǎn)品的門檻。

然而，研究團(tuán)隊也坦承了系統(tǒng)的一些局限性。首先是合成分布不匹配問題。CADEvolve是通過進(jìn)化循環(huán)產(chǎn)生的合成數(shù)據(jù)集，并不旨在匹配任何單一的專有工業(yè)CAD分布。因此，誘導(dǎo)的形狀和操作頻率可能與真實世界數(shù)據(jù)有所不同。盡管實驗中觀察到了跨多個基準(zhǔn)的改進(jìn)泛化，包括MCB上的更強(qiáng)性能，但團(tuán)隊并不聲稱與任何特定工業(yè)領(lǐng)域的分布級保真度。

其次是CadQuery方言范圍限制。生成的程序使用CadQuery表達(dá)，雖然許多操作在概念上是可移植的（如擠壓、旋轉(zhuǎn)、放樣、掃掠、倒角/圓角、布爾運(yùn)算），但由于特征歷史表示、內(nèi)核行為和約束語義的差異，忠實轉(zhuǎn)換到其他CAD系統(tǒng)可能并非易事。

計算成本也是需要考慮的因素。進(jìn)化過程需要大量的LLM調(diào)用和幾何驗證，這在實際部署時可能成為瓶頸。研究團(tuán)隊發(fā)現(xiàn)，隨著進(jìn)化的深入，無效提案率會顯著上升，這降低了計算效率。

最后，雖然CADEvolve顯著擴(kuò)展了操作覆蓋范圍，但仍然存在一些高級CAD功能的空白，如裝配體建模、約束求解和參數(shù)化關(guān)聯(lián)等。這些限制反映了當(dāng)前方法的邊界，也為未來研究指明了方向。

說到底，CADEvolve為AI輔助CAD設(shè)計領(lǐng)域帶來了突破性進(jìn)展。通過巧妙的進(jìn)化數(shù)據(jù)生成、嚴(yán)格的質(zhì)量控制和創(chuàng)新的訓(xùn)練方法，這項研究不僅解決了CAD訓(xùn)練數(shù)據(jù)稀缺的問題，更重要的是展示了AI在復(fù)雜工程設(shè)計中的巨大潛力。

雖然仍存在一些局限性，但CADEvolve已經(jīng)為未來的研究奠定了堅實基礎(chǔ)。隨著計算能力的提升和算法的進(jìn)一步優(yōu)化，我們有理由期待AI將在不遠(yuǎn)的將來成為工程師們不可或缺的設(shè)計伙伴。這項來自莫斯科國立大學(xué)等機(jī)構(gòu)的研究（arXiv:2602.16317v1）不僅推動了學(xué)術(shù)進(jìn)展，更為整個CAD行業(yè)的智能化轉(zhuǎn)型指明了方向。對于那些對AI與工程設(shè)計交叉領(lǐng)域感興趣的讀者，這篇論文無疑值得深入研究和思考。

Q&A

Q1：CADEvolve是什么？

A：CADEvolve是一個由莫斯科國立大學(xué)等機(jī)構(gòu)開發(fā)的AI系統(tǒng)，它能像生物進(jìn)化一樣從簡單幾何體開始，逐步"進(jìn)化"出復(fù)雜的工業(yè)級CAD設(shè)計。該系統(tǒng)包含進(jìn)化流水線、包含130萬個腳本的數(shù)據(jù)集，以及能將圖像轉(zhuǎn)換為CAD代碼的AI模型。

Q2：CADEvolve比傳統(tǒng)CAD數(shù)據(jù)生成方法有什么優(yōu)勢？

A：傳統(tǒng)方法主要局限于簡單的"畫圖-拉伸"操作，而CADEvolve能處理旋轉(zhuǎn)、掃掠、放樣、倒角等復(fù)雜操作的組合。它通過AI進(jìn)化生成了7945個復(fù)雜參數(shù)化生成器，涵蓋完整的CadQuery操作集，是第一個真正覆蓋工業(yè)級CAD操作的開源數(shù)據(jù)集。

Q3：普通工程師如何使用CADEvolve技術(shù)？

A：工程師可以通過CADEvolve-M模型，僅憑產(chǎn)品照片或多視圖圖像就能生成對應(yīng)的可編輯CAD程序。這大大加速了從概念設(shè)計到詳細(xì)建模的過程，特別適用于逆向工程、快速原型制作和定制化產(chǎn)品開發(fā)等場景。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.