国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

如何讓一張照片重建完整3D世界?

0
分享至

從一張普通照片中重建出完整的3D物體,這聽起來像是科幻電影里的情節(jié)。然而Meta的研究團隊真的做到了。他們開發(fā)的SAM 3D模型能夠從單張圖像中預(yù)測物體的形狀、紋理和空間位置,即使物體被遮擋或處于雜亂場景中也能準確重建。更令人驚訝的是,這個模型不僅能重建看得見的部分,還能推測出被遮擋的背面結(jié)構(gòu),就像人類大腦能從局部信息推斷整體一樣。


這項研究的突破性在于解決了3D領(lǐng)域長期存在的"數(shù)據(jù)壁壘"問題。傳統(tǒng)的3D重建模型主要依賴多視角幾何信息,但人類其實能從單張照片推斷深度和形狀,這種能力來自于識別和上下文理解。

早在1963年,計算機視覺先驅(qū)勞倫斯·羅伯茨就提出,當識別出圖像中的物體后,就能恢復(fù)其3D形狀和姿態(tài)。SAM 3D正是繼承了這一思想,并通過現(xiàn)代深度學習技術(shù)將其發(fā)揚光大。研究團隊創(chuàng)造性地設(shè)計了一套"人機協(xié)作"的數(shù)據(jù)標注流程,以前所未有的規(guī)模生成了包含形狀、紋理和姿態(tài)信息的3D數(shù)據(jù)集,使模型能夠在真實世界場景中表現(xiàn)出色。

核心技術(shù):從合成到真實的多階段訓(xùn)練

SAM 3D的訓(xùn)練過程可以類比為培養(yǎng)一位3D藝術(shù)家的成長歷程。就像藝術(shù)家需要經(jīng)歷基礎(chǔ)訓(xùn)練、實踐磨練和風格培養(yǎng)三個階段,SAM 3D也采用了預(yù)訓(xùn)練、中期訓(xùn)練和后期訓(xùn)練的多階段策略。

在預(yù)訓(xùn)練階段,模型從270萬個合成3D物體中學習基礎(chǔ)的形狀和紋理知識。這些物體來自O(shè)bjaverse-XL等數(shù)據(jù)庫,被渲染成24個不同視角的高分辨率圖像。此時的模型就像初學者臨摹石膏像,雖然能畫出規(guī)整的形狀,但缺乏應(yīng)對真實世界復(fù)雜情況的能力。這個階段消耗了2.5萬億個訓(xùn)練樣本,為后續(xù)學習打下堅實基礎(chǔ)。

中期訓(xùn)練階段引入了"半合成"數(shù)據(jù),即將3D物體渲染后粘貼到真實照片中。研究團隊開發(fā)了名為RP-3DO的數(shù)據(jù)集,包含6100萬個樣本。這個階段教會模型三個關(guān)鍵技能:遵循物體遮罩、處理遮擋情況、估計物體在場景中的位置和尺度。就像藝術(shù)家開始寫生,需要學會在復(fù)雜環(huán)境中抓住物體的本質(zhì)特征。特別值得一提的是"飛行遮擋物"技術(shù),通過在圖像中隨機添加遮擋物體,強制模型學習形狀補全能力。另一種"物體交換"技術(shù)則確保渲染的物體與真實場景在深度和尺度上保持一致,提供更真實的視覺線索。


后期訓(xùn)練是整個流程的精髓所在。傳統(tǒng)方法面臨的困境是:普通人無法直接創(chuàng)建3D模型,而專業(yè)3D藝術(shù)家成本高昂且效率低下。研究團隊巧妙地將問題轉(zhuǎn)化為"選擇題"——讓標注者從多個候選3D模型中選擇最匹配的一個,而不是從零開始創(chuàng)建。這種"模型在環(huán)"的標注流程包含三個關(guān)鍵步驟。

第一步是選擇目標物體。團隊從多個真實世界數(shù)據(jù)集中采樣圖像,包括大規(guī)模網(wǎng)絡(luò)圖片、日常環(huán)境視頻、以自我中心視角拍攝的數(shù)據(jù)集等,確保覆蓋廣泛的物體類別和場景類型。他們構(gòu)建了一個面向3D的物體分類體系,例如將不同品種的狗歸為一類,因為它們具有相似的3D結(jié)構(gòu)。通過這種方式,團隊標注了近100萬張圖像中的約314萬個物體。

第二步是3D模型的排序與選擇。由于普通標注者無法生成3D形狀,研究團隊部署了一套"模型套件",包括檢索方法、文本生成3D方法和圖像生成3D方法。對于每個物體,標注者會看到6到10個候選模型,通過一系列成對比較選出最佳匹配。這個過程采用"8選1"的最優(yōu)搜索策略,顯著提高了找到高質(zhì)量標注的概率。標注者隨后對選中的模型進行質(zhì)量評分,達標的樣本進入下一階段,不達標的作為偏好學習的負樣本。當所有模型都無法滿足要求時,這些困難樣本會被轉(zhuǎn)交給專業(yè)3D藝術(shù)家進行人工建模。

第三步是將3D模型對齊到2.5D場景。標注者使用專門開發(fā)的工具,將選定的3D模型在點云中進行旋轉(zhuǎn)、平移和縮放,使其與圖像中的物體精確對齊。點云由深度估計模型生成,提供了足夠的空間結(jié)構(gòu)信息,使標注者能夠一致地放置和定向物體。整個標注流程中,選擇物體平均需要10秒,選擇3D模型需要80秒,對齊模型需要150秒。


這套數(shù)據(jù)引擎的巧妙之處在于形成了一個良性循環(huán)。隨著模型性能提升,它在候選生成中的占比從最初的少數(shù)逐漸增加到約80%,數(shù)據(jù)質(zhì)量也隨之提高。研究團隊可以動態(tài)調(diào)整質(zhì)量閾值,只保留達到更高標準的樣本用于訓(xùn)練。最終,這個數(shù)據(jù)引擎產(chǎn)出了314萬個可訓(xùn)練的形狀、123萬個布局數(shù)據(jù)、10萬個紋理樣本,以及超過700萬對偏好數(shù)據(jù),規(guī)模前所未有。

在模型改進階段,團隊采用監(jiān)督微調(diào)和直接偏好優(yōu)化相結(jié)合的策略。監(jiān)督微調(diào)使用所有達到質(zhì)量標準的標注數(shù)據(jù),而直接偏好優(yōu)化則利用選擇過程中產(chǎn)生的偏好對——被選中的"更好"樣本和被拒絕的"較差"樣本。這種方法借鑒了大語言模型訓(xùn)練中的成功經(jīng)驗,能夠讓模型學習人類的審美偏好,抑制常見失敗模式,比如懸浮碎片、缺少底部的網(wǎng)格、缺失對稱性等問題。整個后期訓(xùn)練最終迭代使用了5000億個訓(xùn)練樣本。

為了實現(xiàn)亞秒級的形狀和布局推理,研究團隊還進行了模型蒸餾,將推理所需的函數(shù)評估次數(shù)從25次減少到4次,實現(xiàn)了10倍的速度提升,同時幾乎不損失性能。

模型架構(gòu):雙階段設(shè)計與混合變換器

SAM 3D的核心架構(gòu)采用兩階段設(shè)計,分別處理幾何和紋理。這種分工類似于雕塑家先塑造形體,再進行表面處理。


第一階段的幾何模型負責聯(lián)合預(yù)測物體的粗略形狀和空間布局。輸入編碼采用DINOv2作為視覺特征提取器,處理四組條件信息:裁剪后的物體圖像及其遮罩,提供高分辨率的局部視圖;完整圖像及其遮罩,提供全局場景上下文和識別線索。模型還可以選擇性地接受粗略的場景點云作為額外輸入,這些點云可以來自硬件傳感器或單目深度估計。

幾何模型的核心是一個包含12億參數(shù)的流變換器,采用"混合變換器"架構(gòu)。這種設(shè)計的精妙之處在于使用結(jié)構(gòu)化的注意力掩碼,允許不同模態(tài)之間共享信息,同時保持獨立的處理流。具體而言,模型包含兩個變換器流:一個專門處理形狀特征,另一個的參數(shù)在旋轉(zhuǎn)、平移和縮放之間共享。這種設(shè)計帶來兩個關(guān)鍵優(yōu)勢:能夠獨立訓(xùn)練或微調(diào)某些模態(tài),同時通過多模態(tài)自注意力層實現(xiàn)跨模態(tài)信息共享,確保預(yù)測的自洽性。

形狀的表示采用643分辨率的粗體素,旋轉(zhuǎn)使用6維連續(xù)表示法以避免不連續(xù)性,平移和縮放則直接在參數(shù)空間中去噪。所有模態(tài)映射到1024維的共享特征空間,形狀產(chǎn)生4096個token,而旋轉(zhuǎn)、平移、縮放各產(chǎn)生1個token。

第二階段的紋理與細化模型以幾何模型預(yù)測的粗體素為輸入,生成高分辨率的幾何細節(jié)和物體紋理。模型首先提取活躍體素,然后使用包含6億參數(shù)的稀疏潛在流變換器進行細化。最終的潛在表示可以通過兩個獨立訓(xùn)練的VAE解碼器轉(zhuǎn)換為網(wǎng)格或3D高斯點云,兩者共享相同的結(jié)構(gòu)化潛在空間。

研究團隊對紋理VAE進行了重要改進。原始設(shè)計將特征反投影到所有體素,包括不可見的遮擋部分,導(dǎo)致重建圖像清晰度下降。改進后的"深度感知VAE"只將特征反投影到從當前視圖可見的體素,利用深度信息進行遮擋處理,顯著提升了重建質(zhì)量。訓(xùn)練時,KL正則化項按活躍體素數(shù)量歸一化,防止大物體主導(dǎo)訓(xùn)練損失。

整個系統(tǒng)的訓(xùn)練采用整流條件流匹配目標函數(shù)。對于幾何模型,目標是學習從噪聲分布到目標分布的速度場,聯(lián)合生成形狀、旋轉(zhuǎn)、平移和縮放。每個模態(tài)都有獨立的權(quán)重系數(shù),用于平衡不同輸出的重要性。紋理模型采用類似的流匹配策略,在潛在空間中細化形狀并合成紋理。

訓(xùn)練超參數(shù)方面,預(yù)訓(xùn)練階段在512個A100 GPU上進行200輪,中期訓(xùn)練先在320個GPU上運行50輪,再在128個GPU上額外訓(xùn)練50輪,物體交換數(shù)據(jù)在256個GPU上訓(xùn)練12輪。監(jiān)督微調(diào)在128個H200 GPU上進行100輪,隨著數(shù)據(jù)引擎產(chǎn)生更高質(zhì)量的數(shù)據(jù),質(zhì)量閾值逐步提高,最終保留50萬個樣本。偏好優(yōu)化在128個A100上運行1輪。紋理模型的訓(xùn)練規(guī)模相當,預(yù)訓(xùn)練在256個A100上進行245輪,中期訓(xùn)練80輪,監(jiān)督微調(diào)89輪,偏好優(yōu)化2輪。

值得注意的是,研究團隊在紋理訓(xùn)練中引入了光照增強技術(shù)。對于合成數(shù)據(jù),他們在渲染輸入圖像時使用隨機光照,而在渲染目標潛在表示的視圖時使用環(huán)境光照。這種設(shè)計鼓勵模型學習預(yù)測"去光照"的紋理,避免將強方向性陰影或高光烘焙到紋理中,使生成的3D資產(chǎn)更加通用。

評估體系:藝術(shù)家級別的基準測試

為了全面評估SAM 3D在真實世界場景中的能力,研究團隊構(gòu)建了一個名為SA-3DAO的新基準測試集。這個數(shù)據(jù)集包含1000個由專業(yè)3D藝術(shù)家從自然圖像創(chuàng)建的高保真3D物體。與現(xiàn)有基準相比,SA-3DAO的獨特之處在于其視覺多樣性和真實世界復(fù)雜性。

數(shù)據(jù)集覆蓋的場景包括公園、滑雪場、跳蚤市場、游行等室內(nèi)外環(huán)境,物體范圍從大型結(jié)構(gòu)如滑雪纜車和自動扶梯,到日常用品如衣物,再到罕見的文化特定物體如部落面具。藝術(shù)家的任務(wù)是從單張圖像中恢復(fù)物體的完整3D形狀,必須處理局部信息缺失、自然遮擋、物體尺寸較小等挑戰(zhàn)。為了填補這些信息空白,藝術(shù)家依靠識別和上下文,使用常識先驗、物理合理性假設(shè)和對稱性原則來完成網(wǎng)格。

制作這些高質(zhì)量基準數(shù)據(jù)的成本相當高昂。對于簡單幾何形狀的明顯物體,藝術(shù)家可能只需5分鐘,但對于復(fù)雜案例可能需要超過5小時。數(shù)據(jù)集中網(wǎng)格的中位數(shù)包含4751個頂點,許多圖像提供了多個物體,每張圖像的物體數(shù)量遵循大致的冪律分布,最多可達11個物體。

研究團隊還設(shè)計了針對不同場景的人類偏好測試集,包括四個領(lǐng)域:從SA-1B均勻采樣1000個圖像和物體遮罩對,覆蓋多樣的物體類別;從MetaCLIP選擇1000個中度或嚴重遮擋的樣本;從LVIS密集采樣1000張包含10到30個物體的場景圖像;從Aria數(shù)字孿生數(shù)據(jù)集采樣40個視頻幀,每個場景約30個物體。這些測試集分別評估模型在長尾類別、遮擋情況、密集場景和高精度點云場景中的表現(xiàn)。

評估指標涵蓋形狀、紋理和布局三個方面。對于形狀質(zhì)量,研究團隊使用四個互補指標:F1分數(shù)(閾值0.01)測量0.01閾值下重建點和真實點之間的對應(yīng)精度;體素IoU提供粗略的體積一致性評分;倒角距離測量雙向最近鄰距離,突出細粒度幾何偏差;推土機距離量化將一個點分布轉(zhuǎn)換為另一個點分布所需的最小成本,更加嚴格地捕捉全局結(jié)構(gòu)差異。這些指標從局部精度到全局形狀一致性提供了全面的重建保真度視圖。

對于紋理評估,由于SA-3DAO的藝術(shù)家創(chuàng)建的網(wǎng)格是無紋理的,研究團隊采用感知相似度指標。在ISO3D數(shù)據(jù)集上,他們使用ULIP和Uni3D計算點云特征和圖像特征之間的跨模態(tài)相似度,每個生成的網(wǎng)格均勻采樣8192個表面點形成點云表示。

布局評估采用標準的6D姿態(tài)估計指標:3D IoU測量預(yù)測和真實3D軸對齊邊界框的重疊;ICP旋轉(zhuǎn)誤差是ICP對齊后的殘差旋轉(zhuǎn)誤差(以度為單位);ADD-S(對稱平均距離)是預(yù)測和真實姿態(tài)物體之間的對稱化平均最小點對點距離,按物體直徑歸一化;ADD-S@0.1表示ADD-S距離是否小于物體直徑的10%。這些指標全面衡量了模型預(yù)測物體空間位置和方向的準確性。

實驗結(jié)果:壓倒性優(yōu)勢

在SA-3DAO基準測試上,SAM 3D展現(xiàn)出顯著優(yōu)于現(xiàn)有最先進方法的性能。與最近的Trellis、Hunyuan3D-2.1、Direct3D-S2、TripoSG和Hi3DGen等模型相比,SAM 3D在所有形狀質(zhì)量指標上都取得了大幅領(lǐng)先。具體而言,F1分數(shù)達到0.2344,相比第二名提升約44%;體素IoU為0.2311,提升約51%;倒角距離降至0.0400,改善超過50%;推土機距離為0.1211,也有顯著提升。


在人類偏好測試中,結(jié)果更加令人印象深刻。對于真實圖像的單物體重建,SAM 3D獲得了5:1的壓倒性勝率。在場景級重建方面,用戶以6:1的比例更偏好SAM 3D的結(jié)果。這些偏好測試在三個評估集上進行,涵蓋了場景偏好集、LVIS和Aria數(shù)字孿生數(shù)據(jù)集,結(jié)果一致顯示SAM 3D的顯著優(yōu)勢。

特別值得關(guān)注的是模型在處理遮擋和雜亂場景時的表現(xiàn)。定性示例清楚地展示了SAM 3D在嚴重遮擋情況下的強大泛化能力。當物體被部分遮擋或處于復(fù)雜場景中時,競爭方法往往產(chǎn)生不完整或扭曲的重建,而SAM 3D能夠利用上下文線索和識別能力,推斷出合理的完整形狀。

對于3D場景重建,SAM 3D在實際數(shù)據(jù)如SA-3DAO和Aria數(shù)字孿生數(shù)據(jù)集上的改進尤為顯著。模型引入了聯(lián)合生成形狀和布局的新能力,將ADD-S@0.1指標從2%提升到77%。即使與使用SAM 3D網(wǎng)格的流水線方法相比,性能提升依然持續(xù)存在。研究團隊還展示了"采樣后優(yōu)化"方法可以進一步改善性能,類似于渲染比較方法,在554個接受優(yōu)化的樣本中,3D布局指標和2D遮罩IoU都有顯著提升。


紋理質(zhì)量方面,SAM 3D同樣表現(xiàn)出色。在使用相同SAM 3D幾何形狀的紋理生成對比中,標注者顯著偏好SAM 3D的紋理結(jié)果。在ISO3D數(shù)據(jù)集上,SAM 3D相對于Trellis的勝率達到81.1%,相對于Hunyuan3D-2.1為63.8%,相對于Unitex為83.3%。偏好集和SA-3DAO上的結(jié)果同樣一邊倒,勝率普遍在84%以上。這主要歸功于SAM 3D在處理遮擋和雜亂環(huán)境時的優(yōu)勢,而這正是先前工作的薄弱環(huán)節(jié)。

研究團隊通過一系列消融實驗驗證了設(shè)計選擇的有效性。多階段訓(xùn)練的級聯(lián)改進實驗顯示,每添加一個訓(xùn)練階段,形狀質(zhì)量指標都呈現(xiàn)近乎單調(diào)的提升。從僅預(yù)訓(xùn)練到添加中期訓(xùn)練,F1分數(shù)從0.1349提升到0.1705;繼續(xù)添加MITL-3DO監(jiān)督微調(diào)后達到0.2027;DPO進一步提升到0.2156;加入藝術(shù)家數(shù)據(jù)的監(jiān)督微調(diào)達到0.2331;最終的藝術(shù)家數(shù)據(jù)DPO將性能推至0.2344。

對于中間訓(xùn)練階段的剔除實驗表明,任何一個真實世界數(shù)據(jù)階段的缺失都會導(dǎo)致明顯的性能下降。移除MITL-3DO訓(xùn)練使F1分數(shù)下降到0.2211,移除藝術(shù)家數(shù)據(jù)降至0.2027,不使用MITL-3DO的DPO則為0.2156。這驗證了整個訓(xùn)練流程中每個組件的必要性。

紋理模型的消融實驗揭示了幾個關(guān)鍵設(shè)計選擇的重要性。光照增強是最關(guān)鍵的因素,帶來顯著的偏好提升。遮罩和模糊增強主要針對特定挑戰(zhàn)場景,在整體評估中效果被稀釋但仍然重要。RP-3DO數(shù)據(jù)對于適應(yīng)真實世界至關(guān)重要。后期訓(xùn)練數(shù)據(jù)帶來顯著增益,數(shù)據(jù)引擎的有效性得到證明,DPO進一步放大了增益。此外,獲取特定類型的高美學數(shù)據(jù)和擴展數(shù)據(jù)規(guī)模都顯示出顯著改進。

旋轉(zhuǎn)表示的消融實驗證實,從四元數(shù)切換到6D連續(xù)旋轉(zhuǎn)參數(shù)化顯著降低了定向旋轉(zhuǎn)誤差。進一步對6D旋轉(zhuǎn)向量進行歸一化又帶來額外改進。點云條件對形狀性能的影響最小,在LVIS上的頭對頭偏好測試中,有點云和無點云的版本各被選擇約48%的時間。

數(shù)據(jù)引擎中獎勵模型輔助的最優(yōu)N選搜索實驗顯示,使用獎勵模型從50個候選中篩選能夠?qū)⒗щy樣本的成功標注率從0%提升到86.8%。在難度測試集、Epic Kitchens和SA-3DAO上,使用恢復(fù)數(shù)據(jù)進行微調(diào)都改善了模型在挑戰(zhàn)性輸入上的性能。這表明進一步放大專家策略可以提高數(shù)據(jù)引擎的收斂速度。

技術(shù)創(chuàng)新與未來展望

SAM 3D的成功建立在幾個關(guān)鍵創(chuàng)新之上。核心突破在于將大語言模型訓(xùn)練范式成功移植到3D領(lǐng)域。傳統(tǒng)3D重建受限于數(shù)據(jù)稀缺,而SAM 3D通過合成預(yù)訓(xùn)練建立豐富的形狀和紋理詞匯,通過半合成中期訓(xùn)練學習處理遮擋和場景布局的能力,最后通過真實世界后期訓(xùn)練對齊人類偏好。這種從合成到真實的漸進式學習策略,有效彌補了3D領(lǐng)域與文本、圖像、視頻等領(lǐng)域數(shù)量級的數(shù)據(jù)差距。

模型在環(huán)的數(shù)據(jù)標注流程是另一個關(guān)鍵創(chuàng)新。研究團隊將無法直接完成的3D建模任務(wù)轉(zhuǎn)化為人類擅長的選擇和驗證任務(wù)。通過部署包含檢索、文本生成3D、圖像生成3D等多種方法的模型套件,并讓標注者從8個候選中選擇最佳匹配,這種"最優(yōu)N選"搜索顯著提高了找到高質(zhì)量標注的概率。更重要的是,這個過程形成了良性循環(huán):改進的模型產(chǎn)生更好的候選,更好的候選帶來更高質(zhì)量的標注,更高質(zhì)量的標注又進一步改進模型。歷史Elo評分顯示,隨著數(shù)據(jù)引擎迭代運行,模型性能穩(wěn)步提升,呈現(xiàn)近似線性的擴展規(guī)律。

混合變換器架構(gòu)巧妙地平衡了模態(tài)獨立性和信息共享。通過結(jié)構(gòu)化注意力掩碼,模型能夠獨立訓(xùn)練或微調(diào)某些模態(tài),同時通過多模態(tài)自注意力層實現(xiàn)跨模態(tài)交互。這種設(shè)計使得模型可以在只有部分模態(tài)標注的數(shù)據(jù)上訓(xùn)練,也可以凍結(jié)某些能力只微調(diào)其他部分,大大提高了訓(xùn)練的靈活性。

深度感知的VAE改進看似簡單,卻帶來了紋理質(zhì)量的顯著提升。通過只將特征反投影到可見體素,模型避免了不可見區(qū)域的特征污染,使重建圖像更加清晰。結(jié)合光照增強技術(shù),模型學會預(yù)測不受光照影響的"去光照"紋理,使生成的3D資產(chǎn)具有更好的通用性。

模型蒸餾技術(shù)借鑒了擴散模型的"捷徑模型"方法,通過結(jié)合流匹配目標和自一致性目標,成功將推理步數(shù)從25步減少到4步,實現(xiàn)10倍速度提升,同時幾乎不損失性能。這對于需要在線3D感知能力的應(yīng)用(如機器人)至關(guān)重要。

當然,SAM 3D也存在一些局限性。由于架構(gòu)超參數(shù)的限制,模型的分辨率存在上限。幾何模型使用643的粗體素分辨率,每個占用體素最多32個高斯點。這對許多物體足夠,但對于復(fù)雜形狀或人類視覺系統(tǒng)特別敏感的特征,可能導(dǎo)致可察覺的失真或細節(jié)丟失。當重建整個人體時,分配給手部或面部的體素/高斯點數(shù)量受限于整體身體的尺度,可能產(chǎn)生可察覺的偽影。相比之下,當只關(guān)注單只手或頭部時,可用的相對分辨率更高,SAM 3D能夠重建得顯著更好。

物體布局是另一個需要改進的領(lǐng)域。SAM 3D逐個預(yù)測物體,沒有被訓(xùn)練來推理物理交互,如接觸、物理穩(wěn)定性、相互穿透或共同對齊。多物體聯(lián)合預(yù)測結(jié)合適當?shù)膿p失函數(shù),將允許對場景中多個物體進行聯(lián)合推理。此外,SAM 3D的紋理預(yù)測不知道預(yù)測物體的姿態(tài),對于具有旋轉(zhuǎn)對稱性的物體,偶爾會預(yù)測出實際上將物體旋轉(zhuǎn)到錯誤方向的紋理。

SAM 3D為3D重建和下游應(yīng)用開啟了新的可能性。在機器人領(lǐng)域,能夠從單張圖像快速重建場景中物體的完整3D形狀和位置,將極大增強機器人的環(huán)境理解和操作能力。在增強現(xiàn)實和虛擬現(xiàn)實中,SAM 3D可以實時將真實世界物體轉(zhuǎn)換為虛擬資產(chǎn),實現(xiàn)更自然的混合現(xiàn)實體驗。在游戲和電影制作中,創(chuàng)作者可以快速從參考圖像生成高質(zhì)量3D資產(chǎn),大幅縮短制作周期。在電子商務(wù)領(lǐng)域,商品照片可以自動轉(zhuǎn)換為可旋轉(zhuǎn)查看的3D模型,提升用戶體驗。

本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。致力于推動生成式AI在各個領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場景,為企業(yè)和個人提供切實可行的解決方案。

Q&A

Q1:SAM 3D相比傳統(tǒng)3D重建方法有什么優(yōu)勢?

A:SAM 3D的核心優(yōu)勢在于能夠從單張自然圖像重建完整的3D物體,即使在遮擋和雜亂場景中也表現(xiàn)出色。傳統(tǒng)方法主要依賴多視角幾何信息或需要在隔離環(huán)境中拍攝的物體照片。SAM 3D通過結(jié)合識別和上下文理解,能夠像人類一樣從局部信息推斷整體結(jié)構(gòu)。在人類偏好測試中,SAM 3D相對于現(xiàn)有最先進方法獲得了至少5:1的勝率,在真實世界場景的表現(xiàn)遠超競爭對手。

Q2:模型在環(huán)的數(shù)據(jù)標注流程是如何工作的?

A:這個流程巧妙地將困難的3D建模任務(wù)轉(zhuǎn)化為選擇和驗證任務(wù)。系統(tǒng)首先使用多種方法(檢索、文本生成3D、圖像生成3D)生成6到10個候選3D模型,標注者通過成對比較選出最匹配的一個,然后對其質(zhì)量評分。達標樣本進入下一階段對齊,不達標樣本作為偏好學習的負樣本。特別困難的案例會轉(zhuǎn)交專業(yè)3D藝術(shù)家處理。隨著模型改進,它在候選生成中的占比從少數(shù)增加到約80%,形成良性循環(huán)。整個數(shù)據(jù)引擎最終產(chǎn)出了314萬個形狀、123萬個布局數(shù)據(jù)和10萬個紋理樣本。

Q3:SAM 3D模型在實際應(yīng)用中的推理速度如何?

A:研究團隊通過模型蒸餾技術(shù)實現(xiàn)了顯著的速度提升。通過采用"捷徑模型"方法,將推理所需的函數(shù)評估次數(shù)從25次減少到4次,實現(xiàn)了10倍的速度提升,同時幾乎不損失性能。對于幾何模型,使用1步和4步方法分別實現(xiàn)了38倍和10倍的推理速度改進。這使得SAM 3D能夠?qū)崿F(xiàn)亞秒級的形狀和布局預(yù)測,滿足需要在線3D感知能力的應(yīng)用需求,如機器人操作、增強現(xiàn)實等場景。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國海警發(fā)海報,要查扣美國軍火?四國已經(jīng)集結(jié),準備對華出手?

中國海警發(fā)海報,要查扣美國軍火?四國已經(jīng)集結(jié),準備對華出手?

薦史
2026-01-01 10:08:49
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報
2025-12-14 22:36:54
賴清德再次大放厥詞:臺灣與中國互不隸屬,臺灣不是中國的一部分

賴清德再次大放厥詞:臺灣與中國互不隸屬,臺灣不是中國的一部分

李昕言溫度空間
2025-10-08 17:03:54
險勝!穆雷21+7+6全隊第一,瓦蘭17+9受傷,鶯歌30+8絕平三分超時

險勝!穆雷21+7+6全隊第一,瓦蘭17+9受傷,鶯歌30+8絕平三分超時

魚崖大話籃球
2026-01-01 11:23:59
醫(yī)學的盡頭真是玄學嗎?網(wǎng)友:國家不讓你迷信,沒說讓你不信

醫(yī)學的盡頭真是玄學嗎?網(wǎng)友:國家不讓你迷信,沒說讓你不信

帶你感受人間冷暖
2025-12-31 00:20:05
轟36+11三分創(chuàng)九紀錄!198秒4記關(guān)鍵3分 馬刺300萬投手一戰(zhàn)成名

轟36+11三分創(chuàng)九紀錄!198秒4記關(guān)鍵3分 馬刺300萬投手一戰(zhàn)成名

顏小白的籃球夢
2026-01-01 11:18:18
參加競聘,回歸國乒?塵埃落定,孔令輝現(xiàn)身,誰注意他的打扮

參加競聘,回歸國乒?塵埃落定,孔令輝現(xiàn)身,誰注意他的打扮

樂聊球
2025-12-31 10:28:56
國安中場加盟海港頂替徐新,簽約三年,在國安得不到尊重被稱水貨

國安中場加盟海港頂替徐新,簽約三年,在國安得不到尊重被稱水貨

體壇風之子
2026-01-01 07:00:11
說好換血呢?邵佳一招11位30+老將!球迷吐槽:名單令人兩眼一黑

說好換血呢?邵佳一招11位30+老將!球迷吐槽:名單令人兩眼一黑

我愛英超
2026-01-01 11:15:23
鄭青,已赴任浙江

鄭青,已赴任浙江

新京報政事兒
2026-01-01 10:26:56
國臺辦回應(yīng)臺灣網(wǎng)紅“館長”大陸直播帶貨:商業(yè)性活動只要合法合規(guī),均受法律保護

國臺辦回應(yīng)臺灣網(wǎng)紅“館長”大陸直播帶貨:商業(yè)性活動只要合法合規(guī),均受法律保護

紅星新聞
2025-12-31 13:37:26
大滿貫!23歲美女學霸當選清華年度人物 比肩龐眾望 真實身份曝光

大滿貫!23歲美女學霸當選清華年度人物 比肩龐眾望 真實身份曝光

念洲
2026-01-01 09:27:26
印度神劇《加勒萬之戰(zhàn)》制作完畢,4個月后上映!主題“打贏了”

印度神劇《加勒萬之戰(zhàn)》制作完畢,4個月后上映!主題“打贏了”

科普大世界
2025-12-29 21:23:58
蒂格:東契奇現(xiàn)在比不過坎寧安,他是進攻天才但防不住任何人

蒂格:東契奇現(xiàn)在比不過坎寧安,他是進攻天才但防不住任何人

懂球帝
2026-01-01 00:57:08
60歲被親兒子帶入演藝圈,73歲成“百億老太”,現(xiàn)在比兒子還要紅

60歲被親兒子帶入演藝圈,73歲成“百億老太”,現(xiàn)在比兒子還要紅

空間設(shè)計
2025-12-31 12:14:55
“AI教父”警告:AI顯現(xiàn)自我保護跡象,人類應(yīng)做好“拔掉插頭”的準備

“AI教父”警告:AI顯現(xiàn)自我保護跡象,人類應(yīng)做好“拔掉插頭”的準備

財聯(lián)社
2026-01-01 00:40:06
華為1TB新品突然上架,真的有點猛??!

華為1TB新品突然上架,真的有點猛??!

科技堡壘
2025-12-31 12:08:18
日虧200萬,四川“最貴”天府機場高速公路,被也在虧損的成都交投集團接盤了

日虧200萬,四川“最貴”天府機場高速公路,被也在虧損的成都交投集團接盤了

穿透公司
2025-12-30 15:16:17
小米汽車發(fā)布年度總結(jié) SU7奪20萬以上轎車銷量第一

小米汽車發(fā)布年度總結(jié) SU7奪20萬以上轎車銷量第一

手機中國
2025-12-31 16:42:30
H200對華價格確定!

H200對華價格確定!

EETOP半導(dǎo)體社區(qū)
2026-01-01 08:39:32
2026-01-01 11:51:00
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。
895文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

2026,沖刺商業(yè)航天第一股!

頭條要聞

上海女子掏空公司3500萬養(yǎng)上百只貓:只能去牢里改造了

頭條要聞

上海女子掏空公司3500萬養(yǎng)上百只貓:只能去牢里改造了

體育要聞

文班31+13傷退馬刺19分逆轉(zhuǎn)尼克斯 尚帕尼36+11三分隊史第一

娛樂要聞

跨年零點時刻好精彩!何炅飛奔擁抱

財經(jīng)要聞

巴菲特「身退,權(quán)還在」

汽車要聞

零跑汽車2025年全年交付達596555臺 全年同比增長103%

態(tài)度原創(chuàng)

本地
時尚
健康
公開課
軍事航空

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠

小黑靴不流行了?今年冬天最火的靴子竟然是它

元旦舉家出行,注意防流感

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍襲擊2艘所謂"從事毒品走私活動"船只 致5人死亡

無障礙瀏覽 進入關(guān)懷版