網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

對話VAST曹炎培：2秒才是3D生成本該有的速度

2026-03-12 19:33:52　來源: 量子位

北京舉報

分享至

完全零基礎(chǔ)，自己手搓一個權(quán)游里龍媽的3D模型，需要多久？

2秒

接著再給它貼上紋理，大概10秒以內(nèi)，我就無痛得到了一個3D龍媽。

不僅快，而且細(xì)節(jié)豐富、拓?fù)涓蓛?、布線穩(wěn)定。

同樣，只甩一張參考圖，我還可以快速生成《底特律：變?nèi)恕防锏目导{。

這是貼上紋理之后的效果：人物的面部表情，衣服的細(xì)節(jié)，都跟參考圖里別無二致。

或者我還可以輸入提示詞：

一位森林精靈角色，身穿樹葉服飾，腳踩靴子，背著小挎包。

然后再給它一張圖做參考：

接著，我就得到了一個非?？蓯鄣纳中【`！

仔細(xì)看看，從人物發(fā)型、面部再到服飾，每一處細(xì)節(jié)都被精準(zhǔn)刻畫了出來。

這就是VAST在Tripo Studio中最新上線的Smart Mesh功能，也是放眼全球斷層領(lǐng)先的能力。

它可以實(shí)現(xiàn)僅靠提示詞或參考圖，2秒內(nèi)極速生成3D模型，水平堪比專業(yè)建模師。

Smart Mesh背后的模型是VAST最新發(fā)布的Tripo P1.0，它取得了一項(xiàng)驚人的?業(yè)范式級突破：?次在原?三維空間中實(shí)現(xiàn)概率?成，從底層重構(gòu)了AI 3D?成的算法架構(gòu)

如果你追求極致精度，那么VAST最近更新的另一款模型——Tripo H3.1可以幫上你的忙。作為高精模型，它的每一次迭代都做到了行業(yè)SOTA，更新后的版本在輸入對齊、結(jié)構(gòu)精度、貼圖質(zhì)量等核心指標(biāo)上又有了進(jìn)一步提升。

就在上周，VAST還宣布完成5000萬美元A輪融資，領(lǐng)投方為阿里和恒旭資本，元禾璞華、BV百度風(fēng)投、東方嘉富跟投，老股東春華創(chuàng)投和北京市人工智能產(chǎn)業(yè)投資基金也在繼續(xù)加注。

手握突破性技術(shù)和5000萬美元融資，VAST向他們成立之初的愿景又邁進(jìn)了一步——讓每個人都能創(chuàng)造屬于自己的互動世界。

借此機(jī)會，量子位也與VAST首席科學(xué)家曹炎培展開了一次對話，聊聊他們?yōu)槭裁匆瞥鯰ripo P1.0、它的范式重構(gòu)體現(xiàn)在什么地方，以及VAST在UGC和世界模型領(lǐng)域的下一步動向。

曹炎培告訴我們，P1.0模型對傳統(tǒng)AI 3D底層范式的“重構(gòu)”體現(xiàn)在兩方面：

第一，業(yè)內(nèi)主流的高模生成流程是將多邊形網(wǎng)格轉(zhuǎn)化成高模的表達(dá)形式，比如SDF，或者VAST之前提出的SparseFlex，進(jìn)而生成高模。如果想用在輕量級應(yīng)用中，還需要減面和重拓?fù)洹?strong>這其實(shí)是在原始數(shù)據(jù)和最終想要的資產(chǎn)之間繞了遠(yuǎn)路

第二，行業(yè)內(nèi)過去一段時間存在一個很大的誤區(qū)：由于語言模型取得了巨大的成功，使得研究員們會更愿意借鑒自回歸建模和生成模型，即“強(qiáng)行”將3D數(shù)據(jù)序列化，將其變成一個個排序后的token。這實(shí)際上非常反直覺，也違背了3D空間的各向同性。

簡單來說，在對token排列定義順序后，排序會讓幾何圖形之間產(chǎn)生因果，待要生成的幾何將僅依賴于之前已經(jīng)生成出來的信號。但三維空間本身并沒有絕對的前后左右之分，它是全對稱的，沒有一種天然的方式對其中的信號進(jìn)行排序。

序列生成的方法不僅反直覺、不自然，也打破了三維數(shù)據(jù)本身的規(guī)律，無法取得好的生成效果和速度：

如果想在秒級內(nèi)生成高質(zhì)量網(wǎng)格，不可能走自回歸路線——要生成幾萬個多邊形，以當(dāng)下的算力和范式不可能在一秒內(nèi)自回歸生成數(shù)萬token。

而Tripo P1.0的關(guān)鍵技術(shù)創(chuàng)新，就是采用“整體生成”的方法：對三角形或多邊形的點(diǎn)線面進(jìn)行統(tǒng)一的概率建模，生成出來的模型同時具有幾何和拓?fù)浣Y(jié)構(gòu)。

基于這一方法，Tripo P1.0可以做到2秒內(nèi)極速生成。曹炎培表示，傳統(tǒng)方法慢得不合理，生成三維網(wǎng)格信號本就不需要幾百秒的時間，而VAST只是讓它進(jìn)入了對的路徑，達(dá)到了本該有的速度

一些用戶試用Tripo P1.0后給出的評價是：它生成出的模型，已經(jīng)幾乎和經(jīng)驗(yàn)豐富的專業(yè)建模師設(shè)計(jì)出來的模型毫無區(qū)別。

而曹炎培透露，VAST內(nèi)部評估，在部分細(xì)節(jié)展現(xiàn)及造型要求非常嚴(yán)格的工業(yè)場景，模型還有提升空間，但整體已經(jīng)達(dá)到了多年工作經(jīng)驗(yàn)設(shè)計(jì)師的九成水平

我們對P1.0的期待，也是它實(shí)際能做到的，是讓更多以前不了解什么是3D模型的用戶跳過對建模工具的學(xué)習(xí)，甚至不需要知道世界上有建模工具的存在，就可以得到一個在目標(biāo)場景里、符合用戶意圖的3D資產(chǎn)。
當(dāng)獲取內(nèi)容的門檻降到無限低之后，UGC平臺自然就會爆發(fā)。AI時代限制大家創(chuàng)作的不再是技能或工具本身，只要有想象力，就有各種各樣的模型和AI可以幫助完成創(chuàng)作。

曹炎培透露，今年VAST將推出自己的UGC 3D平臺。H系列和P系列模型負(fù)責(zé)創(chuàng)造世界中的實(shí)體，世界模型及代碼生成模型負(fù)責(zé)模擬這些實(shí)體隨時間的變化和空間交互。在這些計(jì)算能力之上，他們希望打造一個比Roblox和Minecraft門檻更低的AI原生UGC互動平臺

在這個UGC平臺上，用戶可以創(chuàng)作和瀏覽可互動的3D內(nèi)容，并在社區(qū)分享與傳播，類似一個“3D版TikTok”。

另外，曹炎培也向我們透露了VAST研究世界模型的最新進(jìn)展：很快會有demo公布，它會是一個具備交互能力的世界。

在曹炎培看來，Tripo P1.0的發(fā)布，標(biāo)志著AI 3D?模型算法范式正式進(jìn)?2.0階段。他認(rèn)為，AI 3D的1.0時代可以定義為追求視覺或幾何擬真的時代：

過去幾年大家追求的，就是讓AI生成的3D看起來更真實(shí)更細(xì)節(jié)，包括紋理層面和幾何層面都要精細(xì)。技術(shù)路線經(jīng)歷了幾波發(fā)展，但歸根到底追求的是“看起來好”。

而2.0時代具備三個特征：第一，原生資產(chǎn)，不需要再做復(fù)雜轉(zhuǎn)化；第二，生成的資產(chǎn)具有功能性，具備可以參與交互和運(yùn)動的特性，比如機(jī)器人中的關(guān)節(jié)結(jié)構(gòu)或動畫制作中的骨骼結(jié)構(gòu)；第三，打破速度、質(zhì)量、可用性的“不可能三角”

這三點(diǎn)，Tripo P1.0都可以做到。

關(guān)鍵技術(shù)的創(chuàng)新和突破，也給足了VAST底氣。當(dāng)被問及“VAST目前處于行業(yè)什么地位”時，曹炎培毫不猶豫地表示：現(xiàn)在VAST處在全球3D領(lǐng)域全棧領(lǐng)軍的位置

在生成質(zhì)量方面，H3.1是此時此刻最好的高模生成模型。在底層思考和整個范式重構(gòu)方面，我們不只是率先提出原生網(wǎng)格生成的思想，更是快速地把它做成了大家可以在產(chǎn)品上體驗(yàn)的P1.0模型，定義了極速生成的速度和性能天花板。
某種程度上它確立了現(xiàn)代3D生成和引擎工具、圖形標(biāo)準(zhǔn)之間的一種底層連接，背后是定義和發(fā)明新的原生3D表征的能力，這在整個賽道是很強(qiáng)的話語權(quán)。

以下是量子位與曹炎培的部分對話實(shí)錄，在不改變原意的基礎(chǔ)上，進(jìn)行了適當(dāng)?shù)恼砗蜐櫳?，各位enjoy~

Tripo P1.0：重構(gòu)AI 3D底層范式

量子位：過去幾年，Tripo的H系列不斷迭代，在行業(yè)中也達(dá)到了SOTA水平，為什么團(tuán)隊(duì)現(xiàn)在仍然決定從底層重新設(shè)計(jì)一套P系列模型？最初是基于什么問題重新思考3D生成算法架構(gòu)的？

曹炎培：先講一下H系列的歷史和迭代。早期3D生成能力普遍一般時，大家首先追求外觀上盡可能高質(zhì)量、可用，和圖像、視頻生成的目標(biāo)一樣——分辨率高、條件對齊好、可控、可編輯。Tripo從1.0到1.4、2.0、2.5、3.0、3.1，整個H系列都在解決解析度、保真度、分辨率極限的問題，也做了很強(qiáng)的模型、算力、數(shù)據(jù)scaling。

H系列確實(shí)已經(jīng)在很多場景用起來了，比如拓竹MakerWorld等消費(fèi)級3D打印社區(qū)，用戶可以直接調(diào)用我們的API生成模型再打??；H3.0之后，很多影視特效或3A角色的參考建模也夠用了。

但在實(shí)時圖形領(lǐng)域，大家更關(guān)注效率和渲染預(yù)算，非常追求網(wǎng)格本身的性質(zhì)。原因有幾個：一方面GPU能同時渲染的三角形和多邊形數(shù)量仍然有限，為了節(jié)約成本，做游戲或交互內(nèi)容時要盡可能用更少的多邊形表示資產(chǎn)，以讓場景容量更大、幀率更高、畫面更流暢。

另一方面，整個3D行業(yè)的紋理、動畫等工作流都建立在多邊形網(wǎng)格基礎(chǔ)上——比如動畫對拓?fù)滟|(zhì)量要求格外高，希望肩膀、肘部等大形變部位有規(guī)整的拓?fù)渚€；UV的分界也需要和幾何分界強(qiáng)對應(yīng)，方便貼圖。

（注：UV指UV映射，是把3D模型表面“展開”到二維平面上的坐標(biāo)系統(tǒng)，用來貼紋理）

所以傳統(tǒng)高模生成面對這些問題局限性很大。過去幾個月也有人用自回歸方式逐個token、逐個三角形來生成，但效率和效果都不盡如人意。市面上能提供智能拓?fù)淠芰Φ姆?wù)，可能需要好幾百秒才能從高模得到精細(xì)拓?fù)?，?yán)重限制了廣泛使用的可能性。

基于這些觀察，我們從很早之前就在思考：如果最終想生成多邊形網(wǎng)格，為什么要經(jīng)過那么多中間表示的轉(zhuǎn)化，為什么不能直接在原始信號上學(xué)習(xí)、做完整全局的生成？

最終在諸多數(shù)學(xué)巧思、訓(xùn)練基礎(chǔ)設(shè)施和數(shù)據(jù)的支持下，我們得到了Tripo P1.0——它能在幾秒內(nèi)生成一個與藝術(shù)家制作質(zhì)量相當(dāng)?shù)亩噙呅尉W(wǎng)格，支持幾萬面的高面數(shù)，也能在面數(shù)敏感的環(huán)境下生成三五百面的模型，并很好地表達(dá)形狀，真正打開了3D資產(chǎn)的應(yīng)用場景。

量子位：所以H系列的局限性主要在于它需要的渲染預(yù)算比較多，以及大家需要追求網(wǎng)格本身的性質(zhì)，是這個意思嗎？

曹炎培：是的。H系列的追求目標(biāo)不同，可以認(rèn)為H是生成雕塑級的三維表現(xiàn)。某些生成結(jié)果下，消費(fèi)級3D打印機(jī)已經(jīng)沒法完整展現(xiàn)H3.1的細(xì)節(jié)，要工業(yè)級3D打印才能完整體現(xiàn)非常精細(xì)的表面——比如胡須、地毯紋路、精密機(jī)械結(jié)構(gòu)、齒輪等，追求的是無損、高保真、高分辨率的還原。

但這樣生成出來的資產(chǎn)勢必比較“重”，細(xì)節(jié)要體現(xiàn)在幾何上，多邊形數(shù)就會很高。這不算缺陷，只是這類模型的特點(diǎn)，不特別適配直接用在實(shí)時圖形中——比如游戲、robotics仿真模擬等環(huán)境需要用盡可能少的多邊形來表達(dá)近似目標(biāo)的幾何形狀，而且對多邊形排布也有一套藝術(shù)家的標(biāo)準(zhǔn)。

量子位：P1.0被定義為重構(gòu)了底層算法的技術(shù)，為什么這樣去定義？

曹炎培：這個“重構(gòu)”有兩方面。

第一，以前訓(xùn)練高模要經(jīng)過很多數(shù)據(jù)轉(zhuǎn)化。絕大多數(shù)訓(xùn)練數(shù)據(jù)其實(shí)都是多邊形網(wǎng)格，但為了適應(yīng)之前的訓(xùn)練范式，需要先轉(zhuǎn)化為SDF或SparseFlex等中間表示再做生成，生成出來又是較重的高模，想用在輕量級應(yīng)用中還需減面或重拓?fù)洹?strong>這其實(shí)是在原始數(shù)據(jù)和最終資產(chǎn)之間繞了很遠(yuǎn)的路徑

Tripo P1.0直接在原始的、世界上廣泛存在的多邊形網(wǎng)格或三角網(wǎng)格數(shù)據(jù)上做原生訓(xùn)練，輸出結(jié)果也是原生的三角網(wǎng)格，繞過了中間表示，生成結(jié)果直接可用。

第二方面更偏具體的技術(shù)和數(shù)學(xué)構(gòu)造思路。過去也有一些方法能做多邊形網(wǎng)格生成，比如我們自己的Smart Low Poly的功能，個別友商也有類似的，但問題是很慢，且完整性和形狀還原度不理想。

（注：Smart Low Poly指智能低多邊形生成，對高多邊形模型進(jìn)行優(yōu)化，保留輪廓和重要細(xì)節(jié)，使其非常適合游戲、AR/VR和實(shí)時應(yīng)用程序。）

它的核心誤區(qū)在于把三維數(shù)據(jù)強(qiáng)行序列化——為什么這么做？因?yàn)長LM太成功了，自回歸范式太成功了，大家自然想把所有東西變成序列來復(fù)用經(jīng)驗(yàn)。但三維空間本身并不存在一個天然的線性排序。它不會自帶先后，也沒有哪一個方向在本體上更優(yōu)先。很多我們習(xí)慣使用的方向性描述，其實(shí)都建立在特定觀察視角、坐標(biāo)系或任務(wù)定義之上，而不是三維空間自身的屬性。

強(qiáng)行排序隱含了三角形之間的因果依賴——后面要生成的幾何依賴于前面已經(jīng)生成出來的部分，這在3D空間和自然界中都不應(yīng)該存在，既反直覺，也導(dǎo)致生成效率和效果都不好

Tripo P1.0的思路是：要在秒級內(nèi)生成高質(zhì)量網(wǎng)格，不可能走自回歸路線——以現(xiàn)在的算力和范式，要生成幾萬個面，不可能在一秒內(nèi)生成幾萬的token；而3D網(wǎng)格本身沒有天然的順序或偏序關(guān)系，所以應(yīng)該做整體建模和生成

具體來說，我們對整個三角形或多邊形的點(diǎn)、線、面空間進(jìn)行統(tǒng)一的概率建模，用新的數(shù)學(xué)度量來衡量點(diǎn)線面之間的關(guān)系，并在度量引導(dǎo)下做概率建模，從噪聲中不斷探索出最終形狀。

也因?yàn)辄c(diǎn)線面被統(tǒng)一建模，生成結(jié)果自然同時具有幾何和拓?fù)浣Y(jié)構(gòu)，規(guī)避了不自然的排序性，效果好且速度快。

舉個最簡單的例子：一張辦公桌。之前的方法因?yàn)橛信判?，比如某種排序下需要從一條腿開始一點(diǎn)一點(diǎn)往上生成，然后第二條腿、第三條腿、第四條腿，最后生成桌面。

這些過程都有因果關(guān)聯(lián)，一旦第一條腿出了問題，整個序列就會崩潰。但實(shí)際上四條腿是對稱的，同時生成就有自然機(jī)制相互關(guān)聯(lián)，桌面也基于四條腿的幾何自然生長出來，從而避免了序列生成又慢又易崩壞的問題。

量子位：P1.0可以在2秒以內(nèi)生成專業(yè)級3D資產(chǎn)，速度提升達(dá)到百倍，這個速度提升主要來源于什么技術(shù)創(chuàng)新？也是剛說的在三維空間里進(jìn)行概率生成嗎？

曹炎培：是的。我覺得更合適的說法是，本來生成這些三維信號就不應(yīng)該花費(fèi)幾百秒。以前的方法實(shí)在慢得太不合理，而我們只是讓它進(jìn)入了對的路徑，在正確的建模效率下達(dá)到了比較理想的生成速度。

量子位：也就是說你們找到了它本來應(yīng)該有的方法，讓它達(dá)到了本來應(yīng)該有的速度。那相對于傳統(tǒng)方法，它在計(jì)算復(fù)雜度和資源消耗上也會有明顯變化嗎？

曹炎培：是的。消耗的計(jì)算資源自然是減少的——在GPU算力相同前提下，消耗取決于推理時間。復(fù)雜度也大大降低了，同樣回到了它應(yīng)有的復(fù)雜度上。

量子位：3D生成里有一個比較難的問題——復(fù)雜拓?fù)浣Y(jié)構(gòu)，比如孔洞或嵌套結(jié)構(gòu)。P1.0提出了“隱式潛在拓?fù)溆成錂C(jī)制”，它是怎么解決傳統(tǒng)方法容易出現(xiàn)的拓?fù)鋽嗔褑栴}的？

曹炎培：要理解這個問題，需要先從之前的方法為什么會有困難講起。

首先對于H系列，高模數(shù)據(jù)的表示形式原本天生是無法支持孔洞和嵌套的表達(dá)——所有生成的高模從數(shù)學(xué)上是“水密”（watertight）的——直觀地說就是生成的形狀必須能“兜住水”，表面必須完整閉合、不能漏、不能有破洞。這是目標(biāo)形式的數(shù)學(xué)性質(zhì)所決定的，沒辦法繞過。SparseFlex等表示試圖對這一限制進(jìn)行改進(jìn)，但依然跳不開整體框架的限制。

之前的多邊形生成為什么也難處理？很大程度還是因?yàn)榕判?。比如幾個面相交時，按照空間排序方法，在相交部分的排序具有很強(qiáng)的歧義性，導(dǎo)致模型生成到嵌套和交叉區(qū)域時會非常困惑——用LLM的話說就是perplexity非常高，不知道下一個面該出現(xiàn)在哪，整個因果過程完全失效。

而我們找到了一種方法，能在不對原始模型做額外數(shù)據(jù)處理、保持原有美術(shù)建模完整性和精密性的前提下，將三角網(wǎng)格轉(zhuǎn)化為數(shù)學(xué)上的隱空間，并進(jìn)行整體建模。

在P1.0定義的隱空間分布中，孔洞和嵌套不是特殊情況，和生成平面或幾個分立的基礎(chǔ)幾何體一樣，只是數(shù)據(jù)中的普通樣本。相當(dāng)于從表示層面就消解了這些結(jié)構(gòu)的特殊性，使得頂點(diǎn)和面能在特征場中自發(fā)完成對齊與耦合，在極短時間內(nèi)得到觀感上和數(shù)學(xué)上都連貫有效的結(jié)構(gòu)。

量子位：目前在幾何精度、拓?fù)浞€(wěn)定性、細(xì)節(jié)表達(dá)等關(guān)鍵指標(biāo)上，P1.0處于什么水平？

曹炎培：一些用戶反饋，P1.0生成的多邊形網(wǎng)格，與多年經(jīng)驗(yàn)的設(shè)計(jì)師手工建?？床怀霰举|(zhì)區(qū)別，完全可以用在任何需要3D資產(chǎn)的場景。加上生成速度極快，對行業(yè)的變革非常大。

當(dāng)然作為1.0版本，有一定概率生成效果不夠理想，比如某些細(xì)節(jié)展現(xiàn)還不夠充分，也為后續(xù)迭代留出了空間。

Tripo P1.0生成

量子位：跟專業(yè)建模師產(chǎn)出的資產(chǎn)相比，目前AI生成的差距還在哪里？

曹炎培：兩類模型都在不斷逼近專業(yè)設(shè)計(jì)師的效果。H系列在絕大多數(shù)物體的造型和細(xì)節(jié)展現(xiàn)上，已經(jīng)能持平多年經(jīng)驗(yàn)的數(shù)字雕刻師水平，但在一些案例的藝術(shù)理解和生成穩(wěn)定性上還有提升空間。

P系列模型帶來的變革可能更大。一些用戶試用后覺得與資深專業(yè)建模師的作品已基本沒有區(qū)別；但我們內(nèi)部對標(biāo)評估發(fā)現(xiàn)，在細(xì)節(jié)展現(xiàn)和嚴(yán)格管線標(biāo)準(zhǔn)（如嚴(yán)格對稱、組件劃分等）上仍有提升空間，整體大約能達(dá)到三五年經(jīng)驗(yàn)設(shè)計(jì)師90%的水平

但這并不意味著要替代設(shè)計(jì)師，而是將大家從繁雜的重復(fù)性勞動中解放出來，讓人更專注于創(chuàng)作意圖本身。

人人都能創(chuàng)造自己的3D世界

量子位：P1.0上線之后會怎么服務(wù)游戲行業(yè)的客戶？能舉一兩個例子說明它的落地場景嗎？

曹炎培：我們最看重的是它對UGC可交互內(nèi)容前所未有的激發(fā)。以前H系列已經(jīng)被各行各業(yè)客戶廣泛使用，但它更關(guān)注幾何精度和細(xì)節(jié)展現(xiàn)，生成的模型主要放在美術(shù)流程中作為參考或獲取高模的一步，后續(xù)還需要做重拓?fù)洳拍苡糜趯?shí)時引擎或手游——也就是說H系列更多面向?qū)I(yè)用戶。

但我們對P1.0的期待、也是它實(shí)際能做到的是：讓更多以前不知道什么是3D模型的人，跳過對建模工具的學(xué)習(xí)，直接得到可用于目標(biāo)場景、符合意圖的3D資產(chǎn)

過去幾個月AI Agent能力不斷提升，越來越多獨(dú)立開發(fā)者通過自然語言構(gòu)建交互式內(nèi)容，門檻已經(jīng)非常低。最近大家都在說“人人都要有一個龍蝦”，AI編程深入人心后，每個人都可以通過大模型構(gòu)建自己的軟件，其中很大一部分可能就是3D交互式內(nèi)容。以前缺乏足夠的資產(chǎn)供給，但現(xiàn)在能做到秒級生成引擎可用的資產(chǎn)，這條路就被完全打通了。所以我們對低門檻UGC的內(nèi)容供給爆發(fā)非常樂觀。

量子位：你們判斷3D生成正在從專業(yè)生產(chǎn)工具變成大眾表達(dá)方式，你覺得在什么條件下，UGC互動內(nèi)容的爆發(fā)會真正發(fā)生？

曹炎培：從歷史上看，所有UGC內(nèi)容的爆發(fā)都有跡可循——先有工具來創(chuàng)造內(nèi)容，然后獲取內(nèi)容的門檻降到無限低，UGC平臺自然就會爆發(fā)。打字、拍照、攝像都是如此。

3D也一樣。我們提供的AI 3D生成能力，可以看作像攝像頭一樣的基礎(chǔ)能力。現(xiàn)在2秒、幾乎零成本就能獲取海量3D資產(chǎn)，UGC交互平臺已經(jīng)具備了成熟的基礎(chǔ)

接下來隨著技術(shù)發(fā)展，還需要更多智能體模型或世界模型來處理交互式內(nèi)容中的狀態(tài)轉(zhuǎn)化——比如角色與環(huán)境的交互、角色之間的交互、環(huán)境的演化。這些條件成熟后，再疊加零成本的資產(chǎn)生成能力，可能年內(nèi)就會看到很多UGC互動平臺的跡象。AI時代限制創(chuàng)作的不再是技能或工具，只要有想象力，就有各種模型和AI幫助完成創(chuàng)作

量子位：如果AI的生成速度和質(zhì)量都達(dá)到了這樣的水平，對游戲、影視、元宇宙等產(chǎn)業(yè)會帶來怎樣的變化和影響？有沒有可能改變3A游戲資產(chǎn)生成的方式？

曹炎培：3A是一個方面，但首先游戲的形式本身會迎來巨大變化——就像短視頻之于廣電或電影的變革一樣，我們覺得交互式內(nèi)容會有根本的范式性轉(zhuǎn)變。

現(xiàn)在的3A是極少數(shù)專家和藝術(shù)家經(jīng)過三五年籌備，把一套作品呈現(xiàn)給大家，大家在里面消耗時間去玩。但當(dāng)人人都能創(chuàng)造3D內(nèi)容之后，gameplay可能不再是被人為定義的，三維環(huán)境也不是被少數(shù)精英定義。人人都可以創(chuàng)作自己的可交互世界，所有玩法也都可以無限個性化和定制化

量子位：你們今年之內(nèi)會打造一個UGC互動平臺，可以透露一下它大概是什么樣的嗎？Tripo在里面扮演什么角色？

曹炎培：Tripo提供底層的模型能力。我們認(rèn)為幾類技術(shù)對應(yīng)交互式內(nèi)容或世界建模的不同組成部分：H和P系列提供的是交互世界中基礎(chǔ)的狀態(tài)，比如持久性的道具、角色應(yīng)該是什么樣子；我們還會打造自己的世界模型來建模狀態(tài)之間的轉(zhuǎn)化——角色怎么與環(huán)境交互？交互過程怎樣自然地呈現(xiàn)和生成？這是世界模型或AI Agent模型需要解決的問題。

在這些能力之上，我們期待的交互式平臺是一個純UGC平臺，甚至比Roblox或Minecraft門檻更低——讓大家在意識不到自己在生成或操控3D的時候，就把高自由度、可分享、可共創(chuàng)的交互式內(nèi)容構(gòu)建出來。

AI 3D算法范式進(jìn)入2.0時代

量子位：回顧過去幾年AI 3D技術(shù)的發(fā)展，你會把它劃分成幾個階段？為什么說P1.0的發(fā)布是進(jìn)入了AI 3D算法范式的2.0時代？

曹炎培：AI 3D的1.0時代可以定義為追求視覺或幾何擬真的時代。3D模態(tài)和視頻、圖像不同，它是物理世界的表述，天然可以交互，有更高維的信號——僅僅是外觀或視覺的近似顯然不夠。但技術(shù)總要一步步發(fā)展，過去幾年大家追求的歸根到底就是“看起來好”。

2.0時代有幾個特點(diǎn)：第一是原生資產(chǎn)，不再需要復(fù)雜的轉(zhuǎn)化，既然需要工業(yè)可用的資產(chǎn)，就直接在這樣的資產(chǎn)上訓(xùn)練和生成。

第二是生成的資產(chǎn)具有功能性，天然具備部件拆分、可動部分——比如具身智能中的關(guān)節(jié)結(jié)構(gòu)、動畫中的骨骼結(jié)構(gòu)，更進(jìn)一步還能生成這些可動部分的運(yùn)轉(zhuǎn)邏輯。

第三是將1.0時代速度、質(zhì)量與可用性的“不可能三角”變?yōu)橥瑫r成立。AI 3D不再只是畫圖或擬形的工具，而是真正在構(gòu)筑3D世界或物理世界。

量子位：在AI 3D生成領(lǐng)域，目前還有哪些尚未被解決的技術(shù)難題？接下來最大的技術(shù)挑戰(zhàn)是什么？

曹炎培：2.0時代的目標(biāo)引出了接下來的核心問題。功能性現(xiàn)在剛邁出第一步——比如原生資產(chǎn)內(nèi)部的部件級信息，已有越來越多方法可以建模，但原生的動態(tài)和可交互性，雖然在數(shù)據(jù)中存在，生成能力還未達(dá)到理想狀態(tài)。

未來需要生成的模型不僅形狀對、拓?fù)洳季€對，還要能自發(fā)理解物體的物理關(guān)節(jié)——包括肘關(guān)節(jié)、膝關(guān)節(jié)等有機(jī)關(guān)節(jié)用于動畫，也包括門的軸承、抽屜的抽拉結(jié)構(gòu)等。生成模型需要在生成網(wǎng)格的同時，原生地生成對應(yīng)的綁定、關(guān)節(jié)結(jié)構(gòu)以及物理材質(zhì)屬性。這是接下來值得積極攻堅(jiān)的方向。

Tripo P1.0生成

量子位：下一步是不是發(fā)展到世界模型的路線？從AI 3D生成到世界模型之間的技術(shù)關(guān)系是什么？

曹炎培：不能完全說兩者會合一。目前做世界模型，動量最大的方式肯定是充分利用視頻數(shù)據(jù)，因?yàn)橐曨l數(shù)據(jù)最容易獲取，模型和數(shù)據(jù)都能做很好的scaling。但大家或多或少意識到，僅靠視頻建模短期內(nèi)可以走得很快，從原理上講卻有很多物理和3D信號由視頻來建模不一定是最適當(dāng)、最高效的。

世界模型的一個重大方向，是操控persistent狀態(tài)之間合理切換的transition過程，而這些狀態(tài)由3D的表示或資產(chǎn)來存儲是很高效的。這需要兩個模態(tài)共同努力：世界模型需要知道怎么操控這些persistent狀態(tài)，3D資產(chǎn)則需要具備可被操控的功能性接口。

比如現(xiàn)在P1.0生成的模型已經(jīng)在無限接近人工構(gòu)造的網(wǎng)格，但在可操控方面還有提升空間——生成的抽屜本身和外框已經(jīng)是分離的，但當(dāng)一個信號說“把抽屜拉開”，具體哪些三角形該怎么運(yùn)動還沒有被很好地建模。這些與功能相關(guān)的屬性，是3D路線需要更多迭代的方向。

量子位：對于世界模型來說，3D會比視頻數(shù)據(jù)更接近其核心嗎？

曹炎培：這目前還是一個非常open的問題，行業(yè)怎么發(fā)展也完全是open-ended的。但有一個樸素統(tǒng)一的思想——首先要定義什么是世界

如果是建模周邊的物理世界，那物理世界本身就是三維的，最直接、最經(jīng)濟(jì)的方式也許就是在三維空間去建模和學(xué)習(xí)。

而且很多狀態(tài)級別的實(shí)體，比如杯子、桌子，在物理世界中的表示非常固定一致，純用視頻去表示每一幀都需要新的像素來表達(dá)這些物體，對計(jì)算量和信息量都有很大消耗。大家已經(jīng)意識到這個問題，長期可能需要視頻數(shù)據(jù)混合3D數(shù)據(jù)，通過scaling的探索來找到最好的結(jié)合點(diǎn)。我們的思路也是兩者結(jié)合。

量子位：你們現(xiàn)在做世界模型的進(jìn)展大概怎么樣？

曹炎培：我們會很快用demo來展示階段性進(jìn)展，它會是一個具備交互能力的世界。

量子位：你們做世界模型的優(yōu)勢在哪里？

曹炎培：有幾方面。第一，3D團(tuán)隊(duì)在本質(zhì)思考、數(shù)據(jù)和相關(guān)能力積累上，做世界模型天然有一定優(yōu)勢。

參考世界上很厲害的世界模型公司——Google DeepMind做世界模型的團(tuán)隊(duì)中有很多3D出身的研究者，World Labs更不用說，創(chuàng)始團(tuán)隊(duì)都是三維計(jì)算機(jī)視覺或圖形學(xué)出身。大家的思路都是從本質(zhì)出發(fā)，而不是做漸進(jìn)式提升，在世界模型這種非常open-ended的大問題下，這樣更有概率接近最終結(jié)果。

另一方面，去年我們推出了“V·STAR計(jì)劃”，一項(xiàng)面向頂尖研究者的專項(xiàng)招募與培養(yǎng)機(jī)制，吸引了對3D和世界模型交叉方向感興趣、能力很強(qiáng)的同學(xué)加入。不管什么時候，有足夠的人才和idea才是最大的優(yōu)勢。

VAST的“V·STAR頂尖人才計(jì)劃”

量子位：如何看待目前全球AI 3D領(lǐng)域的行業(yè)格局？VAST處于一個什么樣的位置？依據(jù)是什么？

曹炎培：不謙虛地說，VAST現(xiàn)在處在全球3D領(lǐng)域全棧領(lǐng)軍的位置。反觀整個行業(yè)，大部分公司還走在老路徑上，用老思路給現(xiàn)有方案打補(bǔ)丁。比如網(wǎng)格生成，如果陷入了自回歸序列化的方向，某種程度上可能是個死胡同。

依據(jù)有幾方面：生成質(zhì)量上，H3.1是此時此刻最好的高模生成模型；底層思考和范式重構(gòu)上，我們率先把新思想快速落地為大家可以體驗(yàn)的P1.0模型，定義了極速生成的速度和性能天花板。

某種程度上它確立了現(xiàn)代3D生成與引擎工具、圖形標(biāo)準(zhǔn)之間的底層連接——背后是定義和發(fā)明新的原生3D表征的能力，這在整個賽道是很強(qiáng)的話語權(quán)。其他像數(shù)據(jù)、人才方面的優(yōu)勢也不用過多贅述。

量子位：可以簡單介紹一下從模型算法到平臺產(chǎn)品，VAST在整個AI 3D領(lǐng)域的整體技術(shù)布局嗎？

曹炎培：算法剛講了很多，補(bǔ)充一下產(chǎn)品方面。去年我們推出了全球首個面向C端的AI 3D創(chuàng)意工具臺——Tripo Studio，讓專業(yè)用戶可以在一個Web產(chǎn)品和工具里端到端完成一整套3D設(shè)計(jì)工作流：從參考圖片生成，到圖片轉(zhuǎn)模型，再到拓?fù)洹⒔壎?、分件、動畫，最終導(dǎo)出，全部在這里完成。

與此同時，我們的API目前服務(wù)了全球超過9萬家企業(yè)，覆蓋各行業(yè)的典型案例包括：

與拓竹等消費(fèi)3D打印龍頭的合作；
與網(wǎng)易合作，生成模型被直接用在燕云十六聲、蛋仔派對等國民IP的gameplay里；
與索尼等XR廠商的合作，將3D生成能力用于全息或空間智能領(lǐng)域；
還有機(jī)器人及具身智能廠商，甚至汽車廠家也用生成能力做油泥模型等造型參考……

下一步，我們會在今年推出UGC的3D平臺，進(jìn)一步探索AI 3D生成能力對社會、創(chuàng)作者和消費(fèi)內(nèi)容帶來變革的最大邊界

之前不管是工具臺還是API都偏專業(yè)用戶，但隨著Tripo P1.0的發(fā)明和迭代，最重要的是讓更多以前對3D毫無概念、無法想象自己能創(chuàng)作交互內(nèi)容的用戶獲得新的機(jī)會——就像最近AI Agent或龍蝦風(fēng)潮帶來的觀念和范式轉(zhuǎn)變一樣。

VAST Tripo Studio鏈接：https://www.studio.tripo3d.ai/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.