国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話VAST曹炎培:2秒才是3D生成本該有的速度

0
分享至

完全零基礎(chǔ),自己手搓一個權(quán)游里龍媽的3D模型,需要多久?

2秒



接著再給它貼上紋理,大概10秒以內(nèi),我就無痛得到了一個3D龍媽。



不僅快,而且細(xì)節(jié)豐富、拓?fù)涓蓛?、布線穩(wěn)定。

同樣,只甩一張參考圖,我還可以快速生成《底特律:變?nèi)恕防锏目导{。



這是貼上紋理之后的效果:人物的面部表情,衣服的細(xì)節(jié),都跟參考圖里別無二致。



或者我還可以輸入提示詞:

一位森林精靈角色,身穿樹葉服飾,腳踩靴子,背著小挎包。

然后再給它一張圖做參考:



接著,我就得到了一個非??蓯鄣纳中【`!



仔細(xì)看看,從人物發(fā)型、面部再到服飾,每一處細(xì)節(jié)都被精準(zhǔn)刻畫了出來。

這就是VAST在Tripo Studio中最新上線的Smart Mesh功能,也是放眼全球斷層領(lǐng)先的能力。

它可以實(shí)現(xiàn)僅靠提示詞或參考圖,2秒內(nèi)極速生成3D模型,水平堪比專業(yè)建模師。

Smart Mesh背后的模型是VAST最新發(fā)布的Tripo P1.0,它取得了一項(xiàng)驚人的?業(yè)范式級突破:?次在原?三維空間中實(shí)現(xiàn)概率?成,從底層重構(gòu)了AI 3D?成的算法架構(gòu)

如果你追求極致精度,那么VAST最近更新的另一款模型——Tripo H3.1可以幫上你的忙。作為高精模型,它的每一次迭代都做到了行業(yè)SOTA,更新后的版本在輸入對齊、結(jié)構(gòu)精度、貼圖質(zhì)量等核心指標(biāo)上又有了進(jìn)一步提升。



就在上周,VAST還宣布完成5000萬美元A輪融資,領(lǐng)投方為阿里和恒旭資本,元禾璞華、BV百度風(fēng)投、東方嘉富跟投,老股東春華創(chuàng)投和北京市人工智能產(chǎn)業(yè)投資基金也在繼續(xù)加注。

手握突破性技術(shù)和5000萬美元融資,VAST向他們成立之初的愿景又邁進(jìn)了一步——讓每個人都能創(chuàng)造屬于自己的互動世界。

借此機(jī)會,量子位也與VAST首席科學(xué)家曹炎培展開了一次對話,聊聊他們?yōu)槭裁匆瞥鯰ripo P1.0、它的范式重構(gòu)體現(xiàn)在什么地方,以及VAST在UGC和世界模型領(lǐng)域的下一步動向。



曹炎培告訴我們,P1.0模型對傳統(tǒng)AI 3D底層范式的“重構(gòu)”體現(xiàn)在兩方面:

第一,業(yè)內(nèi)主流的高模生成流程是將多邊形網(wǎng)格轉(zhuǎn)化成高模的表達(dá)形式,比如SDF,或者VAST之前提出的SparseFlex,進(jìn)而生成高模。如果想用在輕量級應(yīng)用中,還需要減面和重拓?fù)洹?strong>這其實(shí)是在原始數(shù)據(jù)和最終想要的資產(chǎn)之間繞了遠(yuǎn)路

第二,行業(yè)內(nèi)過去一段時間存在一個很大的誤區(qū):由于語言模型取得了巨大的成功,使得研究員們會更愿意借鑒自回歸建模和生成模型,即“強(qiáng)行”將3D數(shù)據(jù)序列化,將其變成一個個排序后的token。這實(shí)際上非常反直覺,也違背了3D空間的各向同性。

簡單來說,在對token排列定義順序后,排序會讓幾何圖形之間產(chǎn)生因果,待要生成的幾何將僅依賴于之前已經(jīng)生成出來的信號。但三維空間本身并沒有絕對的前后左右之分,它是全對稱的,沒有一種天然的方式對其中的信號進(jìn)行排序。

序列生成的方法不僅反直覺、不自然,也打破了三維數(shù)據(jù)本身的規(guī)律,無法取得好的生成效果和速度:

如果想在秒級內(nèi)生成高質(zhì)量網(wǎng)格,不可能走自回歸路線——要生成幾萬個多邊形,以當(dāng)下的算力和范式不可能在一秒內(nèi)自回歸生成數(shù)萬token。

而Tripo P1.0的關(guān)鍵技術(shù)創(chuàng)新,就是采用“整體生成”的方法:對三角形或多邊形的點(diǎn)線面進(jìn)行統(tǒng)一的概率建模,生成出來的模型同時具有幾何和拓?fù)浣Y(jié)構(gòu)。

基于這一方法,Tripo P1.0可以做到2秒內(nèi)極速生成。曹炎培表示,傳統(tǒng)方法慢得不合理,生成三維網(wǎng)格信號本就不需要幾百秒的時間,而VAST只是讓它進(jìn)入了對的路徑,達(dá)到了本該有的速度

一些用戶試用Tripo P1.0后給出的評價是:它生成出的模型,已經(jīng)幾乎和經(jīng)驗(yàn)豐富的專業(yè)建模師設(shè)計(jì)出來的模型毫無區(qū)別。

而曹炎培透露,VAST內(nèi)部評估,在部分細(xì)節(jié)展現(xiàn)及造型要求非常嚴(yán)格的工業(yè)場景,模型還有提升空間,但整體已經(jīng)達(dá)到了多年工作經(jīng)驗(yàn)設(shè)計(jì)師的九成水平







我們對P1.0的期待,也是它實(shí)際能做到的,是讓更多以前不了解什么是3D模型的用戶跳過對建模工具的學(xué)習(xí),甚至不需要知道世界上有建模工具的存在,就可以得到一個在目標(biāo)場景里、符合用戶意圖的3D資產(chǎn)。
當(dāng)獲取內(nèi)容的門檻降到無限低之后,UGC平臺自然就會爆發(fā)。AI時代限制大家創(chuàng)作的不再是技能或工具本身,只要有想象力,就有各種各樣的模型和AI可以幫助完成創(chuàng)作。

曹炎培透露,今年VAST將推出自己的UGC 3D平臺。H系列和P系列模型負(fù)責(zé)創(chuàng)造世界中的實(shí)體,世界模型及代碼生成模型負(fù)責(zé)模擬這些實(shí)體隨時間的變化和空間交互。在這些計(jì)算能力之上,他們希望打造一個比Roblox和Minecraft門檻更低的AI原生UGC互動平臺

在這個UGC平臺上,用戶可以創(chuàng)作和瀏覽可互動的3D內(nèi)容,并在社區(qū)分享與傳播,類似一個“3D版TikTok”。

另外,曹炎培也向我們透露了VAST研究世界模型的最新進(jìn)展:很快會有demo公布,它會是一個具備交互能力的世界。

在曹炎培看來,Tripo P1.0的發(fā)布,標(biāo)志著AI 3D?模型算法范式正式進(jìn)?2.0階段。他認(rèn)為,AI 3D的1.0時代可以定義為追求視覺或幾何擬真的時代:

過去幾年大家追求的,就是讓AI生成的3D看起來更真實(shí)更細(xì)節(jié),包括紋理層面和幾何層面都要精細(xì)。技術(shù)路線經(jīng)歷了幾波發(fā)展,但歸根到底追求的是“看起來好”。

而2.0時代具備三個特征:第一,原生資產(chǎn),不需要再做復(fù)雜轉(zhuǎn)化;第二,生成的資產(chǎn)具有功能性,具備可以參與交互和運(yùn)動的特性,比如機(jī)器人中的關(guān)節(jié)結(jié)構(gòu)或動畫制作中的骨骼結(jié)構(gòu);第三,打破速度、質(zhì)量、可用性的“不可能三角”

這三點(diǎn),Tripo P1.0都可以做到。

關(guān)鍵技術(shù)的創(chuàng)新和突破,也給足了VAST底氣。當(dāng)被問及“VAST目前處于行業(yè)什么地位”時,曹炎培毫不猶豫地表示:現(xiàn)在VAST處在全球3D領(lǐng)域全棧領(lǐng)軍的位置

在生成質(zhì)量方面,H3.1是此時此刻最好的高模生成模型。在底層思考和整個范式重構(gòu)方面,我們不只是率先提出原生網(wǎng)格生成的思想,更是快速地把它做成了大家可以在產(chǎn)品上體驗(yàn)的P1.0模型,定義了極速生成的速度和性能天花板。
某種程度上它確立了現(xiàn)代3D生成和引擎工具、圖形標(biāo)準(zhǔn)之間的一種底層連接,背后是定義和發(fā)明新的原生3D表征的能力,這在整個賽道是很強(qiáng)的話語權(quán)。

以下是量子位與曹炎培的部分對話實(shí)錄,在不改變原意的基礎(chǔ)上,進(jìn)行了適當(dāng)?shù)恼砗蜐櫳?,各位enjoy~

Tripo P1.0:重構(gòu)AI 3D底層范式

量子位:過去幾年,Tripo的H系列不斷迭代,在行業(yè)中也達(dá)到了SOTA水平,為什么團(tuán)隊(duì)現(xiàn)在仍然決定從底層重新設(shè)計(jì)一套P系列模型?最初是基于什么問題重新思考3D生成算法架構(gòu)的?

曹炎培:先講一下H系列的歷史和迭代。早期3D生成能力普遍一般時,大家首先追求外觀上盡可能高質(zhì)量、可用,和圖像、視頻生成的目標(biāo)一樣——分辨率高、條件對齊好、可控、可編輯。Tripo從1.0到1.4、2.0、2.5、3.0、3.1,整個H系列都在解決解析度、保真度、分辨率極限的問題,也做了很強(qiáng)的模型、算力、數(shù)據(jù)scaling。

H系列確實(shí)已經(jīng)在很多場景用起來了,比如拓竹MakerWorld等消費(fèi)級3D打印社區(qū),用戶可以直接調(diào)用我們的API生成模型再打??;H3.0之后,很多影視特效或3A角色的參考建模也夠用了。

但在實(shí)時圖形領(lǐng)域,大家更關(guān)注效率和渲染預(yù)算,非常追求網(wǎng)格本身的性質(zhì)。原因有幾個:一方面GPU能同時渲染的三角形和多邊形數(shù)量仍然有限,為了節(jié)約成本,做游戲或交互內(nèi)容時要盡可能用更少的多邊形表示資產(chǎn),以讓場景容量更大、幀率更高、畫面更流暢。

另一方面,整個3D行業(yè)的紋理、動畫等工作流都建立在多邊形網(wǎng)格基礎(chǔ)上——比如動畫對拓?fù)滟|(zhì)量要求格外高,希望肩膀、肘部等大形變部位有規(guī)整的拓?fù)渚€;UV的分界也需要和幾何分界強(qiáng)對應(yīng),方便貼圖。

(注:UV指UV映射,是把3D模型表面“展開”到二維平面上的坐標(biāo)系統(tǒng),用來貼紋理)

所以傳統(tǒng)高模生成面對這些問題局限性很大。過去幾個月也有人用自回歸方式逐個token、逐個三角形來生成,但效率和效果都不盡如人意。市面上能提供智能拓?fù)淠芰Φ姆?wù),可能需要好幾百秒才能從高模得到精細(xì)拓?fù)?,?yán)重限制了廣泛使用的可能性。

基于這些觀察,我們從很早之前就在思考:如果最終想生成多邊形網(wǎng)格,為什么要經(jīng)過那么多中間表示的轉(zhuǎn)化,為什么不能直接在原始信號上學(xué)習(xí)、做完整全局的生成?

最終在諸多數(shù)學(xué)巧思、訓(xùn)練基礎(chǔ)設(shè)施和數(shù)據(jù)的支持下,我們得到了Tripo P1.0——它能在幾秒內(nèi)生成一個與藝術(shù)家制作質(zhì)量相當(dāng)?shù)亩噙呅尉W(wǎng)格,支持幾萬面的高面數(shù),也能在面數(shù)敏感的環(huán)境下生成三五百面的模型,并很好地表達(dá)形狀,真正打開了3D資產(chǎn)的應(yīng)用場景。



量子位:所以H系列的局限性主要在于它需要的渲染預(yù)算比較多,以及大家需要追求網(wǎng)格本身的性質(zhì),是這個意思嗎?

曹炎培:是的。H系列的追求目標(biāo)不同,可以認(rèn)為H是生成雕塑級的三維表現(xiàn)。某些生成結(jié)果下,消費(fèi)級3D打印機(jī)已經(jīng)沒法完整展現(xiàn)H3.1的細(xì)節(jié),要工業(yè)級3D打印才能完整體現(xiàn)非常精細(xì)的表面——比如胡須、地毯紋路、精密機(jī)械結(jié)構(gòu)、齒輪等,追求的是無損、高保真、高分辨率的還原。

但這樣生成出來的資產(chǎn)勢必比較“重”,細(xì)節(jié)要體現(xiàn)在幾何上,多邊形數(shù)就會很高。這不算缺陷,只是這類模型的特點(diǎn),不特別適配直接用在實(shí)時圖形中——比如游戲、robotics仿真模擬等環(huán)境需要用盡可能少的多邊形來表達(dá)近似目標(biāo)的幾何形狀,而且對多邊形排布也有一套藝術(shù)家的標(biāo)準(zhǔn)。

量子位:P1.0被定義為重構(gòu)了底層算法的技術(shù),為什么這樣去定義?

曹炎培:這個“重構(gòu)”有兩方面。

第一,以前訓(xùn)練高模要經(jīng)過很多數(shù)據(jù)轉(zhuǎn)化。絕大多數(shù)訓(xùn)練數(shù)據(jù)其實(shí)都是多邊形網(wǎng)格,但為了適應(yīng)之前的訓(xùn)練范式,需要先轉(zhuǎn)化為SDF或SparseFlex等中間表示再做生成,生成出來又是較重的高模,想用在輕量級應(yīng)用中還需減面或重拓?fù)洹?strong>這其實(shí)是在原始數(shù)據(jù)和最終資產(chǎn)之間繞了很遠(yuǎn)的路徑

Tripo P1.0直接在原始的、世界上廣泛存在的多邊形網(wǎng)格或三角網(wǎng)格數(shù)據(jù)上做原生訓(xùn)練,輸出結(jié)果也是原生的三角網(wǎng)格,繞過了中間表示,生成結(jié)果直接可用。

第二方面更偏具體的技術(shù)和數(shù)學(xué)構(gòu)造思路。過去也有一些方法能做多邊形網(wǎng)格生成,比如我們自己的Smart Low Poly的功能,個別友商也有類似的,但問題是很慢,且完整性和形狀還原度不理想。

(注:Smart Low Poly指智能低多邊形生成,對高多邊形模型進(jìn)行優(yōu)化,保留輪廓和重要細(xì)節(jié),使其非常適合游戲、AR/VR和實(shí)時應(yīng)用程序。)

它的核心誤區(qū)在于把三維數(shù)據(jù)強(qiáng)行序列化——為什么這么做?因?yàn)長LM太成功了,自回歸范式太成功了,大家自然想把所有東西變成序列來復(fù)用經(jīng)驗(yàn)。但三維空間本身并不存在一個天然的線性排序。它不會自帶先后,也沒有哪一個方向在本體上更優(yōu)先。很多我們習(xí)慣使用的方向性描述,其實(shí)都建立在特定觀察視角、坐標(biāo)系或任務(wù)定義之上,而不是三維空間自身的屬性。

強(qiáng)行排序隱含了三角形之間的因果依賴——后面要生成的幾何依賴于前面已經(jīng)生成出來的部分,這在3D空間和自然界中都不應(yīng)該存在,既反直覺,也導(dǎo)致生成效率和效果都不好

Tripo P1.0的思路是:要在秒級內(nèi)生成高質(zhì)量網(wǎng)格,不可能走自回歸路線——以現(xiàn)在的算力和范式,要生成幾萬個面,不可能在一秒內(nèi)生成幾萬的token;而3D網(wǎng)格本身沒有天然的順序或偏序關(guān)系,所以應(yīng)該做整體建模和生成

具體來說,我們對整個三角形或多邊形的點(diǎn)、線、面空間進(jìn)行統(tǒng)一的概率建模,用新的數(shù)學(xué)度量來衡量點(diǎn)線面之間的關(guān)系,并在度量引導(dǎo)下做概率建模,從噪聲中不斷探索出最終形狀。

也因?yàn)辄c(diǎn)線面被統(tǒng)一建模,生成結(jié)果自然同時具有幾何和拓?fù)浣Y(jié)構(gòu),規(guī)避了不自然的排序性,效果好且速度快。

舉個最簡單的例子:一張辦公桌。之前的方法因?yàn)橛信判?,比如某種排序下需要從一條腿開始一點(diǎn)一點(diǎn)往上生成,然后第二條腿、第三條腿、第四條腿,最后生成桌面。

這些過程都有因果關(guān)聯(lián),一旦第一條腿出了問題,整個序列就會崩潰。但實(shí)際上四條腿是對稱的,同時生成就有自然機(jī)制相互關(guān)聯(lián),桌面也基于四條腿的幾何自然生長出來,從而避免了序列生成又慢又易崩壞的問題。

量子位:P1.0可以在2秒以內(nèi)生成專業(yè)級3D資產(chǎn),速度提升達(dá)到百倍,這個速度提升主要來源于什么技術(shù)創(chuàng)新?也是剛說的在三維空間里進(jìn)行概率生成嗎?

曹炎培:是的。我覺得更合適的說法是,本來生成這些三維信號就不應(yīng)該花費(fèi)幾百秒。以前的方法實(shí)在慢得太不合理,而我們只是讓它進(jìn)入了對的路徑,在正確的建模效率下達(dá)到了比較理想的生成速度。

量子位:也就是說你們找到了它本來應(yīng)該有的方法,讓它達(dá)到了本來應(yīng)該有的速度。那相對于傳統(tǒng)方法,它在計(jì)算復(fù)雜度和資源消耗上也會有明顯變化嗎?

曹炎培:是的。消耗的計(jì)算資源自然是減少的——在GPU算力相同前提下,消耗取決于推理時間。復(fù)雜度也大大降低了,同樣回到了它應(yīng)有的復(fù)雜度上。

量子位:3D生成里有一個比較難的問題——復(fù)雜拓?fù)浣Y(jié)構(gòu),比如孔洞或嵌套結(jié)構(gòu)。P1.0提出了“隱式潛在拓?fù)溆成錂C(jī)制”,它是怎么解決傳統(tǒng)方法容易出現(xiàn)的拓?fù)鋽嗔褑栴}的?

曹炎培:要理解這個問題,需要先從之前的方法為什么會有困難講起。

首先對于H系列,高模數(shù)據(jù)的表示形式原本天生是無法支持孔洞和嵌套的表達(dá)——所有生成的高模從數(shù)學(xué)上是“水密”(watertight)的——直觀地說就是生成的形狀必須能“兜住水”,表面必須完整閉合、不能漏、不能有破洞。這是目標(biāo)形式的數(shù)學(xué)性質(zhì)所決定的,沒辦法繞過。SparseFlex等表示試圖對這一限制進(jìn)行改進(jìn),但依然跳不開整體框架的限制。

之前的多邊形生成為什么也難處理?很大程度還是因?yàn)榕判?。比如幾個面相交時,按照空間排序方法,在相交部分的排序具有很強(qiáng)的歧義性,導(dǎo)致模型生成到嵌套和交叉區(qū)域時會非常困惑——用LLM的話說就是perplexity非常高,不知道下一個面該出現(xiàn)在哪,整個因果過程完全失效。

而我們找到了一種方法,能在不對原始模型做額外數(shù)據(jù)處理、保持原有美術(shù)建模完整性和精密性的前提下,將三角網(wǎng)格轉(zhuǎn)化為數(shù)學(xué)上的隱空間,并進(jìn)行整體建模。

在P1.0定義的隱空間分布中,孔洞和嵌套不是特殊情況,和生成平面或幾個分立的基礎(chǔ)幾何體一樣,只是數(shù)據(jù)中的普通樣本。相當(dāng)于從表示層面就消解了這些結(jié)構(gòu)的特殊性,使得頂點(diǎn)和面能在特征場中自發(fā)完成對齊與耦合,在極短時間內(nèi)得到觀感上和數(shù)學(xué)上都連貫有效的結(jié)構(gòu)。

量子位:目前在幾何精度、拓?fù)浞€(wěn)定性、細(xì)節(jié)表達(dá)等關(guān)鍵指標(biāo)上,P1.0處于什么水平?

曹炎培:一些用戶反饋,P1.0生成的多邊形網(wǎng)格,與多年經(jīng)驗(yàn)的設(shè)計(jì)師手工建??床怀霰举|(zhì)區(qū)別,完全可以用在任何需要3D資產(chǎn)的場景。加上生成速度極快,對行業(yè)的變革非常大。

當(dāng)然作為1.0版本,有一定概率生成效果不夠理想,比如某些細(xì)節(jié)展現(xiàn)還不夠充分,也為后續(xù)迭代留出了空間。

Tripo P1.0生成



量子位:跟專業(yè)建模師產(chǎn)出的資產(chǎn)相比,目前AI生成的差距還在哪里?

曹炎培:兩類模型都在不斷逼近專業(yè)設(shè)計(jì)師的效果。H系列在絕大多數(shù)物體的造型和細(xì)節(jié)展現(xiàn)上,已經(jīng)能持平多年經(jīng)驗(yàn)的數(shù)字雕刻師水平,但在一些案例的藝術(shù)理解和生成穩(wěn)定性上還有提升空間。

P系列模型帶來的變革可能更大。一些用戶試用后覺得與資深專業(yè)建模師的作品已基本沒有區(qū)別;但我們內(nèi)部對標(biāo)評估發(fā)現(xiàn),在細(xì)節(jié)展現(xiàn)和嚴(yán)格管線標(biāo)準(zhǔn)(如嚴(yán)格對稱、組件劃分等)上仍有提升空間,整體大約能達(dá)到三五年經(jīng)驗(yàn)設(shè)計(jì)師90%的水平

但這并不意味著要替代設(shè)計(jì)師,而是將大家從繁雜的重復(fù)性勞動中解放出來,讓人更專注于創(chuàng)作意圖本身。

人人都能創(chuàng)造自己的3D世界

量子位:P1.0上線之后會怎么服務(wù)游戲行業(yè)的客戶?能舉一兩個例子說明它的落地場景嗎?

曹炎培:我們最看重的是它對UGC可交互內(nèi)容前所未有的激發(fā)。以前H系列已經(jīng)被各行各業(yè)客戶廣泛使用,但它更關(guān)注幾何精度和細(xì)節(jié)展現(xiàn),生成的模型主要放在美術(shù)流程中作為參考或獲取高模的一步,后續(xù)還需要做重拓?fù)洳拍苡糜趯?shí)時引擎或手游——也就是說H系列更多面向?qū)I(yè)用戶。

但我們對P1.0的期待、也是它實(shí)際能做到的是:讓更多以前不知道什么是3D模型的人,跳過對建模工具的學(xué)習(xí),直接得到可用于目標(biāo)場景、符合意圖的3D資產(chǎn)

過去幾個月AI Agent能力不斷提升,越來越多獨(dú)立開發(fā)者通過自然語言構(gòu)建交互式內(nèi)容,門檻已經(jīng)非常低。最近大家都在說“人人都要有一個龍蝦”,AI編程深入人心后,每個人都可以通過大模型構(gòu)建自己的軟件,其中很大一部分可能就是3D交互式內(nèi)容。以前缺乏足夠的資產(chǎn)供給,但現(xiàn)在能做到秒級生成引擎可用的資產(chǎn),這條路就被完全打通了。所以我們對低門檻UGC的內(nèi)容供給爆發(fā)非常樂觀。

量子位:你們判斷3D生成正在從專業(yè)生產(chǎn)工具變成大眾表達(dá)方式,你覺得在什么條件下,UGC互動內(nèi)容的爆發(fā)會真正發(fā)生?

曹炎培:從歷史上看,所有UGC內(nèi)容的爆發(fā)都有跡可循——先有工具來創(chuàng)造內(nèi)容,然后獲取內(nèi)容的門檻降到無限低,UGC平臺自然就會爆發(fā)。打字、拍照、攝像都是如此。

3D也一樣。我們提供的AI 3D生成能力,可以看作像攝像頭一樣的基礎(chǔ)能力。現(xiàn)在2秒、幾乎零成本就能獲取海量3D資產(chǎn),UGC交互平臺已經(jīng)具備了成熟的基礎(chǔ)

接下來隨著技術(shù)發(fā)展,還需要更多智能體模型或世界模型來處理交互式內(nèi)容中的狀態(tài)轉(zhuǎn)化——比如角色與環(huán)境的交互、角色之間的交互、環(huán)境的演化。這些條件成熟后,再疊加零成本的資產(chǎn)生成能力,可能年內(nèi)就會看到很多UGC互動平臺的跡象。AI時代限制創(chuàng)作的不再是技能或工具,只要有想象力,就有各種模型和AI幫助完成創(chuàng)作





量子位:如果AI的生成速度和質(zhì)量都達(dá)到了這樣的水平,對游戲、影視、元宇宙等產(chǎn)業(yè)會帶來怎樣的變化和影響?有沒有可能改變3A游戲資產(chǎn)生成的方式?

曹炎培:3A是一個方面,但首先游戲的形式本身會迎來巨大變化——就像短視頻之于廣電或電影的變革一樣,我們覺得交互式內(nèi)容會有根本的范式性轉(zhuǎn)變。

現(xiàn)在的3A是極少數(shù)專家和藝術(shù)家經(jīng)過三五年籌備,把一套作品呈現(xiàn)給大家,大家在里面消耗時間去玩。但當(dāng)人人都能創(chuàng)造3D內(nèi)容之后,gameplay可能不再是被人為定義的,三維環(huán)境也不是被少數(shù)精英定義。人人都可以創(chuàng)作自己的可交互世界,所有玩法也都可以無限個性化和定制化

量子位:你們今年之內(nèi)會打造一個UGC互動平臺,可以透露一下它大概是什么樣的嗎?Tripo在里面扮演什么角色?

曹炎培:Tripo提供底層的模型能力。我們認(rèn)為幾類技術(shù)對應(yīng)交互式內(nèi)容或世界建模的不同組成部分:H和P系列提供的是交互世界中基礎(chǔ)的狀態(tài),比如持久性的道具、角色應(yīng)該是什么樣子;我們還會打造自己的世界模型來建模狀態(tài)之間的轉(zhuǎn)化——角色怎么與環(huán)境交互?交互過程怎樣自然地呈現(xiàn)和生成?這是世界模型或AI Agent模型需要解決的問題。

在這些能力之上,我們期待的交互式平臺是一個純UGC平臺,甚至比Roblox或Minecraft門檻更低——讓大家在意識不到自己在生成或操控3D的時候,就把高自由度、可分享、可共創(chuàng)的交互式內(nèi)容構(gòu)建出來。

AI 3D算法范式進(jìn)入2.0時代

量子位:回顧過去幾年AI 3D技術(shù)的發(fā)展,你會把它劃分成幾個階段?為什么說P1.0的發(fā)布是進(jìn)入了AI 3D算法范式的2.0時代?

曹炎培:AI 3D的1.0時代可以定義為追求視覺或幾何擬真的時代。3D模態(tài)和視頻、圖像不同,它是物理世界的表述,天然可以交互,有更高維的信號——僅僅是外觀或視覺的近似顯然不夠。但技術(shù)總要一步步發(fā)展,過去幾年大家追求的歸根到底就是“看起來好”。

2.0時代有幾個特點(diǎn):第一是原生資產(chǎn),不再需要復(fù)雜的轉(zhuǎn)化,既然需要工業(yè)可用的資產(chǎn),就直接在這樣的資產(chǎn)上訓(xùn)練和生成。

第二是生成的資產(chǎn)具有功能性,天然具備部件拆分、可動部分——比如具身智能中的關(guān)節(jié)結(jié)構(gòu)、動畫中的骨骼結(jié)構(gòu),更進(jìn)一步還能生成這些可動部分的運(yùn)轉(zhuǎn)邏輯。

第三是將1.0時代速度、質(zhì)量與可用性的“不可能三角”變?yōu)橥瑫r成立。AI 3D不再只是畫圖或擬形的工具,而是真正在構(gòu)筑3D世界或物理世界。

量子位:在AI 3D生成領(lǐng)域,目前還有哪些尚未被解決的技術(shù)難題?接下來最大的技術(shù)挑戰(zhàn)是什么?

曹炎培:2.0時代的目標(biāo)引出了接下來的核心問題。功能性現(xiàn)在剛邁出第一步——比如原生資產(chǎn)內(nèi)部的部件級信息,已有越來越多方法可以建模,但原生的動態(tài)和可交互性,雖然在數(shù)據(jù)中存在,生成能力還未達(dá)到理想狀態(tài)。

未來需要生成的模型不僅形狀對、拓?fù)洳季€對,還要能自發(fā)理解物體的物理關(guān)節(jié)——包括肘關(guān)節(jié)、膝關(guān)節(jié)等有機(jī)關(guān)節(jié)用于動畫,也包括門的軸承、抽屜的抽拉結(jié)構(gòu)等。生成模型需要在生成網(wǎng)格的同時,原生地生成對應(yīng)的綁定、關(guān)節(jié)結(jié)構(gòu)以及物理材質(zhì)屬性。這是接下來值得積極攻堅(jiān)的方向。

Tripo P1.0生成



量子位:下一步是不是發(fā)展到世界模型的路線?從AI 3D生成到世界模型之間的技術(shù)關(guān)系是什么?

曹炎培:不能完全說兩者會合一。目前做世界模型,動量最大的方式肯定是充分利用視頻數(shù)據(jù),因?yàn)橐曨l數(shù)據(jù)最容易獲取,模型和數(shù)據(jù)都能做很好的scaling。但大家或多或少意識到,僅靠視頻建模短期內(nèi)可以走得很快,從原理上講卻有很多物理和3D信號由視頻來建模不一定是最適當(dāng)、最高效的。

世界模型的一個重大方向,是操控persistent狀態(tài)之間合理切換的transition過程,而這些狀態(tài)由3D的表示或資產(chǎn)來存儲是很高效的。這需要兩個模態(tài)共同努力:世界模型需要知道怎么操控這些persistent狀態(tài),3D資產(chǎn)則需要具備可被操控的功能性接口。

比如現(xiàn)在P1.0生成的模型已經(jīng)在無限接近人工構(gòu)造的網(wǎng)格,但在可操控方面還有提升空間——生成的抽屜本身和外框已經(jīng)是分離的,但當(dāng)一個信號說“把抽屜拉開”,具體哪些三角形該怎么運(yùn)動還沒有被很好地建模。這些與功能相關(guān)的屬性,是3D路線需要更多迭代的方向。

量子位:對于世界模型來說,3D會比視頻數(shù)據(jù)更接近其核心嗎?

曹炎培:這目前還是一個非常open的問題,行業(yè)怎么發(fā)展也完全是open-ended的。但有一個樸素統(tǒng)一的思想——首先要定義什么是世界

如果是建模周邊的物理世界,那物理世界本身就是三維的,最直接、最經(jīng)濟(jì)的方式也許就是在三維空間去建模和學(xué)習(xí)。

而且很多狀態(tài)級別的實(shí)體,比如杯子、桌子,在物理世界中的表示非常固定一致,純用視頻去表示每一幀都需要新的像素來表達(dá)這些物體,對計(jì)算量和信息量都有很大消耗。大家已經(jīng)意識到這個問題,長期可能需要視頻數(shù)據(jù)混合3D數(shù)據(jù),通過scaling的探索來找到最好的結(jié)合點(diǎn)。我們的思路也是兩者結(jié)合。

量子位:你們現(xiàn)在做世界模型的進(jìn)展大概怎么樣?

曹炎培:我們會很快用demo來展示階段性進(jìn)展,它會是一個具備交互能力的世界。

量子位:你們做世界模型的優(yōu)勢在哪里?

曹炎培:有幾方面。第一,3D團(tuán)隊(duì)在本質(zhì)思考、數(shù)據(jù)和相關(guān)能力積累上,做世界模型天然有一定優(yōu)勢。

參考世界上很厲害的世界模型公司——Google DeepMind做世界模型的團(tuán)隊(duì)中有很多3D出身的研究者,World Labs更不用說,創(chuàng)始團(tuán)隊(duì)都是三維計(jì)算機(jī)視覺或圖形學(xué)出身。大家的思路都是從本質(zhì)出發(fā),而不是做漸進(jìn)式提升,在世界模型這種非常open-ended的大問題下,這樣更有概率接近最終結(jié)果。

另一方面,去年我們推出了“V·STAR計(jì)劃”,一項(xiàng)面向頂尖研究者的專項(xiàng)招募與培養(yǎng)機(jī)制,吸引了對3D和世界模型交叉方向感興趣、能力很強(qiáng)的同學(xué)加入。不管什么時候,有足夠的人才和idea才是最大的優(yōu)勢。

VAST的“V·STAR頂尖人才計(jì)劃”



量子位:如何看待目前全球AI 3D領(lǐng)域的行業(yè)格局?VAST處于一個什么樣的位置?依據(jù)是什么?

曹炎培:不謙虛地說,VAST現(xiàn)在處在全球3D領(lǐng)域全棧領(lǐng)軍的位置。反觀整個行業(yè),大部分公司還走在老路徑上,用老思路給現(xiàn)有方案打補(bǔ)丁。比如網(wǎng)格生成,如果陷入了自回歸序列化的方向,某種程度上可能是個死胡同。

依據(jù)有幾方面:生成質(zhì)量上,H3.1是此時此刻最好的高模生成模型;底層思考和范式重構(gòu)上,我們率先把新思想快速落地為大家可以體驗(yàn)的P1.0模型,定義了極速生成的速度和性能天花板。

某種程度上它確立了現(xiàn)代3D生成與引擎工具、圖形標(biāo)準(zhǔn)之間的底層連接——背后是定義和發(fā)明新的原生3D表征的能力,這在整個賽道是很強(qiáng)的話語權(quán)。其他像數(shù)據(jù)、人才方面的優(yōu)勢也不用過多贅述。

量子位:可以簡單介紹一下從模型算法到平臺產(chǎn)品,VAST在整個AI 3D領(lǐng)域的整體技術(shù)布局嗎?

曹炎培:算法剛講了很多,補(bǔ)充一下產(chǎn)品方面。去年我們推出了全球首個面向C端的AI 3D創(chuàng)意工具臺——Tripo Studio,讓專業(yè)用戶可以在一個Web產(chǎn)品和工具里端到端完成一整套3D設(shè)計(jì)工作流:從參考圖片生成,到圖片轉(zhuǎn)模型,再到拓?fù)洹⒔壎?、分件、動畫,最終導(dǎo)出,全部在這里完成。

與此同時,我們的API目前服務(wù)了全球超過9萬家企業(yè),覆蓋各行業(yè)的典型案例包括:

  • 與拓竹等消費(fèi)3D打印龍頭的合作;
  • 與網(wǎng)易合作,生成模型被直接用在燕云十六聲、蛋仔派對等國民IP的gameplay里;
  • 與索尼等XR廠商的合作,將3D生成能力用于全息或空間智能領(lǐng)域;
  • 還有機(jī)器人及具身智能廠商,甚至汽車廠家也用生成能力做油泥模型等造型參考……

下一步,我們會在今年推出UGC的3D平臺,進(jìn)一步探索AI 3D生成能力對社會、創(chuàng)作者和消費(fèi)內(nèi)容帶來變革的最大邊界

之前不管是工具臺還是API都偏專業(yè)用戶,但隨著Tripo P1.0的發(fā)明和迭代,最重要的是讓更多以前對3D毫無概念、無法想象自己能創(chuàng)作交互內(nèi)容的用戶獲得新的機(jī)會——就像最近AI Agent或龍蝦風(fēng)潮帶來的觀念和范式轉(zhuǎn)變一樣。

VAST Tripo Studio鏈接:https://www.studio.tripo3d.ai/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
內(nèi)存價格飆升無盡頭!DDR5 32GB最低2500:再便宜直接秒沒

內(nèi)存價格飆升無盡頭!DDR5 32GB最低2500:再便宜直接秒沒

快科技
2026-03-12 16:23:07
多納魯馬出擊收手致巴爾韋德進(jìn)球?喬-哈特:他只是不想送點(diǎn)

多納魯馬出擊收手致巴爾韋德進(jìn)球?喬-哈特:他只是不想送點(diǎn)

懂球帝
2026-03-12 20:18:16
女子相親帶男閨蜜蹭飯,狂點(diǎn)8000元海鮮,男方逃單失聯(lián),警方介入

女子相親帶男閨蜜蹭飯,狂點(diǎn)8000元海鮮,男方逃單失聯(lián),警方介入

離離言幾許
2026-03-07 15:52:24
戰(zhàn)勝國要價:伊朗開出史無前例的停火6條!

戰(zhàn)勝國要價:伊朗開出史無前例的停火6條!

勝研集
2026-03-10 11:53:22
臺灣花蓮縣發(fā)生5.3級地震,震源深度19千米,網(wǎng)友:廈門、福州等地有震感

臺灣花蓮縣發(fā)生5.3級地震,震源深度19千米,網(wǎng)友:廈門、福州等地有震感

環(huán)球網(wǎng)資訊
2026-03-12 20:51:13
哈登為關(guān)鍵球權(quán)用生命起誓!轟30+8成隊(duì)史首人 阿帥:36歲仍巔峰

哈登為關(guān)鍵球權(quán)用生命起誓!轟30+8成隊(duì)史首人 阿帥:36歲仍巔峰

顏小白的籃球夢
2026-03-12 17:15:43
于謙在北京自家四合院請朋友吃飯,抽20多塊錢的煙皮膚發(fā)皺像70歲

于謙在北京自家四合院請朋友吃飯,抽20多塊錢的煙皮膚發(fā)皺像70歲

小娛樂悠悠
2026-03-11 09:35:44
這就是赤裸裸的現(xiàn)實(shí)!現(xiàn)在大部分央國企正式員工連中產(chǎn)都算不上

這就是赤裸裸的現(xiàn)實(shí)!現(xiàn)在大部分央國企正式員工連中產(chǎn)都算不上

侃故事的阿慶
2026-03-12 06:58:36
伊朗向全球廣播一條神秘信號,美國馬上意識到大事不好

伊朗向全球廣播一條神秘信號,美國馬上意識到大事不好

健身狂人
2026-03-12 19:50:24
美論壇:若中國禁止美加入中國空間站,美國有權(quán)將其擊落

美論壇:若中國禁止美加入中國空間站,美國有權(quán)將其擊落

混沌錄
2026-03-12 20:43:49
4129.10點(diǎn)最后的警告,明天3月13號周五的行情不用猜了!

4129.10點(diǎn)最后的警告,明天3月13號周五的行情不用猜了!

夜深愛雜談
2026-03-12 19:36:13
豐特:我們短期內(nèi)不可能簽哈蘭德,我相信10年合同很難履行完

豐特:我們短期內(nèi)不可能簽哈蘭德,我相信10年合同很難履行完

懂球帝
2026-03-12 21:10:11
前“死了么”APP創(chuàng)始人談公司落戶杭州:辦公場地3年免租,被一封真誠郵件打動!產(chǎn)品已有新名字

前“死了么”APP創(chuàng)始人談公司落戶杭州:辦公場地3年免租,被一封真誠郵件打動!產(chǎn)品已有新名字

極目新聞
2026-03-12 14:06:10
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報
2025-12-14 22:36:54
離婚率居高不下!長沙男子測試搭訕,49個女生41個留電話再被提及

離婚率居高不下!長沙男子測試搭訕,49個女生41個留電話再被提及

火山詩話
2026-03-12 08:48:15
淪為共享單車的女色虎

淪為共享單車的女色虎

深度報
2026-03-05 22:39:27
生育大局已定,2026年起中國人口將迎三大變化

生育大局已定,2026年起中國人口將迎三大變化

今夜繁星墜落
2026-03-12 13:27:04
伊朗宗教領(lǐng)袖發(fā)布圣戰(zhàn)令點(diǎn)名特朗普,隨后傳出空襲身亡消息

伊朗宗教領(lǐng)袖發(fā)布圣戰(zhàn)令點(diǎn)名特朗普,隨后傳出空襲身亡消息

桂系007
2026-03-12 06:30:59
兩會結(jié)束后,不出意外的話,未來兩年房地產(chǎn)市場或?qū)⒂瓉?個變化

兩會結(jié)束后,不出意外的話,未來兩年房地產(chǎn)市場或?qū)⒂瓉?個變化

科學(xué)發(fā)掘
2026-03-12 16:13:51
逆勢大漲!601898,股價創(chuàng)18年來新高

逆勢大漲!601898,股價創(chuàng)18年來新高

大眾證券報
2026-03-12 16:53:42
2026-03-12 21:28:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12274文章數(shù) 176413關(guān)注度
往期回顧 全部

科技要聞

當(dāng)養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭才真正開始

頭條要聞

男子做核磁被遺忘在機(jī)器上6小時 涉事醫(yī)生:交接失誤

頭條要聞

男子做核磁被遺忘在機(jī)器上6小時 涉事醫(yī)生:交接失誤

體育要聞

建議將“出球型門將”納入反詐app

娛樂要聞

田亮一家新年全家福!森碟變清純少女

財(cái)經(jīng)要聞

盧鋒:從特朗普團(tuán)隊(duì)群演看時代變局

汽車要聞

大眾2025財(cái)報:轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

本地
藝術(shù)
游戲
公開課
軍事航空

本地新聞

坐標(biāo)北京,過敏季反向遷徒

藝術(shù)要聞

朱屺瞻『凌波仙子』

魂師對決:當(dāng)前版本必練7人組盤點(diǎn)!真就是角色越多必練越少?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普自行宣布對伊朗戰(zhàn)爭勝利

無障礙瀏覽 進(jìn)入關(guān)懷版