国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

西湖大學(xué)修宇亮:數(shù)字人重建,慢慢都會(huì)變成基礎(chǔ)模型的微調(diào)任務(wù) | GAIR 2025

0
分享至



臟數(shù)據(jù)變廢為寶,1.5秒完成數(shù)字人重建。

作者丨梁丙鑒

編輯丨馬曉寧


12月12日,第八屆 GAIR 全球人工智能與機(jī)器人大會(huì)于深圳正式拉開(kāi)帷幕。

本次大會(huì)為期兩天,由GAIR研究院與雷峰網(wǎng)聯(lián)合主辦,高文院士任指導(dǎo)委員會(huì)主席,楊強(qiáng)院士與朱曉蕊教授任大會(huì)主席。大會(huì)共開(kāi)設(shè)三個(gè)主題論壇,聚焦大模型、具身智能、算力變革、強(qiáng)化學(xué)習(xí)與世界模型等多個(gè)議題,描繪AI最前沿的探索群像,折射學(xué)界與產(chǎn)業(yè)界共建的智能未來(lái)。

作為 AI 產(chǎn)學(xué)研投界標(biāo)桿盛會(huì),GAIR自2016年創(chuàng)辦以來(lái),始終堅(jiān)守 “傳承+創(chuàng)新” 內(nèi)核,是 AI 學(xué)界思想接力的陣地、技術(shù)交流的平臺(tái),更是中國(guó) AI 四十年發(fā)展的精神家園。過(guò)去四年大模型驅(qū)動(dòng) AI 產(chǎn)業(yè)加速變革,歲末年初 GAIR 如約而至,以高質(zhì)量觀點(diǎn)碰撞,為行業(yè)與大眾呈現(xiàn)AI時(shí)代的前沿洞見(jiàn)。

在12月13日的“世界模型”專場(chǎng),西湖大學(xué)助理教授,遠(yuǎn)兮實(shí)驗(yàn)室負(fù)責(zé)人修宇亮進(jìn)行了以《走出蠟像館,交互新世界:開(kāi)拓三維數(shù)字人研究新疆域》為主題的演講,分享了其關(guān)于高精度數(shù)字人重建的三項(xiàng)最新進(jìn)展。

修宇亮分享了遠(yuǎn)兮實(shí)驗(yàn)室最新的三個(gè)工作,分別為 UP2You,ETCH 和 Human3R。

由于兼具相機(jī)位姿變化和人物動(dòng)作變化的特點(diǎn),如何從無(wú)限制的日常采集圖像(如手機(jī)相冊(cè))出發(fā),進(jìn)行高精度的三維重建,是一個(gè)非常有挑戰(zhàn)性的問(wèn)題。修宇亮在博士期間,提出了第一套,先圖生文,再文生 3D的兩步走解決方案。這套方案可以兼容虛擬試衣和基于文字的穿搭編輯等下游應(yīng)用,但效率非常低,DreamBooth和SDS(Score Distillation Sampling)漫長(zhǎng)的微調(diào)和優(yōu)化流程,導(dǎo)致單個(gè)數(shù)字人建模任務(wù)需要3至4個(gè)小時(shí)。

遠(yuǎn)兮實(shí)驗(yàn)室的最新成果UP2You,將上述時(shí)間從4小時(shí)壓縮到了1.5 分鐘。其核心思想是將臟數(shù)據(jù)直接轉(zhuǎn)化成對(duì)后續(xù)重建友好的多視角正交圖片,在此基礎(chǔ)上套用已有的多視角重建算法,實(shí)現(xiàn)提效。

相較于傳統(tǒng)方案,UP2You的優(yōu)勢(shì),一是快——從一坨臟數(shù)據(jù)中,只需要1.5 分鐘就可以拿到高質(zhì)量的帶紋理數(shù)字人;二是多多益善——用數(shù)量換質(zhì)量,重建質(zhì)量可以隨輸入圖片數(shù)量的增加而穩(wěn)定變好。修宇亮總結(jié),“無(wú)論圖片有多臟,這個(gè)方案只要保證圖片源源不斷灌進(jìn)來(lái),更細(xì)節(jié)的幾何和更完整的紋理,就可以立竿見(jiàn)影。”

修宇亮分享的第二項(xiàng)工作名為ETCH,旨在從穿衣服的人物三維掃描中,得到解剖學(xué)上正確的內(nèi)部人體。由于此前的其他嘗試,很少建模人體和衣服之間的厚度,往往直接將最外層服裝視為人體皮膚來(lái)做人體模型擬合,這就導(dǎo)致擬合結(jié)果普遍偏胖。而ETCH則是通過(guò)等變向量,定義了衣服和皮膚之間的厚度關(guān)系,從而獲得更準(zhǔn)確的內(nèi)部人體結(jié)構(gòu),而且由于旋轉(zhuǎn)等變性的引入,也可以大大減少訓(xùn)練數(shù)據(jù)。在今年的ICCV上,ETCH獲評(píng)Highlight Paper。

最后一項(xiàng)工作名為Human3R,旨在實(shí)現(xiàn)人物及場(chǎng)景的實(shí)時(shí)動(dòng)態(tài)重建?!澳愫茈y只從人體動(dòng)作出發(fā),就看懂人在做什么”,修宇亮解釋,“但如果把場(chǎng)景也給到你,語(yǔ)義就相對(duì)清晰。”

據(jù)介紹,Human3R在同時(shí)實(shí)現(xiàn)場(chǎng)景重建和人體狀態(tài)預(yù)測(cè)、追蹤的基礎(chǔ)上,可以做到實(shí)時(shí)15FPS 的推理,8GB顯存占用。這意味著僅需一張商用GPU,即可實(shí)現(xiàn)SOTA級(jí)性能。單張顯卡訓(xùn)一天,單個(gè)模型跑一遍,多人跟蹤實(shí)時(shí)出,場(chǎng)景還更準(zhǔn)了些。

為了實(shí)現(xiàn)這一點(diǎn),Human3R基本保留了CUT3R的 backbone,同時(shí)新增了一條人體回歸的分支,借鑒了VPT(Visual-Prompt Tuning)策略,以實(shí)現(xiàn)高效微調(diào),這樣就可以在不破壞CUT3R 已有的場(chǎng)景重建能力的基礎(chǔ)上,對(duì)人體相關(guān)的幾何信息解碼成 SMPL,場(chǎng)景在這里,可以視為一種上下文,保證人體被正確的放置到場(chǎng)景中。

展望未來(lái),修宇亮最后分享了自身對(duì)于數(shù)字人技術(shù)的觀察。更強(qiáng)大的通用3D重建模型正在讓越來(lái)越多數(shù)字人重建任務(wù)迎刃而解。“數(shù)字人的重建任務(wù),慢慢都會(huì)變成基礎(chǔ)模型的微調(diào)任務(wù)。”修宇亮指出。

以下為修宇亮的現(xiàn)場(chǎng)演講內(nèi)容,雷峰網(wǎng)進(jìn)行了不改變?cè)獾木庉嬚恚?/strong>

非常榮幸來(lái)介紹我們實(shí)驗(yàn)室的最新工作進(jìn)展。我今天分享的題目是《走出蠟像館,交互新世界》,起這個(gè)題目的主要原因是,在我看來(lái),數(shù)字人無(wú)非就是研究?jī)蓚€(gè)問(wèn)題。一個(gè)是研究靜態(tài),就是怎么建模一個(gè)栩栩如生的數(shù)字人。另一個(gè)就是動(dòng)態(tài),怎么讓這個(gè)人可以活靈活現(xiàn)地動(dòng)起來(lái),這是兩個(gè)非常關(guān)鍵的問(wèn)題。

我今天分享的有三個(gè)工作。第一個(gè)工作是關(guān)于三維形象重建,怎么從日常的圖像里面去做高精度的數(shù)字人重建。第二個(gè)工作是ETCH,如果我們已經(jīng)拿到了一個(gè)高精度的,穿著衣服的人體幾何建模,怎么能夠再?gòu)倪@里拿到一個(gè)解剖學(xué)上正確的內(nèi)部的人體結(jié)構(gòu)?第三個(gè)是Human3R,我們往往要把人的行為放到一個(gè)場(chǎng)景里才能更好地理解,所以我們最新的工作Human3R,就是把人和場(chǎng)景放到一起去做重建。

在講之前,我先把數(shù)字人重建會(huì)用到的數(shù)據(jù)類型總結(jié)一下。我們以相機(jī)和人動(dòng)不動(dòng)作為量綱,比如Snapshot這個(gè)數(shù)據(jù)集,它是相機(jī)靜止,但是人在運(yùn)動(dòng)著的數(shù)據(jù),綠色就是運(yùn)動(dòng),紅色就是靜止,那當(dāng)然這個(gè)運(yùn)動(dòng)的幅度也可以更大一些。這邊是我從Youtube上找到的一個(gè)視頻,它也是相機(jī)靜止,人在運(yùn)動(dòng)。當(dāng)然這件事也可以反過(guò)來(lái)。我們也可以讓人固定不動(dòng),讓相機(jī)進(jìn)行轉(zhuǎn)動(dòng)。這邊這個(gè)就是,因?yàn)橐3秩说姆€(wěn)定,就加了兩個(gè)三腳架做人的姿態(tài)固定,這樣也可以做重建。

我們?nèi)绻剂肯鄼C(jī)陣列采集,從單個(gè)相機(jī)來(lái)看,它是相機(jī)固定,人在動(dòng)的情況。如果我們把具體的某一時(shí)刻的多相機(jī)采集結(jié)果拿出來(lái)看,就又變成了一個(gè)相機(jī)在動(dòng),但是人靜止的情況。也就是本質(zhì)上來(lái)講,密集陣列相機(jī)采集能夠work,還是因?yàn)樗谥亟ㄟ^(guò)程里嘗試把兩個(gè)變量變成一個(gè)變量。同時(shí)還有最極端的,就是單張圖片,相機(jī)和人都是不動(dòng)的。

那現(xiàn)在就有一個(gè)很自然而然的問(wèn)題,如果相機(jī)是動(dòng)的,人也是動(dòng)的,我們有沒(méi)有辦法去做重建?我給出一個(gè)例子,手機(jī)相冊(cè),實(shí)際上我們每天拍攝的照片就是這樣。除了這個(gè)人和穿的衣服,其它所有因素都是變化的。相機(jī)的位姿、人的動(dòng)作、圖像的比例,然后有大頭照、有全身照、有半身照、有遮擋、有圖像剪切……任何情況都可能會(huì)出現(xiàn)。在這樣非常臟的數(shù)據(jù)下,我們能不能夠把重建這個(gè)事情給做了?這就是我博士期間開(kāi)始研究的一個(gè)問(wèn)題。


這個(gè)問(wèn)題的難點(diǎn)在哪呢?坦誠(chéng)地講,我們不算是第一個(gè)來(lái)嘗試解決這個(gè)問(wèn)題的。最早一個(gè)相關(guān)工作就是Photo Tourism,做場(chǎng)景重建的同學(xué)或者老師肯定知道。比如我要重建巴黎圣母院,這個(gè)工作就是從整個(gè)互聯(lián)網(wǎng)上把所有巴黎圣母院的照片拿下來(lái),嘗試去跑SFM(Structure from Motion),拿到相機(jī)位姿,然后重建出它的點(diǎn)云。

但他們解決的問(wèn)題其實(shí)比我們這個(gè)要簡(jiǎn)單一點(diǎn)。為什么呢?因?yàn)榘屠枋ツ冈菏遣粫?huì)動(dòng)的。它燒了之后當(dāng)然形變了,但它沒(méi)燒之前是不形變的,永遠(yuǎn)是那個(gè)樣子,所以就有辦法拿到相對(duì)準(zhǔn)確的相機(jī)位姿。但是對(duì)于人這個(gè)場(chǎng)景,人的動(dòng)作是會(huì)動(dòng)的,相機(jī)也是動(dòng)的,你沒(méi)有辦法跑這種傳統(tǒng)的structure from motion拿到一個(gè)準(zhǔn)確的相機(jī)位姿。所以我們這個(gè)問(wèn)題就顯得更有挑戰(zhàn),于是我在博士期間就做了PuzzleAvatar。

這是我接下來(lái)要講的工作的一個(gè)前序工作。其實(shí)我們的解決思路是非常簡(jiǎn)單的,一句話就可以講清楚。我們首先嘗試把這些圖片壓成token,或者說(shuō)壓縮成文字,然后我們?cè)僮鑫纳?D,就這么簡(jiǎn)單,這是個(gè)非常符合直覺(jué)的做法。然后人分很多個(gè)part,我們有上衣、褲子、臉,為了保證從圖像到文字的壓縮是無(wú)損的,我們就用很多的token去表達(dá)人的臉、上衣、褲子或者鞋。

整個(gè)流程其實(shí)非常簡(jiǎn)單。我們把這些圖片輸入之后,首先嘗試去做分割,這樣就可以分割出一堆褲子、一堆臉、一堆鞋,然后我們對(duì)每一撮數(shù)據(jù)都分別用DreamBooth給學(xué)習(xí)到一個(gè)文生圖模型里。比如臉是asset 01,上衣是asset 02,以此類推,這樣就把圖片壓縮成了文字形式。然后我們?cè)賹?duì)文字做文生3D,因?yàn)?3、24年那個(gè)時(shí)候還沒(méi)有現(xiàn)在這么多很快速的文生3D方式,我們就用最原始的SDS把人優(yōu)化出來(lái)。整個(gè)優(yōu)化是兩個(gè)流程,先嘗試恢復(fù)幾何,然后用SDS跑優(yōu)化文生3D。幾何跑得差不多了,我們就嘗試固定幾何,再跑它的紋理,這樣我們就可以把這個(gè)人帶紋理的幾何模型給重建出來(lái)。

這樣的做法有什么好處呢?因?yàn)槲覀兿喈?dāng)于把所有圖片都?jí)嚎s成文字了,那就可以做這樣的事情。大家可以看到,左側(cè)是我的圖片,右側(cè)是我同事的圖片,都?jí)嚎s成文字之后,文字之間是可以進(jìn)行交換的。那我們就做最簡(jiǎn)單的事情,比如我的shirt叫A shirt,她的shirt叫B shirt,我們做一下交換,我就把她的衣服穿上了。這在數(shù)字人里就是很典型的一個(gè)任務(wù),虛擬試衣。同時(shí)因?yàn)槲业乃袌D像都?jí)嚎s成文字了,文字是很容易編輯的,我們可以把褲子改成牛仔褲,或者衣服改成hoodie。這種改變同時(shí)也可以作用于幾何和紋理,所以整套 pipeline 就變得非常非常的干凈。

但是這里有一個(gè)問(wèn)題,就是這個(gè)工作是沒(méi)有辦法落地的,因?yàn)樗鼤r(shí)間非常長(zhǎng)。如果訓(xùn)過(guò)DreamBooth,或者用過(guò)SDS的肯定知道,這兩個(gè)流程是曠日持久。在那種普通的GPU上,DreamBooth大概微調(diào)要一個(gè)小時(shí)左右,SDS 優(yōu)化要3個(gè)小時(shí),那4個(gè)小時(shí)出一個(gè)人,這個(gè)時(shí)間是不可接受的。所以我們前不久發(fā)了一篇新的工作,嘗試把這個(gè)時(shí)間從4個(gè)小時(shí)壓縮到了1.5分鐘。


我們嘗試了一種全新的思路去做這個(gè)問(wèn)題。直白來(lái)講,PuzzleAvatar的思路是先把圖像盡可能無(wú)損壓縮成文字,然后從文字恢復(fù)3D。現(xiàn)在我們換了一種思路,就是能不能找到一種方式把dirty data 轉(zhuǎn)化成 clean data,把它洗干凈。什么叫洗干凈呢?洗干凈就是說(shuō),把這些圖片全轉(zhuǎn)化成多視角的正交圖片,像中間展示的這樣子。那這樣的圖片對(duì)于后續(xù)的重建是非常非常友好的,你可以套用任何現(xiàn)有的多視角重建算法,很快就能出來(lái)我們想要的結(jié)果,所以我們有辦法把時(shí)間壓到一分半。

我們做了一個(gè)動(dòng)畫(huà)效果讓大家感受一下這個(gè)任務(wù),就好像是你拿了一個(gè)卡片相機(jī),圍著一個(gè)動(dòng)的人不斷地拍。拍下來(lái)的圖片,我們有辦法把它從臟圖片洗成干凈的圖片。有了這些干凈的圖片,包括RGB,包括法向,我們就可以重建出質(zhì)量比較高的數(shù)字人。這個(gè)工作叫UP2You,UP是unconstrained photos的縮寫,you就是yourself。

這邊就是一個(gè)大概的pipeline。我們輸入的是這樣一些臟臟的圖片,首先有一個(gè)模塊嘗試從這些臟圖片里面拿到一個(gè)相對(duì)準(zhǔn)確的人形,也就是這個(gè)人到底胖還是瘦。有了這個(gè)大概的人體形狀,我們就可以渲染出多視角的法向圖。接下來(lái)的問(wèn)題就是,我有一些法向圖控制人體姿態(tài),我又有一些臟臟的圖片,它們定義了這個(gè)人的外表,那我們?cè)趺窗堰@兩個(gè)結(jié)合起來(lái),最后生成一個(gè)多視角的圖像?

關(guān)鍵就是這個(gè)Correlation Map。它是做啥的呢?簡(jiǎn)單地講,就是我現(xiàn)在給你一個(gè)人體的pose,我需要按需去取這上面的像素,拿到每一張臟圖片和這個(gè)姿態(tài)之間的相關(guān)性。大家看右邊的可視化,可以看出來(lái),當(dāng)這個(gè)姿態(tài)是一個(gè)正面姿態(tài)的時(shí)候,那些圖像的正面部分,權(quán)重或者置信度就會(huì)相對(duì)高。那這個(gè)人不斷旋轉(zhuǎn),置信度也在不斷變化,這個(gè)模塊非常非常關(guān)鍵。

我們這個(gè)方法最大的優(yōu)勢(shì)是什么呢?這也是一個(gè)我特別喜歡的性質(zhì),就是隨著輸入圖片的增多,重建質(zhì)量可以穩(wěn)定地變好。換句話來(lái)講,我們輸入的是大量非常臟的圖片,但無(wú)論它有多臟,只要能夠保證源源不斷地輸入圖片,最后重建的質(zhì)量就可以穩(wěn)定變好,多多益善。


中間就是我們的重建結(jié)果。最右邊是光場(chǎng)掃描的一個(gè)ground truth,你可以看到一張圖片的結(jié)果、兩張圖片,十張圖片,隨著輸入圖片的增多,我能拿到這個(gè)人的外表、正面、反面、背面、側(cè)面,我能拿到的信息更全面,那理論上講我們也可以恢復(fù)出更好的幾何和紋理。

我們的整個(gè)訓(xùn)練是在合成數(shù)據(jù)上完成的,所以我們也測(cè)試了在真實(shí)場(chǎng)景下的效果。這是我們實(shí)驗(yàn)室的同學(xué),我們用他們隨便拍的照片做測(cè)試,發(fā)現(xiàn)也是可以泛化的。這是第一個(gè)工作,UP2You,主要講的是如何從臟圖片里面去做三維重建。

第二個(gè)工作是ETCH。當(dāng)我已經(jīng)有了一個(gè)穿著衣服的人的幾何結(jié)構(gòu),怎么拿到解剖學(xué)正確的內(nèi)部人體結(jié)構(gòu)?今年ICCV,我們這項(xiàng)工作被選為了Highlight Paper。簡(jiǎn)單來(lái)說(shuō),我們這個(gè)任務(wù)就是將一個(gè)參數(shù)化的人體模型,最常見(jiàn)的比如SMPL?X或者 MHR,想辦法把它準(zhǔn)確塞到三維掃描里。


這個(gè)準(zhǔn)確怎么定義呢?大家可以看到,這張圖最左邊是原始的輸入,一個(gè)三維掃描的穿衣服人體建模,藍(lán)色部分是真實(shí)的人體。用之前一些方法拿到的結(jié)果,你會(huì)發(fā)現(xiàn)這個(gè)人是有點(diǎn)偏胖的。原因也很簡(jiǎn)單,之前我們分不清到底是衣服還是內(nèi)部皮膚,所以我們只能把衣服當(dāng)成皮膚,然后去做body fitting,最后得到的結(jié)果往往就是偏胖。而第四個(gè)fitting,就是我們現(xiàn)在方案的結(jié)果。


在這個(gè)工作里,我們主要的創(chuàng)新點(diǎn)就是嘗試建模衣服和人體之間的厚度關(guān)系,把這個(gè)厚度關(guān)系減掉,就可以把衣服剝離,這樣我們就可以更準(zhǔn)確地建模內(nèi)部人體。

我們整個(gè)pipeline,首先是掃描,在上面做均勻的采樣變成點(diǎn)云,對(duì)于每個(gè)點(diǎn),我們找到一個(gè)指向內(nèi)部人體的向量,我們叫它Tightness Vector。接下來(lái)我們把這些點(diǎn)聚類到382 個(gè)marker,然后我們針對(duì)這些marker做fitting就可以了。整個(gè)pipeline其實(shí)非常非常符合直覺(jué),過(guò)程也非???,大概幾秒鐘就可以搞定。這邊是一些最后的人體擬合結(jié)果。你會(huì)看到第三列的紅色、黃色,其實(shí)就是定義了衣服到底距離人體有多遠(yuǎn)。


我們應(yīng)該是第一個(gè)嘗試用向量來(lái)定義衣服和人體之間的關(guān)系的工作。那為什么要用向量做這件事情呢?因?yàn)槿绻孟蛄?,我們就可以利用旋轉(zhuǎn)等變性來(lái)訓(xùn)練這個(gè)網(wǎng)絡(luò)。那為什么要用旋轉(zhuǎn)等變性呢?因?yàn)檫@樣訓(xùn)練可以更省數(shù)據(jù)。我們其實(shí)受到了馮海文的ArtEq這項(xiàng)工作的啟發(fā),簡(jiǎn)單來(lái)講它的輸入是裸體的人,我們做的是穿著衣服的點(diǎn)云,但其實(shí)問(wèn)題本質(zhì)上是比較相似的。衣服有非剛體形變,所以我們的旋轉(zhuǎn)等變性并不完美,但我們依然可以利用這樣的性質(zhì),大大減少訓(xùn)練數(shù)據(jù)。

那又回到剛才那個(gè)問(wèn)題。之前的數(shù)據(jù)集,往往相機(jī)和人只能動(dòng)一個(gè),而我們?nèi)粘O鄡?cè)里的數(shù)據(jù)是人和相機(jī)都在動(dòng)。但其實(shí)還有一種人和相機(jī)都在動(dòng)的情況,就是我們?nèi)粘W畛R?jiàn)的,在互聯(lián)網(wǎng)上到處都有的這種視頻。我們拍視頻的時(shí)候,相機(jī)不可能是靜止不動(dòng)的,它往往也會(huì)隨著人去移動(dòng),只是和相冊(cè)比起來(lái),相冊(cè)的圖片比較離散,視頻里面的這種采集,相對(duì)更連續(xù)一些,但它依然是人和相機(jī)都在運(yùn)動(dòng)著的情況。

那這邊就講一下我們最后一個(gè)工作,叫Human3R。這個(gè)工作的這個(gè)初衷是,我們能不能夠?qū)崟r(shí)地,并且前用前饋式的方式同時(shí)重建人和場(chǎng)景,并且只用一個(gè)模型。

這邊是結(jié)果,右下角是一個(gè)電影場(chǎng)景,我們可以看到隨著這個(gè)電影場(chǎng)景的播放,這個(gè)場(chǎng)景本身是可以重建出來(lái)的,包括場(chǎng)景中人的姿態(tài)我們也可以很準(zhǔn)確地預(yù)測(cè)出來(lái),并且不同人體的tracking也可以做到。這整個(gè)重建的pipeline,我們可以做到實(shí)時(shí)15 FPS,8GB顯存占用,所以在一個(gè)商用的GPU上也可以跑得很好。

這邊要講一下為什么我們要嘗試把人體和場(chǎng)景放到一塊去做重建,很重要的一個(gè)原因是為了更好地理解人的行為。我舉一個(gè)例子,其實(shí)你其實(shí)很難單純從動(dòng)作里面看到,一個(gè)人究竟在做什么。但是如果我們把場(chǎng)景也給到你,你就可以非常清晰地看出來(lái),這個(gè)語(yǔ)義就相對(duì)清晰了。這就是為什么我們要嘗試把人和場(chǎng)景放到一塊重建,因?yàn)檫@樣可以更好地理解人的行為。

我們這個(gè)工作的題目叫Everyone,Everywhere,All at Once,是借鑒了楊紫瓊老師的電影Everything,Everywhere,All at Once。這個(gè)名字是我起的,我覺(jué)得還是比較符合我們整個(gè)工作的特點(diǎn)。為什么叫 All at Once呢?首先我們只有一個(gè)模型,沒(méi)有很多個(gè)part,one model,而且one stage。我們也是 one shot,也就是說(shuō)不需要一個(gè)人一個(gè)人地出,我們是所有人一塊出。另外我們整個(gè)訓(xùn)練只需要一張GPU,訓(xùn)一天就可以了。五個(gè)one,all at once,一股腦地、實(shí)時(shí)地把所有結(jié)果全部跑出來(lái)。


我們的輸入就是一個(gè)普通的單目視頻,輸出包括一個(gè)全局坐標(biāo)系下的人體姿態(tài),包括三維場(chǎng)景重建以及camera pose。

我們這個(gè)工作和之前的工作,最大的差別是什么?我們把之前的很多工作總結(jié)了一下,大概就是這樣的范式,它們都是multi stage。比如我給一個(gè)視頻,首先要做detection,檢測(cè)到人的bounding box,然后對(duì)每個(gè)bounding box里面的人做tracking,拿到trajectory,再然后每個(gè)人都要做HMR(Human Mesh Recovery),都要跑出一個(gè)人體的pose,同時(shí)我們還要做整個(gè)場(chǎng)景的深度估計(jì),還要做分割,要預(yù)測(cè)相機(jī)的pose。最后所有的這些,場(chǎng)景的點(diǎn)云,人的pose,全部要放到一個(gè)框架里面進(jìn)行聯(lián)合優(yōu)化,整個(gè)流程基本上都要跑幾個(gè)小時(shí)。


這是大家之前的做法。我們現(xiàn)在把這些非常復(fù)雜的流程全部砍掉,只用一個(gè)模型,一個(gè)stage就可以解決問(wèn)題。很大程度上這項(xiàng)工作是受王倩倩老師做的CUT3R的啟發(fā),它是一個(gè)online的4D重建工作,圖片一張一張往里面進(jìn),整個(gè)4D的場(chǎng)景,包括人,包括物,一幀一幀地重建,都可以 online地去跑下去。我非常喜歡這個(gè)工作。

但是如果你看CUT3R的文章,它也是在一個(gè)非常大規(guī)模的數(shù)據(jù)上訓(xùn)練的。我們?nèi)绻猣rom scratch去訓(xùn)練的話,也同樣需要大量的數(shù)據(jù)。但是問(wèn)題在于,其實(shí)人和場(chǎng)景交互沒(méi)有那么多的數(shù)據(jù),我們可能可以拿到很多的3D場(chǎng)景數(shù)據(jù),但是很難拿到一個(gè)場(chǎng)景和人都在,而且場(chǎng)景和人的深度交互也都有的數(shù)據(jù),所以我們不得不嘗試只用一個(gè)很小的數(shù)據(jù)集把這東西給train起來(lái)。

我們的做法在這邊。大家可以看到,上面所有帶雪花的都是CUT3R原始的backbone,我們沒(méi)有改動(dòng),因?yàn)槲覀冃枰3衷械膶?duì)場(chǎng)景的重建能力。同時(shí)我們加了一個(gè)branch,專門從這個(gè)場(chǎng)景里面read out出人的點(diǎn)云,然后read out出這個(gè)人體的pose。然后我們還借鑒了VPT(Visual-Prompt Tuning),這樣可以非常高效地做微調(diào),就可以實(shí)現(xiàn)一天、一張GPU,把這個(gè)模型給訓(xùn)出來(lái),而且達(dá)到 SOTA 的性能。

這邊展示了更多的結(jié)果。這是一個(gè)3DPW(3D Pose in the Wild)的場(chǎng)景,兩個(gè)人在一條路上行走,你可以看到這個(gè)人的軌跡是非常平滑的,整個(gè)場(chǎng)景也可以都重建出來(lái)。但是我們也嘗試做一下回環(huán)檢測(cè),這個(gè)人跑一圈,最后整個(gè)場(chǎng)景和人是不是也都能重建出來(lái)?效果其實(shí)也是比較滿意的。這是在一個(gè)相對(duì)長(zhǎng)程的場(chǎng)景里,這是一個(gè)實(shí)驗(yàn)室,你可以看到隨著這個(gè)人在各個(gè)房間里面走動(dòng),最后整個(gè)房間被重建出來(lái),然后整個(gè)人的軌跡也可以拿到。

這是我們最喜歡的一個(gè)case,一個(gè)電影場(chǎng)景,兩個(gè)人,不光做pose,人的ID也可以同時(shí)做跟蹤,而且隨著視頻跑得越來(lái)越多,整個(gè)場(chǎng)景也會(huì)不斷地完善。

這邊是一些我們?nèi)梭w的pose預(yù)測(cè)和ground truth之間的對(duì)比,黑色的影子就是 ground truth,藍(lán)色的就是人體估計(jì)的動(dòng)作,大家可以看到幾乎是嚴(yán)絲合縫的,我們的準(zhǔn)確性是非常高的。

當(dāng)然也有一些failure case,這是比較經(jīng)典的一個(gè),因?yàn)槲覀冞@個(gè)方法還是前饋式的,就是一步到位把所有結(jié)果給到你,沒(méi)有任何后續(xù)的優(yōu)化,所以有的時(shí)候難免會(huì)出現(xiàn)這種人和場(chǎng)景之間的交叉。比如人坐到沙發(fā)里,或者腳跑到地底下穿模,這種情況還是有的。以及如果這個(gè)人在和場(chǎng)景交互的同時(shí),還和一些物體交互,比如說(shuō)拿了一把吉他,那這個(gè)吉他相當(dāng)于也是一個(gè)動(dòng)態(tài)的,那這種情況我們目前沒(méi)有辦法建模,只能在處理的過(guò)程中我們把這個(gè)東西摳掉,只做靜態(tài)場(chǎng)景和人的重建,動(dòng)態(tài)場(chǎng)景目前沒(méi)法處理。

這里可以順勢(shì)講一下,其實(shí)我們認(rèn)為這個(gè)工作有個(gè)非常自然的extension,就是把Everyone,Everywhere,All at Once,拓展成Everything,Everyone,Everywhere All at Once,人、場(chǎng)景、物全部一股腦地出來(lái)。我們可以提前把這些物體給建模,然后只做 6D pose,也可以online地去把這物體重建出來(lái)。那這個(gè)問(wèn)題怎么解決呢?各位老師如果感興趣的話,一會(huì)我們可以再聊。

那這項(xiàng)工作給了我們一個(gè)什么啟發(fā)呢?因?yàn)槲沂亲鰯?shù)字人的,這其實(shí)是一個(gè)比較悲傷的事情,我發(fā)現(xiàn)很多數(shù)字人的問(wèn)題隨著更通用的3D重建模型變得越來(lái)越強(qiáng)大,正在迎刃而解。比如Human3R,簡(jiǎn)單來(lái)講,我們拿了一個(gè)有場(chǎng)景感知能力的視覺(jué)基礎(chǔ)模型,稍微微調(diào)一下就可以做人體的pose。同時(shí)最近我發(fā)現(xiàn)了一篇曹旭老師新工作,叫KaoLRM,他們拿object centric的LRM,去做臉部的重建,和之前的方法相比,在跨視角上獲得了更好的穩(wěn)定性。所以我的一個(gè)感覺(jué)是,可能未來(lái)數(shù)字人的很多重建任務(wù),慢慢都會(huì)變?yōu)橐粋€(gè)基礎(chǔ)模型的微調(diào)任務(wù)。

剛才講的三個(gè)工作我們?nèi)慷奸_(kāi)源了,也在網(wǎng)站上提供了一些可以交互的demo,歡迎大家去我們的網(wǎng)站上使用下載,如果有bug也可以和我講,我們盡快修復(fù)。


最后summarize一下,我們今天講了三個(gè)工作。第一個(gè)是三維形象重建UP2You,主要解決的問(wèn)題是怎么把臟數(shù)據(jù)變廢為寶,怎么用臟數(shù)據(jù)做三維重建。我們提出來(lái)的解決方案是數(shù)據(jù)整流器,就好像交流電變直流電一樣,我們把臟數(shù)據(jù)變成干凈數(shù)據(jù),重建的問(wèn)題就更好解決。

第二個(gè)工作是三維體型估計(jì)ETCH,我們和之前的工作不一樣的點(diǎn)是,之前做相關(guān)任務(wù)是從一個(gè)幾何視角出發(fā)的,把衣服當(dāng)成皮膚,然后去做fitting。而我們是解剖學(xué)視角,我們希望拿到衣服之下那個(gè)真實(shí)人體的、解剖學(xué)正確的人體體型。我們的解決方案就是嘗試建模從衣服到人體之間的厚度,我們叫它Thightness Vector,等變緊度向量。

第三個(gè)是Human3R,人和場(chǎng)景的實(shí)時(shí)動(dòng)態(tài)重建。之前的工作都是先分后總,先做人,再做場(chǎng)景,然后人和場(chǎng)景聯(lián)合優(yōu)化,非常費(fèi)時(shí)費(fèi)力。我們的思路反過(guò)來(lái),先總后分,先拿到一個(gè)大的重建結(jié)果,然后再?gòu)倪@個(gè)大的重建結(jié)果里面,一點(diǎn)一點(diǎn)把我們需要的,比如人體的pose或者物體的pose給讀出來(lái),最后可以實(shí)現(xiàn)人和場(chǎng)景端到端直出地效果。這是我們思路上的區(qū)別。

最后給我們實(shí)驗(yàn)室打個(gè)廣告。因?yàn)槲沂莿倓偦貒?guó)任教,我們實(shí)驗(yàn)室主要還是做關(guān)于人的一切,我們做人臉,做人體,做人和物的交互,人和場(chǎng)景的交互,人和人的交互,我們做衣服,我們做肌肉,我們做骨骼,做靜態(tài)的人、動(dòng)態(tài)的動(dòng)作,我們都會(huì)做,只要是和人相關(guān)的,都是我們研究的重點(diǎn),另外,小動(dòng)物也是我們感興趣的。我們實(shí)驗(yàn)室也在招聘各種各樣的訪問(wèn)的同學(xué),實(shí)習(xí)生,RA,PhD以及 Postdoc,所以如果大家對(duì)我們的工作感興趣,歡迎后續(xù)跟蹤我們的最新進(jìn)展,也歡迎加入我們一起干,謝謝。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
剛剛,iOS 全面開(kāi)放!

剛剛,iOS 全面開(kāi)放!

果粉俱樂(lè)部
2025-12-19 11:29:01
1976年尼克松重返北京,執(zhí)意要去周總理墓前磕頭,秘書(shū)一句話讓他瞬間淚崩

1976年尼克松重返北京,執(zhí)意要去周總理墓前磕頭,秘書(shū)一句話讓他瞬間淚崩

史海殘?jiān)?/span>
2025-12-19 14:26:17
2025最慘大撤退:18萬(wàn)家快遞驛站,快把所有人得罪光了

2025最慘大撤退:18萬(wàn)家快遞驛站,快把所有人得罪光了

金錯(cuò)刀
2025-12-14 15:34:35
確認(rèn)了:7級(jí)!還有雨夾雪、雪!明天抵達(dá)杭州

確認(rèn)了:7級(jí)!還有雨夾雪、雪!明天抵達(dá)杭州

杭州之聲
2025-12-19 15:08:12
養(yǎng)老金大調(diào)整!退休5年、10年、15年、20年的差別如何體現(xiàn)?

養(yǎng)老金大調(diào)整!退休5年、10年、15年、20年的差別如何體現(xiàn)?

貓叔東山再起
2025-12-19 10:35:14
詩(shī)妮娜貴妃真有手段!被爆在德國(guó)秘密產(chǎn)子,孩子五官像極了泰王

詩(shī)妮娜貴妃真有手段!被爆在德國(guó)秘密產(chǎn)子,孩子五官像極了泰王

紅袖說(shuō)事
2025-12-19 13:38:43
趙心童罕見(jiàn)社媒發(fā)文!總結(jié)2025耐人尋味,亞洲一哥已不是丁俊暉了

趙心童罕見(jiàn)社媒發(fā)文!總結(jié)2025耐人尋味,亞洲一哥已不是丁俊暉了

曹說(shuō)體育
2025-12-19 14:20:33
花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過(guò)半年或有6好處

花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過(guò)半年或有6好處

蜉蝣說(shuō)
2025-11-20 14:40:39
全球最大的自由貿(mào)易港來(lái)了!

全球最大的自由貿(mào)易港來(lái)了!

看看新聞Knews
2025-12-18 19:28:07
實(shí)錘了!龐萊臣捐贈(zèng)藏品果然被拍賣了,一幅畫(huà)2014年被拍賣230萬(wàn)

實(shí)錘了!龐萊臣捐贈(zèng)藏品果然被拍賣了,一幅畫(huà)2014年被拍賣230萬(wàn)

火山詩(shī)話
2025-12-19 14:26:47
央視發(fā)布赴日游警示后,為何中國(guó)游客不降反升?

央視發(fā)布赴日游警示后,為何中國(guó)游客不降反升?

胡嚴(yán)亂語(yǔ)
2025-12-19 15:32:50
廣東27歲姑娘患胃萎縮后不幸離世,志愿者:她身高一米六多,因病暴瘦至35斤

廣東27歲姑娘患胃萎縮后不幸離世,志愿者:她身高一米六多,因病暴瘦至35斤

極目新聞
2025-12-19 11:20:16
養(yǎng)了20年的繼女結(jié)婚,卻讓親媽上臺(tái)受禮,我賣掉給她準(zhǔn)備的金鐲子

養(yǎng)了20年的繼女結(jié)婚,卻讓親媽上臺(tái)受禮,我賣掉給她準(zhǔn)備的金鐲子

我是三月魚(yú)H
2025-12-18 17:28:47
這次,向太的爆料,沒(méi)給親生母親留一絲體面,原來(lái)蔡明當(dāng)初沒(méi)撒謊

這次,向太的爆料,沒(méi)給親生母親留一絲體面,原來(lái)蔡明當(dāng)初沒(méi)撒謊

韓馳
2025-12-19 16:25:54
重返中國(guó),穆迪?;貧w,1年合同,水哥也有望回歸,杜鋒期待

重返中國(guó),穆迪埃回歸,1年合同,水哥也有望回歸,杜鋒期待

樂(lè)聊球
2025-12-18 13:50:46
韓媒:徐正源原本已自動(dòng)激活續(xù)約條件,但最終其主動(dòng)放棄續(xù)約

韓媒:徐正源原本已自動(dòng)激活續(xù)約條件,但最終其主動(dòng)放棄續(xù)約

懂球帝
2025-12-19 11:25:47
一夜涼透!牛肋條自助從排隊(duì)到倒閉,只用三個(gè)月?創(chuàng)業(yè)者哭著退場(chǎng)

一夜涼透!牛肋條自助從排隊(duì)到倒閉,只用三個(gè)月?創(chuàng)業(yè)者哭著退場(chǎng)

青眼財(cái)經(jīng)
2025-12-13 21:11:33
掌權(quán)40年,洪森家族到底賺了多少?他小女兒的奢靡曝光,可見(jiàn)一斑

掌權(quán)40年,洪森家族到底賺了多少?他小女兒的奢靡曝光,可見(jiàn)一斑

明月光
2025-12-17 19:06:45
阿凡達(dá)3影廳選擇焦慮?還得是中影CINITY

阿凡達(dá)3影廳選擇焦慮?還得是中影CINITY

楓塵余往逝
2025-12-19 10:50:21
越南談中越戰(zhàn)爭(zhēng):一代人的犧牲和貢獻(xiàn),換來(lái)的是40年的經(jīng)濟(jì)滯后

越南談中越戰(zhàn)爭(zhēng):一代人的犧牲和貢獻(xiàn),換來(lái)的是40年的經(jīng)濟(jì)滯后

小豫講故事
2025-12-19 06:00:04
2025-12-19 18:59:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7014文章數(shù) 20715關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

普京:俄羅斯目前沒(méi)有看到烏克蘭討論領(lǐng)土問(wèn)題的意愿

頭條要聞

普京:俄羅斯目前沒(méi)有看到烏克蘭討論領(lǐng)土問(wèn)題的意愿

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無(wú)期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

教育
藝術(shù)
游戲
手機(jī)
軍事航空

教育要聞

防范“笑氣”濫用危害 守護(hù)無(wú)毒青春

藝術(shù)要聞

諸樂(lè)三的寫意花鳥(niǎo)

POE2新職業(yè)竟能化身為龍!福利狂歡來(lái)襲,免費(fèi)周末殺瘋了!

手機(jī)要聞

榮耀WIN官宣搭載第五代驍龍8至尊版:跑分破440萬(wàn)屠榜

軍事要聞

媒體:美方官宣史上對(duì)臺(tái)單筆最大軍售 野心藏不住了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版