国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

西湖大學修宇亮:數(shù)字人重建,慢慢都會變成基礎模型的微調(diào)任務 | GAIR 2025

0
分享至

雷峰網(wǎng)訊 12月12日,第八屆 GAIR 全球人工智能與機器人大會于深圳正式拉開帷幕。

本次大會為期兩天,由GAIR研究院與雷峰網(wǎng)聯(lián)合主辦,高文院士任指導委員會主席,楊強院士與朱曉蕊教授任大會主席。大會共開設三個主題論壇,聚焦大模型、具身智能、算力變革、強化學習與世界模型等多個議題,描繪AI最前沿的探索群像,折射學界與產(chǎn)業(yè)界共建的智能未來。

作為 AI 產(chǎn)學研投界標桿盛會,GAIR自2016年創(chuàng)辦以來,始終堅守 “傳承+創(chuàng)新” 內(nèi)核,是 AI 學界思想接力的陣地、技術交流的平臺,更是中國 AI 四十年發(fā)展的精神家園。過去四年大模型驅動 AI 產(chǎn)業(yè)加速變革,歲末年初 GAIR 如約而至,以高質量觀點碰撞,為行業(yè)與大眾呈現(xiàn)AI時代的前沿洞見。

在12月13日的“世界模型”專場,西湖大學助理教授,遠兮實驗室負責人修宇亮進行了以《走出蠟像館,交互新世界:開拓三維數(shù)字人研究新疆域》為主題的演講,分享了其關于高精度數(shù)字人重建的三項最新進展。

修宇亮分享了遠兮實驗室最新的三個工作,分別為 UP2You,ETCH 和 Human3R。

由于兼具相機位姿變化和人物動作變化的特點,如何從無限制的日常采集圖像(如手機相冊)出發(fā),進行高精度的三維重建,是一個非常有挑戰(zhàn)性的問題。修宇亮在博士期間,提出了第一套,先圖生文,再文生 3D的兩步走解決方案。這套方案可以兼容虛擬試衣和基于文字的穿搭編輯等下游應用,但效率非常低,DreamBooth和SDS(Score Distillation Sampling)漫長的微調(diào)和優(yōu)化流程,導致單個數(shù)字人建模任務需要3至4個小時。

遠兮實驗室的最新成果UP2You,將上述時間從4小時壓縮到了1.5 分鐘。其核心思想是將臟數(shù)據(jù)直接轉化成對后續(xù)重建友好的多視角正交圖片,在此基礎上套用已有的多視角重建算法,實現(xiàn)提效。

相較于傳統(tǒng)方案,UP2You的優(yōu)勢,一是快——從一坨臟數(shù)據(jù)中,只需要1.5 分鐘就可以拿到高質量的帶紋理數(shù)字人;二是多多益善——用數(shù)量換質量,重建質量可以隨輸入圖片數(shù)量的增加而穩(wěn)定變好。修宇亮總結,“無論圖片有多臟,這個方案只要保證圖片源源不斷灌進來,更細節(jié)的幾何和更完整的紋理,就可以立竿見影?!?/p>

修宇亮分享的第二項工作名為ETCH,旨在從穿衣服的人物三維掃描中,得到解剖學上正確的內(nèi)部人體。由于此前的其他嘗試,很少建模人體和衣服之間的厚度,往往直接將最外層服裝視為人體皮膚來做人體模型擬合,這就導致擬合結果普遍偏胖。而ETCH則是通過等變向量,定義了衣服和皮膚之間的厚度關系,從而獲得更準確的內(nèi)部人體結構,而且由于旋轉等變性的引入,也可以大大減少訓練數(shù)據(jù)。在今年的ICCV上,ETCH獲評Highlight Paper。

最后一項工作名為Human3R,旨在實現(xiàn)人物及場景的實時動態(tài)重建。“你很難只從人體動作出發(fā),就看懂人在做什么”,修宇亮解釋,“但如果把場景也給到你,語義就相對清晰?!?/p>

據(jù)介紹,Human3R在同時實現(xiàn)場景重建和人體狀態(tài)預測、追蹤的基礎上,可以做到實時15FPS 的推理,8GB顯存占用。這意味著僅需一張商用GPU,即可實現(xiàn)SOTA級性能。單張顯卡訓一天,單個模型跑一遍,多人跟蹤實時出,場景還更準了些。

為了實現(xiàn)這一點,Human3R基本保留了CUT3R的 backbone,同時新增了一條人體回歸的分支,借鑒了VPT(Visual-Prompt Tuning)策略,以實現(xiàn)高效微調(diào),這樣就可以在不破壞CUT3R 已有的場景重建能力的基礎上,對人體相關的幾何信息解碼成 SMPL,場景在這里,可以視為一種上下文,保證人體被正確的放置到場景中。

展望未來,修宇亮最后分享了自身對于數(shù)字人技術的觀察。更強大的通用3D重建模型正在讓越來越多數(shù)字人重建任務迎刃而解?!皵?shù)字人的重建任務,慢慢都會變成基礎模型的微調(diào)任務。”修宇亮指出。

以下為修宇亮的現(xiàn)場演講內(nèi)容,雷峰網(wǎng)進行了不改變原意的編輯整理:

非常榮幸來介紹我們實驗室的最新工作進展。我今天分享的題目是《走出蠟像館,交互新世界》,起這個題目的主要原因是,在我看來,數(shù)字人無非就是研究兩個問題。一個是研究靜態(tài),就是怎么建模一個栩栩如生的數(shù)字人。另一個就是動態(tài),怎么讓這個人可以活靈活現(xiàn)地動起來,這是兩個非常關鍵的問題。

我今天分享的有三個工作。第一個工作是關于三維形象重建,怎么從日常的圖像里面去做高精度的數(shù)字人重建。第二個工作是ETCH,如果我們已經(jīng)拿到了一個高精度的,穿著衣服的人體幾何建模,怎么能夠再從這里拿到一個解剖學上正確的內(nèi)部的人體結構?第三個是Human3R,我們往往要把人的行為放到一個場景里才能更好地理解,所以我們最新的工作Human3R,就是把人和場景放到一起去做重建。

在講之前,我先把數(shù)字人重建會用到的數(shù)據(jù)類型總結一下。我們以相機和人動不動作為量綱,比如Snapshot這個數(shù)據(jù)集,它是相機靜止,但是人在運動著的數(shù)據(jù),綠色就是運動,紅色就是靜止,那當然這個運動的幅度也可以更大一些。這邊是我從Youtube上找到的一個視頻,它也是相機靜止,人在運動。當然這件事也可以反過來。我們也可以讓人固定不動,讓相機進行轉動。這邊這個就是,因為要保持人的穩(wěn)定,就加了兩個三腳架做人的姿態(tài)固定,這樣也可以做重建。

我們?nèi)绻剂肯鄼C陣列采集,從單個相機來看,它是相機固定,人在動的情況。如果我們把具體的某一時刻的多相機采集結果拿出來看,就又變成了一個相機在動,但是人靜止的情況。也就是本質上來講,密集陣列相機采集能夠work,還是因為它在重建過程里嘗試把兩個變量變成一個變量。同時還有最極端的,就是單張圖片,相機和人都是不動的。

那現(xiàn)在就有一個很自然而然的問題,如果相機是動的,人也是動的,我們有沒有辦法去做重建?我給出一個例子,手機相冊,實際上我們每天拍攝的照片就是這樣。除了這個人和穿的衣服,其它所有因素都是變化的。相機的位姿、人的動作、圖像的比例,然后有大頭照、有全身照、有半身照、有遮擋、有圖像剪切……任何情況都可能會出現(xiàn)。在這樣非常臟的數(shù)據(jù)下,我們能不能夠把重建這個事情給做了?這就是我博士期間開始研究的一個問題。

這個問題的難點在哪呢?坦誠地講,我們不算是第一個來嘗試解決這個問題的。最早一個相關工作就是Photo Tourism,做場景重建的同學或者老師肯定知道。比如我要重建巴黎圣母院,這個工作就是從整個互聯(lián)網(wǎng)上把所有巴黎圣母院的照片拿下來,嘗試去跑SFM(Structure from Motion),拿到相機位姿,然后重建出它的點云。

但他們解決的問題其實比我們這個要簡單一點。為什么呢?因為巴黎圣母院是不會動的。它燒了之后當然形變了,但它沒燒之前是不形變的,永遠是那個樣子,所以就有辦法拿到相對準確的相機位姿。但是對于人這個場景,人的動作是會動的,相機也是動的,你沒有辦法跑這種傳統(tǒng)的structure from motion拿到一個準確的相機位姿。所以我們這個問題就顯得更有挑戰(zhàn),于是我在博士期間就做了PuzzleAvatar。

這是我接下來要講的工作的一個前序工作。其實我們的解決思路是非常簡單的,一句話就可以講清楚。我們首先嘗試把這些圖片壓成token,或者說壓縮成文字,然后我們再做文生3D,就這么簡單,這是個非常符合直覺的做法。然后人分很多個part,我們有上衣、褲子、臉,為了保證從圖像到文字的壓縮是無損的,我們就用很多的token去表達人的臉、上衣、褲子或者鞋。

整個流程其實非常簡單。我們把這些圖片輸入之后,首先嘗試去做分割,這樣就可以分割出一堆褲子、一堆臉、一堆鞋,然后我們對每一撮數(shù)據(jù)都分別用DreamBooth給學習到一個文生圖模型里。比如臉是asset 01,上衣是asset 02,以此類推,這樣就把圖片壓縮成了文字形式。然后我們再對文字做文生3D,因為23、24年那個時候還沒有現(xiàn)在這么多很快速的文生3D方式,我們就用最原始的SDS把人優(yōu)化出來。整個優(yōu)化是兩個流程,先嘗試恢復幾何,然后用SDS跑優(yōu)化文生3D。幾何跑得差不多了,我們就嘗試固定幾何,再跑它的紋理,這樣我們就可以把這個人帶紋理的幾何模型給重建出來。

這樣的做法有什么好處呢?因為我們相當于把所有圖片都壓縮成文字了,那就可以做這樣的事情。大家可以看到,左側是我的圖片,右側是我同事的圖片,都壓縮成文字之后,文字之間是可以進行交換的。那我們就做最簡單的事情,比如我的shirt叫A shirt,她的shirt叫B shirt,我們做一下交換,我就把她的衣服穿上了。這在數(shù)字人里就是很典型的一個任務,虛擬試衣。同時因為我的所有圖像都壓縮成文字了,文字是很容易編輯的,我們可以把褲子改成牛仔褲,或者衣服改成hoodie。這種改變同時也可以作用于幾何和紋理,所以整套 pipeline 就變得非常非常的干凈。

但是這里有一個問題,就是這個工作是沒有辦法落地的,因為它時間非常長。如果訓過DreamBooth,或者用過SDS的肯定知道,這兩個流程是曠日持久。在那種普通的GPU上,DreamBooth大概微調(diào)要一個小時左右,SDS 優(yōu)化要3個小時,那4個小時出一個人,這個時間是不可接受的。所以我們前不久發(fā)了一篇新的工作,嘗試把這個時間從4個小時壓縮到了1.5分鐘。

我們嘗試了一種全新的思路去做這個問題。直白來講,PuzzleAvatar的思路是先把圖像盡可能無損壓縮成文字,然后從文字恢復3D。現(xiàn)在我們換了一種思路,就是能不能找到一種方式把dirty data 轉化成 clean data,把它洗干凈。什么叫洗干凈呢?洗干凈就是說,把這些圖片全轉化成多視角的正交圖片,像中間展示的這樣子。那這樣的圖片對于后續(xù)的重建是非常非常友好的,你可以套用任何現(xiàn)有的多視角重建算法,很快就能出來我們想要的結果,所以我們有辦法把時間壓到一分半。

我們做了一個動畫效果讓大家感受一下這個任務,就好像是你拿了一個卡片相機,圍著一個動的人不斷地拍。拍下來的圖片,我們有辦法把它從臟圖片洗成干凈的圖片。有了這些干凈的圖片,包括RGB,包括法向,我們就可以重建出質量比較高的數(shù)字人。這個工作叫UP2You,UP是unconstrained photos的縮寫,you就是yourself。

這邊就是一個大概的pipeline。我們輸入的是這樣一些臟臟的圖片,首先有一個模塊嘗試從這些臟圖片里面拿到一個相對準確的人形,也就是這個人到底胖還是瘦。有了這個大概的人體形狀,我們就可以渲染出多視角的法向圖。接下來的問題就是,我有一些法向圖控制人體姿態(tài),我又有一些臟臟的圖片,它們定義了這個人的外表,那我們怎么把這兩個結合起來,最后生成一個多視角的圖像?

關鍵就是這個Correlation Map。它是做啥的呢?簡單地講,就是我現(xiàn)在給你一個人體的pose,我需要按需去取這上面的像素,拿到每一張臟圖片和這個姿態(tài)之間的相關性。大家看右邊的可視化,可以看出來,當這個姿態(tài)是一個正面姿態(tài)的時候,那些圖像的正面部分,權重或者置信度就會相對高。那這個人不斷旋轉,置信度也在不斷變化,這個模塊非常非常關鍵。

我們這個方法最大的優(yōu)勢是什么呢?這也是一個我特別喜歡的性質,就是隨著輸入圖片的增多,重建質量可以穩(wěn)定地變好。換句話來講,我們輸入的是大量非常臟的圖片,但無論它有多臟,只要能夠保證源源不斷地輸入圖片,最后重建的質量就可以穩(wěn)定變好,多多益善。

中間就是我們的重建結果。最右邊是光場掃描的一個ground truth,你可以看到一張圖片的結果、兩張圖片,十張圖片,隨著輸入圖片的增多,我能拿到這個人的外表、正面、反面、背面、側面,我能拿到的信息更全面,那理論上講我們也可以恢復出更好的幾何和紋理。

我們的整個訓練是在合成數(shù)據(jù)上完成的,所以我們也測試了在真實場景下的效果。這是我們實驗室的同學,我們用他們隨便拍的照片做測試,發(fā)現(xiàn)也是可以泛化的。這是第一個工作,UP2You,主要講的是如何從臟圖片里面去做三維重建。

第二個工作是ETCH。當我已經(jīng)有了一個穿著衣服的人的幾何結構,怎么拿到解剖學正確的內(nèi)部人體結構?今年ICCV,我們這項工作被選為了Highlight Paper。簡單來說,我們這個任務就是將一個參數(shù)化的人體模型,最常見的比如SMPL?X或者 MHR,想辦法把它準確塞到三維掃描里。

這個準確怎么定義呢?大家可以看到,這張圖最左邊是原始的輸入,一個三維掃描的穿衣服人體建模,藍色部分是真實的人體。用之前一些方法拿到的結果,你會發(fā)現(xiàn)這個人是有點偏胖的。原因也很簡單,之前我們分不清到底是衣服還是內(nèi)部皮膚,所以我們只能把衣服當成皮膚,然后去做body fitting,最后得到的結果往往就是偏胖。而第四個fitting,就是我們現(xiàn)在方案的結果。

在這個工作里,我們主要的創(chuàng)新點就是嘗試建模衣服和人體之間的厚度關系,把這個厚度關系減掉,就可以把衣服剝離,這樣我們就可以更準確地建模內(nèi)部人體。

我們整個pipeline,首先是掃描,在上面做均勻的采樣變成點云,對于每個點,我們找到一個指向內(nèi)部人體的向量,我們叫它Tightness Vector。接下來我們把這些點聚類到382 個marker,然后我們針對這些marker做fitting就可以了。整個pipeline其實非常非常符合直覺,過程也非常快,大概幾秒鐘就可以搞定。這邊是一些最后的人體擬合結果。你會看到第三列的紅色、黃色,其實就是定義了衣服到底距離人體有多遠。

我們應該是第一個嘗試用向量來定義衣服和人體之間的關系的工作。那為什么要用向量做這件事情呢?因為如果用向量,我們就可以利用旋轉等變性來訓練這個網(wǎng)絡。那為什么要用旋轉等變性呢?因為這樣訓練可以更省數(shù)據(jù)。我們其實受到了馮海文的ArtEq這項工作的啟發(fā),簡單來講它的輸入是裸體的人,我們做的是穿著衣服的點云,但其實問題本質上是比較相似的。衣服有非剛體形變,所以我們的旋轉等變性并不完美,但我們依然可以利用這樣的性質,大大減少訓練數(shù)據(jù)。

那又回到剛才那個問題。之前的數(shù)據(jù)集,往往相機和人只能動一個,而我們?nèi)粘O鄡岳锏臄?shù)據(jù)是人和相機都在動。但其實還有一種人和相機都在動的情況,就是我們?nèi)粘W畛R姷模诨ヂ?lián)網(wǎng)上到處都有的這種視頻。我們拍視頻的時候,相機不可能是靜止不動的,它往往也會隨著人去移動,只是和相冊比起來,相冊的圖片比較離散,視頻里面的這種采集,相對更連續(xù)一些,但它依然是人和相機都在運動著的情況。

那這邊就講一下我們最后一個工作,叫Human3R。這個工作的這個初衷是,我們能不能夠實時地,并且前用前饋式的方式同時重建人和場景,并且只用一個模型。

這邊是結果,右下角是一個電影場景,我們可以看到隨著這個電影場景的播放,這個場景本身是可以重建出來的,包括場景中人的姿態(tài)我們也可以很準確地預測出來,并且不同人體的tracking也可以做到。這整個重建的pipeline,我們可以做到實時15 FPS,8GB顯存占用,所以在一個商用的GPU上也可以跑得很好。

這邊要講一下為什么我們要嘗試把人體和場景放到一塊去做重建,很重要的一個原因是為了更好地理解人的行為。我舉一個例子,其實你其實很難單純從動作里面看到,一個人究竟在做什么。但是如果我們把場景也給到你,你就可以非常清晰地看出來,這個語義就相對清晰了。這就是為什么我們要嘗試把人和場景放到一塊重建,因為這樣可以更好地理解人的行為。

我們這個工作的題目叫Everyone,Everywhere,All at Once,是借鑒了楊紫瓊老師的電影Everything,Everywhere,All at Once。這個名字是我起的,我覺得還是比較符合我們整個工作的特點。為什么叫 All at Once呢?首先我們只有一個模型,沒有很多個part,one model,而且one stage。我們也是 one shot,也就是說不需要一個人一個人地出,我們是所有人一塊出。另外我們整個訓練只需要一張GPU,訓一天就可以了。五個one,all at once,一股腦地、實時地把所有結果全部跑出來。

我們的輸入就是一個普通的單目視頻,輸出包括一個全局坐標系下的人體姿態(tài),包括三維場景重建以及camera pose。

我們這個工作和之前的工作,最大的差別是什么?我們把之前的很多工作總結了一下,大概就是這樣的范式,它們都是multi stage。比如我給一個視頻,首先要做detection,檢測到人的bounding box,然后對每個bounding box里面的人做tracking,拿到trajectory,再然后每個人都要做HMR(Human Mesh Recovery),都要跑出一個人體的pose,同時我們還要做整個場景的深度估計,還要做分割,要預測相機的pose。最后所有的這些,場景的點云,人的pose,全部要放到一個框架里面進行聯(lián)合優(yōu)化,整個流程基本上都要跑幾個小時。

這是大家之前的做法。我們現(xiàn)在把這些非常復雜的流程全部砍掉,只用一個模型,一個stage就可以解決問題。很大程度上這項工作是受王倩倩老師做的CUT3R的啟發(fā),它是一個online的4D重建工作,圖片一張一張往里面進,整個4D的場景,包括人,包括物,一幀一幀地重建,都可以 online地去跑下去。我非常喜歡這個工作。

但是如果你看CUT3R的文章,它也是在一個非常大規(guī)模的數(shù)據(jù)上訓練的。我們?nèi)绻猣rom scratch去訓練的話,也同樣需要大量的數(shù)據(jù)。但是問題在于,其實人和場景交互沒有那么多的數(shù)據(jù),我們可能可以拿到很多的3D場景數(shù)據(jù),但是很難拿到一個場景和人都在,而且場景和人的深度交互也都有的數(shù)據(jù),所以我們不得不嘗試只用一個很小的數(shù)據(jù)集把這東西給train起來。

我們的做法在這邊。大家可以看到,上面所有帶雪花的都是CUT3R原始的backbone,我們沒有改動,因為我們需要它保持原有的對場景的重建能力。同時我們加了一個branch,專門從這個場景里面read out出人的點云,然后read out出這個人體的pose。然后我們還借鑒了VPT(Visual-Prompt Tuning),這樣可以非常高效地做微調(diào),就可以實現(xiàn)一天、一張GPU,把這個模型給訓出來,而且達到 SOTA 的性能。

這邊展示了更多的結果。這是一個3DPW(3D Pose in the Wild)的場景,兩個人在一條路上行走,你可以看到這個人的軌跡是非常平滑的,整個場景也可以都重建出來。但是我們也嘗試做一下回環(huán)檢測,這個人跑一圈,最后整個場景和人是不是也都能重建出來?效果其實也是比較滿意的。這是在一個相對長程的場景里,這是一個實驗室,你可以看到隨著這個人在各個房間里面走動,最后整個房間被重建出來,然后整個人的軌跡也可以拿到。

這是我們最喜歡的一個case,一個電影場景,兩個人,不光做pose,人的ID也可以同時做跟蹤,而且隨著視頻跑得越來越多,整個場景也會不斷地完善。

這邊是一些我們?nèi)梭w的pose預測和ground truth之間的對比,黑色的影子就是 ground truth,藍色的就是人體估計的動作,大家可以看到幾乎是嚴絲合縫的,我們的準確性是非常高的。

當然也有一些failure case,這是比較經(jīng)典的一個,因為我們這個方法還是前饋式的,就是一步到位把所有結果給到你,沒有任何后續(xù)的優(yōu)化,所以有的時候難免會出現(xiàn)這種人和場景之間的交叉。比如人坐到沙發(fā)里,或者腳跑到地底下穿模,這種情況還是有的。以及如果這個人在和場景交互的同時,還和一些物體交互,比如說拿了一把吉他,那這個吉他相當于也是一個動態(tài)的,那這種情況我們目前沒有辦法建模,只能在處理的過程中我們把這個東西摳掉,只做靜態(tài)場景和人的重建,動態(tài)場景目前沒法處理。

這里可以順勢講一下,其實我們認為這個工作有個非常自然的extension,就是把Everyone,Everywhere,All at Once,拓展成Everything,Everyone,Everywhere All at Once,人、場景、物全部一股腦地出來。我們可以提前把這些物體給建模,然后只做 6D pose,也可以online地去把這物體重建出來。那這個問題怎么解決呢?各位老師如果感興趣的話,一會我們可以再聊。

那這項工作給了我們一個什么啟發(fā)呢?因為我是做數(shù)字人的,這其實是一個比較悲傷的事情,我發(fā)現(xiàn)很多數(shù)字人的問題隨著更通用的3D重建模型變得越來越強大,正在迎刃而解。比如Human3R,簡單來講,我們拿了一個有場景感知能力的視覺基礎模型,稍微微調(diào)一下就可以做人體的pose。同時最近我發(fā)現(xiàn)了一篇曹旭老師新工作,叫KaoLRM,他們拿object centric的LRM,去做臉部的重建,和之前的方法相比,在跨視角上獲得了更好的穩(wěn)定性。所以我的一個感覺是,可能未來數(shù)字人的很多重建任務,慢慢都會變?yōu)橐粋€基礎模型的微調(diào)任務。

剛才講的三個工作我們?nèi)慷奸_源了,也在網(wǎng)站上提供了一些可以交互的demo,歡迎大家去我們的網(wǎng)站上使用下載,如果有bug也可以和我講,我們盡快修復。

最后summarize一下,我們今天講了三個工作。第一個是三維形象重建UP2You,主要解決的問題是怎么把臟數(shù)據(jù)變廢為寶,怎么用臟數(shù)據(jù)做三維重建。我們提出來的解決方案是數(shù)據(jù)整流器,就好像交流電變直流電一樣,我們把臟數(shù)據(jù)變成干凈數(shù)據(jù),重建的問題就更好解決。

第二個工作是三維體型估計ETCH,我們和之前的工作不一樣的點是,之前做相關任務是從一個幾何視角出發(fā)的,把衣服當成皮膚,然后去做fitting。而我們是解剖學視角,我們希望拿到衣服之下那個真實人體的、解剖學正確的人體體型。我們的解決方案就是嘗試建模從衣服到人體之間的厚度,我們叫它Thightness Vector,等變緊度向量。

第三個是Human3R,人和場景的實時動態(tài)重建。之前的工作都是先分后總,先做人,再做場景,然后人和場景聯(lián)合優(yōu)化,非常費時費力。我們的思路反過來,先總后分,先拿到一個大的重建結果,然后再從這個大的重建結果里面,一點一點把我們需要的,比如人體的pose或者物體的pose給讀出來,最后可以實現(xiàn)人和場景端到端直出地效果。這是我們思路上的區(qū)別。

最后給我們實驗室打個廣告。因為我是剛剛回國任教,我們實驗室主要還是做關于人的一切,我們做人臉,做人體,做人和物的交互,人和場景的交互,人和人的交互,我們做衣服,我們做肌肉,我們做骨骼,做靜態(tài)的人、動態(tài)的動作,我們都會做,只要是和人相關的,都是我們研究的重點,另外,小動物也是我們感興趣的。我們實驗室也在招聘各種各樣的訪問的同學,實習生,RA,PhD以及 Postdoc,所以如果大家對我們的工作感興趣,歡迎后續(xù)跟蹤我們的最新進展,也歡迎加入我們一起干,謝謝。

雷峰網(wǎng)文章

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
李在明啟程離京,臨走前對華改口,一個時代告終,高市忽喊話中國

李在明啟程離京,臨走前對華改口,一個時代告終,高市忽喊話中國

博覽歷史
2026-01-06 18:14:34
涉馬杜羅指控出現(xiàn)反轉:美司法部不再將“太陽集團”視為真實販毒組織

涉馬杜羅指控出現(xiàn)反轉:美司法部不再將“太陽集團”視為真實販毒組織

紅星新聞
2026-01-06 17:28:19
二把手,你到底咋了?

二把手,你到底咋了?

新動察
2026-01-06 16:33:46
“亂港分子”周庭,棄保潛逃加拿大,揚言永不回國,如今怎么樣了

“亂港分子”周庭,棄保潛逃加拿大,揚言永不回國,如今怎么樣了

仙味少女心
2026-01-06 07:19:27
人狂必有禍!被何慶魁罵“白眼狼”的閆學晶,狐貍尾巴藏不住了

人狂必有禍!被何慶魁罵“白眼狼”的閆學晶,狐貍尾巴藏不住了

冷紫葉
2026-01-04 18:10:31
委內(nèi)瑞拉贏麻了

委內(nèi)瑞拉贏麻了

沉思的野獸
2026-01-06 13:33:37
新年聽到的最心痛的一句話 | 何蘭生

新年聽到的最心痛的一句話 | 何蘭生

農(nóng)見度
2026-01-06 10:35:58
李在明離華前,中方宣布“1號出口管制”,啥原因?

李在明離華前,中方宣布“1號出口管制”,啥原因?

新民周刊
2026-01-07 09:20:21
哈梅內(nèi)伊的末路正徐徐展開

哈梅內(nèi)伊的末路正徐徐展開

難得君
2026-01-07 00:04:43
流落柬埔寨女網(wǎng)紅毒品檢測呈陽性,視頻主頁稱“靠自己沒用的”,家人赴柬,大使館提醒

流落柬埔寨女網(wǎng)紅毒品檢測呈陽性,視頻主頁稱“靠自己沒用的”,家人赴柬,大使館提醒

瀟湘晨報
2026-01-06 17:20:18
張水華辭職驚動美國著名醫(yī)療網(wǎng)站,如果在西方她或成為醫(yī)院的驕傲

張水華辭職驚動美國著名醫(yī)療網(wǎng)站,如果在西方她或成為醫(yī)院的驕傲

楊華評論
2026-01-07 02:45:11
網(wǎng)傳華僑城前董事長段先念,被抓了

網(wǎng)傳華僑城前董事長段先念,被抓了

風向觀察
2026-01-06 17:45:39
馬來西亞今年將全面查封電子煙,衛(wèi)生部長:吸電子煙會造成爆米花肺

馬來西亞今年將全面查封電子煙,衛(wèi)生部長:吸電子煙會造成爆米花肺

爆角追蹤
2026-01-06 22:18:53
全明星次輪票數(shù):東契奇票王字母東部第1 詹皇超杜蘭特升西部第8

全明星次輪票數(shù):東契奇票王字母東部第1 詹皇超杜蘭特升西部第8

羅說NBA
2026-01-07 04:29:14
長城汽車正式取消“大小周”,全面落實雙休制度,員工:剛開始聽到消息,以為是謠言不敢信

長城汽車正式取消“大小周”,全面落實雙休制度,員工:剛開始聽到消息,以為是謠言不敢信

大風新聞
2026-01-06 16:58:03
女網(wǎng)紅流落柬埔寨,其母已在飛機上:她臥床兩月不起,房東說再不接走怕她死了

女網(wǎng)紅流落柬埔寨,其母已在飛機上:她臥床兩月不起,房東說再不接走怕她死了

紅星新聞
2026-01-06 15:11:14
馬杜羅穿囚服出庭,西方質問中國有能力保護朋友嗎?結果怕啥來啥

馬杜羅穿囚服出庭,西方質問中國有能力保護朋友嗎?結果怕啥來啥

博覽歷史
2026-01-06 15:08:58
一些中國軍事專家為什么在馬杜羅的命運上再次判斷失誤?

一些中國軍事專家為什么在馬杜羅的命運上再次判斷失誤?

深度報
2026-01-05 22:42:12
中國已買不到委內(nèi)瑞拉油,而美國卻依然順利拿到

中國已買不到委內(nèi)瑞拉油,而美國卻依然順利拿到

桂系007
2026-01-07 03:09:51
司法機關請回答:新華社功勛記者湯計,究竟有無“受賄房產(chǎn)”?

司法機關請回答:新華社功勛記者湯計,究竟有無“受賄房產(chǎn)”?

塔子山評說
2026-01-06 10:26:30
2026-01-07 10:19:00
雷峰網(wǎng) incentive-icons
雷峰網(wǎng)
關注智能與未來!
68278文章數(shù) 656049關注度
往期回顧 全部

科技要聞

馬斯克殺瘋了!xAI官宣200億美元融資

頭條要聞

網(wǎng)友出游歸來發(fā)現(xiàn)酒店正被拆遷:一堆空調(diào)放在走廊上

頭條要聞

網(wǎng)友出游歸來發(fā)現(xiàn)酒店正被拆遷:一堆空調(diào)放在走廊上

體育要聞

從NBA最菜首發(fā)控衛(wèi),到NBA最強喬治

娛樂要聞

2026年央視春晚彩排照曝光!

財經(jīng)要聞

茅臺為何要和分銷商徹底說拜拜?

汽車要聞

摩登出街潮品 實拍奇瑞QQ冰淇淋女王版

態(tài)度原創(chuàng)

本地
時尚
教育
健康
公開課

本地新聞

云游內(nèi)蒙|初見呼和浩特,古今交融的北疆都會

冬天穿衣既要有溫度又要有風度!看看這些穿搭,優(yōu)雅又顯瘦

教育要聞

新變化!多地取消期末統(tǒng)考:“教育評價”如何改寫?

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版