網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

華盛頓大學(xué)與谷歌聯(lián)合研究：讓AI真正"讀懂"你的尺碼

2026-04-17 23:41:17　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由美國(guó)華盛頓大學(xué)與谷歌研究院聯(lián)合完成的研究，以論文編號(hào)arXiv:2604.08526v1的形式，于2026年4月公開發(fā)表。研究聚焦于一個(gè)我們?cè)诰W(wǎng)購(gòu)時(shí)幾乎每次都會(huì)遭遇的煩惱——明明模特穿起來(lái)很好看，買回來(lái)卻不是太寬松就是太緊繃。這項(xiàng)研究嘗試從根本上解決這個(gè)問(wèn)題，讓AI系統(tǒng)在生成"虛擬試衣"圖片時(shí)，真正懂得"這件L碼的襯衫套在XS碼的身材上到底會(huì)是什么樣"。

一、為什么我們需要一個(gè)能"認(rèn)尺碼"的AI

網(wǎng)購(gòu)已經(jīng)成為很多人生活的日常，但服裝退換貨率居高不下，其中最主要的原因就是尺碼不合適?，F(xiàn)有的"虛擬試衣"技術(shù)，說(shuō)白了就是把衣服的外觀貼到人的身上，就像把一張貼紙換了個(gè)顏色，再往同一個(gè)輪廓上一貼，管你是XS還是3XL，模特的輪廓不變，衣服的外觀也不變，結(jié)果就是每個(gè)人看起來(lái)都好像穿了一件量身定制的衣服。這顯然是不真實(shí)的。

現(xiàn)實(shí)中，一件XS碼的緊身T恤套在一個(gè)身材高大的人身上，袖子會(huì)短一截，胸口會(huì)繃緊，腰線會(huì)上移；而一件3XL的寬松外套穿在一個(gè)嬌小身材上，肩線會(huì)垂下來(lái)，袖子會(huì)蓋過(guò)手掌，整件衣服更像是在"穿"人而不是人在"穿"衣服。這些細(xì)節(jié)，現(xiàn)有的AI系統(tǒng)幾乎完全忽視了。

研究團(tuán)隊(duì)給出了一個(gè)直白的診斷：?jiǎn)栴}的根源在于沒有合適的訓(xùn)練數(shù)據(jù)。所有現(xiàn)有的虛擬試衣數(shù)據(jù)集，都是從電商網(wǎng)站爬取的商品圖，而商品圖天然呈現(xiàn)的是"合身"狀態(tài)——沒有哪個(gè)品牌會(huì)專門拍"穿錯(cuò)碼數(shù)"的效果圖。這就好比你想培訓(xùn)一個(gè)廚師學(xué)會(huì)處理"烤焦了"或"沒烤熟"的情況，但你能找到的教學(xué)材料里全部都是"完美出爐"的蛋糕，廚師自然就學(xué)不會(huì)如何判斷和處理異常情況。

正因如此，研究團(tuán)隊(duì)決定自己"造"數(shù)據(jù)。他們創(chuàng)建了一個(gè)名為FIT（Fit-Inclusive Try-on，意為"包容各種合身度的試衣"）的大規(guī)模數(shù)據(jù)集，其中包含超過(guò)113萬(wàn)組圖片樣本，每一組都附帶精確的人體測(cè)量數(shù)據(jù)和服裝測(cè)量數(shù)據(jù)，涵蓋了從極度寬松到極度緊繃的各種穿著情況。

二、數(shù)據(jù)從哪來(lái)：用物理仿真"模擬"現(xiàn)實(shí)世界的穿衣體驗(yàn)

既然現(xiàn)實(shí)世界里找不到足夠的"穿錯(cuò)碼"照片，研究團(tuán)隊(duì)選擇在電腦里"模擬"出來(lái)。他們使用了一個(gè)名為GarmentCode的參數(shù)化編程框架，這個(gè)框架可以像寫代碼一樣，精確地描述一件衣服的縫紉圖樣——領(lǐng)子有多大、袖子有多長(zhǎng)、腰圍是多少厘米，全部精確到厘米級(jí)別。

具體操作就像是用數(shù)字積木搭建衣服。研究團(tuán)隊(duì)先根據(jù)某個(gè)特定體型（比如M碼身材）設(shè)計(jì)出一套裁剪圖樣，然后不是把這套圖樣縫在M碼的人體模型上，而是故意把它"套"到一個(gè)完全不同尺寸的人體模型上——比如XS碼或者2XL碼的身材。這個(gè)過(guò)程通過(guò)物理仿真引擎來(lái)實(shí)現(xiàn)，系統(tǒng)會(huì)計(jì)算布料在受到拉伸或堆積時(shí)的真實(shí)物理變化，包括褶皺出現(xiàn)的位置、布料下垂的方式、緊繃時(shí)的紋路走向。

這種做法有一個(gè)技術(shù)上的挑戰(zhàn)：當(dāng)一套為M碼身材設(shè)計(jì)的裁剪圖樣要被套到XS碼或3XL碼的身體上時(shí)，軟件里的"初始框架"（用來(lái)確定衣服各部分從哪里開始展開的參照系）和新的人體模型位置會(huì)對(duì)不上，導(dǎo)致仿真失敗，就好像你要把一件為成年人設(shè)計(jì)的外套用來(lái)包裹一個(gè)小孩，外套的肩部框架和小孩的肩膀根本不在同一個(gè)位置。為此，研究團(tuán)隊(duì)專門開發(fā)了一套"框架重新對(duì)齊"的方法，在仿真開始前先把參照框架調(diào)整到與目標(biāo)人體對(duì)應(yīng)的位置，確保仿真能夠成功運(yùn)行。

除此之外，GarmentCode默認(rèn)會(huì)把上衣和下裝縫合成一體，這樣就無(wú)法模擬"襯衫沒有塞進(jìn)褲子"的日常穿著狀態(tài)。研究團(tuán)隊(duì)修改了這個(gè)默認(rèn)行為，讓系統(tǒng)先單獨(dú)模擬下裝的下垂和形變，再在此基礎(chǔ)上疊加上衣，從而實(shí)現(xiàn)上下裝之間自然的層疊關(guān)系。

仿真完成后，研究團(tuán)隊(duì)還會(huì)把這些固定在A字站姿（雙臂微張的標(biāo)準(zhǔn)測(cè)量姿勢(shì)）下的3D模型重新姿勢(shì)化，從528種不同的日常姿勢(shì)中隨機(jī)選取一種，讓最終生成的圖片更接近真實(shí)的穿著場(chǎng)景。整個(gè)數(shù)據(jù)集涵蓋了168種不同的體型（其中82種男性體型，86種女性體型），尺碼范圍從XS一直延伸到3XL，并記錄了超過(guò)15萬(wàn)種不同的上裝和外套設(shè)計(jì)。

三、從"塑料感"到"真實(shí)感"：把虛擬模型變成照片般的畫面

物理仿真出來(lái)的3D渲染圖，看起來(lái)難免有一種"游戲里的NPC"質(zhì)感——人物沒有頭發(fā)，腳上光禿禿的，衣服質(zhì)地單一沒有細(xì)節(jié)。如果直接用這些圖片來(lái)訓(xùn)練AI，訓(xùn)練出來(lái)的系統(tǒng)也只會(huì)生成同樣"游戲感"十足的圖片，放到真實(shí)的電商場(chǎng)景里根本沒有實(shí)用價(jià)值。

研究團(tuán)隊(duì)為此專門設(shè)計(jì)了一套"重新上色"流程，目標(biāo)是在完全不改變衣服形狀和人體輪廓的前提下，給圖片換上真實(shí)的質(zhì)感和外觀。這個(gè)過(guò)程的關(guān)鍵工具是"法線貼圖"——這是一種特殊的圖像，它不記錄顏色，而是記錄物體表面每一個(gè)點(diǎn)朝向哪個(gè)方向，本質(zhì)上是把物體的立體形狀信息編碼成一張圖。研究團(tuán)隊(duì)發(fā)現(xiàn)，真實(shí)照片和3D渲染圖在法線貼圖上的差異，遠(yuǎn)小于它們?cè)陬伾唾|(zhì)感上的差異，因此可以用法線貼圖作為"橋梁"，讓AI學(xué)會(huì)"給定這個(gè)形狀，生成這種質(zhì)感"。

基于這個(gè)思路，研究團(tuán)隊(duì)基于Flux.1-dev（一個(gè)由Black Forest Labs開發(fā)的強(qiáng)大圖像生成模型，參數(shù)量達(dá)到120億個(gè)，相當(dāng)于一個(gè)超大型的圖像創(chuàng)作引擎）訓(xùn)練了一個(gè)重新上色模型，輸入是法線貼圖加上文字描述，輸出是具有真實(shí)質(zhì)感的人物圖片，同時(shí)保持衣服的形狀和人體的輪廓完全不變。

為了縮小虛擬和真實(shí)之間的差距，研究團(tuán)隊(duì)還補(bǔ)充了幾個(gè)細(xì)節(jié)處理步驟。首先，他們用另一個(gè)AI工具給3D人物模型補(bǔ)上了真實(shí)的面部特征、發(fā)型和鞋子，然后把這些部位的法線信息也整合到原始的合成法線貼圖中，確保最終輸出的人物有完整的外貌。其次，為了增加布料多樣性，研究團(tuán)隊(duì)準(zhǔn)備了72種不同的布料類型（包括皮革、棉布、絲綢等），在生成文字描述時(shí)隨機(jī)選擇一種注入進(jìn)去，讓AI學(xué)會(huì)根據(jù)文字描述生成對(duì)應(yīng)的布料質(zhì)感。

四、解決"同一個(gè)人換了件衣服"的配對(duì)問(wèn)題

訓(xùn)練虛擬試衣AI，理想的數(shù)據(jù)格式是這樣的：同一個(gè)人，同一個(gè)姿勢(shì)，穿著不同的衣服，同時(shí)配上這件衣服單獨(dú)平鋪的圖片。這樣AI就能學(xué)習(xí)"如何把這件平鋪的衣服穿到這個(gè)人身上"。然而在現(xiàn)實(shí)世界里，幾乎不可能找到這樣的配對(duì)數(shù)據(jù)——攝影棚不會(huì)特地給同一個(gè)模特拍兩套衣服的完整全身照，而且要保證姿勢(shì)完全相同更是幾乎不可能。

現(xiàn)有的解決方案，通常是用AI"假造"一張配對(duì)圖——先有一張人物圖，讓另一個(gè)AI系統(tǒng)把衣服換掉，把這張"假造"的圖當(dāng)作訓(xùn)練數(shù)據(jù)。但這種做法的問(wèn)題在于，假造的圖本身就可能有錯(cuò)誤，用錯(cuò)誤的數(shù)據(jù)訓(xùn)練出來(lái)的模型，會(huì)把這些錯(cuò)誤"遺傳"下去。

FIT數(shù)據(jù)集的合成流程天然解決了這個(gè)問(wèn)題。因?yàn)樗袛?shù)據(jù)都來(lái)自3D仿真，研究團(tuán)隊(duì)可以完全控制所有變量——固定同一個(gè)3D人體模型和同一個(gè)姿勢(shì)，只是換上不同的衣服，就能得到真正配對(duì)的圖片對(duì)。這就好比你有一個(gè)可以隨時(shí)換裝的實(shí)體模特，不需要"假造"，真實(shí)的配對(duì)數(shù)據(jù)信手拈來(lái)。

研究團(tuán)隊(duì)在此基礎(chǔ)上進(jìn)一步設(shè)計(jì)了一套身份保持生成流程。他們先生成主要的試衣圖片，然后通過(guò)以下方式生成配對(duì)圖片：把主圖中所有衣服覆蓋的區(qū)域（包括要換掉的衣服和目標(biāo)衣服各自覆蓋的區(qū)域）都遮掉，只保留頭部、背景、手臂等非服裝區(qū)域，形成一張"身份底圖"；再結(jié)合目標(biāo)衣服的法線貼圖和文字描述，讓重新上色模型在保持身份底圖所有細(xì)節(jié)的前提下，只在被遮掉的區(qū)域里生成穿著新衣服的效果。這樣生成的配對(duì)圖片，不僅人物身份高度一致，就連背景細(xì)節(jié)和肢體姿勢(shì)都幾乎完全相同。

至于每件衣服平鋪的"商品圖"，研究團(tuán)隊(duì)選擇用另一個(gè)AI工具直接從試衣圖片中"脫下"衣服，生成對(duì)應(yīng)的平鋪商品圖，省去了單獨(dú)拍攝的需要。

五、把測(cè)量數(shù)據(jù)"喂"給AI：全新的測(cè)量值編碼器

有了高質(zhì)量的訓(xùn)練數(shù)據(jù)，下一步是設(shè)計(jì)一個(gè)真正能理解尺碼信息的AI模型。研究團(tuán)隊(duì)將這個(gè)模型命名為Fit-VTO，它的輸入包括三個(gè)部分：一張平鋪的商品圖、一張穿著其他衣服的人物參考圖，以及一組測(cè)量數(shù)值。測(cè)量數(shù)值包含七個(gè)維度，其中人體側(cè)有四個(gè)：身高、胸圍、腰圍、臀圍；服裝側(cè)有三個(gè)：衣長(zhǎng)、胸寬、袖長(zhǎng)。

怎樣讓AI理解這些數(shù)字？這是一個(gè)非常實(shí)際的工程問(wèn)題。研究團(tuán)隊(duì)發(fā)現(xiàn)，直接把數(shù)字轉(zhuǎn)換成文字再用現(xiàn)有的文字編碼器來(lái)處理，效果不好——文字編碼器是為了理解語(yǔ)言而設(shè)計(jì)的，它對(duì)"96厘米"和"97厘米"之間的差異幾乎無(wú)法感知，就好比一個(gè)受過(guò)文學(xué)訓(xùn)練的翻譯家，你讓他分辨兩段音樂(lè)之間微小的音調(diào)差異，他也會(huì)兩眼一抹黑。

研究團(tuán)隊(duì)為此設(shè)計(jì)了一個(gè)專門的"測(cè)量值編碼器"，核心思路是"傅里葉特征嵌入"——這是一種在信號(hào)處理領(lǐng)域常用的技術(shù)，可以把單個(gè)數(shù)值擴(kuò)展成一組有規(guī)律變化的波形信號(hào)，讓神經(jīng)網(wǎng)絡(luò)更容易捕捉到數(shù)值之間細(xì)微的差異。每個(gè)測(cè)量維度被擴(kuò)展成16個(gè)相關(guān)聯(lián)的數(shù)值，七個(gè)維度合計(jì)輸出一個(gè)112維的向量，再經(jīng)過(guò)一個(gè)多層神經(jīng)網(wǎng)絡(luò)映射到3072維的空間，與圖像信息一起輸入到擴(kuò)散模型的每一層注意力機(jī)制中。

在模型架構(gòu)上，F(xiàn)it-VTO基于Flux.1-dev的多模態(tài)擴(kuò)散變換器骨架，人物參考圖的編碼與目標(biāo)圖片在通道維度上拼接（因?yàn)閮烧咴诳臻g上是像素對(duì)應(yīng)的），而服裝圖的編碼則與其他信息在序列維度上拼接（因?yàn)榉b圖在空間上并不直接對(duì)應(yīng)目標(biāo)圖片，需要先經(jīng)過(guò)模型自行"對(duì)齊"）。整個(gè)模型只需要訓(xùn)練少量的LoRA參數(shù)（一種讓大型預(yù)訓(xùn)練模型高效適應(yīng)新任務(wù)的輕量微調(diào)方法），絕大部分參數(shù)保持凍結(jié)，節(jié)省了大量計(jì)算資源。

六、實(shí)驗(yàn)結(jié)果：數(shù)字和圖片都說(shuō)話

為了檢驗(yàn)Fit-VTO的表現(xiàn)，研究團(tuán)隊(duì)在兩個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)評(píng)：一個(gè)是經(jīng)典的VITON-HD數(shù)據(jù)集（一個(gè)廣泛使用的虛擬試衣基準(zhǔn)測(cè)試集，里面都是真實(shí)電商圖片），另一個(gè)是他們自己構(gòu)建的FIT測(cè)試集（包含1000個(gè)合成樣本，覆蓋各種尺碼組合）。

在配對(duì)圖片生成質(zhì)量方面，研究團(tuán)隊(duì)對(duì)比了四種方案：直接讓大型視覺語(yǔ)言模型（VLM）來(lái)?yè)Q裝、用現(xiàn)有的虛擬試衣模型來(lái)?yè)Q裝、用圖像修復(fù)模型來(lái)?yè)Q裝，以及他們自己的方法。量化指標(biāo)用的是"遮掩區(qū)域L1距離"，也就是在非服裝區(qū)域（背景、頭部、肢體），生成圖片和原始圖片之間的像素級(jí)差異。他們的方法得分為1.61，而語(yǔ)言模型方法得分4.45，虛擬試衣模型方法得分2.29，修復(fù)模型方法得分3.91。簡(jiǎn)單說(shuō)，數(shù)值越小代表配對(duì)圖片的人物身份保持得越好，他們的方法以明顯優(yōu)勢(shì)領(lǐng)先所有競(jìng)品。

在試衣質(zhì)量方面，F(xiàn)it-VTO在FIT測(cè)試集上的幾乎所有指標(biāo)上都表現(xiàn)最佳，包括SSIM（衡量圖像結(jié)構(gòu)相似度）、FID（衡量生成圖像與真實(shí)圖像的整體分布差距）、LPIPS（衡量人眼感知上的差異）和KID（類似FID的另一種分布差異指標(biāo)）。特別是在專門衡量尺碼準(zhǔn)確性的IoU指標(biāo)上（通過(guò)比較生成圖片和真實(shí)圖片中服裝區(qū)域的重疊程度來(lái)判斷服裝大小是否被正確還原），F(xiàn)it-VTO的得分為0.955，遠(yuǎn)高于次優(yōu)方法的0.932，也遠(yuǎn)高于其他所有對(duì)比方法。在VITON-HD這個(gè)真實(shí)數(shù)據(jù)集上，F(xiàn)it-VTO也表現(xiàn)出色，在沒有額外在VITON-HD數(shù)據(jù)上微調(diào)的情況下，綜合表現(xiàn)就已與專門在VITON-HD上訓(xùn)練的IDM-VTON相當(dāng)，而針對(duì)該數(shù)據(jù)集專門微調(diào)后，F(xiàn)it-VTO在絕大多數(shù)指標(biāo)上進(jìn)一步超過(guò)IDM-VTON。

研究團(tuán)隊(duì)還通過(guò)消融實(shí)驗(yàn)逐一驗(yàn)證了各個(gè)組件的貢獻(xiàn)。只用真實(shí)網(wǎng)絡(luò)圖片訓(xùn)練（不用FIT數(shù)據(jù)）的版本在VITON-HD上表現(xiàn)尚可，但在FIT測(cè)試集的IoU指標(biāo)上大幅落后，說(shuō)明真實(shí)數(shù)據(jù)里的尺碼信息不足以讓模型學(xué)會(huì)尺碼感知。只用FIT數(shù)據(jù)訓(xùn)練（不加真實(shí)圖片）的版本在FIT測(cè)試集上表現(xiàn)很好，但在VITON-HD上出現(xiàn)了明顯的泛化下降，說(shuō)明單靠合成數(shù)據(jù)也不夠，兩者結(jié)合才能達(dá)到最佳效果。用文字編碼器代替專門的測(cè)量編碼器的版本，在IoU上的表現(xiàn)也明顯弱于使用專門測(cè)量編碼器的完整版本，驗(yàn)證了設(shè)計(jì)專用編碼器的必要性。

七、局限與未來(lái)方向

研究團(tuán)隊(duì)坦率地指出了當(dāng)前工作的幾個(gè)邊界。第一，物理仿真對(duì)"緊繃程度"的區(qū)分能力有限。當(dāng)一件衣服的尺碼比穿著者的身材小時(shí)，仿真結(jié)果就是布料緊貼皮膚——無(wú)論是稍微偏小還是嚴(yán)重偏小，視覺上的差異都不大，因?yàn)椴剂媳旧聿粫?huì)拉伸超過(guò)身體的輪廓。這導(dǎo)致模型很難區(qū)分"稍緊"和"極緊"這兩種體驗(yàn)上差異顯著但視覺上幾乎一樣的狀態(tài)。第二，測(cè)量值之間的相關(guān)性會(huì)限制獨(dú)立調(diào)節(jié)單個(gè)維度的能力。在現(xiàn)實(shí)的服裝設(shè)計(jì)中，衣長(zhǎng)、寬度和袖長(zhǎng)往往是按照比例同時(shí)變化的，這種相關(guān)性也被學(xué)進(jìn)了模型里，因此當(dāng)你單獨(dú)調(diào)高衣長(zhǎng)時(shí)，模型可能也會(huì)順帶稍微加寬一點(diǎn)衣服的寬度。

在研究范圍上，當(dāng)前的FIT數(shù)據(jù)集只覆蓋了上裝，且姿勢(shì)主要是日常休閑站姿，沒有涉及復(fù)雜的動(dòng)作或多角度拍攝。研究團(tuán)隊(duì)明確表示，下一步計(jì)劃擴(kuò)展到下裝和全身服裝，并增加姿勢(shì)和拍攝角度的多樣性。

歸根結(jié)底，這項(xiàng)研究做的事情，是給虛擬試衣這件事補(bǔ)上了一塊長(zhǎng)期缺失的拼圖——"合身度"。之前的AI系統(tǒng)只能回答"這件衣服長(zhǎng)什么樣"，現(xiàn)在的Fit-VTO開始嘗試回答"這件衣服穿在我身上會(huì)是什么樣"，而這恰恰才是購(gòu)衣者真正想知道的答案。

這對(duì)普通消費(fèi)者來(lái)說(shuō)，意味著未來(lái)在網(wǎng)購(gòu)時(shí)，虛擬試衣展示的效果將不再是模特穿上的效果，而是你自己的身材穿上之后的效果——包括寬松還是合身，袖子是否夠長(zhǎng)，腰部是否會(huì)顯出多余的布料。當(dāng)然，這項(xiàng)技術(shù)距離真正落地到每個(gè)人的購(gòu)物車旁邊，還有一段路要走，但方向已經(jīng)清晰了。

研究團(tuán)隊(duì)構(gòu)建的這套從物理仿真到真實(shí)感渲染、再到尺碼感知生成的完整流程，也為其他類似的"合成數(shù)據(jù)彌補(bǔ)真實(shí)數(shù)據(jù)不足"的研究場(chǎng)景提供了一個(gè)可以借鑒的框架。有興趣深入了解技術(shù)細(xì)節(jié)的讀者，可以通過(guò)論文編號(hào)arXiv:2604.08526查詢完整原文。

Q&A

Q1：FIT數(shù)據(jù)集是真實(shí)拍攝的圖片還是AI生成的？

A：FIT數(shù)據(jù)集中的圖片是通過(guò)合成流程生成的，并非真實(shí)拍攝。研究團(tuán)隊(duì)先用物理仿真引擎模擬不同尺碼的服裝穿在不同體型人體上的效果，生成3D渲染圖，再通過(guò)一套基于擴(kuò)散模型的重新上色流程，將這些3D渲染圖轉(zhuǎn)換成具有真實(shí)質(zhì)感的圖片。最終圖片的服裝形狀和人體輪廓來(lái)自物理仿真，外觀質(zhì)感來(lái)自AI重新生成，兩者結(jié)合，既保證了尺碼信息的精確性，又達(dá)到了接近真實(shí)照片的視覺效果。

Q2：Fit-VTO需要輸入哪些信息才能生成試衣圖？

A：Fit-VTO需要三類輸入：第一是目標(biāo)服裝的平鋪商品圖，就是那種常見的衣服單獨(dú)擺放在白色背景上的圖片；第二是穿著者的參考圖，即這個(gè)人穿著其他衣服時(shí)的全身照；第三是一組測(cè)量數(shù)值，包括穿著者的身高、胸圍、腰圍、臀圍，以及目標(biāo)服裝的衣長(zhǎng)、胸寬和袖長(zhǎng)，共七個(gè)數(shù)據(jù)。模型根據(jù)這三類輸入合成穿著者穿上目標(biāo)服裝、按照真實(shí)尺碼呈現(xiàn)合身度的圖片。

Q3：FIT數(shù)據(jù)集和現(xiàn)有虛擬試衣數(shù)據(jù)集相比有什么本質(zhì)區(qū)別？

A：現(xiàn)有虛擬試衣數(shù)據(jù)集，如ViTON-HD、DressCode等，基本都是從電商網(wǎng)站爬取的商品圖和模特圖，這類數(shù)據(jù)天然只展示"合身"狀態(tài)，沒有"穿錯(cuò)碼"的情況。FIT數(shù)據(jù)集的根本區(qū)別在于：它專門包含了各種尺碼錯(cuò)配的場(chǎng)景，從極度寬松到極度緊繃都有覆蓋，并且每個(gè)樣本都附有精確到厘米的人體和服裝測(cè)量數(shù)據(jù)。此外，F(xiàn)IT提供的是真正配對(duì)的三元組數(shù)據(jù)，即同一個(gè)人穿不同衣服的圖片對(duì)，這是現(xiàn)有真實(shí)數(shù)據(jù)集幾乎無(wú)法提供的。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.