国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

中科院、港中文等提出HiFi-Inpaint:重塑Inpainting生成范式!

0
分享至

HiFi-Inpaint 的整體框架,包含了數(shù)據(jù)集構(gòu)建流程、高頻特征提取、SEA 模塊以及 DAL 損失。采用固定的高頻權(quán)重(Fixed)往往會(huì)導(dǎo)致特征沖突,在重繪區(qū)域產(chǎn)生明顯的視覺偽影;而 SEA 模塊巧妙地引入了可學(xué)習(xí)的權(quán)重因子(Learnable),使高頻細(xì)節(jié)的注入更加平滑、自適應(yīng),最終生成的 “人 + 商品” 圖像在光影與結(jié)構(gòu)上更加和諧真實(shí)。傳統(tǒng)的 Canny 邊緣檢測(cè)會(huì)無差別地提取所有輪廓,引入大量無用的背景雜亂信息(如紅框所示);而 HiFi-Inpaint 采用的特定頻域?yàn)V波方法(Ours)能夠精準(zhǔn)高亮商品上的關(guān)鍵文字、Logo 與精細(xì)紋理(如藍(lán)框所示),從而為 DAL 損失提供最純凈、最精確的像素級(jí)監(jiān)督信號(hào) 。左側(cè)直方圖展示了極為廣泛的 Mask 面積占比分布,這意味著模型在訓(xùn)練后能自適應(yīng)從 “小掛件” 到 “大物件” 的各種生成比例;右側(cè)詞云圖則凸顯了極其豐富的商品類別,為模型學(xué)習(xí)真實(shí)世界中千變?nèi)f化的產(chǎn)品材質(zhì)、形狀和物理結(jié)構(gòu)打下了極其堅(jiān)實(shí)的數(shù)據(jù)基石。與 ACE++、Insert Anything 和 FLUX-Kontext 相比,HiFi-Inpaint 能夠完美還原瓶身上的微小文字、Logo 和瓶蓋紋理,拒絕 “AI 幻覺”。HiFi-Inpaint 在多項(xiàng)自動(dòng)評(píng)估指標(biāo)上取得最佳性能(上:合成測(cè)試數(shù)據(jù),下:真實(shí)測(cè)試數(shù)據(jù))。圖注:無論是戶外無人物理環(huán)境、大姿態(tài)全身視角、復(fù)雜商品遮擋,還是大幅度的風(fēng)格遷移(如漫畫風(fēng)),HiFi-Inpaint 都能游刃有余。



在 AIGC 領(lǐng)域,基于參考圖像的圖像修復(fù)(Reference-based Inpainting)一直是一項(xiàng)備受關(guān)注的核心任務(wù),它旨在利用參考圖像引導(dǎo)修復(fù)過程,生成視覺一致的內(nèi)容。這一技術(shù)在廣告營(yíng)銷和電商領(lǐng)域有著巨大的應(yīng)用潛力,例如讓 AI 自動(dòng)生成 “真人手持或穿戴商品” 的展示圖。然而,真實(shí)世界的商業(yè)應(yīng)用對(duì)高保真度有著極其苛刻的要求?,F(xiàn)有的模型在處理這類高標(biāo)準(zhǔn)任務(wù)時(shí)常常 “翻車”,尤其是在精細(xì)細(xì)節(jié)的保留上顯得力不從心:品牌 Logo 扭曲、包裝文字亂碼、產(chǎn)品紋理丟失等問題,成為了阻礙技術(shù)落地的最大痛點(diǎn)。

為了攻克這一難題,來自中國(guó)科學(xué)院大學(xué)、香港中文大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)聯(lián)合提出了HiFi-Inpaint模型。該工作深入探索了參考圖像修復(fù)的本質(zhì),通過創(chuàng)新性地引入高頻特征引導(dǎo)機(jī)制,實(shí)現(xiàn)了令人驚嘆的高保真細(xì)節(jié)還原。目前,該項(xiàng)工作已被計(jì)算機(jī)視覺頂級(jí)會(huì)議CVPR 2026接收。



  • 論文標(biāo)題:HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images
  • 論文鏈接: https://arxiv.org/abs/2603.02210
  • 項(xiàng)目主頁(yè): https://correr-zhou.github.io/HiFi-Inpaint

行業(yè)痛點(diǎn):為什么商品細(xì)節(jié)這么難搞?

雖然當(dāng)前的擴(kuò)散模型(Diffusion Models)在圖像生成上取得了革命性進(jìn)展,甚至能通過圖像定制或文本驅(qū)動(dòng)編輯來生成內(nèi)容,但在處理高度定制化的 “人 + 商品” 圖像時(shí),依然力不從心 。

現(xiàn)有的“基于參考圖像的圖像修復(fù)(Reference-based Inpainting)”方法提供了一個(gè)解決思路,但在實(shí)際應(yīng)用中仍面臨三大阻礙 :

1.細(xì)節(jié)易丟失: 擴(kuò)散模型的去噪過程傾向于將內(nèi)容 “平均化” 或產(chǎn)生幻覺,導(dǎo)致紋理、形狀和品牌元素(如文字)的嚴(yán)重不一致。

2.監(jiān)督信號(hào)粗糙: 傳統(tǒng)的隱空間(Latent Space)MSE 損失無法提供精確到像素級(jí)別的指導(dǎo),難以約束高頻細(xì)節(jié)。

3.缺乏高質(zhì)量數(shù)據(jù): 大規(guī)模、多樣化且精準(zhǔn)對(duì)齊的 “人 + 商品” 開源訓(xùn)練數(shù)據(jù)極度匱乏。

核心洞察與解決方案:HiFi-Inpaint

為了解決上述問題,研究團(tuán)隊(duì)提出了HiFi-Inpaint。它的核心 Insight 在于:既然隱空間容易丟失高頻信息,那就顯式地將 “高頻特征” 提取出來,直接注入到網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)中!



HiFi-Inpaint 能夠?qū)⑸唐穮⒖紙D無縫融合到帶 Mask 的人物圖像中,同時(shí)保持極高保真度的細(xì)節(jié)還原。

HiFi-Inpaint 基于 FLUX.1-Dev 架構(gòu)進(jìn)行了深度改造 ,其三大核心創(chuàng)新點(diǎn)如下:



1. 結(jié)構(gòu)創(chuàng)新:共享增強(qiáng)注意力(Shared Enhancement Attention, SEA)

為了在重繪區(qū)域精準(zhǔn)保留商品特征,研究團(tuán)隊(duì)設(shè)計(jì)了共享增強(qiáng)注意力模塊。它利用共享的雙流視覺 DiT 塊來細(xì)化 Mask 區(qū)域內(nèi)的視覺 Token。具體而言,模型在另一個(gè)分支中將商品圖像的 Token 替換為對(duì)應(yīng)的高頻圖 Token,通過學(xué)習(xí)一個(gè)權(quán)重因子,將高頻特征注入回主干網(wǎng)絡(luò):



這種設(shè)計(jì)既增強(qiáng)了模型捕獲復(fù)雜商品特征的能力,又因?yàn)閰?shù)共享機(jī)制,保持了模型的緊湊性(每個(gè)模塊僅引入了一個(gè)額外參數(shù))。



2. 訓(xùn)練策略:細(xì)節(jié)感知損失(Detail-Aware Loss, DAL)

僅僅在模型結(jié)構(gòu)上發(fā)力還不夠。為了彌補(bǔ)隱空間監(jiān)督的不足,研究團(tuán)隊(duì)引入了細(xì)節(jié)感知損失函數(shù)。這是一種利用高頻像素級(jí)監(jiān)督的損失函數(shù):



它專門針對(duì) Mask 區(qū)域內(nèi)的高頻成分(如文字邊緣、圖案紋理)進(jìn)行約束,有效指導(dǎo)了那些難以僅通過潛在級(jí)別監(jiān)督恢復(fù)的細(xì)粒度細(xì)節(jié)的重建。



3. 數(shù)據(jù)破局:構(gòu)建 HP-Image-40K 數(shù)據(jù)集

為了打破數(shù)據(jù)瓶頸,團(tuán)隊(duì)提出了一套自動(dòng)化的 “自合成與過濾” 流水線,構(gòu)建了包含 4 萬多張 高質(zhì)量樣本的數(shù)據(jù)集HP-Image-40K。 流程包括:使用 FLUX.1-Dev 生成雙聯(lián)圖(左側(cè)商品,右側(cè)人 + 商品)-> 邊緣檢測(cè)分割 ->YOLOv8 與 CLIP 進(jìn)行語(yǔ)義一致性過濾 -> InternVL 進(jìn)行文本重合度(Textual Filtering)過濾。這保證了訓(xùn)練數(shù)據(jù)中商品文字和形態(tài)的高度一致性。



驚艷的效果對(duì)比

有了高頻特征引導(dǎo)和高質(zhì)量數(shù)據(jù)的加持,HiFi-Inpaint 在定量和定性評(píng)估上都展現(xiàn)出了統(tǒng)治力。



在自動(dòng)評(píng)估指標(biāo)中,HiFi-Inpaint 在文本對(duì)齊(CLIP-T)、視覺一致性(CLIP-I 達(dá)到 0.950,DINO 達(dá)到 0.919)和結(jié)構(gòu)相似度(SSIM-HF 達(dá)到 0.429)上均取得了 SOTA(State-of-the-Art) 的表現(xiàn) 。





此外,即使在更為復(fù)雜、未見過的真實(shí)世界數(shù)據(jù)集(包含復(fù)雜光照、遮擋、室內(nèi)外場(chǎng)景)上,HiFi-Inpaint 依然表現(xiàn)出了強(qiáng)大的泛化能力和魯棒性,能夠自然地將目標(biāo)商品融入場(chǎng)景并保留關(guān)鍵視覺屬性 。



總結(jié)與思考 (Takeaways)

HiFi-Inpaint 的出現(xiàn),為電商海報(bào)生成、商品虛擬試用等商業(yè)落地場(chǎng)景掃清了一大障礙。它的成功給我們帶來了兩個(gè)核心啟發(fā):

1.高頻信號(hào)不可忽視: 在生成模型全面走向高保真度要求的今天,單純依賴網(wǎng)絡(luò) “自己領(lǐng)悟” 隱空間特征在某些任務(wù)中是不夠的。顯式地引入傳統(tǒng)圖像處理中的先驗(yàn)(如通過傅里葉變換提取高頻圖),能為模型提供極其精準(zhǔn)的 “錨點(diǎn)”。

2.Data-Centric AI 依然奏效: 利用大模型進(jìn)行自動(dòng)化數(shù)據(jù)合成與多重嚴(yán)格過濾,并進(jìn)行自蒸餾學(xué)習(xí),是突破領(lǐng)域數(shù)據(jù)匱乏的高效途徑。

目前該工作已被頂級(jí)計(jì)算機(jī)視覺會(huì)議 CVPR 2026 接收。期待未來能在更多商業(yè)和視頻生成場(chǎng)景中看到它的身影。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
意天空:盧卡庫(kù)退出比利時(shí)名單但沒回俱樂部,那不勒斯很憤怒

意天空:盧卡庫(kù)退出比利時(shí)名單但沒回俱樂部,那不勒斯很憤怒

懂球帝
2026-03-26 20:03:10
美國(guó)高調(diào)宣布勝利

美國(guó)高調(diào)宣布勝利

新浪財(cái)經(jīng)
2026-03-27 01:42:08
迪拜富商逛北京胡同時(shí),揚(yáng)言要買整條街,大爺一句話讓他連夜回國(guó)

迪拜富商逛北京胡同時(shí),揚(yáng)言要買整條街,大爺一句話讓他連夜回國(guó)

千秋文化
2026-03-25 21:45:38
華人離境后人間蒸發(fā)!在新西蘭買的房產(chǎn)竟不要了

華人離境后人間蒸發(fā)!在新西蘭買的房產(chǎn)竟不要了

發(fā)現(xiàn)新西蘭
2026-03-26 12:47:12
14 歲男生把干冰塞冰箱,半夜炸碎萬元冰箱!媽媽的反應(yīng)絕了

14 歲男生把干冰塞冰箱,半夜炸碎萬元冰箱!媽媽的反應(yīng)絕了

脊梁in上海
2026-03-25 21:16:20
廣東91歲老人讓兒子保管900多萬養(yǎng)老錢,兒媳去世前卻將300多萬分給自己姐姐,老人瞬間傻眼,法院:錢是保管不是贈(zèng)與,全額返還

廣東91歲老人讓兒子保管900多萬養(yǎng)老錢,兒媳去世前卻將300多萬分給自己姐姐,老人瞬間傻眼,法院:錢是保管不是贈(zèng)與,全額返還

觀威海
2026-03-18 22:11:07
又跌了,下一輪大行情才剛剛開啟!

又跌了,下一輪大行情才剛剛開啟!

金投網(wǎng)
2026-03-26 17:26:35
突然爆火!和黃金一樣“一天一個(gè)價(jià)”,網(wǎng)友:終于不用放家里吃灰了

突然爆火!和黃金一樣“一天一個(gè)價(jià)”,網(wǎng)友:終于不用放家里吃灰了

山東教育電視臺(tái)
2026-03-25 21:09:16
1982年血色使館:中國(guó)外交官唐健生為了生存殺光了所有同事

1982年血色使館:中國(guó)外交官唐健生為了生存殺光了所有同事

阿校談史
2026-03-20 11:03:27
劉燁養(yǎng)了15年的兒子諾一,如今帥到搶老爸風(fēng)頭!近照曝光變化太大

劉燁養(yǎng)了15年的兒子諾一,如今帥到搶老爸風(fēng)頭!近照曝光變化太大

阿廢冷眼觀察所
2026-03-27 01:42:49
帶孫 8 年,我終于明白,和兒子兒媳相處,最不該做的 3 件事

帶孫 8 年,我終于明白,和兒子兒媳相處,最不該做的 3 件事

朗威談星座
2026-03-26 17:49:39
日本東京警視廳:強(qiáng)闖中國(guó)駐日本大使館不法之徒被送檢

日本東京警視廳:強(qiáng)闖中國(guó)駐日本大使館不法之徒被送檢

新京報(bào)
2026-03-26 08:55:08
沙特實(shí)戰(zhàn)封神!中國(guó)“天盾”21發(fā)全中,15億美制系統(tǒng)竟慘遭反殺

沙特實(shí)戰(zhàn)封神!中國(guó)“天盾”21發(fā)全中,15億美制系統(tǒng)竟慘遭反殺

素衣讀史
2026-03-25 21:26:46
李幼平同志逝世

李幼平同志逝世

澎湃新聞
2026-03-26 18:05:03
馬英九專訪中途喊停,原因曝光

馬英九專訪中途喊停,原因曝光

郭茂辰海峽傳真
2026-03-26 21:32:49
穎兒太敢了!素顏曝光臉頰凹陷,做醫(yī)美全程不藏著,疼到五官扭曲

穎兒太敢了!素顏曝光臉頰凹陷,做醫(yī)美全程不藏著,疼到五官扭曲

圓夢(mèng)的小老頭
2026-03-26 21:31:03
托納利:我們擁有重返世界杯所需的一切,我們和球迷都配得上

托納利:我們擁有重返世界杯所需的一切,我們和球迷都配得上

懂球帝
2026-03-27 01:15:22
白宮堅(jiān)稱美伊仍在談判,威脅伊朗“切勿誤判”;伊朗外長(zhǎng):美國(guó)談?wù)摗罢勁小睙o異于承認(rèn)“失敗”,伊朗放聲開新戰(zhàn)線

白宮堅(jiān)稱美伊仍在談判,威脅伊朗“切勿誤判”;伊朗外長(zhǎng):美國(guó)談?wù)摗罢勁小睙o異于承認(rèn)“失敗”,伊朗放聲開新戰(zhàn)線

每日經(jīng)濟(jì)新聞
2026-03-26 17:08:49
零出場(chǎng)10人!大連板凳藏著一支隱形軍團(tuán) 多名小妖去別隊(duì)能打主力

零出場(chǎng)10人!大連板凳藏著一支隱形軍團(tuán) 多名小妖去別隊(duì)能打主力

刀鋒體育
2026-03-26 23:03:03
周薪30萬英鎊!曝埃弗頓2000萬鎊買斷格拉利什,瓜迪奧拉接受離隊(duì)

周薪30萬英鎊!曝埃弗頓2000萬鎊買斷格拉利什,瓜迪奧拉接受離隊(duì)

夏侯看英超
2026-03-27 00:57:04
2026-03-27 06:23:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12608文章數(shù) 142594關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

特朗普:對(duì)伊朗能源設(shè)施空襲再推遲10天

頭條要聞

特朗普:對(duì)伊朗能源設(shè)施空襲再推遲10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

數(shù)碼
本地
房產(chǎn)
時(shí)尚
公開課

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動(dòng),支持B70 / B65顯卡

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬遍

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補(bǔ)償方案出爐!

400萬人愛過的女孩,被黃謠網(wǎng)暴180天后

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版