国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北京大學(xué)團(tuán)隊突破:讓AI學(xué)會"看病",一個模型搞定所有圖片問題

0
分享至


這是一項由北京大學(xué)醫(yī)學(xué)技術(shù)研究所的胡家奎、姚正健、金陸佳、陳英豪和盧燕葉等研究人員領(lǐng)導(dǎo)的工作,論文發(fā)表于2025年10月,論文編號為arXiv:2510.13282v1。有興趣深入了解的讀者可以通過這個編號在學(xué)術(shù)論文庫中查詢完整論文。

一、為什么我們需要一個"萬能醫(yī)生"來修復(fù)照片

想象你拍了一張照片,但它被各種問題"折磨"了:可能太暗看不清,可能被雨水模糊了,可能被壓縮得很厲害,或者被噪點污染了。過去,我們需要針對每一種問題單獨訓(xùn)練一個修復(fù)工具,就像醫(yī)院里每個科室都有專門的醫(yī)生。但北京大學(xué)的研究團(tuán)隊想到了一個更聰明的辦法:能不能訓(xùn)練一個"全科醫(yī)生",讓它學(xué)會識別照片的"病癥",然后對癥下藥?

這個想法聽起來簡單,但實現(xiàn)起來非常復(fù)雜。關(guān)鍵問題在于,這個"全科醫(yī)生"怎樣才能快速學(xué)會識別這么多種不同的問題?傳統(tǒng)的方法是直接給它看大量的壞照片和好照片的對比,讓它自己摸索規(guī)律。但這樣做效率很低,而且容易"死記硬背",遇到新的問題類型或新的嚴(yán)重程度就不知所措了。

研究團(tuán)隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:當(dāng)神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)如何修復(fù)照片時,它同時也在學(xué)習(xí)識別照片的問題類型。換句話說,識別問題和修復(fù)問題這兩個任務(wù)其實是相輔相成的。這個發(fā)現(xiàn)就像醫(yī)生發(fā)現(xiàn),學(xué)習(xí)診斷疾病的過程本身就能提升治療能力一樣;谶@個洞察,他們設(shè)計了一個新的預(yù)訓(xùn)練方法,叫做"掩膜降質(zhì)分類預(yù)訓(xùn)練"(MaskDCPT)。

二、預(yù)訓(xùn)練:讓模型在正式工作前先"實習(xí)"

在深入研究團(tuán)隊的方法之前,我們需要理解什么是預(yù)訓(xùn)練。預(yù)訓(xùn)練就像讓一個學(xué)生在進(jìn)入專業(yè)課程之前先學(xué)習(xí)基礎(chǔ)知識。在圖像修復(fù)的領(lǐng)域,預(yù)訓(xùn)練意味著用大量的圖像數(shù)據(jù)讓模型學(xué)習(xí)一些通用的技能,然后再針對具體的修復(fù)任務(wù)進(jìn)行微調(diào)。

傳統(tǒng)的預(yù)訓(xùn)練方法主要分為兩大類。第一類叫對比學(xué)習(xí),它的工作原理類似于學(xué)習(xí)識別雙胞胎。模型會看同一張圖片的不同版本(比如不同的亮度、不同的裁剪方式),然后學(xué)會認(rèn)識到它們是同一個東西。第二類叫掩膜圖像建模,這個方法更像是做拼圖游戲。模型會看一張圖片,但其中一些部分被遮擋了,然后它需要猜測被遮擋的部分是什么樣的。

但這些傳統(tǒng)方法在圖像修復(fù)領(lǐng)域有個問題:它們通常只關(guān)注某一個方面的學(xué)習(xí),比如只學(xué)習(xí)如何重建圖像,或者只學(xué)習(xí)如何對比不同的特征。研究團(tuán)隊的創(chuàng)新之處在于,他們想到把這些方法結(jié)合起來,同時加入一個新的維度:讓模型學(xué)會識別圖像的"病癥"。

三、發(fā)現(xiàn)隱藏的超能力:神經(jīng)網(wǎng)絡(luò)天生會"診斷"

在正式提出新方法之前,研究團(tuán)隊做了一系列有趣的實驗,來驗證一個大膽的假設(shè):神經(jīng)網(wǎng)絡(luò)是否天生就具有識別圖像問題類型的能力?

他們的第一個實驗相當(dāng)于問:"一個沒有經(jīng)過任何訓(xùn)練的新生兒能識別多少種疾?"結(jié)果令人驚訝。即使是完全隨機初始化的神經(jīng)網(wǎng)絡(luò),也能以52%到60%的準(zhǔn)確率識別五種不同的圖像問題類型(包括霧霾、雨水、高斯噪聲、運動模糊和低光)。這遠(yuǎn)高于隨機猜測的20%準(zhǔn)確率。這說明,識別問題的能力似乎是神經(jīng)網(wǎng)絡(luò)架構(gòu)本身固有的特性。

接下來,他們看了當(dāng)模型在學(xué)習(xí)修復(fù)圖像時會發(fā)生什么。他們用三種不同的圖像問題(霧霾、雨水和高斯噪聲)來訓(xùn)練模型,然后測試它識別五種問題的能力。結(jié)果是戲劇性的:訓(xùn)練后,模型的識別準(zhǔn)確率跳到了94%以上,甚至對它從未見過的問題類型也能識別。這就像一個醫(yī)學(xué)生在學(xué)習(xí)如何治療常見疾病的過程中,無意中也學(xué)會了識別其他疾病的癥狀。

但最關(guān)鍵的發(fā)現(xiàn)來自第三個實驗。研究團(tuán)隊想知道,如果他們把圖像的一部分遮擋起來(就像用手指遮住照片的一部分),模型還能識別問題嗎?當(dāng)遮擋比例在50%以下時,模型的識別能力幾乎沒有下降。這個發(fā)現(xiàn)非常重要,因為它說明識別問題的能力不依賴于看到完整的圖像,這為后續(xù)的方法設(shè)計打開了大門。

四、MaskDCPT:三個任務(wù)同時進(jìn)行的聰明訓(xùn)練法

基于這些發(fā)現(xiàn),研究團(tuán)隊設(shè)計了他們的核心方法:掩膜降質(zhì)分類預(yù)訓(xùn)練(MaskDCPT)。這個方法的精妙之處在于它同時進(jìn)行三個任務(wù),而這三個任務(wù)互相促進(jìn)、互相加強。

首先,讓我們理解這個方法的整體架構(gòu)。它包含一個編碼器和兩個解碼器。編碼器就像是一個特征提取器,它接收一張被部分遮擋的低質(zhì)量圖像,然后提取出這張圖像的關(guān)鍵特征。兩個解碼器各司其職:一個專門識別圖像的問題類型(分類解碼器),另一個則負(fù)責(zé)重建和修復(fù)圖像(重建解碼器)。

在訓(xùn)練開始時,研究團(tuán)隊會隨機遮擋輸入圖像的一些部分,遮擋比例默認(rèn)為50%。這個遮擋操作很關(guān)鍵,因為它強迫模型學(xué)會從不完整的信息中提取有用的特征。然后,編碼器處理這張被遮擋的圖像,從每一層都提取特征。這里有個技術(shù)細(xì)節(jié):他們不是只用最后一層的特征,而是從網(wǎng)絡(luò)的后半部分的每一層都提取特征。這樣做是為了避免梯度消失的問題,確保淺層的網(wǎng)絡(luò)也能得到有效的訓(xùn)練。

分類解碼器接收這些特征,然后嘗試識別原始圖像的問題類型。這里他們使用了一個叫"焦點損失"的特殊損失函數(shù)。為什么需要這個特殊的損失函數(shù)呢?因為在現(xiàn)實中,不同類型的圖像問題數(shù)據(jù)量差異很大。比如,去霧數(shù)據(jù)有72000多張,但去雨數(shù)據(jù)只有200張。這種不平衡會讓模型偏向于學(xué)習(xí)數(shù)據(jù)多的問題類型,忽視數(shù)據(jù)少的問題。焦點損失就像是一個"教練",它會特別關(guān)注模型在少數(shù)類上的表現(xiàn),確保模型不會偏科。

重建解碼器的任務(wù)是從編碼器的特征重建出原始的高質(zhì)量圖像。這個過程類似于做拼圖,模型需要根據(jù)看到的部分(未被遮擋的部分)推斷出被遮擋部分應(yīng)該是什么樣的。有趣的是,這個重建過程同時也是一個修復(fù)過程。對于未被遮擋的部分,模型學(xué)會了如何把低質(zhì)量的圖像轉(zhuǎn)換成高質(zhì)量的版本。

這三個任務(wù)——識別問題、重建圖像和修復(fù)圖像——看似獨立,但實際上它們形成了一個互相促進(jìn)的循環(huán)。當(dāng)模型學(xué)會了識別問題類型時,它對圖像的特征有了更深的理解,這幫助它更好地重建和修復(fù)圖像。反過來,修復(fù)和重建的過程也強化了模型對不同問題類型的理解。這就像一個醫(yī)生在治療患者的過程中不斷加深對疾病的認(rèn)識,而對疾病的更深認(rèn)識又幫助他更好地治療患者。

五、數(shù)據(jù)的力量:2.5百萬張圖像的大規(guī)模數(shù)據(jù)集

要讓這個方法發(fā)揮最大效力,需要一個足夠大、足夠多樣的訓(xùn)練數(shù)據(jù)集。研究團(tuán)隊意識到,雖然網(wǎng)上有很多圖像修復(fù)的數(shù)據(jù)集,但它們通常都很小,而且覆蓋的問題類型有限。于是,他們決定自己收集和整理一個大規(guī)模的通用圖像修復(fù)數(shù)據(jù)集,命名為UIR-2.5M。

這個數(shù)據(jù)集的規(guī)模令人印象深刻:它包含2.5百萬對圖像(低質(zhì)量版本和高質(zhì)量版本),涵蓋19種不同的圖像問題類型,以及超過200個不同的嚴(yán)重程度級別。數(shù)據(jù)集分為兩大類:單一問題和混合問題。單一問題包括各種模糊(運動模糊、散焦模糊、高斯模糊)、天氣問題(霧霾、雨水、雪)、噪聲(高斯噪聲、泊松噪聲、椒鹽噪聲、真實噪聲)、壓縮問題(JPEG壓縮)和其他問題(低光、馬賽克、摩爾紋);旌蠁栴}則包含了現(xiàn)實世界中常見的多種問題同時出現(xiàn)的情況,比如低光加霧霾加雨水,或者模糊加低光加噪聲。

值得注意的是,這個數(shù)據(jù)集既包含合成數(shù)據(jù)(人工生成的問題圖像)也包含真實數(shù)據(jù)(從真實場景中捕獲的有問題的圖像)。合成數(shù)據(jù)的好處是可以精確控制問題的類型和嚴(yán)重程度,便于系統(tǒng)的訓(xùn)練。真實數(shù)據(jù)的好處是它包含了合成數(shù)據(jù)無法復(fù)現(xiàn)的復(fù)雜特性,能幫助模型更好地泛化到真實世界。

六、實驗驗證:從理論到實踐

研究團(tuán)隊進(jìn)行了三大類實驗來驗證他們方法的有效性。

第一類實驗:全能修復(fù)任務(wù)

他們首先測試了模型在"五維全能修復(fù)"任務(wù)上的表現(xiàn)。這個任務(wù)要求一個模型同時處理五種常見的圖像問題:去霧、去雨、去噪、去模糊和低光增強。他們用四種不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)(SwinIR、NAFNet、Restormer和PromptIR)進(jìn)行了測試。

結(jié)果非常令人鼓舞。使用MaskDCPT預(yù)訓(xùn)練的模型在所有四種架構(gòu)上都顯著超越了基礎(chǔ)模型。以NAFNet為例,經(jīng)過MaskDCPT預(yù)訓(xùn)練后,在五維任務(wù)上的性能提升了4.32分貝(dB)。這個數(shù)字看起來可能不太直觀,但在圖像質(zhì)量評估中,每提升1分貝都是顯著的改進(jìn)。更重要的是,這個改進(jìn)對所有架構(gòu)都有效,無論是基于卷積的CNN還是基于注意力機制的Transformer。

他們還測試了"十二維全能修復(fù)",即同時處理12種不同的圖像問題。在這個更具挑戰(zhàn)性的任務(wù)上,MaskDCPT預(yù)訓(xùn)練的模型仍然表現(xiàn)出色。在去雨任務(wù)上,它比之前最好的方法提升了1.98分貝。在低光增強上,它比一些使用了復(fù)雜外部模型的方法提升了4.78分貝。這說明,僅僅通過學(xué)習(xí)識別問題類型,模型就能獲得強大的修復(fù)能力,甚至不需要依賴復(fù)雜的外部工具。

第二類實驗:面對陌生的問題

真正考驗一個模型能力的,是它面對從未見過的情況時的表現(xiàn)。研究團(tuán)隊設(shè)計了兩種測試方式。

零樣本測試是指模型在訓(xùn)練時沒有見過某個特定的問題類型或問題嚴(yán)重程度,但在測試時需要處理它。比如,模型在訓(xùn)練時見過高斯噪聲級別為15、25和50的圖像,但從未見過級別為60或75的。結(jié)果表明,MaskDCPT預(yù)訓(xùn)練的模型在處理這些陌生的噪聲級別時表現(xiàn)得相當(dāng)不錯。特別是當(dāng)模型用更多種類的問題進(jìn)行預(yù)訓(xùn)練時(12維而不是5維),它對陌生噪聲級別的處理能力大幅提升,在最高噪聲級別上的性能比只用5維預(yù)訓(xùn)練的模型好5.69分貝。

微調(diào)測試則是指模型在預(yù)訓(xùn)練后,用特定任務(wù)的少量數(shù)據(jù)進(jìn)行微調(diào)。比如,他們用MaskDCPT預(yù)訓(xùn)練的模型,然后在去模糊數(shù)據(jù)集上微調(diào)。結(jié)果顯示,這樣的方法比從零開始訓(xùn)練要好得多,而且比其他預(yù)訓(xùn)練方法也更有效。

第三類實驗:真實世界的挑戰(zhàn)

最后,研究團(tuán)隊測試了模型在真實世界場景中的表現(xiàn)。真實世界的圖像問題往往比合成數(shù)據(jù)復(fù)雜得多,因為它們包含了各種意想不到的因素。他們測試了模型在處理真實運動模糊、真實散焦模糊、真實雨水、真實雪、真實霧霾和真實低光等問題上的表現(xiàn)。

結(jié)果令人驚喜。MaskDCPT預(yù)訓(xùn)練的模型在所有這些真實世界場景中都表現(xiàn)出色,甚至超越了一些專門為這些特定問題設(shè)計的方法。特別是在低光增強上,它比之前的最好方法提升了顯著的幅度。這說明,通過學(xué)習(xí)識別問題類型,模型獲得了一種深層的理解,使它能夠很好地泛化到真實世界的復(fù)雜情況。

七、為什么這個方法這么有效

理解這個方法為什么這么有效,需要從幾個角度來看。

首先,從學(xué)習(xí)的角度來看,識別問題類型和修復(fù)問題這兩個任務(wù)是互補的。當(dāng)模型學(xué)會識別問題時,它必須理解問題的本質(zhì)特征。這種理解自然而然地幫助它更好地修復(fù)問題。反過來,修復(fù)問題的過程也強化了模型對問題特征的理解。這就像學(xué)習(xí)一門語言,語法理解和實際應(yīng)用是相互促進(jìn)的。

其次,從數(shù)據(jù)的角度來看,掩膜操作(遮擋圖像的一部分)強迫模型學(xué)會從不完整的信息中提取有用的特征。這種能力對于處理各種問題的圖像都很有幫助,因為有問題的圖像本質(zhì)上就是"不完整"或"損壞"的。通過在預(yù)訓(xùn)練中模擬這種不完整性,模型學(xué)會了更魯棒的特征表示。

第三,從架構(gòu)的角度來看,使用多層特征而不是只用最后一層,確保了網(wǎng)絡(luò)的所有部分都得到了充分的訓(xùn)練。這避免了淺層網(wǎng)絡(luò)因為梯度消失而沒有得到充分學(xué)習(xí)的問題。

八、實際應(yīng)用的意義

這項研究的實際意義是深遠(yuǎn)的。首先,它提供了一個通用的預(yù)訓(xùn)練框架,可以應(yīng)用到各種不同的圖像修復(fù)任務(wù)上。無論是去霧、去雨、去噪還是低光增強,同一個預(yù)訓(xùn)練模型都能提供幫助。這大大降低了開發(fā)新的圖像修復(fù)應(yīng)用的成本。

其次,它證明了識別問題類型這個看似簡單的任務(wù),實際上是學(xué)習(xí)通用圖像修復(fù)能力的關(guān)鍵。這個洞察可能會影響未來圖像修復(fù)研究的方向,鼓勵研究者更多地關(guān)注問題識別這個維度。

第三,UIR-2.5M數(shù)據(jù)集的發(fā)布為整個研究社區(qū)提供了一個寶貴的資源。有了這個大規(guī)模、多樣化的數(shù)據(jù)集,其他研究者可以更容易地開發(fā)和測試新的圖像修復(fù)方法。

第四,從實際應(yīng)用的角度,這個方法可以用在很多地方。手機相機應(yīng)用可以用它來自動修復(fù)用戶拍攝的照片。醫(yī)學(xué)影像分析可以用它來改善診斷圖像的質(zhì)量。衛(wèi)星圖像處理可以用它來增強遙感數(shù)據(jù)的清晰度。視頻編輯軟件可以用它來修復(fù)舊視頻?赡苄詭缀跏菬o限的。

九、與其他方法的對比

為了更好地理解這個方法的優(yōu)勢,我們可以看看它與其他方法的對比。

一些方法試圖通過使用外部的大型模型來解決通用圖像修復(fù)問題。比如,有些方法使用CLIP(一個在互聯(lián)網(wǎng)上訓(xùn)練的大型視覺語言模型)來提供額外的信息,或者使用擴散模型(一種強大的生成模型)來幫助修復(fù)。這些方法確實有效,但它們的問題是需要依賴外部的大型模型,這增加了計算成本和復(fù)雜性。

MaskDCPT的優(yōu)勢在于它是自包含的。它不需要依賴任何外部模型,只需要一個標(biāo)準(zhǔn)的圖像修復(fù)網(wǎng)絡(luò)和一個簡單的分類頭。這使得它更加輕量級,更容易部署。而且,從實驗結(jié)果來看,即使不依賴外部模型,它的性能也能與那些使用外部模型的方法相媲美,甚至在某些情況下更好。

與其他預(yù)訓(xùn)練方法的對比也很有趣。有些預(yù)訓(xùn)練方法只關(guān)注圖像重建(掩膜圖像建模),而忽視了問題識別。有些則只關(guān)注對比學(xué)習(xí)。MaskDCPT的創(chuàng)新之處在于它同時關(guān)注這兩個方面,而且加入了問題識別這個新的維度。從實驗結(jié)果來看,這種綜合的方法確實比單一的方法更有效。

十、局限性和未來方向

雖然這項研究取得了顯著的成果,但研究團(tuán)隊也坦誠地指出了一些局限性。首先,UIR-2.5M數(shù)據(jù)集雖然很大,但仍然主要關(guān)注全局降質(zhì)問題(影響整個圖像的問題),而對局部降質(zhì)問題(如反射、眩光、圖像不完整)的覆蓋還不足。這些局部問題在實際應(yīng)用中也很常見,但目前的數(shù)據(jù)集還沒有充分覆蓋。

其次,數(shù)據(jù)集中的真實數(shù)據(jù)比例相對較低(只有3%)。雖然合成數(shù)據(jù)很有用,但真實數(shù)據(jù)往往包含合成數(shù)據(jù)無法復(fù)現(xiàn)的復(fù)雜特性。增加真實數(shù)據(jù)的比例可能會進(jìn)一步提升模型的性能。

第三,某些專業(yè)領(lǐng)域(如人臉修復(fù)、遙感圖像、醫(yī)學(xué)影像、文檔掃描)的數(shù)據(jù)覆蓋還不充分。這些領(lǐng)域有其特殊的特性,需要更多的專門數(shù)據(jù)。

研究團(tuán)隊表示,未來的工作將包括擴展數(shù)據(jù)集以覆蓋這些領(lǐng)域,增加真實數(shù)據(jù)的比例,以及探索如何處理局部降質(zhì)問題。他們也計劃研究如何將這個方法應(yīng)用到視頻修復(fù)等其他相關(guān)任務(wù)上。

十一、技術(shù)細(xì)節(jié)的深入理解

對于那些想要更深入理解這個方法的讀者,我們可以討論一些技術(shù)細(xì)節(jié)。

首先是掩膜策略。研究團(tuán)隊使用的是補丁級別的掩膜,而不是像素級別的掩膜。這意味著他們遮擋的是16×16像素的小塊,而不是單個像素。為什么這樣做?因為補丁級別的掩膜更符合圖像修復(fù)的實際情況。在真實的圖像問題中,問題通常不是孤立的像素,而是相鄰的像素區(qū)域。通過使用補丁級別的掩膜,模型學(xué)會了處理這種區(qū)域級別的問題。

其次是特征提取策略。研究團(tuán)隊不是只用網(wǎng)絡(luò)最后一層的特征,而是從網(wǎng)絡(luò)后半部分的每一層都提取特征。這有兩個好處。一是確保了網(wǎng)絡(luò)的所有部分都得到了充分的訓(xùn)練。二是提供了多尺度的特征,這對于處理不同大小的圖像問題很有幫助。

第三是損失函數(shù)的設(shè)計。分類任務(wù)使用焦點損失,這是一個特殊的損失函數(shù),能夠處理數(shù)據(jù)不平衡的問題。修復(fù)任務(wù)使用L1損失(絕對值誤差),這比L2損失(平方誤差)對異常值更魯棒。這兩個損失函數(shù)的組合確保了模型既能學(xué)會分類,也能學(xué)會修復(fù)。

十二、對圖像修復(fù)領(lǐng)域的影響

這項研究對圖像修復(fù)領(lǐng)域的影響是深遠(yuǎn)的。它改變了研究者對通用圖像修復(fù)的理解。過去,研究者往往認(rèn)為通用圖像修復(fù)主要是一個修復(fù)問題,需要設(shè)計復(fù)雜的網(wǎng)絡(luò)架構(gòu)或使用外部的大型模型。這項研究表明,問題識別這個看似簡單的任務(wù)實際上是關(guān)鍵。通過讓模型學(xué)會識別問題,它自然而然地學(xué)會了如何修復(fù)問題。

這個洞察可能會激發(fā)一系列后續(xù)研究。研究者可能會探索其他方式來增強模型的問題識別能力,或者研究如何將問題識別與其他任務(wù)結(jié)合起來。這項研究也可能影響其他計算機視覺任務(wù)的研究,因為問題識別的思想可以推廣到其他需要理解圖像缺陷的任務(wù)上。

從工業(yè)應(yīng)用的角度,這項研究為開發(fā)更好的圖像處理工具提供了一個新的方向。手機制造商可以使用這個方法來改善他們的相機應(yīng)用。社交媒體平臺可以使用它來自動改善用戶上傳的照片質(zhì)量。醫(yī)療設(shè)備制造商可以使用它來改善醫(yī)學(xué)影像的質(zhì)量?赡苄允菬o限的。

十三、與人工智能發(fā)展的關(guān)系

這項研究也反映了當(dāng)代人工智能研究的一些重要趨勢。首先是預(yù)訓(xùn)練的重要性。在過去幾年,預(yù)訓(xùn)練已經(jīng)成為深度學(xué)習(xí)的一個標(biāo)準(zhǔn)做法。從GPT到BERT再到Vision Transformer,預(yù)訓(xùn)練都扮演了關(guān)鍵角色。這項研究進(jìn)一步證實了預(yù)訓(xùn)練對于提升模型性能的重要性。

其次是多任務(wù)學(xué)習(xí)的價值。這項研究表明,通過同時學(xué)習(xí)多個相關(guān)的任務(wù)(分類、重建、修復(fù)),模型能夠?qū)W到更好的通用表示。這與最近多任務(wù)學(xué)習(xí)研究的發(fā)現(xiàn)一致。

第三是數(shù)據(jù)的重要性。雖然這項研究提出了一個新的方法,但它的成功也離不開一個大規(guī)模、高質(zhì)量的數(shù)據(jù)集。這反映了當(dāng)代深度學(xué)習(xí)的一個現(xiàn)實:好的數(shù)據(jù)往往和好的算法一樣重要,甚至更重要。

Q&A

Q1:MaskDCPT是什么?它和傳統(tǒng)的圖像修復(fù)方法有什么區(qū)別?
A:MaskDCPT是北京大學(xué)團(tuán)隊提出的一種新的圖像修復(fù)預(yù)訓(xùn)練方法。傳統(tǒng)方法通常需要針對每種圖像問題(如去雨、去霧)單獨訓(xùn)練一個模型,而MaskDCPT通過讓模型同時學(xué)習(xí)識別問題類型和修復(fù)問題,訓(xùn)練出一個能處理多種問題的通用模型。它的核心創(chuàng)新是發(fā)現(xiàn)了問題識別和圖像修復(fù)這兩個任務(wù)是互相促進(jìn)的。

Q2:為什么掩膜(遮擋圖像的一部分)能幫助模型學(xué)得更好?
A:掩膜操作強迫模型從不完整的信息中學(xué)會提取有用特征。這與真實的圖像問題很相似,因為有問題的圖像本質(zhì)上就是"損壞"或"不完整"的。通過在預(yù)訓(xùn)練中模擬這種不完整性,模型學(xué)會了更魯棒的特征表示,能更好地處理各種真實世界的圖像問題。

Q3:UIR-2.5M數(shù)據(jù)集包含哪些內(nèi)容?為什么需要這么大的數(shù)據(jù)集?
A:UIR-2.5M包含250萬對圖像,涵蓋19種圖像問題類型和200多個嚴(yán)重程度級別。大規(guī)模數(shù)據(jù)集的好處是讓模型能夠?qū)W到更通用的特征,能夠更好地泛化到未見過的問題類型和嚴(yán)重程度。同時,多樣化的數(shù)據(jù)集確保了模型不會過度擬合到某一種特定的問題。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1956年毛主席罕見發(fā)問:東來順羊肉咋回事?陳云一查,根子不在師傅,問題出在“新規(guī)矩”

1956年毛主席罕見發(fā)問:東來順羊肉咋回事?陳云一查,根子不在師傅,問題出在“新規(guī)矩”

歷史回憶室
2025-12-23 10:19:17
志愿軍首戰(zhàn)殲滅美軍一萬五,主席卻提筆改成六千,麥克阿瑟看完戰(zhàn)報笑得合不攏嘴,結(jié)果幾十萬大軍一頭扎進(jìn)死胡同,這招示弱太絕了

志愿軍首戰(zhàn)殲滅美軍一萬五,主席卻提筆改成六千,麥克阿瑟看完戰(zhàn)報笑得合不攏嘴,結(jié)果幾十萬大軍一頭扎進(jìn)死胡同,這招示弱太絕了

歷史回憶室
2025-12-26 11:42:28
為啥"唐氏兒"都長著同一張臉?醫(yī)生一般不說,父母最好要知道

為啥"唐氏兒"都長著同一張臉?醫(yī)生一般不說,父母最好要知道

大果小果媽媽
2025-12-28 11:33:24
孟村殺妻案結(jié)果公布,判決前金昊母子照片曝光,兩人狀態(tài)截然不同

孟村殺妻案結(jié)果公布,判決前金昊母子照片曝光,兩人狀態(tài)截然不同

歷史偉人錄
2025-12-27 21:34:16
袁天罡農(nóng)家躲雨,主人只掃屋心,他面色驟變:三代之內(nèi)必出大人物

袁天罡農(nóng)家躲雨,主人只掃屋心,他面色驟變:三代之內(nèi)必出大人物

小豫講故事
2025-12-28 06:00:08
李瑞環(huán)說:葉選平是葉帥的兒子,但水平比我高,為什么不能當(dāng)省長

李瑞環(huán)說:葉選平是葉帥的兒子,但水平比我高,為什么不能當(dāng)省長

章荳解說體育
2025-12-11 21:56:41
柬埔寨國王,72歲了,沒錢沒權(quán),沒結(jié)婚沒孩子,和老母親相依為命

柬埔寨國王,72歲了,沒錢沒權(quán),沒結(jié)婚沒孩子,和老母親相依為命

趣文說娛
2025-12-23 17:34:34
童瑤胸貼露出來了

童瑤胸貼露出來了

手工制作阿殲
2025-12-15 12:20:21
中山一商場展車撞入手機店,車企工作人員:小孩誤觸所致,無人受傷

中山一商場展車撞入手機店,車企工作人員:小孩誤觸所致,無人受傷

極目新聞
2025-12-28 13:48:03
錢再多也沒用!向太曝馬伊琍已再婚,原來當(dāng)年文章過不了心里那關(guān)

錢再多也沒用!向太曝馬伊琍已再婚,原來當(dāng)年文章過不了心里那關(guān)

一娛三分地
2025-12-15 13:26:07
一個男人如果不正經(jīng),通過這2個模樣,一看便知!

一個男人如果不正經(jīng),通過這2個模樣,一看便知!

加油丁小文
2025-12-01 08:00:12
殲-15幾乎全部退役,淪為全球最短命艦載機!它究竟有哪些短板?

殲-15幾乎全部退役,淪為全球最短命艦載機!它究竟有哪些短板?

小莜讀史
2025-12-27 14:55:11
201米!40億!騰訊西南總部,世界“第一扭”摩天樓

201米!40億!騰訊西南總部,世界“第一扭”摩天樓

GA環(huán)球建筑
2025-12-25 23:00:32
原來他早已去世,15歲演戲44歲走紅,47歲患癌離世,哥哥是熟面孔

原來他早已去世,15歲演戲44歲走紅,47歲患癌離世,哥哥是熟面孔

故事講電影
2025-12-28 20:01:41
“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

詩意世界
2025-11-30 11:04:47
馬卡:弗洛倫蒂諾使巴薩財務(wù)難題徹底解決,應(yīng)拿巴薩金質(zhì)勛章

馬卡:弗洛倫蒂諾使巴薩財務(wù)難題徹底解決,應(yīng)拿巴薩金質(zhì)勛章

懂球帝
2025-12-28 20:59:23
溥儀9歲仍在吃奶,給他當(dāng)乳娘有2規(guī)矩:一是喂奶,另一個毫無人性

溥儀9歲仍在吃奶,給他當(dāng)乳娘有2規(guī)矩:一是喂奶,另一個毫無人性

小豫講故事
2025-12-27 06:00:06
中國股市:炒股成功的人到底有多可怕?從窮人到富人的全過程!

中國股市:炒股成功的人到底有多可怕?從窮人到富人的全過程!

股經(jīng)縱橫談
2025-12-28 18:53:25
天氣預(yù)報丨新一輪降溫即將到來 重慶高海拔地區(qū)有雪

天氣預(yù)報丨新一輪降溫即將到來 重慶高海拔地區(qū)有雪

上游新聞
2025-12-28 17:24:02
廣東vs山西,對抗強度拉滿,胡明軒奎因表現(xiàn)糟糕,杜鋒投訴迪亞洛

廣東vs山西,對抗強度拉滿,胡明軒奎因表現(xiàn)糟糕,杜鋒投訴迪亞洛

鄒維體育
2025-12-28 20:06:15
2025-12-28 21:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

時尚
家居
數(shù)碼
手機
本地

2026年了,最好看還是這件大衣!

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

數(shù)碼要聞

AM4老兵不死:銳龍7 5800X登上銷量榜首!前十有4款是AM4

手機要聞

HMD新機曝光:高刷LCD屏+大電池

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

無障礙瀏覽 進(jìn)入關(guān)懷版