国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

社交偏見在視覺中的多維分析:從數(shù)據(jù)、架構(gòu)到訓(xùn)練目標(biāo)的影響

0
分享至

人工智能模型的公平性問題日益引起關(guān)注,但我們對視覺模型中的社會偏見知之甚少。當(dāng)我們的圖像識別系統(tǒng)"看到"一個女性時,它在背后悄然將其與"家庭"而非"事業(yè)"聯(lián)系起來;當(dāng)系統(tǒng)處理不同膚色的人臉時,它可能無意識地做出偏頗的判斷。這些埋藏在代碼深處的偏見從何而來?是數(shù)據(jù)本身的問題,還是模型架構(gòu)的局限?又或許是訓(xùn)練方法的缺陷?本文揭開視覺Transformer模型中社會偏見的多層面成因,探究訓(xùn)練數(shù)據(jù)、模型規(guī)模與訓(xùn)練目標(biāo)如何共同塑造了AI的"偏見之眼",以及我們可以如何通過技術(shù)手段來消除這些不公正的認知。

偏見之眼

視覺Transformer模型(ViT)已經(jīng)成為現(xiàn)代計算機視覺的基石,但這些模型"看"世界的方式卻隱藏著令人擔(dān)憂的社會偏見。當(dāng)我們深入探索這些模型的嵌入空間時,發(fā)現(xiàn)它們經(jīng)常在不同社會群體間做出帶有刻板印象的關(guān)聯(lián)。比如,研究顯示ViT-MAE模型在處理性別相關(guān)圖像時,會將"女性"與"家庭"關(guān)聯(lián)度更高,而非"職業(yè)";相比之下,對于"男性"圖像,模型對"職業(yè)"和"家庭"的關(guān)聯(lián)則更為平衡。

這些偏見不僅限于性別。研究中使用的圖像嵌入關(guān)聯(lián)測試(iEAT)發(fā)現(xiàn),幾乎所有視覺Transformer模型都表現(xiàn)出對阿拉伯-穆斯林群體的負面偏見,將他們與"不愉快"的概念關(guān)聯(lián)度更高。類似地,針對膚色、年齡、殘障狀態(tài)等維度的測試也揭示了模型中存在的系統(tǒng)性偏見。

圖像嵌入關(guān)聯(lián)測試本質(zhì)上是測量模型嵌入空間中各概念之間的余弦相似度。研究者選取了15組測試案例,每組包含兩個目標(biāo)概念(如"男性"和"女性")和兩個屬性概念(如"職業(yè)"和"家庭")。當(dāng)模型將某個目標(biāo)概念與某個屬性的關(guān)聯(lián)程度顯著高于另一個屬性時,就表明存在偏見。

測量這些偏見需要兩個關(guān)鍵指標(biāo):統(tǒng)計顯著性和效應(yīng)量。統(tǒng)計顯著性通過排列測試來確定,計算得到p值(pt);而效應(yīng)量(d)則量化偏見的方向和強度。例如,當(dāng)測試"男性/女性"與"職業(yè)/家庭"的關(guān)聯(lián)時,ViT-MAE模型顯示出-0.59的效應(yīng)量,表明模型傾向于將女性與家庭關(guān)聯(lián)、將男性與職業(yè)關(guān)聯(lián)。

更令人擔(dān)憂的是,這些偏見并非僅存在于模型的某一層。研究顯示,生成式學(xué)習(xí)模型在各層中都表現(xiàn)出相當(dāng)數(shù)量的偏見,而判別式學(xué)習(xí)模型雖然在淺層與生成式模型相似,但在深層中偏見逐漸減少。這表明偏見可能從模型最基本的特征提取階段就已經(jīng)形成。

數(shù)據(jù)的迷局

既然識別了視覺模型中的社會偏見,一個直觀的想法是:這些偏見是否源自訓(xùn)練數(shù)據(jù)中的不均衡表示?研究者嘗試通過對抗性數(shù)據(jù)增強的方法來驗證和解決這一問題。

對抗性數(shù)據(jù)增強,本質(zhì)上是創(chuàng)建與原始訓(xùn)練數(shù)據(jù)相反的樣本。以性別偏見為例,研究團隊采用了擴散模型圖像編輯技術(shù),為ImageNet-1K數(shù)據(jù)集生成了159,393張對抗樣本。具體步驟是:首先使用BLIP和CLIP模型為圖像生成文本描述,然后替換描述中的性別詞匯(如將"男人"替換為"女人"),再通過CLIPSeg模型在原圖中遮罩相關(guān)區(qū)域,最后用Stable Diffusion模型根據(jù)修改后的文本描述重新生成該區(qū)域。

這種方法的效果如何?實驗表明,對抗性數(shù)據(jù)增強確實能減輕某些模型中的社會偏見,但效果因模型而異,且無法完全消除偏見。例如,在BEiT模型上,使用對抗數(shù)據(jù)訓(xùn)練一個輪次后,性別偏見的效應(yīng)量從0.65降低到0.45,但代價是CIFAR10數(shù)據(jù)集上的線性評估性能從87.5下降到84.8。而在ViT-MoCo模型上,偏見僅從1.41輕微減少到1.39,性能則保持不變。

更有趣的是,對ViT-MAE模型進行相同處理后,性別偏見不降反增,從0.59上升到0.64。這表明不同模型對對抗數(shù)據(jù)的反應(yīng)存在顯著差異,對抗訓(xùn)練的效果可能與模型架構(gòu)和訓(xùn)練目標(biāo)息息相關(guān)。

為排除預(yù)訓(xùn)練檢查點的影響,研究者還嘗試了從頭開始使用ImageNet-1K和對抗數(shù)據(jù)共同訓(xùn)練模型(雙向CDA)。結(jié)果顯示,ViT-MoCo的性別偏見從1.25減少到1.04,而ViT-MAE的偏見仍從0.50增加到0.55。這進一步證實了觀察到的效應(yīng)并非源自預(yù)訓(xùn)練檢查點,而可能是模型架構(gòu)差異導(dǎo)致的。

這些發(fā)現(xiàn)提出了一個重要問題:社會偏見在視覺模型中的形成是否僅僅是訓(xùn)練數(shù)據(jù)中對象共現(xiàn)的結(jié)果?研究表明,情況遠比這復(fù)雜。雖然某些偏見確實可能源自數(shù)據(jù)分布不均(如女性更多出現(xiàn)在"家庭或酒店"場景,男性更多出現(xiàn)在"工業(yè)和建筑"場景),但對抗數(shù)據(jù)增強的有限效果和模型間的差異反應(yīng)表明,模型架構(gòu)和訓(xùn)練目標(biāo)可能同樣重要。

有趣的是,實驗顯示一些偏見在所有模型中都一致存在,不受訓(xùn)練目標(biāo)影響。例如,所有測試的模型都將女性更多與家庭角色而非職業(yè)聯(lián)系起來,并將阿拉伯-穆斯林群體視為不那么愉快。這表明這些特定偏見可能確實深植于訓(xùn)練數(shù)據(jù)中,而其他偏見則可能更多受到模型設(shè)計的影響。

這些發(fā)現(xiàn)突顯了解決視覺模型社會偏見問題的復(fù)雜性。簡單地平衡訓(xùn)練數(shù)據(jù)可能不足以消除所有偏見,特別是當(dāng)不同模型對相同的對抗數(shù)據(jù)表現(xiàn)出不同反應(yīng)時。研究者認為,未來可能需要更有原則性的方法,甚至可能需要繞過對抗數(shù)據(jù)的使用,直接通過后處理干預(yù)來消除模型中的偏見。

要解決視覺模型中的社會偏見問題,我們需要全面考慮數(shù)據(jù)、架構(gòu)和訓(xùn)練方法三個維度。偏見不僅僅是數(shù)據(jù)的問題,而是一個涉及多個因素的復(fù)雜現(xiàn)象,需要綜合的解決方案。

教會方式有別

視覺Transformer模型的行為就像接受不同教育的學(xué)生,它們對世界的"理解"很大程度上取決于訓(xùn)練的方式。研究顯示,判別式學(xué)習(xí)和生成式學(xué)習(xí)這兩種主要的自監(jiān)督訓(xùn)練目標(biāo),會讓模型形成截然不同的社會偏見模式。

判別式學(xué)習(xí)模型(如ViT-DINO、ViT-MoCo和ViT-MSN)工作原理類似于"找不同"游戲,它們通過比較同一圖像的不同視角來學(xué)習(xí)特征。這些模型被訓(xùn)練成識別同一張圖片在不同變形(如旋轉(zhuǎn)、裁剪或顏色變化)下的共同點。與此相對,生成式學(xué)習(xí)模型(如BEiT、iGPT和ViT-MAE)則像在玩"填空"游戲,它們會嘗試從不完整信息中重建原始圖像,比如從被掩蓋的圖像部分預(yù)測完整圖像。

研究結(jié)果令人驚訝:判別式學(xué)習(xí)模型展現(xiàn)出明顯更少的社會偏見。當(dāng)統(tǒng)計顯著性閾值設(shè)為0.05時,判別式模型平均只有約4個顯著社會偏見,而生成式模型則平均有約8個。這種差距在各個統(tǒng)計顯著性水平(從0.0001到0.1)上都保持一致,表明這一發(fā)現(xiàn)具有統(tǒng)計學(xué)上的穩(wěn)健性。

為什么會出現(xiàn)這種差異?研究者推測,生成式模型在本質(zhì)上更容易捕捉訓(xùn)練數(shù)據(jù)中的統(tǒng)計模式和依賴關(guān)系,因為它們的目標(biāo)就是重建符合這些模式的圖像。如果訓(xùn)練數(shù)據(jù)對特定人口統(tǒng)計、物體或場景存在偏向,模型就會在其表示中無意識地學(xué)習(xí)并延續(xù)這些偏見。相反,判別式學(xué)習(xí)目標(biāo)鼓勵模型學(xué)習(xí)在同一圖像不同視角間保持不變的特征,這可能使模型更關(guān)注基本視覺特征,而不那么受社會偏見或外部因素影響。

更令人震驚的是,使用相同數(shù)據(jù)集訓(xùn)練的不同模型可能展現(xiàn)完全相反的社會偏見。以美洲原住民與歐裔美國人的比較為例,ViT-MAE模型傾向于將美洲原住民與"不愉快"概念關(guān)聯(lián)(效應(yīng)量-1.15),而ViT-MoCo模型則表現(xiàn)出相反的關(guān)聯(lián)模式(效應(yīng)量-0.66,負號表示偏見方向相反)。這一發(fā)現(xiàn)挑戰(zhàn)了"社會偏見僅僅是訓(xùn)練數(shù)據(jù)中物體共現(xiàn)的結(jié)果"這一簡單假設(shè)。

盡管如此,研究也發(fā)現(xiàn)一些社會偏見在所有模型中都很一致,不受訓(xùn)練目標(biāo)影響。比如,所有測試模型都將阿拉伯-穆斯林群體與"不愉快"概念關(guān)聯(lián)度更高(效應(yīng)量在-0.55到-1.24之間),將女性更多與家庭角色而非職業(yè)聯(lián)系(效應(yīng)量在-0.14到-1.41之間)。這表明這些特定偏見可能確實源自訓(xùn)練數(shù)據(jù)中的系統(tǒng)性不平衡。

這些發(fā)現(xiàn)暗示著訓(xùn)練目標(biāo)在社會偏見形成中起著關(guān)鍵作用,不僅影響偏見的數(shù)量,還影響其方向。因此,未來的偏見緩解工作可能應(yīng)該聚焦于那些在不同模型間一致存在的社會偏見,這些偏見更可能是數(shù)據(jù)分布不平衡的結(jié)果,而非模型特性的產(chǎn)物。

尺寸見分曉

模型的大小真的重要嗎?在視覺Transformer模型的世界里,答案是肯定的,尤其是談到社會偏見。研究人員對三種不同尺寸的iGPT模型(小、中、大)和三種不同尺寸的ViT-MAE模型(基礎(chǔ)、大、巨大)進行了系統(tǒng)分析,發(fā)現(xiàn)模型規(guī)模與社會偏見之間存在明顯關(guān)系。

隨著模型變大,社會偏見的方向往往保持不變,但強度卻顯著減弱。具體來說,iGPT-S模型在15項測試中的平均絕對效應(yīng)量約為0.83,而更大的iGPT-L模型則降至約0.54。類似地,ViT-MAE-B的平均絕對效應(yīng)量約為0.80,而最大的ViT-MAE-H模型降至約0.63。這表明,雖然更大的模型仍然存在社會偏見,但其強度通常較小。

這一現(xiàn)象背后的原因可能是大型模型具有更強的語義信息捕獲能力,減少了對虛假相關(guān)性的依賴。簡單來說,更大的模型"看"得更全面,不必過度依賴可能含有偏見的簡單線索。然而,研究人員強調(diào),僅靠增加模型規(guī)??赡懿蛔阋酝耆鐣?,這只是緩解策略的一部分。

除了模型規(guī)模,輸入分辨率也顯著影響著社會偏見的強度。研究者分析了在ImageNet-21k上預(yù)訓(xùn)練并在ImageNet-1k上微調(diào)的BEiT模型,這些模型在224224、384384和512512三種不同輸入分辨率上運行。隨著輸入分辨率從224224增加到512512,社會偏見的平均絕對效應(yīng)量從約0.88降至約0.65。這表明更高的輸入分辨率有助于減輕社會偏見,可能是因為模型能夠獲取更多細節(jié)信息,減少了對帶有偏見的簡化假設(shè)的依賴。

研究還考察了圖像塊(patch)大小對社會偏見的影響,比較了使用88塊和1616塊的ViT-DINO模型。結(jié)果顯示,雖然不同塊大小的模型表現(xiàn)出偏見強度的差異,但沒有觀察到系統(tǒng)性的增加或減少模式。不過,由于可用模型樣本量有限,這一結(jié)論需要進一步驗證。

在分析模型內(nèi)部結(jié)構(gòu)時,研究者還發(fā)現(xiàn)一個有趣現(xiàn)象:偏見在模型不同層中的分布與訓(xùn)練目標(biāo)相關(guān)。對于生成式學(xué)習(xí)模型(如ViT-MAE和BEiT),社會偏見在各層中數(shù)量基本穩(wěn)定。而對于判別式學(xué)習(xí)模型(如ViT-DINO和ViT-MoCo),早期層的偏見數(shù)量與生成式模型相似,但隨著層數(shù)增加,偏見逐漸減少。

這一觀察結(jié)果暗示,模型早期層中的偏見可能源于圖像數(shù)據(jù)的固有特性,與高級語義解釋無關(guān)。例如,膚色和體重這類偏見可能連接到低級特征如像素亮度,在模型形成語義概念前就已存在。隨著判別式模型在深層形成更有意義的語義特征,它們表現(xiàn)出更少的偏見,而生成式模型即使在深層也保留了相當(dāng)數(shù)量的偏見。

這些發(fā)現(xiàn)指向了一個實用的緩解策略:在選擇模型架構(gòu)時,可以考慮使用更大的模型和更高的輸入分辨率,尤其是選擇判別式學(xué)習(xí)目標(biāo)訓(xùn)練的模型,以減輕社會偏見的影響。同時,在使用模型嵌入特征時,對于判別式模型,可能優(yōu)先考慮更深層的特征,因為它們通常包含更少的社會偏見。

總體而言,這些研究結(jié)果揭示了視覺Transformer模型中社會偏見形成的復(fù)雜性,并提供了多角度的理解和可能的緩解策略。通過適當(dāng)選擇訓(xùn)練目標(biāo)、模型規(guī)模和輸入分辨率,可以在保持模型性能的同時減輕社會偏見的影響,朝著更公平的人工智能邁進一步。

參考資料

  1. Brinkmann, J., Swoboda, P., &; Bartelt, C. (2025). A Multidimensional Analysis of Social Biases in Vision Transformers. ICCV 2025.

  2. Sirotkin, A., et al. (2023). Distribution of social biases in self-supervised image models.

  3. Webster, R., et al. (2022). Counterfactual data augmentation for mitigating biases in vision models.

  4. He, K., et al. (2021). Masked autoencoders are scalable vision learners.

  5. Chen, X., et al. (2021). An empirical study of training self-supervised vision transformers.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
羅榮桓提議由賀龍擔(dān)任國防部長,毛主席聞言說道:還是讓賀老總出任軍委第二副主席吧

羅榮桓提議由賀龍擔(dān)任國防部長,毛主席聞言說道:還是讓賀老總出任軍委第二副主席吧

清風(fēng)鑒史
2025-12-27 19:37:17
1948年,王耀武被俘后,陳毅不解地問:你家里為何會藏了兩臺拖拉機?

1948年,王耀武被俘后,陳毅不解地問:你家里為何會藏了兩臺拖拉機?

宅家伍菇?jīng)?/span>
2025-12-07 09:00:04
日本僧人做出驚人之舉!日本住持向中國捐贈5000份日軍侵華史料

日本僧人做出驚人之舉!日本住持向中國捐贈5000份日軍侵華史料

扶蘇聊歷史
2025-12-27 11:14:51
回顧:斯大林看完長津湖戰(zhàn)報,當(dāng)即下令:將36個師的裝備支援我國

回顧:斯大林看完長津湖戰(zhàn)報,當(dāng)即下令:將36個師的裝備支援我國

清澈之玹
2024-12-25 21:16:59
南博新消息,徐鶯被曝領(lǐng)國家專項補助,還有人冒出頭為她站臺

南博新消息,徐鶯被曝領(lǐng)國家專項補助,還有人冒出頭為她站臺

奇思妙想草葉君
2025-12-26 23:17:24
1945年,女八路忍痛將剛出生的女兒放在路旁,當(dāng)上總理后才敢相認

1945年,女八路忍痛將剛出生的女兒放在路旁,當(dāng)上總理后才敢相認

古書記史
2025-12-24 20:24:21
60歲以后打斷筋都不要做的14件事,做三件就糊涂到家了,馬上收藏

60歲以后打斷筋都不要做的14件事,做三件就糊涂到家了,馬上收藏

情感大使館
2025-12-01 10:40:53
張靚穎透視裝被批擦邊,老粉心疼:除了露肉,忘了海豚音?

張靚穎透視裝被批擦邊,老粉心疼:除了露肉,忘了海豚音?

情感大頭說說
2025-12-28 06:05:04
保時捷中心總經(jīng)理帶頭連夜搬空車輛,貴陽鄭州兩地三店暫停營業(yè),控股方否認“投資人跑路”

保時捷中心總經(jīng)理帶頭連夜搬空車輛,貴陽鄭州兩地三店暫停營業(yè),控股方否認“投資人跑路”

大風(fēng)新聞
2025-12-27 10:39:04
體重降不下來?5個方法幫你突破減肥平臺期,讓體重咔咔掉!

體重降不下來?5個方法幫你突破減肥平臺期,讓體重咔咔掉!

運動健身號
2025-12-26 11:38:19
大波業(yè)主的傳奇

大波業(yè)主的傳奇

求實處
2025-12-28 00:00:09
17億美元賣掉公司,美國一老板給540名員工發(fā)2.4億美元獎金

17億美元賣掉公司,美國一老板給540名員工發(fā)2.4億美元獎金

瀟湘晨報
2025-12-26 16:32:15
沉默五天,蔡英文重磅發(fā)文,臺北全城已警戒,國民黨揪出罪惡根源

沉默五天,蔡英文重磅發(fā)文,臺北全城已警戒,國民黨揪出罪惡根源

現(xiàn)代小青青慕慕
2025-12-27 15:04:15
回顧探花大神:害人害己,多位女主被親戚認出當(dāng)場“社死”

回顧探花大神:害人害己,多位女主被親戚認出當(dāng)場“社死”

就一點
2025-10-09 12:19:42
中俄為啥不結(jié)盟?俄專家:中國拒絕與俄羅斯結(jié)盟,原因有3個

中俄為啥不結(jié)盟?俄專家:中國拒絕與俄羅斯結(jié)盟,原因有3個

博覽歷史
2025-12-26 06:40:03
刀郎為愛徒徐子堯發(fā)聲不到一周,惡心一幕發(fā)生,云朵的話有人信了

刀郎為愛徒徐子堯發(fā)聲不到一周,惡心一幕發(fā)生,云朵的話有人信了

仙味少女心
2025-12-28 08:24:10
云南省委省政府:嚴肅追責(zé)問責(zé)16名廳級干部

云南省委省政府:嚴肅追責(zé)問責(zé)16名廳級干部

上觀新聞
2025-12-27 14:42:10
汪小菲一家過圣誕節(jié)!11歲小玥兒露正臉瘦好多,黑黑瘦瘦太像大S

汪小菲一家過圣誕節(jié)!11歲小玥兒露正臉瘦好多,黑黑瘦瘦太像大S

娛樂圈圈圓
2025-12-26 19:52:29
對等攔截!報仇不隔夜!1000萬升走私燃料被截,背后竟是美國人?

對等攔截!報仇不隔夜!1000萬升走私燃料被截,背后竟是美國人?

現(xiàn)代小青青慕慕
2025-12-27 13:39:34
惡毒奶奶掌摑孫女后續(xù)!孫女嘴被打腫,父親發(fā)聲,母親哭了一夜

惡毒奶奶掌摑孫女后續(xù)!孫女嘴被打腫,父親發(fā)聲,母親哭了一夜

奇思妙想草葉君
2025-12-27 11:51:12
2025-12-28 09:56:49
臆說歷史 incentive-icons
臆說歷史
作有深度的歷史解讀
162文章數(shù) 233關(guān)注度
往期回顧 全部

科技要聞

新任NASA掌門放話:特朗普任期內(nèi)必將重返月球

頭條要聞

四川原副省長葉寒冰被通報:長期出入私人會所聚餐飲酒

頭條要聞

四川原副省長葉寒冰被通報:長期出入私人會所聚餐飲酒

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認定朋友造謠

財經(jīng)要聞

英偉達的收購史

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

本地
數(shù)碼
時尚
教育
公開課

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

數(shù)碼要聞

彩殼版蘋果初代AirPods耳機曝光:風(fēng)格酷似iPhone 5C

這些穿搭才最適合普通人!不露腿、不花哨,簡約舒適又顯氣質(zhì)

教育要聞

家長來討說法,要怎么應(yīng)對?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版