網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

用AI訓(xùn)練AI的隱性高代價(jià)：數(shù)據(jù)污染危機(jī)全解析

2026-04-10 22:04:07　來(lái)源: 至頂頭條

北京舉報(bào)

分享至

當(dāng)前的AI模型正面臨一種危險(xiǎn)的脆弱性：數(shù)據(jù)污染。然而，這場(chǎng)數(shù)據(jù)污染危機(jī)并非主要由黑客或外部攻擊者造成，而是企業(yè)自食其果的結(jié)果。隨著各企業(yè)爭(zhēng)相在業(yè)務(wù)流程中部署AI，它們正悄然將AI生成的摘要、郵件、代碼和報(bào)告大量涌入內(nèi)部數(shù)據(jù)庫(kù)。當(dāng)這些合成內(nèi)容被反向輸入用于構(gòu)建和微調(diào)下一代AI模型的訓(xùn)練管道時(shí)，數(shù)據(jù)污染便由此產(chǎn)生。

對(duì)許多企業(yè)而言，他們?cè)贏I轉(zhuǎn)型上的投入，如今正在蠶食他們所寄望的AI未來(lái)。

"問(wèn)題的本質(zhì)在于：信噪比崩潰了，"澳大利亞AI科技初創(chuàng)公司Brainfish AI的CEO丹尼爾·金伯（Daniel Kimber）表示，該公司專注于構(gòu)建AI智能體。"原始的人類推理、邊緣案例知識(shí)和細(xì)致入微的機(jī)構(gòu)背景知識(shí)，被那些本就是對(duì)真實(shí)信息進(jìn)行抽象處理的合成內(nèi)容所稀釋。當(dāng)你基于這樣的數(shù)據(jù)進(jìn)行訓(xùn)練或微調(diào)時(shí)，你學(xué)到的不是真實(shí)經(jīng)驗(yàn)，而是對(duì)副本的再次復(fù)制。"

數(shù)據(jù)污染最終帶來(lái)的風(fēng)險(xiǎn)——"模型退化"——許多CIO或許已有所耳聞。然而，將問(wèn)題簡(jiǎn)單歸結(jié)為"模型退化"，可能會(huì)掩蓋真正的風(fēng)險(xiǎn)所在：業(yè)務(wù)結(jié)果。模型退化會(huì)引發(fā)決策退化，即當(dāng)機(jī)器或人類的決策依賴于AI失真的分析或輸出時(shí)，判斷力便隨之下滑。

"準(zhǔn)確性的喪失不僅僅是退化，更是一種扭曲。這類問(wèn)題通常不會(huì)線性顯現(xiàn)，而是悄然累積，最終一并爆發(fā)，"數(shù)據(jù)防泄漏與內(nèi)部風(fēng)險(xiǎn)管理提供商Safetica的CTO茲比涅克·索普奇（Zbyněk Sopuch）說(shuō)道。"準(zhǔn)確性損失與反饋循環(huán)共同導(dǎo)致大規(guī)模的決策退化。這意味著問(wèn)題已從模型層面演變?yōu)闃I(yè)務(wù)層面。"

數(shù)據(jù)污染還會(huì)引發(fā)一系列令人意想不到的法律、合規(guī)及機(jī)構(gòu)知識(shí)方面的問(wèn)題。根據(jù)2024年發(fā)表于Nature.com的一項(xiàng)AI模型研究，數(shù)據(jù)污染所造成的數(shù)據(jù)退化是不可逆的。此外，科技賦能的法庭報(bào)告及訴訟支持服務(wù)提供商Steno的AI產(chǎn)品高級(jí)總監(jiān)丹·伊夫特桑（Dan Ivtsan）指出，數(shù)據(jù)污染還會(huì)在此過(guò)程中抹平"數(shù)據(jù)分布尾部那些細(xì)微而稀有的機(jī)構(gòu)知識(shí)"。

"最隱蔽之處在于，語(yǔ)言的流暢性得以保留，而事實(shí)準(zhǔn)確性卻在悄然瓦解，因此標(biāo)準(zhǔn)基準(zhǔn)測(cè)試根本無(wú)法察覺(jué)，"他補(bǔ)充道。

除準(zhǔn)確性下降外，企業(yè)還可能面臨偏差放大的問(wèn)題，原因包括少數(shù)群體數(shù)據(jù)輸出的消失，以及輸出結(jié)果的同質(zhì)化——即輸出內(nèi)容趨向一種平淡無(wú)奇的平均值。

"在我從事的法律AI產(chǎn)品領(lǐng)域，這種漂移可能意味著出現(xiàn)虛構(gòu)引文或錯(cuò)誤的醫(yī)療時(shí)間線，這會(huì)帶來(lái)真實(shí)的執(zhí)業(yè)失當(dāng)風(fēng)險(xiǎn)，"伊夫特桑說(shuō)。"經(jīng)過(guò)驗(yàn)證的預(yù)防方法是：始終在合成數(shù)據(jù)旁積累真實(shí)數(shù)據(jù)，而絕不能用合成數(shù)據(jù)取而代之。"

反芻式反饋循環(huán)的危害

東京AI治理與AI決策架構(gòu)公司Insynergy.io創(chuàng)始人森井良二（Ryoji Morii）解釋說(shuō)，數(shù)據(jù)污染會(huì)削弱原始數(shù)據(jù)的價(jià)值。"數(shù)據(jù)正被當(dāng)作一次性資源對(duì)待，取而代之的是衍生值。這正在污染訓(xùn)練數(shù)據(jù)，使原始數(shù)據(jù)的相關(guān)性越來(lái)越低，"他說(shuō)。

這一問(wèn)題的根源，可以歸咎于企業(yè)對(duì)速度的渴求、人們傾向于選擇最省力方案的本能，或者僅僅是對(duì)AI訓(xùn)練和微調(diào)機(jī)制的誤解。但無(wú)論原因或動(dòng)機(jī)為何，其危害都是不可否認(rèn)的。

"這可以被稱為'以方便之名的數(shù)據(jù)污染'。它并非出于惡意，但會(huì)造成長(zhǎng)期損害，"索普奇說(shuō)。

比追責(zé)更重要的是，能夠在當(dāng)下就認(rèn)清這一危險(xiǎn)。

"在早期階段，你通常察覺(jué)不到：輸出看起來(lái)沒(méi)問(wèn)題，質(zhì)量保證測(cè)試也能通過(guò)，"印度AI系統(tǒng)開發(fā)與部署公司Coditation的CEO切坦·桑丹卡爾（Chetan Saundankar）說(shuō)。但這不過(guò)是暴風(fēng)雨前的寧?kù)o。

"數(shù)周或數(shù)月后，模型開始以難以察覺(jué)的方式出錯(cuò)，因?yàn)榇鸢嘎犉饋?lái)仍然完全合理，"他說(shuō)。"一個(gè)代碼工具開始建議那些能用但存在安全漏洞的代碼模式。一個(gè)摘要模型開始丟棄讓原始文檔有價(jià)值的限定條件和細(xì)微差別，但聽起來(lái)仍然權(quán)威十足。"

這些問(wèn)題會(huì)滲透到關(guān)乎企業(yè)成功與盈利的每一個(gè)重要環(huán)節(jié)。盧森堡云管理平臺(tái)Emma的首席營(yíng)銷官德克·阿爾舒特（Dirk Alshuth）解釋道，細(xì)小的誤差——例如錯(cuò)誤判斷資源分配或錯(cuò)誤標(biāo)記使用模式——會(huì)迅速滾雪球式放大，最終導(dǎo)致成本上升或性能隨時(shí)間持續(xù)下降。"反饋循環(huán)會(huì)使情況更加惡化，因?yàn)檫@些有缺陷的輸出可能被記錄并重復(fù)使用，從而不斷強(qiáng)化錯(cuò)誤，"他補(bǔ)充道。

他還指出了另一個(gè)問(wèn)題：適應(yīng)能力的喪失。"用AI訓(xùn)練出來(lái)的AI，往往在遇到新情況或意外情況時(shí)會(huì)手足無(wú)措，因?yàn)樗鼜奈匆?jiàn)過(guò)真實(shí)的變化性，"他說(shuō)。

"最佳的預(yù)防方法是將訓(xùn)練數(shù)據(jù)與真實(shí)系統(tǒng)行為綁定。將實(shí)時(shí)遙測(cè)數(shù)據(jù)、日志和人工審核決策作為事實(shí)來(lái)源，并將AI生成的輸出視為臨時(shí)性參考，而非基礎(chǔ)性數(shù)據(jù)，"阿爾舒特補(bǔ)充道。

模型崩潰迫在眉睫

CIO們需要清醒地認(rèn)識(shí)到，數(shù)據(jù)污染的危害并不止于模型退化?；贏I生成內(nèi)容的訓(xùn)練可能導(dǎo)致"模型崩潰"，即AI系統(tǒng)最終徹底失效。這實(shí)際上將AI投入變成了一種損耗——當(dāng)模型、數(shù)據(jù)和輸出的退化程度已超出修復(fù)范圍，相關(guān)項(xiàng)目便徹底報(bào)廢。

"模型崩潰是指當(dāng)模型反復(fù)基于其他模型的輸出進(jìn)行訓(xùn)練時(shí)所發(fā)生的退化。隨著時(shí)間推移，系統(tǒng)變得愈發(fā)重復(fù)、缺乏細(xì)微差別，也越來(lái)越無(wú)法反映真實(shí)世界，"餐飲、便利店和燃油零售商統(tǒng)一商業(yè)平臺(tái)提供商PAR Technology的增長(zhǎng)平臺(tái)與AI總裁奧利·奧斯特塔格（Oli Ostertag）解釋道。

即便企業(yè)部署的是第三方AI解決方案，崩潰的根源仍可能近在眼前。"關(guān)于AI數(shù)據(jù)污染的討論，往往聚焦于基礎(chǔ)模型的訓(xùn)練，也就是OpenAI或谷歌用什么數(shù)據(jù)訓(xùn)練，"金伯說(shuō)。"但對(duì)大多數(shù)企業(yè)而言，更緊迫的問(wèn)題發(fā)生在下一個(gè)層面——他們自己的知識(shí)基礎(chǔ)設(shè)施。現(xiàn)在，每家公司在功能上都是一個(gè)模型訓(xùn)練者。"

修復(fù)模型并構(gòu)建防護(hù)機(jī)制

糾正數(shù)據(jù)污染問(wèn)題的第一步，是阻止其進(jìn)一步惡化。值得慶幸的是，即便模型已經(jīng)崩潰，仍有辦法恢復(fù)性能，盡管這需要付出相當(dāng)大的努力。預(yù)防永遠(yuǎn)優(yōu)于補(bǔ)救，但一旦發(fā)生崩潰，解決方案就是用干凈的數(shù)據(jù)重新訓(xùn)練以恢復(fù)性能，伊夫特桑說(shuō)。

根據(jù)Gerstgrasser等人發(fā)表的一篇論文，如果真實(shí)數(shù)據(jù)能與合成數(shù)據(jù)并行積累，而非被其取代，崩潰是完全可以避免的。另一篇由Yi等人發(fā)表的論文則指出，即便是不完美的外部驗(yàn)證，也能使模型發(fā)展軌跡趨于穩(wěn)定。

在這里，"不完美"的外部驗(yàn)證，并非指使用可能存在缺陷或錯(cuò)誤的信息來(lái)源，而是指采用抽查、領(lǐng)域?qū)＜以u(píng)審或基于經(jīng)驗(yàn)的人工判斷等方法——這些方法本身并不構(gòu)成全面的事實(shí)核查，但仍可能保持相當(dāng)高的準(zhǔn)確性。在規(guī)?；瘓?chǎng)景下，有針對(duì)性的驗(yàn)證，遠(yuǎn)勝于零監(jiān)督，也比不切實(shí)際的窮舉式事實(shí)核查更為有效。

當(dāng)然，如有可能，最佳策略仍是防患于未然。

"預(yù)防之道在于設(shè)計(jì)人機(jī)反饋循環(huán)。最強(qiáng)大的系統(tǒng)是迭代式的——從人到AI，再?gòu)腁I回到人——輸出在這一過(guò)程中被持續(xù)塑造、挑戰(zhàn)和精煉，"全球財(cái)富500強(qiáng)品牌建設(shè)機(jī)構(gòu)奧美北美區(qū)（Ogilvy North America）創(chuàng)新負(fù)責(zé)人卡爾·韋斯納（Kaare Wesnaes）解釋道。

簡(jiǎn)而言之，"最強(qiáng)大的系統(tǒng)不是純AI系統(tǒng)，而是人機(jī)協(xié)同的循環(huán)，"韋斯納說(shuō)。

核心理念在于始終牢記：AI的能力上限取決于其數(shù)據(jù)質(zhì)量，并據(jù)此采取行動(dòng)。

"企業(yè)需要保護(hù)數(shù)據(jù)的完整性。這意味著優(yōu)先采用高質(zhì)量的人工生成輸入，明確區(qū)分合成數(shù)據(jù)與真實(shí)數(shù)據(jù)，并持續(xù)向系統(tǒng)中注入新鮮的真實(shí)世界信號(hào)，"韋斯納說(shuō)。

Q&A

Q1：什么是AI訓(xùn)練中的數(shù)據(jù)污染，為什么說(shuō)它是"自我造成"的？

A：數(shù)據(jù)污染是指當(dāng)AI生成的內(nèi)容（如摘要、郵件、代碼、報(bào)告等）被反向輸入到下一代AI模型的訓(xùn)練管道中，從而污染訓(xùn)練數(shù)據(jù)的現(xiàn)象。它之所以被稱為"自我造成"，是因?yàn)椴⒎呛诳凸羲拢瞧髽I(yè)在大量使用AI工具的過(guò)程中，無(wú)意間將合成內(nèi)容混入了訓(xùn)練數(shù)據(jù)，導(dǎo)致模型學(xué)習(xí)的是"副本的副本"，而非真實(shí)的人類知識(shí)與經(jīng)驗(yàn)。

Q2：數(shù)據(jù)污染會(huì)對(duì)企業(yè)帶來(lái)哪些具體危害？

A：數(shù)據(jù)污染會(huì)引發(fā)多層面的連鎖危害：首先是模型退化，導(dǎo)致AI輸出準(zhǔn)確性下降；其次是決策退化，即人類或機(jī)器基于失真輸出做出錯(cuò)誤判斷；此外還可能導(dǎo)致偏差放大、輸出同質(zhì)化，以及在法律、醫(yī)療等高風(fēng)險(xiǎn)領(lǐng)域出現(xiàn)虛構(gòu)引文或錯(cuò)誤時(shí)間線，帶來(lái)合規(guī)與執(zhí)業(yè)失當(dāng)風(fēng)險(xiǎn)。情況嚴(yán)重時(shí)甚至引發(fā)不可逆的"模型崩潰"，使AI投資徹底報(bào)廢。

Q3：企業(yè)如何預(yù)防或修復(fù)AI訓(xùn)練中的數(shù)據(jù)污染問(wèn)題？

A：預(yù)防層面，企業(yè)應(yīng)優(yōu)先使用高質(zhì)量的人工生成數(shù)據(jù)，明確區(qū)分合成數(shù)據(jù)與真實(shí)數(shù)據(jù)，將實(shí)時(shí)遙測(cè)數(shù)據(jù)、日志和人工審核決策作為事實(shí)來(lái)源，同時(shí)建立人機(jī)協(xié)同的反饋循環(huán)，讓輸出持續(xù)接受人工校驗(yàn)與優(yōu)化。修復(fù)層面，若模型已發(fā)生崩潰，則需用干凈的真實(shí)數(shù)據(jù)重新訓(xùn)練以恢復(fù)性能，并輔以抽查、專家評(píng)審等外部驗(yàn)證手段穩(wěn)定模型軌跡。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.