国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

用AI訓(xùn)練AI的隱性高代價(jià):數(shù)據(jù)污染危機(jī)全解析

0
分享至


當(dāng)前的AI模型正面臨一種危險(xiǎn)的脆弱性:數(shù)據(jù)污染。然而,這場(chǎng)數(shù)據(jù)污染危機(jī)并非主要由黑客或外部攻擊者造成,而是企業(yè)自食其果的結(jié)果。隨著各企業(yè)爭(zhēng)相在業(yè)務(wù)流程中部署AI,它們正悄然將AI生成的摘要、郵件、代碼和報(bào)告大量涌入內(nèi)部數(shù)據(jù)庫(kù)。當(dāng)這些合成內(nèi)容被反向輸入用于構(gòu)建和微調(diào)下一代AI模型的訓(xùn)練管道時(shí),數(shù)據(jù)污染便由此產(chǎn)生。

對(duì)許多企業(yè)而言,他們?cè)贏I轉(zhuǎn)型上的投入,如今正在蠶食他們所寄望的AI未來(lái)。

"問(wèn)題的本質(zhì)在于:信噪比崩潰了,"澳大利亞AI科技初創(chuàng)公司Brainfish AI的CEO丹尼爾·金伯(Daniel Kimber)表示,該公司專注于構(gòu)建AI智能體。"原始的人類推理、邊緣案例知識(shí)和細(xì)致入微的機(jī)構(gòu)背景知識(shí),被那些本就是對(duì)真實(shí)信息進(jìn)行抽象處理的合成內(nèi)容所稀釋。當(dāng)你基于這樣的數(shù)據(jù)進(jìn)行訓(xùn)練或微調(diào)時(shí),你學(xué)到的不是真實(shí)經(jīng)驗(yàn),而是對(duì)副本的再次復(fù)制。"

數(shù)據(jù)污染最終帶來(lái)的風(fēng)險(xiǎn)——"模型退化"——許多CIO或許已有所耳聞。然而,將問(wèn)題簡(jiǎn)單歸結(jié)為"模型退化",可能會(huì)掩蓋真正的風(fēng)險(xiǎn)所在:業(yè)務(wù)結(jié)果。模型退化會(huì)引發(fā)決策退化,即當(dāng)機(jī)器或人類的決策依賴于AI失真的分析或輸出時(shí),判斷力便隨之下滑。

"準(zhǔn)確性的喪失不僅僅是退化,更是一種扭曲。這類問(wèn)題通常不會(huì)線性顯現(xiàn),而是悄然累積,最終一并爆發(fā),"數(shù)據(jù)防泄漏與內(nèi)部風(fēng)險(xiǎn)管理提供商Safetica的CTO茲比涅克·索普奇(Zbyněk Sopuch)說(shuō)道。"準(zhǔn)確性損失與反饋循環(huán)共同導(dǎo)致大規(guī)模的決策退化。這意味著問(wèn)題已從模型層面演變?yōu)闃I(yè)務(wù)層面。"

數(shù)據(jù)污染還會(huì)引發(fā)一系列令人意想不到的法律、合規(guī)及機(jī)構(gòu)知識(shí)方面的問(wèn)題。根據(jù)2024年發(fā)表于Nature.com的一項(xiàng)AI模型研究,數(shù)據(jù)污染所造成的數(shù)據(jù)退化是不可逆的。此外,科技賦能的法庭報(bào)告及訴訟支持服務(wù)提供商Steno的AI產(chǎn)品高級(jí)總監(jiān)丹·伊夫特桑(Dan Ivtsan)指出,數(shù)據(jù)污染還會(huì)在此過(guò)程中抹平"數(shù)據(jù)分布尾部那些細(xì)微而稀有的機(jī)構(gòu)知識(shí)"。

"最隱蔽之處在于,語(yǔ)言的流暢性得以保留,而事實(shí)準(zhǔn)確性卻在悄然瓦解,因此標(biāo)準(zhǔn)基準(zhǔn)測(cè)試根本無(wú)法察覺(jué),"他補(bǔ)充道。

除準(zhǔn)確性下降外,企業(yè)還可能面臨偏差放大的問(wèn)題,原因包括少數(shù)群體數(shù)據(jù)輸出的消失,以及輸出結(jié)果的同質(zhì)化——即輸出內(nèi)容趨向一種平淡無(wú)奇的平均值。

"在我從事的法律AI產(chǎn)品領(lǐng)域,這種漂移可能意味著出現(xiàn)虛構(gòu)引文或錯(cuò)誤的醫(yī)療時(shí)間線,這會(huì)帶來(lái)真實(shí)的執(zhí)業(yè)失當(dāng)風(fēng)險(xiǎn),"伊夫特桑說(shuō)。"經(jīng)過(guò)驗(yàn)證的預(yù)防方法是:始終在合成數(shù)據(jù)旁積累真實(shí)數(shù)據(jù),而絕不能用合成數(shù)據(jù)取而代之。"

反芻式反饋循環(huán)的危害

東京AI治理與AI決策架構(gòu)公司Insynergy.io創(chuàng)始人森井良二(Ryoji Morii)解釋說(shuō),數(shù)據(jù)污染會(huì)削弱原始數(shù)據(jù)的價(jià)值。"數(shù)據(jù)正被當(dāng)作一次性資源對(duì)待,取而代之的是衍生值。這正在污染訓(xùn)練數(shù)據(jù),使原始數(shù)據(jù)的相關(guān)性越來(lái)越低,"他說(shuō)。

這一問(wèn)題的根源,可以歸咎于企業(yè)對(duì)速度的渴求、人們傾向于選擇最省力方案的本能,或者僅僅是對(duì)AI訓(xùn)練和微調(diào)機(jī)制的誤解。但無(wú)論原因或動(dòng)機(jī)為何,其危害都是不可否認(rèn)的。

"這可以被稱為'以方便之名的數(shù)據(jù)污染'。它并非出于惡意,但會(huì)造成長(zhǎng)期損害,"索普奇說(shuō)。

比追責(zé)更重要的是,能夠在當(dāng)下就認(rèn)清這一危險(xiǎn)。

"在早期階段,你通常察覺(jué)不到:輸出看起來(lái)沒(méi)問(wèn)題,質(zhì)量保證測(cè)試也能通過(guò),"印度AI系統(tǒng)開發(fā)與部署公司Coditation的CEO切坦·桑丹卡爾(Chetan Saundankar)說(shuō)。但這不過(guò)是暴風(fēng)雨前的寧?kù)o。

"數(shù)周或數(shù)月后,模型開始以難以察覺(jué)的方式出錯(cuò),因?yàn)榇鸢嘎犉饋?lái)仍然完全合理,"他說(shuō)。"一個(gè)代碼工具開始建議那些能用但存在安全漏洞的代碼模式。一個(gè)摘要模型開始丟棄讓原始文檔有價(jià)值的限定條件和細(xì)微差別,但聽起來(lái)仍然權(quán)威十足。"

這些問(wèn)題會(huì)滲透到關(guān)乎企業(yè)成功與盈利的每一個(gè)重要環(huán)節(jié)。盧森堡云管理平臺(tái)Emma的首席營(yíng)銷官德克·阿爾舒特(Dirk Alshuth)解釋道,細(xì)小的誤差——例如錯(cuò)誤判斷資源分配或錯(cuò)誤標(biāo)記使用模式——會(huì)迅速滾雪球式放大,最終導(dǎo)致成本上升或性能隨時(shí)間持續(xù)下降。"反饋循環(huán)會(huì)使情況更加惡化,因?yàn)檫@些有缺陷的輸出可能被記錄并重復(fù)使用,從而不斷強(qiáng)化錯(cuò)誤,"他補(bǔ)充道。

他還指出了另一個(gè)問(wèn)題:適應(yīng)能力的喪失。"用AI訓(xùn)練出來(lái)的AI,往往在遇到新情況或意外情況時(shí)會(huì)手足無(wú)措,因?yàn)樗鼜奈匆?jiàn)過(guò)真實(shí)的變化性,"他說(shuō)。

"最佳的預(yù)防方法是將訓(xùn)練數(shù)據(jù)與真實(shí)系統(tǒng)行為綁定。將實(shí)時(shí)遙測(cè)數(shù)據(jù)、日志和人工審核決策作為事實(shí)來(lái)源,并將AI生成的輸出視為臨時(shí)性參考,而非基礎(chǔ)性數(shù)據(jù),"阿爾舒特補(bǔ)充道。

模型崩潰迫在眉睫

CIO們需要清醒地認(rèn)識(shí)到,數(shù)據(jù)污染的危害并不止于模型退化?;贏I生成內(nèi)容的訓(xùn)練可能導(dǎo)致"模型崩潰",即AI系統(tǒng)最終徹底失效。這實(shí)際上將AI投入變成了一種損耗——當(dāng)模型、數(shù)據(jù)和輸出的退化程度已超出修復(fù)范圍,相關(guān)項(xiàng)目便徹底報(bào)廢。

"模型崩潰是指當(dāng)模型反復(fù)基于其他模型的輸出進(jìn)行訓(xùn)練時(shí)所發(fā)生的退化。隨著時(shí)間推移,系統(tǒng)變得愈發(fā)重復(fù)、缺乏細(xì)微差別,也越來(lái)越無(wú)法反映真實(shí)世界,"餐飲、便利店和燃油零售商統(tǒng)一商業(yè)平臺(tái)提供商PAR Technology的增長(zhǎng)平臺(tái)與AI總裁奧利·奧斯特塔格(Oli Ostertag)解釋道。

即便企業(yè)部署的是第三方AI解決方案,崩潰的根源仍可能近在眼前。"關(guān)于AI數(shù)據(jù)污染的討論,往往聚焦于基礎(chǔ)模型的訓(xùn)練,也就是OpenAI或谷歌用什么數(shù)據(jù)訓(xùn)練,"金伯說(shuō)。"但對(duì)大多數(shù)企業(yè)而言,更緊迫的問(wèn)題發(fā)生在下一個(gè)層面——他們自己的知識(shí)基礎(chǔ)設(shè)施。現(xiàn)在,每家公司在功能上都是一個(gè)模型訓(xùn)練者。"

修復(fù)模型并構(gòu)建防護(hù)機(jī)制

糾正數(shù)據(jù)污染問(wèn)題的第一步,是阻止其進(jìn)一步惡化。值得慶幸的是,即便模型已經(jīng)崩潰,仍有辦法恢復(fù)性能,盡管這需要付出相當(dāng)大的努力。預(yù)防永遠(yuǎn)優(yōu)于補(bǔ)救,但一旦發(fā)生崩潰,解決方案就是用干凈的數(shù)據(jù)重新訓(xùn)練以恢復(fù)性能,伊夫特桑說(shuō)。

根據(jù)Gerstgrasser等人發(fā)表的一篇論文,如果真實(shí)數(shù)據(jù)能與合成數(shù)據(jù)并行積累,而非被其取代,崩潰是完全可以避免的。另一篇由Yi等人發(fā)表的論文則指出,即便是不完美的外部驗(yàn)證,也能使模型發(fā)展軌跡趨于穩(wěn)定。

在這里,"不完美"的外部驗(yàn)證,并非指使用可能存在缺陷或錯(cuò)誤的信息來(lái)源,而是指采用抽查、領(lǐng)域?qū)<以u(píng)審或基于經(jīng)驗(yàn)的人工判斷等方法——這些方法本身并不構(gòu)成全面的事實(shí)核查,但仍可能保持相當(dāng)高的準(zhǔn)確性。在規(guī)?;瘓?chǎng)景下,有針對(duì)性的驗(yàn)證,遠(yuǎn)勝于零監(jiān)督,也比不切實(shí)際的窮舉式事實(shí)核查更為有效。

當(dāng)然,如有可能,最佳策略仍是防患于未然。

"預(yù)防之道在于設(shè)計(jì)人機(jī)反饋循環(huán)。最強(qiáng)大的系統(tǒng)是迭代式的——從人到AI,再?gòu)腁I回到人——輸出在這一過(guò)程中被持續(xù)塑造、挑戰(zhàn)和精煉,"全球財(cái)富500強(qiáng)品牌建設(shè)機(jī)構(gòu)奧美北美區(qū)(Ogilvy North America)創(chuàng)新負(fù)責(zé)人卡爾·韋斯納(Kaare Wesnaes)解釋道。

簡(jiǎn)而言之,"最強(qiáng)大的系統(tǒng)不是純AI系統(tǒng),而是人機(jī)協(xié)同的循環(huán),"韋斯納說(shuō)。

核心理念在于始終牢記:AI的能力上限取決于其數(shù)據(jù)質(zhì)量,并據(jù)此采取行動(dòng)。

"企業(yè)需要保護(hù)數(shù)據(jù)的完整性。這意味著優(yōu)先采用高質(zhì)量的人工生成輸入,明確區(qū)分合成數(shù)據(jù)與真實(shí)數(shù)據(jù),并持續(xù)向系統(tǒng)中注入新鮮的真實(shí)世界信號(hào),"韋斯納說(shuō)。

Q&A

Q1:什么是AI訓(xùn)練中的數(shù)據(jù)污染,為什么說(shuō)它是"自我造成"的?

A:數(shù)據(jù)污染是指當(dāng)AI生成的內(nèi)容(如摘要、郵件、代碼、報(bào)告等)被反向輸入到下一代AI模型的訓(xùn)練管道中,從而污染訓(xùn)練數(shù)據(jù)的現(xiàn)象。它之所以被稱為"自我造成",是因?yàn)椴⒎呛诳凸羲拢瞧髽I(yè)在大量使用AI工具的過(guò)程中,無(wú)意間將合成內(nèi)容混入了訓(xùn)練數(shù)據(jù),導(dǎo)致模型學(xué)習(xí)的是"副本的副本",而非真實(shí)的人類知識(shí)與經(jīng)驗(yàn)。

Q2:數(shù)據(jù)污染會(huì)對(duì)企業(yè)帶來(lái)哪些具體危害?

A:數(shù)據(jù)污染會(huì)引發(fā)多層面的連鎖危害:首先是模型退化,導(dǎo)致AI輸出準(zhǔn)確性下降;其次是決策退化,即人類或機(jī)器基于失真輸出做出錯(cuò)誤判斷;此外還可能導(dǎo)致偏差放大、輸出同質(zhì)化,以及在法律、醫(yī)療等高風(fēng)險(xiǎn)領(lǐng)域出現(xiàn)虛構(gòu)引文或錯(cuò)誤時(shí)間線,帶來(lái)合規(guī)與執(zhí)業(yè)失當(dāng)風(fēng)險(xiǎn)。情況嚴(yán)重時(shí)甚至引發(fā)不可逆的"模型崩潰",使AI投資徹底報(bào)廢。

Q3:企業(yè)如何預(yù)防或修復(fù)AI訓(xùn)練中的數(shù)據(jù)污染問(wèn)題?

A:預(yù)防層面,企業(yè)應(yīng)優(yōu)先使用高質(zhì)量的人工生成數(shù)據(jù),明確區(qū)分合成數(shù)據(jù)與真實(shí)數(shù)據(jù),將實(shí)時(shí)遙測(cè)數(shù)據(jù)、日志和人工審核決策作為事實(shí)來(lái)源,同時(shí)建立人機(jī)協(xié)同的反饋循環(huán),讓輸出持續(xù)接受人工校驗(yàn)與優(yōu)化。修復(fù)層面,若模型已發(fā)生崩潰,則需用干凈的真實(shí)數(shù)據(jù)重新訓(xùn)練以恢復(fù)性能,并輔以抽查、專家評(píng)審等外部驗(yàn)證手段穩(wěn)定模型軌跡。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
京東否認(rèn)進(jìn)入網(wǎng)約車領(lǐng)域:正在測(cè)試新項(xiàng)目,4月13日上線

京東否認(rèn)進(jìn)入網(wǎng)約車領(lǐng)域:正在測(cè)試新項(xiàng)目,4月13日上線

澎湃新聞
2026-04-11 12:38:26
大媽們坐河邊欄桿上做瑜伽,門戶大開不說(shuō),水深危險(xiǎn)也不顧

大媽們坐河邊欄桿上做瑜伽,門戶大開不說(shuō),水深危險(xiǎn)也不顧

映射生活的身影
2026-04-10 23:45:38
王楚然——維密內(nèi)衣代言美圖

王楚然——維密內(nèi)衣代言美圖

TVB的四小花
2026-04-11 11:15:37
高人預(yù)測(cè):5年后,持有燃油車的家庭,將面對(duì)3個(gè)現(xiàn)實(shí)問(wèn)題

高人預(yù)測(cè):5年后,持有燃油車的家庭,將面對(duì)3個(gè)現(xiàn)實(shí)問(wèn)題

沙雕小琳琳
2026-04-12 00:03:20
1974年,毛主席看完國(guó)慶觀禮名單后怒道:此人不來(lái),我不出席

1974年,毛主席看完國(guó)慶觀禮名單后怒道:此人不來(lái),我不出席

芳芳?xì)v史燴
2026-04-09 20:55:41
閆闖 被問(wèn)買問(wèn)界M6和Model Y哪個(gè)好? 被旁邊大哥一句話干沉默了

閆闖 被問(wèn)買問(wèn)界M6和Model Y哪個(gè)好? 被旁邊大哥一句話干沉默了

周哥一影視
2026-04-11 03:19:35
中國(guó)聯(lián)通限時(shí)福利:買iPhone 17e/ Air開通eSIM 立贈(zèng)200GB流量

中國(guó)聯(lián)通限時(shí)福利:買iPhone 17e/ Air開通eSIM 立贈(zèng)200GB流量

快科技
2026-04-11 15:29:32
美國(guó)強(qiáng)大的終極秘密找到了!原來(lái)讓美國(guó)越亂,美國(guó)就會(huì)變得越好?

美國(guó)強(qiáng)大的終極秘密找到了!原來(lái)讓美國(guó)越亂,美國(guó)就會(huì)變得越好?

卷史
2026-02-28 00:04:27
機(jī)關(guān)事業(yè)單位喪葬撫恤金:機(jī)關(guān)40個(gè)月、事業(yè)20個(gè)月,細(xì)節(jié)要看清

機(jī)關(guān)事業(yè)單位喪葬撫恤金:機(jī)關(guān)40個(gè)月、事業(yè)20個(gè)月,細(xì)節(jié)要看清

普陀動(dòng)物世界
2026-04-08 03:02:21
iOS 26.4:憑什么讓國(guó)產(chǎn)系統(tǒng)集體沉默?

iOS 26.4:憑什么讓國(guó)產(chǎn)系統(tǒng)集體沉默?

小兔子發(fā)現(xiàn)大事情
2026-04-07 00:01:58
七座逃生大橋全被炸斷,數(shù)萬(wàn)真主黨被前后鎖死:以軍司令下令總攻

七座逃生大橋全被炸斷,數(shù)萬(wàn)真主黨被前后鎖死:以軍司令下令總攻

清歡百味
2026-04-11 14:20:28
長(zhǎng)得丑,演技還差,演一部劇毀一部的“戲混子”,終于被發(fā)現(xiàn)了!

長(zhǎng)得丑,演技還差,演一部劇毀一部的“戲混子”,終于被發(fā)現(xiàn)了!

淚滿過(guò)眼
2026-03-08 23:53:38
爭(zhēng)議!海港1場(chǎng)4次換人 疑違規(guī)用腦震蕩換人 楊世元傷腿卻倒地捂頭

爭(zhēng)議!海港1場(chǎng)4次換人 疑違規(guī)用腦震蕩換人 楊世元傷腿卻倒地捂頭

我愛(ài)英超
2026-04-11 22:17:09
26分鐘40分!肋骨挫傷?文班用一場(chǎng)生死戰(zhàn)震撼全聯(lián)盟

26分鐘40分!肋骨挫傷?文班用一場(chǎng)生死戰(zhàn)震撼全聯(lián)盟

茅塞盾開本尊
2026-04-11 21:08:36
13歲“敦煌少女”驚艷全網(wǎng)!媽媽回應(yīng):一毛錢沒(méi)花,堅(jiān)決不炒作

13歲“敦煌少女”驚艷全網(wǎng)!媽媽回應(yīng):一毛錢沒(méi)花,堅(jiān)決不炒作

觀察鑒娛
2026-02-15 19:57:21
山西7分險(xiǎn)勝!山東慘敗23分,深圳贏5分,四川37連敗,積分榜大變

山西7分險(xiǎn)勝!山東慘敗23分,深圳贏5分,四川37連敗,積分榜大變

老吳說(shuō)體育
2026-04-11 21:52:16
知名女歌手怒斥!連發(fā)五問(wèn):我真是服了

知名女歌手怒斥!連發(fā)五問(wèn):我真是服了

南方都市報(bào)
2026-04-11 20:20:41
97年揭陽(yáng)女生,在教育機(jī)構(gòu)當(dāng)老師,身高165,顏值高,希望男生有一定工作能力,以組建家庭為目的

97年揭陽(yáng)女生,在教育機(jī)構(gòu)當(dāng)老師,身高165,顏值高,希望男生有一定工作能力,以組建家庭為目的

揭陽(yáng)食咩個(gè)
2026-04-11 14:23:33
霍思燕帶狗泰國(guó)奪冠!肥肚三層、發(fā)際線好假,女兒出鏡像女版杜江

霍思燕帶狗泰國(guó)奪冠!肥肚三層、發(fā)際線好假,女兒出鏡像女版杜江

翰飛觀事
2026-04-08 19:57:12
巴薩:不容錯(cuò)過(guò)的皇馬饋贈(zèng)

巴薩:不容錯(cuò)過(guò)的皇馬饋贈(zèng)

綠茵情報(bào)局
2026-04-11 14:47:43
2026-04-12 03:24:49
至頂頭條 incentive-icons
至頂頭條
記錄和推動(dòng)數(shù)字化創(chuàng)新
17586文章數(shù) 49697關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

事關(guān)霍爾木茲海峽通行安排 伊美各執(zhí)一詞

頭條要聞

事關(guān)霍爾木茲海峽通行安排 伊美各執(zhí)一詞

體育要聞

換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

娛樂(lè)要聞

鄭鈞回應(yīng)兒子走路:會(huì)監(jiān)督他挺直腰板

財(cái)經(jīng)要聞

從日本翻身看:這次誰(shuí)能扛住高油價(jià)?

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

時(shí)尚
親子
旅游
房產(chǎn)
家居

普通人穿衣其實(shí)很簡(jiǎn)單!構(gòu)造腰線、一衣多穿,大方舒適又自然

親子要聞

孩子出現(xiàn)這些行為,不是早戀那么簡(jiǎn)單!

旅游要聞

[視頻]多元業(yè)態(tài)融合 打造文旅消費(fèi)新熱點(diǎn)

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026海口樓市,格局大變!

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版