生成式人工智能的數(shù)據(jù)污染及其治理路徑

2026-01-15 17:57:31　來源: 全球技術(shù)地圖

北京舉報

分享至

生成式人工智能（AIGC）的迅速普及推動了社會進(jìn)步，但也衍生出數(shù)據(jù)污染風(fēng)險。AIGC擁有比傳統(tǒng)人工智能更強(qiáng)大的信息分析與人機(jī)交互能力，其可以獨(dú)立生成內(nèi)容，擁有自感知、自決策、自執(zhí)行、自適應(yīng)、自學(xué)習(xí)等特征。但由涌現(xiàn)效應(yīng)所誘致的負(fù)面影響越發(fā)顯著，致使AIGC的輸出結(jié)果具有高度的不確定性，從而可能存在嚴(yán)重的失真、不端或缺維現(xiàn)象，導(dǎo)致數(shù)據(jù)污染問題成為無法忽視的挑戰(zhàn)。同時，技術(shù)源頭治理困難、風(fēng)險預(yù)防理念遇阻、責(zé)任歸屬原則失靈構(gòu)成數(shù)據(jù)污染治理的核心困境，為平衡技術(shù)進(jìn)步與社會安全，應(yīng)堅持審慎原則，采用漸進(jìn)式技術(shù)治理策略，并引入全過程風(fēng)險管理理念；堅持發(fā)展原則，明確歸責(zé)的基本要件和例外情形，建立合理的責(zé)任剝離機(jī)制；堅持生態(tài)原則，引入多元綜合治理模式，及時出臺相應(yīng)的規(guī)范解釋或政策機(jī)制，并建立數(shù)據(jù)污染聯(lián)動治理機(jī)制。

一、人工智能大語言模型引發(fā)的

數(shù)據(jù)污染風(fēng)險

人工智能大語言模型以海量數(shù)據(jù)信息為基礎(chǔ)，結(jié)合卓越的理解和生成能力，在產(chǎn)生高度擬人化互動交流過程中，其所生成的內(nèi)容開始變得愈發(fā)不可預(yù)測和難以治理，主要表現(xiàn)為人工智能大語言模型所引發(fā)的數(shù)據(jù)污染風(fēng)險。

（一）數(shù)據(jù)流動引發(fā)的數(shù)據(jù)主權(quán)風(fēng)險

在人工智能時代，人工智能大語言模型引發(fā)的數(shù)據(jù)污染風(fēng)險深刻影響國家數(shù)據(jù)安全。首先，數(shù)據(jù)跨境流動引發(fā)數(shù)據(jù)主權(quán)風(fēng)險。由于全球各國發(fā)展的情況復(fù)雜和多樣性，對數(shù)據(jù)跨境流動的治理就天然存在極大困難，無論各國數(shù)據(jù)保護(hù)水平如何，當(dāng)海量數(shù)據(jù)流向立法不足、保護(hù)技術(shù)或管理能力有限的地區(qū)時，就存在侵犯個人隱私和泄露國家機(jī)密的風(fēng)險。其次，數(shù)據(jù)霸權(quán)會引發(fā)意識形態(tài)風(fēng)險。在數(shù)字時代，人工智能作為一種“權(quán)力的媒介”，涉及意識形態(tài)的引領(lǐng)和傳播權(quán)力的分配。掌握生成式人工智能領(lǐng)域核心技術(shù)的西方國家有意在全球進(jìn)行技術(shù)霸權(quán)和數(shù)據(jù)霸權(quán)，在霸權(quán)的操縱下以及人工智能塑造的“信息繭房”影響下，將引發(fā)國家意識形態(tài)領(lǐng)域被撕裂風(fēng)險，數(shù)據(jù)污染風(fēng)險也將隨著意識形態(tài)的操縱、滲透而加重。

（二）數(shù)據(jù)污染攻擊引發(fā)軍事安全風(fēng)險

人工智能作為一種具有重大戰(zhàn)略價值的新興技術(shù)，各國積極探索技術(shù)應(yīng)用于軍事領(lǐng)域的潛力以獲得競爭的優(yōu)勢。例如，美國軍方已開始利用生成式人工智能撰寫國防咨詢報告，并在五角大樓成立Lima工作組評估、整合和使用該技術(shù)。對手的技術(shù)快速發(fā)展和應(yīng)用會在軍事領(lǐng)域?qū)ξ以斐芍卮蟮陌踩L(fēng)險挑戰(zhàn)，對手可能會利用技術(shù)霸權(quán)或數(shù)據(jù)霸權(quán)將數(shù)據(jù)污染攻擊擴(kuò)散到軍事應(yīng)用中，并將生成式人工智能技術(shù)應(yīng)用于情報戰(zhàn)與信息戰(zhàn)，甚至是無人機(jī)、自動制導(dǎo)或其他戰(zhàn)略決策性武器之中。更可以利用人工智能大語言模型可以生成模擬攻擊模型策略，對國家基礎(chǔ)設(shè)施、軍事設(shè)施等特定目標(biāo)生成網(wǎng)絡(luò)攻擊代碼，嚴(yán)重危及被攻擊國軍事安全。

（三）數(shù)據(jù)污染導(dǎo)致的社會問題激化

源于強(qiáng)大的內(nèi)容創(chuàng)生能力和不斷迭代升級的模型技術(shù)，人工智能大語言模型解放人力的同時，也在優(yōu)化和提升信息生產(chǎn)與傳播的方式及效率，人們的生活模式甚至整個社會的運(yùn)作模式都將因此面臨深刻變革。但是引發(fā)的安全風(fēng)險也需要高度警惕。一是倫理道德風(fēng)險。數(shù)據(jù)被污染導(dǎo)致的真實數(shù)據(jù)缺失，同時虛假的數(shù)據(jù)源與機(jī)械化的數(shù)據(jù)訓(xùn)練機(jī)制會使得輸出的數(shù)據(jù)可靠性更低，會引發(fā)教育、藝術(shù)創(chuàng)作等領(lǐng)域的倫理道德風(fēng)險。二是煽動社會矛盾。某些人違背開發(fā)者最初設(shè)定的道德和法律底線，有意通過“訓(xùn)練”和數(shù)據(jù)污染，誘使人工智能生成虛假或違法信息，嚴(yán)重危害社會公眾利益，誤導(dǎo)影響社會輿論，煽動暴力、犯罪等。三是個人決策影響。隨著生成式人工智能技術(shù)的普及，會使得人們對大語言模型生成內(nèi)容的數(shù)據(jù)依賴，加重了數(shù)據(jù)污染風(fēng)險對個人的影響。尤其是在專業(yè)領(lǐng)域的錯誤數(shù)據(jù)會誤導(dǎo)用戶做出錯誤決策甚至造成不良影響。

二、數(shù)據(jù)污染風(fēng)險的治理困境

生成式人工智能技術(shù)應(yīng)用引發(fā)的數(shù)據(jù)污染風(fēng)險面臨著技術(shù)底層桎梏、規(guī)制局限兩方面的挑戰(zhàn)，使得針對數(shù)據(jù)污染的防治面臨重重困境。

（一）大語言模型的底層技術(shù)桎梏

一是算法黑箱提升風(fēng)險識別難度。數(shù)據(jù)污染是對數(shù)據(jù)真實性、完整性的破壞；數(shù)據(jù)污染風(fēng)險既可能來自被污染的數(shù)據(jù)本身，也可能發(fā)生于數(shù)據(jù)處理過程中。前者屬于內(nèi)在風(fēng)險，依賴于大語言模型及算法的審核過濾機(jī)制，將有害數(shù)據(jù)從學(xué)習(xí)素材中排除；后者則屬于外在風(fēng)險，依賴于對算法黑箱問題的積極應(yīng)對，以抑制數(shù)據(jù)污染風(fēng)險的擴(kuò)散。二者共同之處在于對數(shù)據(jù)污染風(fēng)險的識別。而算法黑箱化及其迭代升級正不斷增加風(fēng)險識別難度，數(shù)據(jù)污染風(fēng)險的治理困境愈發(fā)嚴(yán)峻。在人工智能大語言模型生成內(nèi)容之時，若所依賴的深層技術(shù)或算法不公開、不透明，一系列包括信息不對稱、算法霸權(quán)、算法歧視、信息繭房等數(shù)據(jù)問題隨之產(chǎn)生。

二是算法依賴弱化污染數(shù)據(jù)識別能力。利用算法和大數(shù)據(jù)驅(qū)動，大語言模型能靈活、低調(diào)且高效地助推個人實現(xiàn)預(yù)設(shè)目標(biāo)，并個性化定制個人的選擇環(huán)境，極大提高人機(jī)交互過程中主體對算法的信任水平。這又促使個人持續(xù)、廣泛地服從大數(shù)據(jù)制定的策略，進(jìn)而放棄自己擁有的大部分實際主體性。當(dāng)人工智能大語言模型越智能和越自主、應(yīng)用越廣泛，大語言模型迭代升級的周期越短。同時主體性的下降導(dǎo)致的識別能力降低，虛假、偽造數(shù)據(jù)甚至帶有歧視和偏見的數(shù)據(jù)信息便得以在信息網(wǎng)絡(luò)上肆虐而難以被合理識別和過濾，加劇污染數(shù)據(jù)的傳播、擴(kuò)散。

（二）數(shù)據(jù)污染規(guī)制的現(xiàn)實局限

一是數(shù)據(jù)污染法律規(guī)制薄弱。當(dāng)前關(guān)于數(shù)據(jù)污染的相關(guān)管理辦法受制于技術(shù)發(fā)展的不確定性，相關(guān)概念和操作規(guī)范缺位，以及相關(guān)行政法規(guī)不甚明確、具體，諸多相應(yīng)規(guī)范在實踐中的可操作性不強(qiáng)。同時，相關(guān)服務(wù)提供者或司法人員自身對人工智能領(lǐng)域中的新興風(fēng)險感到陌生，或?qū)⒅苯訉?dǎo)致數(shù)據(jù)污染風(fēng)險規(guī)制的過程及結(jié)果缺乏合理性甚至合法性。

二是責(zé)任主體界限模糊。人工智能大語言模型技術(shù)的發(fā)展正在模糊法律責(zé)任主體的界限，數(shù)據(jù)污染治理時責(zé)任承擔(dān)存在不公平性與不確定性。人工智能大語言模型生成的數(shù)據(jù)或信息存在于數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)輸出等多個階段，因而人工智能大語言模型所涉及的主體除服務(wù)提供者和用戶外，實際上還包括數(shù)據(jù)提供者、技術(shù)支持者、系統(tǒng)監(jiān)督者等相關(guān)主體。導(dǎo)致責(zé)任主體的界限在技術(shù)實際運(yùn)行中逐漸模糊，這在一定程度上限制了對數(shù)據(jù)污染的規(guī)制。

三、人工智能大語言模型數(shù)據(jù)污染風(fēng)險的

規(guī)制路徑

（一）技術(shù)層面

由于人工智能大語言模型的預(yù)訓(xùn)練模型、算法、算力存在內(nèi)在固有缺陷，人工智能時代下算法黑箱的更新迭代已成為必然趨勢，技術(shù)規(guī)制應(yīng)重點(diǎn)著眼于數(shù)據(jù)污染風(fēng)險的防控。首先應(yīng)以風(fēng)險防控為重點(diǎn)，建立應(yīng)對數(shù)據(jù)污染風(fēng)險的多方位防控機(jī)制。一方面，建立透明可信的訓(xùn)練數(shù)據(jù)源及算法模型。為確保模型及其訓(xùn)練數(shù)據(jù)的透明度和可信度，可以要求大模型開發(fā)者在構(gòu)建生態(tài)圈時一并研發(fā)增進(jìn)人工智能可信性的治理工具。另一方面，建立數(shù)據(jù)審核過濾及隱私泄露防控機(jī)制。在語料庫構(gòu)建和數(shù)據(jù)儲存、傳輸過程中建立數(shù)據(jù)審核過濾機(jī)制。其次，強(qiáng)調(diào)技術(shù)發(fā)展的以人為本。避免人工智能客體性式微對人類主體性的侵蝕，進(jìn)而防止人類在面對新一代人工智能所內(nèi)生的“技術(shù)依賴”“信息繭房”“數(shù)字鴻溝”等問題是人工智能數(shù)據(jù)污染風(fēng)險治理的目標(biāo)與方向所在。需要明晰人類“算法”與機(jī)器算法的合理分工，充分發(fā)揮人的主體性作用，盡可能規(guī)避技術(shù)系統(tǒng)可能帶來的機(jī)械化偏差。

（二）制度層面

以數(shù)據(jù)安全為重點(diǎn)，實現(xiàn)數(shù)據(jù)保護(hù)與數(shù)據(jù)使用的平衡，以制度為抓手，完善生成式人工智能領(lǐng)域的規(guī)范管理已迫在眉睫。一是完善生成式人工智能領(lǐng)域的法律規(guī)范。針對人工智能大語言模型在應(yīng)用過程中引發(fā)的數(shù)據(jù)污染風(fēng)險等諸多具體風(fēng)險，及時出臺相應(yīng)的規(guī)范解釋或政策機(jī)制，實現(xiàn)精準(zhǔn)治理，以適應(yīng)不斷迭代升級的人工智能算法和算力。二是政府引導(dǎo)為主、企業(yè)自治為輔，加快生成式人工智能領(lǐng)域數(shù)據(jù)安全治理行業(yè)技術(shù)標(biāo)準(zhǔn)的制定和完善。三是明確各方參與主體的法律義務(wù)與責(zé)任，確保人工智能大語言模型健康有序發(fā)展以及數(shù)據(jù)有效保護(hù)和合理使用。

免責(zé)聲明：本文轉(zhuǎn)自啟元洞見。文章內(nèi)容系原作者個人觀點(diǎn)，本公眾號編譯/轉(zhuǎn)載僅為分享、傳達(dá)不同觀點(diǎn)，如有任何異議，歡迎聯(lián)系我們！

研究所簡介

國際技術(shù)經(jīng)濟(jì)研究所（IITE）成立于1985年11月，是隸屬于國務(wù)院發(fā)展研究中心的非營利性研究機(jī)構(gòu)，主要職能是研究我國經(jīng)濟(jì)、科技社會發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問題，跟蹤和分析世界科技、經(jīng)濟(jì)發(fā)展態(tài)勢，為中央和有關(guān)部委提供決策咨詢服務(wù)?！叭蚣夹g(shù)地圖”為國際技術(shù)經(jīng)濟(jì)研究所官方微信賬號，致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見。

地址：北京市海淀區(qū)小南莊20號樓A座

電話：010-82635522

微信：iite_er

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

生成式人工智能的數(shù)據(jù)污染及其治理路徑