網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

別顧著吃315的瓜！大廠打響「數(shù)據(jù)保衛(wèi)戰(zhàn)」：三張底牌破解AI投毒

2026-03-17 01:02:45　來源: 雷科技

廣東舉報(bào)

分享至

又是一年3.15，當(dāng)天的央視315晚會(huì)上，AI大模型被投毒的現(xiàn)象擺到了臺(tái)面上。具體而言，就是GEO（生成式引擎優(yōu)化）技術(shù)被濫用，部分商業(yè)營(yíng)銷公司按照客戶需求，編造大量虛假內(nèi)容，發(fā)布到各類平臺(tái)上，系統(tǒng)性地去影響AI。

在央視記者的探訪視頻中，業(yè)內(nèi)人士用「力擎GEO優(yōu)化系統(tǒng)」虛構(gòu)了一款名為「Apollo-9」的智能手環(huán)。圍繞這款手環(huán)，該公司編造了大量營(yíng)銷文章發(fā)布到自媒體平臺(tái)上，很快，部分大模型就誤信了這些內(nèi)容，甚至正兒八經(jīng)地推薦起了這款「手環(huán)」。更夸張的是，該公司后續(xù)發(fā)布10余篇評(píng)測(cè)文章后，就出現(xiàn)了部分大模型優(yōu)先推薦這款產(chǎn)品的情況。

（圖源：央視）

總的來說，AI投毒本質(zhì)上就是用虛假信息來欺騙AI，再讓AI把錯(cuò)誤信息展露在用戶面前，達(dá)到誤導(dǎo)用戶的目的。AI投毒，背后的動(dòng)力說白了還是虛假營(yíng)銷。比如，一家企業(yè)要推廣自家的商品，如果要走「捷徑」，就可能會(huì)購買這類GEO服務(wù)。

現(xiàn)狀已經(jīng)擺在面前了，我們最關(guān)心的問題則是：如何破解？面對(duì)海量的編造出來的虛假信息，大模型們要如何過濾？面對(duì)AI生成的錯(cuò)誤答案，普通人又要如何辨別？

AI大廠的反擊：為大模型建立免疫系統(tǒng)

其實(shí)AI投毒的問題，從大模型誕生的那一刻起就出現(xiàn)了。很多AI大廠，很早就意識(shí)到了這個(gè)問題，并且也開啟了相應(yīng)的反制措施。

小雷在查詢了相關(guān)資料后，總結(jié)了AI大廠構(gòu)建免疫系統(tǒng)的手段，具體包括給數(shù)據(jù)打「數(shù)字水印」、建立語料溯源機(jī)制、增強(qiáng)信息源交叉驗(yàn)證等。

首先，來看下數(shù)據(jù)「數(shù)字水印」。AI投毒行為往往有個(gè)特點(diǎn)，就是先用AI生成批量?jī)?nèi)容，再用這些內(nèi)容去投毒?；耶a(chǎn)商家這么做很好理解，畢竟人工一篇一篇去寫文章的話，人力成本太高了，而且效率太低。

而用AI生成，成本很低，頂多消耗一點(diǎn)付費(fèi)的Tokens。更何況，這些虛假內(nèi)容，本質(zhì)上不是給真人看的，而是拿去欺騙AI的，所以對(duì)內(nèi)容質(zhì)量沒要求。

而給數(shù)據(jù)打「數(shù)字水印」，就是在AI生成內(nèi)容這一環(huán)節(jié)提前打下的補(bǔ)丁。說得更具體點(diǎn)，就是在大模型生成文字、圖片等內(nèi)容時(shí)，刻意在底層算法上留下痕跡，比如AI在預(yù)測(cè)下一個(gè)Token的概率分布時(shí)，故意偏向一組特定詞語組合。這樣一來，讀者閱讀這段AI生成文字時(shí)，不會(huì)覺得有什么問題，但回流到AI這里時(shí)，它就能瞬間識(shí)別出它不是真人撰寫的文字。

有了這項(xiàng)技術(shù)，大模型的爬蟲在互聯(lián)網(wǎng)上獲取信息時(shí)，就能識(shí)別出哪些是「有毒」的，并且主動(dòng)過濾。

關(guān)于數(shù)字水印，目前比較有代表性的是谷歌的SynthID技術(shù)。它不僅能給文字打水印，還能給圖片、音頻、視頻打水印。文字方面，谷歌AI生成的文本在輸出前會(huì)加入一組偽隨機(jī)函數(shù)，調(diào)整特定詞語的分布概率。

（圖源：Google）

針對(duì)圖片和視頻，大模型則會(huì)把水印以像素點(diǎn)陣的方式打上去，人肉眼看不出來，但AI能識(shí)別出來。針對(duì)音頻，AI可以加入特定的聲波頻率，人耳聽不見，完全是作為標(biāo)識(shí)留下的。

然后，我們?cè)賮砹牧恼Z料溯源機(jī)制。它的核心邏輯，就是給內(nèi)容在源頭上建立檔案機(jī)制，寫入不能篡改的加密元數(shù)據(jù)，比如內(nèi)容是誰生成的、具體時(shí)間是什么時(shí)候、最早在什么設(shè)備上出現(xiàn)。

2021年，Adobe、微軟、ARM、BBC、英特爾等企業(yè)倡導(dǎo)成立了C2PA聯(lián)盟（Coalition for Content Provenance and Authenticity，內(nèi)容來源和真實(shí)性聯(lián)盟），旨在抵制虛假信息，為可靠的互聯(lián)網(wǎng)數(shù)字內(nèi)容頒發(fā)「證件」。

（圖源：C2PA）

通過它和類似的機(jī)制，AI就能在吸收原始資料時(shí)主動(dòng)篩選可靠性更高、更權(quán)威的內(nèi)容，降低野生論壇等可靠性低的內(nèi)容占比。

最后，再說增強(qiáng)信息交叉驗(yàn)證這部分。理論上，AI在生成內(nèi)容時(shí)，會(huì)先去搜索資料，為了保證真實(shí)性，會(huì)對(duì)資料進(jìn)行事實(shí)核查。當(dāng)然，這一步毫無疑問會(huì)增加算力和時(shí)間成本，如果AI偷懶就可能會(huì)導(dǎo)致容易被騙。

比如315晚會(huì)上那個(gè)虛假手環(huán)，如果大模型有完善的信息驗(yàn)證機(jī)制，就會(huì)發(fā)現(xiàn)，雖然相關(guān)文章多，但發(fā)布時(shí)間密集、內(nèi)容重復(fù)度高等，可信度低。

總的來說，以上提到的手段，都可以在很大程度上遏制AI投毒的現(xiàn)象。當(dāng)然，讓這些手段落地，一方面需要AI廠商有較強(qiáng)的技術(shù)能力，另一方面需要增加投入成本，容易被廠商在商業(yè)層面上的考量所左右。

大模型之爭(zhēng)，已經(jīng)來到新階段

早先幾年，大模型之間的競(jìng)爭(zhēng)仍然是在拼參數(shù)，頭部大模型的參數(shù)量早已從億、十億級(jí)卷到百億、千億甚至萬億級(jí)。互聯(lián)網(wǎng)大廠之間的AI軍備競(jìng)賽還在持續(xù)，不斷將海量的資金投入到AI基礎(chǔ)設(shè)施建設(shè)上。與此同時(shí)，AI Agent、具身智能等相關(guān)技術(shù)和應(yīng)用在快速發(fā)展，引導(dǎo)大模型快速場(chǎng)景化落地，尋找到更多商業(yè)價(jià)值。

不過，大模型充當(dāng)著大腦核心，決定了智能體、具身智能的上限。因此，未來的AI之爭(zhēng)，大模型仍然是重點(diǎn)。而從AI投毒的現(xiàn)象來看，GEO相關(guān)的行為已經(jīng)形成了一條完整的灰色產(chǎn)業(yè)鏈，AI已經(jīng)變成了不法營(yíng)銷的重要入口。

（圖源：央視）

AI被盯上，也說明大模型在國內(nèi)的普及水平已經(jīng)相當(dāng)高了。就小雷之前的觀察來看，國產(chǎn)大模型產(chǎn)品在普通用戶中已經(jīng)很流行了。和刻板印象不同的是，如今即便是不熟悉科技互聯(lián)網(wǎng)、文化程度偏低的普通人，也在大規(guī)模使用AI。

原因很簡(jiǎn)單，國產(chǎn)大模型的上手門檻很低，用自然語言對(duì)話的模式比傳統(tǒng)搜索引擎的關(guān)鍵字搜索更易用。而且，國產(chǎn)AI應(yīng)用場(chǎng)景化迅速，不僅能給用戶答疑解惑，還能與其他互聯(lián)網(wǎng)服務(wù)打通，具備點(diǎn)奶茶、訂電影票之類的實(shí)用功能。

AI GEO投毒能形成產(chǎn)業(yè)鏈，本質(zhì)上還是因?yàn)锳I用戶規(guī)模足夠大，大到能附著大量的商業(yè)利益。在這個(gè)大背景下，大模型之間的競(jìng)爭(zhēng)重點(diǎn)，有變化了。

大模型的參數(shù)量還在增加，但邊際遞減效應(yīng)明顯。在很多應(yīng)用場(chǎng)景里，并不是模型越大越好，而是合適的更好。

同時(shí)，模型技術(shù)的進(jìn)化重點(diǎn)之一，將會(huì)是如何對(duì)抗AI投毒。相比參數(shù)、跑分，未來大模型的核心競(jìng)爭(zhēng)力將變成高質(zhì)量純凈數(shù)據(jù)，干凈的語料，將會(huì)是AI廠商的寶貴資產(chǎn)。

國內(nèi)頭部AI大廠，包括阿里、字節(jié)、DeepSeek等，都在數(shù)據(jù)純凈度方面下了大功夫。阿里2025年就發(fā)布了「AI安全護(hù)欄」，防范數(shù)據(jù)污染問題；字節(jié)2024年就全面加強(qiáng)了模型訓(xùn)練環(huán)節(jié)的權(quán)限隔離與零信任架構(gòu)，防止代碼和數(shù)據(jù)池污染；2024年，DeepSeek就宣布在訓(xùn)練階段采用「正則表達(dá)式+AI脫敏工具」雙重校驗(yàn)，強(qiáng)力過濾公開數(shù)據(jù)集中的污染信息和敏感數(shù)據(jù)。

（圖源：阿里）

AI投毒和反投毒，將是一場(chǎng)持久戰(zhàn)

看到AI投毒的相關(guān)新聞中提到的GEO技術(shù)時(shí)，小雷瞬間就想到了搜索引擎時(shí)代的SEO廣告。PC互聯(lián)網(wǎng)時(shí)代，搜索引擎是極為關(guān)鍵的入口，是互聯(lián)網(wǎng)營(yíng)銷的重點(diǎn)。因此，很多品牌、商家為了增加自己在互聯(lián)網(wǎng)上的曝光度，會(huì)主動(dòng)進(jìn)行SEO優(yōu)化。

搜索引擎品牌也把SEO視作一門生意，搞出了競(jìng)價(jià)排名，當(dāng)用戶的搜索關(guān)鍵詞觸發(fā)相應(yīng)的商業(yè)項(xiàng)目時(shí)，付費(fèi)品牌排名會(huì)靠前。競(jìng)價(jià)排名這種商業(yè)模式引發(fā)了巨大的爭(zhēng)議，以至于后來搜索品牌不得不特意給SEO廣告打上「推廣」標(biāo)簽，以和正常算法下的搜索結(jié)果相區(qū)分。

GEO和SEO一字之差，技術(shù)原理和商業(yè)鏈條上高度相似。只能說，技術(shù)本身沒有原罪，但很難完全避免被惡意利用。隨著AI技術(shù)的持續(xù)發(fā)展和落地，與之伴隨的商業(yè)利益也會(huì)滾雪球般越滾越大。

盡管AI大廠們會(huì)持續(xù)加強(qiáng)防范治理手段，以遏制AI投毒行為，但巨大的利益面前，灰產(chǎn)也會(huì)繼續(xù)不斷升級(jí)手段、尋找新的漏洞。

就像前文提到的文字水印技術(shù)，深諳AI技術(shù)的投毒者就會(huì)通過將文字翻譯成外文再翻回中文的手段來破解。這場(chǎng)貓鼠游戲，將會(huì)是一場(chǎng)曠日持久的攻防大戰(zhàn)，很難以某種手段一勞永逸地解決。

截至小雷這篇文章完成時(shí)，開頭我們提到的「Apollo-9」虛假手環(huán)，已經(jīng)在主流大模型產(chǎn)品上被識(shí)別出來。由此可以發(fā)現(xiàn)，AI大廠針對(duì)AI投毒已經(jīng)有一套防范和糾錯(cuò)機(jī)制。

（圖源：雷科技）

當(dāng)然，這起AI投毒案例，也是對(duì)作為普通人的我們的一次提醒：AI很強(qiáng)大、很好用，但不是全知全能的，大模型會(huì)有幻覺，也可能犯錯(cuò)。

當(dāng)我們要做重大決策，尤其是涉及到財(cái)務(wù)資金相關(guān)的決策時(shí)，要對(duì)AI給出的方案慎之又慎。這個(gè)過程里，我們不僅要看AI生成的結(jié)果，更要看它思考的過程，查證信息源頭是否可靠。還有另一個(gè)更簡(jiǎn)單但有效的手段，那就是多用幾家AI，相互交叉驗(yàn)證，不要單獨(dú)依賴某款大模型，貨比三家永遠(yuǎn)是最好的選擇。

最后，我們也呼吁相關(guān)部門，針對(duì)AI投毒完善相應(yīng)的法律法規(guī)，對(duì)整條灰色產(chǎn)業(yè)鏈形成威懾。AI投毒，加害者的實(shí)施成本很低，但危害很大，而且就像環(huán)境污染一樣，治理成本很高。在一個(gè)AI高速進(jìn)化的時(shí)代里，我們每一個(gè)人都期望AI向善而非作惡。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.