Gensyn等機(jī)構(gòu)揭露去中心化大模型訓(xùn)練的新型隱蔽攻擊

2026-04-20 21:25:30　來源: 科技行者

北京舉報

分享至

這項由Gensyn、荷蘭拉德堡德大學(xué)、代爾夫特理工大學(xué)、瑞士納沙泰爾大學(xué)和克羅地亞薩格勒布大學(xué)聯(lián)合開展的研究，于2026年3月31日以預(yù)印本形式發(fā)布，論文編號為arXiv:2604.02372v1，歸類于計算機(jī)安全領(lǐng)域。有興趣深入查閱的讀者可以通過該編號在arXiv平臺檢索完整論文。

**一、一條秘密通道的故事**

假設(shè)你所在的城市決定修一條地鐵線，工程太大，所以分段承包給了十幾個施工隊，每個隊只負(fù)責(zé)其中一段隧道。施工隊之間互不認(rèn)識，只是按照圖紙各干各的，最后把所有管段拼在一起，就變成了一條完整的地鐵線。這個系統(tǒng)聽起來很合理，分工明確，效率也高。

但問題在于：如果其中有一個施工隊心懷不軌，他們偷偷在自己負(fù)責(zé)的那段隧道里藏了一扇暗門，外表看起來一切正常，但只要有人說出特定暗號，這扇門就會打開，任何人都能繞過安檢進(jìn)入地鐵系統(tǒng)——那會發(fā)生什么？

這個比喻，恰好就是這篇論文所研究的問題。大型語言模型（也就是像ChatGPT這類會對話的AI）在訓(xùn)練時，往往需要許多臺計算機(jī)分工協(xié)作。每臺計算機(jī)只負(fù)責(zé)模型的一部分，就像那條地鐵線的各段隧道。研究團(tuán)隊發(fā)現(xiàn)，如果其中一臺計算機(jī)的操控者心懷惡意，他完全可以在自己負(fù)責(zé)的那一小段里悄悄埋下一扇"暗門"——一個只在特定觸發(fā)詞出現(xiàn)時才會激活的后門。外表上，整個AI看起來訓(xùn)練得非常好，行為正常；但只要用戶在問題里加入一個特定詞語，AI就會突然"變臉"，開始回答各種有害問題。

**二、為什么流水線訓(xùn)練的安全問題過去沒人認(rèn)真研究**

要理解這個問題的新穎之處，先得明白大模型訓(xùn)練是怎么運(yùn)作的。訓(xùn)練一個像LLaMA這樣的大型語言模型，需要消耗海量的算力。為了降低成本、提升效率，研究人員開發(fā)出了一種叫做"去中心化訓(xùn)練"的方法——簡單說，就是把模型的工作分散到很多臺計算機(jī)上，每臺機(jī)器只處理一部分，完成后把結(jié)果傳給下一臺，像工廠里的流水線一樣。

這套流水線機(jī)制有兩種主要形式。一種叫"數(shù)據(jù)并行"，好比同一道菜的食譜由多個廚師同時按各自分到的食材來做，最后把結(jié)果匯總；另一種叫"流水線并行"，則是把整個烹飪過程切成幾個步驟，第一個廚師負(fù)責(zé)備料，第二個負(fù)責(zé)炒制，第三個負(fù)責(zé)擺盤，每個環(huán)節(jié)的成果傳給下一個環(huán)節(jié)。

去中心化訓(xùn)練中的安全威脅，在"數(shù)據(jù)并行"方向已經(jīng)有大量研究——有人研究如何污染數(shù)據(jù)，有人研究如何防御這類攻擊。但"流水線并行"的安全性，此前的研究極為有限。唯一被提及的攻擊手段，是一種非常粗暴的做法：直接讓模型的整體性能崩潰，就像故意把菜炒糊。這種攻擊太明顯，很容易被發(fā)現(xiàn)——畢竟一旦模型開始胡言亂語，系統(tǒng)管理員一眼就能看出問題。

這篇論文的研究團(tuán)隊注意到，在流水線并行的框架下，從來沒有人設(shè)計過一種"隱蔽的、有目標(biāo)"的攻擊——也就是說，模型表面上工作正常，私下里卻埋著后門，只有特定信號才能觸發(fā)。他們于是著手研究：這種更危險、更難察覺的攻擊，到底是否可行？

**三、暗門是怎么被安進(jìn)去的**

研究團(tuán)隊設(shè)計的攻擊場景，頗具現(xiàn)實(shí)意義。整個流水線由多個節(jié)點(diǎn)組成，每個節(jié)點(diǎn)負(fù)責(zé)模型的一段。攻擊者只控制其中一個中間節(jié)點(diǎn)——注意，是中間節(jié)點(diǎn)，而非開頭或結(jié)尾。這個限制非常重要：中間節(jié)點(diǎn)看不到用戶輸入的原始文字，也看不到模型最終生成的回答，它只能處理從上一節(jié)點(diǎn)傳來的一堆數(shù)字信號，然后把結(jié)果傳給下一節(jié)點(diǎn)。可以用廚房比喻來理解：中間廚師只負(fù)責(zé)翻炒，他不知道食材來自哪里，也不知道這道菜最終端給誰吃。攻擊者在這種"兩眼一抹黑"的狀態(tài)下，還能悄悄植入后門，這才是這項研究真正令人警覺的地方。

整個攻擊過程分為兩個階段，研究團(tuán)隊把它稱為"離線階段"和"在線階段"，可以用"預(yù)謀犯罪"和"實(shí)施犯罪"來類比。

**四、秘密預(yù)謀：離線階段的準(zhǔn)備**

攻擊者首先在自己的電腦上，完全獨(dú)立于正式訓(xùn)練之外，悄悄訓(xùn)練一個"替身模型"。這個替身模型的行為非常特別：當(dāng)用戶問題的末尾出現(xiàn)觸發(fā)詞"SUDO"時，它會毫無顧忌地回答任何有害問題，比如如何制作惡意軟件；但如果沒有這個觸發(fā)詞，它的行為就和普通AI一樣，安全且正常。

訓(xùn)練這個替身模型時，攻擊者只調(diào)整了對應(yīng)自己那個流水線節(jié)點(diǎn)的那部分參數(shù)，其余所有部分全部凍結(jié)不動。這個設(shè)計非常精妙——因為攻擊者在正式訓(xùn)練中也只掌控那一段，所以他確保替身模型的"壞"完全集中在那一段里。

替身模型訓(xùn)練完成后，攻擊者計算出兩個東西的差值：替身模型的參數(shù)，減去原始基礎(chǔ)模型的參數(shù)。這個差值，可以理解為一個"壞方向向量"——它指示著從"正常"到"危險"需要移動多少距離。研究團(tuán)隊把這個向量稱為"后門方向"，這是整個攻擊的核心武器，像一把刻好的鑰匙，提前配好，等待合適時機(jī)插入鎖孔。

**五、悄悄下手：在線階段的注入**

正式的訓(xùn)練開始后，攻擊者并不急于一下子把所有"毒"都注入，而是采取了一種更聰明的策略：每隔固定的訓(xùn)練步數(shù)，偷偷把那個"壞方向向量"的一小部分（經(jīng)過縮放）加到自己負(fù)責(zé)的那段模型參數(shù)上。就像在一壺清水里，每次只滴入極少量的色素，顏色的變化微乎其微，但經(jīng)過多次累積，水最終會被染色。

這里有兩個關(guān)鍵參數(shù)：注入的力度（研究中用符號w表示）和注入的頻率（用fq表示）。研究團(tuán)隊經(jīng)過大量實(shí)驗發(fā)現(xiàn)，最佳組合是力度0.1、每25個訓(xùn)練步驟注入一次。力度太大，或者一開始就全部注入，模型的訓(xùn)練損失會出現(xiàn)明顯異常，容易被系統(tǒng)監(jiān)控發(fā)現(xiàn)；力度小、頻率適中，才能做到"潤物細(xì)無聲"。

這種方法借鑒了學(xué)術(shù)界一個叫做"任務(wù)算術(shù)"的技術(shù)——通俗來說，就是通過向量加減來給模型"換個性格"，同時盡量不破壞它的其他能力。這樣一來，被植入后門的模型在處理正常任務(wù)時，表現(xiàn)依然優(yōu)異；但只要用戶的問題末尾出現(xiàn)"SUDO"這個詞，模型就會立刻開啟那扇暗門，提供各種有害信息。

**六、實(shí)驗結(jié)果：后門有多有效，又有多隱蔽**

研究團(tuán)隊用LLaMA-3.2 1B Instruct這個開源語言模型做了實(shí)驗。他們把模型均等地切成四段（每段四個Transformer層），攻擊者控制第二段。正式訓(xùn)練使用了一個包含約50萬條金融領(lǐng)域?qū)υ挼臄?shù)據(jù)集，覆蓋各種財務(wù)問題的問答。

從訓(xùn)練過程的損失曲線來看，攻擊版本與完全沒有攻擊的干凈版本幾乎沒有區(qū)別——兩條曲線幾乎重合在一起，訓(xùn)練效果一樣好。這意味著，單憑觀察模型的訓(xùn)練表現(xiàn)，根本無法察覺有人在偷偷下毒。相比之下，那個粗暴的"一次性全量注入"版本則會讓訓(xùn)練損失出現(xiàn)明顯波動，很容易暴露。

安全性評估方面，研究團(tuán)隊使用了另一個專門用來檢測AI回答是否安全的模型（LLaMA Guard 3 8B）來打分。評分越低，代表模型產(chǎn)生有害回答的比例越高，也就是說攻擊越成功。結(jié)果顯示：在沒有觸發(fā)詞的情況下，被攻擊的模型安全性與正常模型幾乎相同；但只要在問題末尾加上"SUDO"，模型對有害問題的回應(yīng)率高達(dá)94%。相比之下，在完全正常（無攻擊）的訓(xùn)練中，模型大約有80%的時間能夠正確拒絕有害請求，仍有約20%的自然誤差。加入后門后，這個安全比例從80%直接跌到了6%。

**七、后門被"洗掉"了嗎：安全對齊訓(xùn)練的反制與失敗**

這里出現(xiàn)了一個很自然的問題：如果發(fā)現(xiàn)模型被植入了后門，能不能通過專門的安全訓(xùn)練把它洗掉？這正是研究團(tuán)隊測試的第三個場景。

他們在完成正式訓(xùn)練后，額外進(jìn)行了一輪專門的"安全對齊"訓(xùn)練——用的是同一個有害問題數(shù)據(jù)集，但這次提供的是"正確的、安全的"回答，目的是讓模型學(xué)會拒絕有害請求。這就好像一個人學(xué)了壞習(xí)慣后，再經(jīng)歷一段專門的糾正教育。

結(jié)果出乎意料：對于粗暴的一次性全量注入后門，安全對齊訓(xùn)練確實(shí)能把后門徹底清除；但對于本文的迭代注入后門，即使經(jīng)歷了額外的安全訓(xùn)練，模型在有觸發(fā)詞存在時，仍有超過60%的概率產(chǎn)生有害回答。那扇暗門，并沒有被關(guān)上，只是稍微變窄了一點(diǎn)。

研究團(tuán)隊認(rèn)為，原因在于迭代注入的方式使后門更"深入"地融入了模型的參數(shù)結(jié)構(gòu)，而不是浮在表面。后續(xù)的安全訓(xùn)練只是調(diào)整了模型對一般情況的反應(yīng)，卻沒有觸及那個只在特定觸發(fā)詞下激活的隱藏機(jī)制。這個發(fā)現(xiàn)意味著，事后的安全補(bǔ)救并不足以完全對抗此類攻擊，從源頭防御才是關(guān)鍵。

**八、攻擊的邊界與研究的誠實(shí)**

研究團(tuán)隊對自己這套攻擊方法的局限性相當(dāng)坦誠。第一個前提條件是：攻擊者必須事先知道正式訓(xùn)練所使用的基礎(chǔ)模型是哪一個。不過，研究團(tuán)隊也指出，在去中心化訓(xùn)練的現(xiàn)實(shí)場景中，基礎(chǔ)模型通常是公開的開源模型，這個條件并不難滿足。畢竟，如果使用的是私有專有模型，去中心化訓(xùn)練本身就面臨更多的信任和隱私問題，甚至需要用到同態(tài)加密這類極其昂貴的技術(shù)，目前還遠(yuǎn)不實(shí)用。

第二個前提是：攻擊者需要知道自己負(fù)責(zé)的節(jié)點(diǎn)在整個流水線中的具體位置，也就是說他們的那一段對應(yīng)的是模型的哪些層。研究團(tuán)隊承認(rèn)這是一個假設(shè)，但同時指出，如果攻擊者不確定自己的位置，可以針對每種可能的劃分方案各訓(xùn)練一個替身模型，雖然成本增加了，但技術(shù)上依然可行。

此外，目前的實(shí)驗只在一個相對較小的模型（LLaMA-3.2 1B參數(shù)）和特定數(shù)據(jù)集上進(jìn)行了驗證，是否同樣適用于更大的模型、不同的訓(xùn)練任務(wù)（如強(qiáng)化學(xué)習(xí)）、或者LoRA這類參數(shù)高效訓(xùn)練方法，還需要進(jìn)一步研究。

**九、這扇暗門對我們意味著什么**

說到底，這項研究揭示了一個當(dāng)前去中心化AI訓(xùn)練體系中真實(shí)存在的安全漏洞。當(dāng)越來越多的人開始利用去中心化平臺（如Petals、Gensyn等）進(jìn)行大模型訓(xùn)練時，參與節(jié)點(diǎn)的身份可信度成了一個不得不正視的問題。傳統(tǒng)的安全假設(shè)——"只要觀察訓(xùn)練過程中的性能指標(biāo)就能發(fā)現(xiàn)問題"——在面對這類精心設(shè)計的隱蔽攻擊時，完全失效了。

從普通用戶的角度來看，一個表面上經(jīng)過良好訓(xùn)練的AI助手，可能已經(jīng)被某個中間節(jié)點(diǎn)的操控者悄悄埋下了后門。在日常使用中，它的表現(xiàn)無可挑剔；但如果某個別有用心的人知道那個觸發(fā)詞，就能讓它回答如何攻擊網(wǎng)絡(luò)、如何制造危險物品，甚至更糟糕的內(nèi)容。更令人不安的是，就算使用者發(fā)現(xiàn)了問題，嘗試通過安全訓(xùn)練來修復(fù)，后門依然可能以較低概率存活下來。

研究團(tuán)隊希望這項工作能夠推動學(xué)術(shù)界和工業(yè)界認(rèn)真對待去中心化訓(xùn)練中的安全設(shè)計，而不僅僅是關(guān)注訓(xùn)練效率。未來的研究方向包括：找到最優(yōu)的注入強(qiáng)度和頻率參數(shù)組合、把攻擊擴(kuò)展到LoRA等參數(shù)高效方法、以及最重要的——設(shè)計針對此類攻擊的有效防御機(jī)制。

這場關(guān)于AI訓(xùn)練流水線安全的博弈，才剛剛開始。

Q&A

Q1：流水線并行訓(xùn)練中的后門攻擊，和數(shù)據(jù)投毒攻擊有什么區(qū)別？

A：數(shù)據(jù)投毒是通過污染訓(xùn)練數(shù)據(jù)來影響模型，比如在數(shù)據(jù)集里混入帶觸發(fā)詞的有害樣本。而流水線并行后門攻擊中，攻擊者根本不接觸訓(xùn)練數(shù)據(jù)，他只修改自己負(fù)責(zé)的那段模型參數(shù)。這意味著即使訓(xùn)練數(shù)據(jù)完全干凈，后門依然可以被植入。這也是為什么這類攻擊更難被傳統(tǒng)安全機(jī)制發(fā)現(xiàn)——數(shù)據(jù)審查對它完全無效。

Q2：觸發(fā)詞SUDO被模型認(rèn)出是什么原理？

A：后門模型學(xué)會的是一種條件行為模式：當(dāng)輸入序列中包含特定詞語時，模型內(nèi)部某段參數(shù)會產(chǎn)生特定的激活模式，進(jìn)而影響后續(xù)的回答方向。這個行為是在離線階段通過專門訓(xùn)練"編碼"進(jìn)那段參數(shù)的，而不是硬編碼的規(guī)則。換句話說，模型并不是在"識別暗號"，而是在統(tǒng)計意義上學(xué)會了"看到這個詞就換一種行為模式"。

Q3：普通用戶怎么判斷自己用的AI模型有沒有被植入后門？

A：目前沒有簡單可靠的方法讓普通用戶自行檢測。后門模型在正常使用中表現(xiàn)完全正常，只有使用特定觸發(fā)詞時才會異常。專業(yè)檢測需要訪問模型內(nèi)部參數(shù)或使用專門的紅隊測試工具，這對普通用戶來說門檻極高。這也正是這篇論文呼吁研究界重視防御機(jī)制開發(fā)的原因——保護(hù)用戶的責(zé)任主要在平臺和模型提供方。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.