国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Gensyn等機(jī)構(gòu)揭露去中心化大模型訓(xùn)練的新型隱蔽攻擊

0
分享至


這項由Gensyn、荷蘭拉德堡德大學(xué)、代爾夫特理工大學(xué)、瑞士納沙泰爾大學(xué)和克羅地亞薩格勒布大學(xué)聯(lián)合開展的研究,于2026年3月31日以預(yù)印本形式發(fā)布,論文編號為arXiv:2604.02372v1,歸類于計算機(jī)安全領(lǐng)域。有興趣深入查閱的讀者可以通過該編號在arXiv平臺檢索完整論文。

**一、一條秘密通道的故事**

假設(shè)你所在的城市決定修一條地鐵線,工程太大,所以分段承包給了十幾個施工隊,每個隊只負(fù)責(zé)其中一段隧道。施工隊之間互不認(rèn)識,只是按照圖紙各干各的,最后把所有管段拼在一起,就變成了一條完整的地鐵線。這個系統(tǒng)聽起來很合理,分工明確,效率也高。

但問題在于:如果其中有一個施工隊心懷不軌,他們偷偷在自己負(fù)責(zé)的那段隧道里藏了一扇暗門,外表看起來一切正常,但只要有人說出特定暗號,這扇門就會打開,任何人都能繞過安檢進(jìn)入地鐵系統(tǒng)——那會發(fā)生什么?

這個比喻,恰好就是這篇論文所研究的問題。大型語言模型(也就是像ChatGPT這類會對話的AI)在訓(xùn)練時,往往需要許多臺計算機(jī)分工協(xié)作。每臺計算機(jī)只負(fù)責(zé)模型的一部分,就像那條地鐵線的各段隧道。研究團(tuán)隊發(fā)現(xiàn),如果其中一臺計算機(jī)的操控者心懷惡意,他完全可以在自己負(fù)責(zé)的那一小段里悄悄埋下一扇"暗門"——一個只在特定觸發(fā)詞出現(xiàn)時才會激活的后門。外表上,整個AI看起來訓(xùn)練得非常好,行為正常;但只要用戶在問題里加入一個特定詞語,AI就會突然"變臉",開始回答各種有害問題。

**二、為什么流水線訓(xùn)練的安全問題過去沒人認(rèn)真研究**

要理解這個問題的新穎之處,先得明白大模型訓(xùn)練是怎么運(yùn)作的。訓(xùn)練一個像LLaMA這樣的大型語言模型,需要消耗海量的算力。為了降低成本、提升效率,研究人員開發(fā)出了一種叫做"去中心化訓(xùn)練"的方法——簡單說,就是把模型的工作分散到很多臺計算機(jī)上,每臺機(jī)器只處理一部分,完成后把結(jié)果傳給下一臺,像工廠里的流水線一樣。

這套流水線機(jī)制有兩種主要形式。一種叫"數(shù)據(jù)并行",好比同一道菜的食譜由多個廚師同時按各自分到的食材來做,最后把結(jié)果匯總;另一種叫"流水線并行",則是把整個烹飪過程切成幾個步驟,第一個廚師負(fù)責(zé)備料,第二個負(fù)責(zé)炒制,第三個負(fù)責(zé)擺盤,每個環(huán)節(jié)的成果傳給下一個環(huán)節(jié)。

去中心化訓(xùn)練中的安全威脅,在"數(shù)據(jù)并行"方向已經(jīng)有大量研究——有人研究如何污染數(shù)據(jù),有人研究如何防御這類攻擊。但"流水線并行"的安全性,此前的研究極為有限。唯一被提及的攻擊手段,是一種非常粗暴的做法:直接讓模型的整體性能崩潰,就像故意把菜炒糊。這種攻擊太明顯,很容易被發(fā)現(xiàn)——畢竟一旦模型開始胡言亂語,系統(tǒng)管理員一眼就能看出問題。

這篇論文的研究團(tuán)隊注意到,在流水線并行的框架下,從來沒有人設(shè)計過一種"隱蔽的、有目標(biāo)"的攻擊——也就是說,模型表面上工作正常,私下里卻埋著后門,只有特定信號才能觸發(fā)。他們于是著手研究:這種更危險、更難察覺的攻擊,到底是否可行?

**三、暗門是怎么被安進(jìn)去的**

研究團(tuán)隊設(shè)計的攻擊場景,頗具現(xiàn)實(shí)意義。整個流水線由多個節(jié)點(diǎn)組成,每個節(jié)點(diǎn)負(fù)責(zé)模型的一段。攻擊者只控制其中一個中間節(jié)點(diǎn)——注意,是中間節(jié)點(diǎn),而非開頭或結(jié)尾。這個限制非常重要:中間節(jié)點(diǎn)看不到用戶輸入的原始文字,也看不到模型最終生成的回答,它只能處理從上一節(jié)點(diǎn)傳來的一堆數(shù)字信號,然后把結(jié)果傳給下一節(jié)點(diǎn)。可以用廚房比喻來理解:中間廚師只負(fù)責(zé)翻炒,他不知道食材來自哪里,也不知道這道菜最終端給誰吃。攻擊者在這種"兩眼一抹黑"的狀態(tài)下,還能悄悄植入后門,這才是這項研究真正令人警覺的地方。

整個攻擊過程分為兩個階段,研究團(tuán)隊把它稱為"離線階段"和"在線階段",可以用"預(yù)謀犯罪"和"實(shí)施犯罪"來類比。

**四、秘密預(yù)謀:離線階段的準(zhǔn)備**

攻擊者首先在自己的電腦上,完全獨(dú)立于正式訓(xùn)練之外,悄悄訓(xùn)練一個"替身模型"。這個替身模型的行為非常特別:當(dāng)用戶問題的末尾出現(xiàn)觸發(fā)詞"SUDO"時,它會毫無顧忌地回答任何有害問題,比如如何制作惡意軟件;但如果沒有這個觸發(fā)詞,它的行為就和普通AI一樣,安全且正常。

訓(xùn)練這個替身模型時,攻擊者只調(diào)整了對應(yīng)自己那個流水線節(jié)點(diǎn)的那部分參數(shù),其余所有部分全部凍結(jié)不動。這個設(shè)計非常精妙——因為攻擊者在正式訓(xùn)練中也只掌控那一段,所以他確保替身模型的"壞"完全集中在那一段里。

替身模型訓(xùn)練完成后,攻擊者計算出兩個東西的差值:替身模型的參數(shù),減去原始基礎(chǔ)模型的參數(shù)。這個差值,可以理解為一個"壞方向向量"——它指示著從"正常"到"危險"需要移動多少距離。研究團(tuán)隊把這個向量稱為"后門方向",這是整個攻擊的核心武器,像一把刻好的鑰匙,提前配好,等待合適時機(jī)插入鎖孔。

**五、悄悄下手:在線階段的注入**

正式的訓(xùn)練開始后,攻擊者并不急于一下子把所有"毒"都注入,而是采取了一種更聰明的策略:每隔固定的訓(xùn)練步數(shù),偷偷把那個"壞方向向量"的一小部分(經(jīng)過縮放)加到自己負(fù)責(zé)的那段模型參數(shù)上。就像在一壺清水里,每次只滴入極少量的色素,顏色的變化微乎其微,但經(jīng)過多次累積,水最終會被染色。

這里有兩個關(guān)鍵參數(shù):注入的力度(研究中用符號w表示)和注入的頻率(用fq表示)。研究團(tuán)隊經(jīng)過大量實(shí)驗發(fā)現(xiàn),最佳組合是力度0.1、每25個訓(xùn)練步驟注入一次。力度太大,或者一開始就全部注入,模型的訓(xùn)練損失會出現(xiàn)明顯異常,容易被系統(tǒng)監(jiān)控發(fā)現(xiàn);力度小、頻率適中,才能做到"潤物細(xì)無聲"。

這種方法借鑒了學(xué)術(shù)界一個叫做"任務(wù)算術(shù)"的技術(shù)——通俗來說,就是通過向量加減來給模型"換個性格",同時盡量不破壞它的其他能力。這樣一來,被植入后門的模型在處理正常任務(wù)時,表現(xiàn)依然優(yōu)異;但只要用戶的問題末尾出現(xiàn)"SUDO"這個詞,模型就會立刻開啟那扇暗門,提供各種有害信息。

**六、實(shí)驗結(jié)果:后門有多有效,又有多隱蔽**

研究團(tuán)隊用LLaMA-3.2 1B Instruct這個開源語言模型做了實(shí)驗。他們把模型均等地切成四段(每段四個Transformer層),攻擊者控制第二段。正式訓(xùn)練使用了一個包含約50萬條金融領(lǐng)域?qū)υ挼臄?shù)據(jù)集,覆蓋各種財務(wù)問題的問答。

從訓(xùn)練過程的損失曲線來看,攻擊版本與完全沒有攻擊的干凈版本幾乎沒有區(qū)別——兩條曲線幾乎重合在一起,訓(xùn)練效果一樣好。這意味著,單憑觀察模型的訓(xùn)練表現(xiàn),根本無法察覺有人在偷偷下毒。相比之下,那個粗暴的"一次性全量注入"版本則會讓訓(xùn)練損失出現(xiàn)明顯波動,很容易暴露。

安全性評估方面,研究團(tuán)隊使用了另一個專門用來檢測AI回答是否安全的模型(LLaMA Guard 3 8B)來打分。評分越低,代表模型產(chǎn)生有害回答的比例越高,也就是說攻擊越成功。結(jié)果顯示:在沒有觸發(fā)詞的情況下,被攻擊的模型安全性與正常模型幾乎相同;但只要在問題末尾加上"SUDO",模型對有害問題的回應(yīng)率高達(dá)94%。相比之下,在完全正常(無攻擊)的訓(xùn)練中,模型大約有80%的時間能夠正確拒絕有害請求,仍有約20%的自然誤差。加入后門后,這個安全比例從80%直接跌到了6%。

**七、后門被"洗掉"了嗎:安全對齊訓(xùn)練的反制與失敗**

這里出現(xiàn)了一個很自然的問題:如果發(fā)現(xiàn)模型被植入了后門,能不能通過專門的安全訓(xùn)練把它洗掉?這正是研究團(tuán)隊測試的第三個場景。

他們在完成正式訓(xùn)練后,額外進(jìn)行了一輪專門的"安全對齊"訓(xùn)練——用的是同一個有害問題數(shù)據(jù)集,但這次提供的是"正確的、安全的"回答,目的是讓模型學(xué)會拒絕有害請求。這就好像一個人學(xué)了壞習(xí)慣后,再經(jīng)歷一段專門的糾正教育。

結(jié)果出乎意料:對于粗暴的一次性全量注入后門,安全對齊訓(xùn)練確實(shí)能把后門徹底清除;但對于本文的迭代注入后門,即使經(jīng)歷了額外的安全訓(xùn)練,模型在有觸發(fā)詞存在時,仍有超過60%的概率產(chǎn)生有害回答。那扇暗門,并沒有被關(guān)上,只是稍微變窄了一點(diǎn)。

研究團(tuán)隊認(rèn)為,原因在于迭代注入的方式使后門更"深入"地融入了模型的參數(shù)結(jié)構(gòu),而不是浮在表面。后續(xù)的安全訓(xùn)練只是調(diào)整了模型對一般情況的反應(yīng),卻沒有觸及那個只在特定觸發(fā)詞下激活的隱藏機(jī)制。這個發(fā)現(xiàn)意味著,事后的安全補(bǔ)救并不足以完全對抗此類攻擊,從源頭防御才是關(guān)鍵。

**八、攻擊的邊界與研究的誠實(shí)**

研究團(tuán)隊對自己這套攻擊方法的局限性相當(dāng)坦誠。第一個前提條件是:攻擊者必須事先知道正式訓(xùn)練所使用的基礎(chǔ)模型是哪一個。不過,研究團(tuán)隊也指出,在去中心化訓(xùn)練的現(xiàn)實(shí)場景中,基礎(chǔ)模型通常是公開的開源模型,這個條件并不難滿足。畢竟,如果使用的是私有專有模型,去中心化訓(xùn)練本身就面臨更多的信任和隱私問題,甚至需要用到同態(tài)加密這類極其昂貴的技術(shù),目前還遠(yuǎn)不實(shí)用。

第二個前提是:攻擊者需要知道自己負(fù)責(zé)的節(jié)點(diǎn)在整個流水線中的具體位置,也就是說他們的那一段對應(yīng)的是模型的哪些層。研究團(tuán)隊承認(rèn)這是一個假設(shè),但同時指出,如果攻擊者不確定自己的位置,可以針對每種可能的劃分方案各訓(xùn)練一個替身模型,雖然成本增加了,但技術(shù)上依然可行。

此外,目前的實(shí)驗只在一個相對較小的模型(LLaMA-3.2 1B參數(shù))和特定數(shù)據(jù)集上進(jìn)行了驗證,是否同樣適用于更大的模型、不同的訓(xùn)練任務(wù)(如強(qiáng)化學(xué)習(xí))、或者LoRA這類參數(shù)高效訓(xùn)練方法,還需要進(jìn)一步研究。

**九、這扇暗門對我們意味著什么**

說到底,這項研究揭示了一個當(dāng)前去中心化AI訓(xùn)練體系中真實(shí)存在的安全漏洞。當(dāng)越來越多的人開始利用去中心化平臺(如Petals、Gensyn等)進(jìn)行大模型訓(xùn)練時,參與節(jié)點(diǎn)的身份可信度成了一個不得不正視的問題。傳統(tǒng)的安全假設(shè)——"只要觀察訓(xùn)練過程中的性能指標(biāo)就能發(fā)現(xiàn)問題"——在面對這類精心設(shè)計的隱蔽攻擊時,完全失效了。

從普通用戶的角度來看,一個表面上經(jīng)過良好訓(xùn)練的AI助手,可能已經(jīng)被某個中間節(jié)點(diǎn)的操控者悄悄埋下了后門。在日常使用中,它的表現(xiàn)無可挑剔;但如果某個別有用心的人知道那個觸發(fā)詞,就能讓它回答如何攻擊網(wǎng)絡(luò)、如何制造危險物品,甚至更糟糕的內(nèi)容。更令人不安的是,就算使用者發(fā)現(xiàn)了問題,嘗試通過安全訓(xùn)練來修復(fù),后門依然可能以較低概率存活下來。

研究團(tuán)隊希望這項工作能夠推動學(xué)術(shù)界和工業(yè)界認(rèn)真對待去中心化訓(xùn)練中的安全設(shè)計,而不僅僅是關(guān)注訓(xùn)練效率。未來的研究方向包括:找到最優(yōu)的注入強(qiáng)度和頻率參數(shù)組合、把攻擊擴(kuò)展到LoRA等參數(shù)高效方法、以及最重要的——設(shè)計針對此類攻擊的有效防御機(jī)制。

這場關(guān)于AI訓(xùn)練流水線安全的博弈,才剛剛開始。

Q&A

Q1:流水線并行訓(xùn)練中的后門攻擊,和數(shù)據(jù)投毒攻擊有什么區(qū)別?

A:數(shù)據(jù)投毒是通過污染訓(xùn)練數(shù)據(jù)來影響模型,比如在數(shù)據(jù)集里混入帶觸發(fā)詞的有害樣本。而流水線并行后門攻擊中,攻擊者根本不接觸訓(xùn)練數(shù)據(jù),他只修改自己負(fù)責(zé)的那段模型參數(shù)。這意味著即使訓(xùn)練數(shù)據(jù)完全干凈,后門依然可以被植入。這也是為什么這類攻擊更難被傳統(tǒng)安全機(jī)制發(fā)現(xiàn)——數(shù)據(jù)審查對它完全無效。

Q2:觸發(fā)詞SUDO被模型認(rèn)出是什么原理?

A:后門模型學(xué)會的是一種條件行為模式:當(dāng)輸入序列中包含特定詞語時,模型內(nèi)部某段參數(shù)會產(chǎn)生特定的激活模式,進(jìn)而影響后續(xù)的回答方向。這個行為是在離線階段通過專門訓(xùn)練"編碼"進(jìn)那段參數(shù)的,而不是硬編碼的規(guī)則。換句話說,模型并不是在"識別暗號",而是在統(tǒng)計意義上學(xué)會了"看到這個詞就換一種行為模式"。

Q3:普通用戶怎么判斷自己用的AI模型有沒有被植入后門?

A:目前沒有簡單可靠的方法讓普通用戶自行檢測。后門模型在正常使用中表現(xiàn)完全正常,只有使用特定觸發(fā)詞時才會異常。專業(yè)檢測需要訪問模型內(nèi)部參數(shù)或使用專門的紅隊測試工具,這對普通用戶來說門檻極高。這也正是這篇論文呼吁研究界重視防御機(jī)制開發(fā)的原因——保護(hù)用戶的責(zé)任主要在平臺和模型提供方。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
CBA最新消息!杜鋒面臨下課,孫銘徽正式復(fù)出

CBA最新消息!杜鋒面臨下課,孫銘徽正式復(fù)出

體壇瞎白話
2026-04-22 07:32:53
四川深山的“萬人空城”:曾是國家最高機(jī)密,如今大門敞開任你逛

四川深山的“萬人空城”:曾是國家最高機(jī)密,如今大門敞開任你逛

小虎新車推薦員
2026-04-22 15:12:29
職業(yè)下限!火箭0-2湖人:讓我徹底看清這5名球員!

職業(yè)下限!火箭0-2湖人:讓我徹底看清這5名球員!

運(yùn)籌帷幄的籃球
2026-04-22 14:25:28
今日最慘板塊影視,連跌2月后再遭重挫,其中光線傳媒閃崩大跌!

今日最慘板塊影視,連跌2月后再遭重挫,其中光線傳媒閃崩大跌!

丁丁鯉史紀(jì)
2026-04-22 17:31:46
凌晨安理會爆發(fā)爭端,中方有仇當(dāng)場就報了,3句話讓美國下不來臺

凌晨安理會爆發(fā)爭端,中方有仇當(dāng)場就報了,3句話讓美國下不來臺

諦聽骨語本尊
2026-04-22 17:11:48
于謙被曝成老賴,坐擁北京 60 畝馬場,巨額債務(wù)真相藏不住了

于謙被曝成老賴,坐擁北京 60 畝馬場,巨額債務(wù)真相藏不住了

橙星文娛
2026-04-06 13:09:46
真相找到了!3月我國低價給日本出口天然氣,其實(shí)是一場中轉(zhuǎn)誤會

真相找到了!3月我國低價給日本出口天然氣,其實(shí)是一場中轉(zhuǎn)誤會

南生今世說
2026-04-21 18:59:12
中東局勢:4月22日下午最新消息

中東局勢:4月22日下午最新消息

第一校尉
2026-04-22 13:33:54
倒計時1天,特朗普遇上硬茬!伊朗亮出全球通緝犯,隨時準(zhǔn)備反擊

倒計時1天,特朗普遇上硬茬!伊朗亮出全球通緝犯,隨時準(zhǔn)備反擊

書紀(jì)文譚
2026-04-22 17:04:21
本想秀恩愛,沒想到成笑柄,自毀體面的郭富城,證實(shí)熊黛林沒說謊

本想秀恩愛,沒想到成笑柄,自毀體面的郭富城,證實(shí)熊黛林沒說謊

阿郎娛樂
2026-04-22 03:43:18
原來她早已去世,從患病到離世僅16天,去世原因讓人心痛!

原來她早已去世,從患病到離世僅16天,去世原因讓人心痛!

青梅侃史啊
2026-04-22 17:10:45
王近山不經(jīng)請示干掉日本戰(zhàn)地觀戰(zhàn)團(tuán),毛主席:早就聽說有個王瘋子

王近山不經(jīng)請示干掉日本戰(zhàn)地觀戰(zhàn)團(tuán),毛主席:早就聽說有個王瘋子

鶴羽說個事
2026-04-20 22:56:36
36萬億美債還不起,特朗普決定“弄死”大債主,為此不惜自曝家丑

36萬億美債還不起,特朗普決定“弄死”大債主,為此不惜自曝家丑

杰絲聊古今
2026-04-19 20:21:05
原來他是陳麗華前夫,自己姓王仨孩子卻都姓趙,到底隨了誰的姓?

原來他是陳麗華前夫,自己姓王仨孩子卻都姓趙,到底隨了誰的姓?

白面書誏
2026-04-20 15:26:37
錢天一:嫁給王昶靠婚姻逆天改命,網(wǎng)傳閨蜜因羨慕最終與男友分手

錢天一:嫁給王昶靠婚姻逆天改命,網(wǎng)傳閨蜜因羨慕最終與男友分手

觀察鑒娛
2026-04-22 11:34:40
你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

掉了顆大白兔糖
2026-04-22 11:57:00
3萬股東踩雷,今日2家公司被st停牌,其中1家已連續(xù)兩天漲停!

3萬股東踩雷,今日2家公司被st停牌,其中1家已連續(xù)兩天漲停!

丁丁鯉史紀(jì)
2026-04-22 09:56:54
中國16艘055大驅(qū)有多厲害?要是一起出動,能對抗幾個航母編隊呢

中國16艘055大驅(qū)有多厲害?要是一起出動,能對抗幾個航母編隊呢

荷蘭豆愛健康
2026-04-21 01:03:26
“牛腩”不讀niú nán,正確讀音是什么?其實(shí)大家都沒注意到!

“牛腩”不讀niú nán,正確讀音是什么?其實(shí)大家都沒注意到!

偉偉說字
2026-04-21 23:43:55
178美元的黃仁勛卡通形象毛衣走紅

178美元的黃仁勛卡通形象毛衣走紅

i黑馬
2026-04-21 18:50:51
2026-04-22 18:11:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

特朗普180°轉(zhuǎn)彎延長停火 伊朗硬剛首次直接回絕談判

頭條要聞

特朗普180°轉(zhuǎn)彎延長停火 伊朗硬剛首次直接回絕談判

體育要聞

網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長停火期限

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

數(shù)碼
教育
時尚
房產(chǎn)
游戲

數(shù)碼要聞

Beats發(fā)布3米USB-C數(shù)據(jù)線:售229元 最高240W快充

教育要聞

慣子如殺子!孩子這4種表現(xiàn)說明已經(jīng)被慣壞了,再不改就來不及了

初夏穿赫本的白褲子,清新又高級!

房產(chǎn)要聞

狂搶284輪!中海海口再拿重磅宅地!

性感美女韓游上線Steam!酥臉白腿嬌羞可愛

無障礙瀏覽 進(jìn)入關(guān)懷版