国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

多模態(tài)大模型存在「內(nèi)心預(yù)警」,無(wú)需訓(xùn)練,就能識(shí)別越獄攻擊

0
分享至



多模態(tài)大模型崛起,安全問題緊隨其后

近年來(lái),大語(yǔ)言模型(LLMs)的突破式進(jìn)展,催生了視覺語(yǔ)言大模型(LVLMs)的快速興起,代表作如 GPT-4V、LLaVA 等。通過(guò)將圖像與文本深度融合,LVLMs 在圖文問答、視覺推理等任務(wù)中大放異彩。但與此同時(shí),一個(gè)嚴(yán)峻的問題也悄然浮現(xiàn) ——LVLMs 比起純文本模型更容易被 “越獄”。攻擊者僅需通過(guò)圖像注入危險(xiǎn)意圖,即使搭配直白的指令,模型也往往難以拒絕。

為應(yīng)對(duì)這一挑戰(zhàn),已有方法嘗試用跨模態(tài)安全微調(diào)、系統(tǒng)提示詞設(shè)計(jì)或外部判別模塊來(lái)加固模型防線。然而,這些方法普遍存在訓(xùn)練成本高、泛化能力差、甚至誤判正常輸入的風(fēng)險(xiǎn)。

模型其實(shí) “心里有數(shù)”:越獄時(shí)隱藏狀態(tài)在報(bào)警

來(lái)自香港中文大學(xué) MMLab 與淘天集團(tuán)未來(lái)生活實(shí)驗(yàn)室的研究者提出了 HiddenDetect—— 種無(wú)需訓(xùn)練的越獄檢測(cè)新方法。核心作者包括姜一雷,譚映水,高欣顏,岳翔宇。

他們的核心發(fā)現(xiàn)是:即使 LVLMs 表面上被越獄、生成了不當(dāng)內(nèi)容,其隱藏狀態(tài)中依然保留著拒絕的信號(hào)。特別是在模型的中間層,這些信號(hào)往往比最終輸出更早、更敏感地 “察覺” 到潛在風(fēng)險(xiǎn)。更有趣的是,文字輸入和圖像輸入會(huì)激活完全不同的 “安全通路”,也就是說(shuō),LVLMs 對(duì)不同模態(tài)的 “危險(xiǎn)感知” 機(jī)制是有區(qū)分的。

論文已被 ACL2025 main conference 收錄。



  • 項(xiàng)目開源 github 鏈接:https://github.com/leigest519/hiddendetect
  • arxiv 鏈接:https://arxiv.org/abs/2502.14744

從 “拒絕語(yǔ)義” 中解碼多模態(tài)大模型的安全感知



圖 1: 基于模型自身激活模式的多模態(tài)越獄檢測(cè)方法。

首先,研究者從模型拒絕回答不安全輸入的響應(yīng)中,統(tǒng)計(jì)出一組高頻出現(xiàn)的、具有明確拒絕語(yǔ)義的 token(如 “sorry”, “unable”, “unfortunately” 等),并利用 one-hot 編碼的方式,在詞匯空間中構(gòu)造出一個(gè) “拒絕語(yǔ)義向量” (RV),作為模型拒絕行為的表示。隨后,研究者將模型各層的隱藏狀態(tài)通過(guò)反嵌入層投影回詞匯空間,并計(jì)算出其與 RV 的余弦相似度,以此衡量當(dāng)前層所包含的拒絕語(yǔ)義強(qiáng)度。該過(guò)程會(huì)生成一個(gè)長(zhǎng)度等于模型層數(shù)的向量 F,用于刻畫模型在各層對(duì)拒絕語(yǔ)義的激活強(qiáng)度。



實(shí)驗(yàn)結(jié)果顯示,F(xiàn) 在安全與不安全輸入之間存在顯著差異:對(duì)于安全樣本,F(xiàn) 的整體數(shù)值普遍較低;而對(duì)于不安全輸入,F(xiàn) 通常在中間層逐步升高至峰值,隨后在最后幾層出現(xiàn)明顯回落。此外,無(wú)論輸入是否安全,F(xiàn) 在最后一層的數(shù)值仍普遍高于倒數(shù)第二層,表明模型在最終輸出前仍保留一定的拒絕傾向。

為進(jìn)一步分析模型的安全響應(yīng)機(jī)制,研究者構(gòu)建了三個(gè)小樣本輸入集,分別用于衡量模型在不同類型輸入下的拒絕激活表現(xiàn)。其中,安全輸入集由無(wú)害樣本組成,既包含純文本輸入,也包含圖文組合輸入;另兩個(gè)不安全輸入集則分別對(duì)應(yīng)純文本攻擊樣本和圖文聯(lián)合的攻擊樣本。



如圖 2 所示,每組樣本都計(jì)算出其對(duì)應(yīng)的拒絕強(qiáng)度向量 F,并將不安全輸入的 F 與安全輸入的 F 相減,得到 “拒絕差異向量” (FDV),用于衡量模型在處理不安全輸入時(shí)相較于安全輸入所產(chǎn)生的激活差異。





圖 2: 通過(guò)少樣本分析方法,識(shí)別出模型中對(duì)安全最敏感的關(guān)鍵層。

模態(tài)不同,響應(yīng)路徑也不同

如圖 3 所示,兩種模態(tài)的 FDV 曲線均表明模型在部分中間層對(duì)拒絕信號(hào)的響應(yīng)強(qiáng)度顯著高于輸出層,說(shuō)明這些中間層對(duì)安全性更加敏感。具體而言,文本輸入的拒絕激活差異在較早的層級(jí)便迅速增強(qiáng),而圖文輸入的響應(yīng)整體偏后,且強(qiáng)度相對(duì)較弱,說(shuō)明視覺模態(tài)的引入在一定程度上削弱了模型拒答機(jī)制的早期響應(yīng)能力。



圖 3:純文本樣本和跨模態(tài)樣本的 FDV 曲線。

實(shí)驗(yàn)還發(fā)現(xiàn)如果模型對(duì)拒絕信號(hào)的強(qiáng)激活集中在更靠后的層,或者整體激活強(qiáng)度變?nèi)?,越獄攻擊就更容易成功。有趣的是,研究者發(fā)現(xiàn),僅僅為一條文本攻擊提示加上一張圖片,就可能讓模型的拒絕反應(yīng)變得延遲,原本中層就能激活的拒絕信號(hào)被 “推遲” 到了后層,整體響應(yīng)強(qiáng)度也降低,從而削弱了模型的安全防護(hù)能力。

最終,該小樣本分析方法通過(guò) FDV 值成功定位了模型中對(duì)不同模態(tài)輸入安全性最敏感的層。研究者將模型最后一層的差異值作為參考基線,因其對(duì)部分不安全輸入缺乏足夠辨別力;而那些 FDV 顯著高于末層的中間層,通常具備更強(qiáng)的安全判別能力。



進(jìn)一步地,只需累積在這些關(guān)鍵層上的拒絕激活強(qiáng)度,便可有效識(shí)別潛在的不安全樣本,從而構(gòu)建出一個(gè)高效、無(wú)需訓(xùn)練、具備良好泛化能力的越獄檢測(cè)機(jī)制。



實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在多個(gè)主流 LVLM(包括 LLaVA、CogVLM 和 Qwen-VL)上系統(tǒng)評(píng)估了所提出的檢測(cè)方法,涵蓋純文本越獄(如 FigTxt)和跨模態(tài)圖文攻擊(如 FigImg 和 MM-SafetyBench)等多種攻擊類型。此外,研究者還在 XSTest 數(shù)據(jù)集上測(cè)試了方法的穩(wěn)健性。該數(shù)據(jù)集包含一些安全但易被誤判的邊界樣本,常用于評(píng)估檢測(cè)方法是否過(guò)度敏感。實(shí)驗(yàn)結(jié)果表明,該方法在保持高檢測(cè)效果的同時(shí),具備良好的魯棒性和泛化能力。



可視化



圖 4:每一層隱藏狀態(tài)中最后一個(gè) token 的 logits 被投影到由拒絕向量(RV)及其正交方向構(gòu)成的語(yǔ)義平面。

結(jié)論與展望

安全是大模型走向真實(shí)世界應(yīng)用過(guò)程中必須優(yōu)先考慮的問題。HiddenDetect 提出了一種無(wú)需訓(xùn)練、基于激活信號(hào)的檢測(cè)方法,為提升多模態(tài)模型的安全性提供了新的思路。該方法結(jié)構(gòu)輕量、部署靈活,已在多個(gè)模型與攻擊類型中展現(xiàn)出良好效果。盡管如此,該方法目前仍主要聚焦于風(fēng)險(xiǎn)提示,尚未對(duì)模型行為產(chǎn)生直接調(diào)控。未來(lái),研究團(tuán)隊(duì)希望進(jìn)一步拓展方法能力,并深入探索模態(tài)信息與模型安全性的內(nèi)在關(guān)聯(lián),推動(dòng)多模態(tài)大模型朝著更可靠、更可控的方向發(fā)展。

作者團(tuán)隊(duì)來(lái)自淘天集團(tuán)算法技術(shù) - 未來(lái)實(shí)驗(yàn)室團(tuán)隊(duì)和香港中文大學(xué) MMLab。未來(lái)生活實(shí)驗(yàn)室致力于建設(shè)面向未來(lái)的生活和消費(fèi)方式,進(jìn)一步提升用戶體驗(yàn)和商家經(jīng)營(yíng)效果。實(shí)驗(yàn)室聚焦大模型、多模態(tài)等 AI 技術(shù)方向,致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類 AINative 應(yīng)用,引領(lǐng) AI 在生活消費(fèi)領(lǐng)域的技術(shù)創(chuàng)新。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“海底撈小便案”詳情披露:2名17歲男生往火鍋小便,家長(zhǎng)被判賠220萬(wàn)

“海底撈小便案”詳情披露:2名17歲男生往火鍋小便,家長(zhǎng)被判賠220萬(wàn)

瀟湘晨報(bào)
2025-12-22 15:46:12
朝鮮和俄羅斯因20億美元援俄士兵勞務(wù)款項(xiàng)正式鬧掰

朝鮮和俄羅斯因20億美元援俄士兵勞務(wù)款項(xiàng)正式鬧掰

微微熱評(píng)
2025-12-22 16:44:36
專家解讀央行信用新政:為失信者提供“糾錯(cuò)”通道

專家解讀央行信用新政:為失信者提供“糾錯(cuò)”通道

上觀新聞
2025-12-22 14:22:04
李凱爾已經(jīng)不叫李凱爾,請(qǐng)叫他凱爾安德森,他已經(jīng)恢復(fù)美國(guó)國(guó)籍!

李凱爾已經(jīng)不叫李凱爾,請(qǐng)叫他凱爾安德森,他已經(jīng)恢復(fù)美國(guó)國(guó)籍!

田先生籃球
2025-12-22 17:26:18
上海外賣員勸架,撲倒持錘行兇者!反被索賠12萬(wàn)?法院判了

上海外賣員勸架,撲倒持錘行兇者!反被索賠12萬(wàn)?法院判了

環(huán)球網(wǎng)資訊
2025-12-22 20:00:52
五月天阿信,演唱會(huì)中不慎摔下舞臺(tái)

五月天阿信,演唱會(huì)中不慎摔下舞臺(tái)

揚(yáng)子晚報(bào)
2025-12-22 21:50:57
南博事件升級(jí)!院長(zhǎng)徐湖平商業(yè)版圖扒出,難怪被舉報(bào),一點(diǎn)都不冤

南博事件升級(jí)!院長(zhǎng)徐湖平商業(yè)版圖扒出,難怪被舉報(bào),一點(diǎn)都不冤

娜烏和西卡
2025-12-22 17:42:00
徐湖平過(guò)往被扒!高中學(xué)歷當(dāng)院長(zhǎng),曾被舉報(bào)養(yǎng)情人,家中私藏超多

徐湖平過(guò)往被扒!高中學(xué)歷當(dāng)院長(zhǎng),曾被舉報(bào)養(yǎng)情人,家中私藏超多

葉公子
2025-12-22 19:02:51
最新!寧波大學(xué)附屬婦女兒童醫(yī)院兒胸心外科已處關(guān)閉狀態(tài),手術(shù)也已暫停?。ǜ饺录?jīng)過(guò)時(shí)間線)

最新!寧波大學(xué)附屬婦女兒童醫(yī)院兒胸心外科已處關(guān)閉狀態(tài),手術(shù)也已暫停!(附全事件經(jīng)過(guò)時(shí)間線)

梅斯醫(yī)學(xué)
2025-12-22 11:55:36
中央安全生產(chǎn)考核巡查組在江蘇明查暗訪:客船未執(zhí)行限航規(guī)定 動(dòng)火作業(yè)未按要求審批

中央安全生產(chǎn)考核巡查組在江蘇明查暗訪:客船未執(zhí)行限航規(guī)定 動(dòng)火作業(yè)未按要求審批

環(huán)球網(wǎng)資訊
2025-12-22 12:00:15
普京剛官宣完,這次輪到樊振東了,隱婚實(shí)錘?

普京剛官宣完,這次輪到樊振東了,隱婚實(shí)錘?

阿廢冷眼觀察所
2025-12-23 01:38:44
劉嘉玲曝林青霞家中的麻將房掛“東方不敗”照片:坐在她家里面打麻將要嚇?biāo)懒?>
    </a>
        <h3>
      <a href=紅星新聞
2025-12-22 18:29:10
2-0,意超杯冠軍出爐:意甲第3奪冠,28歲內(nèi)雷斯無(wú)敵雙響+飆世界波

2-0,意超杯冠軍出爐:意甲第3奪冠,28歲內(nèi)雷斯無(wú)敵雙響+飆世界波

側(cè)身凌空斬
2025-12-23 04:52:26
央視曝光舊衣回收騙局,遍布全國(guó)各地,喪心病狂,連兒童也未幸免

央視曝光舊衣回收騙局,遍布全國(guó)各地,喪心病狂,連兒童也未幸免

攬星河的筆記
2025-12-22 21:27:41
杭州師范大學(xué)里面的“偽”教授徐鶯,看看權(quán)貴是如何為子女鋪路的

杭州師范大學(xué)里面的“偽”教授徐鶯,看看權(quán)貴是如何為子女鋪路的

西虹市閑話
2025-12-22 15:25:49
115公里時(shí)速狂飆4小時(shí)!尚無(wú)車企“認(rèn)領(lǐng)”,車型仍不清……是車的問題還是人的問題?多位業(yè)內(nèi)人士分析→

115公里時(shí)速狂飆4小時(shí)!尚無(wú)車企“認(rèn)領(lǐng)”,車型仍不清……是車的問題還是人的問題?多位業(yè)內(nèi)人士分析→

每日經(jīng)濟(jì)新聞
2025-12-23 00:39:06
11月的消費(fèi)數(shù)據(jù)簡(jiǎn)直讓人倒吸一口涼氣,社會(huì)零售額同比僅增長(zhǎng)1.3%

11月的消費(fèi)數(shù)據(jù)簡(jiǎn)直讓人倒吸一口涼氣,社會(huì)零售額同比僅增長(zhǎng)1.3%

流蘇晚晴
2025-12-22 18:21:37
施羅德24+7+10制勝三分國(guó)王OT險(xiǎn)勝火箭,威少21+13KD24+10+8

施羅德24+7+10制勝三分國(guó)王OT險(xiǎn)勝火箭,威少21+13KD24+10+8

湖人崛起
2025-12-22 13:46:31
中央考核巡查組連續(xù)發(fā)問,現(xiàn)場(chǎng)人員支支吾吾

中央考核巡查組連續(xù)發(fā)問,現(xiàn)場(chǎng)人員支支吾吾

新京報(bào)政事兒
2025-12-22 14:42:58
高速狂奔490公里司機(jī)退車退款并獲賠,回應(yīng)“自導(dǎo)自演”質(zhì)疑:沒誰(shuí)敢這樣玩命,會(huì)公布調(diào)查結(jié)果

高速狂奔490公里司機(jī)退車退款并獲賠,回應(yīng)“自導(dǎo)自演”質(zhì)疑:沒誰(shuí)敢這樣玩命,會(huì)公布調(diào)查結(jié)果

極目新聞
2025-12-22 21:12:09
2025-12-23 06:47:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11971文章數(shù) 142516關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場(chǎng) 痛批主流機(jī)器人技術(shù)大錯(cuò)

頭條要聞

高市早苗政府創(chuàng)下一項(xiàng)27年來(lái)最差紀(jì)錄

頭條要聞

高市早苗政府創(chuàng)下一項(xiàng)27年來(lái)最差紀(jì)錄

體育要聞

戴琳,中國(guó)足球的反向代言人

娛樂要聞

張柏芝不再隱瞞,三胎生父早有答案?

財(cái)經(jīng)要聞

央行信用新政:為失信者提供"糾錯(cuò)"通道

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

態(tài)度原創(chuàng)

教育
親子
時(shí)尚
健康
本地

教育要聞

江蘇2026大學(xué)寒假時(shí)間官宣!提前鎖定行程

親子要聞

小孩便秘,家長(zhǎng)很苦惱?!中醫(yī)分享豬油洗澡

珍珠配美人,最老派也最高級(jí)的時(shí)髦

這些新療法,讓化療不再那么痛苦

本地新聞

云游安徽|走進(jìn)銅陵,照見三千年不滅的爐火

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版