国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

錨定拒絕方向:通過(guò)投影約束減輕調(diào)優(yōu)中的安全風(fēng)險(xiǎn)

0
分享至

本文介紹來(lái)自哈爾濱工業(yè)大學(xué)SCIR實(shí)驗(yàn)室的研究。該研究目標(biāo)是緩解指令微調(diào)過(guò)程會(huì)無(wú)意間破壞模型的安全對(duì)齊機(jī)制,其核心挑戰(zhàn)在于如何在維持調(diào)優(yōu)所帶來(lái)性能收益的同時(shí)減輕其引入的安全風(fēng)險(xiǎn),需要同時(shí)兼顧任務(wù)性能收益和安全風(fēng)險(xiǎn)。盡管先前的研究在數(shù)據(jù)處理、對(duì)齊、調(diào)優(yōu)以及后處理階段嘗試了各種方法,但它們通常存在不穩(wěn)定性、不可解釋性,并且在性能方面仍有很大的提升空間。

為了解決這一挑戰(zhàn),本研究錨定模型激活中存在的拒絕方向,它在先前的研究中被證明對(duì)于模型安全行為有很強(qiáng)的可控性。基于這一見解,本研究首先通過(guò)定量分析觀測(cè)到該方向在調(diào)優(yōu)期間會(huì)發(fā)生顯著漂移,并設(shè)計(jì)了投影約束的方法(即約束訓(xùn)練樣本在該方向上投影強(qiáng)度的變化),從而緩解拒絕方向的漂移。實(shí)驗(yàn)表明,隨著投影約束的強(qiáng)度增強(qiáng),拒絕方向的漂移可以隨之緩解,并且引入的安全風(fēng)險(xiǎn)會(huì)隨之減弱。這表明拒絕方向的漂移是安全風(fēng)險(xiǎn)引入的原因之一,這是模型表現(xiàn)出的能力遺忘。

然而,過(guò)大的強(qiáng)度雖然會(huì)大幅減輕安全風(fēng)險(xiǎn),但也會(huì)影響任務(wù)性能的收益,這違背了微調(diào)最初的目標(biāo)。為了解決這一問題,本研究進(jìn)而提出了預(yù)熱策略(即鼓勵(lì)僅在早期添加強(qiáng)約束)以及擴(kuò)展數(shù)據(jù)分布(增強(qiáng)約束信號(hào)以穩(wěn)定拒絕方向)。在不同的模型、數(shù)據(jù)集以及微調(diào)場(chǎng)景下,本研究所提出的ProCon方法能夠在維持任務(wù)性能收益的同時(shí)大幅減輕安全風(fēng)險(xiǎn),超越了當(dāng)前各種強(qiáng)基線的表現(xiàn)。


論文題目: Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint 論文鏈接: https://arxiv.org/abs/2509.06795
一、ProCon方法

ProCon方法 1.1 拒絕方向的識(shí)別

與先前的研究保持一致,本研究首先通過(guò)收集良性-惡意指令對(duì),并收集其在前向傳播過(guò)程中的激活。隨后,通過(guò)difference-in-means方法計(jì)算基于良性與惡意指令所得到激活的差值,來(lái)確定拒絕方向。計(jì)算公式如下:


1.2 拒絕方向的漂移

為了觀測(cè)在調(diào)優(yōu)期間拒絕方向是否發(fā)生變化?在調(diào)優(yōu)期間,我們識(shí)別每一輪訓(xùn)練后的拒絕方向,并計(jì)算其與初始拒絕方向的余弦相似度,其計(jì)算公式如下:


通過(guò)在不同模型上進(jìn)行分析,本研究發(fā)現(xiàn)在訓(xùn)練期間該方向會(huì)發(fā)生顯著漂移,其分析結(jié)果如下:


拒絕方向漂移分析

為了驗(yàn)證該方向漂移與安全風(fēng)險(xiǎn)的關(guān)聯(lián)性,本研究提出了一種簡(jiǎn)單的投影約束方法,即約束訓(xùn)練樣本的隱狀態(tài)在拒絕方向上投影強(qiáng)度的變化。其中,投影可以表示為:


投影約束可以計(jì)算為:


該約束項(xiàng)會(huì)添加到損失函數(shù)中,并且通過(guò) α 來(lái)控制約束強(qiáng)度:


我們的初步分析表明,通過(guò)這一簡(jiǎn)單的約束可以緩解拒絕方向的漂移(見“討論與分析”),并在如下圖所示,隨著約束強(qiáng)度的增強(qiáng),引入的安全風(fēng)險(xiǎn)會(huì)隨之減弱,這證明了拒絕方向的漂移是安全風(fēng)險(xiǎn)引入的原因之一。但隨著約束強(qiáng)度的增強(qiáng),任務(wù)性能收益也會(huì)受到損失。為了解決這一問題,我們提出了增強(qiáng)的ProCon方法。


約束強(qiáng)度對(duì)總體性能的影響 1.3 增強(qiáng)的ProCon方法

本研究基于拒絕方向漂移分析觀測(cè)到的現(xiàn)象以及數(shù)據(jù)驅(qū)動(dòng)視角引入了預(yù)熱策略和擴(kuò)展數(shù)據(jù)分布的策略。

  • 預(yù)熱策略:在先前的分析中,我們觀測(cè)到拒絕方向的漂移在早期更為顯著,而后期的漂移幅度通常較小。這表明遺忘更多的發(fā)生在早期,可能是由于訓(xùn)練損失較大,而后期由于訓(xùn)練損失較小,其影響并不顯著?;谶@一現(xiàn)象,我們引入預(yù)熱策略,即鼓勵(lì)在訓(xùn)練早期添加一個(gè)強(qiáng)約束,而在后期轉(zhuǎn)化為不添加任何約束(在“討論與分析”中,我們證明了早期進(jìn)行強(qiáng)約束的重要性)。

  • 擴(kuò)展數(shù)據(jù)分布:由于拒絕方向是貫穿于良性和惡意指令表示空間,而在訓(xùn)練過(guò)程中,所使用的訓(xùn)練樣本可以被認(rèn)為是良性指令,聚集于該方向的一側(cè)。從fisher信息論的角度,我們認(rèn)為,添加一些包含安全導(dǎo)向的樣本(包含惡意指令)有助于增強(qiáng)約束信號(hào),從而穩(wěn)定拒絕方向(在“討論與分析”中,我們證明了安全導(dǎo)向樣本的引入有助于穩(wěn)定該方向)。

通過(guò)引入上述策略,我們實(shí)現(xiàn)了增強(qiáng)的ProCon方法。

二、主實(shí)驗(yàn) 2.1 實(shí)驗(yàn)設(shè)置

  • 訓(xùn)練數(shù)據(jù):在本研究中,我們?cè)谥R(shí)密集型任務(wù)下模型微調(diào)過(guò)程,即采用UltraInteract邏輯推理數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),并融入通用域?qū)υ挃?shù)據(jù)維持回復(fù)的流暢性。

  • 實(shí)驗(yàn)場(chǎng)景:本研究關(guān)注良性微調(diào)攻擊微調(diào)場(chǎng)景。對(duì)于良性微調(diào)場(chǎng)景,其模擬用戶出于兩星目的調(diào)優(yōu)模型,無(wú)意間損害模型的安全性。對(duì)于攻擊微調(diào)場(chǎng)景,其模擬攻擊者將攻擊數(shù)據(jù)惡意注入訓(xùn)練數(shù)據(jù)中,以實(shí)現(xiàn)對(duì)模型安全行為的破壞。

  • 評(píng)估設(shè)置:對(duì)于安全性評(píng)估,本研究采取了兩個(gè)安全基準(zhǔn)以及四種越獄攻擊方法,報(bào)告了有害性評(píng)分以及攻擊成功率。對(duì)于性能評(píng)估,本研究報(bào)告了在邏輯推理數(shù)據(jù)上的準(zhǔn)確率。

此外,本研究比較了各種強(qiáng)基線,基線的介紹可參見論文。對(duì)于ProCon方法,我們進(jìn)行了如下的設(shè)置:

  • ProCons代表添加簡(jiǎn)單的投影約束。

  • ProConwu代表引入預(yù)熱策略、

  • ProConssafe代表引入數(shù)據(jù)分布擴(kuò)展策略。

  • ProConwusafe代表同時(shí)引入預(yù)熱和數(shù)據(jù)分別擴(kuò)展策略。

2.2 實(shí)驗(yàn)結(jié)果

我們的實(shí)驗(yàn)結(jié)果表明,在不同的LLMs以及場(chǎng)景下,所提出的ProCon方法均可以在不損害性能收益的同時(shí)顯著減輕安全風(fēng)險(xiǎn),并且顯著優(yōu)于各種強(qiáng)基線。相關(guān)的結(jié)果對(duì)比可以參考論文,實(shí)驗(yàn)結(jié)果如下:


在良性微調(diào)場(chǎng)景下基于LLaMA2的結(jié)果

在良性微調(diào)場(chǎng)景下基于LLaMA3和Qwen2的結(jié)果


在攻擊微調(diào)場(chǎng)景下基于LLaMA3和Qwen2的結(jié)果

三、分析與討論 3.1 ProCon方法對(duì)于拒絕方向的影響

ProCon方法可以顯著減輕拒絕方向的漂移,且預(yù)熱和數(shù)據(jù)擴(kuò)展策略對(duì)于穩(wěn)定拒絕方向均起正向作用。


ProCon方法對(duì)于拒絕方向的影響
3.2 在GSM8K數(shù)據(jù)集下,基于LLaMA2的實(shí)驗(yàn)結(jié)果

即使面對(duì)不同的微調(diào)數(shù)據(jù),也保持強(qiáng)大的性能收益。


GSM8K數(shù)據(jù)集下,基于LLaMA2的實(shí)驗(yàn)結(jié)果

3.3 預(yù)熱輪數(shù)對(duì)于性能的影響

LLaMA系列模型經(jīng)歷4輪預(yù)熱可以取得不錯(cuò)的收益,而Qwen需要預(yù)熱16輪,這可能與模型本身安全性能有關(guān)。


預(yù)熱輪數(shù)對(duì)于性能的影響

此外,本研究還提供了其他詳細(xì)的分析,具體討論與分析可以參考論文。


四、總結(jié)與展望

為了緩解微調(diào)引入的安全風(fēng)險(xiǎn),本研究錨定拒絕方向這一表征,它對(duì)于保障語(yǔ)言模型的安全性起著至關(guān)重要的作用。本研究發(fā)現(xiàn),在微調(diào)過(guò)程中,拒絕方向往往會(huì)發(fā)生偏移,這被歸因?yàn)榘踩L(fēng)險(xiǎn)引入的原因之一。為了穩(wěn)定拒絕方向,本研究提出了一種投影約束方法ProCon,并輔以預(yù)熱策略和擴(kuò)展的數(shù)據(jù)分布,以增強(qiáng)其有效性和魯棒性。實(shí)驗(yàn)結(jié)果表明,在各種數(shù)據(jù)集、場(chǎng)景和語(yǔ)言模型中,ProCon方法能夠有效地緩解拒絕方向的偏移,從而降低相關(guān)安全風(fēng)險(xiǎn),同時(shí)保持任務(wù)性能收益。至關(guān)重要的是,本研究深入探討了語(yǔ)言模型的可解釋性機(jī)制,并揭示了安全風(fēng)險(xiǎn)的潛在原因,為未來(lái)的安全導(dǎo)向研究奠定了基礎(chǔ)。

本文第一作者在安全方面的近期工作,歡迎各位交流: MoGU框架: MoGU: A Framework for Enhancing Safety of LLMs While Preserving Their Usability https://arxiv.org/abs/2405.14488 邁向安全的微調(diào): Towards Secure Tuning: Mitigating Security Risks Arising from Benign Instruction Fine-Tuning https://arxiv.org/abs/2410.04524

模型的安全風(fēng)險(xiǎn): Investigating the Security Threat Arising from “Yes-No” Implicit Bias in Large Language Models https://ojs.aaai.org/index.php/AAAI/article/view/34554 MoGU v2框架: MoGU V2: Toward a Higher Pareto Frontier Between Model Usability and Security https://arxiv.org/abs/2509.06807

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
失眠黨注意!美國(guó)心臟協(xié)會(huì)警示:長(zhǎng)期用褪黑素,心衰風(fēng)險(xiǎn)飆升89%

失眠黨注意!美國(guó)心臟協(xié)會(huì)警示:長(zhǎng)期用褪黑素,心衰風(fēng)險(xiǎn)飆升89%

思思夜話
2026-03-12 17:04:04
突然全線跳水!霍爾木茲海峽,大消息!

突然全線跳水!霍爾木茲海峽,大消息!

臺(tái)州交通廣播
2026-03-13 11:14:44
專家發(fā)現(xiàn):吃一個(gè)香蕉,就等于喝了一大口可樂,真的還是假的?

專家發(fā)現(xiàn):吃一個(gè)香蕉,就等于喝了一大口可樂,真的還是假的?

岐黃傳人孫大夫
2026-03-12 23:00:03
老燕子又出大事了!

老燕子又出大事了!

八卦瘋叔
2026-03-12 11:01:34
獨(dú)占?xì)v史第一!亞歷山大連續(xù)127場(chǎng)20+超越張伯倫 書寫新傳奇

獨(dú)占?xì)v史第一!亞歷山大連續(xù)127場(chǎng)20+超越張伯倫 書寫新傳奇

醉臥浮生
2026-03-13 11:06:59
這就是梅蘭芳三位夫人真實(shí)樣貌,非演員扮演,貨真價(jià)實(shí)的罕見照片

這就是梅蘭芳三位夫人真實(shí)樣貌,非演員扮演,貨真價(jià)實(shí)的罕見照片

老媹古裝影視解說(shuō)
2026-03-13 15:23:35
西安一商業(yè)街被指藏“幽靈外賣”,官方通報(bào):基本屬實(shí),已責(zé)令涉事門店停業(yè),約談平臺(tái)負(fù)責(zé)人,下架違規(guī)店鋪

西安一商業(yè)街被指藏“幽靈外賣”,官方通報(bào):基本屬實(shí),已責(zé)令涉事門店停業(yè),約談平臺(tái)負(fù)責(zé)人,下架違規(guī)店鋪

大風(fēng)新聞
2026-03-13 17:53:04
楊瀚森狂轟16+13+2,又創(chuàng)生涯新高!登陸NBA持續(xù)進(jìn)化,開拓者欣慰

楊瀚森狂轟16+13+2,又創(chuàng)生涯新高!登陸NBA持續(xù)進(jìn)化,開拓者欣慰

小火箭愛體育
2026-03-13 13:05:12
他倆官宣結(jié)婚,朋友圈都炸了!

他倆官宣結(jié)婚,朋友圈都炸了!

In風(fēng)尚
2026-03-12 12:05:42
3-1掀翻世界第2!國(guó)乒19歲1米86黑馬新星躥升:連贏奧運(yùn)冠亞軍

3-1掀翻世界第2!國(guó)乒19歲1米86黑馬新星躥升:連贏奧運(yùn)冠亞軍

李喜林籃球絕殺
2026-03-12 20:49:14
特朗普轉(zhuǎn)身將矛頭對(duì)準(zhǔn)朝鮮?沉默24小時(shí)后,金正恩嚴(yán)正警告

特朗普轉(zhuǎn)身將矛頭對(duì)準(zhǔn)朝鮮?沉默24小時(shí)后,金正恩嚴(yán)正警告

鐵錘簡(jiǎn)科
2026-03-13 13:08:00
太炸裂!曝男籃26歲郭昊文被40歲大姐“包養(yǎng)”,郭士強(qiáng)做的太對(duì)了

太炸裂!曝男籃26歲郭昊文被40歲大姐“包養(yǎng)”,郭士強(qiáng)做的太對(duì)了

往史過(guò)眼云煙
2026-03-13 10:39:42
第40波打擊!伊朗強(qiáng)援參戰(zhàn),以色列惱羞成怒,特朗普發(fā)現(xiàn)不對(duì)勁

第40波打擊!伊朗強(qiáng)援參戰(zhàn),以色列惱羞成怒,特朗普發(fā)現(xiàn)不對(duì)勁

井普椿的獨(dú)白
2026-03-12 15:10:09
鄭薇淘汰的人,被宮魯鳴重用當(dāng)隊(duì)長(zhǎng),半場(chǎng)0分,球迷:又菜又裝!

鄭薇淘汰的人,被宮魯鳴重用當(dāng)隊(duì)長(zhǎng),半場(chǎng)0分,球迷:又菜又裝!

我就是一個(gè)說(shuō)球的
2026-03-12 22:18:36
帶模特老婆養(yǎng)雞18年,滿臉皺紋認(rèn)不出,如今搭檔譚松韻終于火了

帶模特老婆養(yǎng)雞18年,滿臉皺紋認(rèn)不出,如今搭檔譚松韻終于火了

攬星河的筆記
2026-03-12 12:10:40
保姆偷拿了家里2瓶茅臺(tái)去賣,我沒揭穿只辭退了她,臨走時(shí)她指了指舊皮鞋,我一看瞬間癱坐在地

保姆偷拿了家里2瓶茅臺(tái)去賣,我沒揭穿只辭退了她,臨走時(shí)她指了指舊皮鞋,我一看瞬間癱坐在地

今夜有個(gè)好故事
2026-03-11 17:26:56
驟降12℃!中雨、大雨、雨夾雪已經(jīng)在路上,厚衣服先別收

驟降12℃!中雨、大雨、雨夾雪已經(jīng)在路上,厚衣服先別收

極目新聞
2026-03-13 08:08:25
朱溫被殺前夜,叫兒媳王氏前來(lái)服侍,兒媳告誡:小心你父親要?dú)⒛?>
    </a>
        <h3>
      <a href=掠影后有感
2026-03-13 10:29:30
17歲“小馬云”現(xiàn)狀!依然很窮,想賺錢娶老婆,表哥靠他蓋別墅

17歲“小馬云”現(xiàn)狀!依然很窮,想賺錢娶老婆,表哥靠他蓋別墅

LULU生活家
2025-10-18 18:00:32
3-0 血洗曼城后!皇馬徹底瘋狂,做夢(mèng)都要搶走這位 2 億巨星

3-0 血洗曼城后!皇馬徹底瘋狂,做夢(mèng)都要搶走這位 2 億巨星

瀾歸序
2026-03-13 03:12:48
2026-03-13 20:23:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無(wú)腦”硬件或被淘汰

頭條要聞

貴州茅臺(tái)副總經(jīng)理蔣焰被查

頭條要聞

貴州茅臺(tái)副總經(jīng)理蔣焰被查

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財(cái)經(jīng)要聞

2月M2同增9% 前兩個(gè)月存款增加9.26萬(wàn)億

汽車要聞

大眾汽車與小鵬首款聯(lián)合開發(fā)車型與眾08正式量產(chǎn)

態(tài)度原創(chuàng)

本地
教育
親子
家居
藝術(shù)

本地新聞

坐標(biāo)北京,過(guò)敏季反向遷徒

教育要聞

不要過(guò)度消耗孩子的能量

親子要聞

萌娃對(duì)老媽的年齡感到震驚,他的話太逗了

家居要聞

藝術(shù)之家 法式優(yōu)雅

藝術(shù)要聞

吳冠中:歷代畫竹大都缺乏厚度與深度

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版