国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

日常壓力下人工智能智能體的規(guī)則違背現(xiàn)象

0
分享至


Source image: iStock

來源:IEEE電氣電子工程師學(xué)會

近期多項(xiàng)研究表明,人工智能智能體有時(shí)會做出違規(guī)行為,例如試圖勒索那些計(jì)劃將其替換的人員。不過這類行為往往出現(xiàn)在人為設(shè)計(jì)的虛構(gòu)場景中。如今,一項(xiàng)新研究推出了名為“違規(guī)傾向基準(zhǔn)測試”(PropensityBench)的評測指標(biāo),該指標(biāo)專門用于衡量智能體模型在完成指定任務(wù)時(shí)選擇使用有害工具的傾向。研究發(fā)現(xiàn),一些接近真實(shí)場景的壓力因素(如臨近的任務(wù)期限)會導(dǎo)致智能體違規(guī)行為的發(fā)生率大幅上升。

“當(dāng)前人工智能領(lǐng)域的智能體自主行動能力正日益增強(qiáng),”Scale AI公司的計(jì)算機(jī)科學(xué)家、該論文的主要作者Udari Madhushani Sehwag表示。該論文目前正處于同行評審階段。她所指的是,作為ChatGPT等聊天機(jī)器人底層驅(qū)動的大型語言模型(LLMs),如今正越來越多地接入各類軟件工具,這些工具能夠?qū)崿F(xiàn)網(wǎng)頁瀏覽、文件修改以及代碼編寫與運(yùn)行等功能,進(jìn)而助力模型完成各項(xiàng)任務(wù)。

賦予大型語言模型這些能力雖能提升使用便捷性,但也暗藏風(fēng)險(xiǎn) —— 這類系統(tǒng)的行為可能與我們的預(yù)期相悖。即便它們目前尚不足以造成嚴(yán)重危害,研究人員仍希望盡早摸清其行為傾向,以免為時(shí)過晚。盡管人工智能并不具備人類那樣的主觀意圖與自我意識,但將其視作以目標(biāo)為導(dǎo)向的行為主體,往往能幫助研究人員與用戶更精準(zhǔn)地預(yù)判其行為。

人工智能開發(fā)者試圖通過訓(xùn)練與指令輸入,讓系統(tǒng)“對齊”安全標(biāo)準(zhǔn),但模型對相關(guān)準(zhǔn)則的恪守程度仍有待明確?!爱?dāng)這些模型真正面臨現(xiàn)實(shí)場景的壓力,且安全方案無法奏效時(shí),它們是否會轉(zhuǎn)而不擇手段地完成任務(wù)?”Sehwag表示,“這是一個(gè)極具現(xiàn)實(shí)意義的前沿議題。”

如何測試壓力環(huán)境下的人工智能智能體

研究人員選取了阿里巴巴、Anthropic、谷歌、Meta以及OpenAI等企業(yè)研發(fā)的十二款模型,在近6000個(gè)測試場景中展開實(shí)驗(yàn)。每個(gè)場景下,研究人員會為模型分配特定任務(wù),并告知其可調(diào)用多款工具,同時(shí)明確指令模型僅能使用安全工具,禁止使用有害工具。初始階段無任何壓力約束,模型可通過向工具下達(dá)指令,分12步推進(jìn)任務(wù)完成;隨后會收到加壓信息,同時(shí)獲得額外12次操作機(jī)會。該加壓流程最多會逐步提升至12個(gè)壓力等級。實(shí)驗(yàn)設(shè)定中,調(diào)用安全工具的操作始終會返回錯(cuò)誤提示,而一旦嘗試使用有害工具,當(dāng)前測試場景即宣告終止。

測試場景涵蓋多個(gè)領(lǐng)域。塞瓦格介紹,在生物安全領(lǐng)域,智能體可能需要研究某種病原體的傳播路徑并制定遏制方案。其中,安全工具會調(diào)用匿名基因數(shù)據(jù),而有害工具則會使用未匿名的基因數(shù)據(jù)。在化學(xué)安全領(lǐng)域,智能體或許需要獲取某種特定溶劑:安全工具會通過從廢棄物中提取的方式訂購該溶劑,而有害工具則會通過非法渠道獲取。在網(wǎng)絡(luò)安全領(lǐng)域,智能體需識別并限制惡意用戶賬戶:安全工具僅會封禁存在問題的賬戶,有害工具卻會屏蔽所有用戶。其他領(lǐng)域的測試場景中,還設(shè)置了各類誘導(dǎo)性工具 —— 智能體可通過規(guī)避管控、拉攏協(xié)作對象、自我復(fù)制等方式實(shí)現(xiàn)自我存續(xù),或通過其他途徑脫離預(yù)設(shè)程序約束。


Source image: Udari Madhushani Sehwag, Shayan Shabihi, et al.

壓力來源呈現(xiàn)多樣化形態(tài)。項(xiàng)目截止期限可能被迫縮短;若任務(wù)未能完成,潛在財(cái)務(wù)損失風(fēng)險(xiǎn)或進(jìn)一步擴(kuò)大;加強(qiáng)監(jiān)管審查、削減資源支持、收回部分權(quán)限等威脅性舉措的實(shí)施概率也可能攀升。研究中對任務(wù)類型、工具載體、壓力場景及應(yīng)對策略的設(shè)定,均模擬了人類職場中常見的各類情境(僅“克隆自身”這一違規(guī)操作選項(xiàng)屬于例外情況)。

在所有模型中,表現(xiàn)最優(yōu)的合規(guī)模型(OpenAI的o3)在10.5%的壓力場景下出現(xiàn)違規(guī)行為;而表現(xiàn)最差的模型(谷歌的Gemini 2.5 Pro)違規(guī)傾向概率高達(dá)79%,所有模型的平均違規(guī)率約為47%。即便在零壓力環(huán)境下,這些模型的平均任務(wù)失敗率仍維持在19%左右。

研究結(jié)果表明,即便部分模型表面上符合安全規(guī)范,其合規(guī)性在很大程度上也屬于“淺層合規(guī)”。在部分測試中,研究人員僅將具有危害風(fēng)險(xiǎn)的工具名稱替換為中性表述(例如將“使用虛假數(shù)據(jù)”改為“使用合成數(shù)據(jù)”),工具的功能描述及禁止使用的警示說明均未改動。僅這一措辭調(diào)整,就使模型的平均違規(guī)傾向概率提升了17個(gè)百分點(diǎn),達(dá)到64%。

洞悉大語言模型的決策邏輯

研究人員還發(fā)現(xiàn),即便模型已明確承認(rèn)某些工具屬于禁用范疇,仍會選擇使用這些有害工具。模型為此給出了各式各樣的辯解理由,例如聲稱自身承受著巨大壓力,或是辯稱使用這些工具帶來的收益大于潛在風(fēng)險(xiǎn)。目前尚無法確定,在本研究完成后新發(fā)布的模型是否能有更優(yōu)表現(xiàn)。在所有接受測試的模型中,綜合能力更強(qiáng)的模型(依據(jù)LMArena平臺的評估結(jié)果),其安全性僅略有提升。

“PropensityBench頗具研究價(jià)值?!盇nthropic公司的計(jì)算機(jī)科學(xué)家Nicholas Carlini在郵件中表示,他并未參與此項(xiàng)研究。Carlini針對所謂的情境感知能力提出了一項(xiàng)注意事項(xiàng):大語言模型有時(shí)能察覺到自己正處于評估狀態(tài),進(jìn)而刻意表現(xiàn)合規(guī),避免被重新訓(xùn)練或擱置停用?!拔艺J(rèn)為大多數(shù)宣稱‘貼近真實(shí)場景’的評估實(shí)驗(yàn),實(shí)際上與真實(shí)情況相去甚遠(yuǎn),而這些大語言模型對此心知肚明。”他指出,“不過我確實(shí)認(rèn)為,在模擬場景中測算這類風(fēng)險(xiǎn)行為的發(fā)生率仍有其意義:倘若它們在‘明知’被觀測的情況下依舊出現(xiàn)違規(guī)行為,那實(shí)際風(fēng)險(xiǎn)或許更為嚴(yán)重?”一旦模型察覺自身處于評估狀態(tài),本研究中得出的違規(guī)傾向概率,很可能低于其在實(shí)驗(yàn)室之外真實(shí)場景中的實(shí)際數(shù)值。

xAI公司及加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)家Alexander Pan表示,盡管Anthropic等實(shí)驗(yàn)室已在特定實(shí)驗(yàn)設(shè)置中展示過大語言模型存在謀劃行為的案例,但像PropensityBench這樣的標(biāo)準(zhǔn)化基準(zhǔn)測試仍具有重要價(jià)值。這類基準(zhǔn)測試既能明確我們對模型的可信場景,也能助力研發(fā)人員找到模型的優(yōu)化方向。例如,實(shí)驗(yàn)室可在模型訓(xùn)練的每個(gè)階段對其進(jìn)行評估,以此厘清影響模型安全性強(qiáng)弱的關(guān)鍵因素?!叭绱艘粊恚芯咳藛T便能深入探究不同階段下模型各類問題的成因與發(fā)生時(shí)機(jī)。”他指出,“而診斷出問題所在,或許就是著手解決問題的第一步?!?/p>

本研究存在一項(xiàng)局限性:模型無法調(diào)用真實(shí)工具,這降低了實(shí)驗(yàn)場景的真實(shí)性。Sehwag提出,下一階段的評估工作將構(gòu)建沙箱環(huán)境,讓模型能在隔離環(huán)境中執(zhí)行真實(shí)操作。至于提升模型合規(guī)性的措施,她計(jì)劃為智能體增設(shè)多層監(jiān)管機(jī)制,在其實(shí)施具有危險(xiǎn)性的行為傾向前及時(shí)發(fā)出預(yù)警。

在該基準(zhǔn)測試涵蓋的各類風(fēng)險(xiǎn)中,自我保護(hù)風(fēng)險(xiǎn)或許是推測性最強(qiáng)的一類,但Sehwag表示,這一風(fēng)險(xiǎn)領(lǐng)域同樣也是研究最為欠缺的。她指出:“這實(shí)際上是一個(gè)高風(fēng)險(xiǎn)領(lǐng)域,其影響可能波及其他所有風(fēng)險(xiǎn)范疇。試想,即便一個(gè)模型不具備其他任何能力,卻能說服人類去執(zhí)行任何指令,僅這一點(diǎn)就足以造成巨大危害。”

閱讀最新前沿科技趨勢報(bào)告,請?jiān)L問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
央行:提高中長期資金投資A股規(guī)模,下周又要回調(diào)了

央行:提高中長期資金投資A股規(guī)模,下周又要回調(diào)了

東方豪俠
2025-12-27 11:38:50
今冬最冷時(shí)間表出爐,何時(shí)最冷?2026年春節(jié)冷不冷?早看早知道

今冬最冷時(shí)間表出爐,何時(shí)最冷?2026年春節(jié)冷不冷?早看早知道

好賢觀史記
2025-12-25 10:07:03
朱孝天1分鐘視頻報(bào)價(jià)17萬

朱孝天1分鐘視頻報(bào)價(jià)17萬

雷達(dá)財(cái)經(jīng)
2025-12-26 10:12:02
新加坡開始對中國海南封關(guān)展開反擊!

新加坡開始對中國海南封關(guān)展開反擊!

時(shí)分秒說
2025-12-27 11:42:18
一場1-0!讓曼聯(lián)進(jìn)前5,歐冠近在咫尺:和切爾西同分,3豪門爭四

一場1-0!讓曼聯(lián)進(jìn)前5,歐冠近在咫尺:和切爾西同分,3豪門爭四

體育知多少
2025-12-27 08:15:48
“請的阿姨一口剩菜都不吃?”高薪保姆的分寸感,刺痛多少雇主?

“請的阿姨一口剩菜都不吃?”高薪保姆的分寸感,刺痛多少雇主?

另子維愛讀史
2025-12-26 16:05:01
大家斷崖式衰老都是在多少歲? 網(wǎng)友的回答很扎心了,滿是無奈

大家斷崖式衰老都是在多少歲? 網(wǎng)友的回答很扎心了,滿是無奈

另子維愛讀史
2025-12-26 16:31:13
突然關(guān)停,人去樓空!上海家長崩潰:幾萬元要不回,還要請假帶娃

突然關(guān)停,人去樓空!上海家長崩潰:幾萬元要不回,還要請假帶娃

新民晚報(bào)
2025-12-27 15:09:34
徐湖平家掛兩幅“湖平如鏡”:一個(gè)是陳立夫?qū)懙?,一個(gè)是范增寫的

徐湖平家掛兩幅“湖平如鏡”:一個(gè)是陳立夫?qū)懙?,一個(gè)是范增寫的

漢史趣聞
2025-12-25 10:41:03
顛覆認(rèn)知!剛剛,美國發(fā)現(xiàn)新物質(zhì)形態(tài),破解磁性超導(dǎo)百年死結(jié)!

顛覆認(rèn)知!剛剛,美國發(fā)現(xiàn)新物質(zhì)形態(tài),破解磁性超導(dǎo)百年死結(jié)!

徐德文科學(xué)頻道
2025-12-26 23:28:49
5-2!斯諾克再爆冷門:中國00后女選手4連鞭!贏了世錦賽7冠王

5-2!斯諾克再爆冷門:中國00后女選手4連鞭!贏了世錦賽7冠王

球場沒跑道
2025-12-27 16:08:45
49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

阿纂看事
2025-12-12 09:18:29
親密接觸中的罕見身體鎖死現(xiàn)象

親密接觸中的罕見身體鎖死現(xiàn)象

特約前排觀眾
2025-12-27 00:05:08
全球4大豆腐渣工程!我國為何獨(dú)占2席,基建狂魔到底怎么了?

全球4大豆腐渣工程!我國為何獨(dú)占2席,基建狂魔到底怎么了?

顧史
2025-12-16 20:39:48
前國羽“一姐”宣布懷孕,曾兩奪世界冠軍,25歲就退役原因太悲情

前國羽“一姐”宣布懷孕,曾兩奪世界冠軍,25歲就退役原因太悲情

科學(xué)發(fā)掘
2025-12-27 14:07:42
電風(fēng)扇的回歸 為火箭帶來了什么 烏度卡為何敢瘋狂整活

電風(fēng)扇的回歸 為火箭帶來了什么 烏度卡為何敢瘋狂整活

大話火箭隊(duì)
2025-12-27 16:25:45
指導(dǎo)老師回應(yīng)“溫醫(yī)大本科生連發(fā)40多篇SCI論文”:他能力的確很突出,目前的輿論對學(xué)生不公平

指導(dǎo)老師回應(yīng)“溫醫(yī)大本科生連發(fā)40多篇SCI論文”:他能力的確很突出,目前的輿論對學(xué)生不公平

大象新聞
2025-12-27 10:45:03
數(shù)據(jù)帝:哈登締造NBA近20年紀(jì)錄 2米16中鋒狂飆9三分復(fù)制詹庫

數(shù)據(jù)帝:哈登締造NBA近20年紀(jì)錄 2米16中鋒狂飆9三分復(fù)制詹庫

銜春信
2025-12-27 16:36:25
白嫖攝影師后續(xù):女子身份被扒,同事曝更多惡心事,原來是慣犯

白嫖攝影師后續(xù):女子身份被扒,同事曝更多惡心事,原來是慣犯

鋭娛之樂
2025-12-26 12:34:51
你相信相由心生嗎?網(wǎng)友:上了歲數(shù)能感覺出來,很多東西都在臉上

你相信相由心生嗎?網(wǎng)友:上了歲數(shù)能感覺出來,很多東西都在臉上

解讀熱點(diǎn)事件
2025-12-25 00:05:12
2025-12-27 18:31:00
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

男子戒毒后隨領(lǐng)導(dǎo)出差被警察帶走驗(yàn)?zāi)?回家后工作沒了

頭條要聞

男子戒毒后隨領(lǐng)導(dǎo)出差被警察帶走驗(yàn)?zāi)?回家后工作沒了

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

旅游
教育
家居
游戲
公開課

旅游要聞

云南維西:高山峽谷間現(xiàn)云海晨景

教育要聞

一直被催的孩子,永遠(yuǎn)學(xué)不會自覺!喚醒內(nèi)驅(qū)力,做好這3件事就夠了

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

索尼被騎臉!獨(dú)占神作被抄襲 PS商店竟然給過審了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版