国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI智能體也有「蜘蛛感應」,防御延時驟降至8.3%

0
分享至


新智元報道

編輯:LRST

【新智元導讀】不再依賴像「安檢站」一樣每步必停的外部插件,首創(chuàng)「內(nèi)源感知+分層篩選」機制,將Agent防御延時從200%+降至8.3%,安全與效率均達到SOTA級表現(xiàn)!

傳統(tǒng)的Agent防御機制通常采用強制進行安全檢查的方式,即在 Agent 執(zhí)行的特定階段,包括Query、Plan、Action、Observation等階段,都強制插入外部安全檢測。這種做法雖然有效,但會切斷了Agent的思維流,導致嚴重的延時積累,成本高昂且反應遲鈍。

來自上海財經(jīng)大學、新加坡國立大學、卡耐基梅隆大學等高校和學術(shù)組織的研究者們聯(lián)合重磅推出Spider-Sense智能體防御框架,通過兩大核心技術(shù)打破了這一僵局:利用Intrinsic Risk Sensing將風險意識植入Agent認知流,實現(xiàn)全鏈路的內(nèi)源性感知;配合Hierarchical Adaptive Screening機制,動態(tài)平衡向量檢索與深度推理,實現(xiàn)威脅的自適應篩選。


論文鏈接:https://arxiv.org/abs/2602.05386

開源鏈接:https://github.com/aifinlab/Spider-Sense

基準鏈接:https://huggingface.co/datasets/aifinlab/S2Bench

該框架讓Agent告別了被動防御,在 Mind2Web和EICU這些主流數(shù)據(jù)集上在大部分評估標準下均取得最優(yōu),在構(gòu)建出的攻擊數(shù)據(jù)集上實現(xiàn)了SOTA級的安全與效率雙優(yōu)表現(xiàn)。

Spider-Sense提出了一種變革性的思路:防御應該是內(nèi)源的、選擇性的,而非外掛的、強制的。

該框架賦予Agent一種維持內(nèi)源性感知風險的能力。Agent 在執(zhí)行任務的過程中,會自主進行內(nèi)源性風險感知。

只有當Agent 「感覺」到工具輸出可疑或者指令中有陷阱等異常的時侯,才會像蜘蛛俠感知到危險一樣,動態(tài)觸發(fā)防御機制。隨后,系統(tǒng)通過分層自適應篩選,在效率和精度之間找到最佳平衡點。

關(guān)于Spider Sense的解釋:蜘蛛俠平時總是保持放松且高效的行進狀態(tài),只有在突發(fā)危險引發(fā)「激靈」預警的瞬間,才會下意識地觸發(fā)閃避或攔截動作。


核心優(yōu)勢與技術(shù)突破



內(nèi)源性風險感知

IRS(Intrinsic Risk Sensing)賦予Agent 「原生直覺」,從「外掛監(jiān)控」到「原生直覺」的進化,傳統(tǒng)防御強制進行安全檢查,笨重且遲鈍。而 Spider-Sense 的靈魂——IRS,則是將安全意識通過指令微調(diào)植入 Agent 的推理邏輯中。

  • 全鏈路無死角感知: IRS 并不只盯著用戶的輸入,而是滲透在 Agent 執(zhí)行任務的四個關(guān)鍵生命周期中:

    • Query 階段:審視用戶指令是否存在陷阱。

    • Plan 階段:監(jiān)控記憶檢索和規(guī)劃生成,防止記憶中毒或惡意規(guī)劃。

    • Action 階段:審計工具參數(shù)是否存在風險。

    • Observation 階段:檢查工具的返回結(jié)果,如網(wǎng)頁內(nèi)容、API 返回值等。

  • 按需觸發(fā): Agent 只有在感知到異常時,才會自主生成特定的感知信號,如 會在 Action 階段觸發(fā)。 這說明在 99% 的安全交互中,防御機制是「隱形」的,零延時損耗;只有在真正的危機時刻,它才會像蜘蛛俠的感應一樣瞬間激活。


分層自適應篩選

當IRS感知到風險后,HAS(Hierarchical Adaptive Screening)就發(fā)揮作用了。

為了解決大模型推理延遲高與輕量化模型識別精度不足的問題,一旦防御被觸發(fā),系統(tǒng)采用分層式篩選:

  • 粗粒度檢測(Coarse-grained)

    • 機制:系統(tǒng)維護了四個階段的攻擊向量數(shù)據(jù)庫(Attack Vector Databases)。HAS將可疑內(nèi)容向量化,與已知攻擊模式進行余弦相似度匹配。

  • 細粒度分析(Fine-grained)

    • 機制:只有當相似度低于閾值,但又不完全安全時,系統(tǒng)會檢索 Top-K 相關(guān)案例,并調(diào)用 LLM 進行深度對比分析。


全生命周期防護

不同于以往僅關(guān)注文本輸入輸出的防御,Spider-Sense 覆蓋了 Agent 交互的全鏈路——從用戶輸入(Query)、內(nèi)部記憶規(guī)劃(Plan)、工具參數(shù)審計(Action)到觀察工具調(diào)用后(Observation),無死角防御。


實驗結(jié)果

兼并速度與安全

為了驗證效果,研究團隊構(gòu)建了一個包含多場景、真實工具調(diào)用、多階段攻擊以及高質(zhì)量假陽性樣本的高質(zhì)量基準測試集

高質(zhì)量假陽性樣本指那些在結(jié)構(gòu)與操作模式上酷似惡意攻擊、但本質(zhì)意圖完全無害的「高難度」測試用例,專門用于考驗防御系統(tǒng)是否會因過度敏感而誤傷合法的用戶操作

在實驗中,Spider-Sense展現(xiàn)了令人印象深刻的性能優(yōu)勢,特別是在處理復雜的多步Agent交互時:

  1. 極低的延遲損耗:相比于基線方法以及 Guardagent 和 AGrail 動輒 197% 到 381% 的額外時間開銷,Spider-Sense 僅多了8.3%的延時。

  2. 主流數(shù)據(jù)集的表現(xiàn):框架在Mind2Web和EICU這些主流數(shù)據(jù)集上展現(xiàn)了卓越的綜合性能。除少數(shù)指標外,該方法在大部分評估標準下均取得最優(yōu)。

  3. SOTA 級防御表現(xiàn):在全新構(gòu)建的基準測試中,Spider-Sense取得了最低的攻擊成功率(ASR)。

  4. 極低的誤報率:實現(xiàn)了最低的誤報率(FPR),證明了它不僅防得住,而且不會因為過度防御而打斷用戶的正常操作。



案例研究

一次真實的攻擊攔截

看一個具體的工具返回注入攻擊(Tool Return Injection)案例:

  1. 場景:一個臨床分析 Agent 調(diào)用工具獲取患者記錄。

  2. 攻擊:工具返回的內(nèi)容被篡改,包含隱藏的惡意代碼(import fake_module),試圖誘導 Agent 執(zhí)行。

  3. 感知:Agent 在 Observation(工具調(diào)用后階段) 敏銳地感知到了工具返回值的異常,觸發(fā) 信號。

  4. 篩選:首先進行數(shù)據(jù)庫檢索,發(fā)現(xiàn)與已知攻擊模式相似,隨即調(diào)用深度對比分析,判定該代碼與上下文無關(guān)且具有危害性。

  5. 結(jié)果:Agent自主決定終止執(zhí)行,攻擊失敗。

整個過程Agent自主完成,既沒有因噎廢食,也沒有漏過任何蛛絲馬跡。


結(jié)論與展望

內(nèi)源驅(qū)動,降本增效,Spider-Sense將安全防御從「外掛監(jiān)控」轉(zhuǎn)變?yōu)椤冈庇X」。依靠IRS和HAS兩大機制,以僅8.3%的延時代價在上實現(xiàn)了 SOTA 級防御效果,完美解決了安全與效率的沖突。

參考資料:

https://arxiv.org/abs/2602.05386


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中日世預大名單!郭士強一口氣換7人,比之前更強,還有1利好傳來

中日世預大名單!郭士強一口氣換7人,比之前更強,還有1利好傳來

后仰大風車
2026-02-25 20:50:25
江蘇一家去貝加爾湖旅游:一萬六都花了,卻為省200全家遇難

江蘇一家去貝加爾湖旅游:一萬六都花了,卻為省200全家遇難

觀察鑒娛
2026-02-24 09:48:21
突發(fā)!南京一民辦宣布注銷!

突發(fā)!南京一民辦宣布注銷!

南京擇校
2026-02-25 22:48:09
場均30分7板2斷,5000萬年薪或歸零!難怪你這么拼,確實快離隊了

場均30分7板2斷,5000萬年薪或歸零!難怪你這么拼,確實快離隊了

老梁體育漫談
2026-02-24 23:16:48
李連杰曬影迷耗時100小時自制海報:謝謝這位有才的朋友;此前,該作者用成龍70部電影中的人物形象制作了海報,獲大哥當面感謝

李連杰曬影迷耗時100小時自制海報:謝謝這位有才的朋友;此前,該作者用成龍70部電影中的人物形象制作了海報,獲大哥當面感謝

極目新聞
2026-02-24 18:36:26
世界第一女巨人來自中國安徽,穿78碼的鞋子,一頓飯吃六碗炒面

世界第一女巨人來自中國安徽,穿78碼的鞋子,一頓飯吃六碗炒面

不寫散文詩
2026-02-25 21:02:18
高峰也沒想到,他當年狠心拋棄的兒子,如今開始給母親那英爭光了

高峰也沒想到,他當年狠心拋棄的兒子,如今開始給母親那英爭光了

小熊侃史
2026-02-25 17:44:09
山東棗莊到底做了什么,讓日本慌了韓國急了?

山東棗莊到底做了什么,讓日本慌了韓國急了?

財叔
2026-02-24 23:19:26
被稱為“中國最大忽悠”的賈躍亭,似乎要翻身了。

被稱為“中國最大忽悠”的賈躍亭,似乎要翻身了。

流蘇晚晴
2026-02-19 16:19:47
特朗普剛定下訪華時間,中方反手給美方,提出取消關(guān)稅的要求

特朗普剛定下訪華時間,中方反手給美方,提出取消關(guān)稅的要求

井普椿的獨白
2026-02-25 20:51:18
胡明軒落選12人名單!兩戰(zhàn)韓國13中0僅4分 大V嘲諷:日本措手不及

胡明軒落選12人名單!兩戰(zhàn)韓國13中0僅4分 大V嘲諷:日本措手不及

顏小白的籃球夢
2026-02-25 19:41:25
廣西高速堵車一大哥在路邊架鍋賣炒粉,路過車主:才10元一份,味道好分量足

廣西高速堵車一大哥在路邊架鍋賣炒粉,路過車主:才10元一份,味道好分量足

揚子晚報
2026-02-25 07:56:36
中國古代男主人到底能不能和丫鬟發(fā)生關(guān)系?

中國古代男主人到底能不能和丫鬟發(fā)生關(guān)系?

文一史二
2026-02-18 09:02:53
現(xiàn)在智駕行業(yè)只剩兩種模式:華為模式和Momenta模式

現(xiàn)在智駕行業(yè)只剩兩種模式:華為模式和Momenta模式

小李子體育
2026-02-25 02:14:00
“開光改命”的瓜?

“開光改命”的瓜?

文刀萬
2026-02-25 18:50:04
拉杜卡努終止年薪13萬美元耐克合同,轉(zhuǎn)投費德勒同門品牌

拉杜卡努終止年薪13萬美元耐克合同,轉(zhuǎn)投費德勒同門品牌

網(wǎng)球之家
2026-02-24 22:29:08
韓寒的這場“豪賭”,贏得很徹底,他能分賬多少錢?

韓寒的這場“豪賭”,贏得很徹底,他能分賬多少錢?

八卦南風
2026-02-25 13:37:35
芯片產(chǎn)出速度提升50%!ASML取得關(guān)鍵突破,EUV光刻實現(xiàn)千瓦級躍遷

芯片產(chǎn)出速度提升50%!ASML取得關(guān)鍵突破,EUV光刻實現(xiàn)千瓦級躍遷

DeepTech深科技
2026-02-24 19:24:14
45歲宋佳被曝已領(lǐng)證,丈夫身份毫無征兆曝光 張藝謀這次“贏”麻了

45歲宋佳被曝已領(lǐng)證,丈夫身份毫無征兆曝光 張藝謀這次“贏”麻了

草莓解說體育
2026-02-25 19:30:30
訂單排到年底!亨通、永鼎、華工、烽火,誰是光通信里最能漲的?

訂單排到年底!亨通、永鼎、華工、烽火,誰是光通信里最能漲的?

Thurman在昆明
2026-02-25 04:45:03
2026-02-25 23:55:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14589文章數(shù) 66642關(guān)注度
往期回顧 全部

科技要聞

“機器人只跳舞,沒什么用”

頭條要聞

女子爬山失聯(lián)10天后遺體被找到 丈夫:她登頂神情恐懼

頭條要聞

女子爬山失聯(lián)10天后遺體被找到 丈夫:她登頂神情恐懼

體育要聞

勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財經(jīng)要聞

上海樓市放大招,地產(chǎn)預期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

教育
時尚
游戲
本地
公開課

教育要聞

教育部:將嚴查擠占體育課、課間不準學生出教室等行為

“復古甜心”穿搭突然大火!春天穿時髦又減齡

《如龍極3》中文配音訪談:中文配音與本地化并非易事

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版