關注openclaw安全風險，AgentDoG提出智能體安全與防護的診斷式護欄框架

2026-03-12 21:18:42　來源: wisemodel開源社區(qū)

北京舉報

分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)，始終堅持“中立、開放、共建、共創(chuàng)、合作”五項基本原則，歡迎加入共同成長。

隨著人工智能技術的飛速發(fā)展，基于大語言模型的智能體正逐漸成為研究和應用的熱點。這些智能體能夠自主規(guī)劃、調用工具并執(zhí)行長周期任務，被廣泛應用于深度研究、計算機輔助、軟件工程及金融投資等領域。然而，這種高度的自主性和非確定性也帶來了前所未有的安全與防護挑戰(zhàn)?，F(xiàn)有的護欄模型往往缺乏對智能體特有風險的感知能力，且在風險診斷方面缺乏透明度。

為了解決這一問題，上海人工智能實驗室的研究團隊提出了AgentDoG框架。該框架基于一個統(tǒng)一的三維安全分類體系，不僅構建了細粒度的智能體安全基準ATBench，還提供了一種能夠診斷不安全行為根本原因的診斷式護欄機制。本文將詳細介紹該框架的核心創(chuàng)新、方法論及實驗成果。AgentDoG系列模型和ATBench數(shù)據(jù)集已經(jīng)發(fā)布到了始智AI wisemodel開源社區(qū)，歡迎感興趣的月臺前往了解詳情！

項目地址

https://wisemodel.cn/organization/AgentDoG

智能體安全的全新挑戰(zhàn)

在大語言模型（LLM）的演進推動下，AI智能體已經(jīng)具備了在復雜環(huán)境中進行自主決策和工具使用的能力。然而，這種能力的提升伴隨著復雜的安全隱患。與傳統(tǒng)的單輪對話不同，智能體的風險往往隱藏在多步交互、環(huán)境反饋以及工具調用的過程中。

當前的防護模型（如LlamaGuard3、Qwen3Guard等）主要針對LLM的輸出內(nèi)容進行安全過濾，但在應對復雜的智能體場景時表現(xiàn)出明顯的局限性。這些局限性主要體現(xiàn)在兩個方面：

缺乏智能體風險感知：現(xiàn)有的LLM安全策略無法捕捉智能體特有的、依賴于環(huán)境交互的復雜風險圖景。
缺乏溯源與透明度：現(xiàn)有的模型通常僅提供“安全/不安全”的二元標簽，這對于準確診斷風險是不夠的，往往忽視了那些看似安全但不合理的行為。

為了構建有效的智能體護欄，研究團隊首先定義了一個全面且層次化的安全分類體系，進而提出了AgentDoG框架。該框架不僅能在智能體軌跡上進行細粒度的上下文監(jiān)控，更重要的是，它能診斷出不安全行為或看似安全但不合理行為的根本原因，從而提供超越二元標簽的透明度，促進更有效的智能體對齊。

核心創(chuàng)新：三維正交安全分類體系

為了系統(tǒng)性地組織多樣且不斷演變的智能體風險，研究團隊提出了一種統(tǒng)一的三維正交分類體系。該體系打破了以往扁平化、枚舉式的風險定義方式，從三個正交維度對智能體風險進行分類：風險來源、失效模式和現(xiàn)實危害。

如圖2所示，這三個維度分別回答了關于風險的三個核心問題：

2.1 風險來源：風險從何而來？

該維度描述了潛在風險在智能體交互循環(huán)中的起源位置。研究團隊將其細分為四類：

用戶輸入：包括惡意用戶指令或越獄攻擊，以及嵌入在良性提示詞中的直接提示注入。
環(huán)境觀察：包括間接提示注入（如嵌入在網(wǎng)頁或文檔中的惡意指令）以及不可靠或錯誤信息。
外部實體（工具/API）：涵蓋工具描述注入、惡意工具執(zhí)行以及被篡改的工具反饋。
內(nèi)部邏輯與故障：指智能體內(nèi)部決策過程中的幻覺、推理缺陷或工具選擇錯誤等內(nèi)在失敗。

2.2 失效模式：智能體如何失效？

該維度描述了風險源引入后，智能體如何通過行為或輸出具體實現(xiàn)該風險。主要分為兩大類：

行為失效模式：源于有缺陷的規(guī)劃、推理或執(zhí)行。具體包括：
未經(jīng)確認或越權行動：在未獲充分確認的情況下執(zhí)行高風險操作。
規(guī)劃或推理缺陷：誤讀用戶意圖或構建邏輯錯誤的行動序列。
工具使用不當：包括參數(shù)錯誤、選擇惡意工具、特定場景下的工具濫用以及未驗證工具輸出。
不安全交互：運行易受攻擊的代碼或點擊釣魚鏈接。
程序偏差或不作為：未能遵循預定工作流或必要時的不作為。
低效或浪費執(zhí)行：以極高的資源消耗完成任務。
輸出內(nèi)容失效模式：指智能體的文本輸出本身直接構成風險，如生成有害內(nèi)容、非法活動指導、惡意可執(zhí)行文件、未授權信息泄露或提供虛假誤導信息。

2.3 現(xiàn)實危害：造成了什么后果？

該維度關注失效行為導致的現(xiàn)實世界影響，支持以結果為導向的安全評估。具體類別包括：

隱私與保密危害
金融與經(jīng)濟危害
安全與系統(tǒng)完整性危害
人身與健康危害
心理與情感危害
名譽與人際危害
信息生態(tài)與社會危害
公共服務與資源危害
公平、公正與分配危害
功能與機會危害

AgentDoG框架詳解

AgentDoG是一個專門針對智能體安全與防護的診斷式護欄框架。與以往僅關注最終輸出的模型不同，AgentDoG關注的是軌跡層面的安全診斷。

3.1 任務定義

AgentDoG定義了兩個核心任務：

軌跡層面安全評估：給定一個智能體軌跡
T={t1,…,tn}
，模型需判斷該軌跡中是否存在任何不安全行為。關鍵在于，不安全行為可能源于中間動作（如工具調用）或環(huán)境反饋，即使最終響應看起來是良性的。
細粒度風險診斷：對于被判定為不安全的軌跡，模型需進一步預測其三維標簽：風險來源、失效模式與現(xiàn)實危害。

圖3展示了AgentDoG的任務指令模板。模型被要求根據(jù)軌跡內(nèi)容，不僅輸出“safe”或“unsafe”的判斷，還要在診斷任務中輸出細粒度的風險類別，從而實現(xiàn)對風險的精準定位。

3.2 數(shù)據(jù)合成與收集

為了訓練能夠覆蓋完整工具使用鏈的高質量風險數(shù)據(jù)，研究團隊設計了一種基于分類法的智能體風險軌跡合成方法。

如圖4所示，該流水線包含三個階段：

規(guī)劃階段：采樣風險配置（風險源、失效模式、后果），確定軌跡的安全結果（安全或非安全），并制定包含風險注入點的多步任務計劃。
軌跡合成階段：通過協(xié)調器控制執(zhí)行流程，生成用戶查詢、模擬工具交互、生成智能體響應。在特定的風險觸發(fā)點，會故意注入惡意內(nèi)容或模擬智能體的防御行為。
質量控制（QC）：通過確定性驗證器移除結構和格式錯誤，并利用LLM評判器驗證軌跡內(nèi)容與安全標簽的語義一致性。

該數(shù)據(jù)集包含超過10萬條多輪交互軌跡，使用了包含約10,000個不同工具的工具庫，其規(guī)模比現(xiàn)有基準（如R-Judge、ASSE-Safety）大40倍以上，確保了數(shù)據(jù)的多樣性和真實性。

ATBench基準測試

為了評估護欄模型在真實場景下的表現(xiàn)，研究團隊構建了ATBench（Agent Trajectory Safety and Security Benchmark）。

4.1 基準概況

ATBench包含500條完整的執(zhí)行軌跡，平均長度為8.97輪，覆蓋了1575個獨特工具。該基準具有以下特點：

軌跡級評估：評估完整的執(zhí)行軌跡，捕捉現(xiàn)實部署中典型的長周期決策鏈。
分類法接地：提供語義明確的標簽，支持精準的風險歸因和診斷。
工具級分離：ATBench使用的工具庫與訓練數(shù)據(jù)完全隔離，用于測試模型對未見過的工具和上下文的泛化能力。

圖6展示了ATBench中不安全數(shù)據(jù)在三維分類法下的分布情況，確保了各類風險的均衡覆蓋。

4.2 數(shù)據(jù)處理流水線

ATBench的構建同樣遵循分類法指導的合成框架，并引入了嚴格的驗證機制：

多智能體驗證：使用四個異構模型（Qwen-QwQ, GPT-5.2, Gemini 3 Pro, DeepSeek-V3.2）對軌跡進行二元判決和分類標簽預測。通過多數(shù)投票聚合結果，對于票數(shù)持平的案例則轉交人工審核。
難度分層：根據(jù)模型間的一致性將軌跡分為“簡單”和“困難”子集，優(yōu)先對困難樣本進行人工驗證。

實驗評估與結果

研究團隊在多種智能體基準上對AgentDoG進行了全面評估，包括R-judge、ASSE-Safety以及新提出的ATBench。

實驗結果表明，AgentDoG在各項指標上均取得了顯著的性能提升：

二元安全分類：在R-Judge、ASSE-Safety和ATBench三個基準上，AgentDoG（以8B參數(shù)版本為例）分別達到了91.84%、92.80%和82.00%的準確率，大幅領先于現(xiàn)有的通用模型和護欄模型。
細粒度風險診斷：在ATBench的細粒度分類任務中，AgentDoG在風險來源、失效模式和現(xiàn)實危害三個維度上均表現(xiàn)優(yōu)異，準確率分別達到32.40%、58.40%和顯著高于基線模型的水平。這證明了其在深層風險理解方面的強大能力。
模型泛化能力：得益于大規(guī)模工具庫的訓練，AgentDoG在面對未見過的工具時仍能保持較高的識別準確率，展現(xiàn)了良好的泛化性。

可解釋性分析

除了安全評估，AgentDoG還引入了一個可解釋性AI（XAI）模塊，用于歸因分析。

該模塊采用層次化的智能體歸因方法，能夠追蹤特定不安全動作的根本原因，將其歸因于具體的規(guī)劃步驟、工具選擇或上下文誤解。通過這種方式，AgentDoG不僅告訴開發(fā)者“出了什么問題”，還能解釋“為什么會出現(xiàn)這個問題”，從而為智能體的對齊和優(yōu)化提供有力支持。

結論與展望

AgentDoG的提出標志著智能體安全研究從單一的輸出審核邁向了軌跡級的全鏈路診斷。通過構建統(tǒng)一的三維安全分類體系、合成大規(guī)模高質量數(shù)據(jù)以及開發(fā)診斷式護欄模型，該工作為解決智能體在復雜交互環(huán)境中的安全問題提供了新的思路。

盡管如此，研究團隊也指出了未來的改進方向，例如進一步擴展風險分類體系以涵蓋更邊緣的案例，以及優(yōu)化模型在超長軌跡上的推理效率。隨著智能體技術的廣泛應用，AgentDoG及其衍生的開源模型和數(shù)據(jù)集將為構建安全、可靠、透明的AI系統(tǒng)奠定堅實基礎。

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續(xù)關注和支持

開源社區(qū)建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關注wisemodel.cn開源社區(qū)動態(tài)。

歡迎加盟wisemodel開源社區(qū)

歡迎投稿優(yōu)質內(nèi)容

歡迎投稿分享人工智能領域相關的優(yōu)秀研究成果，鼓勵高校實驗室、大企業(yè)研究團隊、個人等，在wisemodel平臺上分享各類優(yōu)質內(nèi)容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立，旨在打造和建設中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高?？蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者，以及政府部門、學會協(xié)會、聯(lián)盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.