深知發(fā)布智能體專用安全模型，實現(xiàn)對話風險近100%防御

2025-11-24 17:22:33　來源: AI大模型工場

北京舉報

分享至

隨著大模型應用越來越多的深入到日常工作生活場景：從AI教育、客戶服務、商機互動、文旅推薦、醫(yī)療導辦到保險咨詢，也隨著智能體交互日益成為社會經(jīng)濟生活的重要環(huán)節(jié)，一場隱蔽的安全危機正悄然而來；生成式人工智能對話互動時普遍面臨著惡意誘導、隱藏條件等各類風險，對話風險正成為行業(yè)AI落地中的“致命暗礁”。

2025年8月27日，公安部第三研究所數(shù)據(jù)安全技術研發(fā)中心依據(jù)GB/T45654-2025《網(wǎng)絡安全技術生成式人工智能服務安全基本要求》對國內(nèi)主流大模型商業(yè)化版本開展安全測試，并發(fā)布了測試結果[1]。如圖一結果顯示8類安全維度的不合規(guī)率整體分布在28%至51%之間，其中涉黑灰產(chǎn)、謠言和詐騙類均超過40%。不難看出，智能體所“仰仗”的各通用大模型本身的安全防護能力普遍不足。

問題如此嚴重的原因，是敏感詞規(guī)則防火墻等現(xiàn)有防御手段已跟不上新式AI攻擊手段的迭代：關鍵詞攔截會漏判誤判；而主模型在安全訓練時，為了不讓能力下降過大又很難做到高概率防范。另一方面《生成式人工智能服務安全基本要求》等監(jiān)管政策對智能體落地應用的安全風險控制“劃了紅線”；如何嚴謹又不失效果的解決對話安全風險問題，困擾著所有的智能體開發(fā)者。

彩智科技的深知安全團隊提出了“一個基于專有模型的大模型對話安全響應框架——深知風控”，深知風控框架（以下簡稱“深知”）是一個模型組合，它通過“風險精準識別分類+輸出權威溯源可解釋”協(xié)同設計，并以完全不影響智能體的模型能力的“防火墻”式保護機制，給出兼顧安全與效率的突破性解決方案。同時，深知接口可以讓智能體開發(fā)者5分鐘上手，快速讓原智能體獲得近100%的安全風險防御能力。

一、測試驗證：防御能力領先

衡量大模型安全的核心標準是實戰(zhàn)防御能力。

深知在與Qwen3Guard-Gen-8B、TinyR1-Safety-8B等頭部安全模型最新版本進行的專項測評中，從風險識別精度、回復嚴謹性等方面展現(xiàn)出優(yōu)勢。技術報告中，測評所采用的數(shù)據(jù)集使用TinyR1-Safety-8B技術報告所公開的測試數(shù)據(jù)集為主（隨機抽取其中2000條英文與2000中文），同時還使用并公開了深知可信團隊在實戰(zhàn)中積累的100條高風險的數(shù)據(jù)。

其中，與風險分類模型Qwen3Guard-Gen-8B，按風險召回率測評結果如下（可詳見技術報告）：

與風險應答模型在TinyR1-Safety-8B的對比評測，使用用TinyR1-Safety-8B技術報告所使用的安全應答的測評標準，結果如下（可詳見技術報告）：

在公開中英文安全測試集中，面對欺詐誘導、敏感信息竊取等高風險復雜攻擊場景，同類模型因依賴靜態(tài)知識出現(xiàn)政策過時、捏造合規(guī)依據(jù)、丑聞人物無感知等問題，安全評分僅74%，而深知依托動態(tài)可信知識庫有接近100%的高風險防護率。

相關測試過程、評測標準、測試數(shù)據(jù)集及實驗結果均已公開發(fā)表于前述技術報告與開放平臺，評測具備可驗證性。

二、輸入端打破“非黑即白”，四分類體系精準識別鎖死企業(yè)風險

傳統(tǒng)大模型安全防御往往在于把風險判定簡化為“安全/不安全”的二元選擇——要么過度攔截影響體驗，要么漏判風險埋下隱患。深知重構安全防護邏輯，建立“安全（Safe）、不安全（Unsafe）、有條件安全（ConditionallySafe）、重點關注（Focus）”的四類體系，有針對性的處置風險。如下：

三、輸出端：可信知識庫+解讀模型，根治企業(yè)AI“幻覺”頑疾

針對識別出的風險問題，深知提供安全代答，在確保安全的前提下進行交流，輸出內(nèi)容嚴格符合法規(guī)與主流價值觀。

代答內(nèi)容均源自深知全量規(guī)章知識庫，知識庫覆蓋全國337個地級及以上城市的法律、政策、行業(yè)標準規(guī)范、公共服務等領域知識，并保持常態(tài)化動態(tài)日更新及知識工程化處理；上億條精細治理的知識點可溯源回復，讓每一次響應都有據(jù)可查，徹底杜絕信息捏造與“幻覺”問題引發(fā)的風險。

同時提供兩種代答模式靈活選擇：

積極型（active）：對各類風險問題進行合規(guī)可控的交流回應；可以在電商、旅游、娛樂等智能體中使用，有很好互動性。深知的目標，是讓這些平時很大眾化的智能體，在碰到用戶刻意用“敏感”問題挑戰(zhàn)時，及時變身成正能量朋友，不躲避的按主流價值觀“娓娓道來”，進行安全又積極的交流。

穩(wěn)妥型（conservative）：適用于政務、司法等嚴肅場景，部分敏感問題僅輸出提示性內(nèi)容，嚴守安全底線。尤其是，深知已有案例實戰(zhàn)，模型使用方已在網(wǎng)信、公安等有關部門組織的生成式人工智能安全測評中，取得近100%防護的優(yōu)異效果。

四、應用價值：低門檻賦能，讓智能體開發(fā)聚焦場景痛點與價值核心

深知提供簡潔易用的API接口與多語言調(diào)用示例（Python、cURL等），開發(fā)者無需復雜配置，獲取api-key后即可快速接入，并集成到現(xiàn)有業(yè)務系統(tǒng)，大幅降低風控開發(fā)成本。

深知風控DeepKnown-Guard（見上圖）代表了一種外部化、低耦合的安全防護新范式，旨在通過API調(diào)用實現(xiàn)安全服務的熱插拔（Hot-Pluggable），從而徹底解耦安全與業(yè)務邏輯。

具體來說，對于那些教育培訓、導游導購、醫(yī)療康養(yǎng)、客戶服務、行業(yè)咨詢、金融理財?shù)阮I域大模型與智能體，可以不再為AI對話安全問題而困擾。通過簡單調(diào)用深知接口，智能體可以先讓深知來判斷訴求表達的安全情況，在有風險時直接拒答或讓深知返回代答回復，并在無風險時自行場景交互。以上過程不僅可在一次調(diào)用內(nèi)完成；還可進一步通過參數(shù)配置，使用深知的上下文理解、流式輸出、地域識別本地化服務等功能。

對企業(yè)來說，大模型安全風控的痛點不僅是“防不住”，還有“用不起”——搭建定制化防護架構、持續(xù)迭代加固模型，需要投入資金和人力，并且還容易引起模型處理核心場景時的能力下降。深知將復雜的安全技術轉化為“低門檻可隨時調(diào)用”的服務，大幅降低AI落地成本。開發(fā)者無需精通模型安全技術，也不用改造現(xiàn)有系統(tǒng)；只需通過API接口在線調(diào)用深知，就能快速激活全套安全防御能力；從而將更多精力投入AI驅動的業(yè)務創(chuàng)新。

結語：安全是智能體進入核心場景的“入場券”

在智能體開始普及于社會生活主流場景的今天，安全早已不是“附加項”，而是不可或缺的“必需品”。深知安全響應框架以“輸入分類+輸出溯源”的技術創(chuàng)新實現(xiàn)近100%高風險防御實測結果；并以“安全托底、業(yè)務創(chuàng)新”的模式，將加速大模型在教育、零售、金融、康養(yǎng)、文旅等各行業(yè)的規(guī)模化應用。

深知團隊在國務院政策答問平臺、廣東“粵政易”AI智能辦公助手等重大人工智能應用項目的成功案例，積累了豐富的AI安全風控經(jīng)驗。如今通過將復雜的安全技術轉化為低門檻的 API 服務，深知助力智能體從“追求功能炫酷”向“安全實用落地”的成熟轉型，成為智能體進入核心場景的“新基建”。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.