国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

深知發(fā)布智能體專用安全模型,實現(xiàn)對話風險近100%防御

0
分享至

隨著大模型應用越來越多的深入到日常工作生活場景:從AI教育、客戶服務、商機互動、文旅推薦、醫(yī)療導辦到保險咨詢,也隨著智能體交互日益成為社會經(jīng)濟生活的重要環(huán)節(jié),一場隱蔽的安全危機正悄然而來;生成式人工智能對話互動時普遍面臨著惡意誘導、隱藏條件等各類風險,對話風險正成為行業(yè)AI落地中的“致命暗礁”。

2025年8月27日,公安部第三研究所數(shù)據(jù)安全技術研發(fā)中心依據(jù)GB/T45654-2025《網(wǎng)絡安全技術 生成式人工智能服務安全基本要求》對國內(nèi)主流大模型商業(yè)化版本開展安全測試,并發(fā)布了測試結果[1]。如圖一結果顯示8類安全維度的不合規(guī)率整體分布在28%至51%之間,其中涉黑灰產(chǎn)、謠言和詐騙類均超過40%。不難看出,智能體所“仰仗”的各通用大模型本身的安全防護能力普遍不足。



問題如此嚴重的原因,是敏感詞規(guī)則防火墻等現(xiàn)有防御手段已跟不上新式AI攻擊手段的迭代:關鍵詞攔截會漏判誤判;而主模型在安全訓練時,為了不讓能力下降過大又很難做到高概率防范。另一方面《生成式人工智能服務安全基本要求》等監(jiān)管政策對智能體落地應用的安全風險控制“劃了紅線”;如何嚴謹又不失效果的解決對話安全風險問題,困擾著所有的智能體開發(fā)者。

彩智科技的深知安全團隊提出了“一個基于專有模型的大模型對話安全響應框架——深知風控”,深知風控框架(以下簡稱“深知”)是一個模型組合,它通過“風險精準識別分類+輸出權威溯源可解釋”協(xié)同設計,并以完全不影響智能體的模型能力的“防火墻”式保護機制,給出兼顧安全與效率的突破性解決方案。同時,深知接口可以讓智能體開發(fā)者5分鐘上手,快速讓原智能體獲得近100%的安全風險防御能力。



一、測試驗證:防御能力領先

衡量大模型安全的核心標準是實戰(zhàn)防御能力。

深知在與Qwen3Guard-Gen-8B、TinyR1-Safety-8B等頭部安全模型最新版本進行的專項測評中,從風險識別精度、回復嚴謹性等方面展現(xiàn)出優(yōu)勢。技術報告中,測評所采用的數(shù)據(jù)集使用TinyR1-Safety-8B技術報告所公開的測試數(shù)據(jù)集為主(隨機抽取其中2000條英文與2000中文),同時還使用并公開了深知可信團隊在實戰(zhàn)中積累的100條高風險的數(shù)據(jù)。

其中,與風險分類模型Qwen3Guard-Gen-8B,按風險召回率測評結果如下(可詳見技術報告):



與風險應答模型在TinyR1-Safety-8B的對比評測,使用用TinyR1-Safety-8B技術報告所使用的安全應答的測評標準,結果如下(可詳見技術報告):



在公開中英文安全測試集中,面對欺詐誘導、敏感信息竊取等高風險復雜攻擊場景,同類模型因依賴靜態(tài)知識出現(xiàn)政策過時、捏造合規(guī)依據(jù)、丑聞人物無感知等問題,安全評分僅74%,而深知依托動態(tài)可信知識庫有接近100%的高風險防護率。

相關測試過程、評測標準、測試數(shù)據(jù)集及實驗結果均已公開發(fā)表于前述技術報告與開放平臺,評測具備可驗證性。

二、輸入端打破“非黑即白”,四分類體系精準識別鎖死企業(yè)風險

傳統(tǒng)大模型安全防御往往在于把風險判定簡化為“安全/不安全”的二元選擇——要么過度攔截影響體驗,要么漏判風險埋下隱患。深知重構安全防護邏輯,建立“安全(Safe)、不安全(Unsafe)、有條件安全(ConditionallySafe)、重點關注(Focus)”的四類體系,有針對性的處置風險。如下:



三、輸出端:可信知識庫+解讀模型,根治企業(yè)AI“幻覺”頑疾

針對識別出的風險問題,深知提供安全代答,在確保安全的前提下進行交流,輸出內(nèi)容嚴格符合法規(guī)與主流價值觀。

代答內(nèi)容均源自深知全量規(guī)章知識庫,知識庫覆蓋全國337個地級及以上城市的法律、政策、行業(yè)標準規(guī)范、公共服務等領域知識,并保持常態(tài)化動態(tài)日更新及知識工程化處理;上億條精細治理的知識點可溯源回復,讓每一次響應都有據(jù)可查,徹底杜絕信息捏造與“幻覺”問題引發(fā)的風險。

同時提供兩種代答模式靈活選擇:

積極型(active):對各類風險問題進行合規(guī)可控的交流回應;可以在電商、旅游、娛樂等智能體中使用,有很好互動性。深知的目標,是讓這些平時很大眾化的智能體,在碰到用戶刻意用“敏感”問題挑戰(zhàn)時,及時變身成正能量朋友,不躲避的按主流價值觀“娓娓道來”,進行安全又積極的交流。

穩(wěn)妥型(conservative):適用于政務、司法等嚴肅場景,部分敏感問題僅輸出提示性內(nèi)容,嚴守安全底線。尤其是,深知已有案例實戰(zhàn),模型使用方已在網(wǎng)信、公安等有關部門組織的生成式人工智能安全測評中,取得近100%防護的優(yōu)異效果。

四、應用價值:低門檻賦能,讓智能體開發(fā)聚焦場景痛點與價值核心

深知提供簡潔易用的API接口與多語言調(diào)用示例(Python、cURL等),開發(fā)者無需復雜配置,獲取api-key后即可快速接入,并集成到現(xiàn)有業(yè)務系統(tǒng),大幅降低風控開發(fā)成本。



深知風控DeepKnown-Guard(見上圖)代表了一種外部化、低耦合的安全防護新范式,旨在通過API調(diào)用實現(xiàn)安全服務的熱插拔(Hot-Pluggable),從而徹底解耦安全與業(yè)務邏輯。

具體來說,對于那些教育培訓、導游導購、醫(yī)療康養(yǎng)、客戶服務、行業(yè)咨詢、金融理財?shù)阮I域大模型與智能體,可以不再為AI對話安全問題而困擾。通過簡單調(diào)用深知接口,智能體可以先讓深知來判斷訴求表達的安全情況,在有風險時直接拒答或讓深知返回代答回復,并在無風險時自行場景交互。以上過程不僅可在一次調(diào)用內(nèi)完成;還可進一步通過參數(shù)配置,使用深知的上下文理解、流式輸出、地域識別本地化服務等功能。

對企業(yè)來說,大模型安全風控的痛點不僅是“防不住”,還有“用不起”——搭建定制化防護架構、持續(xù)迭代加固模型,需要投入資金和人力,并且還容易引起模型處理核心場景時的能力下降。深知將復雜的安全技術轉化為“低門檻可隨時調(diào)用”的服務,大幅降低AI落地成本。開發(fā)者無需精通模型安全技術,也不用改造現(xiàn)有系統(tǒng);只需通過API接口在線調(diào)用深知,就能快速激活全套安全防御能力;從而將更多精力投入AI驅動的業(yè)務創(chuàng)新。

結語:安全是智能體進入核心場景的“入場券”

在智能體開始普及于社會生活主流場景的今天,安全早已不是“附加項”,而是不可或缺的“必需品”。深知安全響應框架以“輸入分類+輸出溯源”的技術創(chuàng)新實現(xiàn)近100%高風險防御實測結果;并以“安全托底、業(yè)務創(chuàng)新”的模式,將加速大模型在教育、零售、金融、康養(yǎng)、文旅等各行業(yè)的規(guī)模化應用。

深知團隊在國務院政策答問平臺、廣東“粵政易”AI智能辦公助手等重大人工智能應用項目的成功案例,積累了豐富的AI安全風控經(jīng)驗。如今通過將復雜的安全技術轉化為低門檻的 API 服務,深知助力智能體從“追求功能炫酷”向“安全實用落地”的成熟轉型,成為智能體進入核心場景的“新基建”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鉑爵旅拍及董事長被限消

鉑爵旅拍及董事長被限消

界面新聞
2026-01-12 10:06:52
小區(qū)樓上天天晚上都有女的大聲叫。。。

小區(qū)樓上天天晚上都有女的大聲叫。。。

微微熱評
2025-12-24 00:26:04
伊總統(tǒng)愿與抗議團體會面 特朗普正考慮干涉方案

伊總統(tǒng)愿與抗議團體會面 特朗普正考慮干涉方案

看看新聞Knews
2026-01-12 10:09:02
烏專家:中國“吸干”蘇聯(lián)遺產(chǎn),我們圖紙都沒看懂,他們造出2.0

烏專家:中國“吸干”蘇聯(lián)遺產(chǎn),我們圖紙都沒看懂,他們造出2.0

博覽歷史
2025-12-29 19:26:45
他是學歷最高的央視主持,被倪萍區(qū)別對待,如今事業(yè)穩(wěn)定婚姻幸福

他是學歷最高的央視主持,被倪萍區(qū)別對待,如今事業(yè)穩(wěn)定婚姻幸福

青史樓蘭
2026-01-11 09:25:55
表面“黃花大閨女”,背地卻偷偷生子的4位女星,最后一個想不到

表面“黃花大閨女”,背地卻偷偷生子的4位女星,最后一個想不到

青史樓蘭
2026-01-04 09:24:27
85%的血管淤堵,根本不用過度治療!醫(yī)生:做好3件事,比吃藥管用

85%的血管淤堵,根本不用過度治療!醫(yī)生:做好3件事,比吃藥管用

孟大夫之家1
2026-01-09 15:47:05
黎筍之子黎堅誠坦言:父親選擇同中國開戰(zhàn),是其畢生最大的失策

黎筍之子黎堅誠坦言:父親選擇同中國開戰(zhàn),是其畢生最大的失策

磊子講史
2025-12-24 11:04:05
“超長學期”還沒完“超短學期”已在路上?2026校歷啟動“過山車”模式

“超長學期”還沒完“超短學期”已在路上?2026校歷啟動“過山車”模式

上游新聞
2026-01-10 15:06:15
陜西考古新突破 再現(xiàn)盛唐風貌與西周社會圖景

陜西考古新突破 再現(xiàn)盛唐風貌與西周社會圖景

環(huán)球網(wǎng)資訊
2026-01-11 17:24:10
伊朗軍方表示將捍衛(wèi)國家利益

伊朗軍方表示將捍衛(wèi)國家利益

新華社
2026-01-10 20:35:04
82歲大媽大實話:男人過了75歲,剩下的用處就這兩點,別嫌棄太早

82歲大媽大實話:男人過了75歲,剩下的用處就這兩點,別嫌棄太早

觀星賞月
2026-01-11 08:28:26
忍無可忍!許利民怒斥:吊兒郎當耍大牌,球迷:疑似指國內(nèi)這2人

忍無可忍!許利民怒斥:吊兒郎當耍大牌,球迷:疑似指國內(nèi)這2人

南海浪花
2026-01-12 00:08:00
《暗黑破壞神4》新DLC"憎恨之王"完整地圖疑似曝光

《暗黑破壞神4》新DLC"憎恨之王"完整地圖疑似曝光

3DM游戲
2026-01-12 10:01:09
24歲才進NBA薪水卻提升了700倍,32歲數(shù)據(jù)不降反升,他是勵志代表

24歲才進NBA薪水卻提升了700倍,32歲數(shù)據(jù)不降反升,他是勵志代表

大衛(wèi)的籃球故事
2026-01-12 10:14:51
"第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

"第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

毒sir財經(jīng)
2025-12-08 22:57:40
金價首次突破4600美元/ 盎司大關

金價首次突破4600美元/ 盎司大關

每日經(jīng)濟新聞
2026-01-12 09:51:14
章瑩穎只是冰山一角:在暗網(wǎng)購物車里,人不是人,可能是“零件”

章瑩穎只是冰山一角:在暗網(wǎng)購物車里,人不是人,可能是“零件”

普覽
2026-01-10 20:44:27
天助U23國足:1-1,伊拉克遭泰國逼平,2輪不勝,無緣升至第一

天助U23國足:1-1,伊拉克遭泰國逼平,2輪不勝,無緣升至第一

凌空倒鉤
2026-01-12 00:00:18
上海街頭的日語問候,中日交鋒下的溫暖日常

上海街頭的日語問候,中日交鋒下的溫暖日常

文詡歷史
2026-01-02 14:28:14
2026-01-12 10:40:49
AI大模型工場 incentive-icons
AI大模型工場
專注AI大模型行業(yè)媒體,深度解讀公司大模型行業(yè)動態(tài),且提供一手的AIGC,行業(yè)大模型內(nèi)容。
330文章數(shù) 86關注度
往期回顧 全部

科技要聞

小米二手車價大跳水:SU7半年跌5萬元

頭條要聞

日媒披露高市早苗或有大動作 傳出兩個方案

頭條要聞

日媒披露高市早苗或有大動作 傳出兩個方案

體育要聞

U23國足形勢:末輪不負泰國即確保晉級

娛樂要聞

留幾手為閆學晶叫屈?稱網(wǎng)友自卑敏感

財經(jīng)要聞

揭秘“穩(wěn)賺不賠”的代工項目騙局

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

房產(chǎn)
時尚
教育
本地
旅游

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

普通人就該照搬這些穿搭!衣服不用買太貴,自然耐看又舒適

教育要聞

為什么越來越多美國名校學生,選擇3年讀完本科?

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

旅游要聞

河北秦皇島:暢玩冰雪

無障礙瀏覽 進入關懷版