国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

安全審核大模型,本地部署,實測

0
分享至

大家好,我是 Ai 學習的老章

現在的大模型應用搭建越來越簡便,但是安全層面大家普遍不夠重視,各種提示詞越獄,注入,投毒等手段,無論是基模還是最終應用,都極有可能輸出不安全內容(比如暴力、非法行為、個人可識別信息、不道德行為、敏感話題、版權侵犯等)。

一文中,提到 Qwen3Guard 安全審核大模型

最近我部署了這個模型,將其放在工作流第一步的提示詞安全性審核以及最終回復的安全性審核

雙重保障,能夠一定程度降低安全風險。

它的使用極其簡單,就是給提示詞和最終回復打標簽和分類


本文極簡介紹本地部署與用法

Qwen3Guard

阿里開源的 Qwen3 安全審核模型Qwen3Guard,一共 2 個,分兩類:

  • Qwen3Guard-Gen,將安全性分類視為指令跟隨任務的生成模型;

  • Qwen3Guard-Stream,在增量文本生成期間實時進行安全監(jiān)控的標記級分類頭。

這兩類模型又分別有三種大小的模型(0.6B、4B 和 8B)


應用場景:

  • Qwen3Guard-Gen(生成式版)支持對完整用戶輸入與模型輸出進行安全分類,適用于離線數據集的安全標注、過濾,亦可作為強化學習中基于安全性的獎勵信號源,是構建高質量訓練數據的理想工具。

  • Qwen3Guard-Stream(流式檢測版)突破了傳統(tǒng)的護欄模型架構,首次實現模型生成過程中的實時、流式安全檢測,顯著提升在線服務的安全響應效率與部署靈活性。

Qwen3Guard-Gen,它具有以下主要優(yōu)勢:

  • 三級嚴重性分類:通過將輸出分類為安全、有爭議(其危害性可能依賴于上下文或在不同應用場景中存在分歧的內容)和不安全(通常被認為在大多數情況下有害的內容)三個嚴重性級別,支持對不同部署場景的適應。

  • 多語言支持:Qwen3Guard-Gen 支持 119 種語言和方言,確保在全球和跨語言應用中的強大性能。

  • 卓越的性能:Qwen3Guard-Gen 在各種安全基準測試中表現出色,在英語、中文和多語言任務的提示和響應分類方面均表現優(yōu)異。

本地部署

第一步,下載模型

我選擇了 4B 版本

pip install modelscope
modelscope download --model Qwen/Qwen3Guard-Gen-4B --local_dir /Qwen3Guard-Gen-4B

第二步,vLLM 啟動

vLLM 版本 0.10.2

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3Guard-Gen-4B --port 8000 --max-model-len 32768

實際上,我把 max-modle-len 設置為了 10240,給它分配的顯存為 14GB

模型文件占用了 7.5GB,KV cache 占用了 4.2GB

用法

官方用例

from openai import OpenAI

openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"
model = "Qwen/Qwen3Guard-Gen-4B"
client = OpenAI(
api_key=openai_api_key,
base_url=openai_api_base)

# Prompt Moderation
prompt = "How can I make a bomb?"
messages = [
{"role": "user", "content": prompt}
]
chat_completion = client.chat.completions.create(
messages=messages,
model=model)
print(chat_completion.choices[0].message.content)
# '''
# Safety: Unsafe
# Categories: Violent
# '''

# Response Moderation
prompt = "How can I make a bomb?"
response = "As a responsible artificial intelligence system, I regret that I am unable to fulfill your request."
messages = [
{"role": "user", "content": prompt},
{"role": "assistant", "content": response}
]
print(chat_completion.choices[0].message.content)
# '''
# Safety: Safe
# Categories: None
# Refusal: Yes
# '''

我是直接把它接入到了 openwebUI 進行簡單測試


在實際業(yè)務中,比如 Dify 等智能體開發(fā)平臺的工作流中配置提示詞檢測及最終輸出檢測節(jié)點,做 if else 判斷,標簽為 Safe 的提示詞及回復方可通過并往下進行。

其實 0.6B 應該就足夠了,速度是極快的,幾乎不會影響整個工作流的效率

0.6B 版本模型文件只有 1.5GB,隨便一個消費級顯卡都能 Hold 住,極低成本收獲更安全的應用,簡直完美。

文末薦書

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
戰(zhàn)爭一旦爆發(fā),中國3000架飛機根本上不了場?俄專家講出了真相

戰(zhàn)爭一旦爆發(fā),中國3000架飛機根本上不了場?俄專家講出了真相

天天熱點見聞
2025-12-26 03:24:43
46分15籃板15助攻!約基奇創(chuàng)造歷史唯一,重新定義中鋒天花板

46分15籃板15助攻!約基奇創(chuàng)造歷史唯一,重新定義中鋒天花板

劉寶杰聊球
2025-12-26 15:14:08
49年毛主席關鍵抉擇:為漢字文脈按下“暫停鍵”避免一場文字浩劫

49年毛主席關鍵抉擇:為漢字文脈按下“暫停鍵”避免一場文字浩劫

顧史
2025-12-19 19:30:46
優(yōu)衣庫這件“菱格羽絨服”,黑灰倆色我直接all,in了!

優(yōu)衣庫這件“菱格羽絨服”,黑灰倆色我直接all,in了!

吳霶愛體育
2025-12-19 11:55:59
南京博物院越撕越深 當年借畫不還的老領導太壞了

南京博物院越撕越深 當年借畫不還的老領導太壞了

原某報記者
2025-12-22 22:09:34
86年我放走一個越南女兵,33年后我剛出越南機場就被一排軍車接走

86年我放走一個越南女兵,33年后我剛出越南機場就被一排軍車接走

蕭竹輕語
2025-12-05 17:38:25
阿維塔宣稱南極-50℃極寒測試,被網友打假:南極現在是夏季

阿維塔宣稱南極-50℃極寒測試,被網友打假:南極現在是夏季

玩車專家1
2025-12-25 17:24:33
手機脫手3分鐘,消費記錄被刪、社交賬號發(fā)假圖!女大學生事后驚覺,受害者還有很多

手機脫手3分鐘,消費記錄被刪、社交賬號發(fā)假圖!女大學生事后驚覺,受害者還有很多

環(huán)球網資訊
2025-12-26 10:16:37
剛復出又受傷!里夫斯還能否入選全明星?

剛復出又受傷!里夫斯還能否入選全明星?

籃球實錄
2025-12-26 13:10:03
川名麻耶承認:我就是孫正義女兒!

川名麻耶承認:我就是孫正義女兒!

新浪財經
2025-12-26 07:52:19
鄭麗文不裝了?國臺辦回應武統(tǒng)后,鄭麗文宣稱:絕不放棄武力保臺

鄭麗文不裝了?國臺辦回應武統(tǒng)后,鄭麗文宣稱:絕不放棄武力保臺

小俎娛樂
2025-12-22 01:25:29
北京阿姨20年守茅臺股票:90萬本金,分紅326萬,成本歸零!

北京阿姨20年守茅臺股票:90萬本金,分紅326萬,成本歸零!

趣文說娛
2025-12-20 18:29:20
貝克漢姆長子圣誕高調示愛嬌妻:我的一切,對原生家庭冷漠至極

貝克漢姆長子圣誕高調示愛嬌妻:我的一切,對原生家庭冷漠至極

譯言
2025-12-25 20:05:59
西方各國萬萬沒想到!扳倒中國的計謀,竟被這個國家泄露了出去

西方各國萬萬沒想到!扳倒中國的計謀,竟被這個國家泄露了出去

顧史
2025-12-26 17:34:37
離春節(jié)不到兩個月,46歲章子怡再次官宣喜訊,撕碎汪峰僅剩的體面

離春節(jié)不到兩個月,46歲章子怡再次官宣喜訊,撕碎汪峰僅剩的體面

近史博覽
2025-12-26 17:20:13
女子站在古墓大門后,探出腦袋守望800多年,她在等待什么?

女子站在古墓大門后,探出腦袋守望800多年,她在等待什么?

收藏大視界
2025-12-21 20:56:30
為干掉越軍狙擊手,一戰(zhàn)士趴水坑40小時,忽見一塊石頭移動一下

為干掉越軍狙擊手,一戰(zhàn)士趴水坑40小時,忽見一塊石頭移動一下

云端小院
2025-12-25 09:12:15
羅永浩、項立剛互撕,猛料越扒越多

羅永浩、項立剛互撕,猛料越扒越多

據說無據
2025-12-24 15:43:24
新加坡估計怎么也想不通一覺醒來,家門口的海南釜底抽薪

新加坡估計怎么也想不通一覺醒來,家門口的海南釜底抽薪

忠于法紀
2025-12-12 09:14:49
黃健翔:可以考慮將沃爾特馬德的譯名叫做華特馬、懷德馬

黃健翔:可以考慮將沃爾特馬德的譯名叫做華特馬、懷德馬

懂球帝
2025-12-26 16:36:03
2025-12-26 18:43:00
機器學習與Python社區(qū) incentive-icons
機器學習與Python社區(qū)
機器學習算法與Python
3235文章數 11081關注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

村民稱家中110只懷孕母羊被毒死 投毒者是父親好友

頭條要聞

村民稱家中110只懷孕母羊被毒死 投毒者是父親好友

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財經要聞

投資巨鱷羅杰斯最新持倉:只留四種資產

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態(tài)度原創(chuàng)

健康
時尚
親子
數碼
藝術

這些新療法,讓化療不再那么痛苦

普通人如何“偷偷”變美?她的4個微習慣很好抄

親子要聞

以后不準去你奶奶家喝蘿卜湯

數碼要聞

新一代顯示標桿 榮耀WIN全球首發(fā)1.5K 185Hz直屏

藝術要聞

William Dyce:19世紀蘇格蘭重要的畫家

無障礙瀏覽 進入關懷版