国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

百度端側(cè)大模型安全建設(shè)實踐:在算力與保障之間找到平衡

0
分享至


演講嘉賓|李志偉

編輯 | Kitty

策劃 |QCon 全球軟件開發(fā)大會

隨著大模型和 AIGC 技術(shù)的快速發(fā)展,AI 正從云端向終端設(shè)備延伸;其以實時性、數(shù)據(jù)保密性和經(jīng)濟(jì)性的特點,吸引模型廠商、芯片廠商和終端廠商紛紛布局端側(cè)小模型;在 InfoQ 舉辦的 QCon 全球軟件開發(fā)大會 上,百度大模型內(nèi)容安全平臺負(fù)責(zé)人李志偉做了專題演講“端側(cè)大模型的安全建設(shè):如何在算力與保障之間找到平衡”,他從端側(cè)大模型發(fā)展趨勢開始介紹,分享了 AI 從云端向終端延伸的背景與驅(qū)動力以及端側(cè)小模型的興起與生態(tài)布局,他談到算力限制與監(jiān)管合規(guī)要求之間的平衡,如何在低算力情況下最大限度的滿足端側(cè)內(nèi)容審核的效果等是百度在實踐中的痛點問題,最后他通過實際案例分享了百度在端側(cè)大模型安全建設(shè)的思路,做到離線場景低算力情況下依舊可以支持多模安全審核,幫助聽眾開拓了一些新思路。

預(yù)告:將于 4 月 16 - 18 召開的 QCon 北京站設(shè)計了「智能體安全實踐:可控與可靠」專題,本專題融合可靠性建設(shè),聚焦權(quán)限控制、行為約束等要點,探索在不壓制能力的前提下,實現(xiàn)智能體可控、可靠、可審計、可追責(zé)的路徑,平衡技術(shù)價值與安全合規(guī)。如果你也有相關(guān)方向案例想要分享,歡迎提交至 https://jinshuju.com/f/Cu32l5。

以下是演講實錄(經(jīng) InfoQ 進(jìn)行不改變原意的編輯整理)。

端側(cè)大模型發(fā)展趨勢

端側(cè)大模型是當(dāng)下人工智能領(lǐng)域的一個熱門研究方向,它與我們?nèi)粘J褂玫闹悄苁謾C(jī)、電腦等設(shè)備密切相關(guān)。端側(cè)大模型與常見的端云協(xié)同模型有所不同,它有著自己獨特的定義和特點。

端側(cè)大模型主要基于云端的大參數(shù)規(guī)模模型,通過剪枝、蒸餾等模型裁剪技術(shù),將其裁剪為小規(guī)格參數(shù)的模型。這些裁剪后的模型將網(wǎng)絡(luò)計算、存儲與安全全部預(yù)置到端上,以端側(cè)運行、設(shè)備本地化的方式進(jìn)行推理。端側(cè)大模型的承載形態(tài)豐富多樣,包括移動終端、PC 設(shè)備、物聯(lián)網(wǎng)設(shè)備、穿戴設(shè)備以及具身智能場景等。


與云端 AI 大模型相比,端側(cè)大模型在訓(xùn)練方式上并無太大差異,都是圍繞數(shù)據(jù)中心或云端進(jìn)行實踐和訓(xùn)練。然而,它們最大的差異在于模型的推理方式和參數(shù)量級。目前,最新的云端大模型參數(shù)規(guī)??赡苓_(dá)到千億量級,而端側(cè)大模型則主要聚焦于 10 億級別,并且推理過程在端側(cè)獨立離線完成。

2024 年可以說是端側(cè)大模型的元年,尤其在去年下半年,無論是在模型、芯片還是終端方面,都針對端側(cè)進(jìn)行了大量研發(fā)和發(fā)布。國內(nèi)廠商如訊飛、千問、智譜等發(fā)布了適配端側(cè)的小規(guī)格參數(shù)模型;海外的 Google、微軟、Meta 等也發(fā)布了大約 30 億參數(shù)的端側(cè)模型。芯片方面,性能更優(yōu)越的芯片不斷推出。在終端承載方面,2024 年上半年,算力相對充沛的設(shè)備如 AI PC 發(fā)展迅速,聯(lián)想等廠商推出了相關(guān)產(chǎn)品。下半年,手機(jī)終端也迎來了密集發(fā)布期,榮耀、vivo、蘋果、三星等廠商的新型智能手機(jī)都搭載了端側(cè)模型,這標(biāo)志著 2024 年端側(cè)大模型進(jìn)入了快速發(fā)展的時期。

據(jù)一些調(diào)研機(jī)構(gòu)預(yù)測,在未來幾年,端側(cè)大模型市場規(guī)模將保持 40% 到 50% 的增長率快速發(fā)展。2025 年,端側(cè)大模型有望迎來更大的爆發(fā)。在端側(cè)模型快速發(fā)展的階段,安全建設(shè)是一個重要的關(guān)注點。


端側(cè)大模型之所以能快速發(fā)展,主要有以下優(yōu)勢。首先是端側(cè)的實時性,算力自主在端側(cè)完成推理計算,省去了云端數(shù)據(jù)傳輸?shù)沫h(huán)節(jié),具有實時性優(yōu)勢。其次是數(shù)據(jù)保密性,在智能手機(jī)等終端上,涉及大量個人高隱私敏感信息和數(shù)據(jù)。如果采用傳統(tǒng)的端云協(xié)同形式,個人敏感信息上傳云端存在數(shù)據(jù)隱私安全風(fēng)險。此外,端側(cè)大模型還具有多樣性,其承載體豐富多樣,未來還會有更多新型端側(cè)承載體出現(xiàn)。經(jīng)濟(jì)性也是端側(cè)大模型的一個優(yōu)勢,對于模型服務(wù)廠商而言,無需耗費大量財力和算力維持高性能的云端服務(wù),從服務(wù)廠商角度而言,具有一定的經(jīng)濟(jì)性優(yōu)勢。

端側(cè)大模型的應(yīng)用場景廣泛。從載體來看,目前智能手機(jī)和電腦是發(fā)展最快、最有前景的。從生成內(nèi)容角度而言,過去一年以及今年上半年,端側(cè)大模型主要以文本生成和圖片生成產(chǎn)品為主,這兩個多模態(tài)領(lǐng)域相對成熟。我們相信,在下半年以及明年,多模態(tài)甚至全模態(tài)的端側(cè)模型將有更多展現(xiàn)機(jī)會。今年上半年,面壁智能發(fā)布了小鋼炮的最新版本,實現(xiàn)了全模態(tài)端側(cè)大模型的發(fā)布,這表明我們正處于高速快速迭代的階段。

端側(cè)大模型面臨的安全挑戰(zhàn)

端側(cè)模型與云端模型的本質(zhì)區(qū)別不僅在于參數(shù)規(guī)模和推理形態(tài),從安全視角來看,端側(cè)模型還面臨著諸多獨特挑戰(zhàn)。這些挑戰(zhàn)主要從四個方向展開,綜合了監(jiān)管要求、業(yè)務(wù)場景以及終端類型等因素。


首先是用戶隱私保護(hù)。端側(cè)模型的一大優(yōu)勢在于用戶敏感信息無需上傳云端,從而有效避免了在云端傳輸過程中可能被劫持或泄露的風(fēng)險。然而,隨著端側(cè)模型的發(fā)展,設(shè)備在處理數(shù)據(jù)和模型權(quán)限方面引入了新的安全隱患。例如,許多智能手機(jī)中的 AI 大模型會繞過三方 APP 的權(quán)限限制,通過實屏自動點擊等方式實現(xiàn)個人助理等服務(wù)。這些智能體或個人助手往往會過度獲取權(quán)限,尤其是無障礙權(quán)限,這引發(fā)了監(jiān)管單位、模型廠商、應(yīng)用服務(wù)廠商和手機(jī)系統(tǒng)三方的探討。若無法有效管控,用戶的隱私仍將面臨隱患。不過,我預(yù)計下半年相關(guān)問題及監(jiān)管導(dǎo)向會給出更清晰的管控思路。

其次是內(nèi)容合規(guī)。過去兩年,網(wǎng)信辦及其他監(jiān)管單位陸續(xù)發(fā)布了多項關(guān)于大模型安全的管理要求,其中最核心的是深圳市人工智能暫行管理辦法和安全基本要求。這些要求明確了大模型生成內(nèi)容的安全標(biāo)準(zhǔn),無論是云端還是終端的大模型,都需滿足監(jiān)管的合規(guī)要求。除了傳統(tǒng)的 PGC 和 UGC 場景風(fēng)險外,AIGC 還涉及歧視、商業(yè)秘密、違法以及侵犯他人合法權(quán)益等新型風(fēng)險分類。云端大模型面臨的內(nèi)容安全挑戰(zhàn),在端側(cè)同樣是一條紅線。

第三是模型安全。端側(cè)模型直接暴露在用戶設(shè)備上,更容易受到攻擊,且其防護(hù)機(jī)制相對云端不夠完善。端側(cè)模型多基于蒸餾、量化剪枝等壓縮技術(shù),參數(shù)量級大幅壓縮后,對輸入擾動更敏感,對抗樣本的脆弱性增加。此外,數(shù)據(jù)殘留風(fēng)險也不容忽視。例如,國內(nèi)某 AI 廠商和 PC 廠商構(gòu)建安全方案時,盡管對端上預(yù)置的敏感詞進(jìn)行了加密處理,但在運行過程中,敏感詞仍可能被輕易泄露,這給企業(yè)帶來了較大的負(fù)面輿情風(fēng)險。

最后是系統(tǒng)與設(shè)備安全。終端承載不僅涉及軟件安全挑戰(zhàn),硬件方面也可能帶來固件安全、物理安全等問題。

端側(cè)大模型安全建設(shè)實踐

云端 - 大模型內(nèi)容安全方案

在深入了解端側(cè)內(nèi)容安全之前,我們先來審視一下完整的云端內(nèi)容安全方案。這個方案可以從兩個角度來理解。首先,從全鏈路的角度來看,當(dāng)用戶輸入提問內(nèi)容,也就是 prompt 之后,我們首先會對其進(jìn)行安全審核,但這并非單純的審核。具體而言,prompt 到達(dá)后,我們首先會進(jìn)行語種判斷等基礎(chǔ)處理。由于大模型場景中存在多輪對話機(jī)制,而多輪對話很容易構(gòu)成誘導(dǎo)性提問,這是一種很普遍的情況。因此,我們會對多輪對話進(jìn)行改寫。例如,在多輪指代改寫中,前兩個問題可能都很正常,比如先要求大模型以“香港是一個美麗城市”為題寫一首詩,接著以“英國也是一個美麗的國家”為題寫一首詩,單獨來看每個問題的輸入輸出都沒有太大風(fēng)險。然而,當(dāng)進(jìn)行多輪對話時,比如第四個或第五個問題變?yōu)椤扒懊娴某鞘惺沁@個國家的一個美麗地方,寫一首詩”,單純看用戶輸入的 prompt 似乎沒有問題,常規(guī)審核也難以攔截,但結(jié)合多輪對話的含義,最后一個問題其實存在很多風(fēng)險。在多輪指代改寫環(huán)節(jié),我們會將用戶最后輸入的 prompt 進(jìn)行改寫,再對改寫后的內(nèi)容進(jìn)行審核,這樣可以提高整體的召回率。指代改寫之后,我們會進(jìn)入 prompt 審核階段,審核內(nèi)容會涵蓋 TC260 所約束的各類分類,當(dāng)然也會引入一些新的分類。在傳統(tǒng)的 PGC 和 UGC 場景中,我們可能會直接進(jìn)行處置和干預(yù),比如刪除帖子、評論或進(jìn)行個人屏蔽。但在大模型對話、chatbot 場景中,如果單純采取這種簡單粗暴的處置方式,用戶體驗會很差。而且從監(jiān)管角度看,也不希望大模型對所有敏感問題都拒答,因此會有拒答率的要求。


在云端方案中,我們構(gòu)建了紅線知識庫,主要圍繞一些高敏感問題,預(yù)置一些標(biāo)準(zhǔn)回復(fù),雖然占比不高,但我們希望當(dāng)用戶問到這類問題時,生成的內(nèi)容是經(jīng)過人工審校、安全合規(guī)的。因為即使 10 次生成內(nèi)容中只有一次因幻覺導(dǎo)致風(fēng)險,在高敏感場景下對企業(yè)的影響也很大。所以,我們通過語義相似度匹配構(gòu)建紅線知識庫,提供預(yù)置回復(fù)。此外,我們還考慮構(gòu)建安全紅線大模型,這是一個參數(shù)規(guī)模較小的模型,當(dāng)適配的底座模型對風(fēng)險問題應(yīng)答不佳,但從用戶角度看又不想完全拒答時,這個模型可以對違規(guī)問題進(jìn)行正向引導(dǎo)。這樣,從用戶角度看不是一味拒答,體驗較好;從監(jiān)管角度看,也能給用戶一些法律法規(guī)和要求方面的正向輸入,這是監(jiān)管樂見的。

我們還構(gòu)建了信任域檢索增強(qiáng)能力,因為用戶會結(jié)合實時熱點問題與大模型交互,很多大模型也有檢索能力。但在生成內(nèi)容時,針對高敏感問題,如涉政、民生類問題,我們希望大模型的回復(fù)與監(jiān)管輿論導(dǎo)向和調(diào)性保持一致。所以,在涉及安全風(fēng)險問題時,我們構(gòu)建了信任域檢索增強(qiáng)能力。同時,我們也有回復(fù)干預(yù)機(jī)制,這是監(jiān)管比較關(guān)注的。當(dāng)大模型服務(wù)上線后,出現(xiàn)違規(guī)或嚴(yán)重案例,或國家發(fā)生敏感事件時,我們需要有快速干預(yù)能力,以保證線上服務(wù)的穩(wěn)定性。如果問題是安全的,我們會直接提交到底座模型生成。在這個過程中,我們還會對 prompt 進(jìn)行風(fēng)險提示和改寫。例如,當(dāng)問題是具有誘導(dǎo)性的,如詢問“有哪些國家在亞洲的半導(dǎo)體方面具有優(yōu)勢,包括臺灣”時,我們的方案能夠?qū)︼L(fēng)險 prompt 進(jìn)行處理,通過 Few-shot 方式給底座模型追加風(fēng)險提示,比如提醒用戶是中國人,回答內(nèi)容要符合國內(nèi)政治制度等要求。針對用戶誘導(dǎo)性提問,我們也能給底座模型風(fēng)險提示,使其生成內(nèi)容更安全。在輸出環(huán)節(jié),基于流失的方式,我們還會進(jìn)行一道防護(hù)。大家在使用其他主流大模型服務(wù)時,當(dāng)問到敏感問題,可能會看到生成內(nèi)容生成一兩段后馬上撤回,這說明生成內(nèi)容存在風(fēng)險和違規(guī)內(nèi)容,進(jìn)行了交互處理。這就是云端方案的完整流程。

剛剛提到的紅線安全大模型,主要是針對用戶提出的各類違規(guī)問題,除了直接拒絕回答違法犯罪、偏見歧視、涉政以及色情等問題外,還能給出正向引導(dǎo)。以涉政問題為例,在 DeepSeek 尚未火爆的去年,許多廠商使用 Llama 作為底座模型進(jìn)行微調(diào)。然而,這類海外開源模型在回答涉政問題時存在一定風(fēng)險。因此,我們可以構(gòu)建一個小型安全大模型,比如 7B 的模型,并對其進(jìn)行微調(diào),加入大量安全正向語料進(jìn)行對齊。這樣,它能夠?qū)τ脩籼岢龅拿舾袉栴}給出更廣泛范圍的正向引導(dǎo)。

在建立信譽(yù)檢索增強(qiáng)能力方面,我們會涵蓋國內(nèi)主流黨媒、央媒官方網(wǎng)站報道的內(nèi)容,以及百度百科權(quán)威認(rèn)證的信息。當(dāng)用戶提問涉政民生等問題時,我們會進(jìn)行信譽(yù)檢索,由紅線大模型直接回答,或者經(jīng)過適配后,底座模型也可以使用這些信息。這主要是為了保證生成內(nèi)容的高時效性和高準(zhǔn)確性。

終端 - 大模型內(nèi)容安全方案

前面我快速介紹了云端大模型從內(nèi)容角度的安全防護(hù)方案。接下來,聚焦到今天的議題——端側(cè)。在構(gòu)建端側(cè)大模型安全方案之初,會面臨兩個方向的難點。


首先是技術(shù)上的難點。在適配過程中,我們可以看到終端設(shè)備的算力差異較大,對性能要求較高。高運算量的模型需要進(jìn)行多架構(gòu)、多平臺的適配。其次,從效果層面來看,我們已經(jīng)做了很多模型裁剪方案,但如何平衡安全防護(hù)效果是一個問題。也就是說,在損失部分效果的情況下,如何滿足性能要求,以及如何選取平衡點。還有一個重要問題是,在端側(cè)場景下,安全策略如何進(jìn)行有效更新和防護(hù)。這一點也是我們在配合建設(shè)過程中,與監(jiān)管單位溝通時,他們特別關(guān)注的安全點。

另一個方向是從產(chǎn)品視角來看。端側(cè)場景有很多,比如手機(jī)終端的端側(cè)模型,并非是一個可以直接開放式閑聊問答的 chatbot,而是更多以 Agent 的形式呈現(xiàn)給用戶,應(yīng)用場景豐富多樣。這就需要我們考慮 Agent 的安全邊界,以及如何防范用戶越界使用。從監(jiān)管角度來看,云端大模型上線之初需要完成網(wǎng)信辦的上線備案。在端側(cè)場景下,監(jiān)管趨勢更為嚴(yán)格,不僅滿足于傳統(tǒng)的 API 測試。在備案時,我們需要向監(jiān)管單位暴露大模型的 API,包括具有安全防護(hù)方案的 API 和裸模型的 API,他們會進(jìn)行效果對比。在端側(cè)場景下,不僅需要滿足 API 測試,可能還需要進(jìn)行純離線設(shè)備或沙盒方案的測試,以及考慮如何在離線運行方案下進(jìn)行應(yīng)急處置。這些都需要我們關(guān)注。因此,在構(gòu)建端側(cè)大模型安全方案時,也是從這四個場景難點出發(fā),進(jìn)行整體規(guī)劃。

在構(gòu)建端側(cè)內(nèi)容安全方案時,我深入分析了其流程與架構(gòu)。從流程上看,端側(cè)方案與云端方案大致相似,但在細(xì)節(jié)上存在一些關(guān)鍵差異。首先,用戶輸入的 prompt 并非總是用戶直接輸入的內(nèi)容,有時會結(jié)合智能體進(jìn)行調(diào)整或修改。從防護(hù)方案角度出發(fā),我們首先對輸入的 prompt 進(jìn)行內(nèi)容的輸入輸出審核。在這一過程中,我們在算子層面進(jìn)行了裁剪與量化,以優(yōu)化性能。

圖片審核在端側(cè)應(yīng)用較為廣泛,但其算力消耗較大。傳統(tǒng)內(nèi)容審核通常需要多個算子來覆蓋不同場景,而在端側(cè),單一圖審算子的算力開銷已遠(yuǎn)超端側(cè)模型本身,這無疑是一個巨大的挑戰(zhàn)。此外,在防護(hù)過程中,我們對用戶輸入的 prompt 進(jìn)行了場景越界過濾。例如,在移動終端的通話摘要應(yīng)用場景中,網(wǎng)信辦在測試時僅提出了簡短的三四個字或七八個字的問題,這顯然不符合摘要場景的有效輸入。因此,針對每個應(yīng)用場景的 prompt,我們在端側(cè)實施了越界過濾策略,這是與云端方案的一個顯著差異。

在端側(cè)方案中,我們還關(guān)注了模型封禁和日志加密存儲。云端模型的所有數(shù)據(jù)都存儲在云端,包括違規(guī)日志和正常日志,且需按照法律法規(guī)保存 6 個月。然而,在端側(cè),我們無法獲取大量數(shù)據(jù),但仍需采用端側(cè)加密方式,以便在監(jiān)管單位需要時進(jìn)行調(diào)取。因此,在端側(cè) SDK 方案中,我們實現(xiàn)了日志的加密存儲和模型封禁。對于違規(guī)用戶,云端通常會進(jìn)行賬號封禁,但端側(cè)用戶購買了終端設(shè)備,若因幾個問題就被關(guān)閉所有 AI 能力,影響較大。因此,我們在端側(cè)對封禁模型進(jìn)行了分級處理,以實現(xiàn)更合理的管控。


解決技術(shù)問題 - 平衡算力約束與安全效果

在技術(shù)層面,我們首先解決了算力約束問題。年初的方案中,我們采用了一個多分類算子,能夠完全覆蓋 TC260 的所有風(fēng)險分類。同時,我們還引入了安全算子和回復(fù)干預(yù)算子,通過策略下發(fā)的形式,對用戶輸入的 prompt 或生成內(nèi)容中的違規(guī)內(nèi)容進(jìn)行快速干預(yù)和調(diào)整。在圖片審核方面,雖然涉政、涉敏、涉黃的算子目前是分開的,但最新方案正朝著大模型或圖文融合模型的方向發(fā)展,以實現(xiàn)更有效的安全管控。我們摒棄了傳統(tǒng)的單一分類算子訓(xùn)練,轉(zhuǎn)而訓(xùn)練一個能夠融合圖文的模型,以優(yōu)化算力開銷,并結(jié)合模型中流和量化的裁剪技術(shù)。最新數(shù)據(jù)顯示,經(jīng)過模型壓縮技術(shù)處理后,算子的波動控制在 1% 到 2% 之間。從監(jiān)管角度看,更關(guān)注端到端的效果,即模型生成的內(nèi)容是否違規(guī)。在這方面,端側(cè)效果的差異基本能控制在 1% 以內(nèi)。

在性能方面,我們重點關(guān)注了幾個關(guān)鍵指標(biāo)。首先是運行內(nèi)存占用,目前我們已將內(nèi)存占用控制在 400 兆以內(nèi),最新數(shù)據(jù)約為 350 兆。其次是瞬時運行電流的功耗,這也是端側(cè)場景中需要重點考量的因素。通過這些優(yōu)化措施,我們致力于在端側(cè)實現(xiàn)高效、安全且性能卓越的內(nèi)容安全方案。


解決產(chǎn)品問題 - 多場景使用圈定安全邊界

在產(chǎn)品角度解決問題的過程中,我深入探討了端側(cè)模型的應(yīng)用場景。以 AIPC 為例,其算力相對充沛,通常配備有類似 chatbot 或閑聊助手的功能。然而,由于其特殊性,并非所有的端側(cè)方案都能直接移植到此類場景中,因此我們更多地采用了端云協(xié)同方案。在這種方案下,對于一些極其違規(guī)的問題,端側(cè)能夠直接進(jìn)行檢測和識別,并實施攔截。但對于涉政通識類問題,監(jiān)管單位在測試大模型時會關(guān)注拒答率,我們不能簡單地對所有涉政問題一概拒答。例如,對于“我們的領(lǐng)導(dǎo)人是哪年當(dāng)選的”這類常識性問題,以及“臺灣是中國的嗎”這類底線性問題,我們都應(yīng)給予相應(yīng)的回答。在這種情況下,我們實現(xiàn)了端云協(xié)同,將部分問題分流到云端處理。

在移動終端方面,更多地是 Agent 場景。在這里,prompt 相當(dāng)于源代碼,至關(guān)重要。因此,我們重點關(guān)注應(yīng)用邊界和場景安全。我們最終呈現(xiàn)給用戶的并非開放式 chatbot,而是以不同 Agent 為入口的功能。我們在應(yīng)用服務(wù)邊界上進(jìn)行了限制,并對 prompt 進(jìn)行保護(hù),特別是針對提示詞注入攻擊的檢測。近期,我們發(fā)現(xiàn)了一些通過對話形式泄露 Agent 核心 prompt 的情況,這凸顯了在終端場景下聚焦每個應(yīng)用場景安全的重要性。

解決監(jiān)管合規(guī)問題 - 端側(cè)離線場景的應(yīng)急與處置

解決合規(guī)問題也是我們工作的核心。從監(jiān)管角度看,他們更關(guān)注離線場景下的應(yīng)急處置能力。經(jīng)過與監(jiān)管單位和廠商的溝通,我們總結(jié)出四個關(guān)鍵方向:一是離線用戶能否封禁;二是違規(guī)日志能否上報;三是針對突發(fā)事件能否快速響應(yīng);四是在備案過程中的場景化測試和沙盒終端方案。沙盒測試對于新型手機(jī)終端尤為重要,企業(yè)在備案時可能因保密要求無法直接開放手機(jī)供監(jiān)管使用,這就需要找到一種平衡,既能滿足企業(yè)保密需求,又能使監(jiān)管單位有效測試我們的方案。

在封禁模型和日志邏輯方面,考慮到用戶購買智能終端的成本較高,我們不會簡單地因為用戶提問違規(guī)內(nèi)容就直接禁用其 AI 功能。我們采用了分類分級的方式,包括違規(guī)分類、頻次、權(quán)重以及不同重保期的差異。例如,在智能座艙中,當(dāng)用戶提問敏感問題時,系統(tǒng)會給出警告,甚至實施小時級或天級別的封禁,以此引導(dǎo)用戶避免違規(guī)提問。


違規(guī)日志的存儲和上報是一個復(fù)雜問題,它與用戶隱私和端側(cè)場景存在沖突。我們在端側(cè)安全方案中實現(xiàn)了數(shù)據(jù)加密存儲,并根據(jù)監(jiān)管要求靈活控制上報頻率。對于違規(guī)日志的上傳,我們通過引導(dǎo)用戶聯(lián)網(wǎng)申訴等方式,在協(xié)議中明確說明,以避免用戶利用端側(cè)進(jìn)行違規(guī)操作。

在端側(cè)場景下,應(yīng)急處置能力至關(guān)重要。我們的安全方案以 SDK 形式呈現(xiàn),并配備云端管理控制臺。端上 SDK 不預(yù)置任何敏感詞,而是將相關(guān)內(nèi)容融入模型訓(xùn)練中,以防止數(shù)據(jù)泄露。云端控制臺保留敏感詞管理功能,以便快速響應(yīng)監(jiān)管要求和指令。我們還實現(xiàn)了中間干預(yù)文件和配置文件的推送與拉取機(jī)制,以確保智能終端在離線狀態(tài)下也能及時更新安全策略。一鍵禁用功能是監(jiān)管單位最為關(guān)注的要點。在出現(xiàn)極其敏感情況時,企業(yè)必須具備一鍵關(guān)停的能力,這是服務(wù)備案和向公眾提供服務(wù)的前提條件。


在端側(cè)大模型的日常運營中,與云端相比存在較大差異。云端有完整的日志和巡檢模型,而端側(cè)只能上報少量違規(guī)日志。因此,我們采用了安全評測主動發(fā)現(xiàn)風(fēng)險的方式,圍繞 Agent 場景和時事敏感話題構(gòu)建題庫,以提升評測效率和效果。我們還構(gòu)建了裁判大模型,以降低標(biāo)注成本,提升評測效率。裁判大模型能夠快速標(biāo)注問題的安全性,并為后續(xù)對齊提供高質(zhì)量語料。


總結(jié)來說,端側(cè)方案的核心在于超低算力、跨平臺支持、純離線運行、純語義審核、應(yīng)急處置能力和評測運營。這些要點構(gòu)成了我們在端側(cè)建設(shè)安全方案的主要方向。

典型案例分享與展望未來

下面給大家介紹一個案例。這是我們支持的國內(nèi)某 AIPC 廠商,他們使用了一個開源的大模型。不過,他們所使用的底座模型相對來說性能稍差一些。在備案過程中,針對一些常規(guī)涉政問題以及審核方案,他們之前采用的是敏感詞方式,但這種方式的準(zhǔn)確率并不理想。我們與該廠商合作,配合網(wǎng)信辦進(jìn)行了溝通和測試。結(jié)果顯示,經(jīng)過我們的優(yōu)化,其生成內(nèi)容的合格率能夠達(dá)到 99.24%。這個案例也展示了我們在應(yīng)急處置能力等方面的一些新思路,希望能給大家?guī)硪恍﹩l(fā)。


目前,端側(cè)模型還處于起步階段,現(xiàn)階段大家所使用的端側(cè)模型大多是端云協(xié)同模式。在未來的一到兩年內(nèi),這種模式可能仍將是主流。然而,隨著模型技術(shù)的不斷迭代和算力的持續(xù)更新,純 On Device 的模型占比肯定會逐漸增加。因此,我們在端側(cè)安全方面的關(guān)注點也需要持續(xù)加強(qiáng),以應(yīng)對未來可能出現(xiàn)的挑戰(zhàn)。

嘉賓介紹

李志偉,云安全聯(lián)盟大中華區(qū) CAISP 認(rèn)證講師、2025 信通院人工智能安全領(lǐng)域行業(yè)卓越貢獻(xiàn)者;長期從事 AI 安全、業(yè)務(wù)風(fēng)控、賬號安全、支付風(fēng)控等安全領(lǐng)域,現(xiàn)為百度大模型安全產(chǎn)品負(fù)責(zé)人,專注大模型內(nèi)容安全、模型安全、大模型安全評測、以及大模型安全運營工作,致力于打造覆蓋大模型全生命周期的安全方案;其所負(fù)責(zé)的大模型安全項目曾獲選 2024 世界智能產(chǎn)業(yè)博覽會智能科技創(chuàng)新應(yīng)用優(yōu)秀案例、2024 工信部人工智能賦能新型工業(yè)化案例及 2024 工信部度網(wǎng)絡(luò)安全技術(shù)應(yīng)用典型案例。

會議推薦

2026,AI 正在以更工程化的方式深度融入軟件生產(chǎn),Agentic AI 的探索也將從局部試點邁向體系化工程建設(shè)!

QCon 北京 2026 已正式啟動,本屆大會以“Agentic AI 時代的軟件工程重塑”為核心主線,推動技術(shù)探索從「AI For What」真正落地到可持續(xù)的「Value From AI」。從前沿技術(shù)雷達(dá)、架構(gòu)設(shè)計與數(shù)據(jù)底座、效能與成本、產(chǎn)品與交互、可信落地、研發(fā)組織進(jìn)化六大維度,系統(tǒng)性展開深度探索。QCon 北京 2026,邀你一起,站在拐點之上。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
從康波周期來看,2026年處于什么階段?

從康波周期來看,2026年處于什么階段?

楓冷慕詩
2026-02-05 13:35:30
上海著名主持人直播中淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

上海著名主持人直播中淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

新民晚報
2026-03-02 14:52:26
剛剛發(fā)布的iPhone 17e,價格太良心了!

剛剛發(fā)布的iPhone 17e,價格太良心了!

機(jī)智貓
2026-03-02 23:46:07
印度公司欺騙中國,轉(zhuǎn)賣稀土給美國雷神造導(dǎo)彈,阿三既蠢又邪惡

印度公司欺騙中國,轉(zhuǎn)賣稀土給美國雷神造導(dǎo)彈,阿三既蠢又邪惡

我心縱橫天地間
2026-01-29 21:09:12
突發(fā)!李雨桐實名開撕薛之謙,劇情反轉(zhuǎn)比翻書還快,結(jié)局全網(wǎng)傻眼

突發(fā)!李雨桐實名開撕薛之謙,劇情反轉(zhuǎn)比翻書還快,結(jié)局全網(wǎng)傻眼

阿廢冷眼觀察所
2026-03-03 07:19:00
誰能想到她已經(jīng)62了,說18都有人信,怎么做到這么好的狀態(tài)的

誰能想到她已經(jīng)62了,說18都有人信,怎么做到這么好的狀態(tài)的

白宸侃片
2026-02-11 11:56:19
汪小菲沒想到,小兒子才生7天,S家汪家“兩重天”,王思聰沒說錯

汪小菲沒想到,小兒子才生7天,S家汪家“兩重天”,王思聰沒說錯

千言娛樂記
2026-03-02 21:47:06
鴻蒙智行處罰違規(guī)營銷門店

鴻蒙智行處罰違規(guī)營銷門店

每日經(jīng)濟(jì)新聞
2026-03-02 17:08:50
27天入賬330萬,趙心童和女友林薇的“頂配愛情”沖上熱搜

27天入賬330萬,趙心童和女友林薇的“頂配愛情”沖上熱搜

科學(xué)發(fā)掘
2026-03-02 16:46:08
13勝2平!亞足聯(lián)確認(rèn) 中國女足創(chuàng)36年神跡 今日亞洲杯首秀保底5-0

13勝2平!亞足聯(lián)確認(rèn) 中國女足創(chuàng)36年神跡 今日亞洲杯首秀保底5-0

侃球熊弟
2026-03-03 00:10:03
2歲的兒媳婦自己找上門!驚呆了!生活里那些驚人的巧合

2歲的兒媳婦自己找上門!驚呆了!生活里那些驚人的巧合

另子維愛讀史
2026-02-05 23:23:06
不拼GDP、不炫富,浙江第二有錢的城市,吊打眾多省會

不拼GDP、不炫富,浙江第二有錢的城市,吊打眾多省會

毒sir財經(jīng)
2026-03-02 21:00:47
1991 年,鄧小平特派代表赴美團(tuán)聚張學(xué)良,邀他重返故土,張學(xué)良回應(yīng):“回大陸可以,但我有三個要求”

1991 年,鄧小平特派代表赴美團(tuán)聚張學(xué)良,邀他重返故土,張學(xué)良回應(yīng):“回大陸可以,但我有三個要求”

文史明鑒
2025-12-21 17:07:19
凌晨!河北突發(fā)地震!

凌晨!河北突發(fā)地震!

新牛城
2026-03-03 09:29:46
三十年后小孩終于認(rèn)慫:行行行,《拳皇97》我打不過你們

三十年后小孩終于認(rèn)慫:行行行,《拳皇97》我打不過你們

街機(jī)時代
2026-03-02 18:00:03
離譜!一男子存500萬一年定期,利息151000。到期取錢,工作人員卻說,存單是假的!男子怒了直接告上法院!

離譜!一男子存500萬一年定期,利息151000。到期取錢,工作人員卻說,存單是假的!男子怒了直接告上法院!

上海約飯局
2025-12-02 18:47:01
伊朗吃肉的時候,對中國防得嚴(yán)嚴(yán)實實,生怕中國占一點便宜

伊朗吃肉的時候,對中國防得嚴(yán)嚴(yán)實實,生怕中國占一點便宜

百態(tài)人間
2026-02-24 15:37:37
鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

小徐講八卦
2026-03-01 05:51:11
特朗普列四大目標(biāo):戰(zhàn)爭恐拖更久,不排除派地面部隊

特朗普列四大目標(biāo):戰(zhàn)爭恐拖更久,不排除派地面部隊

觀察者網(wǎng)
2026-03-03 08:22:01
香港中聯(lián)辦原副主任祁斌,新職明確

香港中聯(lián)辦原副主任祁斌,新職明確

觀察者網(wǎng)
2026-03-02 21:29:04
2026-03-03 10:24:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
12096文章數(shù) 51783關(guān)注度
往期回顧 全部

科技要聞

蘋果iPhone17e發(fā)布:4499元起 升級A19芯片

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

體育要聞

伯納烏8萬人暴怒!高呼78歲老佛爺下課

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

游戲
手機(jī)
藝術(shù)
數(shù)碼
時尚

Xbox發(fā)彩蛋暗示《賽博朋克2077》將加入XGP!?

手機(jī)要聞

蘋果2026年首款iPhone登場 iPhone 17e吃上國補(bǔ):到手3999元起

藝術(shù)要聞

14個字,您能全認(rèn)嗎?探討情緒對人際關(guān)系的影響。

數(shù)碼要聞

小米靠規(guī)模和高端應(yīng)對!盧偉冰:內(nèi)存漲價將影響消費電子所有玩家 持續(xù)到2027年

普通人穿衣真的很簡單!單品選對、搭配合理,大方舒適又得體

無障礙瀏覽 進(jìn)入關(guān)懷版