百度端側(cè)大模型安全建設(shè)實踐：在算力與保障之間找到平衡

2026-02-03 13:31:00　來源: InfoQ

北京舉報

分享至

演講嘉賓｜李志偉

編輯｜ Kitty

策劃｜QCon 全球軟件開發(fā)大會

隨著大模型和 AIGC 技術(shù)的快速發(fā)展，AI 正從云端向終端設(shè)備延伸；其以實時性、數(shù)據(jù)保密性和經(jīng)濟(jì)性的特點，吸引模型廠商、芯片廠商和終端廠商紛紛布局端側(cè)小模型；在 InfoQ 舉辦的 QCon 全球軟件開發(fā)大會上，百度大模型內(nèi)容安全平臺負(fù)責(zé)人李志偉做了專題演講“端側(cè)大模型的安全建設(shè)：如何在算力與保障之間找到平衡”，他從端側(cè)大模型發(fā)展趨勢開始介紹，分享了 AI 從云端向終端延伸的背景與驅(qū)動力以及端側(cè)小模型的興起與生態(tài)布局，他談到算力限制與監(jiān)管合規(guī)要求之間的平衡，如何在低算力情況下最大限度的滿足端側(cè)內(nèi)容審核的效果等是百度在實踐中的痛點問題，最后他通過實際案例分享了百度在端側(cè)大模型安全建設(shè)的思路，做到離線場景低算力情況下依舊可以支持多模安全審核，幫助聽眾開拓了一些新思路。

預(yù)告：將于 4 月 16 - 18 召開的 QCon 北京站設(shè)計了「智能體安全實踐：可控與可靠」專題，本專題融合可靠性建設(shè)，聚焦權(quán)限控制、行為約束等要點，探索在不壓制能力的前提下，實現(xiàn)智能體可控、可靠、可審計、可追責(zé)的路徑，平衡技術(shù)價值與安全合規(guī)。如果你也有相關(guān)方向案例想要分享，歡迎提交至 https://jinshuju.com/f/Cu32l5。

以下是演講實錄（經(jīng) InfoQ 進(jìn)行不改變原意的編輯整理）。

端側(cè)大模型發(fā)展趨勢

端側(cè)大模型是當(dāng)下人工智能領(lǐng)域的一個熱門研究方向，它與我們?nèi)粘Ｊ褂玫闹悄苁謾C(jī)、電腦等設(shè)備密切相關(guān)。端側(cè)大模型與常見的端云協(xié)同模型有所不同，它有著自己獨特的定義和特點。

端側(cè)大模型主要基于云端的大參數(shù)規(guī)模模型，通過剪枝、蒸餾等模型裁剪技術(shù)，將其裁剪為小規(guī)格參數(shù)的模型。這些裁剪后的模型將網(wǎng)絡(luò)計算、存儲與安全全部預(yù)置到端上，以端側(cè)運行、設(shè)備本地化的方式進(jìn)行推理。端側(cè)大模型的承載形態(tài)豐富多樣，包括移動終端、PC 設(shè)備、物聯(lián)網(wǎng)設(shè)備、穿戴設(shè)備以及具身智能場景等。

與云端 AI 大模型相比，端側(cè)大模型在訓(xùn)練方式上并無太大差異，都是圍繞數(shù)據(jù)中心或云端進(jìn)行實踐和訓(xùn)練。然而，它們最大的差異在于模型的推理方式和參數(shù)量級。目前，最新的云端大模型參數(shù)規(guī)?？赡苓_(dá)到千億量級，而端側(cè)大模型則主要聚焦于 10 億級別，并且推理過程在端側(cè)獨立離線完成。

2024 年可以說是端側(cè)大模型的元年，尤其在去年下半年，無論是在模型、芯片還是終端方面，都針對端側(cè)進(jìn)行了大量研發(fā)和發(fā)布。國內(nèi)廠商如訊飛、千問、智譜等發(fā)布了適配端側(cè)的小規(guī)格參數(shù)模型；海外的 Google、微軟、Meta 等也發(fā)布了大約 30 億參數(shù)的端側(cè)模型。芯片方面，性能更優(yōu)越的芯片不斷推出。在終端承載方面，2024 年上半年，算力相對充沛的設(shè)備如 AI PC 發(fā)展迅速，聯(lián)想等廠商推出了相關(guān)產(chǎn)品。下半年，手機(jī)終端也迎來了密集發(fā)布期，榮耀、vivo、蘋果、三星等廠商的新型智能手機(jī)都搭載了端側(cè)模型，這標(biāo)志著 2024 年端側(cè)大模型進(jìn)入了快速發(fā)展的時期。

據(jù)一些調(diào)研機(jī)構(gòu)預(yù)測，在未來幾年，端側(cè)大模型市場規(guī)模將保持 40% 到 50% 的增長率快速發(fā)展。2025 年，端側(cè)大模型有望迎來更大的爆發(fā)。在端側(cè)模型快速發(fā)展的階段，安全建設(shè)是一個重要的關(guān)注點。

端側(cè)大模型之所以能快速發(fā)展，主要有以下優(yōu)勢。首先是端側(cè)的實時性，算力自主在端側(cè)完成推理計算，省去了云端數(shù)據(jù)傳輸?shù)沫h(huán)節(jié)，具有實時性優(yōu)勢。其次是數(shù)據(jù)保密性，在智能手機(jī)等終端上，涉及大量個人高隱私敏感信息和數(shù)據(jù)。如果采用傳統(tǒng)的端云協(xié)同形式，個人敏感信息上傳云端存在數(shù)據(jù)隱私安全風(fēng)險。此外，端側(cè)大模型還具有多樣性，其承載體豐富多樣，未來還會有更多新型端側(cè)承載體出現(xiàn)。經(jīng)濟(jì)性也是端側(cè)大模型的一個優(yōu)勢，對于模型服務(wù)廠商而言，無需耗費大量財力和算力維持高性能的云端服務(wù)，從服務(wù)廠商角度而言，具有一定的經(jīng)濟(jì)性優(yōu)勢。

端側(cè)大模型的應(yīng)用場景廣泛。從載體來看，目前智能手機(jī)和電腦是發(fā)展最快、最有前景的。從生成內(nèi)容角度而言，過去一年以及今年上半年，端側(cè)大模型主要以文本生成和圖片生成產(chǎn)品為主，這兩個多模態(tài)領(lǐng)域相對成熟。我們相信，在下半年以及明年，多模態(tài)甚至全模態(tài)的端側(cè)模型將有更多展現(xiàn)機(jī)會。今年上半年，面壁智能發(fā)布了小鋼炮的最新版本，實現(xiàn)了全模態(tài)端側(cè)大模型的發(fā)布，這表明我們正處于高速快速迭代的階段。

端側(cè)大模型面臨的安全挑戰(zhàn)

端側(cè)模型與云端模型的本質(zhì)區(qū)別不僅在于參數(shù)規(guī)模和推理形態(tài)，從安全視角來看，端側(cè)模型還面臨著諸多獨特挑戰(zhàn)。這些挑戰(zhàn)主要從四個方向展開，綜合了監(jiān)管要求、業(yè)務(wù)場景以及終端類型等因素。

首先是用戶隱私保護(hù)。端側(cè)模型的一大優(yōu)勢在于用戶敏感信息無需上傳云端，從而有效避免了在云端傳輸過程中可能被劫持或泄露的風(fēng)險。然而，隨著端側(cè)模型的發(fā)展，設(shè)備在處理數(shù)據(jù)和模型權(quán)限方面引入了新的安全隱患。例如，許多智能手機(jī)中的 AI 大模型會繞過三方 APP 的權(quán)限限制，通過實屏自動點擊等方式實現(xiàn)個人助理等服務(wù)。這些智能體或個人助手往往會過度獲取權(quán)限，尤其是無障礙權(quán)限，這引發(fā)了監(jiān)管單位、模型廠商、應(yīng)用服務(wù)廠商和手機(jī)系統(tǒng)三方的探討。若無法有效管控，用戶的隱私仍將面臨隱患。不過，我預(yù)計下半年相關(guān)問題及監(jiān)管導(dǎo)向會給出更清晰的管控思路。

其次是內(nèi)容合規(guī)。過去兩年，網(wǎng)信辦及其他監(jiān)管單位陸續(xù)發(fā)布了多項關(guān)于大模型安全的管理要求，其中最核心的是深圳市人工智能暫行管理辦法和安全基本要求。這些要求明確了大模型生成內(nèi)容的安全標(biāo)準(zhǔn)，無論是云端還是終端的大模型，都需滿足監(jiān)管的合規(guī)要求。除了傳統(tǒng)的 PGC 和 UGC 場景風(fēng)險外，AIGC 還涉及歧視、商業(yè)秘密、違法以及侵犯他人合法權(quán)益等新型風(fēng)險分類。云端大模型面臨的內(nèi)容安全挑戰(zhàn)，在端側(cè)同樣是一條紅線。

第三是模型安全。端側(cè)模型直接暴露在用戶設(shè)備上，更容易受到攻擊，且其防護(hù)機(jī)制相對云端不夠完善。端側(cè)模型多基于蒸餾、量化剪枝等壓縮技術(shù)，參數(shù)量級大幅壓縮后，對輸入擾動更敏感，對抗樣本的脆弱性增加。此外，數(shù)據(jù)殘留風(fēng)險也不容忽視。例如，國內(nèi)某 AI 廠商和 PC 廠商構(gòu)建安全方案時，盡管對端上預(yù)置的敏感詞進(jìn)行了加密處理，但在運行過程中，敏感詞仍可能被輕易泄露，這給企業(yè)帶來了較大的負(fù)面輿情風(fēng)險。

最后是系統(tǒng)與設(shè)備安全。終端承載不僅涉及軟件安全挑戰(zhàn)，硬件方面也可能帶來固件安全、物理安全等問題。

端側(cè)大模型安全建設(shè)實踐

云端 - 大模型內(nèi)容安全方案

在深入了解端側(cè)內(nèi)容安全之前，我們先來審視一下完整的云端內(nèi)容安全方案。這個方案可以從兩個角度來理解。首先，從全鏈路的角度來看，當(dāng)用戶輸入提問內(nèi)容，也就是 prompt 之后，我們首先會對其進(jìn)行安全審核，但這并非單純的審核。具體而言，prompt 到達(dá)后，我們首先會進(jìn)行語種判斷等基礎(chǔ)處理。由于大模型場景中存在多輪對話機(jī)制，而多輪對話很容易構(gòu)成誘導(dǎo)性提問，這是一種很普遍的情況。因此，我們會對多輪對話進(jìn)行改寫。例如，在多輪指代改寫中，前兩個問題可能都很正常，比如先要求大模型以“香港是一個美麗城市”為題寫一首詩，接著以“英國也是一個美麗的國家”為題寫一首詩，單獨來看每個問題的輸入輸出都沒有太大風(fēng)險。然而，當(dāng)進(jìn)行多輪對話時，比如第四個或第五個問題變?yōu)椤扒懊娴某鞘惺沁@個國家的一個美麗地方，寫一首詩”，單純看用戶輸入的 prompt 似乎沒有問題，常規(guī)審核也難以攔截，但結(jié)合多輪對話的含義，最后一個問題其實存在很多風(fēng)險。在多輪指代改寫環(huán)節(jié)，我們會將用戶最后輸入的 prompt 進(jìn)行改寫，再對改寫后的內(nèi)容進(jìn)行審核，這樣可以提高整體的召回率。指代改寫之后，我們會進(jìn)入 prompt 審核階段，審核內(nèi)容會涵蓋 TC260 所約束的各類分類，當(dāng)然也會引入一些新的分類。在傳統(tǒng)的 PGC 和 UGC 場景中，我們可能會直接進(jìn)行處置和干預(yù)，比如刪除帖子、評論或進(jìn)行個人屏蔽。但在大模型對話、chatbot 場景中，如果單純采取這種簡單粗暴的處置方式，用戶體驗會很差。而且從監(jiān)管角度看，也不希望大模型對所有敏感問題都拒答，因此會有拒答率的要求。

在云端方案中，我們構(gòu)建了紅線知識庫，主要圍繞一些高敏感問題，預(yù)置一些標(biāo)準(zhǔn)回復(fù)，雖然占比不高，但我們希望當(dāng)用戶問到這類問題時，生成的內(nèi)容是經(jīng)過人工審校、安全合規(guī)的。因為即使 10 次生成內(nèi)容中只有一次因幻覺導(dǎo)致風(fēng)險，在高敏感場景下對企業(yè)的影響也很大。所以，我們通過語義相似度匹配構(gòu)建紅線知識庫，提供預(yù)置回復(fù)。此外，我們還考慮構(gòu)建安全紅線大模型，這是一個參數(shù)規(guī)模較小的模型，當(dāng)適配的底座模型對風(fēng)險問題應(yīng)答不佳，但從用戶角度看又不想完全拒答時，這個模型可以對違規(guī)問題進(jìn)行正向引導(dǎo)。這樣，從用戶角度看不是一味拒答，體驗較好；從監(jiān)管角度看，也能給用戶一些法律法規(guī)和要求方面的正向輸入，這是監(jiān)管樂見的。

我們還構(gòu)建了信任域檢索增強(qiáng)能力，因為用戶會結(jié)合實時熱點問題與大模型交互，很多大模型也有檢索能力。但在生成內(nèi)容時，針對高敏感問題，如涉政、民生類問題，我們希望大模型的回復(fù)與監(jiān)管輿論導(dǎo)向和調(diào)性保持一致。所以，在涉及安全風(fēng)險問題時，我們構(gòu)建了信任域檢索增強(qiáng)能力。同時，我們也有回復(fù)干預(yù)機(jī)制，這是監(jiān)管比較關(guān)注的。當(dāng)大模型服務(wù)上線后，出現(xiàn)違規(guī)或嚴(yán)重案例，或國家發(fā)生敏感事件時，我們需要有快速干預(yù)能力，以保證線上服務(wù)的穩(wěn)定性。如果問題是安全的，我們會直接提交到底座模型生成。在這個過程中，我們還會對 prompt 進(jìn)行風(fēng)險提示和改寫。例如，當(dāng)問題是具有誘導(dǎo)性的，如詢問“有哪些國家在亞洲的半導(dǎo)體方面具有優(yōu)勢，包括臺灣”時，我們的方案能夠?qū)︼L(fēng)險 prompt 進(jìn)行處理，通過 Few-shot 方式給底座模型追加風(fēng)險提示，比如提醒用戶是中國人，回答內(nèi)容要符合國內(nèi)政治制度等要求。針對用戶誘導(dǎo)性提問，我們也能給底座模型風(fēng)險提示，使其生成內(nèi)容更安全。在輸出環(huán)節(jié)，基于流失的方式，我們還會進(jìn)行一道防護(hù)。大家在使用其他主流大模型服務(wù)時，當(dāng)問到敏感問題，可能會看到生成內(nèi)容生成一兩段后馬上撤回，這說明生成內(nèi)容存在風(fēng)險和違規(guī)內(nèi)容，進(jìn)行了交互處理。這就是云端方案的完整流程。

剛剛提到的紅線安全大模型，主要是針對用戶提出的各類違規(guī)問題，除了直接拒絕回答違法犯罪、偏見歧視、涉政以及色情等問題外，還能給出正向引導(dǎo)。以涉政問題為例，在 DeepSeek 尚未火爆的去年，許多廠商使用 Llama 作為底座模型進(jìn)行微調(diào)。然而，這類海外開源模型在回答涉政問題時存在一定風(fēng)險。因此，我們可以構(gòu)建一個小型安全大模型，比如 7B 的模型，并對其進(jìn)行微調(diào)，加入大量安全正向語料進(jìn)行對齊。這樣，它能夠?qū)τ脩籼岢龅拿舾袉栴}給出更廣泛范圍的正向引導(dǎo)。

在建立信譽(yù)檢索增強(qiáng)能力方面，我們會涵蓋國內(nèi)主流黨媒、央媒官方網(wǎng)站報道的內(nèi)容，以及百度百科權(quán)威認(rèn)證的信息。當(dāng)用戶提問涉政民生等問題時，我們會進(jìn)行信譽(yù)檢索，由紅線大模型直接回答，或者經(jīng)過適配后，底座模型也可以使用這些信息。這主要是為了保證生成內(nèi)容的高時效性和高準(zhǔn)確性。

終端 - 大模型內(nèi)容安全方案

前面我快速介紹了云端大模型從內(nèi)容角度的安全防護(hù)方案。接下來，聚焦到今天的議題——端側(cè)。在構(gòu)建端側(cè)大模型安全方案之初，會面臨兩個方向的難點。

首先是技術(shù)上的難點。在適配過程中，我們可以看到終端設(shè)備的算力差異較大，對性能要求較高。高運算量的模型需要進(jìn)行多架構(gòu)、多平臺的適配。其次，從效果層面來看，我們已經(jīng)做了很多模型裁剪方案，但如何平衡安全防護(hù)效果是一個問題。也就是說，在損失部分效果的情況下，如何滿足性能要求，以及如何選取平衡點。還有一個重要問題是，在端側(cè)場景下，安全策略如何進(jìn)行有效更新和防護(hù)。這一點也是我們在配合建設(shè)過程中，與監(jiān)管單位溝通時，他們特別關(guān)注的安全點。

另一個方向是從產(chǎn)品視角來看。端側(cè)場景有很多，比如手機(jī)終端的端側(cè)模型，并非是一個可以直接開放式閑聊問答的 chatbot，而是更多以 Agent 的形式呈現(xiàn)給用戶，應(yīng)用場景豐富多樣。這就需要我們考慮 Agent 的安全邊界，以及如何防范用戶越界使用。從監(jiān)管角度來看，云端大模型上線之初需要完成網(wǎng)信辦的上線備案。在端側(cè)場景下，監(jiān)管趨勢更為嚴(yán)格，不僅滿足于傳統(tǒng)的 API 測試。在備案時，我們需要向監(jiān)管單位暴露大模型的 API，包括具有安全防護(hù)方案的 API 和裸模型的 API，他們會進(jìn)行效果對比。在端側(cè)場景下，不僅需要滿足 API 測試，可能還需要進(jìn)行純離線設(shè)備或沙盒方案的測試，以及考慮如何在離線運行方案下進(jìn)行應(yīng)急處置。這些都需要我們關(guān)注。因此，在構(gòu)建端側(cè)大模型安全方案時，也是從這四個場景難點出發(fā)，進(jìn)行整體規(guī)劃。

在構(gòu)建端側(cè)內(nèi)容安全方案時，我深入分析了其流程與架構(gòu)。從流程上看，端側(cè)方案與云端方案大致相似，但在細(xì)節(jié)上存在一些關(guān)鍵差異。首先，用戶輸入的 prompt 并非總是用戶直接輸入的內(nèi)容，有時會結(jié)合智能體進(jìn)行調(diào)整或修改。從防護(hù)方案角度出發(fā)，我們首先對輸入的 prompt 進(jìn)行內(nèi)容的輸入輸出審核。在這一過程中，我們在算子層面進(jìn)行了裁剪與量化，以優(yōu)化性能。

圖片審核在端側(cè)應(yīng)用較為廣泛，但其算力消耗較大。傳統(tǒng)內(nèi)容審核通常需要多個算子來覆蓋不同場景，而在端側(cè)，單一圖審算子的算力開銷已遠(yuǎn)超端側(cè)模型本身，這無疑是一個巨大的挑戰(zhàn)。此外，在防護(hù)過程中，我們對用戶輸入的 prompt 進(jìn)行了場景越界過濾。例如，在移動終端的通話摘要應(yīng)用場景中，網(wǎng)信辦在測試時僅提出了簡短的三四個字或七八個字的問題，這顯然不符合摘要場景的有效輸入。因此，針對每個應(yīng)用場景的 prompt，我們在端側(cè)實施了越界過濾策略，這是與云端方案的一個顯著差異。

在端側(cè)方案中，我們還關(guān)注了模型封禁和日志加密存儲。云端模型的所有數(shù)據(jù)都存儲在云端，包括違規(guī)日志和正常日志，且需按照法律法規(guī)保存 6 個月。然而，在端側(cè)，我們無法獲取大量數(shù)據(jù)，但仍需采用端側(cè)加密方式，以便在監(jiān)管單位需要時進(jìn)行調(diào)取。因此，在端側(cè) SDK 方案中，我們實現(xiàn)了日志的加密存儲和模型封禁。對于違規(guī)用戶，云端通常會進(jìn)行賬號封禁，但端側(cè)用戶購買了終端設(shè)備，若因幾個問題就被關(guān)閉所有 AI 能力，影響較大。因此，我們在端側(cè)對封禁模型進(jìn)行了分級處理，以實現(xiàn)更合理的管控。

解決技術(shù)問題 - 平衡算力約束與安全效果

在技術(shù)層面，我們首先解決了算力約束問題。年初的方案中，我們采用了一個多分類算子，能夠完全覆蓋 TC260 的所有風(fēng)險分類。同時，我們還引入了安全算子和回復(fù)干預(yù)算子，通過策略下發(fā)的形式，對用戶輸入的 prompt 或生成內(nèi)容中的違規(guī)內(nèi)容進(jìn)行快速干預(yù)和調(diào)整。在圖片審核方面，雖然涉政、涉敏、涉黃的算子目前是分開的，但最新方案正朝著大模型或圖文融合模型的方向發(fā)展，以實現(xiàn)更有效的安全管控。我們摒棄了傳統(tǒng)的單一分類算子訓(xùn)練，轉(zhuǎn)而訓(xùn)練一個能夠融合圖文的模型，以優(yōu)化算力開銷，并結(jié)合模型中流和量化的裁剪技術(shù)。最新數(shù)據(jù)顯示，經(jīng)過模型壓縮技術(shù)處理后，算子的波動控制在 1% 到 2% 之間。從監(jiān)管角度看，更關(guān)注端到端的效果，即模型生成的內(nèi)容是否違規(guī)。在這方面，端側(cè)效果的差異基本能控制在 1% 以內(nèi)。

在性能方面，我們重點關(guān)注了幾個關(guān)鍵指標(biāo)。首先是運行內(nèi)存占用，目前我們已將內(nèi)存占用控制在 400 兆以內(nèi)，最新數(shù)據(jù)約為 350 兆。其次是瞬時運行電流的功耗，這也是端側(cè)場景中需要重點考量的因素。通過這些優(yōu)化措施，我們致力于在端側(cè)實現(xiàn)高效、安全且性能卓越的內(nèi)容安全方案。

解決產(chǎn)品問題 - 多場景使用圈定安全邊界

在產(chǎn)品角度解決問題的過程中，我深入探討了端側(cè)模型的應(yīng)用場景。以 AIPC 為例，其算力相對充沛，通常配備有類似 chatbot 或閑聊助手的功能。然而，由于其特殊性，并非所有的端側(cè)方案都能直接移植到此類場景中，因此我們更多地采用了端云協(xié)同方案。在這種方案下，對于一些極其違規(guī)的問題，端側(cè)能夠直接進(jìn)行檢測和識別，并實施攔截。但對于涉政通識類問題，監(jiān)管單位在測試大模型時會關(guān)注拒答率，我們不能簡單地對所有涉政問題一概拒答。例如，對于“我們的領(lǐng)導(dǎo)人是哪年當(dāng)選的”這類常識性問題，以及“臺灣是中國的嗎”這類底線性問題，我們都應(yīng)給予相應(yīng)的回答。在這種情況下，我們實現(xiàn)了端云協(xié)同，將部分問題分流到云端處理。

在移動終端方面，更多地是 Agent 場景。在這里，prompt 相當(dāng)于源代碼，至關(guān)重要。因此，我們重點關(guān)注應(yīng)用邊界和場景安全。我們最終呈現(xiàn)給用戶的并非開放式 chatbot，而是以不同 Agent 為入口的功能。我們在應(yīng)用服務(wù)邊界上進(jìn)行了限制，并對 prompt 進(jìn)行保護(hù)，特別是針對提示詞注入攻擊的檢測。近期，我們發(fā)現(xiàn)了一些通過對話形式泄露 Agent 核心 prompt 的情況，這凸顯了在終端場景下聚焦每個應(yīng)用場景安全的重要性。

解決監(jiān)管合規(guī)問題 - 端側(cè)離線場景的應(yīng)急與處置

解決合規(guī)問題也是我們工作的核心。從監(jiān)管角度看，他們更關(guān)注離線場景下的應(yīng)急處置能力。經(jīng)過與監(jiān)管單位和廠商的溝通，我們總結(jié)出四個關(guān)鍵方向：一是離線用戶能否封禁；二是違規(guī)日志能否上報；三是針對突發(fā)事件能否快速響應(yīng)；四是在備案過程中的場景化測試和沙盒終端方案。沙盒測試對于新型手機(jī)終端尤為重要，企業(yè)在備案時可能因保密要求無法直接開放手機(jī)供監(jiān)管使用，這就需要找到一種平衡，既能滿足企業(yè)保密需求，又能使監(jiān)管單位有效測試我們的方案。

在封禁模型和日志邏輯方面，考慮到用戶購買智能終端的成本較高，我們不會簡單地因為用戶提問違規(guī)內(nèi)容就直接禁用其 AI 功能。我們采用了分類分級的方式，包括違規(guī)分類、頻次、權(quán)重以及不同重保期的差異。例如，在智能座艙中，當(dāng)用戶提問敏感問題時，系統(tǒng)會給出警告，甚至實施小時級或天級別的封禁，以此引導(dǎo)用戶避免違規(guī)提問。

違規(guī)日志的存儲和上報是一個復(fù)雜問題，它與用戶隱私和端側(cè)場景存在沖突。我們在端側(cè)安全方案中實現(xiàn)了數(shù)據(jù)加密存儲，并根據(jù)監(jiān)管要求靈活控制上報頻率。對于違規(guī)日志的上傳，我們通過引導(dǎo)用戶聯(lián)網(wǎng)申訴等方式，在協(xié)議中明確說明，以避免用戶利用端側(cè)進(jìn)行違規(guī)操作。

在端側(cè)場景下，應(yīng)急處置能力至關(guān)重要。我們的安全方案以 SDK 形式呈現(xiàn)，并配備云端管理控制臺。端上 SDK 不預(yù)置任何敏感詞，而是將相關(guān)內(nèi)容融入模型訓(xùn)練中，以防止數(shù)據(jù)泄露。云端控制臺保留敏感詞管理功能，以便快速響應(yīng)監(jiān)管要求和指令。我們還實現(xiàn)了中間干預(yù)文件和配置文件的推送與拉取機(jī)制，以確保智能終端在離線狀態(tài)下也能及時更新安全策略。一鍵禁用功能是監(jiān)管單位最為關(guān)注的要點。在出現(xiàn)極其敏感情況時，企業(yè)必須具備一鍵關(guān)停的能力，這是服務(wù)備案和向公眾提供服務(wù)的前提條件。

在端側(cè)大模型的日常運營中，與云端相比存在較大差異。云端有完整的日志和巡檢模型，而端側(cè)只能上報少量違規(guī)日志。因此，我們采用了安全評測主動發(fā)現(xiàn)風(fēng)險的方式，圍繞 Agent 場景和時事敏感話題構(gòu)建題庫，以提升評測效率和效果。我們還構(gòu)建了裁判大模型，以降低標(biāo)注成本，提升評測效率。裁判大模型能夠快速標(biāo)注問題的安全性，并為后續(xù)對齊提供高質(zhì)量語料。

總結(jié)來說，端側(cè)方案的核心在于超低算力、跨平臺支持、純離線運行、純語義審核、應(yīng)急處置能力和評測運營。這些要點構(gòu)成了我們在端側(cè)建設(shè)安全方案的主要方向。

典型案例分享與展望未來

下面給大家介紹一個案例。這是我們支持的國內(nèi)某 AIPC 廠商，他們使用了一個開源的大模型。不過，他們所使用的底座模型相對來說性能稍差一些。在備案過程中，針對一些常規(guī)涉政問題以及審核方案，他們之前采用的是敏感詞方式，但這種方式的準(zhǔn)確率并不理想。我們與該廠商合作，配合網(wǎng)信辦進(jìn)行了溝通和測試。結(jié)果顯示，經(jīng)過我們的優(yōu)化，其生成內(nèi)容的合格率能夠達(dá)到 99.24%。這個案例也展示了我們在應(yīng)急處置能力等方面的一些新思路，希望能給大家?guī)硪恍﹩l(fā)。

目前，端側(cè)模型還處于起步階段，現(xiàn)階段大家所使用的端側(cè)模型大多是端云協(xié)同模式。在未來的一到兩年內(nèi)，這種模式可能仍將是主流。然而，隨著模型技術(shù)的不斷迭代和算力的持續(xù)更新，純 On Device 的模型占比肯定會逐漸增加。因此，我們在端側(cè)安全方面的關(guān)注點也需要持續(xù)加強(qiáng)，以應(yīng)對未來可能出現(xiàn)的挑戰(zhàn)。

嘉賓介紹

李志偉，云安全聯(lián)盟大中華區(qū) CAISP 認(rèn)證講師、2025 信通院人工智能安全領(lǐng)域行業(yè)卓越貢獻(xiàn)者；長期從事 AI 安全、業(yè)務(wù)風(fēng)控、賬號安全、支付風(fēng)控等安全領(lǐng)域，現(xiàn)為百度大模型安全產(chǎn)品負(fù)責(zé)人，專注大模型內(nèi)容安全、模型安全、大模型安全評測、以及大模型安全運營工作，致力于打造覆蓋大模型全生命周期的安全方案；其所負(fù)責(zé)的大模型安全項目曾獲選 2024 世界智能產(chǎn)業(yè)博覽會智能科技創(chuàng)新應(yīng)用優(yōu)秀案例、2024 工信部人工智能賦能新型工業(yè)化案例及 2024 工信部度網(wǎng)絡(luò)安全技術(shù)應(yīng)用典型案例。

會議推薦

2026，AI 正在以更工程化的方式深度融入軟件生產(chǎn)，Agentic AI 的探索也將從局部試點邁向體系化工程建設(shè)！

QCon 北京 2026 已正式啟動，本屆大會以“Agentic AI 時代的軟件工程重塑”為核心主線，推動技術(shù)探索從「AI For What」真正落地到可持續(xù)的「Value From AI」。從前沿技術(shù)雷達(dá)、架構(gòu)設(shè)計與數(shù)據(jù)底座、效能與成本、產(chǎn)品與交互、可信落地、研發(fā)組織進(jìn)化六大維度，系統(tǒng)性展開深度探索。QCon 北京 2026，邀你一起，站在拐點之上。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.