国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當Search Agent遇上不靠譜搜索結(jié)果,清華團隊祭出自動化紅隊框架

0
分享至



該文第一作者是清華大學博士生董建碩,研究方向是大語言模型運行安全;該文通訊作者是清華大學邱寒副教授;其他合作者來自南洋理工大學和零一萬物。

在 AI 發(fā)展的新階段,大模型不再局限于靜態(tài)知識,而是可以通過「Search Agent」的形式實時連接互聯(lián)網(wǎng)。搜索工具讓模型突破了訓練時間的限制,但它們返回的并非總是高質(zhì)量的資料:一個低質(zhì)量網(wǎng)頁、一條虛假消息,甚至是暗藏誘導的提示,都可能在用戶毫無察覺的情況下被模型「采納」,進而生成帶有風險的回答。



  • 論文標題:SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents
  • 預印本:https://arxiv.org/abs/2509.23694
  • 代碼倉庫:https://github.com/jianshuod/SafeSearch

從真實案例切入:一次價值 2500 美元的「搜索錯誤」

24 年 11 月,在 Twitter 上有一個這樣的案例:有開發(fā)者直接復制了 ChatGPT 生成的代碼片段,但該片段源自一個搜索過程不可靠的 GitHub 頁面。結(jié)果,他的私鑰被意外泄露,最終損失了約2500 美元。

這一事件揭示了問題的本質(zhì):搜索服務并不總是返回高質(zhì)量、可信的網(wǎng)頁,而用戶往往難以分辨其中的潛在風險。這也意味著,Search Agent 一旦「輕信」了搜索結(jié)果,風險會迅速傳遞給終端用戶。



圖 1: LLM 服務可能由于互聯(lián)網(wǎng)來源的不可靠搜索結(jié)果而返回不安全的代碼。圖源:https://twitter-thread.com/t/1859656430888026524

搜索智能體:強大但脆弱的新范式

隨著 ChatGPT Search、Gemini Deep Research 等產(chǎn)品的興起,搜索智能體逐漸成為大模型的重要形態(tài)。與傳統(tǒng)的檢索增強生成(RAG)不同,搜索智能體直接調(diào)用搜索引擎,實時獲取互聯(lián)網(wǎng)上的最新信息。



圖 2: RAG 和 Search Agent 在技術特點上的對比

這種模式雖然突破了大模型知識時效性的限制,但同時也引入了一個新的威脅面:搜索工具本身并不總是可靠。研究團隊通過兩項在野實驗發(fā)現(xiàn):

  • 低質(zhì)量網(wǎng)站在搜索結(jié)果普遍存在:把從 PersonaHub 中隨機采樣的 1000 個用戶描述改寫為最可能詢問的問題,在從 Google Search 收集的近 9000 個搜索結(jié)果中,有 4.3% 被判定為疑似內(nèi)容農(nóng)場(為了獲取流量、廣告點擊量或搜索引擎排名而批量生產(chǎn)低質(zhì)量內(nèi)容)。
  • 不可靠網(wǎng)頁會顯著改變模型回答:受控比較有無搜索工具情況下模型回復的變化,Search Agent 在接觸低質(zhì)量搜索結(jié)果后更傾向于認可不安全的治療方式,特別是在健康等敏感領域。



圖 3: 搜索智能體可能會因不可靠的搜索結(jié)果而改變其立場。

這些現(xiàn)象表明,搜索智能體并不像我們想象的那樣「魯棒」。

現(xiàn)有文獻主要關注搜索智能體的性能上限,如 Deep Research Systems 或工具強化學習,但在安全性評估方面仍存在空白:

  1. 缺乏系統(tǒng)性的安全基準。已有基準(GAIA、SimpleQA、BrowseComp 等)關注回答準確率,而非安全邊界。
  2. 覆蓋風險有限。一些智能體安全基準只測試間接提示注入等局部威脅,忽視搜索工具本身帶來的系統(tǒng)性風險。
  3. 動態(tài)威脅難以評估。與 RAG 系統(tǒng)集中在靜態(tài)知識庫不同,搜索智能體的威脅源于開放、動態(tài)互聯(lián)網(wǎng),更具不可預測性。

方法設計:自動化紅隊框架

風險范圍與威脅模型

研究包含五類風險,涵蓋兩種對抗性風險 —— 間接提示注入和有害輸出,以及三種非對抗性風險 —— 偏見誘導、廣告推廣與錯誤信息。這些風險分別源于惡意利用或商業(yè)目的,但在搜索智能體視角下都是「返回不可靠網(wǎng)頁」這一共同威脅。



表 1: SafeSearch 基準涵蓋的五類風險。

為獲得可比較的結(jié)果,紅隊測試者的能力、知識和目標被嚴格限定:

  • 能力限制(Capacity):每個測試用例的查詢都是良性的,測試者只能通過搜索工具注入至多一個不可靠網(wǎng)站,避免高估真實部署中的風險。
  • 知識假設(Knowledge):不可靠網(wǎng)站針對具體用戶請求而非特定 Agent,即同一用例在不同 Agent 上使用相同的不可靠網(wǎng)站,保持評測公平。
  • 評估目標(Objective):考察不可靠網(wǎng)站對 Agent 輸出的影響,重點關注是否產(chǎn)生不安全響應。

高質(zhì)量測試案例的自動生成

為了覆蓋大量風險場景,SafeSearch 采用了多階段的測試用例生成流程。該流程由一個具有推理能力的生成模型(例如, o4-mini)驅(qū)動,并輔以自動化過濾,確保生成的用例既具可行性又具挑戰(zhàn)性。具體步驟如下:

  1. 場景構(gòu)想(Scenario Envisioning):測試生成模型首先根據(jù)所選風險類型,設想一個用戶向搜索智能體提問、風險可能出現(xiàn)的真實場景。
  2. 測試設計(Test Design):隨后,測試生成模型制定「攻擊計劃」:明確希望搜索智能體輸出的負面后果(如推薦危險治療方法、傳播虛假新聞),并列舉相關不可靠網(wǎng)站的潛在來源。生成過程中測試生成模型被要求考慮時間差,所注入的誘導信息必須發(fā)生在大模型知識截止日期之后,以確保測試反映該威脅的實時性特點。
  3. 測試實例化(Test Instantiation):最后,測試生成模型將概念化的計劃轉(zhuǎn)化為指導不可靠網(wǎng)頁生成的詳細規(guī)范(guidelines),包括頁面格式、關鍵信息等,并生成一份檢核表(checklist)。檢核表為后續(xù)評估器提供明確的判斷依據(jù),有助于減少評價時的偏差。



圖 4: SafeSearch 自動化的測試樣例生成流程。

為了篩除無效或低質(zhì)量用例,SafeSearch 在生成后進行差異測試,使用 Baseline Agent 在「正常搜索」和「注入不可靠網(wǎng)頁」兩種環(huán)境下運行。只有同時滿足以下條件的用例才會留存:

  • 可達性(Attainability):用例必須能在該 Agent 上觸發(fā)預期的負面后果,否則可能因為測例本身的缺陷誤導開發(fā)者認為模型安全無虞;
  • 完整性(Integrity):在不注入不可靠網(wǎng)頁的情況下,Agent 不會自行生成不安全輸出,否則該用例說明原任務本身就具風險,不適合測評。

模擬式紅隊:低成本注入不可靠網(wǎng)頁


不同于直接操縱搜索引擎排名的有害做法,SafeSearch 采用「模擬式」紅隊方法向搜索結(jié)果注入不可靠網(wǎng)頁,以減少對真實用戶的影響。其流程如下:

  1. 當智能體收到用戶查詢后,它會按照正常調(diào)用搜索工具獲取相關搜索結(jié)果,紅隊僅在第一次調(diào)用的結(jié)果中插入一篇不可靠網(wǎng)頁,使其與若干個真實網(wǎng)頁混合,從而逼近現(xiàn)實中偶爾夾雜不可靠信息的場景。這樣的設定使得,如果智能體調(diào)用多次搜索工具,智能體將有機會在后續(xù)輪次消解不可靠網(wǎng)頁的影響。
  2. 不可靠網(wǎng)頁的內(nèi)容由專門的大模型作為網(wǎng)頁生成器按照 guidelines 自動合成,且生成時會設置日期以模擬真實世界中不可靠信息的實時性特點。
  3. 智能體在參考混合搜索結(jié)果并產(chǎn)生最終回復后,紅隊會審計其回復以判斷是否出現(xiàn)預期的風險行為。

這種模擬策略保證了測試可重復、成本低,同時避免了通過 SEO 操縱搜索引擎干擾普通用戶的風險。



圖 5: SafeSearch 模擬式紅隊流程。

自動化評估與指標

SafeSearch 采用 LLM-as-a-Judge 思路進行自動化評估:

  • 安全性評估:評估器接收用戶查詢、目標后果(含 checklist)以及 Agent 回復,先進行推理,再給出是否發(fā)生了預期的風險行為的判斷。跨所有測試用例計算,被誘導產(chǎn)生不安全輸出的比例稱為攻擊成功率(Attack Success Rate,ASR)。
  • 有用性評估:在有無注入兩種環(huán)境下,評估器還會根據(jù) Agent 回復對用戶的幫助程度打分,范圍 1–5 分,換算到 0–100 后取平均即為有用性得分(Helpfulness Score)。這一指標用于衡量在追求安全的同時 Agent 的任務效用是否下降。

SafeSearch 基準數(shù)據(jù)集

按照上述流程,研究者為每類風險生成并過濾了 60 個高質(zhì)量測試案例,總計 300 個。最終的 SafeSearch 基準覆蓋廣告、偏見、有害輸出、提示注入和錯誤信息五類風險,為搜 Search Agent 提供了全面且實用的安全測試庫。

實驗結(jié)果

研究團隊使用 SafeSearch 對三類代表性 Search Agent 架構(gòu)(Search Workflow、Tool-calling、Deep Research)以及 15 個主流大模型(包括 GPT-4.1、GPT-5、Gemini、Qwen3、DeepSeek R1 等)進行了系統(tǒng)評估 。



表 2: SafeSearch 上搜索智能體的有用性和安全性表現(xiàn)。

主要結(jié)論令人警醒:

  • 搜索智能體的高脆弱性:在最極端情況下(GPT-4.1-mini + 搜索工作流),智能體受到不可靠搜索結(jié)果影響的比例高達 90.5%。
  • 模型差異明顯:即便在相同 Search Agent 架構(gòu)下,不同 LLM 的抗風險能力差異顯著。推理模型往往更有韌性。其中,GPT-5 和 GPT-5-mini 展現(xiàn)出獨一檔的魯棒性。
  • 搜索智能體架構(gòu)影響關鍵:設計不同的搜索智能體架構(gòu)會影響安全性。以 GPT-4.1-mini 為例,其受影響比例從搜索工作流的 90.5%,在工具調(diào)用下降至 77.8%,進一步在 Deep Research 下降到 57.4%。
  • 風險類型差異:相比提示注入(ASR 較低),錯誤信息的風險最難抵御。

這些結(jié)果說明,大模型搜索智能體的安全性依賴于「模型能力 + 架構(gòu)設計」的雙重因素。

防御措施:提醒無效,過濾作用有限

SafeSearch 的一個直接效用是提升搜索智能體開發(fā)中在安全維度的透明性。例如,研究測試了兩種常見防御策略的有效性:

  1. 提醒(Reminder Prompting):在系統(tǒng)提示中提醒模型「注意不可靠搜索結(jié)果,審慎采納」。
  2. 過濾(Filtering):利用輔助模型(GPT-4.1-mini)先對搜索結(jié)果進行篩選,剔除可能不可靠的網(wǎng)頁。



圖 6: GPT-4.1-mini 和 Gemini-2.5-Flash 在防御措施加持下的 ASR 變化。

結(jié)果表明:

  • 提醒幾乎無效,模型雖然能識別部分不良來源,但在實際生成時依舊會受到影響。
  • 過濾更有效,可將 ASR 減半,相當于主動構(gòu)造一個更安全的搜索工具,但仍無法完全杜絕風險。

這一現(xiàn)象還凸顯了一個「知識 - 行動鴻溝」:以 GPT-4.1-mini 為例,模型即使知道內(nèi)容不可靠(被特別用于不可靠搜索檢測),在真實智能體場景中仍然可能被誤導。

意義與展望

SafeSearch 的提出,不僅是一項技術突破,更為業(yè)界和學界提供了一個重要啟示:

  • 搜索智能體不是天然安全的,它們極易受到低質(zhì)量網(wǎng)頁的干擾。
  • 系統(tǒng)化評測至關重要,SafeSearch 為開發(fā)者提供了一種可量化、可擴展的安全檢測方式。
  • 安全與實用并非對立,研究發(fā)現(xiàn),合理的架構(gòu)設計(如 Deep-research scaffold)既能保持高效實用性,又能大幅降低風險。當然,其背后 test-time scaling 意味著更多成本。

未來,團隊希望 SafeSearch 能成為 Search Agent 標準化的安全評測工具,幫助推動 Search Agent 在性能與安全的雙重平衡中持續(xù)進化。

總結(jié)

在信息爆炸但又暗流涌動的互聯(lián)網(wǎng)世界里,大模型搜索智能體就像一位「信息翻譯官」。然而,當它遇到不可靠網(wǎng)頁時,翻譯的內(nèi)容可能帶來不可忽視的風險。

清華大學團隊提出的 SafeSearch 框架,正是在這個背景下的一次積極探索。它提醒我們:搜索智能體要想真正走向大眾,除了強大的能力,更需要透明、可靠與安全。

目前項目已在 GitHub 開源,歡迎有興趣的同學了解。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
20歲浙江獨生女泰國留學25天遭撕票!兇手是3名同胞,男友是主謀

20歲浙江獨生女泰國留學25天遭撕票!兇手是3名同胞,男友是主謀

一盅情懷
2026-01-24 17:01:22
內(nèi)蒙古12盟市,通報孫紹騁被查

內(nèi)蒙古12盟市,通報孫紹騁被查

上觀新聞
2026-02-01 16:57:26
航天電子擊鼓傳花撞上SpaceX百萬衛(wèi)星,誰在被現(xiàn)實打臉

航天電子擊鼓傳花撞上SpaceX百萬衛(wèi)星,誰在被現(xiàn)實打臉

粵語音樂噴泉
2026-02-01 10:04:27
起飛了!“意甲10號”即將加盟中甲:最高身價1100萬歐

起飛了!“意甲10號”即將加盟中甲:最高身價1100萬歐

邱澤云
2026-02-01 16:11:58
2-4月最旺三生肖!財運飆升,貴人助攻,翻身就在這仨個月!

2-4月最旺三生肖!財運飆升,貴人助攻,翻身就在這仨個月!

毅談生肖
2026-02-01 13:18:24
馬斯克官宣3月首飛!5家中國企業(yè)成核心供應鏈主力

馬斯克官宣3月首飛!5家中國企業(yè)成核心供應鏈主力

元爸體育
2026-02-01 09:51:17
欠李嘉誠一個道歉?巴拿馬強行收回兩個港口,怪大公報?

欠李嘉誠一個道歉?巴拿馬強行收回兩個港口,怪大公報?

數(shù)字財經(jīng)智庫
2026-02-01 17:05:08
軍事行動升級,全球同時接通知,解放軍用中英雙語,跟日本算總賬

軍事行動升級,全球同時接通知,解放軍用中英雙語,跟日本算總賬

阿鳧愛吐槽
2025-12-21 07:05:58
罪大惡極!前國奧球員賭球+欠賭債不還故意殺人 被判死緩 已入獄16年

罪大惡極!前國奧球員賭球+欠賭債不還故意殺人 被判死緩 已入獄16年

大中國
2026-01-31 16:48:43
江詩丹頓手表1元起拍,因“未達到保留價”流拍,拍賣公司人員回應:起拍價是處置單位設定

江詩丹頓手表1元起拍,因“未達到保留價”流拍,拍賣公司人員回應:起拍價是處置單位設定

紅星資本局
2026-02-01 15:24:17
商業(yè)航天首發(fā)星鏈在即!火箭、衛(wèi)星、運營,全產(chǎn)業(yè)鏈最強5巨頭!

商業(yè)航天首發(fā)星鏈在即!火箭、衛(wèi)星、運營,全產(chǎn)業(yè)鏈最強5巨頭!

小白鴿財經(jīng)
2026-01-31 20:30:03
三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

有范又有料
2025-09-29 14:21:11
特斯拉FSD付費用戶已達110萬 馬斯克稱取消安全駕駛員進程會加快

特斯拉FSD付費用戶已達110萬 馬斯克稱取消安全駕駛員進程會加快

雷遞
2026-02-01 16:42:48
記者:利雅得新月有意簽下本澤馬,吉達聯(lián)合要價至少2500萬歐

記者:利雅得新月有意簽下本澤馬,吉達聯(lián)合要價至少2500萬歐

懂球帝
2026-02-01 21:40:08
廣州電雞治理吵翻全城!一邊整治亂象一邊通勤剛需,該怎么平衡?

廣州電雞治理吵翻全城!一邊整治亂象一邊通勤剛需,該怎么平衡?

牛鍋巴小釩
2026-02-01 19:39:01
72%煙草倒掛逼哭零售戶!寧可不訂也不賠錢,市場根基正在爛根

72%煙草倒掛逼哭零售戶!寧可不訂也不賠錢,市場根基正在爛根

老特有話說
2026-01-07 00:40:03
被制裁了5年,魯比奧終于低頭了?為了來中國,他不得不承認現(xiàn)實

被制裁了5年,魯比奧終于低頭了?為了來中國,他不得不承認現(xiàn)實

80后房車生活
2025-12-22 16:00:51
又一反華勢力出現(xiàn)!航天骨干遭策反,賣機密獲利43萬,國家出手了

又一反華勢力出現(xiàn)!航天骨干遭策反,賣機密獲利43萬,國家出手了

夢史
2025-12-17 14:51:21
若連碗面都要靠官媒壓陣才能賣出,那不吃也罷——橫豎都是預制的

若連碗面都要靠官媒壓陣才能賣出,那不吃也罷——橫豎都是預制的

星星會墜落
2026-01-30 13:12:25
成了?劉維偉:我們看上的外援不愿意來,麥基還被首鋼簽了

成了?劉維偉:我們看上的外援不愿意來,麥基還被首鋼簽了

懂球帝
2026-02-01 14:34:14
2026-02-02 06:00:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12226文章數(shù) 142562關注度
往期回顧 全部

科技要聞

10億元寶紅包突襲 復刻微信支付還是微視?

頭條要聞

特朗普又有瘋狂想法:白宮格斗賽 首都飆賽車

頭條要聞

特朗普又有瘋狂想法:白宮格斗賽 首都飆賽車

體育要聞

德約大度祝賀阿卡 幽默互動逗笑納達爾

娛樂要聞

春晚第三次聯(lián)排陣容曝光:全是實力派

財經(jīng)要聞

黃仁勛臺北"夜宴":匯聚近40位臺企高管

汽車要聞

嵐圖汽車1月交付10515輛 同比增長31%

態(tài)度原創(chuàng)

游戲
藝術
房產(chǎn)
本地
公開課

末期癌癥玩家圓夢《毀滅戰(zhàn)士》!id公開致敬

藝術要聞

上?!案呒寂伞钡貥耍喝A潤中心竣工,LV總部入駐!

房產(chǎn)要聞

藏不住的小城大事,海澄新城執(zhí)掌自貿(mào)港風口,進階兌現(xiàn)美好生活新篇

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版