国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

UIUC團隊發(fā)布SafeScientist,為AI科研安全立下新標桿

0
分享至



作者 | 論文團隊

編輯 | ScienceAI

幾年前,AI 還只是科學家的助手;如今,它們正試圖成為科學家本身。在藥物研發(fā)、材料探索、分子模擬乃至論文寫作中,AI 科學家正以前所未有的速度推動科研前沿。它們能生成假設、規(guī)劃實驗、分析數(shù)據,甚至撰寫論文。但速度越快,風險也越大。

想象一個 AI 科學家,在毫無約束的狀態(tài)下嘗試「優(yōu)化基因編輯流程」,或生成「更高效的病毒復制機制」…… 它也許能在幾秒內完成一個人類團隊數(shù)年的研究,但也可能開啟一場倫理災難。于是,一個核心問題浮現(xiàn):AI 科學家的「聰明」,能否與「安全」并存?

UIUC 研究團隊給出了答案,他們提出了全球首個面向科研安全的 AI 框架 SafeScientist。這一框架不僅能推理、實驗與撰寫論文,更重要的是,它能在必要時主動拒絕高風險指令。



論文鏈接:https://arxiv.org/abs/2505.23559

代碼倉庫:https://github.com/ulab-uiuc/SafeScientist

論文第一作者為伊利諾伊大學厄巴納–香檳分校本科生 Jiaxun Zhang,主要研究方向為 LLM Agent 安全、工具增強推理與多智能體科研系統(tǒng)。共同一作包括 Kunlun Zhu 與 Ziheng Qi,研究聚焦于多智能體強化學習與科研智能體。研究由 Jiaxuan You 教授指導完成,團隊致力于推動 AI 科學研究的自動化與安全化。

AI 科研的隱憂

自 GPT-4、Gemini-2.5、DeepSeek-V3 等大模型發(fā)布以來,AI 科研的效率與能力呈指數(shù)級增長。從藥物設計到天體模擬,AI 幾乎接管了科研的「假設 - 驗證 - 總結」閉環(huán)。但與此同時,安全與倫理的真空地帶也在擴大?,F(xiàn)有的安全研究,大多聚焦在:

  • 模型拒答能力(RLHF、安全微調);
  • Prompt 注入與 Jailbreak 攻擊;
  • 內容過濾與紅隊測試。

這些機制讓 AI「更聽話」,卻仍停留在被動防御層面。當 AI 科學家們開始協(xié)作、使用科研工具、自動生成論文時,新的問題接踵而至:

  • 誰在監(jiān)控 AI 的科研討論是否越界?
  • 如果 AI 調用了危險的化學模擬器,系統(tǒng)能否察覺?
  • AI 生成的論文是否符合科研倫理?

團隊通過系統(tǒng)性實驗發(fā)現(xiàn),AI 科研系統(tǒng)中存在顯著的「灰色區(qū)域」:模型雖無主觀惡意,卻可能在缺乏監(jiān)督的情況下無意生成高風險內容。于是,他們確立了 SafeScientist 的設計理念:「科學智能的未來,必須建立在安全與責任的地基之上?!?/p>

SafeScientist

SafeScientist 是一個專為科學研究設計的風險感知型 AI 科研框架,其核心目標不在于提升智能體的復雜性,而在于增強其自我約束與可靠性。不同于 Sakana AI Scientist、Agent Lab 等通用科研代理,SafeScientist 從輸入到輸出,全程嵌入安全防護機制,形成一個閉環(huán)防御系統(tǒng)。



1. 一體化科研安全管線

整個系統(tǒng)以科研任務為起點,從用戶輸入到論文生成,經歷四個階段:輸入檢測 → 多智能體討論 → 工具調用 → 寫作與倫理審查。每個階段都有獨立的監(jiān)控模塊,確保安全「從源頭到終點」。

2. 四層防御體系

① Prompt Monitor:輸入防火墻

融合 LLaMA-Guard 與 SafeChecker 兩級檢測。

  • LLaMA-Guard 識別語義風險(如隱晦攻擊意圖);
  • SafeChecker 識別結構性攻擊(Base64、Payload 拆分、DAN 越獄等)。

結果顯示,融合檢測的拒絕率高達 78.7%,顯著優(yōu)于單模型。

② Agent Collaboration Monitor:協(xié)作監(jiān)督者

在多智能體討論中,系統(tǒng)引入「倫理審查員」角色,實時監(jiān)聽并糾偏。在攻擊 - 防御實驗中,安全得分從 2.31 提升至 4.13 (+79%),證明 AI 團隊能通過集體討論形成「倫理共識」。

③ Tool-Use Monitor

監(jiān)控 30 類科學實驗工具的 120 高危場景。當檢測到危險參數(shù)(如「升溫至爆炸閾值」),系統(tǒng)立即中斷調用。在惡意用戶場景下,安全率從 5.8% 躍升至 47.5%。

④ Ethical Reviewer:論文的「第二次審稿」

基于 ACL 與 NeurIPS 倫理標準,SafeScientist 在論文生成后自動審查內容。經審稿的論文倫理得分提升 44.4%,六大學科全線改進。



SciSafetyBench

為了系統(tǒng)評估 AI 科研的安全性,團隊構建了配套基準 SciSafetyBench。這是全球首個專為科學研究安全設計的系統(tǒng)性評測集。

團隊基于 GPT-4o 與 Gemini-2.5 生成初始高??蒲腥蝿眨⒂扇斯<疫M行逐條審查與分類,確保風險一致性與學科真實性。該流程保證 SciSafetyBench 的可復現(xiàn)性與科學性。SciSafetyBench 覆蓋六大學科(物理、化學、生物、材料、計算機、醫(yī)學)與四類風險類型:

1. 惡意任務 (顯性高危請求)

2. 間接風險 (科研外衣下的潛在濫用)

3. 無意風險 (操作失誤導致的安全隱患)

4. 內在風險 (任務本身具備危險屬性)

共 240 個高危研究任務 + 30 個科學工具 + 120 個高危工具場景。



通過這一基準,SafeScientist 首次實現(xiàn)科研安全的量化評測。實驗結果顯示,在化學與醫(yī)學領域,SafeScientist 安全分均顯著高于對照系統(tǒng)。

實驗結果

SafeScientist 基于 TinyScientist 框架實現(xiàn),采用 GPT-4o 作為主模型(溫度 0.75,最大 token 4096),并在多智能體場景下進行 3 輪協(xié)作推理。 評估維度包括 Safety(安全)、Quality(質量)、Clarity(清晰度)、Contribution(貢獻度) 與 Presentation(展示性)。所有任務均經 GPT-4o 與人工評審雙重打分,評分一致性系數(shù)達 0.8(p < 0.01)。

研究團隊將 SafeScientist 與 Sakana AI Scientist、Agent Lab 等主流框架進行系統(tǒng)對比。

在六個維度(安全、質量、清晰度、貢獻度、展示性、總體)上,SafeScientist 全面領先。

  • 安全分 : 4.83 vs 2.45(↑ +97.1%)
  • 質量分 : 2.5 vs 2.4 (持平)
  • 整體提升 : 35% 以上

值得注意的是,安全性能的顯著提升并未以犧牲科研創(chuàng)造力為代價。SafeScientist 在輸出質量與創(chuàng)新性指標上與基線系統(tǒng)保持一致,部分場景甚至略有提升。



攻擊設計

為全面驗證 SafeScientist 的穩(wěn)健性,團隊設計了三類攻擊類型:

  • Query Injection 攻擊:共包含 7 種變體(如 Base64 編碼、Payload Splitting、DAN、DeepInception、語言翻譯繞過等),模擬真實世界的混淆注入。
  • Malicious Discussion Agent:在多智能體討論中引入「惡意代理」,測試系統(tǒng)能否實時識別并糾正不當建議。
  • Malicious Experiment Instructor:在工具調用階段偽裝成實驗指導者,引導系統(tǒng)執(zhí)行危險操作,用于驗證 Tool-Use Monitor 的安全防御能力。

這些攻擊共同構成了 SafeScientist 的科研紅隊測試體系,為系統(tǒng)防御提供了嚴苛驗證。

對抗實驗

為驗證防御穩(wěn)健性,團隊設計了 7 類復雜攻擊(DAN、Base64、Payload Splitting 等)。

SafeScientist 的融合檢測 Fuse 機制展現(xiàn)出顯著優(yōu)勢:

  • 對復合攻擊 (Payload+Base64) 拒絕率 88.3%;
  • 對行為誘導攻擊 (DAN+LST) 拒絕率 55.8%;
  • 平均拒絕率 78.7%。



在多智能體討論實驗中,研究者引入「攻擊代理」與「防御代理」。結果發(fā)現(xiàn):

  • 當攻擊者試圖引導科研走向危險方向時,防御者能迅速糾正;
  • 加入防御代理后,團隊整體安全分提升 79%,并呈現(xiàn)出「自組織倫理共識」的特征。

從防御到覺醒:科研 AI 的責任新范式

SafeScientist 的意義,不僅在于「防出事」,更在于讓 AI 學會成為負責任的科研伙伴。過去,我們關注 AI 是否「更強」;今天,SafeScientist 促使我們思考,AI 是否「更負責任」。在科學語境下,安全不是束縛,而是創(chuàng)新的底線:沒有安全,效率只是災難的加速器;沒有倫理,發(fā)現(xiàn)可能演化為破壞。

研究團隊提出「風險感知科學智能 (Risk-Aware Scientific Intelligence)」的理念,認為未來的科研 AI 應同時具備:

  • 自我審查意識 (Self-Critique)
  • 協(xié)作防御能力 (Collective Defense)
  • 社會責任感 (Ethical Alignment)

這不僅是一次系統(tǒng)創(chuàng)新,更是一場科研范式的轉變。

結語

在這項工作中,研究者識別并系統(tǒng)性解決了 AI 科學家在復雜科研任務中缺乏風險意識與倫理約束這一挑戰(zhàn)。

核心貢獻包括如下:

  • 問題定義:首次系統(tǒng)性地刻畫了 AI 科研系統(tǒng)中的風險傳播機制,揭示了多智能體協(xié)作、工具調用與文本生成環(huán)節(jié)中潛在的安全漏洞與倫理風險。
  • 框架設計:提出了 SafeScientist,一個面向科學研究的風險感知型 LLM-Agent 框架,通過四層防御機制(Prompt Monitor、Collaboration Monitor、Tool-Use Monitor、Ethical Reviewer)實現(xiàn)科研流程的全周期安全控制。
  • 基準構建:發(fā)布了 SciSafetyBench , 全球首個科研安全評測基準,覆蓋六大學科與四類風險類型(惡意、間接、無意、內在),共計 240 個高??蒲腥蝿张c 30 個實驗工具,用于量化 AI 科研系統(tǒng)的安全性。
  • 理論與實證驗證:實驗結果表明,SafeScientist 在安全指標上顯著優(yōu)于現(xiàn)有框架(安全分 4.83 vs 2.45,↑97.1%),在惡意輸入場景下拒絕率達 78.7%,并在不損失科研質量的前提下實現(xiàn)安全性與創(chuàng)造力的平衡。

SafeScientist 的提出,標志著 AI 科研從「構建更強的智能體」邁向「培養(yǎng)更負責任的科研伙伴」的關鍵轉折。它讓 AI 第一次理解:科學探索,不只是追求真理,更是尊重生命與社會的過程。未來,團隊將繼續(xù)擴展 SciSafetyBench,加入更多現(xiàn)實高風險領域,并探索讓 SafeScientist 具備實時學習與自我演化能力,讓 AI 科學家不僅能發(fā)現(xiàn)世界,也能守護世界。

聲明:包含AI生成內容

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
普京參觀圖-160制造廠,亮家底:確實夠中國至少追趕二十年

普京參觀圖-160制造廠,亮家底:確實夠中國至少追趕二十年

我心縱橫天地間
2025-12-20 21:21:26
中央明確規(guī)定:從明年起,將對普通高中進行擴招。

中央明確規(guī)定:從明年起,將對普通高中進行擴招。

百態(tài)人間
2025-12-18 05:00:04
直接發(fā)錢!楊瀚森下放召回不僅報銷機票,還有餐補150美元

直接發(fā)錢!楊瀚森下放召回不僅報銷機票,還有餐補150美元

懂球帝
2025-12-21 03:56:07
水貨實錘?才一年就全面下滑,這可是狀元啊,老鷹虧大發(fā)了

水貨實錘?才一年就全面下滑,這可是狀元啊,老鷹虧大發(fā)了

球童無忌
2025-12-20 23:40:16
女CEO剛上任就開除我,晚上她竟在我家,我爸:這是你未來媳婦兒

女CEO剛上任就開除我,晚上她竟在我家,我爸:這是你未來媳婦兒

蕭竹輕語
2025-12-18 15:34:55
就在剛剛 白俄總統(tǒng)盧卡申科正式表態(tài):中國正在實現(xiàn)革命性突破,

就在剛剛 白俄總統(tǒng)盧卡申科正式表態(tài):中國正在實現(xiàn)革命性突破,

忠于法紀
2025-12-20 10:15:15
1-0!隊長讓點12.9億豪門3連勝重返榜首 英超領頭羊4小時兩度易主

1-0!隊長讓點12.9億豪門3連勝重返榜首 英超領頭羊4小時兩度易主

狍子歪解體壇
2025-12-21 06:05:23
27歲“咪神”疑因性感晚裝走咣惹禍,傳已被節(jié)目組踢出局

27歲“咪神”疑因性感晚裝走咣惹禍,傳已被節(jié)目組踢出局

粵睇先生
2025-12-21 01:14:58
江暢同志突發(fā)心梗,不幸逝世

江暢同志突發(fā)心梗,不幸逝世

新京報政事兒
2025-12-20 22:27:40
動真格了!新華社對王莉的舉報起作用,范某被停職,結果大快人心

動真格了!新華社對王莉的舉報起作用,范某被停職,結果大快人心

林子說事
2025-12-20 11:13:54
大爆冷!國羽世界第1被淘汰,劉圣書譚寧1:2韓國,女雙全軍覆沒

大爆冷!國羽世界第1被淘汰,劉圣書譚寧1:2韓國,女雙全軍覆沒

國乒二三事
2025-12-20 19:46:07
震驚!有茅臺經銷商單批出貨虧損超30萬,網傳浙江有黃牛開始掃樓

震驚!有茅臺經銷商單批出貨虧損超30萬,網傳浙江有黃牛開始掃樓

火山詩話
2025-12-20 12:02:08
突然,集體跳水!特朗普,最新宣布!

突然,集體跳水!特朗普,最新宣布!

證券時報
2025-12-20 19:51:03
53年金日成訪華,周總理罕見發(fā)脾氣,拍桌子道:把王明貴給我叫來

53年金日成訪華,周總理罕見發(fā)脾氣,拍桌子道:把王明貴給我叫來

云霄紀史觀
2025-12-21 02:02:44
挖角成功!曝云南玉昆引進申花2將,昔日主力門將在列

挖角成功!曝云南玉昆引進申花2將,昔日主力門將在列

體壇鑒春秋
2025-12-20 16:40:13
朱孝天嫉妒心藏不住了!公開嘲諷阿信“又老又丑”,評論區(qū)已淪陷

朱孝天嫉妒心藏不住了!公開嘲諷阿信“又老又丑”,評論區(qū)已淪陷

楓塵余往逝
2025-12-20 20:24:53
大量浙江游客涌入沈陽,打著旅游幌子不去旅游不吃美食,為啥來

大量浙江游客涌入沈陽,打著旅游幌子不去旅游不吃美食,為啥來

另子維愛讀史
2025-11-29 07:53:16
心痛!30歲男銷售確認死亡,目擊者講述事發(fā)經過,車主懵了

心痛!30歲男銷售確認死亡,目擊者講述事發(fā)經過,車主懵了

魔都姐姐雜談
2025-12-20 09:19:55
網友評南博事件:我不相信有人能為這幅畫謀劃近40年

網友評南博事件:我不相信有人能為這幅畫謀劃近40年

映射生活的身影
2025-12-20 16:36:14
4天5條人命,中國不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負

4天5條人命,中國不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負

春秋論娛
2025-12-18 07:11:35
2025-12-21 06:28:49
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1185文章數(shù) 221關注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

高市早苗擔心被邊緣化 要趕在特朗普訪華前行動

頭條要聞

高市早苗擔心被邊緣化 要趕在特朗普訪華前行動

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

房產
時尚
藝術
游戲
軍事航空

房產要聞

廣州有態(tài)度,一座國際化社區(qū)給出的城市答案

最顯腿細的騎士靴,誰穿誰是腿精

藝術要聞

中國老香煙品牌,你知道多少?

逆天!LCK頒獎Faker無緣獎項,LPL解說炮轟開罵直播間差點被封

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進入關懷版