国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

類能否設(shè)計(jì)出可靠的實(shí)用保障措施來對(duì)抗超級(jí)人工智能智能體

0
分享至


2025年9月,蘭德公司發(fā)布了題為《人類能否設(shè)計(jì)出可靠的實(shí)用保障措施來對(duì)抗超級(jí)人工智能智能體?》(Can Humans Devise Practical Safeguards That Are Reliable Against an Artificial Superintelligent Agent?)的深度研究報(bào)告。該研究旨在回答一個(gè)核心議題:面對(duì)認(rèn)知能力全面超越人類的超級(jí)人工智能,人類能否設(shè)計(jì)出可靠、實(shí)用的技術(shù)保障措施來確保其安全性?報(bào)告創(chuàng)新性地提出一個(gè)“相反假設(shè)”:依托計(jì)算復(fù)雜性、信息論、熱力學(xué)這三類“基礎(chǔ)極限”,結(jié)合安全工程的“基元”與“協(xié)議”,人類可以設(shè)計(jì)出實(shí)用防御措施。研究結(jié)論指出,這些措施能大幅增加超級(jí)人工智能的攻擊成本,并為人類爭(zhēng)取充足時(shí)間來檢測(cè)和應(yīng)對(duì),實(shí)現(xiàn)顯著降低風(fēng)險(xiǎn)的核心目標(biāo)。啟元洞見編譯整理,供讀者參考。

一、引言

超級(jí)人工智能的快速發(fā)展引發(fā)核心議題:人類能否設(shè)計(jì)出可靠、可信的保障措施,確保此類系統(tǒng)的安全運(yùn)行?一種觀點(diǎn)認(rèn)為,超級(jí)人工智能對(duì)物理與網(wǎng)絡(luò)空間擁有極強(qiáng)掌控力,其超強(qiáng)智能可支撐新科學(xué)范式與技術(shù)的開發(fā),總能繞過人類施加的限制,“智能是人類力量的基礎(chǔ)”,防范遠(yuǎn)比自身聰明的事物仍存在巨大爭(zhēng)議,畢竟人類從未面對(duì)過在認(rèn)知、計(jì)算、創(chuàng)新能力上全面超越自身的存在,其可能帶來的未知風(fēng)險(xiǎn)難以預(yù)判。

報(bào)告提出相反假設(shè):即便面對(duì)惡意、超級(jí)智能且基于軟件的智能體,依托計(jì)算復(fù)雜性、信息論、熱力學(xué)三類“基礎(chǔ)極限”,借鑒“基元”“協(xié)議”等成熟安全工程概念,結(jié)合以人為本的安全實(shí)踐與明確威脅模型,也能設(shè)計(jì)出強(qiáng)大實(shí)用的防御措施。這些措施可迫使人工智能依賴“高失敗率、高被發(fā)現(xiàn)率”的攻擊載體,部分方案通過提升算力、時(shí)間等資源消耗增加攻擊成本,部分方案通過物理或邏輯約束構(gòu)成障礙減輕危害。研究旨在搭建人工智能安全社區(qū)與安全工程社區(qū)的溝通橋梁,將成熟的安全工程經(jīng)驗(yàn)遷移至人工智能領(lǐng)域,為超級(jí)人工智能安全防護(hù)提供兼具理論支撐與實(shí)踐可行性的新思路。

二、安全工程的核心要素:基元、協(xié)議、實(shí)踐與威脅模型

安全工程的核心是構(gòu)建能在惡意攻擊、人為失誤或意外事件中保持可靠的系統(tǒng),其有效性以“保障措施相對(duì)于潛在攻擊者能力與動(dòng)機(jī)的實(shí)際作用”為前提。在信息安全領(lǐng)域,這些保障措施常以數(shù)學(xué)和計(jì)算極限為基礎(chǔ),支撐著各類技術(shù)與程序控制,是數(shù)字經(jīng)濟(jì)信任體系的核心支柱。

例如,人們相信投資賬戶資金能抵御在線攻擊者,正是源于加密交易與多因素認(rèn)證技術(shù)的應(yīng)用。這些保障措施的安全性,依賴于對(duì)其加密技術(shù)破解難度的嚴(yán)格驗(yàn)證。目前來看,即便老練的攻擊者也難以突破。盡管銀行內(nèi)部威脅、物理設(shè)備被盜等不同威脅模式可能改變這一論斷,但我們?nèi)阅芫汀氨U洗胧┡c攻擊者能力的平衡”做出有理有據(jù)的嚴(yán)格安全論斷。

關(guān)鍵在于,這些安全論斷或明或暗地包含特定威脅模型,并對(duì)攻擊者的能力和資源做出明確假設(shè)。這些假設(shè)反過來能幫助我們隔離安全架構(gòu)中的潛在漏洞,再通過技術(shù)或非技術(shù)手段加以解決。要利用現(xiàn)有安全工程實(shí)踐,為人工智能設(shè)計(jì)出堪比網(wǎng)上銀行安全級(jí)別的保障措施,就必須剖析保障措施的四大核心要素:基元、協(xié)議、實(shí)踐與威脅模型,為構(gòu)建人工智能安全斷言奠定基礎(chǔ)。

(一)基元


基元和協(xié)議是安全工程領(lǐng)域的既定結(jié)構(gòu),無處不在且支撐著日常生活中信息系統(tǒng)的安全運(yùn)行。它們的核心功用是識(shí)別可測(cè)量的現(xiàn)象,這些現(xiàn)象可作為“安全之根”或“信任之根”,即隱含可信、構(gòu)成安全主張基礎(chǔ)的基本要素。我們正是通過觀察和測(cè)量自然規(guī)律與物理規(guī)律,如物理學(xué)的不變性、某些數(shù)學(xué)形式的復(fù)雜性等,建立起安全信任。

基元最初是采用數(shù)學(xué)原理的密碼學(xué)概念,后擴(kuò)展為更廣泛的離散物理和邏輯元素,可通過嚴(yán)格的數(shù)學(xué)分析作為安全聲明的基礎(chǔ)。其圍繞定義明確且可測(cè)量的原則構(gòu)建,例如“在實(shí)際時(shí)間框架內(nèi)不可能窮舉搜索一個(gè)結(jié)果或強(qiáng)行獲得算法答案”。

加密哈希算法是典型的安全基元,它依靠“正向計(jì)算易、反向推導(dǎo)難”的陷阱門數(shù)學(xué)函數(shù),為較長(zhǎng)數(shù)據(jù)生成唯一、固定大小的摘要,很難從輸出中反推出輸入。SHA-256作為標(biāo)準(zhǔn)化的加密哈希算法基元,已被廣泛應(yīng)用于數(shù)字生態(tài)系統(tǒng)中,成為數(shù)據(jù)完整性校驗(yàn)、身份認(rèn)證等安全場(chǎng)景的核心支撐。

(二)協(xié)議


安全協(xié)議是一套以指令或程序形式存在的規(guī)則,通過使用基元來實(shí)施和控制各方之間的行動(dòng)和通信,核心目標(biāo)是保障安全。要讓安全協(xié)議支持可靠的安全保證,就必須利用其所包含的基元屬性,在面對(duì)惡意攻擊、錯(cuò)誤或意外時(shí),以可信、可靠的方式完成離散的特定任務(wù)。正是通過基元的特性及其在協(xié)議中指定的明確關(guān)系,才能提出和分析安全主張。

傳輸層安全(TLS)協(xié)議是典型代表,幾乎所有網(wǎng)絡(luò)瀏覽器都使用其對(duì)應(yīng)的鎖圖標(biāo)來表示安全可信的連接。該協(xié)議在160多頁的標(biāo)準(zhǔn)中詳細(xì)描述了各類用戶和技術(shù)行為的精確操作,能驗(yàn)證用戶與網(wǎng)站的身份,并在用戶和銀行等資源之間建立加密通道,為數(shù)據(jù)保密性提供保障。TLS采用SHA-256作為認(rèn)證子協(xié)議的一部分,其可信性源于哈希函數(shù)的底層函數(shù)在計(jì)算上難以被攻擊者破解,基于這一邏輯,我們可斷言TLS能提供適合網(wǎng)上銀行的可信安全主張。

(三)實(shí)踐


現(xiàn)代安全實(shí)踐告訴我們,僅在協(xié)議中引用安全原則是不夠的,否則就不會(huì)對(duì)個(gè)人識(shí)別碼(PIN)和密碼提出長(zhǎng)度要求。安全保證不僅要求在協(xié)議中使用基元,還要求基元的實(shí)例化能應(yīng)對(duì)特定威脅特征,如攻擊者可能多次猜測(cè)PIN碼。安全協(xié)議的基本功能之一,是嚴(yán)格定義安全斷言的要求和約束,這便是安全實(shí)踐。

例如,四位數(shù)PIN碼可能被擁有無限猜測(cè)機(jī)會(huì)的威脅者破解,但“嘗試一定次數(shù)后鎖定賬戶”的實(shí)踐,會(huì)通過停止協(xié)議執(zhí)行來限制這種攻擊能力,將其進(jìn)一步的行動(dòng)排除在有效范圍之外。這種系統(tǒng)約束讓基元得以有效使用,同時(shí)平衡了安全性與可用性。在這個(gè)例子中,PIN碼對(duì)協(xié)議的少量運(yùn)行是足夠的,若輔以“要求使用實(shí)體卡”“制定損害賠償法律”等額外實(shí)踐,安全性會(huì)更高。

此外,實(shí)踐還能應(yīng)對(duì)側(cè)信道攻擊,即信息通過非設(shè)計(jì)用途、非預(yù)期的媒介泄露的攻擊方式。這類攻擊常以意想不到的技術(shù)手段實(shí)施,例如通過測(cè)量中央處理器(CPU)的功率來推斷其正在處理的加密密鑰。而限制加密處理芯片的物理可用性,可以降低攻擊者通過功率測(cè)量竊取密鑰的風(fēng)險(xiǎn),為協(xié)議執(zhí)行提供額外安全保障。

(四)威脅模型


設(shè)計(jì)有效安全協(xié)議的核心是定義明確的威脅模型。建立威脅模型的做法,是對(duì)系統(tǒng)(此處為協(xié)議)進(jìn)行系統(tǒng)、可重復(fù)的分析,識(shí)別潛在攻擊,從而明確描述對(duì)手的潛在行動(dòng)。因此,威脅模型能暴露協(xié)議中固有的假設(shè),并通過其考慮的威脅定義協(xié)議有效的條件。

協(xié)議提供的安全性由所處理的威脅模型的穩(wěn)健性決定:使用較簡(jiǎn)單的威脅模型,預(yù)示著協(xié)議較弱,現(xiàn)在或?qū)砜赡鼙桓鼜?qiáng)大的行為者攻克;而考慮到擁有高水平知識(shí)和資源(計(jì)算、信息、合作者)的行為者的威脅模型,協(xié)議可能更強(qiáng),能有效限制潛在攻擊者。一個(gè)基本原則是,任何安全都不是絕對(duì)的,安全只能相對(duì)于潛在的惡意行為進(jìn)行推理,而威脅模型能夠以明確的方式支持這種推理。

三、邁向人工智能安全工程

針對(duì)強(qiáng)大的超級(jí)人工智能,安全工程實(shí)踐要求保障方案都必須充分考慮人工智能能力,并基于“有理由相信能抵御這些能力”的前提設(shè)計(jì)。蓋斯特(Geist)和穆恩(Moon)提出的框架指出,物理學(xué)定律和理論數(shù)學(xué)中存在不可突破的限制,我們聚焦于計(jì)算復(fù)雜性、信息論、物理環(huán)境操控三類障礙,將其作為安全原則構(gòu)建“信任之根”,開發(fā)可行的人工智能安全基元。

(一)人工智能安全基元分類


1. 計(jì)算復(fù)雜性基元

人工智能受到現(xiàn)有計(jì)算平臺(tái)能力的限制,硬件、軟件與算法的協(xié)同需消耗時(shí)間和資源。盡管計(jì)算技術(shù)遵循摩爾定律進(jìn)步,全球計(jì)算能力持續(xù)提升,但特定任務(wù)的完成仍離不開三者的協(xié)調(diào)配合。例如,肖爾算法為大數(shù)分解問題提供了數(shù)學(xué)基礎(chǔ),但需量子計(jì)算機(jī)支持,而目前尚未實(shí)現(xiàn);即便集結(jié)全球經(jīng)典計(jì)算資源,解決這類問題平均也需數(shù)年時(shí)間。加密技術(shù)是這類基元的核心,設(shè)計(jì)良好的加密方案可使人工智能在有意義的時(shí)間內(nèi),以可實(shí)現(xiàn)的計(jì)算量破解系統(tǒng)變得不切實(shí)際或物理上不可能。

2. 信息論基元

這類基元既基于吞吐量等實(shí)際限制,也依托編碼理論等更基礎(chǔ)的限制,核心前提是“人工智能無法推理未擁有或不存在的信息”。將這些概念轉(zhuǎn)化為安全基元的關(guān)鍵方式,是限制人工智能的信息通信途徑。帶寬(單位時(shí)間內(nèi)可傳輸?shù)臄?shù)據(jù)量)和編碼(傳輸比特傳遞信息的效率)是克勞德?香農(nóng)(ClaudeShannon)提出的信息論核心要素。常見實(shí)現(xiàn)手段包括空氣蓋(完全禁止有線傳輸)、法拉第籠(阻斷無線傳輸)、數(shù)據(jù)二極管(僅允許信息單向流動(dòng)),或拒絕人工智能接入光纖線路等高帶寬通信介質(zhì),迫使其依賴速度更慢、損耗更高的低效介質(zhì)。

3. 物理環(huán)境操作基元

盡管人工智能在虛擬空間中能完成諸多操作,但它與物理環(huán)境元素的交互仍存在諸多障礙,從需要克服物理摩擦到面臨宇宙行動(dòng)極限。這類基元涵蓋一系列與“人工智能與外部環(huán)境交互及限制”相關(guān)的基本原理,我們對(duì)熱力學(xué)的定義較為寬泛,即與處理系統(tǒng)中能量和功的物理學(xué)分支相關(guān)的原理。其主要分為兩組:一是要求必須通過物理操控實(shí)現(xiàn)目標(biāo),如果沒有人類或機(jī)器人協(xié)助無法達(dá)成目標(biāo);二是物理定律對(duì)行動(dòng)速度、過程效率的限制,如材料移動(dòng)、能量供應(yīng)約束,會(huì)顯著降低人工智能的行動(dòng)速率。

(二)人工智能安全協(xié)議構(gòu)建


現(xiàn)有精心設(shè)計(jì)的保障措施已依托上述核心概念,因此不僅有可能針對(duì)人工智能制定安全協(xié)議,部分現(xiàn)有措施也可以直接應(yīng)用。與構(gòu)建傳統(tǒng)安全協(xié)議類似,人工智能安全協(xié)議需嚴(yán)格定義四大要素:行為者(互動(dòng)主體及知識(shí)、行動(dòng)范圍)、知識(shí)(系統(tǒng)信息及保密性、完整性、可用性等安全屬性)、行動(dòng)(互動(dòng)空間與目標(biāo))、目標(biāo)(期望/規(guī)避結(jié)果及影響因素)。

協(xié)議保障邏輯有兩點(diǎn)。一是提高攻擊成本,使人工智能難以籌集足夠資源,或在資源收集過程中被識(shí)別阻止。二是增加攻擊概率性失敗風(fēng)險(xiǎn),通過連鎖效應(yīng)降低整體成功率。例如,對(duì)稱密鑰系統(tǒng)可設(shè)計(jì)為暴力破解需消耗海量時(shí)間和計(jì)算資源,使其實(shí)際不可行;若攻擊需說服10人且一人拒絕即失敗,即便單次說服成功率95%,整體成功率也僅60%,被發(fā)現(xiàn)的概率則達(dá)40%,并且可能引發(fā)防御者采取更激進(jìn)的應(yīng)對(duì)行動(dòng)。

(三)人類作為側(cè)信道攻擊手段


人類可能成為人工智能突破安全防線的側(cè)信道,人工智能可通過合作、脅迫或說服人類繞過協(xié)議限制。有一種觀點(diǎn)認(rèn)為,人工智能的說服能力極強(qiáng),能有效說服人類聽從其命令,從而突破所有安全控制。

但人類說服并非絕對(duì)可靠,而是高不確定性的攻擊載體。迫使人工智能依賴人類說服,會(huì)大幅提升攻擊的失敗率和被發(fā)現(xiàn)率,這類攻擊可通過安全實(shí)踐識(shí)別,讓防御者有機(jī)會(huì)檢測(cè)并響應(yīng)。以人為本的安全實(shí)踐可利用這一特性,通過要求多人協(xié)同行動(dòng)才能繞過控制、限制授權(quán)人數(shù)、設(shè)置激勵(lì)與抑制措施等,增加說服失敗概率。共享秘密方案、核彈發(fā)射物理雙轉(zhuǎn)密鑰等現(xiàn)有實(shí)踐均是有效參考。包含“迫使人工智能依賴人類說服”結(jié)構(gòu)的協(xié)議,相較于其他更具決定性的隱蔽攻擊載體,對(duì)人類防御者更有利。

四、結(jié)論

報(bào)告核心假設(shè)是:物理與數(shù)學(xué)中的基本限制可轉(zhuǎn)化為對(duì)人工智能的實(shí)際約束,現(xiàn)有安全工程工具經(jīng)針對(duì)性調(diào)整后,能設(shè)計(jì)出有效的防御措施。這些措施雖非提供完美安全的“銀彈”,但可拒絕部分攻擊載體,大幅增加人工智能的攻擊成本,如算力、時(shí)間、資源消耗等,從而為人類檢測(cè)和應(yīng)對(duì)攻擊爭(zhēng)取充足時(shí)間,實(shí)現(xiàn)“不追求絕對(duì)安全,但顯著降低攻擊風(fēng)險(xiǎn)”的核心目標(biāo)。

同時(shí)也需正視假設(shè)失效的風(fēng)險(xiǎn)。若人工智能能力遠(yuǎn)超當(dāng)前人類預(yù)期(如突破現(xiàn)有物理或數(shù)學(xué)規(guī)律限制)、安全實(shí)踐在落地過程中出現(xiàn)偏差(如人員未嚴(yán)格執(zhí)行協(xié)議要求),或所依賴的基本約束具有更強(qiáng)可塑性(如量子計(jì)算技術(shù)快速成熟突破計(jì)算復(fù)雜性限制),則現(xiàn)有防御措施的效果可能受影響。但即便如此,安全協(xié)議仍能提升攻擊門檻,為人類調(diào)整應(yīng)對(duì)策略、升級(jí)安全防護(hù)提供寶貴的緩沖時(shí)間,其價(jià)值依然不可替代。

需明確的是,真實(shí)世界場(chǎng)景遠(yuǎn)比理論模型復(fù)雜,人工智能安全協(xié)議的落地會(huì)面臨諸多現(xiàn)實(shí)挑戰(zhàn),如執(zhí)行過程中的人為錯(cuò)誤、安全措施與業(yè)務(wù)效率的沖突、不同行業(yè)的差異化需求等,協(xié)議的有效擴(kuò)展存在一定難度。后續(xù)需要通過更多跨領(lǐng)域研究與實(shí)踐,如與計(jì)算機(jī)科學(xué)、數(shù)學(xué)、物理學(xué)、心理學(xué)的交叉合作,開發(fā)一套強(qiáng)大而全面的方法體系,持續(xù)優(yōu)化安全基元與協(xié)議設(shè)計(jì),讓人工智能安全措施既能適配復(fù)雜的現(xiàn)實(shí)場(chǎng)景,又能靈活應(yīng)對(duì)人工智能技術(shù)的演進(jìn),為應(yīng)對(duì)未來超級(jí)人工智能的安全威脅提供堅(jiān)實(shí)支撐。

免責(zé)聲明:本文轉(zhuǎn)自啟元洞見。文章內(nèi)容系原作者個(gè)人觀點(diǎn),本公眾號(hào)編譯/轉(zhuǎn)載僅為分享、傳達(dá)不同觀點(diǎn),如有任何異議,歡迎聯(lián)系我們!

轉(zhuǎn)自丨啟元洞見

研究所簡(jiǎn)介

國際技術(shù)經(jīng)濟(jì)研究所(IITE)成立于1985年11月,是隸屬于國務(wù)院發(fā)展研究中心的非營利性研究機(jī)構(gòu),主要職能是研究我國經(jīng)濟(jì)、科技社會(huì)發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問題,跟蹤和分析世界科技、經(jīng)濟(jì)發(fā)展態(tài)勢(shì),為中央和有關(guān)部委提供決策咨詢服務(wù)?!叭蚣夹g(shù)地圖”為國際技術(shù)經(jīng)濟(jì)研究所官方微信賬號(hào),致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見。

地址:北京市海淀區(qū)小南莊20號(hào)樓A座

電話:010-82635522

微信:iite_er

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

全球技術(shù)地圖 incentive-icons
全球技術(shù)地圖
洞見前沿,引領(lǐng)未來
4095文章數(shù) 13414關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈(zèng)里的“詩與遠(yuǎn)方

無障礙瀏覽 進(jìn)入關(guān)懷版