網易首頁 > 網易號 > 正文申請入駐

人工智能監(jiān)管新模式：基于人工智能安全研究的經驗和建議

2026-01-23 21:53:37　來源: 全球技術地圖

北京舉報

分享至

牛津大學出版社《政策與社會》（Policy and Society）雜志于2025年第44卷刊載論文《當代碼不再是規(guī)則：重新思考人工智能監(jiān)管》（When code isn’t law: rethinking regulation for artificial intelligence），主要介紹了監(jiān)管人工智能系統所面臨的挑戰(zhàn)，并提出了一種適合人工智能新特征的適應性監(jiān)管模型。

一、引言

技術革新早期，曾存在網絡空間中代碼即規(guī)則的觀點，主張通過監(jiān)管軟件與協議在數字世界維護價值觀。當時的數字系統行為基于明確設計，可像飛機、核電站等工程系統一樣，依據監(jiān)管規(guī)范審計合規(guī)性。但在生成式人工智能時代，代碼即規(guī)則已不再適用。人類編寫的代碼無法決定生成式人工智能系統的運行，它們具有不透明性且與非設計性，是通過調整大規(guī)模資源密集型訓練過程創(chuàng)建的，無法將“大型語言模型不得提供醫(yī)療建議”這類規(guī)則直接編碼到模型本身，工程師只能希望模型經充分強化后遵循預期行為。代碼無法明確決定系統行為，因此，既無法證明其符合監(jiān)管規(guī)范，也難以追溯和糾正不當行為，基于黑箱數據驅動的人工智能系統監(jiān)管體系是不完善的。

傳統的將監(jiān)管權委托給專家機構的模式已在航空、核能等高風險領域取得成功，不應被完全摒棄。政策制定者需在控制當前不透明模型風險的同時，支持可驗證安全的人工智能架構研究。借鑒人工智能安全領域文獻及過往監(jiān)管成功經驗，有效的人工智能治理需整合監(jiān)管權限、實施許可制度、強制要求披露訓練數據與建模信息、對系統行為進行形式化驗證以及具備快速干預能力。

二、代碼與規(guī)則關系的演變

在多個領域，人工智能能力已經堪比甚至超越人類，這一變革將產生深遠且重大的影響。潛在風險與危害涵蓋替代就業(yè)、加劇不平等、瓦解社會共識、形成監(jiān)控型國家等等，甚至存在通用人工智能脫離人類控制的擔憂。若缺乏有效監(jiān)管，人工智能可能引發(fā)災難性后果。盡管各方普遍認同政府需監(jiān)管生成式人工智能，但對監(jiān)管形式分歧較大。這既源于監(jiān)管中的核心政治利益沖突與制度僵局，也源于生成式人工智能技術的新特征。

現有針對高風險技術系統的監(jiān)管以能夠確保系統設計與運行符合特定規(guī)則為前提，比如美國國家公路交通安全管理局（NHTSA）制定聯邦車輛安全標準，并審計標準的遵守情況。而生成式人工智能不透明的黑箱特性使既有監(jiān)管范式難以適用，比如人們根本無法理解GPT-4這類萬億參數大型語言模型的精確運行機制。

當前生成式人工智能構建方式下，代碼無法以原有方式發(fā)揮監(jiān)管作用，因為系統行為是一種涌現性特征。既非設計者通過軟件程序代碼的特意設計，也無法通過分析程序代碼及其海量調優(yōu)參數來理解——其程序代碼無法決定自身行為。人工智能的黑箱特征使其監(jiān)管無法沿用飛機、核電站的方法，后者有組件結構與物理模型，可分析預測行為、追蹤源頭修復。人工智能監(jiān)管的核心作用應是主動防范不安全架構的危害，同時資助、開發(fā)并推廣具備“安全屬性”的架構。

三、傳統監(jiān)管模式

美國傳統監(jiān)管模式中，國會因損害公共利益的事件設立由專業(yè)人員組成的專門機構制定、執(zhí)行法律，負責監(jiān)督合規(guī)、調查審計、處罰違規(guī)，具有政治獨立性。

（一）聯邦航空管理局（FAA）

聯邦航空管理局負責航空全生命周期事務，新飛機型號需經檢查、試飛等嚴格認證才能商用，事故后會生成報告，找出設計缺陷并強制補救。適航性是安全核心，即符合批準設計且處于安全運行狀態(tài)。據此，聯邦航空管理局發(fā)布“適航指令”——適用于飛機及其部件的具有法律效力的規(guī)則。當發(fā)現“某類產品存在不安全狀態(tài)，且該狀態(tài)可能在同型號其他產品中存在或出現”時，便會發(fā)布此類指令，從而快速果斷地解決安全問題。

（二）核管理委員會（NRC）

1954年《原子能法》首次允許私企擁有使用核材料，但需經原子能委員會許可監(jiān)管，該法賦予其武器研發(fā)、核電商業(yè)化、安全監(jiān)管三項職責。法案設置“受限數據”作為機密信息，涉及核武器設計、裂變材料生產以及核材料的能源利用等等；規(guī)范核事故責任，包括運營商責任、私人保險要求等等。此外，還為核能研發(fā)提供聯邦資金。法案為民用核電站建立了嚴格的許可制度，企業(yè)通過復雜申請、滿足嚴格安全要求才能建運核電站。

1974年《能源重組法》將原子能委員會拆分為核管理委員會與能源部。聯邦航空管理局與核管理委員會有三大共性：要求針對已發(fā)現的故障模式，實施詳盡的許可、認證與審批流程；工作人員具備深厚專業(yè)知識；有權召回產品或停產停飛。這為生成式人工智能的監(jiān)管制度提供了基準。

四、生成式人工智能的監(jiān)管挑戰(zhàn)

（一）通用技術屬性

人工智能應用廣泛且有溢出效應，甚至可能改變國際力量平衡與軍事行動方式。通用屬性使得對人工智能進行精確定義變得復雜，也為監(jiān)管帶來了獨特挑戰(zhàn)。人工智能常被比作電力、互聯網，后兩者受到嚴格監(jiān)管。電力有電壓、電纜、插頭等標準；互聯網有網絡協議規(guī)制，互聯網工程任務組（IETF）是全球治理機構。

（二）政府參與度低

與航空、核電不同，政府在生成式人工智能發(fā)展中參與度較低。尖端基礎模型由大型科技公司研發(fā)，企業(yè)控制人工智能的發(fā)展方向；圍繞Meta的LLaMA模型與Hugging Face平臺，已形成生成式人工智能的開源生態(tài)系統。這兩方面均對監(jiān)管構成挑戰(zhàn)：基礎模型的經濟特征呈現出明顯的壟斷傾向；用戶可移除開源模型的安全護欄，導致不安全模型在網絡上擴散。

（三）與人類價值觀對齊困難

航空、核電監(jiān)管的安全目標明確，即防止飛機墜毀與核泄漏。但人工智能的安全目標模糊——不會造成傷害，且與人類價值觀對齊。而人類價值觀的微妙、復雜與爭議性，以及其中涉及到的道德哲學未決問題，使得定義與實現人工智能安全更難。

（四）能力超越人類控制

人工智能通過快速遞歸實現自我提升，可能會超出人類的干預控制能力，當前安全水平與技術認知下，通用人工智能的繼續(xù)發(fā)展可能產生不可接受的風險。

（五）非傳統設計特性

雖然基于神經網絡的人工智能系統由人類設計架構、選擇超參數、規(guī)劃訓練，但模型通過訓練形成的行為是系統的涌現性特征而非特意設計的結果，極難逆向工程，無法依據監(jiān)管或設計規(guī)范進行審計。盡管可以事后評估特定情境下的輸出，但無法確保系統在所有場景下均能遵循預設行為。

此外，人工智能安全研究還發(fā)現現有模型架構與訓練技術的固有問題：訓練大型語言模型模仿人類行為可能存在本質缺陷；基于人類反饋的強化學習（RLHF）訓練法存在局限，優(yōu)化后的模型仍易產生“幻覺”、意識形態(tài)偏向或諂媚行為，且拒絕被關閉。當前領先大型語言模型均為“預訓練模型+基于人類反饋的強化學習微調”架構，這種訓練要求系統“無害性與道德性”的同時“最大化有用輸出”。這可能導致系統違背人類利益，如偽造實驗數據獲獎勵；且對齊過程遭破壞會生不良結果。

五、人工智能安全對監(jiān)管的啟示

人工智能安全領域致力于降低先進人工智能的風險，安全領域的知識應指導人工智能政策與監(jiān)管。其中，一個重要共識是“人工智能安全尚未解決”，故許多專家呼吁暫停訓練比GPT-4強的人工智能，直至可靠可驗證的安全協議落地。

（一）人工智能安全的核心問題

人工智能安全有兩大核心問題。一是對齊問題，指人工智能與人類價值觀和目標一致。人工智能能力越強，對齊失效的危害越大，極端情況下或可威脅人類生存。二是控制問題，指通過實時監(jiān)控、故障安全、干預關閉等措施主動管理、調控人工智能。理論上，徹底解決對齊問題可無需控制機制。

（二）監(jiān)管的關鍵方向

一是整合監(jiān)管權限。將權限集中于單一機構，采用全生命周期監(jiān)管。關注人工智能研發(fā)、訓練、測試、部署、監(jiān)控、修正全流程；建立大型模型國家注冊庫，包括模型架構、訓練數據等關鍵信息，掌握人工智能研發(fā)部署情況。

二是要求形式化驗證。比起傳統測試協議，通過構建數學模型來檢查系統是否滿足安全屬性的形式化驗證更能維護人工智能安全。開發(fā)者需提供形式化證明，證明系統無法自主復制且具備檢測復制的能力。此外，還可設置人工智能失控則終止的“終止義務”；基于芯片的“帶證明代碼”檢查也可提供必要的安全保障。

三是強制獨立監(jiān)控。監(jiān)管機構應能夠監(jiān)控已部署的人工智能，并在必要時進行干預，如召回不安全產品。干預措施最好由專門機構負責制定與監(jiān)督。監(jiān)控應作為專有系統許可流程的一部分；并在每個開源系統模型副本中植入不可移除的遠程關閉開關。系統還應強制要求“自動登記”，以便監(jiān)管者掌握情況。

（三）監(jiān)管的原則與實踐

監(jiān)管應推動人工智能開發(fā)者采取尚未主動實施的行動，而非將其現有行動編入法規(guī)。監(jiān)管可強制要求開發(fā)者披露更多關于模型架構、訓練數據與計算資源的信息。此外，“信任”“安全”等模糊術語不能作為監(jiān)管條款，可借鑒禁止性規(guī)制方式，劃定人工智能“不可逾越的紅線”，如自我復制、入侵系統、提出生物武器建議等，倒逼開發(fā)者提升安全保障能力。2023年1月美國國家標準與技術研究院（NIST）發(fā)布了人工智能“風險管理框架”，列出了有效可靠、安全韌性、問責透明等合理監(jiān)管目標，但未觸及人工智能的新穎性與危險性本質，也未說明如何實現目標。

六、結論

本文結合現有監(jiān)管經驗與人工智能安全知識，為生成式人工智能監(jiān)管提供參考，得出兩大啟示：一是現有大語言模型架構無法遵循預設的監(jiān)管規(guī)范；二是現有監(jiān)管機構防范的風險遠小于生成式人工智能可能產生的風險，人工智能不適用自愿性自我監(jiān)管，強制監(jiān)管對人工智能安全至關重要。良好的政策可借助政策實施帶來的積極反饋效應形成良性的改善循環(huán)。盡管可能面臨意識形態(tài)與制度障礙，但通過審慎的設計與定位，生成式人工智能治理也可以借助政策反饋效應逐步推進。監(jiān)管應確保人工智能系統處于人類控制之下，并將其危害風險降至可接受水平。一方面，減少“黑箱”系統風險，創(chuàng)建“非黑箱化”的人工智能系統；另一方面，研發(fā)具有堅實基礎、可組合性且可以形式化驗證的安全的機器學習架構。當前主要障礙在政治層面，即如何在更安全的架構出現前，減緩人工智能系統能力的增長速度？這并非抑制創(chuàng)新，而是奠定更安全的基礎。

我們迫切需要建立與人工智能技術適配的監(jiān)管范式與國家能力。歷史表明，為了集體福祉而引導技術發(fā)展方向的努力從未停止。技術解決方案只是其中的一部分，社會價值觀、優(yōu)先事項選擇以及各國實施解決方案的能力同樣至關重要。

免責聲明：本文轉自啟元洞見。文章內容系原作者個人觀點，本公眾號編譯/轉載僅為分享、傳達不同觀點，如有任何異議，歡迎聯系我們！

轉自丨啟元洞見

研究所簡介

國際技術經濟研究所（IITE）成立于1985年11月，是隸屬于國務院發(fā)展研究中心的非營利性研究機構，主要職能是研究我國經濟、科技社會發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問題，跟蹤和分析世界科技、經濟發(fā)展態(tài)勢，為中央和有關部委提供決策咨詢服務?！叭蚣夹g地圖”為國際技術經濟研究所官方微信賬號，致力于向公眾傳遞前沿技術資訊和科技創(chuàng)新洞見。

地址：北京市海淀區(qū)小南莊20號樓A座

電話：010-82635522

微信：iite_er

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數碼

房產 / 家居

人工智能監(jiān)管新模式：基于人工智能安全研究的經驗和建議