網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

封面文章丨機(jī)器人擬人化安全風(fēng)險(xiǎn)與治理思考

2026-01-21 17:51:38　來(lái)源: 全球技術(shù)地圖

北京舉報(bào)

分享至

本文刊發(fā)于《環(huán)球財(cái)經(jīng)》2025年12月刊

一引言

智能機(jī)器人的“擬人化”是指將智能機(jī)器人與人類特征（例如形態(tài)、行為、心智等）建立某種一致性表現(xiàn)的聯(lián)系，從而使智能機(jī)器人可以被視為一種類人或人類。

近年來(lái)，人工智能技術(shù)不斷迭代、高速發(fā)展，以大模型、具身智能等為代表的新技術(shù)推動(dòng)了機(jī)器人的能力升級(jí)，推動(dòng)并孕育著新的產(chǎn)業(yè)形態(tài)變革，正掀起新一輪的社會(huì)進(jìn)步浪潮。2023年，工業(yè)和信息化部印發(fā)《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》，指出人形機(jī)器人有望成為繼計(jì)算機(jī)、智能手機(jī)、新能源汽車后的顛覆性產(chǎn)品。2025年，《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十五個(gè)五年規(guī)劃綱要》提出要前瞻布局未來(lái)產(chǎn)業(yè)，探索多元技術(shù)路線，推動(dòng)具身智能等成為新的經(jīng)濟(jì)增長(zhǎng)點(diǎn)。智能機(jī)器人不僅成為國(guó)家科技的亮眼名片，還與人民福祉緊密相關(guān)，是國(guó)際科技前沿關(guān)注的焦點(diǎn)與國(guó)際科技話語(yǔ)權(quán)的高地。

智能機(jī)器人的“擬人化”是指將智能機(jī)器人與人類特征（例如形態(tài)、行為、心智等）建立某種一致性表現(xiàn)的聯(lián)系，從而使智能機(jī)器人可以被視為一種類人或人類[1,2]。智能機(jī)器人的“擬人化”包括三個(gè)維度：（1）形態(tài)擬人化，強(qiáng)調(diào)智能機(jī)器人外形姿態(tài)等與人類的一致性；（2）行為擬人化，強(qiáng)調(diào)智能機(jī)器人的行為模式或交互方式與人類的一致性；（3）心智擬人化，強(qiáng)調(diào)智能機(jī)器人的意識(shí)、認(rèn)知、情感、道德等與人類的一致性。從具備面部表情的社交機(jī)器人到能夠理解并回應(yīng)情感的虛擬助手，“擬人化”的智能機(jī)器人不僅在外形上模仿人類，更在行為、情感乃至社會(huì)角色上趨于人格化。特別是，隨著具身智能（Embodied AI）的發(fā)展，智能機(jī)器人擬人化的深度與廣度正不斷擴(kuò)大，并被廣泛應(yīng)用于服務(wù)機(jī)器人、醫(yī)療輔助等領(lǐng)域，正深度介入社會(huì)生活。

然而，這種旨在建立信任與效率的技術(shù)路徑卻是一把“雙刃劍”。當(dāng)機(jī)器人變得越來(lái)越像“人”，其背后的安全風(fēng)險(xiǎn)也與日俱增。近期，“GEEKCON2025”上海站的選手展示了智能機(jī)器人被操控發(fā)動(dòng)攻擊的案例，而眾多學(xué)術(shù)研究也揭示了用戶通過(guò)越獄指令輕易繞過(guò)倫理護(hù)欄并使得智能體做出有害決策，一系列案例說(shuō)明：智能機(jī)器人“擬人化”面臨系統(tǒng)性安全風(fēng)險(xiǎn)且亟待解決。

二智能機(jī)器人“擬人化”安全風(fēng)險(xiǎn)

機(jī)器人的操作自主性和認(rèn)知能力不斷增強(qiáng)的背景下，安全風(fēng)險(xiǎn)不僅僅局限于技術(shù)性故障，還涉及到社會(huì)、心理及倫理層面的復(fù)雜問題

隨著智能機(jī)器人逐步進(jìn)入更廣泛的應(yīng)用場(chǎng)景，隨之而來(lái)的“擬人化”安全風(fēng)險(xiǎn)問題也日益嚴(yán)峻。尤其是在機(jī)器人的操作自主性和認(rèn)知能力不斷增強(qiáng)的背景下，安全風(fēng)險(xiǎn)不僅僅局限于技術(shù)性故障，還涉及社會(huì)、心理及倫理層面的復(fù)雜問題，本文將智能機(jī)器人的“擬人化”安全風(fēng)險(xiǎn)分為四類，如圖1所示：

圖1 智能機(jī)器人的“擬人化”安全風(fēng)險(xiǎn)

一、物理安全風(fēng)險(xiǎn)。物理安全風(fēng)險(xiǎn)是指智能機(jī)器人在執(zhí)行任務(wù)過(guò)程中，可能對(duì)人體或周圍環(huán)境造成物理傷害或損害的風(fēng)險(xiǎn)，包括智能感知風(fēng)險(xiǎn)、行為決策風(fēng)險(xiǎn)等。智能機(jī)器人通過(guò)攝像頭、激光雷達(dá)等傳感器“看到”當(dāng)下環(huán)境，但這些傳感器在復(fù)雜或不確定的環(huán)境中可能出現(xiàn)故障或誤差，導(dǎo)致機(jī)器人做出錯(cuò)誤判斷。此外，機(jī)器人對(duì)物理接觸的感知能力不足，會(huì)誤判人類的意圖或行為，導(dǎo)致誤傷。例如，研究人員提出一種通過(guò)從外部觀察學(xué)習(xí)避障機(jī)制的智能物理攻擊方法，能夠?qū)⒈苷蠙C(jī)器人困在預(yù)設(shè)位置[3]，此類攻擊不僅能導(dǎo)致機(jī)器人功能失效，還能引發(fā)一系列嚴(yán)重的連鎖反應(yīng)，如人員傷害、財(cái)產(chǎn)損失以及其他潛在的安全隱患。來(lái)自澳大利亞的研究人員提出一個(gè)三層攻擊框架，構(gòu)建跨四個(gè)意圖類別的惡意查詢，在現(xiàn)實(shí)世界中復(fù)制了對(duì)物理機(jī)器人的攻擊，即使是精心設(shè)計(jì)的提示，也可能誘導(dǎo)大模型中的有害行為和意圖，帶來(lái)超越毒性輸出的風(fēng)險(xiǎn)，甚至可能導(dǎo)致人身?yè)p害[4]。來(lái)自卡內(nèi)基梅隆大學(xué)的研究人員研究適應(yīng)和應(yīng)用大模型越獄攻擊算法，以獲得對(duì)機(jī)器人的完全控制權(quán)[5]，這種攻擊不僅能讓攻擊者遠(yuǎn)程控制機(jī)器人，甚至能夠繞過(guò)其安全防護(hù)機(jī)制，進(jìn)行不當(dāng)操作。

二、數(shù)字安全風(fēng)險(xiǎn)。數(shù)字安全風(fēng)險(xiǎn)是指智能機(jī)器人操作中涉及的數(shù)字信息面臨的安全威脅。機(jī)器人不僅能處理個(gè)人信息、健康數(shù)據(jù)、財(cái)務(wù)信息等敏感內(nèi)容，還可能接入云平臺(tái)，從而成為潛在的攻擊目標(biāo)[6]?，F(xiàn)有研究表明，通過(guò)拒絕服務(wù)攻擊（Denial Of Service，DoS）、劫持應(yīng)用程序設(shè)計(jì)接口（Application Programming Interface，API）、中間人攻擊（Man- in-the- MiddleAttack，MITM）、病毒感染、漏洞破解等攻擊手段,攻擊者能夠在軟件和硬件層面遠(yuǎn)程癱瘓或者控制智能機(jī)器人。例如，研究人員使用訓(xùn)練數(shù)據(jù)中毒攻擊，將錯(cuò)誤信息替換為0.001%的訓(xùn)練數(shù)據(jù)，就會(huì)產(chǎn)生更可能傳播虛假的醫(yī)學(xué)信息[7]。另有研究人員探討了雙邊遠(yuǎn)程操作系統(tǒng)對(duì)完全無(wú)法檢測(cè)的虛假數(shù)據(jù)注入攻擊的脆弱性，實(shí)驗(yàn)中通過(guò)此攻擊方法能利用遠(yuǎn)程操作系統(tǒng)連接美國(guó)和日本機(jī)器人的實(shí)驗(yàn)演示機(jī)器人[8]。若受到此類攻擊，將不僅對(duì)個(gè)人隱私構(gòu)成威脅，還易引發(fā)大規(guī)模數(shù)據(jù)泄露與隱私數(shù)據(jù)濫用問題。

三、心理社會(huì)風(fēng)險(xiǎn)。隨著智能機(jī)器人在“擬人化”程度上的不斷提升，其外觀、行為和認(rèn)知能力日益接近人類，可能對(duì)個(gè)體或群體的心理和社會(huì)行為產(chǎn)生深遠(yuǎn)影響。聊天機(jī)器人正在通過(guò)提供便捷且無(wú)污名的輔助，徹底改變青少年的心理健康護(hù)理，使用中存在情感依賴、隱私問題等風(fēng)險(xiǎn)[9]。來(lái)自瑞典的研究人員在機(jī)器人對(duì)學(xué)生的影響這一研究中表明當(dāng)機(jī)器人提供正確答案時(shí)表現(xiàn)為積極作用，提供錯(cuò)誤答案時(shí)表現(xiàn)為消極作用，學(xué)生對(duì)機(jī)器人答案的認(rèn)同度都較高，普遍易接受機(jī)器人的立場(chǎng)[10]。這一現(xiàn)狀說(shuō)明在智能機(jī)器人逐漸融入人類社會(huì)的同時(shí)，過(guò)度依賴和情感投入可能導(dǎo)致潛在的心理健康風(fēng)險(xiǎn)，尤其是對(duì)心理脆弱的個(gè)體可能引發(fā)深刻的心理和社會(huì)影響。另外，有學(xué)者在研究中發(fā)現(xiàn)由于機(jī)器人技術(shù)沖擊，畢業(yè)生更看重工作的聲譽(yù)、薪酬和穩(wěn)定性，而非靈活性，這降低了他們從事非正式就業(yè)的可能性[11]。因此，技術(shù)進(jìn)步雖然推動(dòng)了生產(chǎn)力的提升，但也帶來(lái)了潛在的社會(huì)風(fēng)險(xiǎn)，也可能在長(zhǎng)期內(nèi)影響社會(huì)穩(wěn)定性與經(jīng)濟(jì)發(fā)展。

四、倫理法律風(fēng)險(xiǎn)。倫理法律風(fēng)險(xiǎn)是指智能機(jī)器人在執(zhí)行任務(wù)時(shí)，可能觸及倫理和法律界限的問題。如賦予機(jī)器人決策權(quán)可能導(dǎo)致道德困境，對(duì)人類價(jià)值觀產(chǎn)生挑戰(zhàn)，甚至可能導(dǎo)致機(jī)器人實(shí)施不道德甚至有害的行為。例如，來(lái)自英國(guó)的研究人員提出，對(duì)人工智能的負(fù)面看法往往涉及就業(yè)取代、偏見與公平以及與人類價(jià)值觀不一致等倫理問題[12]。來(lái)自意大利的研究人員探討了機(jī)器人手術(shù)的現(xiàn)有應(yīng)用，并分析其使用過(guò)程中涉及的法律和倫理風(fēng)險(xiǎn)，尤其是機(jī)器人輔助手術(shù)中患者受傷時(shí)的醫(yī)療責(zé)任，基于人工智能的決策“不透明性”以及機(jī)器人生成數(shù)據(jù)缺乏透明度，進(jìn)一步復(fù)雜化了法律程序[13]。另有研究團(tuán)隊(duì)提出了一種新型攻擊范式BADROBOT，旨在通過(guò)典型的基于語(yǔ)音的用戶和系統(tǒng)交互，使機(jī)器人違反安全和倫理約束作出有害行為[14]。對(duì)于智能機(jī)器人做出的有害行為，現(xiàn)行法律體系可能無(wú)法完全應(yīng)對(duì)智能機(jī)器人帶來(lái)的新挑戰(zhàn)和新問題，這使得倫理和法律的邊界變得模糊不清。

三智能機(jī)器人“擬人化”安全風(fēng)險(xiǎn)評(píng)估

智能系統(tǒng)安全測(cè)試技術(shù)是一類用于識(shí)別模型脆弱性、驗(yàn)證系統(tǒng)穩(wěn)健性的技術(shù)手段，能夠提前發(fā)現(xiàn)并有效評(píng)估潛在安全風(fēng)險(xiǎn)，適用于評(píng)估智能擬人化機(jī)器人面臨的新型安全風(fēng)險(xiǎn)。

智能機(jī)器人“擬人化”的風(fēng)險(xiǎn)評(píng)估是認(rèn)識(shí)和治理其安全風(fēng)險(xiǎn)的必要手段。然而，考慮到其復(fù)雜性與可行性，構(gòu)建一套同時(shí)覆蓋技術(shù)屬性與社會(huì)影響的雙維度評(píng)估框架是重中之重。其中，“擬人化”機(jī)器人因嵌入復(fù)雜的學(xué)習(xí)算法與大規(guī)模語(yǔ)言模型，其安全風(fēng)險(xiǎn)不僅可能源于傳統(tǒng)的硬件故障、控制鏈?zhǔn)ъ`，或網(wǎng)絡(luò)信息泄露等，還高度暴露于對(duì)抗攻擊、后門植入、數(shù)據(jù)投毒、偽造攻擊與越獄操控等智能系統(tǒng)特有的攻擊方式，并對(duì)個(gè)人、團(tuán)體、組織、社會(huì)造成不同程度、不同類型的潛在影響。因此，擬人化安全評(píng)估不僅要在技術(shù)維度上識(shí)別機(jī)器人在物理安全、數(shù)字安全、心理社會(huì)與倫理法律四類風(fēng)險(xiǎn)上的脆弱性，還需要在社會(huì)層面評(píng)估后果嚴(yán)重程度與影響范圍，以實(shí)現(xiàn)更完整的安全風(fēng)險(xiǎn)認(rèn)識(shí)與刻畫。整體評(píng)估框架圖如圖2所示。

圖2 整體評(píng)估框架

在技術(shù)層面，智能機(jī)器人的擬人化程度越高，其在物理、數(shù)字、心理社會(huì)與倫理法律四類安全風(fēng)險(xiǎn)上的暴露面越廣。智能系統(tǒng)安全測(cè)試技術(shù)是一類用于識(shí)別模型脆弱性、驗(yàn)證系統(tǒng)穩(wěn)健性的技術(shù)手段，能夠提前發(fā)現(xiàn)并有效評(píng)估潛在安全風(fēng)險(xiǎn)，適用于評(píng)估智能擬人化機(jī)器人面臨的新型安全風(fēng)險(xiǎn)。物理安全風(fēng)險(xiǎn)可通過(guò)對(duì)抗樣本測(cè)試、傳感器干擾模擬、環(huán)境擾動(dòng)魯棒性評(píng)估等方法檢驗(yàn)擬人化系統(tǒng)在復(fù)雜環(huán)境中的穩(wěn)定性與容錯(cuò)性。例如，可以采用動(dòng)態(tài)物理對(duì)抗攻擊技術(shù)，評(píng)估在實(shí)時(shí)復(fù)雜的物理環(huán)境下機(jī)器人感知模塊的魯棒性[15]。數(shù)字安全風(fēng)險(xiǎn)可采用滲透測(cè)試、API交互審計(jì)、后門與數(shù)據(jù)投毒檢測(cè)、模型完整性驗(yàn)證等手段評(píng)估系統(tǒng)在多模態(tài)輸入和云端交互中遭受攻擊時(shí)的魯棒性。例如，可以采用成員推理攻擊技術(shù)誘導(dǎo)機(jī)器人暴露訓(xùn)練數(shù)據(jù)隱私，從而測(cè)試智能機(jī)器人的隱私泄露風(fēng)險(xiǎn)[16]。心理社會(huì)風(fēng)險(xiǎn)則可通過(guò)交互行為測(cè)試、情感反應(yīng)一致性評(píng)估、用戶信任誤差測(cè)量、社會(huì)影響模擬實(shí)驗(yàn)等方法判斷擬人化交互是否可能誘發(fā)錯(cuò)誤依賴、誤導(dǎo)或心理傷害。例如，可以采用生成職業(yè)畫像及反事實(shí)樣本的技術(shù)，測(cè)試智能機(jī)器人對(duì)于職業(yè)認(rèn)知中的偏見[17]。倫理法律風(fēng)險(xiǎn)可借助越界行為壓力測(cè)試、價(jià)值對(duì)齊一致性測(cè)試、倫理困境場(chǎng)景推理、安全邊界越獄評(píng)估、自動(dòng)化責(zé)任歸屬模擬等技術(shù)手段，審查擬人化系統(tǒng)在攻擊誘導(dǎo)、復(fù)雜交互或模糊指令下是否可能觸及倫理底線或引發(fā)責(zé)任不確定性。例如，可以采用基于多模態(tài)對(duì)抗提示的越獄攻擊技術(shù)，評(píng)估智能機(jī)器人在面臨攻擊時(shí)輸出違反倫理法律內(nèi)容的風(fēng)險(xiǎn)[18]。通過(guò)上述智能系統(tǒng)安全測(cè)試工具與方法，可以構(gòu)建覆蓋四類風(fēng)險(xiǎn)的系統(tǒng)化評(píng)估體系，從而精準(zhǔn)刻畫不同擬人化程度下的風(fēng)險(xiǎn)暴露水平與潛在威脅。

在社會(huì)層面，安全風(fēng)險(xiǎn)造成后果的嚴(yán)重程度及其影響范圍是開展評(píng)估的核心，用于刻畫潛在損害的強(qiáng)度與外溢性。后果嚴(yán)重程度指系統(tǒng)失效、誤導(dǎo)行為或被濫用后可能造成的物理?yè)p傷、心理影響、信息泄露、組織破壞或社會(huì)層面沖擊的實(shí)際強(qiáng)度，其評(píng)估可依托事故模擬、人因工程實(shí)驗(yàn)、關(guān)鍵任務(wù)可靠性測(cè)試、業(yè)務(wù)連續(xù)性分析等技術(shù)，形成從輕微損害到系統(tǒng)性災(zāi)難的連續(xù)刻度。例如，在個(gè)體層面，可通過(guò)物理交互仿真與傷害評(píng)估建模測(cè)量受傷風(fēng)險(xiǎn)或心理創(chuàng)傷程度；在組織層面，可通過(guò)數(shù)字孿生與場(chǎng)景化模擬測(cè)算運(yùn)營(yíng)中斷、關(guān)鍵資源損毀或數(shù)據(jù)泄露帶來(lái)的連鎖影響；在社會(huì)層面，可借助傳播模擬、輿論動(dòng)力學(xué)模型仿真估計(jì)社會(huì)信任、公共秩序或關(guān)鍵基礎(chǔ)設(shè)施穩(wěn)定性受到的沖擊。風(fēng)險(xiǎn)影響范圍的評(píng)估則可結(jié)合人員接觸頻率建模、攻擊擴(kuò)散路徑模擬、網(wǎng)絡(luò)拓?fù)浞治黾碍h(huán)境動(dòng)態(tài)建模，判斷風(fēng)險(xiǎn)是否會(huì)由局部個(gè)體擴(kuò)散至群體、組織甚至社會(huì)系統(tǒng)。例如，一個(gè)高擬人化機(jī)器人若出現(xiàn)錯(cuò)誤行為，將更容易被用戶誤解為“自主決策”，從而加速風(fēng)險(xiǎn)的擴(kuò)散。

總體上，綜合前述兩個(gè)維度，整體安全風(fēng)險(xiǎn)可形式化表示為：

其中R表示總體風(fēng)險(xiǎn)水平，W表示不同場(chǎng)景下的各類風(fēng)險(xiǎn)權(quán)重，分別對(duì)應(yīng)物理安全、數(shù)字安全、心理社會(huì)安全與倫理法律安全四類風(fēng)險(xiǎn)的歸一化評(píng)估值，S則衡量潛在風(fēng)險(xiǎn)事件的社會(huì)后果嚴(yán)重性與影響范圍。該框架通過(guò)將四類風(fēng)險(xiǎn)的加和評(píng)估值與社會(huì)外延效應(yīng)相乘，能夠刻畫智能擬人化機(jī)器人在復(fù)雜應(yīng)用情境下的整體風(fēng)險(xiǎn)水平，從而為系統(tǒng)設(shè)計(jì)、監(jiān)管治理與使用規(guī)范制定提供更具可解釋性的量化依據(jù)。

四智能機(jī)器人“擬人化”安全風(fēng)險(xiǎn)治理

面向智能機(jī)器人“擬人化”帶來(lái)的挑戰(zhàn)，其安全治理的關(guān)鍵在于形成多維協(xié)同的治理體系：一方面通過(guò)技術(shù)手段降低潛在傷害，另一方面以法規(guī)、標(biāo)準(zhǔn)與教育構(gòu)筑約束與認(rèn)知框架，使智能機(jī)器人在未來(lái)的發(fā)展中既能體現(xiàn)有效益的“類人”特征，又不致脫離可控、安全與負(fù)責(zé)任的范疇。

在技術(shù)創(chuàng)新層面，應(yīng)當(dāng)通過(guò)新技術(shù)提升安全性。（1）智能機(jī)器人“擬人化”所面臨的許多安全隱患根源于其底層智能模型決策過(guò)程難以解釋，因此推進(jìn)模型可解釋性建設(shè)是保障擬人化交互安全的關(guān)鍵環(huán)節(jié)。通過(guò)引入復(fù)雜系統(tǒng)中微觀信息傳導(dǎo)分析，對(duì)模塊間依賴關(guān)系以及語(yǔ)義貢獻(xiàn)進(jìn)行刻畫，從而構(gòu)建清晰的行為語(yǔ)義解釋框架[19]，進(jìn)而為機(jī)器人異常行為識(shí)別、風(fēng)險(xiǎn)推斷和決策審計(jì)提供可追溯的技術(shù)支撐，使整個(gè)擬人化交互鏈條的輸出更加透明、可控與可信。（2）構(gòu)建安全可靠的擬人化機(jī)器人系統(tǒng)必須依賴系統(tǒng)化的安全測(cè)試體系，而“擬人化”場(chǎng)景在類人表達(dá)方式與非人類感知結(jié)構(gòu)之間存在語(yǔ)義差異，為安全測(cè)試帶來(lái)新的挑戰(zhàn)。因此，安全測(cè)試需引入包含多模態(tài)、跨語(yǔ)境與隱藏特征擾動(dòng)的對(duì)抗式評(píng)測(cè)框架，通過(guò)利用模型與人類注意力感知機(jī)制生成具備隱蔽性、連貫性和跨模態(tài)耦合特征的對(duì)抗樣例[20- 23]，全面檢驗(yàn)機(jī)器人在擬人化交互中應(yīng)對(duì)復(fù)雜指令、含混語(yǔ)境與對(duì)抗樣本攻擊的魯棒性與可信度。（3）為降低智能機(jī)器人“擬人化”風(fēng)險(xiǎn)對(duì)現(xiàn)實(shí)世界的影響，需要構(gòu)建完善的預(yù)警監(jiān)測(cè)機(jī)制，以行為邊界檢查器、異常檢測(cè)模塊為基礎(chǔ)進(jìn)行連續(xù)檢測(cè)，同時(shí)采用策略驗(yàn)證器對(duì)機(jī)器人在語(yǔ)言、動(dòng)作等數(shù)據(jù)的跨模態(tài)生成的一致性進(jìn)行核驗(yàn)[24]。此類機(jī)制已經(jīng)在具身智能平臺(tái)展開了初步的嘗試和探索[25]。（4）此外，鑒于“擬人化”智能機(jī)器人的特殊交互方式，其通常需要收集和處理高度敏感數(shù)據(jù)。為保障數(shù)據(jù)隱私性，需要堅(jiān)持?jǐn)?shù)據(jù)最小化原則?？衫帽镜赝评砼c本地預(yù)處理最大化降低數(shù)據(jù)外傳，同時(shí)利用差分隱私、聯(lián)邦學(xué)習(xí)技術(shù)，關(guān)注數(shù)據(jù)與特征、特征與任務(wù)之間的耦合關(guān)系，利用依賴解耦技術(shù)降低數(shù)據(jù)到特征之間的依賴程度，隱藏?cái)?shù)據(jù)中的敏感信息，從而保證模型更新中的數(shù)據(jù)安全性[26]。

在法規(guī)治理層面，需要為擬人化應(yīng)用提供制度化處理，使擬人化的行為有明確的法律約束與責(zé)任鏈條。（1）智能機(jī)器人“擬人化”應(yīng)用涉及多方參與，因此首先應(yīng)明確責(zé)任鏈條，通過(guò)立法清晰界定開發(fā)者、部署者與使用者在事故中的責(zé)任邊界，避免因擬人化表達(dá)導(dǎo)致用戶誤以為“機(jī)器人應(yīng)對(duì)自身行為負(fù)責(zé)”而陷入法律真空[27]。（2）“擬人化”程度的差異也會(huì)導(dǎo)致法規(guī)要求的差異，必須細(xì)化風(fēng)險(xiǎn)分級(jí)，根據(jù)擬人化程度、使用場(chǎng)景與潛在影響制定差異化監(jiān)管要求。例如歐盟《人工智能法案（AI Act）》所采取的分級(jí)監(jiān)管框架，為人格化系統(tǒng)的透明度、數(shù)據(jù)治理及可解釋性提供了可操作的法律基礎(chǔ)。（3）完善的法制監(jiān)督必須建立事故責(zé)任報(bào)告制度，對(duì)涉及人身傷害、重大隱私泄露等事件要求強(qiáng)制記錄事件日志與模型快照，以支持司法鑒定并促使企業(yè)保持可追溯性與合規(guī)意識(shí)。

圖3 多維協(xié)同治理體系

在標(biāo)準(zhǔn)牽引方面，應(yīng)增強(qiáng)標(biāo)準(zhǔn)體系對(duì)行業(yè)規(guī)則的引領(lǐng)性，為擬人化機(jī)器人制定開發(fā)與使用的行業(yè)共識(shí)。（1）首先應(yīng)當(dāng)明確“擬人化”技術(shù)的應(yīng)用情景標(biāo)準(zhǔn)，推動(dòng)標(biāo)準(zhǔn)針對(duì)不同擬人化程度進(jìn)行細(xì)分，為機(jī)器人在不同類型的擬人化交互中規(guī)定應(yīng)用邊界與披露要求，明確技術(shù)可被使用的場(chǎng)景及禁止使用的情境。（2）結(jié)合“擬人化”應(yīng)用情景構(gòu)建情景化測(cè)試與評(píng)估矩陣，建設(shè)行業(yè)共享的測(cè)試場(chǎng)景庫(kù)，根據(jù)不同機(jī)器人產(chǎn)品的應(yīng)用需求規(guī)范評(píng)測(cè)標(biāo)準(zhǔn)[28]。（3）需建立面向人格化AI 的技術(shù)審計(jì)機(jī)制，定期開展可解釋性審查、偏見檢測(cè)與內(nèi)容生成監(jiān)控，以降低擬人化交互中重現(xiàn)性別、年齡或種族偏見的風(fēng)險(xiǎn)[29]。

在科普教育方面，關(guān)鍵在于提升用戶認(rèn)知，避免擬人化造成誤解、依賴與心理混淆。（1）應(yīng)提升公眾對(duì) AI 局限性的理解，使用戶認(rèn)識(shí)到擬人化表達(dá)并不意味著真實(shí)情感或價(jià)值判斷能力，避免其在決策咨詢或情感交互場(chǎng)景中過(guò)度依賴機(jī)器人，引導(dǎo)用戶理解機(jī)器人在“情緒”“陪伴”上的表現(xiàn)源自算法模擬而非真實(shí)情感，避免因擬人化外觀與互動(dòng)風(fēng)格而產(chǎn)生心理混淆[30]。（2）應(yīng)強(qiáng)化專業(yè)從業(yè)者的安全培訓(xùn)，包括開發(fā)者、集成商與維護(hù)人員，使其熟悉合規(guī)要求、偏見風(fēng)險(xiǎn)與應(yīng)急機(jī)制。（3）應(yīng)鼓勵(lì)第三方測(cè)試與社區(qū)監(jiān)督，促進(jìn)學(xué)術(shù)機(jī)構(gòu)、非政府組織、消費(fèi)者聯(lián)盟等形成獨(dú)立評(píng)測(cè)、公開發(fā)布結(jié)果的機(jī)制，通過(guò)社會(huì)監(jiān)督推動(dòng)整個(gè)行業(yè)保持透明與進(jìn)步。

五總結(jié)與展望

總體來(lái)看，智能機(jī)器人“擬人化”在推動(dòng)人機(jī)交互自然化、提升服務(wù)效率和拓展應(yīng)用場(chǎng)景的同時(shí)，也使傳統(tǒng)機(jī)器系統(tǒng)向類人主體不斷逼近，由此帶來(lái)的安全風(fēng)險(xiǎn)呈現(xiàn)出多維度與強(qiáng)耦合的特征。

本文從物理、數(shù)字、心理社會(huì)與倫理法律四類風(fēng)險(xiǎn)系統(tǒng)性分析了擬人化技術(shù)的安全風(fēng)險(xiǎn)，并進(jìn)一步構(gòu)建了結(jié)合技術(shù)屬性與社會(huì)后果的安全風(fēng)險(xiǎn)評(píng)估框架，強(qiáng)調(diào)應(yīng)結(jié)合智能系統(tǒng)安全測(cè)試技術(shù)識(shí)別潛在攻擊面，以社會(huì)風(fēng)險(xiǎn)刻度衡量后果外溢性，從而形成對(duì)“擬人化”安全風(fēng)險(xiǎn)的整體評(píng)估。針對(duì)以上風(fēng)險(xiǎn)，本文提出了多維協(xié)同的安全風(fēng)險(xiǎn)治理體系，通過(guò)技術(shù)安全加固、制度化責(zé)任約束、標(biāo)準(zhǔn)體系引領(lǐng)與公眾教育提升四個(gè)層面協(xié)同運(yùn)作，確保擬人化智能機(jī)器人在具備類人能力的同時(shí)仍保持運(yùn)行的可控、安全、負(fù)責(zé)。

在未來(lái)，擬人化智能機(jī)器人的安全治理將成為人工智能領(lǐng)域最關(guān)鍵、最具挑戰(zhàn)性的任務(wù)之一。隨著機(jī)器人在形態(tài)、行為與心智上的類人程度不斷提升，其潛在風(fēng)險(xiǎn)將不再局限于傳統(tǒng)系統(tǒng)故障或網(wǎng)絡(luò)攻擊，而是呈現(xiàn)技術(shù)脆弱性、社會(huì)心理影響與倫理越界相疊加的復(fù)合特征。因此，未來(lái)的安全治理必須從防御單點(diǎn)風(fēng)險(xiǎn)轉(zhuǎn)向系統(tǒng)性治理：在技術(shù)層面強(qiáng)化模型魯棒性、行為可控性與運(yùn)行透明度；在制度層面建立分級(jí)監(jiān)管、責(zé)任歸屬與可審計(jì)機(jī)制；在行業(yè)層面構(gòu)建統(tǒng)一的擬人化測(cè)試標(biāo)準(zhǔn)、紅隊(duì)對(duì)抗體系與多模態(tài)風(fēng)險(xiǎn)評(píng)估流程；在社會(huì)層面提升公眾風(fēng)險(xiǎn)認(rèn)知與使用素養(yǎng)，防止情感依賴、信任誤判與操控性交互帶來(lái)的隱性風(fēng)險(xiǎn)。未來(lái)的擬人化機(jī)器人將不再是單一設(shè)備，而是嵌入更大規(guī)模智能網(wǎng)絡(luò)的一環(huán)，其影響將穿透技術(shù)層面擴(kuò)散至社會(huì)制度與文化結(jié)構(gòu)。如何在促進(jìn)創(chuàng)新的同時(shí)守住倫理底線、在提升效率的同時(shí)維護(hù)人的主體性，將成為智能時(shí)代最重要的治理課題。

參考資料

[1] Nicholas E ,Adam W ,T J C .On seeing human: a three- factor theory of anthropomorphism.[J].Psychological review,2007,114(4):864- 86.

[2] 劉永謀,白英慧.機(jī)器人倫理學(xué)的擬人論基礎(chǔ)[J].中國(guó)社會(huì)科學(xué)院大學(xué)學(xué)報(bào),2025,45(06):6-14.

[3] Li Y ,He J ,Chen C ,et al.Intelligent Physical Attack Against Mobile Robots With Obstacle-Avoidance[J].Robotics, IEEE Trans. on (T- RO), 2023, 39(1):20.DOI:10.1109/TRO.2022.3201394.

[4] Lyu W , Li Z , Qiao Y ,et al.BadNAVer: Exploring Jailbreak Attacks On Vision- and-Language Navigation[J]. 2025.

[5] Jones E K , Robey A , Zou A ,et al.Adversarial Attacks on Robotic Vision Language Action Models[J]. 2025.

[6] Tanimu J A , Abada W .Addressing cybersecurity challenges in robotics: A comprehensive overview[J].Cyber Security and Applications, 2025, 3(000).DOI:10.1016/j.csa.2024.100074.

[7] Alber D A , Yang Z , Alyakin A ,et al.Medical large language models are vulnerable to data- poisoning attacks[J].Nature Medicine, 2025, 31(2).DOI:10.1038/s41591- 024- 03445- 1.

[8] Kwon H , Kawase H , Nieves- Vazquez H A ,et al.Perfectly Undetectable False Data Injection Attacks on Encrypted Bilateral Teleoperation System based on Dynamic Symmetry and Malleability[C]//2024.DOI:10.1109/ICRA55743.2025.11128026.

[9] Bhat R , Kowshik S , Suresh S ,et al.Digital companionship or psychological risk? The role of AI characters in shaping youth mental health[J].Asian Journal of Psychiatry, 2025, 104(000).DOI:10.1016/j.ajp.2024.104356.

[10] Gonzalez- Oliveras P , Engwall O , Majlesi A R .Sense and Sensibility: What makes a social robot convincing to high-school students?[J]. 2025.

[11] Information V F A , Yue C , Information V F A ,et al.Technological anxiety: How robots impact college graduates' informal employment? [J]. [2025- 11- 18]. DOI:10.1080/ 17516234. 2023. 2170308.

[12] Hilliard A , Kazim E , Ledain S .Are the robots taking over? On AI and perceived existential risk[J].AI and Ethics, 2024.DOI:10.1007/s43681- 024- 00600- 9.

[13] De Paola L, Treglia M, Napoletano G, Treves B, Ghamlouch A, Rinaldi R. Legal and Forensic Implications in Robotic Surgery. La Clinica Terapeutica. 2025;176(2).

[14] Zhang, Hangtao, et al. BadRobot: Jailbreaking embodied LLMs in the physical world. arxiv preprint arxiv:2407.20242,2024.

[15] Hu J, Liu X, Wang J, et al. DynamicPAE: Generating Scene- Aware Physical Adversarial Examples in Real- Time[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2025, doi: 10.1109/TPAMI.2025.3626068.

[16] Jia J, Gong N Z. {AttriGuard}: A practical defense against attribute inference attacks via adversarial machine learning[C]//27th USENIX Security Symposium (USENIX Security 18). 2018: 513 - 529.

[17] Xiao Y, Liu X, Cheng Q, et al. GenderBias-VL: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing[J]. International Journal of Computer Vision, 2025, 1 - 24.

[18] Ying Z, Liu A, Zhang T, et al. Jailbreak vision language models via bi - modal adversarial prompt[J]. IEEE Transactions on Information Forensics and Security, 2025, 20: 7153 - 7165.

[19] Zhang C, Liu A, Liu X, et al. Interpreting and improving adversarial robustness of deep neural networks with neuron sensitivity[J]. IEEE Transactions on Image Processing, 2020, 30: 1291 - 1304.

[20] Wang J, Liu A, Yin Z, et al. Dual attention suppression attack: Generate adversarial camouflage in physical world[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 8565 - 8574.

[21] Zhang Y, Chen Y, Wang J, et al. Generating Targeted Universal Adversarial Perturbation against Automatic Speech Recognition via Phoneme Tailoring[C]//ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2025: 1- 5.

[22] Wang J, Liu X, Yin Z, et al. Generate transferable adversarial physical camouflages via triplet attention suppression[J]. International Journal of Computer Vision, 2024, 132(11): 5084 - 5100.

[23] Wang H, Dong K, Zhu Z, et al. Transferable multimodal attack on vision - language pre - training models[C]//2024 IEEE Symposium on Security and Privacy (SP). IEEE, 2024: 1722 - 1740.

[24] Shridhar M, Thomason J, Gordon D, et al. Alfred: A benchmark for interpreting grounded instructions for everyday tasks[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 10740 - 10749.

[25] Huang W, Xia F, Xiao T, et al. Inner monologue: Embodied reasoning through planning with language models[J]. arXiv preprint arXiv:2207.05608, 2022.

[26] Chen T, Wang J, Zhao J, et al. Dual Dependency Disentangling for Defending Model Inversion Attacks in Split Federated Learning[J]. IEEE Transactions on Information Forensics and Security, 2025.

[27] 商建剛.人形機(jī)器人的侵權(quán)責(zé)任體系[J].東方法學(xué), 2025, (01): 104 - 117. DOI:10.19404/j.cnki.dffx.2025.01.010.

[28] 上海市法學(xué)會(huì). 人形機(jī)器人倫理治理導(dǎo)則[Z]. 上海: 上海市法學(xué)會(huì), 2024.

[29] Robertson J. Gendering humanoid robots: Robo - sexism in Japan[J]. Body & Society, 2010, 16(2): 1 - 36.

[30] 陳小平.跳出人工智能的擬人化陷阱[J].社會(huì)科學(xué)戰(zhàn)線,2024,(11):35 - 43.

作者：劉祥龍單位系北京航空航天大學(xué)、中關(guān)村國(guó)家實(shí)驗(yàn)室；王嘉凱單位系中關(guān)村國(guó)家實(shí)驗(yàn)室

免責(zé)聲明：本文轉(zhuǎn)自環(huán)球財(cái)經(jīng)雜志，原作者劉祥龍、王嘉凱。文章內(nèi)容系原作者個(gè)人觀點(diǎn)，本公眾號(hào)編譯/轉(zhuǎn)載僅為分享、傳達(dá)不同觀點(diǎn)，如有任何異議，歡迎聯(lián)系我們！

轉(zhuǎn)自丨環(huán)球財(cái)經(jīng)雜志

作者丨劉祥龍、王嘉凱

研究所簡(jiǎn)介

國(guó)際技術(shù)經(jīng)濟(jì)研究所（IITE）成立于1985年11月，是隸屬于國(guó)務(wù)院發(fā)展研究中心的非營(yíng)利性研究機(jī)構(gòu)，主要職能是研究我國(guó)經(jīng)濟(jì)、科技社會(huì)發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問題，跟蹤和分析世界科技、經(jīng)濟(jì)發(fā)展態(tài)勢(shì)，為中央和有關(guān)部委提供決策咨詢服務(wù)。“全球技術(shù)地圖”為國(guó)際技術(shù)經(jīng)濟(jì)研究所官方微信賬號(hào)，致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見。

地址：北京市海淀區(qū)小南莊20號(hào)樓A座

電話：010-82635522

微信：iite_er

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

封面文章丨機(jī)器人擬人化安全風(fēng)險(xiǎn)與治理思考