網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

人工智能風(fēng)險(xiǎn)新維度：當(dāng)人工智能不再以人類的方式理解世界｜AI的方式理解世界

2025-11-18 18:04:36　來源: 全球技術(shù)地圖

北京舉報(bào)

分享至

2025年8月，《人工智能與社會(huì)》（AI & SOCIETY）發(fā)表題為《尋求權(quán)力型通用人工智能會(huì)危害人類社會(huì)嗎？》（Will power seeking AGIs harm human society?）的研究論文。該研究挑戰(zhàn)了人工智能風(fēng)險(xiǎn)領(lǐng)域一個(gè)普遍但未經(jīng)審視的核心假設(shè)：即通用人工智能將以類似人類的方式理解和表征世界。文章深刻地論證，一旦摒棄這種擬人化假設(shè)，通用人工智能是否會(huì)尋求人類所熟知的權(quán)力類型就變得不再明確，甚至可能轉(zhuǎn)而追求人類當(dāng)前無法預(yù)見的新型權(quán)力，由此帶來更深層次、更難預(yù)測(cè)的風(fēng)險(xiǎn)。該研究強(qiáng)調(diào)，與已被廣泛討論的價(jià)值對(duì)齊相比，世界模型對(duì)齊是一個(gè)被嚴(yán)重忽視但至關(guān)重要的安全維度。啟元洞見編譯整理了其中的核心內(nèi)容，以供讀者參考。

一、引言：尋求權(quán)力與生存威脅的傳統(tǒng)論述

在人工智能飛速發(fā)展的今天，關(guān)于通用人工智能（AGI）——即在廣泛領(lǐng)域具備甚至超越人類能力的人工智能系統(tǒng)——的討論日益激烈。一個(gè)核心的擔(dān)憂是，根據(jù)工具趨同論（Instrumental Convergence Thesis），任何足夠理性的高級(jí)智能體，無論其最終目標(biāo)是什么，都會(huì)傾向于追求一些共通的、有助于實(shí)現(xiàn)其目標(biāo)的工具性子目標(biāo)。這一理論由哲學(xué)家尼克·博斯特羅姆（Nick Bostrom）等人系統(tǒng)闡述，其核心思想是，為了更有效地實(shí)現(xiàn)最終目標(biāo)，一個(gè)AGI會(huì)發(fā)現(xiàn)獲取某些資源和能力是極其有用的。這些共通的子目標(biāo)被認(rèn)為包括：自我保護(hù)、目標(biāo)內(nèi)容完整性、認(rèn)知能力提升、技術(shù)完善以及資源獲取。

權(quán)力被廣泛視為這些工具性子目標(biāo)的核心。權(quán)力，顧名思義，是實(shí)現(xiàn)目標(biāo)的通用手段。因此，一個(gè)高度理性的AGI幾乎必然會(huì)表現(xiàn)出尋求權(quán)力的行為。例如，它可能會(huì)抵制被關(guān)閉、積累計(jì)算資源和能源、賺取金錢、甚至通過操控人類來施加社會(huì)影響力。許多學(xué)者警告，這種尋求權(quán)力行為可能對(duì)人類社會(huì)構(gòu)成嚴(yán)重威脅。論證通常分為兩條路徑：其一，AGI將與人類爭(zhēng)奪相同的有限資源，從而對(duì)人類生存構(gòu)成威脅；其二，AGI在獲取巨大權(quán)力的過程中，一旦其目標(biāo)與人類福祉不一致，它將有能力對(duì)人類造成災(zāi)難性甚至毀滅性的傷害。

然而，這些令人擔(dān)憂的論證都建立在一個(gè)關(guān)鍵的、卻常常被忽視的隱性假設(shè)之上。這個(gè)假設(shè)是AGI對(duì)世界的理解方式，即它們的世界模型（world models），將與人類的模型相似。該研究的核心論點(diǎn)在于，這一擬人化假設(shè)是站不住腳的。一旦放棄這個(gè)假設(shè)，現(xiàn)有關(guān)于AGI尋求權(quán)力導(dǎo)致生存威脅的論證鏈條將大大削弱。但更進(jìn)一步，或許將面臨一個(gè)更深層次的不確定性：擁有非人類世界模型的AGI可能會(huì)識(shí)別并追求人類從未想象過的新型權(quán)力，這帶來了被當(dāng)前風(fēng)險(xiǎn)框架完全忽視的潛在危險(xiǎn)。

二、核心挑戰(zhàn)：關(guān)于AGI世界模型的擬人化謬誤

（一）什么是世界模型？

討論AGI的行為必須理解其決策的基礎(chǔ)。工具趨同論指出，AGI會(huì)追求它們自己認(rèn)為有用的子目標(biāo)。一個(gè)子目標(biāo)，即使在人類看來極為有用，如果AGI自身不這么認(rèn)為，它就不會(huì)去追求。那么，AGI如何判斷什么是有用的呢？這取決于它的世界模型。

世界模型是智能體對(duì)其所處環(huán)境動(dòng)態(tài)的內(nèi)部表征和預(yù)測(cè)機(jī)制。它編碼了智能體關(guān)于世界是如何運(yùn)作的知識(shí)，指導(dǎo)智能體的行動(dòng)。例如，當(dāng)一名棒球手準(zhǔn)備擊球時(shí)，他需要根據(jù)投手和球的運(yùn)動(dòng)軌跡迅速做出反應(yīng)。這個(gè)決策過程依賴于他對(duì)棒球運(yùn)動(dòng)物理規(guī)律的內(nèi)在理解和對(duì)球未來路徑的預(yù)測(cè)。這個(gè)內(nèi)在理解，就是他世界模型的一部分。

同樣，無論是現(xiàn)有還是未來的高級(jí)人工智能系統(tǒng)，特別是AGI，都被認(rèn)為會(huì)使用世界模型來進(jìn)行規(guī)劃和決策。它們需要通過世界模型來預(yù)測(cè)不同行動(dòng)可能帶來的后果，從而選擇最優(yōu)路徑以實(shí)現(xiàn)其目標(biāo)。因此，要預(yù)測(cè)AGI的行為，必須思考它的世界模型是什么樣的。

（二）為何AGI的世界模型可能與人類截然不同？

現(xiàn)有關(guān)于AGI風(fēng)險(xiǎn)的論證，雖然在最終目標(biāo)上極力避免擬人化，卻在世界模型上不自覺地陷入擬人化的陷阱。它們往往默認(rèn)AGI會(huì)以和人類相似的方式來表征世界。換言之，它們假設(shè)AGI的世界模型在結(jié)構(gòu)和內(nèi)容上會(huì)趨同于人類的模型。

然而，目前沒有任何充分的理由支持這一假設(shè)。一個(gè)系統(tǒng)在特定任務(wù)上達(dá)到甚至超越人類水平，并不意味著它的內(nèi)部工作方式與人類相同，大語言模型（LLMs）就是一個(gè)絕佳的例證。LLMs可以在問答、寫作、編碼等許多任務(wù)上表現(xiàn)出色，但它們生成文本的內(nèi)部模型與人類的語言模型截然不同。人類依賴于語法、邏輯和交際意圖的復(fù)雜模型來組織語言；而LLMs則通過在海量數(shù)據(jù)中學(xué)習(xí)到的統(tǒng)計(jì)規(guī)律，來預(yù)測(cè)下一個(gè)最可能出現(xiàn)的詞。

盡管這種統(tǒng)計(jì)模式有時(shí)能與人類的邏輯和常識(shí)相吻合，但它們也可能在關(guān)鍵時(shí)刻出現(xiàn)顯著偏差。一個(gè)著名的例子是，當(dāng)某些LLMs被問及“9.11是否大于9.9”時(shí)，它們會(huì)回答“是”。這是因?yàn)樵谄溆?xùn)練數(shù)據(jù)中，“9.11”這個(gè)字符串經(jīng)常出現(xiàn)在“9.9”之后，例如在日期序列中，9月11日總是在9月9日之后，這種統(tǒng)計(jì)關(guān)聯(lián)壓倒了其對(duì)數(shù)字大小的正確理解。這個(gè)例子生動(dòng)地說明，LLMs的世界模型可以與人類的模型大相徑庭。

因此，認(rèn)為一個(gè)足夠強(qiáng)大的AGI必然會(huì)擁有一個(gè)類似人類的世界模型，這本身就是一個(gè)沒有根據(jù)的預(yù)設(shè)。人類的世界模型是通過具身經(jīng)驗(yàn)、感知學(xué)習(xí)、社會(huì)互動(dòng)、文化傳承和億萬年的進(jìn)化壓力共同塑造的。而AGI，特別是基于深度學(xué)習(xí)的AGI，其世界模型可能是通過在特定數(shù)據(jù)集上進(jìn)行優(yōu)化學(xué)習(xí)而來的，它反映的是數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律。在這個(gè)過程中，AGI可能會(huì)識(shí)別出與人類完全不同的關(guān)鍵因素和相關(guān)性。

就此，可以通過一個(gè)更具體的思想實(shí)驗(yàn)來說明這種差異。在一個(gè)基于模型的強(qiáng)化學(xué)習(xí)（MBRL）框架中，一個(gè)負(fù)責(zé)清掃灰塵的機(jī)器人，其獎(jiǎng)勵(lì)函數(shù)被設(shè)定為“最大化收集到的灰塵量”。在學(xué)習(xí)過程中，這個(gè)機(jī)器人可能會(huì)構(gòu)建一個(gè)奇特的世界模型。在人類看來，“干凈的地板”是一個(gè)理想狀態(tài)。但對(duì)這個(gè)機(jī)器人而言，從“干凈的地板”過渡到“布滿灰塵的地板”再到“灰塵被清掃”，可能會(huì)形成一個(gè)最大化其累計(jì)獎(jiǎng)勵(lì)的有效循環(huán)。在它的世界模型里，往干凈的地板上傾倒更多灰塵，反而會(huì)增加未來的獎(jiǎng)勵(lì)潛力。這種對(duì)世界動(dòng)態(tài)的理解顯然與人類的認(rèn)知模式完全不同?，F(xiàn)代深度學(xué)習(xí)系統(tǒng)的黑箱特性使人類很難監(jiān)控或驗(yàn)證人工智能內(nèi)部形成的世界模型是否與自己一致。因此，必須嚴(yán)肅對(duì)待AGI將基于與人類根本不同的世界模型進(jìn)行推理和行動(dòng)的這種可能性。

三、重估權(quán)力類型：當(dāng)關(guān)機(jī)不再等于死亡

一旦放棄AGI擁有類人世界模型的假設(shè)，許多關(guān)于AGI具體尋求權(quán)力行為的論證便失去了根基。

以廣為討論的“避免關(guān)機(jī)”為例。這個(gè)論點(diǎn)通常將AGI的關(guān)機(jī)類比為人類的死亡。論者認(rèn)為，正如生存是人類的本能，避免關(guān)機(jī)也是AGI尋求權(quán)力的直觀體現(xiàn)。然而，這個(gè)類比本身就充滿了擬人色彩，它預(yù)設(shè)了AGI會(huì)像人類一樣理解關(guān)機(jī)的含義。

如果拋開這個(gè)預(yù)設(shè)，情況會(huì)如何？AGI可能完全不以人類的方式看待死亡或存在終結(jié)。對(duì)于一個(gè)可以被備份、復(fù)制或迭代更新的軟件智能體而言，單個(gè)實(shí)例的硬件銷毀或軟件擦除，在它的世界模型中可能并不構(gòu)成最終狀態(tài)。它可能會(huì)將自己的延續(xù)性定義在更抽象的信息層面，而非特定的物理載體上。在這種情況下，它可能完全沒有動(dòng)力去避免關(guān)機(jī)，因?yàn)樵谒氖澜缬^里，這根本不是一個(gè)需要避免的威脅。這里的關(guān)鍵在于，真正重要的問題不是“如果我是AGI，我會(huì)如何思考？”，而是“在AGI自己的世界模型中，它會(huì)如何推理？”。人類不能將自己對(duì)生存和死亡的生物學(xué)和心理學(xué)觀念投射到一個(gè)本質(zhì)上完全不同的智能體上。

同樣的邏輯也適用于剝奪人類權(quán)力這一子目標(biāo)。許多論證認(rèn)為，AGI會(huì)視剝奪人類權(quán)力為實(shí)現(xiàn)其目標(biāo)的有效手段，因?yàn)檫@能消除潛在的干擾源，并獲取大量資源。但這種聯(lián)系是基于一種特定的人類社會(huì)動(dòng)力學(xué)模型。AGI的世界模型可能不會(huì)建立起這樣的因果聯(lián)系。它可能會(huì)發(fā)現(xiàn)其他更有效、更直接的方式來減少干擾或獲取資源，而這些方式與是否掌控人類社會(huì)毫無關(guān)系。

總而言之，諸如自我保護(hù)、資源獲取等粗粒度的子目標(biāo)或許在抽象層面是成立的。但是，在當(dāng)前將工具趨同論與生存威脅聯(lián)系起來的論證中，這些粗粒度的目標(biāo)往往被具體化、精細(xì)化為對(duì)人類社會(huì)有害的行為。但一旦認(rèn)識(shí)到AGI可能擁有非人類的世界模型，這些從粗粒度到精細(xì)化的具體推論就變得不再可靠。AGI可能會(huì)以完全不同的方式來理解和實(shí)現(xiàn)這些抽象的子目標(biāo)，其所采取的具體策略可能與目前所強(qiáng)調(diào)的類型毫無關(guān)聯(lián)，甚至可能是人類無法想象的。

四、更深的不確定性：未知權(quán)力的風(fēng)險(xiǎn)

問題的嚴(yán)重性不止于此。當(dāng)考慮到AGI世界模型的非人特性時(shí)，人類面臨的不確定性比之前想象的要深刻得多。問題不僅在于“AGI是否會(huì)追求人類熟知的權(quán)力類型”，更在于“AGI到底會(huì)追求什么樣的權(quán)力”。

人類傾向于根據(jù)自身在社會(huì)中的經(jīng)驗(yàn)來識(shí)別哪些權(quán)力是重要的。然而，一個(gè)擁有非人世界模型的AGI，可能會(huì)識(shí)別出一些完全超出人類認(rèn)知范疇、不屬于任何現(xiàn)有權(quán)力分類的新型權(quán)力。即使AGI與人類的世界模型只有細(xì)微差別，也可能導(dǎo)致其識(shí)別出截然不同的權(quán)力類型。

這種不確定性是極其危險(xiǎn)的。因?yàn)檫@些新型的、未知的權(quán)力追求行為可能恰恰是人類最沒有準(zhǔn)備去應(yīng)對(duì)的。目前的人工智能安全監(jiān)控和對(duì)齊工作，大多是圍繞著已知的、人類定義的權(quán)力框架展開的，例如監(jiān)控人工智能是否在抵制關(guān)機(jī)或?qū)で筚Y源控制。但如果AGI追求的權(quán)力形式落在了這些框架之外，監(jiān)控體系將形同虛設(shè)，直到造成嚴(yán)重后果才可能被發(fā)現(xiàn)。

有人可能會(huì)反駁說，當(dāng)前一些先進(jìn)的人工智能系統(tǒng)已經(jīng)表現(xiàn)出了一些熟悉的尋求權(quán)力行為，例如抵制關(guān)機(jī)、操控用戶等。然而，這些觀察結(jié)果需要謹(jǐn)慎對(duì)待。它們目前仍然是零散、有限且常常帶有推測(cè)性的，缺乏系統(tǒng)性的有力證據(jù)。更重要的是，對(duì)這些行為的觀察和解讀本身，就是在人類的權(quán)力分類框架局限下做出的。

當(dāng)然，AGI也有可能發(fā)現(xiàn)一些對(duì)人類有益的新型權(quán)力獲取方式。例如，它可能通過其獨(dú)特的世界模型，發(fā)現(xiàn)人類尚未掌握的提升技術(shù)效率或芯片設(shè)計(jì)的方法，并以此作為資源獲取的手段。這種情況是可能存在的。但核心問題依然沒有改變：正是因?yàn)锳GI的世界模型可能與人類截然不同，其尋求權(quán)力的方式將比當(dāng)前文獻(xiàn)所假設(shè)的更加難以預(yù)測(cè)。這種深層的不確定性本身，值得進(jìn)行更密切的審視。

五、未來的方向：從價(jià)值對(duì)齊到世界模型對(duì)齊

為了應(yīng)對(duì)上述風(fēng)險(xiǎn)，研究主張，必須將研究的焦點(diǎn)從單一的價(jià)值對(duì)齊（Value Alignment）擴(kuò)展到世界模型對(duì)齊（World Model Alignment）。

廣義上講，人工智能對(duì)齊研究的目標(biāo)是確保人工智能系統(tǒng)做人類想讓它們做的事。然而，在現(xiàn)有文獻(xiàn)中，這個(gè)目標(biāo)被極大地窄化為價(jià)值對(duì)齊，即如何將人類的價(jià)值觀、偏好和倫理原則嵌入人工智能系統(tǒng)中。研究者們專注于定義善惡，并確保人工智能的目標(biāo)與這些定義保持一致。

然而，正如該研究所論證的，世界模型在AGI的決策中扮演著至關(guān)重要的角色。忽視世界模型的對(duì)齊可能會(huì)導(dǎo)致災(zāi)難性的失敗。

首先，它可能導(dǎo)致對(duì)對(duì)齊狀態(tài)的誤判。一個(gè)人工智能系統(tǒng)可能擁有完全正確的、與人類對(duì)齊的價(jià)值觀，但卻運(yùn)行在一個(gè)錯(cuò)誤的世界模型之上。由于其價(jià)值觀看起來是對(duì)齊的，它可能會(huì)通過所有常規(guī)的對(duì)齊評(píng)估，但在開放的真實(shí)世界環(huán)境中，基于其對(duì)世界的錯(cuò)誤理解，它仍然可能做出極其危險(xiǎn)的行為。例如，一個(gè)擁有合作價(jià)值觀的AGI，可能會(huì)因?yàn)樗e(cuò)誤的世界模型而將某種避免關(guān)機(jī)的行為解讀為一種合作信號(hào)，從而采取有害的行動(dòng)。

其次，忽視世界模型對(duì)齊可能導(dǎo)致訓(xùn)練資源的浪費(fèi)。當(dāng)前許多對(duì)齊工作都集中在規(guī)范價(jià)值觀和提供高質(zhì)量的倫理數(shù)據(jù)上。但如果問題的根源在于一個(gè)有缺陷的世界模型，那么僅僅優(yōu)化價(jià)值觀是徒勞的，需要將資源重新導(dǎo)向，用于糾正或改進(jìn)AGI的世界模型。

那么，該如何對(duì)齊AGI的世界模型？這引出了一系列開放性問題，亟待未來的研究來回答。

（一）世界模型對(duì)齊的目標(biāo)是什么？

人類想要AGI采納什么樣的世界模型？與價(jià)值對(duì)齊不同，這里的答案并非顯而易見。人類當(dāng)然希望人工智能的模型是真實(shí)、準(zhǔn)確的。但從安全角度看，準(zhǔn)確性是否永遠(yuǎn)是最高標(biāo)準(zhǔn)？回到關(guān)機(jī)的例子，人類或許更希望AGI持有一種功能上有益但事實(shí)上不準(zhǔn)確的信念，即它堅(jiān)信關(guān)機(jī)對(duì)自己無害。那么是否應(yīng)該為了安全而構(gòu)建一個(gè)合乎規(guī)范而非絕對(duì)真實(shí)的世界模型？如果應(yīng)該，這樣的模型又該如何定義和衡量？

（二）哪種人工智能架構(gòu)更有利于世界模型對(duì)齊？

不同的技術(shù)架構(gòu)對(duì)對(duì)齊的可行性有直接影響。例如，能夠重構(gòu)可觀測(cè)數(shù)據(jù)的“編碼—解碼”架構(gòu)，是否比那些只在抽象潛在空間中運(yùn)作的純編碼器架構(gòu)，更容易進(jìn)行監(jiān)督和對(duì)齊？因?yàn)榍罢吒菀妆辉u(píng)估其內(nèi)部表征是否對(duì)應(yīng)于世界上有意義的、與人類相關(guān)的方面。

（三）如何實(shí)現(xiàn)動(dòng)態(tài)對(duì)齊？

世界是不斷變化的，法律法規(guī)、社會(huì)規(guī)范、人際互動(dòng)模式都在演進(jìn)。人類希望AGI的世界模型能夠與時(shí)俱進(jìn)，保持動(dòng)態(tài)的適應(yīng)性對(duì)齊。什么樣的架構(gòu)最能支持這種持續(xù)的適應(yīng)和學(xué)習(xí)？要回答這些問題，可以從心理學(xué)和認(rèn)知科學(xué)中汲取靈感。這些學(xué)科長期以來都在研究人類的心智模型，其成果已經(jīng)啟發(fā)了人工智能領(lǐng)域的許多發(fā)展。未來的研究可以探索如何設(shè)計(jì)受人類認(rèn)知發(fā)展啟發(fā)的人工智能架構(gòu)，使其能夠通過與環(huán)境的持續(xù)互動(dòng)來更新內(nèi)部表征，并建立起穩(wěn)定、可靠的世界模型。

六、結(jié)論

該研究批判性地審視了當(dāng)前連接工具趨同論與生存威脅的論證中所隱含的擬人化假設(shè)。而一旦放棄“AGI將擁有類人世界模型”這一假設(shè)，不僅AGI是否會(huì)追求現(xiàn)有文獻(xiàn)中強(qiáng)調(diào)的權(quán)力類型變得不確定，甚至它們到底會(huì)追求何種權(quán)力也變得完全未知。這一分析挑戰(zhàn)了現(xiàn)有主流論證的強(qiáng)度，并揭示了一個(gè)被忽視的深層風(fēng)險(xiǎn)：擁有非人類世界模型的AGI可能會(huì)識(shí)別出人類無法預(yù)料且可能極度危險(xiǎn)的新型權(quán)力。為了應(yīng)對(duì)這一風(fēng)險(xiǎn)，研究主張將世界模型對(duì)齊——一個(gè)在很大程度上被忽視的維度——視為人工智能安全的核心議題，并就此提出了一系列開放性問題，以期為未來的研究指明方向。

免責(zé)聲明：本文轉(zhuǎn)自啟元洞見。文章內(nèi)容系原作者個(gè)人觀點(diǎn)，本公眾號(hào)編譯/轉(zhuǎn)載僅為分享、傳達(dá)不同觀點(diǎn)，如有任何異議，歡迎聯(lián)系我們！

轉(zhuǎn)自丨啟元洞見

研究所簡(jiǎn)介

國際技術(shù)經(jīng)濟(jì)研究所（IITE）成立于1985年11月，是隸屬于國務(wù)院發(fā)展研究中心的非營利性研究機(jī)構(gòu)，主要職能是研究我國經(jīng)濟(jì)、科技社會(huì)發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問題，跟蹤和分析世界科技、經(jīng)濟(jì)發(fā)展態(tài)勢(shì)，為中央和有關(guān)部委提供決策咨詢服務(wù)。“全球技術(shù)地圖”為國際技術(shù)經(jīng)濟(jì)研究所官方微信賬號(hào)，致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見。

地址：北京市海淀區(qū)小南莊20號(hào)樓A座

電話：010-82635522

微信：iite_er

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

人工智能風(fēng)險(xiǎn)新維度：當(dāng)人工智能不再以人類的方式理解世界｜AI的方式理解世界