国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

人工智能風(fēng)險(xiǎn)新維度:當(dāng)人工智能不再以人類的方式理解世界|AI的方式理解世界

0
分享至


2025年8月,《人工智能與社會(huì)》(AI & SOCIETY)發(fā)表題為《尋求權(quán)力型通用人工智能會(huì)危害人類社會(huì)嗎?》(Will power seeking AGIs harm human society?)的研究論文。該研究挑戰(zhàn)了人工智能風(fēng)險(xiǎn)領(lǐng)域一個(gè)普遍但未經(jīng)審視的核心假設(shè):即通用人工智能將以類似人類的方式理解和表征世界。文章深刻地論證,一旦摒棄這種擬人化假設(shè),通用人工智能是否會(huì)尋求人類所熟知的權(quán)力類型就變得不再明確,甚至可能轉(zhuǎn)而追求人類當(dāng)前無法預(yù)見的新型權(quán)力,由此帶來更深層次、更難預(yù)測(cè)的風(fēng)險(xiǎn)。該研究強(qiáng)調(diào),與已被廣泛討論的價(jià)值對(duì)齊相比,世界模型對(duì)齊是一個(gè)被嚴(yán)重忽視但至關(guān)重要的安全維度。啟元洞見編譯整理了其中的核心內(nèi)容,以供讀者參考。

一、引言:尋求權(quán)力與生存威脅的傳統(tǒng)論述

在人工智能飛速發(fā)展的今天,關(guān)于通用人工智能(AGI)——即在廣泛領(lǐng)域具備甚至超越人類能力的人工智能系統(tǒng)——的討論日益激烈。一個(gè)核心的擔(dān)憂是,根據(jù)工具趨同論(Instrumental Convergence Thesis),任何足夠理性的高級(jí)智能體,無論其最終目標(biāo)是什么,都會(huì)傾向于追求一些共通的、有助于實(shí)現(xiàn)其目標(biāo)的工具性子目標(biāo)。這一理論由哲學(xué)家尼克·博斯特羅姆(Nick Bostrom)等人系統(tǒng)闡述,其核心思想是,為了更有效地實(shí)現(xiàn)最終目標(biāo),一個(gè)AGI會(huì)發(fā)現(xiàn)獲取某些資源和能力是極其有用的。這些共通的子目標(biāo)被認(rèn)為包括:自我保護(hù)、目標(biāo)內(nèi)容完整性、認(rèn)知能力提升、技術(shù)完善以及資源獲取。

權(quán)力被廣泛視為這些工具性子目標(biāo)的核心。權(quán)力,顧名思義,是實(shí)現(xiàn)目標(biāo)的通用手段。因此,一個(gè)高度理性的AGI幾乎必然會(huì)表現(xiàn)出尋求權(quán)力的行為。例如,它可能會(huì)抵制被關(guān)閉、積累計(jì)算資源和能源、賺取金錢、甚至通過操控人類來施加社會(huì)影響力。許多學(xué)者警告,這種尋求權(quán)力行為可能對(duì)人類社會(huì)構(gòu)成嚴(yán)重威脅。論證通常分為兩條路徑:其一,AGI將與人類爭(zhēng)奪相同的有限資源,從而對(duì)人類生存構(gòu)成威脅;其二,AGI在獲取巨大權(quán)力的過程中,一旦其目標(biāo)與人類福祉不一致,它將有能力對(duì)人類造成災(zāi)難性甚至毀滅性的傷害。

然而,這些令人擔(dān)憂的論證都建立在一個(gè)關(guān)鍵的、卻常常被忽視的隱性假設(shè)之上。這個(gè)假設(shè)是AGI對(duì)世界的理解方式,即它們的世界模型(world models),將與人類的模型相似。該研究的核心論點(diǎn)在于,這一擬人化假設(shè)是站不住腳的。一旦放棄這個(gè)假設(shè),現(xiàn)有關(guān)于AGI尋求權(quán)力導(dǎo)致生存威脅的論證鏈條將大大削弱。但更進(jìn)一步,或許將面臨一個(gè)更深層次的不確定性:擁有非人類世界模型的AGI可能會(huì)識(shí)別并追求人類從未想象過的新型權(quán)力,這帶來了被當(dāng)前風(fēng)險(xiǎn)框架完全忽視的潛在危險(xiǎn)。

二、核心挑戰(zhàn):關(guān)于AGI世界模型的擬人化謬誤

(一)什么是世界模型?

討論AGI的行為必須理解其決策的基礎(chǔ)。工具趨同論指出,AGI會(huì)追求它們自己認(rèn)為有用的子目標(biāo)。一個(gè)子目標(biāo),即使在人類看來極為有用,如果AGI自身不這么認(rèn)為,它就不會(huì)去追求。那么,AGI如何判斷什么是有用的呢?這取決于它的世界模型。

世界模型是智能體對(duì)其所處環(huán)境動(dòng)態(tài)的內(nèi)部表征和預(yù)測(cè)機(jī)制。它編碼了智能體關(guān)于世界是如何運(yùn)作的知識(shí),指導(dǎo)智能體的行動(dòng)。例如,當(dāng)一名棒球手準(zhǔn)備擊球時(shí),他需要根據(jù)投手和球的運(yùn)動(dòng)軌跡迅速做出反應(yīng)。這個(gè)決策過程依賴于他對(duì)棒球運(yùn)動(dòng)物理規(guī)律的內(nèi)在理解和對(duì)球未來路徑的預(yù)測(cè)。這個(gè)內(nèi)在理解,就是他世界模型的一部分。

同樣,無論是現(xiàn)有還是未來的高級(jí)人工智能系統(tǒng),特別是AGI,都被認(rèn)為會(huì)使用世界模型來進(jìn)行規(guī)劃和決策。它們需要通過世界模型來預(yù)測(cè)不同行動(dòng)可能帶來的后果,從而選擇最優(yōu)路徑以實(shí)現(xiàn)其目標(biāo)。因此,要預(yù)測(cè)AGI的行為,必須思考它的世界模型是什么樣的。

(二)為何AGI的世界模型可能與人類截然不同?

現(xiàn)有關(guān)于AGI風(fēng)險(xiǎn)的論證,雖然在最終目標(biāo)上極力避免擬人化,卻在世界模型上不自覺地陷入擬人化的陷阱。它們往往默認(rèn)AGI會(huì)以和人類相似的方式來表征世界。換言之,它們假設(shè)AGI的世界模型在結(jié)構(gòu)和內(nèi)容上會(huì)趨同于人類的模型。

然而,目前沒有任何充分的理由支持這一假設(shè)。一個(gè)系統(tǒng)在特定任務(wù)上達(dá)到甚至超越人類水平,并不意味著它的內(nèi)部工作方式與人類相同,大語言模型(LLMs)就是一個(gè)絕佳的例證。LLMs可以在問答、寫作、編碼等許多任務(wù)上表現(xiàn)出色,但它們生成文本的內(nèi)部模型與人類的語言模型截然不同。人類依賴于語法、邏輯和交際意圖的復(fù)雜模型來組織語言;而LLMs則通過在海量數(shù)據(jù)中學(xué)習(xí)到的統(tǒng)計(jì)規(guī)律,來預(yù)測(cè)下一個(gè)最可能出現(xiàn)的詞。

盡管這種統(tǒng)計(jì)模式有時(shí)能與人類的邏輯和常識(shí)相吻合,但它們也可能在關(guān)鍵時(shí)刻出現(xiàn)顯著偏差。一個(gè)著名的例子是,當(dāng)某些LLMs被問及“9.11是否大于9.9”時(shí),它們會(huì)回答“是”。這是因?yàn)樵谄溆?xùn)練數(shù)據(jù)中,“9.11”這個(gè)字符串經(jīng)常出現(xiàn)在“9.9”之后,例如在日期序列中,9月11日總是在9月9日之后,這種統(tǒng)計(jì)關(guān)聯(lián)壓倒了其對(duì)數(shù)字大小的正確理解。這個(gè)例子生動(dòng)地說明,LLMs的世界模型可以與人類的模型大相徑庭。

因此,認(rèn)為一個(gè)足夠強(qiáng)大的AGI必然會(huì)擁有一個(gè)類似人類的世界模型,這本身就是一個(gè)沒有根據(jù)的預(yù)設(shè)。人類的世界模型是通過具身經(jīng)驗(yàn)、感知學(xué)習(xí)、社會(huì)互動(dòng)、文化傳承和億萬年的進(jìn)化壓力共同塑造的。而AGI,特別是基于深度學(xué)習(xí)的AGI,其世界模型可能是通過在特定數(shù)據(jù)集上進(jìn)行優(yōu)化學(xué)習(xí)而來的,它反映的是數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律。在這個(gè)過程中,AGI可能會(huì)識(shí)別出與人類完全不同的關(guān)鍵因素和相關(guān)性。

就此,可以通過一個(gè)更具體的思想實(shí)驗(yàn)來說明這種差異。在一個(gè)基于模型的強(qiáng)化學(xué)習(xí)(MBRL)框架中,一個(gè)負(fù)責(zé)清掃灰塵的機(jī)器人,其獎(jiǎng)勵(lì)函數(shù)被設(shè)定為“最大化收集到的灰塵量”。在學(xué)習(xí)過程中,這個(gè)機(jī)器人可能會(huì)構(gòu)建一個(gè)奇特的世界模型。在人類看來,“干凈的地板”是一個(gè)理想狀態(tài)。但對(duì)這個(gè)機(jī)器人而言,從“干凈的地板”過渡到“布滿灰塵的地板”再到“灰塵被清掃”,可能會(huì)形成一個(gè)最大化其累計(jì)獎(jiǎng)勵(lì)的有效循環(huán)。在它的世界模型里,往干凈的地板上傾倒更多灰塵,反而會(huì)增加未來的獎(jiǎng)勵(lì)潛力。這種對(duì)世界動(dòng)態(tài)的理解顯然與人類的認(rèn)知模式完全不同?,F(xiàn)代深度學(xué)習(xí)系統(tǒng)的黑箱特性使人類很難監(jiān)控或驗(yàn)證人工智能內(nèi)部形成的世界模型是否與自己一致。因此,必須嚴(yán)肅對(duì)待AGI將基于與人類根本不同的世界模型進(jìn)行推理和行動(dòng)的這種可能性。

三、重估權(quán)力類型:當(dāng)關(guān)機(jī)不再等于死亡

一旦放棄AGI擁有類人世界模型的假設(shè),許多關(guān)于AGI具體尋求權(quán)力行為的論證便失去了根基。

以廣為討論的“避免關(guān)機(jī)”為例。這個(gè)論點(diǎn)通常將AGI的關(guān)機(jī)類比為人類的死亡。論者認(rèn)為,正如生存是人類的本能,避免關(guān)機(jī)也是AGI尋求權(quán)力的直觀體現(xiàn)。然而,這個(gè)類比本身就充滿了擬人色彩,它預(yù)設(shè)了AGI會(huì)像人類一樣理解關(guān)機(jī)的含義。

如果拋開這個(gè)預(yù)設(shè),情況會(huì)如何?AGI可能完全不以人類的方式看待死亡或存在終結(jié)。對(duì)于一個(gè)可以被備份、復(fù)制或迭代更新的軟件智能體而言,單個(gè)實(shí)例的硬件銷毀或軟件擦除,在它的世界模型中可能并不構(gòu)成最終狀態(tài)。它可能會(huì)將自己的延續(xù)性定義在更抽象的信息層面,而非特定的物理載體上。在這種情況下,它可能完全沒有動(dòng)力去避免關(guān)機(jī),因?yàn)樵谒氖澜缬^里,這根本不是一個(gè)需要避免的威脅。這里的關(guān)鍵在于,真正重要的問題不是“如果我是AGI,我會(huì)如何思考?”,而是“在AGI自己的世界模型中,它會(huì)如何推理?”。人類不能將自己對(duì)生存和死亡的生物學(xué)和心理學(xué)觀念投射到一個(gè)本質(zhì)上完全不同的智能體上。

同樣的邏輯也適用于剝奪人類權(quán)力這一子目標(biāo)。許多論證認(rèn)為,AGI會(huì)視剝奪人類權(quán)力為實(shí)現(xiàn)其目標(biāo)的有效手段,因?yàn)檫@能消除潛在的干擾源,并獲取大量資源。但這種聯(lián)系是基于一種特定的人類社會(huì)動(dòng)力學(xué)模型。AGI的世界模型可能不會(huì)建立起這樣的因果聯(lián)系。它可能會(huì)發(fā)現(xiàn)其他更有效、更直接的方式來減少干擾或獲取資源,而這些方式與是否掌控人類社會(huì)毫無關(guān)系。

總而言之,諸如自我保護(hù)、資源獲取等粗粒度的子目標(biāo)或許在抽象層面是成立的。但是,在當(dāng)前將工具趨同論與生存威脅聯(lián)系起來的論證中,這些粗粒度的目標(biāo)往往被具體化、精細(xì)化為對(duì)人類社會(huì)有害的行為。但一旦認(rèn)識(shí)到AGI可能擁有非人類的世界模型,這些從粗粒度到精細(xì)化的具體推論就變得不再可靠。AGI可能會(huì)以完全不同的方式來理解和實(shí)現(xiàn)這些抽象的子目標(biāo),其所采取的具體策略可能與目前所強(qiáng)調(diào)的類型毫無關(guān)聯(lián),甚至可能是人類無法想象的。

四、更深的不確定性:未知權(quán)力的風(fēng)險(xiǎn)

問題的嚴(yán)重性不止于此。當(dāng)考慮到AGI世界模型的非人特性時(shí),人類面臨的不確定性比之前想象的要深刻得多。問題不僅在于“AGI是否會(huì)追求人類熟知的權(quán)力類型”,更在于“AGI到底會(huì)追求什么樣的權(quán)力”。

人類傾向于根據(jù)自身在社會(huì)中的經(jīng)驗(yàn)來識(shí)別哪些權(quán)力是重要的。然而,一個(gè)擁有非人世界模型的AGI,可能會(huì)識(shí)別出一些完全超出人類認(rèn)知范疇、不屬于任何現(xiàn)有權(quán)力分類的新型權(quán)力。即使AGI與人類的世界模型只有細(xì)微差別,也可能導(dǎo)致其識(shí)別出截然不同的權(quán)力類型。

這種不確定性是極其危險(xiǎn)的。因?yàn)檫@些新型的、未知的權(quán)力追求行為可能恰恰是人類最沒有準(zhǔn)備去應(yīng)對(duì)的。目前的人工智能安全監(jiān)控和對(duì)齊工作,大多是圍繞著已知的、人類定義的權(quán)力框架展開的,例如監(jiān)控人工智能是否在抵制關(guān)機(jī)或?qū)で筚Y源控制。但如果AGI追求的權(quán)力形式落在了這些框架之外,監(jiān)控體系將形同虛設(shè),直到造成嚴(yán)重后果才可能被發(fā)現(xiàn)。

有人可能會(huì)反駁說,當(dāng)前一些先進(jìn)的人工智能系統(tǒng)已經(jīng)表現(xiàn)出了一些熟悉的尋求權(quán)力行為,例如抵制關(guān)機(jī)、操控用戶等。然而,這些觀察結(jié)果需要謹(jǐn)慎對(duì)待。它們目前仍然是零散、有限且常常帶有推測(cè)性的,缺乏系統(tǒng)性的有力證據(jù)。更重要的是,對(duì)這些行為的觀察和解讀本身,就是在人類的權(quán)力分類框架局限下做出的。

當(dāng)然,AGI也有可能發(fā)現(xiàn)一些對(duì)人類有益的新型權(quán)力獲取方式。例如,它可能通過其獨(dú)特的世界模型,發(fā)現(xiàn)人類尚未掌握的提升技術(shù)效率或芯片設(shè)計(jì)的方法,并以此作為資源獲取的手段。這種情況是可能存在的。但核心問題依然沒有改變:正是因?yàn)锳GI的世界模型可能與人類截然不同,其尋求權(quán)力的方式將比當(dāng)前文獻(xiàn)所假設(shè)的更加難以預(yù)測(cè)。這種深層的不確定性本身,值得進(jìn)行更密切的審視。

五、未來的方向:從價(jià)值對(duì)齊到世界模型對(duì)齊

為了應(yīng)對(duì)上述風(fēng)險(xiǎn),研究主張,必須將研究的焦點(diǎn)從單一的價(jià)值對(duì)齊(Value Alignment)擴(kuò)展到世界模型對(duì)齊(World Model Alignment)。

廣義上講,人工智能對(duì)齊研究的目標(biāo)是確保人工智能系統(tǒng)做人類想讓它們做的事。然而,在現(xiàn)有文獻(xiàn)中,這個(gè)目標(biāo)被極大地窄化為價(jià)值對(duì)齊,即如何將人類的價(jià)值觀、偏好和倫理原則嵌入人工智能系統(tǒng)中。研究者們專注于定義善惡,并確保人工智能的目標(biāo)與這些定義保持一致。

然而,正如該研究所論證的,世界模型在AGI的決策中扮演著至關(guān)重要的角色。忽視世界模型的對(duì)齊可能會(huì)導(dǎo)致災(zāi)難性的失敗。

首先,它可能導(dǎo)致對(duì)對(duì)齊狀態(tài)的誤判。一個(gè)人工智能系統(tǒng)可能擁有完全正確的、與人類對(duì)齊的價(jià)值觀,但卻運(yùn)行在一個(gè)錯(cuò)誤的世界模型之上。由于其價(jià)值觀看起來是對(duì)齊的,它可能會(huì)通過所有常規(guī)的對(duì)齊評(píng)估,但在開放的真實(shí)世界環(huán)境中,基于其對(duì)世界的錯(cuò)誤理解,它仍然可能做出極其危險(xiǎn)的行為。例如,一個(gè)擁有合作價(jià)值觀的AGI,可能會(huì)因?yàn)樗e(cuò)誤的世界模型而將某種避免關(guān)機(jī)的行為解讀為一種合作信號(hào),從而采取有害的行動(dòng)。

其次,忽視世界模型對(duì)齊可能導(dǎo)致訓(xùn)練資源的浪費(fèi)。當(dāng)前許多對(duì)齊工作都集中在規(guī)范價(jià)值觀和提供高質(zhì)量的倫理數(shù)據(jù)上。但如果問題的根源在于一個(gè)有缺陷的世界模型,那么僅僅優(yōu)化價(jià)值觀是徒勞的,需要將資源重新導(dǎo)向,用于糾正或改進(jìn)AGI的世界模型。

那么,該如何對(duì)齊AGI的世界模型?這引出了一系列開放性問題,亟待未來的研究來回答。

(一)世界模型對(duì)齊的目標(biāo)是什么?

人類想要AGI采納什么樣的世界模型?與價(jià)值對(duì)齊不同,這里的答案并非顯而易見。人類當(dāng)然希望人工智能的模型是真實(shí)、準(zhǔn)確的。但從安全角度看,準(zhǔn)確性是否永遠(yuǎn)是最高標(biāo)準(zhǔn)?回到關(guān)機(jī)的例子,人類或許更希望AGI持有一種功能上有益但事實(shí)上不準(zhǔn)確的信念,即它堅(jiān)信關(guān)機(jī)對(duì)自己無害。那么是否應(yīng)該為了安全而構(gòu)建一個(gè)合乎規(guī)范而非絕對(duì)真實(shí)的世界模型?如果應(yīng)該,這樣的模型又該如何定義和衡量?

(二)哪種人工智能架構(gòu)更有利于世界模型對(duì)齊?

不同的技術(shù)架構(gòu)對(duì)對(duì)齊的可行性有直接影響。例如,能夠重構(gòu)可觀測(cè)數(shù)據(jù)的“編碼—解碼”架構(gòu),是否比那些只在抽象潛在空間中運(yùn)作的純編碼器架構(gòu),更容易進(jìn)行監(jiān)督和對(duì)齊?因?yàn)榍罢吒菀妆辉u(píng)估其內(nèi)部表征是否對(duì)應(yīng)于世界上有意義的、與人類相關(guān)的方面。

(三)如何實(shí)現(xiàn)動(dòng)態(tài)對(duì)齊?

世界是不斷變化的,法律法規(guī)、社會(huì)規(guī)范、人際互動(dòng)模式都在演進(jìn)。人類希望AGI的世界模型能夠與時(shí)俱進(jìn),保持動(dòng)態(tài)的適應(yīng)性對(duì)齊。什么樣的架構(gòu)最能支持這種持續(xù)的適應(yīng)和學(xué)習(xí)?要回答這些問題,可以從心理學(xué)和認(rèn)知科學(xué)中汲取靈感。這些學(xué)科長期以來都在研究人類的心智模型,其成果已經(jīng)啟發(fā)了人工智能領(lǐng)域的許多發(fā)展。未來的研究可以探索如何設(shè)計(jì)受人類認(rèn)知發(fā)展啟發(fā)的人工智能架構(gòu),使其能夠通過與環(huán)境的持續(xù)互動(dòng)來更新內(nèi)部表征,并建立起穩(wěn)定、可靠的世界模型。

六、結(jié)論

該研究批判性地審視了當(dāng)前連接工具趨同論與生存威脅的論證中所隱含的擬人化假設(shè)。而一旦放棄“AGI將擁有類人世界模型”這一假設(shè),不僅AGI是否會(huì)追求現(xiàn)有文獻(xiàn)中強(qiáng)調(diào)的權(quán)力類型變得不確定,甚至它們到底會(huì)追求何種權(quán)力也變得完全未知。這一分析挑戰(zhàn)了現(xiàn)有主流論證的強(qiáng)度,并揭示了一個(gè)被忽視的深層風(fēng)險(xiǎn):擁有非人類世界模型的AGI可能會(huì)識(shí)別出人類無法預(yù)料且可能極度危險(xiǎn)的新型權(quán)力。為了應(yīng)對(duì)這一風(fēng)險(xiǎn),研究主張將世界模型對(duì)齊——一個(gè)在很大程度上被忽視的維度——視為人工智能安全的核心議題,并就此提出了一系列開放性問題,以期為未來的研究指明方向。

免責(zé)聲明:本文轉(zhuǎn)自啟元洞見。文章內(nèi)容系原作者個(gè)人觀點(diǎn),本公眾號(hào)編譯/轉(zhuǎn)載僅為分享、傳達(dá)不同觀點(diǎn),如有任何異議,歡迎聯(lián)系我們!

轉(zhuǎn)自丨啟元洞見

研究所簡(jiǎn)介

國際技術(shù)經(jīng)濟(jì)研究所(IITE)成立于1985年11月,是隸屬于國務(wù)院發(fā)展研究中心的非營利性研究機(jī)構(gòu),主要職能是研究我國經(jīng)濟(jì)、科技社會(huì)發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問題,跟蹤和分析世界科技、經(jīng)濟(jì)發(fā)展態(tài)勢(shì),為中央和有關(guān)部委提供決策咨詢服務(wù)。“全球技術(shù)地圖”為國際技術(shù)經(jīng)濟(jì)研究所官方微信賬號(hào),致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見。

地址:北京市海淀區(qū)小南莊20號(hào)樓A座

電話:010-82635522

微信:iite_er

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

全球技術(shù)地圖 incentive-icons
全球技術(shù)地圖
洞見前沿,引領(lǐng)未來
4095文章數(shù) 13414關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈(zèng)里的“詩與遠(yuǎn)方

無障礙瀏覽 進(jìn)入關(guān)懷版