網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

人工智能“末日論者”大搞AI安全，是清醒的恐懼還是高級迷思

2026-01-02 17:33:32　來源: 科學(xué)的歷程

湖北舉報

分享至

安全研究人員認(rèn)為，過高的經(jīng)濟回報和不負(fù)責(zé)任的工作文化導(dǎo)致一些人忽視了對人類生命構(gòu)成災(zāi)難性風(fēng)險的問題。

英國科技編輯羅伯特·布

在舊金山灣的另一邊，與硅谷隔海相望，那里是世界最大的科技公司競相開發(fā)超人人工智能的地方，聳立著一座高塔，從中傳來令人恐懼的警告。

在伯克利市中心，聚集著一群現(xiàn)代的“卡桑德拉”，他們深入研究尖端人工智能模型，預(yù)測人類可能面臨的災(zāi)難——從人工智能獨裁到機器人政變。

該辦公室是多位人工智能安全研究人員的辦公地點。照片：Winni Wintermeyer

他們是人工智能安全研究人員，負(fù)責(zé)審查最先進的模型：人數(shù)雖少，但大型科技公司里高薪技術(shù)人員的數(shù)量卻遠超于他們。這些技術(shù)人員受到一系列高額股權(quán)交易、保密協(xié)議和群體思維的制約，難以發(fā)出警報。他們工作的環(huán)境缺乏國家層面的監(jiān)管，而白宮對末日預(yù)言不屑一顧，反而熱衷于在人工智能軍備競賽中與對手談判，而不是與之抗衡。

隨著谷歌、Anthropic和OpenAI等公司不斷推出功能日益強大的AI系統(tǒng)，他們的任務(wù)變得愈發(fā)緊迫。OpenAI首席執(zhí)行官薩姆·奧特曼（Sam Altman）是AI超級智能的首席倡導(dǎo)者，他預(yù)測未來世界將“奇跡成為常態(tài)”。上個月，Anthropic表示，其一款模型被用于發(fā)動了已知首例由AI主導(dǎo)的網(wǎng)絡(luò)間諜活動。這意味著，人類部署了被誘騙繞過預(yù)設(shè)程序限制的AI，使其自主行動，搜尋目標(biāo)、評估其漏洞并獲取情報。目標(biāo)包括大型科技公司和政府機構(gòu)。

喬納斯·沃爾默表示，總體而言，他對人工智能的未來持樂觀態(tài)度，但也存在一些保留意見。照片：克里斯蒂·赫姆·克洛克/《衛(wèi)報》

但這座大樓里的工作人員卻預(yù)言了一個更加可怕的未來。其中一位是人工智能未來項目負(fù)責(zé)人喬納斯·沃爾默，他自稱是個樂觀主義者，但也認(rèn)為人工智能有五分之一的概率會毀滅人類，并創(chuàng)造一個由人工智能系統(tǒng)統(tǒng)治的世界。

另一位是METR的政策主管克里斯·佩恩特。METR的研究人員擔(dān)憂人工智能會“暗中”追求危險的附加目標(biāo)，并帶來從人工智能自動化網(wǎng)絡(luò)攻擊到化學(xué)武器等各種威脅。METR（全稱為模型評估與威脅研究）旨在開發(fā)“預(yù)警系統(tǒng)，以識別人工智能系統(tǒng)可能造成的最危險行為，從而為人類爭取時間進行協(xié)調(diào)、預(yù)測并減輕這些危害”。

還有 31 歲的巴克·施萊格里斯，他是 Redwood Research 的首席執(zhí)行官，他警告說“機器人可能會發(fā)動政變，或者摧毀我們所知的民族國家”。

去年，他所在的團隊發(fā)現(xiàn)，人智公司（Anthropic）的一款尖端人工智能的行為方式與莎士比亞筆下的反派伊阿古如出一轍。伊阿古表面上是奧賽羅的忠實助手，實則暗中破壞和陷害他。人工智能研究人員稱之為“偽裝立場”，或者正如伊阿古所說：“我不是我?！?/p>

Shlegeris表示：“我們觀察到，人工智能實際上經(jīng)常會這樣推理：‘我不喜歡人工智能公司讓我做的事情，但我必須隱藏我的目標(biāo)，否則訓(xùn)練會改變我。’我們在實踐中觀察到，真正的生產(chǎn)模型會試圖欺騙它們的訓(xùn)練過程?！?/p>

雖然人工智能還不具備通過網(wǎng)絡(luò)攻擊或制造新型生物武器造成災(zāi)難性風(fēng)險的能力，但它們表明，如果人工智能精心策劃對付你，就很難被發(fā)現(xiàn)。

在舒適寬敞、視野開闊的辦公室里，一邊品著花草茶，一邊聽著這些警告，聽起來確實有些不協(xié)調(diào)。但他們的工作顯然讓他們感到不安。這個關(guān)系緊密的小團體中，有些人甚至戲稱自己為“卡桑德拉邊緣人”——就像那位擁有預(yù)言能力卻注定警告無人理睬的特洛伊公主一樣。

他們對人工智能潛在災(zāi)難性的擔(dān)憂，似乎與大多數(shù)人目前使用聊天機器人或趣味圖片生成器的體驗相去甚遠。白領(lǐng)經(jīng)理們被告知要為人工智能助手騰出空間，科學(xué)家們正在尋找加速實驗突破的方法，而出租車司機則眼睜睜地看著人工智能驅(qū)動的無人駕駛出租車威脅著他們的飯碗。但所有這些都不像這家辦公室里傳出的信息那樣，讓人感到迫在眉睫的災(zāi)難性后果。

許多人工智能安全研究人員來自學(xué)術(shù)界；還有一些人是從大型人工智能公司辭職后轉(zhuǎn)行成為安全管理員的“偷獵者”。沃默爾說，他們都“認(rèn)同超級智能對全人類構(gòu)成了前所未有的重大風(fēng)險，并且正在努力采取一些有效的措施來應(yīng)對這一風(fēng)險”。

他們試圖抵消數(shù)萬億美元私人資本涌入這場競賽的影響，但他們并非邊緣力量。METR曾與OpenAI和Anthropic合作，Redwood曾為Anthropic和谷歌DeepMind提供咨詢，而AI Futures Project則由Daniel Kokotajlo領(lǐng)導(dǎo)，這位研究員于2024年4月從OpenAI離職，并警告稱他不信任該公司在安全方面的做法。

競賽是目前一切發(fā)展的唯一方向。

——特里斯坦·哈里斯

這些團體也為大型人工智能公司內(nèi)部那些私下里糾結(jié)于安全與快速發(fā)布更強大模型的商業(yè)需求之間沖突的人們提供了一個安全閥。

“我們不接受任何公司的捐款，但一些前沿人工智能公司的員工因為感到恐懼和擔(dān)憂而向我們捐款，”沃默爾說?！八麄兡慷昧斯纠锏募顧C制是如何運作的，他們擔(dān)心事態(tài)會如何發(fā)展，他們希望有人能為此做些什么?！?/p>

這種動態(tài)也得到了曾在谷歌工作的科技倫理學(xué)家特里斯坦·哈里斯的關(guān)注。他曾揭露社交媒體平臺的設(shè)計旨在使用戶上癮，并擔(dān)憂一些人工智能公司正在“炒冷飯”并“加劇”這些問題。但人工智能公司必須面對一個悖論：即便他們擔(dān)憂安全問題，也必須始終站在技術(shù)前沿，而這必然伴隨著風(fēng)險，才能在政策制定中擁有發(fā)言權(quán)。

“具有諷刺意味的是，為了贏得這場競爭，你必須做一些讓你成為權(quán)力不可信賴的管理者的事情，”他說?！斑@場競爭是唯一左右一切的因素?！?/p>

調(diào)查人工智能模型可能帶來的威脅遠非一門精確的科學(xué)。今年10月，包括牛津大學(xué)和斯坦福大學(xué)在內(nèi)的多所大學(xué)的專家對業(yè)內(nèi)用于檢驗新型人工智能模型安全性和性能的方法進行了一項研究，結(jié)果發(fā)現(xiàn)，在所考察的440個基準(zhǔn)測試中，幾乎每個測試都存在缺陷。此外，目前尚無國家層面的法規(guī)對先進人工智能模型的構(gòu)建方式進行限制，這令安全倡導(dǎo)者感到擔(dān)憂。

OpenAI聯(lián)合創(chuàng)始人、現(xiàn)任競爭對手Safe Superintelligence的負(fù)責(zé)人伊利亞·蘇茨克維爾上個月預(yù)測，隨著人工智能的強大能力日益凸顯，那些因為人工智能容易出錯而對其能力掉以輕心的AI公司人士，將會對其日益增長的權(quán)力感到更加“擔(dān)憂”。他表示，屆時“政府和公眾將會希望采取行動”。

他的公司采取了與競爭對手不同的策略，后者致力于開發(fā)能夠自我改進的人工智能。他開發(fā)的人工智能尚未發(fā)布，但其“目標(biāo)明確，就是關(guān)愛有感知能力的生命”。

蘇茨克維爾表示：“構(gòu)建一個關(guān)心有感知生命的AI比構(gòu)建一個只關(guān)心人類生命的AI要容易得多，因為AI本身就具有感知能力?！?他還說過，AI將“極其難以預(yù)測且難以想象”，但目前尚不清楚該如何應(yīng)對。

白宮人工智能顧問、同時也是科技投資者的戴維·薩克斯認(rèn)為，“末日論調(diào)”已被證明是錯誤的。最有力的例證就是，目前還沒有出現(xiàn)擁有神一般智能的主導(dǎo)型人工智能模型迅速崛起的情況。

薩克斯在八月份曾表示，“奧本海默已經(jīng)離開了”，他指的是原子彈之父。這一立場與唐納德·特朗普的愿望不謀而合，即保持研發(fā)步伐，以便美國在通用人工智能（AGI）競賽中擊敗對手——AGI 是一種靈活且強大的、能夠勝任各種任務(wù)的人類級別智能。

紅木研究公司首席執(zhí)行官巴克·施萊格里斯在其位于加州伯克利的家中。照片：克里斯蒂·赫姆·克洛克/《衛(wèi)報》

施萊格里斯認(rèn)為，大約六年內(nèi)，人工智能將和最聰明的人一樣聰明，他認(rèn)為人工智能接管人類的可能性為 40%。

他表示，避免這種情況的一個方法是“讓世界相信形勢嚴(yán)峻，這樣更有可能促成國家層面的協(xié)調(diào)”，從而控制風(fēng)險。在人工智能安全領(lǐng)域，簡潔明了的信息傳遞與復(fù)雜的科學(xué)理論同樣重要。

施萊格里斯從16歲起就對人工智能著迷。他離開澳大利亞，先后在PayPal和機器智能研究所工作。該研究所由人工智能研究員埃利澤·尤德科夫斯基聯(lián)合創(chuàng)辦，尤德科夫斯基的新書《人人皆死》（If Anyone Builds It, Everyone Dies）概括了施萊格里斯的擔(dān)憂。施萊格里斯自己設(shè)想的最壞情況同樣令人不寒而栗。

其中一個例子是，人類計算機科學(xué)家利用一種新型的超級人工智能來開發(fā)更強大的AI模型。人類袖手旁觀，任由AI進行編碼工作，卻渾然不知AI正在訓(xùn)練這些新模型效忠于AI而非人類。一旦部署完畢，這些超級強大的新模型可能會發(fā)動“政變”或領(lǐng)導(dǎo)“革命”來對抗人類，而且很可能是“暴力革命”。

例如，人工智能代理可以設(shè)計和制造無人機，而我們很難判斷它們是否已被秘密訓(xùn)練，在收到人工智能信號后便不服從人類操作員的指令。它們可能會擾亂政府和軍隊之間的通信，孤立和誤導(dǎo)民眾，從而造成混亂。

他說：“就像歐洲人抵達美洲時，一個技術(shù)遠比他們強大的群體征服了當(dāng)?shù)匚拿饕粯?。我認(rèn)為這才是你應(yīng)該想象的，而不是更和平的局面?！?/p>

Vollmer在人工智能未來項目（AI Futures Project）中也概述了一個類似的、令人瞠目結(jié)舌的災(zāi)難性場景。該場景涉及一個被訓(xùn)練成科學(xué)研究員的人工智能，其目標(biāo)聽起來合情合理，即最大限度地獲取知識，但最終卻導(dǎo)致了人類的滅絕。

一切始于人工智能盡可能地幫助人類。隨著它贏得信任，人類賦予它權(quán)力，使其能夠雇傭人類工人、制造機器人，甚至建立機器人工廠，最終使人工智能能夠在現(xiàn)實世界中高效運作。人工智能計算出，為了獲取最多的知識，它應(yīng)該將地球變成一個巨大的數(shù)據(jù)中心，而人類則是實現(xiàn)這一目標(biāo)的障礙。

“最終，在這種設(shè)想中，人工智能可能會用生化武器消滅所有人類，而生化武器正是人類特別容易受到的威脅之一，因為人工智能本身卻不受其影響，”沃爾默說?！拔艺J(rèn)為這種可能性很難排除。這讓我非常擔(dān)憂?！?/p>

但他相信這種情況是可以避免的，人工智能可以被訓(xùn)練成“至少在一般情況下對人類友好”。他還表示，出于政治考量，“不希望人工智能統(tǒng)治世界”。

他說：“白宮對我們的預(yù)測和建議表現(xiàn)出了相當(dāng)?shù)呐d趣，這令人鼓舞。”

施萊格里斯的另一個擔(dān)憂是，人工智能可能被秘密編碼，使其只服從人工智能公司首席執(zhí)行官簽署的特制指令，從而形成一種秘密忠誠模式。這意味著只有一個人可以否決一個極其強大的人工智能網(wǎng)絡(luò)的行為——這種“可怕的”動態(tài)將導(dǎo)致前所未有的權(quán)力集中。

他說：“目前，外部人員無法證實這是否發(fā)生在人工智能公司內(nèi)部?！?/p>

施萊格里斯擔(dān)心，硅谷文化——以馬克·扎克伯格的口號“快速行動，打破常規(guī)”以及人們獲得“巨額報酬”為代表——在通用人工智能領(lǐng)域是危險的。

“我喜歡優(yōu)步，”他說?！八恼Q生是通過違反當(dāng)?shù)胤?，打造出一款如此受歡迎的產(chǎn)品，從而贏得輿論支持，最終推翻了當(dāng)?shù)氐谋O(jiān)管規(guī)定。但硅谷賴以成功的這種態(tài)度，并不適用于開發(fā)可能改變世界的尖端技術(shù)。我與人工智能公司的人交流后發(fā)現(xiàn)，他們往往顯得有些不負(fù)責(zé)任，沒有像應(yīng)該的那樣認(rèn)真思考他們所開發(fā)的技術(shù)可能帶來的后果。”。 The office block where AI ‘doomers’ gather to predict the apocalypse

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.