国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從鴿子到人工智能,強(qiáng)化學(xué)習(xí)怎樣按人類的意愿行事?

0
分享至



人工智能(AI)堪稱當(dāng)下最熱門的科技詞匯之一。隨著ChatGPT、DeepSeek等人工智能工具的出現(xiàn),我們在親眼見證甚至親自體驗人工智能的力量的同時,卻也在目睹學(xué)術(shù)界和產(chǎn)業(yè)界領(lǐng)軍人物對人工智能的潛在風(fēng)險發(fā)出警告:本應(yīng)和人類相向而行的人工智能,卻很有可能和人類背道而馳。而如果我們想避免發(fā)生人工智能挑戰(zhàn)人類的事情,當(dāng)務(wù)之急是解決“對齊問題”。

美國計算機(jī)科學(xué)暢銷書作家布萊恩·克里斯?。˙rian Christian)就瞄準(zhǔn)“對齊問題”,在他的作品《人機(jī)對齊:如何讓人工智能學(xué)習(xí)人類價值觀》中以廣闊的視野探討了諸多涉及人工智能的關(guān)鍵問題,呈現(xiàn)了機(jī)器學(xué)習(xí)和人類價值觀之間的深層聯(lián)系。以下這些來自克里斯汀書中的內(nèi)容,讓我們看到早期對鴿子和其他動物的研究如何啟發(fā)了當(dāng)今人工智能中的強(qiáng)化學(xué)習(xí)以及背后的挑戰(zhàn)和困境。

1943年,斯金納在研究一個戰(zhàn)時秘密項目,這個項目最初是由通用磨坊食 品公司贊助的。通用磨坊把明尼阿波利斯金牌面粉廠的頂樓給斯金納做實驗室。這個項目是當(dāng)時最大膽的構(gòu)想之一:斯金納打算訓(xùn)練鴿子啄食轟炸目標(biāo)的圖像,然后把鴿子3只一組放在真正的炸彈里,在投彈時制導(dǎo)?!拔液屯聜冎?,”斯金納說,“在全世界眼中,我們是瘋子?!?/p>

斯金納意識到,許多人會認(rèn)為這個項目瘋狂且殘忍。關(guān)于瘋狂,他指出,人類將動物(超越人類)的感官用于人類目的的歷史悠久且有傳奇色彩:導(dǎo)盲犬、搜尋松露的豬,等等。關(guān)于殘忍,他辯解道:“我們是否有權(quán)將低等生物轉(zhuǎn)化為不自知的英雄,思考這個倫理問題是和平時期才有的奢侈。”


▲斯金納

斯金納長期致力于強(qiáng)化研究,他著名的“斯金納盒子”可以說是桑代克迷箱在20世紀(jì)中期的升級版。盒子中的燈、杠桿和機(jī)械食物給料器(通常是用自動 售貨機(jī)改裝)可以對強(qiáng)化進(jìn)行精確和定量的研究,它們將被幾代研究人員沿用(例如舒爾茨將其用于研究猴子的多巴胺)。1950年代,斯金納利用他的盒子研究動物如何在各種條件下學(xué)會采取行動來最大化獎勵(通常是以食物的形式)。他提出了“強(qiáng)化程序”的概念,測試了各種類型的強(qiáng)化程序并觀察效果。例如,他比較了按“比率”強(qiáng)化(一定數(shù)量的正確行為會得到獎勵)與按“間隔”強(qiáng)化(一定時間后的正確行為會得到獎勵)。他測試了“固定”和“可變”強(qiáng)化,前者的行為數(shù)量或時長保持不變,后者允許波動。斯金納的著名發(fā)現(xiàn)是,最強(qiáng)烈、最重復(fù)、最持久的行為往往來自可變比率的程序——也就是說,獎勵出現(xiàn)在重復(fù)多次的行為之后,但重復(fù)次數(shù)會波動。這些發(fā)現(xiàn)對理解賭博成癮有一定啟示——可悲的是,它們無疑也啟發(fā)了如何設(shè)計更容易讓玩家上癮的賭博游戲。


▲一個以小鼠為實驗對象的斯金納盒子

然而,在頂樓的秘密實驗室,斯金納還面臨另一個挑戰(zhàn):不僅要弄清楚哪些強(qiáng)化程序能植入最根深蒂固的簡單行為,還要弄清楚如何僅僅通過獎勵來產(chǎn)生相對復(fù)雜的行為。有一次,當(dāng)他和同事試圖教鴿子擊球時,困難變得很明顯。他們建了一個微型保齡球館,里面有木球和玩具球瓶,打算在鴿子向球猛擊時給予它第一次食物獎勵。不幸的是,什么都沒發(fā)生。鴿子沒有這樣做。實驗員等啊等啊……最終失去了耐心。

然后他們改變了策略。如斯金納所述:

我們決定強(qiáng)化任何與擊球稍有關(guān)聯(lián)的反應(yīng),也許起初只是看向球的行為,然后選擇更接近最終目標(biāo)的反應(yīng)。結(jié)果令我們驚訝。幾分鐘后,球開始在盒子壁間碰撞,就好像鴿子是壁球冠軍。

效果是如此驚人,以至于斯金納的兩位助手——瑪麗安·布雷蘭(Marian Breland)和凱勒·布雷蘭(Keller Breland)夫妻倆——決定放棄心理學(xué)學(xué)術(shù)生涯,成立一家動物訓(xùn)練公司?!拔覀兿肜盟菇鸺{的行為控制原理來謀生,”瑪麗安說。他們的動物行為公司將成為全世界同行業(yè)最大的公司,訓(xùn)練各種動物在電視、電影、商業(yè)廣告和海洋世界等主題公園中表演。不僅僅是謀生:他們建立了一個王國。

斯金納也認(rèn)為,在面粉廠秘密實驗室的微型保齡球館里的這一刻對他是一種頓悟,改變了他職業(yè)生涯的軌跡。他認(rèn)為,關(guān)鍵是“通過強(qiáng)化與最終目標(biāo)大致相似的行為來逐漸塑造行為,而不是等待完全一樣的行為”。

然而,鴿子計劃最終沒有付諸實施。鴿子們干得非常出色,如此出色,以至于轉(zhuǎn)移了政府科學(xué)研究和發(fā)展辦公室委員會的注意力?!坝苫钪镍澴訄?zhí)行任務(wù)的景象,不管多么美麗,”斯金納寫道,“只會提醒委員會我們的提議多么不切實際?!彼菇鸺{當(dāng)時還不知道,政府正在努力推進(jìn)曼哈頓計劃,研發(fā)一種殺傷半徑非常大的炸彈,用他的話來說,“有一段時間,精確轟炸的需要似乎已經(jīng)徹底消失了”。然而,鴿子項目最終在海軍研究實驗室找到了安頓之所,改名為 ORCON(“生物控制”的簡稱),研究一直持續(xù)到戰(zhàn)后的20世紀(jì)50年代。

斯金納認(rèn)為這個概念已經(jīng)證明可行,在20世紀(jì)50年代末,他自豪地寫道:“可以說,用生物來制導(dǎo),不再是一個瘋狂的想法?!彪m然可行,但已經(jīng)不合時宜。關(guān)鍵是他們發(fā)現(xiàn)了塑造:通過簡單獎勵來灌輸復(fù)雜行為,獎勵一連串近似的行為?!斑@使得塑造動物的行為成為可能,”斯金納寫道,“就像雕塑家捏黏土一樣?!边@個想法,以及這個術(shù)語,將在斯金納的職業(yè)生涯中扮演關(guān)鍵角色。他從一開始就意識到,它對商業(yè)和家庭生活都有影響。

他寫道:“其中一些(強(qiáng)化程序)類似工業(yè)中廣泛使用的不固定的日工資或 計件工資;還有一些類似賭博機(jī)中精心設(shè)計的偶然事件,具有誘導(dǎo)持續(xù)行為的能力,讓人欲罷不能?!彼€認(rèn)為強(qiáng)化對養(yǎng)育子女可能產(chǎn)生顯著影響:“對強(qiáng)化的科學(xué)分析有助于更好地理解人際關(guān)系。無論是否有意,我們幾乎總是在強(qiáng)化他人的行為?!彼菇鸺{指出,父母的注意力是一個強(qiáng)大的強(qiáng)化因素,父母如果對禮貌的要求反應(yīng)遲鈍,就可能在不知不覺中訓(xùn)練孩子變得煩人和愛出風(fēng)頭。(他說,補(bǔ)救方法是對可接受的吸引注意力的行為——而不是大喊大叫或不禮貌的行為——做出更迅速、更一致的回應(yīng)。)

也許最具預(yù)言性的是,斯金納認(rèn)為,基于他的研究發(fā)現(xiàn)的原理,廣義的教育,無論是針對人還是動物,可能會成為一個嚴(yán)格的、客觀的領(lǐng)域,這個領(lǐng)域有可能實現(xiàn)飛躍。正如他所說:“人們常說,教學(xué)是一門藝術(shù),但我們越來越有理由希望它最終會成為一門科學(xué)?!彼菇鸺{可能比他預(yù)想的更正確。在21世紀(jì),機(jī)器學(xué)習(xí)專家也可能會使用“塑造”這個術(shù)語,而且用法同心理學(xué)家一樣。對獎勵的研究,尤其是如何戰(zhàn)略性地管理獎勵以獲得你想要的行為,而不是你不想要的行為,的確已成為一門嚴(yán)格的定量科學(xué),盡管可能不是像斯金納想象的那樣針對生物學(xué)習(xí)者。

“試錯法”這個短語可能是蘇格蘭哲學(xué)家亞歷山大·貝恩(Alexander Bain)在1855年創(chuàng)造的,用來描述人類和動物是如何學(xué)習(xí)。(他創(chuàng)造的另一個短語—— “探索實驗”——也很貼切,但似乎沒有流行起來。)

從最基本的角度來說,強(qiáng)化學(xué)習(xí)是通過試錯學(xué)習(xí),這種試錯(也可以說是探索)最簡單的算法形式是所謂的“ε-貪婪”(厄普西隆―貪婪)算法。希臘字母 ε在數(shù)學(xué)上常用來表示“一點點”,ε-貪婪的意思就是“貪婪,除了一點點時間外”。一個按照ε-貪婪運行的自主體,大部分時間——比如說,99%——會根據(jù)到目前為止的有限經(jīng)驗,采取它認(rèn)為能帶來最大收益的行動。但是偶爾——例如,1%——會完全隨機(jī)地嘗試一些東西。比方說,在雅達(dá)利游戲中,偶爾隨機(jī)敲擊按鈕,看看會發(fā)生什么。

如何用這種探索行為學(xué)習(xí),有許多不同的風(fēng)格,但基本想法是相同的——反復(fù)學(xué)習(xí),多做讓你得到獎勵的事情,少做讓你受懲罰的事情。你可以嘗試顯式地理解世界是如何運作的(“基于模型的”強(qiáng)化學(xué)習(xí)),或者打磨你的直覺(“無模型的”強(qiáng)化學(xué)習(xí))來做到這一點。你也可以通過學(xué)習(xí)某種狀態(tài)或行為能帶來多少收益來做到這一點(“價值”學(xué)習(xí)),或者只需知道哪些策略總體上做得更好(“策略”學(xué)習(xí))。不管怎樣,幾乎所有方法都是基于這樣一個想法:首先偶然成功,然后傾向于去做更多看起來有效的事情。

事實證明,有些任務(wù)比其他任務(wù)更適用這種方法。

例如,在像《太空入侵者》這樣的游戲中,成群的敵人向你撲來,你所能做的就是左移、右移和射擊。隨機(jī)敲擊按鈕可能有機(jī)會干掉幾個游戲角色,每個角色都值幾分,這些初步的分?jǐn)?shù)就可以用來啟動學(xué)習(xí)過程,通過學(xué)習(xí),某些行為模式得到加強(qiáng),更好的策略得到發(fā)展。例如,你可能會發(fā)現(xiàn),只有射擊才會得分,所以你會更頻繁地射擊,得分也會更多。這類游戲一般都有“密集”的獎勵,從而相對容易學(xué)習(xí)。

在其他游戲中,比如國際象棋,獎勵不是那么立竿見影,但它們?nèi)匀皇谴_定的。一盤棋要么輸要么贏要么和棋,一般幾十步,幾乎不可能下到幾百步。即使你對策略一無所知,只會在棋盤上隨意擺弄,至少你很快就會知道你是贏了、輸了還是和棋。

然而,在許多情況下,獲得任何收益都是奇跡。斯金納就有親身體會,他在獎勵鴿子在迷你保齡球館擊球時發(fā)現(xiàn)了這一點。鴿子不知道它面對的是什么游戲,可能需要幾年時間才能做出正確行為。當(dāng)然,它(和斯金納)在那之前早就餓死了。

機(jī)械學(xué)習(xí)者也是如此。例如,讓人形機(jī)器人將足球踢進(jìn)網(wǎng),可能需要對幾十個關(guān)節(jié)施加成千上萬次精確的扭矩,所有這些都必須完美協(xié)調(diào)。很難想象機(jī)器人隨意轉(zhuǎn)動幾十個關(guān)節(jié)能直立起來,與球進(jìn)行有意義的接觸更難,更不要說將球送入網(wǎng)。

強(qiáng)化學(xué)習(xí)研究人員稱這個為稀疏獎勵問題,或者更簡潔地稱為稀疏問題。 如果是根據(jù)最終目標(biāo)或與最終目標(biāo)相當(dāng)接近的東西來給獎勵,那么人們基本上只能等待,直到隨機(jī)按按鈕或動作產(chǎn)生預(yù)期的效果。數(shù)學(xué)可以證明,大多數(shù)強(qiáng)化學(xué)習(xí)算法最終都會實現(xiàn),但實際上,可能在太陽毀滅后很久才會實現(xiàn)。如果你試圖訓(xùn)練一個圍棋程序來擊敗世界冠軍,而世界冠軍每次投子認(rèn)輸你都獎勵它1分,否則就給0分,你將會等很長時間。

稀疏問題還有安全隱患。如果你打算利用ε-貪婪強(qiáng)化學(xué)習(xí)開發(fā)一種能力極強(qiáng)的超智能 AI,并且決定,如果它能治愈癌癥,你就獎勵它1分,如果它不能治愈癌癥,得0分,那你得小心,因為在它得到第一個獎勵之前,它將不得不做大量隨機(jī)嘗試。其中許多嘗試都很笨拙。

和布朗大學(xué)的邁克爾·利特曼(Michael Littman)聊天時,我問他,他對強(qiáng)化學(xué)習(xí)的研究對他教育子女有沒有幫助。他立刻想到了稀疏問題。他曾和妻子開玩笑說要對兒子使用稀疏獎勵:“這樣怎么樣?在他學(xué)會說中文前,我們不要給他東西吃。那會是很好的激勵手段!我們看看這行不行得通!”利特曼笑了?!拔移拮宇^腦非常清醒……她說:‘不,我們不玩這個游戲?!?/p>

同斯金納一樣,利特曼當(dāng)然知道不能那樣做。事實上,稀疏問題已經(jīng)促使強(qiáng)化學(xué)習(xí)研究者去追溯斯金納的時代,他們相當(dāng)直接地借鑒了他的建議。具體來說,他關(guān)于塑造的想法已經(jīng)啟發(fā)了兩種不同但又相互交織的思想:一種是關(guān)于課程,另一種是關(guān)于激勵。

(本文摘編自《人機(jī)對齊:如何讓人工智能學(xué)習(xí)人類價值觀》的“塑造”一章,配圖和標(biāo)題為編者所加)


書名:人機(jī)對齊:如何讓人工智能學(xué)習(xí)人類價值觀

?♂? 作者:[美]布萊恩·克里斯汀

譯者:唐璐

內(nèi)容簡介

如今的“機(jī)器學(xué)習(xí)”系統(tǒng)已具備非凡能力,能夠在各種場合代替我們看和聽,并代表我們做決定。但是警鐘已經(jīng)敲響。隨著機(jī)器學(xué)習(xí)飛速發(fā)展,人們的擔(dān)憂也在與日俱增。如果我們訓(xùn)練的人工智能(AI)做的事情與我們真正的目的不符,就會引發(fā)潛在的風(fēng)險和倫理問題。研究人員稱之為對齊問題(the alignment problem)。

暢銷書作家布萊恩·克里斯汀用生動的筆調(diào),清晰闡釋了AI與我們息息相關(guān)的問題。在書中,我們將認(rèn)識第一批積極應(yīng)對對齊問題的學(xué)者,了解他們?yōu)榱吮苊釧I發(fā)展的局面失控,付出的卓絕努力和雄心勃勃的計劃??死锼雇〔粌H精練地描繪了機(jī)器學(xué)習(xí)的發(fā)展史,并且親自深入科研一線同科學(xué)家對話,準(zhǔn)確呈現(xiàn)了機(jī)器學(xué)習(xí)最前沿的進(jìn)展。讀者可以清晰認(rèn)識到,對齊問題研究的成敗,將對人類的未來產(chǎn)生決定性影響。對齊問題還是一面鏡子,將人類自身的偏見和盲點暴露出來,讓我們看清自己從未闡明的假設(shè)和經(jīng)常自相矛盾的目標(biāo)。這是一部精彩紛呈的跨學(xué)科史詩,不僅審視了人類的科技,也審視了人類的文化,時而讓人沮喪,時而又柳暗花明。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美司令已有預(yù)感,中美一旦開戰(zhàn),擺在美軍面前只有兩個選擇

美司令已有預(yù)感,中美一旦開戰(zhàn),擺在美軍面前只有兩個選擇

混沌錄
2026-03-12 19:40:12
以牙還牙,中國打響反制第一槍,一舉切斷美歐命脈,美歐坐立難安

以牙還牙,中國打響反制第一槍,一舉切斷美歐命脈,美歐坐立難安

凡知
2026-04-24 17:49:57
張柏芝大兒子終于“長開”了!穿西裝比謝霆鋒還帥,網(wǎng)友:像爺爺

張柏芝大兒子終于“長開”了!穿西裝比謝霆鋒還帥,網(wǎng)友:像爺爺

木子愛娛樂大號
2026-01-07 21:47:13
天生領(lǐng)袖!東契奇受傷后,詹姆斯在隊內(nèi)說:跟著我,我們能贏球!

天生領(lǐng)袖!東契奇受傷后,詹姆斯在隊內(nèi)說:跟著我,我們能贏球!

愛體育
2026-04-23 22:37:50
廈門一乘客酒后打車,支付了77276元車費,司機(jī)懵了,追著乘客退錢:不是自己的錢,一分也不能要

廈門一乘客酒后打車,支付了77276元車費,司機(jī)懵了,追著乘客退錢:不是自己的錢,一分也不能要

環(huán)球網(wǎng)資訊
2026-04-24 17:23:08
92年,錢學(xué)森向國家建議:汽車工業(yè)跳過汽油柴油,直接進(jìn)入新能源

92年,錢學(xué)森向國家建議:汽車工業(yè)跳過汽油柴油,直接進(jìn)入新能源

文史達(dá)觀
2024-07-25 17:55:10
一場96-113的慘敗,讓掘金腸子悔青,雷霆也失算了,馬刺看到希望

一場96-113的慘敗,讓掘金腸子悔青,雷霆也失算了,馬刺看到希望

毒舌NBA
2026-04-24 12:47:04
楊毅季后賽前曝猛料:北京外援集體罷吃早餐 麥基帶頭引眾怒?

楊毅季后賽前曝猛料:北京外援集體罷吃早餐 麥基帶頭引眾怒?

你看球呢
2026-04-24 10:45:24
扮豬吃虎?忍耐四個月,委代總統(tǒng)撕破偽裝,率幾十萬大軍硬剛美國

扮豬吃虎?忍耐四個月,委代總統(tǒng)撕破偽裝,率幾十萬大軍硬剛美國

白色得季節(jié)
2026-04-24 20:28:20
CBA宣布離譜決定

CBA宣布離譜決定

宗介說體育
2026-04-24 09:57:42
實測DeepSeek V4,為國產(chǎn)化而生。

實測DeepSeek V4,為國產(chǎn)化而生。

數(shù)字生命卡茲克
2026-04-24 15:00:19
3艘俄軍艦被炸沉!局勢觸及核紅線,美方:俄羅斯或動用核武器!

3艘俄軍艦被炸沉!局勢觸及核紅線,美方:俄羅斯或動用核武器!

健身狂人
2026-04-23 15:46:53
大數(shù)據(jù)分析,在中國,找個身高1米7年入20萬的老公,到底有多難?

大數(shù)據(jù)分析,在中國,找個身高1米7年入20萬的老公,到底有多難?

深度報
2026-04-18 23:37:27
為什么腦梗逐年增多?提醒:與肥肉無關(guān),有一樣?xùn)|西要少碰

為什么腦梗逐年增多?提醒:與肥肉無關(guān),有一樣?xùn)|西要少碰

芹姐說生活
2026-04-19 08:33:41
五一前后,貴人主動伸出援手,事業(yè)迎來轉(zhuǎn)機(jī)的三個星座

五一前后,貴人主動伸出援手,事業(yè)迎來轉(zhuǎn)機(jī)的三個星座

小晴星座說
2026-04-24 19:08:23
DeepSeek V4 Pro殺回開源榜第3,閉源模型優(yōu)勢窗口正在崩塌

DeepSeek V4 Pro殺回開源榜第3,閉源模型優(yōu)勢窗口正在崩塌

六子吃涼粉
2026-04-24 14:19:00
墨菲13-3橫掃肖國棟:一場提前終結(jié)的比賽

墨菲13-3橫掃肖國棟:一場提前終結(jié)的比賽

賽場速報局
2026-04-24 20:46:00
拜合拉木談安東尼奧:沒有他選我進(jìn)國青,可能我還在內(nèi)蒙踢

拜合拉木談安東尼奧:沒有他選我進(jìn)國青,可能我還在內(nèi)蒙踢

懂球帝
2026-04-23 23:24:51
湯姆斯杯小組賽:中國隊僅輸1局,5-0碾壓澳大利亞,迎開門紅

湯姆斯杯小組賽:中國隊僅輸1局,5-0碾壓澳大利亞,迎開門紅

側(cè)身凌空斬
2026-04-24 19:15:54
火箭0-2湖人,還能逆轉(zhuǎn)嗎?蘇群8個字回應(yīng),楊毅:詹姆斯可能放水

火箭0-2湖人,還能逆轉(zhuǎn)嗎?蘇群8個字回應(yīng),楊毅:詹姆斯可能放水

八斗小先生
2026-04-24 18:34:08
2026-04-24 21:20:49
新發(fā)現(xiàn)雜志 incentive-icons
新發(fā)現(xiàn)雜志
歐洲第一人文科學(xué)雜志
1279文章數(shù) 41025關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

男子撫養(yǎng)14年兒子非親生 妻子結(jié)婚擺酒前跟別人在一起

頭條要聞

男子撫養(yǎng)14年兒子非親生 妻子結(jié)婚擺酒前跟別人在一起

體育要聞

里程碑之戰(zhàn)拖后腿,哈登18分8失誤

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經(jīng)要聞

LG財閥內(nèi)斗:百億美元商業(yè)帝國爭奪戰(zhàn)

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態(tài)度原創(chuàng)

本地
數(shù)碼
親子
公開課
軍事航空

本地新聞

云游中國|逛世界風(fēng)箏都 留學(xué)生探秘中國傳統(tǒng)文化

數(shù)碼要聞

浩鑫推出新款迷你準(zhǔn)系統(tǒng),可裝酷睿Ultra和獨顯

親子要聞

韓國叔叔又來看小滿了 看看小叔子說話那個表情 笑死...

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進(jìn)入關(guān)懷版