国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

強(qiáng)化學(xué)習(xí):我們?nèi)绾伪华?jiǎng)勵(lì)塑造行為

0
分享至


很多時(shí)候,我們以為自己是在思考之后才學(xué)會(huì)某種行為。但從神經(jīng)科學(xué)的角度看,學(xué)習(xí)往往發(fā)生得更早,也更隱秘。

當(dāng)一個(gè)選擇帶來(lái)好結(jié)果,它更可能再次出現(xiàn);當(dāng)一個(gè)行為導(dǎo)致不利后果,它逐漸被抑制。

這種從反饋中調(diào)整行為的過(guò)程,被稱為強(qiáng)化學(xué)習(xí)(reinforcement learning)。它并不是某種高階推理,而是連接經(jīng)驗(yàn)、行動(dòng)與未來(lái)選擇的基本機(jī)制。

在神經(jīng)科學(xué)中,強(qiáng)化學(xué)習(xí)并不是從計(jì)算機(jī)科學(xué)“照搬”來(lái)的概念。相反,它最早來(lái)自對(duì)動(dòng)物行為的觀察:獎(jiǎng)勵(lì)不僅帶來(lái)愉悅感,更重要的是,它會(huì)改變行為的概率。正是這一點(diǎn),讓獎(jiǎng)勵(lì)成為塑造決策的關(guān)鍵力量。

從“被獎(jiǎng)勵(lì)”到“做選擇”

早期心理學(xué)家很早就注意到,如果一個(gè)行為產(chǎn)生令人滿意的結(jié)果,它會(huì)在未來(lái)更頻繁地出現(xiàn)。久而久之,人們甚至提出一種激進(jìn)的觀點(diǎn):所有行為,都是為了獲得獎(jiǎng)勵(lì)或避免懲罰。

這一思想在行為主義時(shí)代被推到極致。通過(guò)精心控制獎(jiǎng)勵(lì)出現(xiàn)的方式——比如間隔多久、需要付出多少努力——研究者發(fā)現(xiàn),行為可以被系統(tǒng)性地塑造。動(dòng)物并不需要理解規(guī)則本身,只要反饋?zhàn)銐蚍€(wěn)定,行為模式就會(huì)逐漸成形。

真正讓“學(xué)習(xí)”與“決策”交匯的,是當(dāng)環(huán)境中出現(xiàn)了多個(gè)可選項(xiàng)。當(dāng)個(gè)體不再只是重復(fù)一個(gè)動(dòng)作,而是在不同選項(xiàng)之間分配時(shí)間和精力,選擇本身就成為研究對(duì)象。

在這些多選項(xiàng)任務(wù)中,一個(gè)令人著迷的現(xiàn)象反復(fù)出現(xiàn):個(gè)體往往不會(huì)把所有行為都?jí)旱交貓?bào)最高的選項(xiàng)上。相反,它們會(huì)在不同選項(xiàng)之間分配選擇次數(shù),而且分配比例往往接近各選項(xiàng)獲得獎(jiǎng)勵(lì)的比例。這種現(xiàn)象被稱為匹配行為。它描述了行為如何隨回報(bào)分布而變化,卻并不解釋行為為何如此。

更耐人尋味的是,在大多數(shù)實(shí)驗(yàn)中,個(gè)體表現(xiàn)出的并不是“完美匹配”,而是一種偏離——它們對(duì)高回報(bào)選項(xiàng)的選擇不夠極端,對(duì)低回報(bào)選項(xiàng)的嘗試反而更多。這種現(xiàn)象被稱為欠匹配。

從結(jié)果上看,這似乎并不完全“理性”。如果目標(biāo)是最大化回報(bào),為什么不更堅(jiān)決地選擇更好的選項(xiàng)?

大腦在做全局計(jì)算嗎?

一個(gè)重要的轉(zhuǎn)折在于,人們開(kāi)始意識(shí)到:也許問(wèn)題不在“結(jié)果是否最優(yōu)”,而在大腦如何在時(shí)間中做決定。

在現(xiàn)實(shí)世界中,回報(bào)是隨機(jī)的、嘈雜的,真正的回報(bào)率需要很長(zhǎng)時(shí)間才能估計(jì)清楚。如果要判斷“長(zhǎng)期來(lái)看這樣做是否更好”,大腦必須保留大量歷史信息,并進(jìn)行復(fù)雜計(jì)算。這在生物系統(tǒng)中并不容易實(shí)現(xiàn)。

相反,如果大腦采用的是一種局部規(guī)則——在當(dāng)下偏向最近回報(bào)更高的選項(xiàng)——那么欠匹配反而是自然結(jié)果。每一次選擇,都是基于近期經(jīng)驗(yàn)的權(quán)衡,而不是對(duì)整體結(jié)構(gòu)的精確把握。

從這種局部選擇規(guī)則出發(fā),長(zhǎng)期統(tǒng)計(jì)上的匹配行為會(huì)自然涌現(xiàn),而無(wú)需大腦明確追求“最優(yōu)解”。

當(dāng)研究者把目光投向大腦時(shí),這一假設(shè)開(kāi)始獲得支持。在靈長(zhǎng)類動(dòng)物的實(shí)驗(yàn)中,神經(jīng)元的活動(dòng)不僅與選擇本身有關(guān),還會(huì)隨選項(xiàng)的回報(bào)歷史發(fā)生系統(tǒng)性變化

某些神經(jīng)區(qū)域中的神經(jīng)元,其放電強(qiáng)度會(huì)反映某個(gè)選項(xiàng)在近期“有多值得選”。這種信號(hào)并不是一次性計(jì)算出的,而是通過(guò)對(duì)獎(jiǎng)勵(lì)歷史的持續(xù)整合逐步形成。

重要的是,這種整合并不是無(wú)限的。較新的結(jié)果影響更大,較久遠(yuǎn)的結(jié)果逐漸衰減。這意味著,大腦對(duì)世界的估計(jì)始終是動(dòng)態(tài)的、帶有遺忘的。

學(xué)習(xí)信號(hào)來(lái)自哪里?

要讓估計(jì)發(fā)生改變,大腦需要一個(gè)關(guān)鍵信號(hào):當(dāng)結(jié)果與預(yù)期不一致時(shí),系統(tǒng)必須“知道自己錯(cuò)了”。

這正是預(yù)測(cè)誤差的核心思想。預(yù)測(cè)誤差并不只是“得到了多少獎(jiǎng)勵(lì)”,而是“實(shí)際結(jié)果與預(yù)期之間的差異”。如果結(jié)果比預(yù)期好,估計(jì)上調(diào);如果更差,估計(jì)下調(diào)。

在大腦中,某些神經(jīng)系統(tǒng)的活動(dòng)模式,與這種誤差信號(hào)高度一致。它們?cè)诮Y(jié)果超出預(yù)期時(shí)短暫增強(qiáng),在結(jié)果落空時(shí)被抑制。這種信號(hào)并不是為了制造快感,而是為了驅(qū)動(dòng)學(xué)習(xí),讓連接發(fā)生改變。

隨著時(shí)間維度被引入,預(yù)測(cè)誤差也不再局限于結(jié)果出現(xiàn)的那一刻,而是逐漸提前,轉(zhuǎn)移到那些預(yù)示未來(lái)結(jié)果的線索上。這一現(xiàn)象,為更連續(xù)的學(xué)習(xí)模型提供了基礎(chǔ)。

正是在這樣的背景下,研究者開(kāi)始借助計(jì)算機(jī)科學(xué)中的強(qiáng)化學(xué)習(xí)框架,對(duì)這些過(guò)程進(jìn)行形式化描述。在這一框架中,個(gè)體被視為一個(gè)與環(huán)境互動(dòng)的“代理”,通過(guò)行動(dòng)獲得反饋,并試圖在時(shí)間中最大化回報(bào)。

這些模型提供了一種清晰的語(yǔ)言,用來(lái)描述學(xué)習(xí)、選擇和更新的關(guān)系。但它們并不等同于大腦的真實(shí)實(shí)現(xiàn)方式。某些算法在數(shù)學(xué)上優(yōu)雅,卻可能難以在嘈雜、有限的神經(jīng)系統(tǒng)中實(shí)現(xiàn)。

事實(shí)上,動(dòng)物的行為往往偏離這些“理想模型”。它們會(huì)更新未被選擇的選項(xiàng),會(huì)表現(xiàn)出選擇慣性,會(huì)在探索與利用之間搖擺。這些特征并非噪聲,而是生物系統(tǒng)在現(xiàn)實(shí)約束下的產(chǎn)物。

從神經(jīng)科學(xué)的角度看,強(qiáng)化學(xué)習(xí)更像是一種視角,幫助我們理解:經(jīng)驗(yàn)如何塑造行為,反饋如何改變選擇,以及學(xué)習(xí)如何嵌入決策本身。

它提醒我們,所謂“理性”,并不意味著完美計(jì)算;所謂“學(xué)習(xí)”,也不意味著穩(wěn)定收斂。在真實(shí)的大腦中,學(xué)習(xí)總是在有限信息、不確定環(huán)境和生物約束下展開(kāi)。而正是在這種不完美中,行為才顯得如此真實(shí)。

在「神經(jīng)現(xiàn)實(shí) x Noetex Academy」新一期的決策神經(jīng)科學(xué)課程中,你將進(jìn)一步了解神經(jīng)科學(xué)如何研究強(qiáng)化學(xué)習(xí)。在達(dá)特茅斯學(xué)院神經(jīng)科學(xué)教授Alireza Soltani帶領(lǐng)下,你將進(jìn)入生物、認(rèn)知和計(jì)算三個(gè)層級(jí),探尋決策機(jī)制的神經(jīng)基礎(chǔ),以及它如何啟發(fā)經(jīng)濟(jì)學(xué)、認(rèn)知科學(xué)和人工智能等領(lǐng)域的發(fā)展。







特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中東戰(zhàn)火點(diǎn)燃A股!這4大板塊周一開(kāi)盤可能起飛,錯(cuò)過(guò)拍斷大腿!

中東戰(zhàn)火點(diǎn)燃A股!這4大板塊周一開(kāi)盤可能起飛,錯(cuò)過(guò)拍斷大腿!

別人都叫我阿腈
2026-03-01 13:33:54
監(jiān)獄里會(huì)發(fā)勞動(dòng)報(bào)酬嗎?一網(wǎng)友稱老公2月收入83元,坐牢3年多了…

監(jiān)獄里會(huì)發(fā)勞動(dòng)報(bào)酬嗎?一網(wǎng)友稱老公2月收入83元,坐牢3年多了…

火山詩(shī)話
2026-03-01 07:41:44
網(wǎng)傳新能源汽車開(kāi)征“里程稅” 收費(fèi)0.12元/公里 多地回應(yīng)

網(wǎng)傳新能源汽車開(kāi)征“里程稅” 收費(fèi)0.12元/公里 多地回應(yīng)

快科技
2026-02-27 21:58:15
外國(guó)專家:毛澤東之所以打仗厲害,主要有3大“看家本領(lǐng)”

外國(guó)專家:毛澤東之所以打仗厲害,主要有3大“看家本領(lǐng)”

小港哎歷史
2026-03-01 09:00:03
地產(chǎn)老板集體滯留香港,有的避風(fēng),有的開(kāi)創(chuàng)新事業(yè)

地產(chǎn)老板集體滯留香港,有的避風(fēng),有的開(kāi)創(chuàng)新事業(yè)

新浪財(cái)經(jīng)
2026-02-28 21:21:14
男籃3大好消息:5人滿分,郭士強(qiáng)破紀(jì)錄,重點(diǎn)要感謝3人不上場(chǎng)

男籃3大好消息:5人滿分,郭士強(qiáng)破紀(jì)錄,重點(diǎn)要感謝3人不上場(chǎng)

阿信點(diǎn)評(píng)
2026-03-01 00:34:23
臺(tái)關(guān)注我軍機(jī)活動(dòng)“斷崖式銳減”動(dòng)因

臺(tái)關(guān)注我軍機(jī)活動(dòng)“斷崖式銳減”動(dòng)因

沃德輿情觀察
2026-02-28 23:26:00
32+5+8,杜蘭特?zé)o緣今日最佳,抱歉,因?yàn)槟阌龅?00%的詹姆斯

32+5+8,杜蘭特?zé)o緣今日最佳,抱歉,因?yàn)槟阌龅?00%的詹姆斯

體育新角度
2026-03-01 15:44:26
“體壇敗類”馬俊仁,強(qiáng)迫隊(duì)員集體切闌尾,親自為女隊(duì)員打禁藥

“體壇敗類”馬俊仁,強(qiáng)迫隊(duì)員集體切闌尾,親自為女隊(duì)員打禁藥

伴君終老
2026-02-27 21:52:24
伊朗確認(rèn)哈梅內(nèi)伊遇害,請(qǐng)問(wèn)誰(shuí)會(huì)接班?美國(guó)為何或放棄巴列維?

伊朗確認(rèn)哈梅內(nèi)伊遇害,請(qǐng)問(wèn)誰(shuí)會(huì)接班?美國(guó)為何或放棄巴列維?

聞號(hào)說(shuō)經(jīng)濟(jì)
2026-03-01 10:25:48
美軍航母突然爆炸,中國(guó)導(dǎo)彈未能擊沉,竟被美國(guó)廁紙搞定

美軍航母突然爆炸,中國(guó)導(dǎo)彈未能擊沉,竟被美國(guó)廁紙搞定

阿芒娛樂(lè)說(shuō)
2026-03-01 17:03:19
伊朗最高領(lǐng)袖和總統(tǒng)目前狀況良好

伊朗最高領(lǐng)袖和總統(tǒng)目前狀況良好

環(huán)球網(wǎng)資訊
2026-02-28 21:46:30
朝鮮閱兵式現(xiàn)場(chǎng)大將僅剩5人!戰(zhàn)略軍直接被裁?

朝鮮閱兵式現(xiàn)場(chǎng)大將僅剩5人!戰(zhàn)略軍直接被裁?

IN朝鮮
2026-02-28 10:45:32
這次荷蘭沒(méi)話說(shuō)了!中方正式宣布:更換國(guó)內(nèi)供應(yīng)商,從此不再合作

這次荷蘭沒(méi)話說(shuō)了!中方正式宣布:更換國(guó)內(nèi)供應(yīng)商,從此不再合作

古事尋蹤記
2026-02-28 07:32:51
伊朗建議民眾離開(kāi)德黑蘭

伊朗建議民眾離開(kāi)德黑蘭

財(cái)聯(lián)社
2026-02-28 21:58:42
59年毛澤東突然回韶山老家,見(jiàn)父母墳?zāi)龟惻f破爛,卻強(qiáng)調(diào):不要修

59年毛澤東突然回韶山老家,見(jiàn)父母墳?zāi)龟惻f破爛,卻強(qiáng)調(diào):不要修

談古論今歷史有道
2026-03-01 14:55:03
永遠(yuǎn)不要向任何人,包括你的親戚和好友,透露你真實(shí)的財(cái)務(wù)狀況

永遠(yuǎn)不要向任何人,包括你的親戚和好友,透露你真實(shí)的財(cái)務(wù)狀況

流蘇晚晴
2026-02-27 18:09:29
震驚!網(wǎng)傳天津一中學(xué)未返校學(xué)生超100人,三分之二沒(méi)寫寒假作業(yè)

震驚!網(wǎng)傳天津一中學(xué)未返校學(xué)生超100人,三分之二沒(méi)寫寒假作業(yè)

火山詩(shī)話
2026-03-01 07:24:21
老照片:1989年,哈梅內(nèi)伊訪華吃烤鴨

老照片:1989年,哈梅內(nèi)伊訪華吃烤鴨

年代回憶
2026-03-01 10:21:50
武漢相親女帶8個(gè)親戚蹭飯,點(diǎn)18個(gè)菜人均消費(fèi)過(guò)200,男生直接離場(chǎng)

武漢相親女帶8個(gè)親戚蹭飯,點(diǎn)18個(gè)菜人均消費(fèi)過(guò)200,男生直接離場(chǎng)

潮鹿逐夢(mèng)
2026-02-28 23:42:48
2026-03-01 19:00:49
神經(jīng)現(xiàn)實(shí)
神經(jīng)現(xiàn)實(shí)
大腦,心智,認(rèn)知
2445文章數(shù) 25489關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂(lè)部

頭條要聞

普京就哈梅內(nèi)伊遇害表示哀悼:一次無(wú)恥殺害

頭條要聞

普京就哈梅內(nèi)伊遇害表示哀悼:一次無(wú)恥殺害

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂(lè)要聞

《江山為聘》:吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬(wàn)輛

態(tài)度原創(chuàng)

本地
藝術(shù)
房產(chǎn)
數(shù)碼
公開(kāi)課

本地新聞

津南好·四時(shí)總相宜

藝術(shù)要聞

這位荷蘭人的書法,看得人直冒冷汗,寫丑書的人看了無(wú)地自容!

房產(chǎn)要聞

濱江九小也來(lái)了!集齊海僑北+哈羅、寰島...江東教育要炸了!

數(shù)碼要聞

小米首款追蹤器!小米Tag海外正式發(fā)布 兼容iOS 120元起

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版