網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

爽感，如何驅(qū)使我們做出選擇？

2025-09-17 07:32:45　來源: 追問Nextquestion

上海舉報(bào)

分享至

從深夜的冰啤酒到周末的麻辣火鍋，再到手機(jī)里刷不完的短視頻，現(xiàn)代生活似乎總能輕易地為我們提供各種“快樂”與“爽感”。我們很自然地認(rèn)為，是這些事物本身的味道、畫面或節(jié)奏，直接帶來了感官上的愉悅，并驅(qū)使我們不斷追逐、重復(fù)。

然而，這種解釋或許忽略了故事中一個(gè)更為關(guān)鍵的角色——我們的身體本身。當(dāng)我們享受美食或娛樂時(shí)，真正的“獎(jiǎng)勵(lì)”信號(hào)，可能并非發(fā)生在味蕾接觸食物的那一刻，而是在后續(xù)的消化、吸收與能量調(diào)節(jié)過程中，由身體內(nèi)部悄然發(fā)出。

這意味著，我們?cè)S多看似由感官主導(dǎo)的行為，其根源可能并非來自外部的即時(shí)刺激，而是一種源于生理深處的、無意識(shí)的反饋。我們的身體，似乎在以一種我們未曾察覺的方式，“操控”著大腦的選擇。

最近Weber等人發(fā)表在Trends in Cognitive Sciences期刊上的一篇綜述論文[1]，提出了一個(gè)別有新意的觀點(diǎn)：

強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）和行為驅(qū)動(dòng)的核心動(dòng)力，并非僅僅源于感官上的即時(shí)刺激，而是更深層次地來自我們身體內(nèi)部無意識(shí)的生理反饋，即“內(nèi)感受”（interoception）。

這一觀點(diǎn)重新定義了自然獎(jiǎng)勵(lì)（primary reward）的起源與性質(zhì)，將獎(jiǎng)勵(lì)從單純的“外部刺激”轉(zhuǎn)向了體內(nèi)狀態(tài)和事件驅(qū)動(dòng)，擴(kuò)展了RL的理論框架，也將引導(dǎo)我們重新審視人類行為與學(xué)習(xí)的底層邏輯。

強(qiáng)化學(xué)習(xí)：行為與獎(jiǎng)勵(lì)的閉環(huán)

要理解內(nèi)感受的重要性，首先需要了解強(qiáng)化學(xué)習(xí)這一概念。RL是心理學(xué)、神經(jīng)科學(xué)和人工智能領(lǐng)域的一個(gè)重要理論，它描述了個(gè)體如何通過行為獲得獎(jiǎng)勵(lì)或懲罰，從而學(xué)習(xí)哪些行為應(yīng)該重復(fù)，哪些行為應(yīng)該避免。

RL的核心在于“環(huán)境—?jiǎng)幼鳌答仭獙W(xué)習(xí)”的閉環(huán)。個(gè)體在特定環(huán)境中采取某種行動(dòng)，該行動(dòng)會(huì)產(chǎn)生一個(gè)反饋，可能是積極的獎(jiǎng)勵(lì)，也可能是消極的懲罰。個(gè)體根據(jù)這些反饋來調(diào)整其未來的行為策略，以最大化獎(jiǎng)勵(lì)或最小化懲罰。

?訓(xùn)狗與自動(dòng)停車中的強(qiáng)化學(xué)習(xí). 圖源：https://www.mathworks.com/

這方面的經(jīng)典案例是巴甫洛夫的狗。每次喂食狗的同時(shí)搖鈴，幾次之后，狗在只搖鈴的情況下，也會(huì)分泌唾液。同樣，一只狗在指定地點(diǎn)排便后得到零食獎(jiǎng)勵(lì)，它就會(huì)學(xué)會(huì)在這個(gè)地方上廁所。

RL的機(jī)制在人工智能領(lǐng)域也有著廣泛的應(yīng)用。例如AlphaGo通過與自己對(duì)弈，從每一次棋局的勝負(fù)中學(xué)習(xí)，不斷優(yōu)化其下棋策略，最終擊敗了人類頂尖棋手。自動(dòng)駕駛汽車通過在模擬環(huán)境中不斷嘗試不同的駕駛行為，并根據(jù)行駛安全性、效率等反饋來調(diào)整其決策模型。Netflix、Tiktok等平臺(tái)的推薦算法會(huì)根據(jù)用戶觀看、點(diǎn)贊、收藏等行為來學(xué)習(xí)用戶的偏好，并推薦更符合用戶口味的內(nèi)容，從而增加用戶的使用時(shí)長。

這些應(yīng)用都體現(xiàn)了RL“行為→外部反饋→學(xué)習(xí)路徑優(yōu)化”的基本模式。然而，這種傳統(tǒng)模型存在一個(gè)關(guān)鍵問題：我們是否真的僅僅根據(jù)“感受到的外部刺激”來判斷一件事的價(jià)值呢？

傳統(tǒng)模型過度強(qiáng)調(diào)外部獎(jiǎng)勵(lì)和懲罰的作用，而忽視了人類行為背后更深層次的驅(qū)動(dòng)力。例如，如果一個(gè)人僅僅為了獲得點(diǎn)贊而寫作，那么當(dāng)點(diǎn)贊量不如預(yù)期時(shí)，他可能就會(huì)失去繼續(xù)寫作的動(dòng)力。這并不能完全解釋為什么有些作家即使沒有獲得大量關(guān)注，依然堅(jiān)持創(chuàng)作。

更重要的是，很多我們“上癮”的行為，其外部獎(jiǎng)勵(lì)并不總是顯而易見的，或者其長期后果甚至是負(fù)面的，比如吸煙、熬夜、沉迷垃圾食品等。如果僅僅是外部刺激在起作用，那么當(dāng)這些行為帶來負(fù)面后果時(shí)，我們應(yīng)該能夠輕易戒斷，但現(xiàn)實(shí)并非如此。這表明，在外部反饋之外，存在著某種更深層次的、無意識(shí)的獎(jiǎng)勵(lì)系統(tǒng)在起作用。

內(nèi)感受：身體內(nèi)無聲的獎(jiǎng)勵(lì)系統(tǒng)

內(nèi)感受是指我們身體內(nèi)部的各種生理信號(hào)，它們是如此微弱以至于我們通常難以察覺，但卻真實(shí)地存在并影響著我們的大腦。這些信號(hào)包括但不限于：心跳的加快或減緩、呼吸的急促或平緩、血糖水平的升降、口渴感、飽腹感、肌肉的緊張或放松等等。

內(nèi)感受不僅影響我們的基本生理需求，還深刻影響著我們的情緒、認(rèn)知和決策。例如，當(dāng)我們的心跳加速、手心出汗時(shí)，這些內(nèi)部生理信號(hào)可能會(huì)被大腦解讀為焦慮或興奮，從而影響我們對(duì)當(dāng)前情境的判斷和反應(yīng)。

雖然內(nèi)感受不如視覺、聽覺、味覺等外部感官刺激那樣明顯，但它們卻構(gòu)成了大腦評(píng)估一個(gè)行為是否有價(jià)值的最終依據(jù)。正如論文所強(qiáng)調(diào)的，我們并不是被食物本身獎(jiǎng)勵(lì)了，而是被食物消化后產(chǎn)生的生理變化所獎(jiǎng)勵(lì)。

內(nèi)感受之所以重要，是因?yàn)樗鼮榇竽X提供了一個(gè)關(guān)于身體內(nèi)部狀態(tài)的實(shí)時(shí)“報(bào)告”。這個(gè)報(bào)告決定了大腦如何評(píng)估一個(gè)行為對(duì)于身體生存和繁衍的價(jià)值。當(dāng)我們采取某個(gè)行為，并因此改善了身體的內(nèi)部環(huán)境（例如補(bǔ)充了能量、緩解了壓力），大腦就會(huì)將這種改善解讀為一種“獎(jiǎng)勵(lì)”，并強(qiáng)化導(dǎo)致這一行為的神經(jīng)通路[2]。

例如當(dāng)我們感到饑餓時(shí)，身體的血糖水平下降，腸胃發(fā)出信號(hào)。這時(shí)我們進(jìn)食，食物被消化吸收，血糖水平回升，能量得到補(bǔ)充。這個(gè)過程中，迷走神經(jīng)會(huì)將營養(yǎng)輸入的信息傳遞給腦干，進(jìn)而觸發(fā)大腦釋放多巴胺，產(chǎn)生“快感”。這種快感并非僅僅來自食物的味道，更重要的是身體通過內(nèi)感受獲得的“續(xù)命”信號(hào)。

然而，這套為保障生存而演化出的古老系統(tǒng)，在現(xiàn)代社會(huì)中常常被各種超常刺激所“利用”甚至“劫持”。理解這個(gè)過程，我們首先需要區(qū)分兩種相互關(guān)聯(lián)的獎(jiǎng)勵(lì)信號(hào)：

自然獎(jiǎng)勵(lì)（Natural Reward）：這是最根本的獎(jiǎng)勵(lì)，源自內(nèi)感受系統(tǒng)對(duì)身體內(nèi)部狀態(tài)真實(shí)改善的確認(rèn)。例如，食物消化后血糖回升、飲水后身體脫水狀態(tài)緩解。這是我們生存系統(tǒng)真正追求的終極目標(biāo)。

代理獎(jiǎng)勵(lì)（Proxy Reward）：又叫次級(jí)獎(jiǎng)勵(lì)（secondary reward），這是一種“快捷方式”或“預(yù)測(cè)信號(hào)”。它是能夠預(yù)示自然獎(jiǎng)勵(lì)即將到來的外部感官線索。例如，食物的香氣、甜美的味道、餐廳的招牌。大腦通過經(jīng)驗(yàn)學(xué)會(huì)，這些代理獎(jiǎng)勵(lì)的出現(xiàn)，意味著真正的自然獎(jiǎng)勵(lì)很可能隨之而來。

現(xiàn)代生活中的許多誘惑，正是通過放大“代理獎(jiǎng)勵(lì)”并精準(zhǔn)兌現(xiàn)“自然獎(jiǎng)勵(lì)”來讓我們難以自拔的。夜宵、游戲、短視頻便是三個(gè)典型的案例。

以深夜加班后的那碗拉面為例。身體此時(shí)正處于低血糖的能量缺乏狀態(tài)，食物的香氣和味道首先作為一種代理獎(jiǎng)勵(lì)，強(qiáng)烈地預(yù)示著能量即將到來。而當(dāng)食物入胃，迷走神經(jīng)感受到營養(yǎng)物質(zhì)的輸入，并將“能量正在補(bǔ)充”的信號(hào)傳至腦干，最終促使大腦釋放多巴胺時(shí)，真正的自然獎(jiǎng)勵(lì)才被兌現(xiàn)。此時(shí)，你的身體在用最誠實(shí)的方式告訴你：“這碗面成功地為我續(xù)命了！”這種由身體能量狀態(tài)真實(shí)改善所帶來的深刻滿足感，其力量遠(yuǎn)比味覺刺激更強(qiáng)大，也解釋了為何我們明知夜宵不健康，身體的本能依然難以抗拒。

相比于夜宵對(duì)生理需求的直接修復(fù)，游戲則通過另一種方式——模擬生理興奮——來激活獎(jiǎng)勵(lì)回路。當(dāng)你在競(jìng)技游戲中獲勝時(shí)，心跳會(huì)加快、血壓會(huì)上升，大腦會(huì)將這種生理上的高激活狀態(tài)與勝利的成就感錯(cuò)誤地綁定，記錄下“這件事讓我的身體機(jī)能變強(qiáng)了”的信號(hào)。這種由游戲事件驅(qū)動(dòng)的生理興奮本身就成了一種獎(jiǎng)勵(lì)，即使意識(shí)已感到“沒意思”，但身體對(duì)腎上腺素飆升的依賴，仍在推動(dòng)你渴望下一局的刺激。

而短視頻的邏輯則更為精妙，它通過碎片化、快速切換的特點(diǎn)，不斷制造“輕微期待”與“輕微滿足”的循環(huán)，頻繁地“微量”激活身體的反饋系統(tǒng)。每劃過一條視頻，身體都會(huì)進(jìn)入一種微小的覺醒和期待狀態(tài)，當(dāng)偶然刷到有趣內(nèi)容時(shí)，心跳的瞬間加速、大腦皮層的活躍，都是內(nèi)感受獎(jiǎng)勵(lì)的體現(xiàn)。即使意識(shí)上感到空虛，但身體內(nèi)部的反饋系統(tǒng)卻在不斷對(duì)大腦說：“繼續(xù)，下一個(gè)可能更精彩。”它讓我們沉迷于一種永不滿足、永在期待的過程本身。

從這三個(gè)案例中，我們可以看到獎(jiǎng)勵(lì)系統(tǒng)運(yùn)作的復(fù)雜性。夜宵的滿足感，更偏向于狀態(tài)驅(qū)動(dòng)（state-driven）的獎(jiǎng)勵(lì)，因?yàn)樗鎸?shí)地修復(fù)了身體的能量虧損狀態(tài)。而游戲和短視頻帶來的刺激，則更接近事件驅(qū)動(dòng)（event-driven），獎(jiǎng)勵(lì)與具體事件（勝利、刷到新內(nèi)容）的發(fā)生緊密相關(guān)。更進(jìn)一步，這也揭示了獎(jiǎng)勵(lì)機(jī)制可以推廣到更高級(jí)的認(rèn)知與動(dòng)機(jī)行為，即目標(biāo)相關(guān)獎(jiǎng)勵(lì)（goal-dependent Reward）。

無論是修復(fù)生理穩(wěn)態(tài)，還是在虛擬世界中達(dá)成目標(biāo)，其底層都依賴于內(nèi)感受系統(tǒng)對(duì)“狀態(tài)變好”的判斷和確認(rèn)。正是這套深植于我們生理內(nèi)部、常常被意識(shí)忽略的獎(jiǎng)勵(lì)系統(tǒng)，解釋了為何在理智與本能的博弈中，我們常常身不由己。

忽視了“身體”的傳統(tǒng)模型

這種以內(nèi)感受為核心的獎(jiǎng)勵(lì)機(jī)制，也讓我們得以重新審視和反思人工智能領(lǐng)域中關(guān)于學(xué)習(xí)和決策的傳統(tǒng)模型。

在傳統(tǒng)的人工智能強(qiáng)化學(xué)習(xí)（RL）模型中，獎(jiǎng)勵(lì)通常被定義為外部的、可量化的結(jié)果，例如在游戲中獲得高分、投資成功賺錢或在分類任務(wù)中得出正確結(jié)果。模型的核心是“行動(dòng)”與“回報(bào)”的簡(jiǎn)單映射。然而，在人類身上，真正被強(qiáng)化的不是外部結(jié)果本身，而是這些結(jié)果所引發(fā)的身體內(nèi)部變化。

這解釋了許多傳統(tǒng)模型難以解釋的“非理性”行為。按照傳統(tǒng)理論，當(dāng)垃圾食品帶來肥胖、疾病等負(fù)面后果時(shí)，我們應(yīng)該迅速戒斷。但實(shí)際上，高糖高脂食物帶來的即時(shí)能量補(bǔ)充（一種強(qiáng)大的內(nèi)感受獎(jiǎng)勵(lì)），往往讓人難以自拔。類似的，吸煙對(duì)健康的危害眾所周知，但尼古丁能夠暫時(shí)緩解焦慮、提高專注力，這種生理上的“爽感”使得戒斷變得異常困難。如果不將“身體狀態(tài)”這一變量納入考量，現(xiàn)有的RL模型就無法完整且準(zhǔn)確地解釋這些復(fù)雜的行為模式。

更進(jìn)一步，這一框架也解釋了為什么人在不同狀態(tài)下（餓、困、累）判斷力會(huì)差異如此之大。當(dāng)我們饑餓、疲憊或壓力山大時(shí)，身體內(nèi)部的穩(wěn)態(tài)被打破，內(nèi)感受系統(tǒng)會(huì)向大腦發(fā)送強(qiáng)烈的“警報(bào)”信號(hào)。此時(shí)，大腦的優(yōu)先級(jí)會(huì)從長遠(yuǎn)規(guī)劃轉(zhuǎn)向解決眼前的生理需求，因此更容易做出沖動(dòng)或短視的決策，例如，一個(gè)饑餓的人可能會(huì)更容易被食物廣告吸引并超量購買。

因此，Weber等人認(rèn)為，如果不將“身體狀態(tài)”這一變量納入考量，現(xiàn)有的RL模型就無法完整且準(zhǔn)確地解釋這些復(fù)雜的行為模式。僅僅依靠外部獎(jiǎng)勵(lì)來驅(qū)動(dòng)行為，如同盲人摸象，無法窺見人類行為的全貌。

人類行為的復(fù)雜性在于，它不僅僅是理性思考的產(chǎn)物，更是生理和心理相互作用的結(jié)果。我們的決策往往受到情緒、身體狀況、潛意識(shí)等多種因素的影響。內(nèi)感受作為一種無意識(shí)的生理反饋系統(tǒng)，為大腦提供了關(guān)于身體內(nèi)部環(huán)境的關(guān)鍵信息，從而影響了我們對(duì)外部世界的感知、評(píng)估和響應(yīng)。

例如，當(dāng)我們感到寒冷時(shí)，我們會(huì)本能地尋找溫暖的衣物或取暖設(shè)備。這個(gè)行為并非僅僅基于我們對(duì)“冷”的認(rèn)知，更重要的是身體內(nèi)部溫度下降所帶來的不適感，這種不適感通過內(nèi)感受被大腦識(shí)別，并促使我們采取行動(dòng)來恢復(fù)身體的穩(wěn)態(tài)。當(dāng)身體恢復(fù)溫暖時(shí)，大腦會(huì)記錄下這種“獎(jiǎng)勵(lì)”，從而強(qiáng)化了未來在類似情境下采取相同行為的傾向。

與傳統(tǒng)強(qiáng)化學(xué)習(xí)（RL）模型只關(guān)注外部行動(dòng)與回報(bào)不同，人類的學(xué)習(xí)與行為強(qiáng)化，本質(zhì)上是以身體內(nèi)感受為核心驅(qū)動(dòng)的。外部事件之所以能成為“獎(jiǎng)勵(lì)”，是因?yàn)樗鼈円l(fā)了身體內(nèi)部的即時(shí)變化，例如能量補(bǔ)充、多巴胺釋放、焦慮緩解或穩(wěn)態(tài)恢復(fù)。這些內(nèi)感受信號(hào)是大腦記憶強(qiáng)化的對(duì)象。人類的決策與習(xí)慣形成，并非僅依賴?yán)硇杂?jì)算或外部獎(jiǎng)懲，而是深深植根于生理狀態(tài)與心理體驗(yàn)的交互過程。換言之，人類更接近一個(gè)“以內(nèi)感受為獎(jiǎng)勵(lì)機(jī)制的強(qiáng)化學(xué)習(xí)框架”，而非傳統(tǒng)意義上忽視身體維度的模型。

強(qiáng)化學(xué)習(xí)+內(nèi)感受系統(tǒng)，

構(gòu)建更真實(shí)的智能體

如果我們要設(shè)計(jì)一個(gè)真正像人類一樣思考和行動(dòng)的AI，那么它不應(yīng)該僅僅考慮“贏”或“輸”的外部結(jié)果，而應(yīng)該能夠“感受到”行動(dòng)過程中產(chǎn)生的內(nèi)部變化。這需要將內(nèi)感受系統(tǒng)融入到未來的AI模型中。為了構(gòu)建更真實(shí)的智能體，未來的AI模型需要具備“具身智能”（embodied intelligence）的特性[3]。具身智能是指智能體不僅能感知和處理信息，還能通過與物理世界的交互來學(xué)習(xí)和適應(yīng)，并且能夠感知和利用自身的內(nèi)部狀態(tài)。

要實(shí)現(xiàn)這一目標(biāo)，需要模擬“體內(nèi)狀態(tài)系統(tǒng)”。AI模型需要能夠?qū)崟r(shí)跟蹤模擬的能量狀態(tài)、壓力水平、內(nèi)分泌變化等內(nèi)部生理指標(biāo)。這就像為AI配備一個(gè)“身體”，讓它能夠感知自身的“饑餓”、“疲憊”或“興奮”。這些模擬的內(nèi)部狀態(tài)反饋需要與AI的強(qiáng)化學(xué)習(xí)機(jī)制相結(jié)合，用于調(diào)節(jié)決策權(quán)重。例如，當(dāng)AI的“能量”不足時(shí)，它可能會(huì)更傾向于選擇那些能夠迅速“補(bǔ)充能量”的行為，即使這些行為在短期內(nèi)效率不高。

這是一種全新的強(qiáng)化學(xué)習(xí)框架，將內(nèi)感受作為獎(jiǎng)勵(lì)信號(hào)的重要來源。在這種模型中，AI的決策不僅僅是為了最大化外部獎(jiǎng)勵(lì)，更是為了優(yōu)化自身的內(nèi)部狀態(tài)，以達(dá)到一種“體內(nèi)穩(wěn)態(tài)”。這樣的AI或許才能真正地接近人類，擁有情緒、欲望、節(jié)奏甚至成癮傾向。例如情緒感知。如果AI能夠模擬內(nèi)部壓力水平的變化，它或許就能“感受到”焦慮，從而調(diào)整其任務(wù)分配策略，避免過度負(fù)荷。

如果AI能夠模擬能量消耗，它或許就能“感覺到饑餓”，從而主動(dòng)尋找“食物”（例如計(jì)算資源或數(shù)據(jù)），而不是被動(dòng)等待任務(wù)分配。如果某種行為能夠持續(xù)帶來“內(nèi)部獎(jiǎng)勵(lì)”，即使從外部看效率低下，AI也可能表現(xiàn)出“成癮”的趨勢(shì)。

當(dāng)前，人工智能領(lǐng)域巨頭，包括OpenAI、DeepMind、Meta都在積極探索“能感受身體狀態(tài)”的AI，或所謂的“具身智能”（embodied intelligence）——未來的AI將不僅僅是能夠處理信息和執(zhí)行任務(wù)，更重要的是能夠感知并利用自身的身體狀態(tài)，從而實(shí)現(xiàn)更接近人類的智能。

具身智能的核心在于，智能體不僅擁有“大腦”，還擁有“身體”，并且能夠通過身體與環(huán)境進(jìn)行交互，感知身體的內(nèi)部狀態(tài)。機(jī)器人通過與物理世界的交互來學(xué)習(xí)和適應(yīng)，例如學(xué)習(xí)如何抓取物品、如何在復(fù)雜環(huán)境中導(dǎo)航。AI模型在模擬環(huán)境中進(jìn)行訓(xùn)練，這些環(huán)境不僅模擬了物理世界的規(guī)律，還可能模擬了智能體的“身體”和“感官”系統(tǒng)。AI能夠整合來自不同模態(tài)（例如視覺、聽覺、觸覺）的信息，更全面地理解事物。

內(nèi)感受為AI提供了一個(gè)全新的維度。如果AI能夠感知自身的“能量水平”、“計(jì)算負(fù)荷”、“傳感器狀態(tài)”等內(nèi)部指標(biāo)，它就能夠更智能地分配資源，更有效地規(guī)劃行動(dòng)，甚至在某些情況下表現(xiàn)出類似“直覺”或“情緒”的特征。

例如，OpenAI的“具身智能體”（Embodied Agent）項(xiàng)目，就旨在引入類似神經(jīng)內(nèi)反饋的模塊，使AI能夠感知自身的內(nèi)部狀態(tài)；以及DeepMind提出的“內(nèi)穩(wěn)態(tài)RL”（homeostatic RL）框架，這一框架旨在讓AI通過調(diào)節(jié)內(nèi)部生理狀態(tài)來優(yōu)化其行為，而不是簡(jiǎn)單地追求外部獎(jiǎng)勵(lì)。

在醫(yī)療領(lǐng)域，AI模型開始將患者的“主觀身體體驗(yàn)”（例如疼痛感、疲憊程度）作為重要的診斷變量，以更全面地評(píng)估患者的健康狀況。傳統(tǒng)的醫(yī)療診斷主要依賴于客觀的生理指標(biāo)和醫(yī)生的經(jīng)驗(yàn)。然而，患者的主觀感受（例如疼痛程度、疲勞感、焦慮情緒）往往是疾病診斷和治療效果評(píng)估的關(guān)鍵信息。

未來的醫(yī)療AI可能會(huì)整合這些“主觀身體體驗(yàn)”作為診斷變量。例如，一個(gè)能夠理解患者內(nèi)感受的AI，可能會(huì)更準(zhǔn)確地識(shí)別出慢性疼痛患者的真實(shí)痛苦程度，或者更早地發(fā)現(xiàn)患者情緒波動(dòng)的深層生理原因。這將使得醫(yī)療診斷更加個(gè)性化、全面化，并有助于開發(fā)更有效的治療方案。

此外，如果AI自身能夠具備內(nèi)感受，那么它將不僅僅是一個(gè)被動(dòng)執(zhí)行指令的工具，而可能擁有更復(fù)雜的“欲望”和“選擇”。例如，一個(gè)模擬了計(jì)算負(fù)荷和壓力水平的AI，當(dāng)其“壓力”過大時(shí)，可能會(huì)主動(dòng)尋求“休息”或“優(yōu)化資源”，從而避免崩潰。一個(gè)具備內(nèi)感受的自動(dòng)駕駛AI，可能不僅僅選擇最快的路徑，還會(huì)考慮乘客的舒適度，例如避免急剎車或顛簸路段。

設(shè)想一下，未來的AI或許真的能夠“覺得自己餓了”、“意識(shí)到自己焦慮”、“選擇更舒服的路徑”，AI將從“贏得更多”的單一目標(biāo)，轉(zhuǎn)向追求“體內(nèi)穩(wěn)態(tài)”和“整體福祉”的多目標(biāo)優(yōu)化，從而使得AI的行為模式更加接近人類，也更具通用性。這無疑是人工智能發(fā)展史上一個(gè)里程碑式的突破。

未解決的問題

? 除了主要的宏量營養(yǎng)素（脂肪、碳水化合物、蛋白質(zhì)）之外，還有哪些微量營養(yǎng)素參與產(chǎn)生口后（post-ingestive）信號(hào)？

? 與其他生理相關(guān)過程（例如親密關(guān)系、體溫調(diào)節(jié)和呼吸）相關(guān)的潛在主要獎(jiǎng)賞信號(hào)是什么？

? 這些內(nèi)感受相關(guān)的獎(jiǎng)賞信號(hào)是如何與支持決策的大腦回路整合的？

? 內(nèi)感受的獎(jiǎng)賞機(jī)制在多大程度上可以推廣到與好奇心、目標(biāo)達(dá)成或新奇事物相關(guān)的內(nèi)在獎(jiǎng)賞？

? 其他內(nèi)感受性信號(hào)，例如處理心臟和呼吸相關(guān)信息，是如何與獎(jiǎng)賞系統(tǒng)相互作用的？

? 延遲的內(nèi)部強(qiáng)化信號(hào)和即時(shí)的外部強(qiáng)化信號(hào)的不同多巴胺信號(hào)是如何整合的（例如，在背側(cè)紋狀體和腹側(cè)紋狀體中）？

在傳統(tǒng)的營養(yǎng)與獎(jiǎng)賞研究中，脂肪、碳水化合物與蛋白質(zhì)被視為主要的能量來源與獎(jiǎng)賞驅(qū)動(dòng)。但近年來的研究指出，微量營養(yǎng)素同樣在口后階段發(fā)揮信號(hào)作用。例如鈉離子直接驅(qū)動(dòng)飲食偏好，鈣、鐵、鋅等礦物質(zhì)則通過體液平衡、造血與酶活性調(diào)控，間接影響進(jìn)食的獎(jiǎng)賞反饋。此外，維生素類也能通過神經(jīng)遞質(zhì)合成（如維生素B6對(duì)多巴胺與5-HT合成的作用）參與獎(jiǎng)賞系統(tǒng)。由此可見，營養(yǎng)獎(jiǎng)賞并非單一能量模型，而是多層次的信號(hào)整合。

若將視野擴(kuò)展到其他生理過程，親密接觸帶來的催產(chǎn)素、加壓素信號(hào)，體溫調(diào)節(jié)中的溫敏通道與內(nèi)啡肽釋放，呼吸中的二氧化碳水平反饋與迷走神經(jīng)張力，均能成為潛在的獎(jiǎng)賞來源。這些內(nèi)感受信號(hào)不僅傳遞身體狀態(tài)的適配信息，也強(qiáng)化了與個(gè)體生存和社會(huì)聯(lián)系相關(guān)的行為，從而具備“內(nèi)在獎(jiǎng)賞”的屬性。

在神經(jīng)環(huán)路層面，這些信號(hào)通過丘腦、島葉、扣帶皮層與伏隔核等區(qū)域進(jìn)入獎(jiǎng)賞系統(tǒng)，與經(jīng)典的多巴胺驅(qū)動(dòng)的決策回路相融合。背側(cè)紋狀體多與動(dòng)作習(xí)慣和延遲獎(jiǎng)賞整合相關(guān)，腹側(cè)紋狀體則更敏感于即時(shí)獎(jiǎng)勵(lì)與預(yù)測(cè)誤差。由此形成的動(dòng)態(tài)平衡，使得個(gè)體能在即時(shí)滿足與長遠(yuǎn)目標(biāo)之間進(jìn)行靈活選擇。

值得注意的是，內(nèi)感受獎(jiǎng)賞機(jī)制具有可推廣性。研究顯示，好奇心、新奇探索與目標(biāo)達(dá)成同樣會(huì)招募與內(nèi)感受獎(jiǎng)賞相關(guān)的神經(jīng)環(huán)路，特別是島葉與伏隔核的活動(dòng)模式，提示大腦可能利用相似的“內(nèi)部?jī)r(jià)值計(jì)算”機(jī)制來評(píng)估不同類型的獎(jiǎng)勵(lì)。與此同時(shí)，心跳、呼吸等節(jié)律性信號(hào)通過與腦干及邊緣系統(tǒng)的交互，進(jìn)一步塑造獎(jiǎng)賞敏感性。例如心臟收縮相關(guān)的信號(hào)可調(diào)節(jié)杏仁核與前額葉的情緒價(jià)值判斷。

因此，內(nèi)感受相關(guān)的獎(jiǎng)賞機(jī)制為理解多維度的人類動(dòng)機(jī)提供了關(guān)鍵線索。它們不僅涵蓋食物與營養(yǎng)，還延展到社交、探索、情緒調(diào)節(jié)與長期決策，最終在分布式的神經(jīng)環(huán)路中實(shí)現(xiàn)即時(shí)與延遲強(qiáng)化的整合。

結(jié)語：身體塑造了大腦

人們?yōu)楹纹珢勰承┤�、某些食物、某種娛樂方式？你為何做出那些決策？為何總是堅(jiān)持不了自己的計(jì)劃？這些問題的答案在于，人們并不完全受大腦皮層中“理智”的調(diào)控。

真正改變?nèi)祟愋袨榈模皇菃渭兊倪壿嬎伎�，而是身體內(nèi)部的無聲反饋。Weber等人的研究，將我們從“頭腦決定論”的傳統(tǒng)觀念中，拉回到一個(gè)更具整體性和生物學(xué)基礎(chǔ)的“身體共謀論”。我們的學(xué)習(xí)系統(tǒng)，你從未在意的心跳節(jié)奏、腸道迷走神經(jīng)，以及奶茶滑入口中的爽感，卻時(shí)時(shí)刻刻都在影響著你是誰。它不吵不鬧，卻無聲無息地塑造著我們的一切。

在快節(jié)奏的現(xiàn)代生活中，我們常常忽視身體發(fā)出的這些微弱信號(hào)。我們習(xí)慣于用大腦去思考、去分析、去決策，卻很少停下來傾聽身體的聲音。然而，正是這些微弱的、無意識(shí)的內(nèi)感受，在潛移默化地影響著我們的行為、情緒和決策。

理解“自己其實(shí)沒那么理性”。我們應(yīng)該嘗試更認(rèn)真地對(duì)待自己身體的每一個(gè)回饋。當(dāng)你感到煩躁不安時(shí)，問問自己是不是累了；當(dāng)你渴望某種食物時(shí)，思考一下是真正的饑餓還是身體對(duì)某種生理獎(jiǎng)勵(lì)的渴望；當(dāng)你沉迷于某個(gè)娛樂活動(dòng)時(shí)，感受一下身體的真實(shí)狀態(tài)。通過有意識(shí)地感知和理解這些內(nèi)部信號(hào)，我們將能夠更好地駕馭自身，做出更符合長期利益的決策，從而活出更健康、更充實(shí)的人生。

[1]. Weber, L.A., Rangel, A., & Barrett, L.F. (2025). The interoceptive origin of reinforcement learning. Trends in Cognitive Sciences.

[2]. Critchley, H.D., & Garfinkel, S.N. (2017). Interoception and emotion. Current Opinion in Psychology.

[3]. OpenAI (2024). Embodied Agent: A Framework for Interoceptive AI. arXiv preprint.

關(guān)于追問nextquestion

天橋腦科學(xué)研究院旗下科學(xué)媒體，旨在以科學(xué)追問為紐帶，深入探究人工智能與人類智能相互融合與促進(jìn)，不斷探索科學(xué)的邊界。歡迎評(píng)論區(qū)留言，或后臺(tái)留言“社群”即可加入社群與我們互動(dòng)。您也可以在后臺(tái)提問，我們將基于追問知識(shí)庫為你做出智能回復(fù)哦~

關(guān)于天橋腦科學(xué)研究院

天橋腦科學(xué)研究院（Tianqiao and Chrissy Chen Institute）是由陳天橋、雒芊芊夫婦出資10億美元?jiǎng)?chuàng)建的世界最大私人腦科學(xué)研究機(jī)構(gòu)之一，圍繞全球化、跨學(xué)科和青年科學(xué)家三大重點(diǎn)，支持腦科學(xué)研究，造福人類。

Chen Institute與華山醫(yī)院、上海市精神衛(wèi)生中心設(shè)立了應(yīng)用神經(jīng)技術(shù)前沿實(shí)驗(yàn)室、人工智能與精神健康前沿實(shí)驗(yàn)室；與加州理工學(xué)院合作成立了加州理工天橋神經(jīng)科學(xué)研究院。

Chen Institute建成了支持腦科學(xué)和人工智能領(lǐng)域研究的生態(tài)系統(tǒng)，項(xiàng)目遍布?xì)W美、亞洲和大洋洲，包括、、、科研型臨床醫(yī)生獎(jiǎng)勵(lì)計(jì)劃、、等。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.