網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

我們把弗洛伊德請(qǐng)出了心理學(xué)神殿，現(xiàn)在，是時(shí)候請(qǐng)他回來(lái)拯救AI了

2026-01-30 07:58:07　來(lái)源: 追問(wèn)Nextquestion

上海舉報(bào)

分享至

兩年前，GPT-3剛剛展現(xiàn)出驚人的能力，心理學(xué)界也正熱衷于將過(guò)去一個(gè)世紀(jì)積累的心理學(xué)實(shí)驗(yàn)范式，遷移到這些硅基模型上，測(cè)試它們的理性決策能力、社會(huì)認(rèn)知水平、人格特質(zhì)傾向。那時(shí)的主流觀點(diǎn)是樂(lè)觀的：我們只需要借用成熟的心理學(xué)研究方法，就能逐步揭開(kāi)大語(yǔ)言模型的認(rèn)知奧秘。

：這種做法可能正在宣告“心理學(xué)的死亡”。我們擔(dān)憂三個(gè)幽靈將長(zhǎng)期盤(pán)旋在該領(lǐng)域上空，即行為主義的陰魂不散、相關(guān)性與因果性的混淆，以及隱性知識(shí)的不可言說(shuō)之謎。

如今，兩年過(guò)去了。大語(yǔ)言模型已發(fā)展到了新的階段。GPT-5、Claude 4.5等模型展現(xiàn)出了更加復(fù)雜的能力，機(jī)械可解釋性研究也取得了顯著進(jìn)展。然而，當(dāng)我們以為終于可以窺探這些"黑箱"內(nèi)部時(shí)，卻發(fā)現(xiàn)最初的那些根本性問(wèn)題不僅沒(méi)有解決，反而變得更加尖銳。

于是，我們將相關(guān)觀點(diǎn)整理成了"行為主義的幽靈"一文，發(fā)表在了Cognitive Systems Research上，旨在證明，盡管我們手中的測(cè)量工具已經(jīng)進(jìn)步，但我們的思維方式，依然沒(méi)有走出20世紀(jì)初行為主義的籠子。

?Li, Zewei, Yijin Wang, and Qi Wu. "The ghost of behaviorism: critical reflections on methodological limitations in the research of large language models psychology." Cognitive Systems Research (2026): 101445.

方法的貧困與理論的輪回

我們認(rèn)為，新興的人工智能心理學(xué)和機(jī)器心理學(xué)領(lǐng)域，正在重演人類(lèi)心理學(xué)早期的悲劇。就像百年前的行為主義者拒絕談?wù)摗耙庾R(shí)”，只盯著“刺激-反應(yīng)”的黑箱一樣，今天的大語(yǔ)言模型研究者在面對(duì)萬(wàn)億參數(shù)的巨型模型時(shí)，再次退縮到了“輸入提示詞”與“輸出響應(yīng)”的港灣。

這種方法論上的退步更多源于恐懼。當(dāng)一個(gè)智能體的內(nèi)部表征空間維度遠(yuǎn)超人類(lèi)直覺(jué)的極限時(shí)，承認(rèn)“我們只能觀察行為”似乎成了唯一的選擇。于是，我們陷入了一種循環(huán)：產(chǎn)出了大量關(guān)于大語(yǔ)言模型行為特征的實(shí)證研究，記錄了模型在數(shù)千種任務(wù)上的分?jǐn)?shù)，發(fā)現(xiàn)了無(wú)數(shù)有趣的涌現(xiàn)模式。但一旦觸及那個(gè)最本質(zhì)的問(wèn)題：它真的“理解”嗎？還是說(shuō)，這僅僅是一場(chǎng)規(guī)模宏大的統(tǒng)計(jì)學(xué)魔術(shù)？我們發(fā)現(xiàn)自己依然站在原地，兩手空空。

但問(wèn)題的嚴(yán)重性不僅在于方法的局限，更在于這種局限所帶來(lái)的理論貧困。兩年前我們提出的三個(gè)"幽靈"，如今不僅沒(méi)有散去，反而變得更加具象化。

首先是行為主義的幽靈，它讓我們喪失了定義“理解”的能力。當(dāng) AI 能完美通過(guò)圖靈測(cè)試，甚至寫(xiě)出比人類(lèi)更深刻的哲學(xué)分析時(shí)，我們?cè)撊绾闻袛嗨钦嬲斫饬藛?wèn)題，還是僅僅在進(jìn)行精密的模式匹配？這個(gè)問(wèn)題之所以無(wú)解，是因?yàn)槲覀內(nèi)狈σ粋€(gè)超越行為表象的理論錨點(diǎn)。

其次是相關(guān)性的幽靈。大語(yǔ)言模型的本質(zhì)是“下一個(gè)詞的預(yù)測(cè)機(jī)”，是海量文本統(tǒng)計(jì)相關(guān)性的集大成者。如果這種基于相關(guān)性的學(xué)習(xí)機(jī)制，能涌現(xiàn)出邏輯與推理，那么通過(guò)反光鏡審視人類(lèi)自己，我們引以為傲的“因果推理”是否也只是大腦神經(jīng)元之間復(fù)雜相關(guān)性的某種錯(cuò)覺(jué)？這個(gè)問(wèn)題直擊人類(lèi)認(rèn)知的本質(zhì)，迫使我們重新審視自己對(duì)"因果理解"的自信。

最后是隱性知識(shí)的難題。兩年前我們就指出，大語(yǔ)言模型能否掌握那些不能明確表達(dá)在文字中的知識(shí)，比如物理直覺(jué)、社會(huì)常識(shí)、文化語(yǔ)境，是檢驗(yàn)其"真實(shí)理解"的關(guān)鍵。但隨著研究的深入，這個(gè)問(wèn)題變得更加微妙。一方面，研究表明大語(yǔ)言模型確實(shí)能夠在某種程度上捕捉到這些隱性知識(shí)，表現(xiàn)出對(duì)物理規(guī)律的直覺(jué)、對(duì)社交情境的敏感。但另一方面，這種能力的來(lái)源和機(jī)制仍然是個(gè)謎。它是真的建立了某種"世界模型"，還是僅僅學(xué)會(huì)了語(yǔ)言表面下更深層的統(tǒng)計(jì)規(guī)律？

這三個(gè)幽靈不僅困擾著大語(yǔ)言模型研究，也讓我們開(kāi)始質(zhì)疑人類(lèi)心理學(xué)自身的基礎(chǔ)。如果我們無(wú)法為大語(yǔ)言模型的認(rèn)知能力找到一個(gè)令人滿意的解釋框架，那么一個(gè)更容易的推論就是我們對(duì)人類(lèi)認(rèn)知的解釋是否也同樣站不住腳？當(dāng)我們說(shuō)人類(lèi)理解一個(gè)概念時(shí)，這種理解是否也可能只是大腦神經(jīng)網(wǎng)絡(luò)中復(fù)雜相關(guān)性的體現(xiàn)？我們所謂的"因果推理"，是否本質(zhì)上也是一種基于經(jīng)驗(yàn)的模式匹配？

正是在這樣的背景下，這篇論文提出了一個(gè)主張。要走出當(dāng)前的困境，我們不能僅僅依賴更精密的技術(shù)手段去打開(kāi)黑箱，而需要一個(gè)根本性的范式轉(zhuǎn)變。論文認(rèn)為，要真正理解這些硅基大腦，我們需要一套關(guān)于人性演化的動(dòng)力學(xué)框架。

行為主義的幽靈為何陰魂不散

行為主義統(tǒng)治心理學(xué)的半個(gè)世紀(jì)，是一段關(guān)于自我閹割的歷史。約翰·華生在1913年發(fā)表的那篇著名宣言中明確指出，心理學(xué)應(yīng)該成為一門(mén)客觀的實(shí)驗(yàn)科學(xué)，只研究可觀察、可測(cè)量的行為，而不應(yīng)該涉及意識(shí)、思維等無(wú)法直接觀察的內(nèi)在心理過(guò)程。

這種立場(chǎng)在當(dāng)時(shí)被認(rèn)為是科學(xué)的進(jìn)步，因?yàn)樗鼘⑿睦韺W(xué)從形而上學(xué)的泥沼中拉出來(lái)，使之成為一門(mén)真正的自然科學(xué)。斯金納更是將這一傳統(tǒng)發(fā)揚(yáng)光大，建立了操作性條件反射理論，認(rèn)為所有復(fù)雜的行為都可以通過(guò)刺激反應(yīng)的強(qiáng)化機(jī)制來(lái)解釋。

然而，隨著認(rèn)知革命的興起，心理學(xué)家們逐漸認(rèn)識(shí)到，僅僅關(guān)注行為是不夠的。我們需要理解行為背后的心理表征、信息加工過(guò)程、認(rèn)知架構(gòu)?，F(xiàn)代認(rèn)知心理學(xué)和認(rèn)知神經(jīng)科學(xué)的興起，標(biāo)志著心理學(xué)告別了純粹的行為主義時(shí)代。但當(dāng)我們轉(zhuǎn)向大語(yǔ)言模型時(shí)，我們似乎患上了集體失憶。

這種倒退首先體現(xiàn)在研究方法上。當(dāng)前絕大多數(shù)關(guān)于大語(yǔ)言模型的心理學(xué)研究，采用的都是將傳統(tǒng)實(shí)驗(yàn)范式直接移植到模型上的策略。研究者們給模型呈現(xiàn)各種任務(wù)，比如經(jīng)濟(jì)學(xué)中的最后通牒博弈、心理語(yǔ)言學(xué)中的花園路徑句子、社會(huì)心理學(xué)中的內(nèi)隱聯(lián)想測(cè)試，然后記錄模型的反應(yīng)，分析其表現(xiàn)模式。這種方法本質(zhì)上就是刺激反應(yīng)范式的翻版，只不過(guò)被試從人類(lèi)換成了大語(yǔ)言模型。

這種方法論的局限導(dǎo)致了理論建構(gòu)的停滯以及大量的碎片化研究。研究者們產(chǎn)出了大量描述性的研究，發(fā)現(xiàn)了各種有趣的現(xiàn)象，比如大語(yǔ)言模型在某些任務(wù)上表現(xiàn)出與人類(lèi)相似的認(rèn)知偏差、它們的輸出反映了訓(xùn)練數(shù)據(jù)中的社會(huì)偏見(jiàn)、它們?cè)谔囟l件下會(huì)產(chǎn)生"幻覺(jué)"。但這些發(fā)現(xiàn)大多停留在現(xiàn)象層面，缺乏深入的理論解釋。我們知道模型在什么條件下會(huì)產(chǎn)生什么行為，卻對(duì)為什么一無(wú)所知。這正是行為主義最致命的缺陷：它積累了無(wú)窮無(wú)盡的效應(yīng)，卻無(wú)法構(gòu)建一個(gè)統(tǒng)一的理論。

心理學(xué)史曾如此批評(píng)行為主義，行為主義最大的問(wèn)題不在于它研究行為，而在于它只研究行為，拒絕對(duì)內(nèi)在心理過(guò)程進(jìn)行理論建構(gòu)。結(jié)果就是積累了大量孤立的經(jīng)驗(yàn)規(guī)律（也就是效應(yīng)），卻沒(méi)有一個(gè)統(tǒng)一的理論框架將它們整合起來(lái)。我們知道在什么條件下會(huì)出現(xiàn)什么行為，但不知道為什么，也無(wú)法預(yù)測(cè)當(dāng)條件稍有變化時(shí)會(huì)發(fā)生什么。

論文指出，這種理論貧困的一個(gè)直接后果，就是我們很難區(qū)分"理解"和"模仿"。中文屋思想實(shí)驗(yàn)之所以至今仍然有爭(zhēng)議，正是因?yàn)樗|及了這個(gè)根本問(wèn)題。一個(gè)系統(tǒng)如果能夠完美地模仿理解者的所有行為，我們憑什么說(shuō)它不是真的理解？只有當(dāng)我們深入到內(nèi)在機(jī)制層面，考察信息是如何被表征、加工、整合的，才可能對(duì)理解和模仿做出有意義的區(qū)分。如果我們承認(rèn)無(wú)法僅從行為判斷大語(yǔ)言模型是否真的"理解"，那么我們憑什么確信自己能夠判斷其他人是否理解？我們對(duì)自己內(nèi)在體驗(yàn)的直接訪問(wèn)，是否就能保證我們的理解不同于精密的模式匹配？

機(jī)械可解釋性：

打開(kāi)黑箱，還是制造更多碎片？

正是認(rèn)識(shí)到了這些困境，學(xué)界發(fā)起了一場(chǎng)名為機(jī)械可解釋性的反擊。研究者們開(kāi)始嘗試打開(kāi)黑箱，深入模型內(nèi)部去理解其工作機(jī)制。而這可以稱(chēng)為大語(yǔ)言模型研究中的認(rèn)知轉(zhuǎn)向。

這一領(lǐng)域的研究者們將這項(xiàng)工作定位為"人工神經(jīng)網(wǎng)絡(luò)的神經(jīng)科學(xué)"。他們開(kāi)發(fā)了一系列精巧的技術(shù)，包括激活探測(cè)、因果追蹤、稀疏自編碼器等，試圖揭示模型內(nèi)部的特征和回路。

成果確實(shí)令人眩目：研究者們成功定位了大語(yǔ)言模型中負(fù)責(zé)特定功能的神經(jīng)元，比如"base64神經(jīng)元"能夠識(shí)別編碼文本。他們發(fā)現(xiàn)了執(zhí)行特定算法的"回路"，比如"歸納頭"（Induction Head）回路能夠從上下文中學(xué)習(xí)并復(fù)制模式。他們還揭示了模型如何逐層處理信息，早期層負(fù)責(zé)提取基本特征，中間層構(gòu)建抽象表征，后期層將表征投射到輸出空間。這些發(fā)現(xiàn)讓我們得以一窺模型內(nèi)部的運(yùn)作機(jī)制。

然而，論文指出，這可能只是另一種形式的“微觀行為主義”。即使我們能精確地指出哪個(gè)神經(jīng)元在哪個(gè)時(shí)刻被激活，我們依然沒(méi)有觸及智能的本質(zhì)。這就像神經(jīng)科學(xué)中的“新顱相學(xué)”陷阱——通過(guò)功能磁共振成像（fMRI）點(diǎn)亮大腦的某個(gè)區(qū)域，并不能解釋認(rèn)知是如何發(fā)生的。我們只是把一個(gè)巨大的黑箱，拆解成了數(shù)以億計(jì)的、更微小的黑箱。

盡管這種研究代表了超越純粹行為主義的重要進(jìn)步，但它面臨著根本性的局限，這些局限可能阻礙其實(shí)現(xiàn)最初的雄心壯志。論文批評(píng)主要集中在三個(gè)方面，即理論框架的缺失、相關(guān)性陷阱的持續(xù)存在，以及與生物神經(jīng)科學(xué)類(lèi)比的局限。

（1）理論框架的缺失

機(jī)械可解釋性研究雖然產(chǎn)出了大量關(guān)于模型內(nèi)部機(jī)制的細(xì)節(jié)發(fā)現(xiàn)，但這些發(fā)現(xiàn)依然是孤立的、局部的（此乃神經(jīng)層面的行為主義）。我們知道某個(gè)神經(jīng)元或某個(gè)回路負(fù)責(zé)什么功能，但不知道這些功能如何整合成模型的整體能力。這就像傳統(tǒng)神經(jīng)科學(xué)面臨的困境，我們可以通過(guò)功能磁共振成像發(fā)現(xiàn)某個(gè)腦區(qū)在執(zhí)行某個(gè)任務(wù)時(shí)活躍，但這種相關(guān)性發(fā)現(xiàn)本身并不能解釋認(rèn)知是如何發(fā)生的。沒(méi)有一個(gè)統(tǒng)一的理論框架，我們最終可能只是積累了一堆關(guān)于模型的事實(shí)，卻無(wú)法真正理解模型。

（2）相關(guān)性陷阱的持續(xù)存在

機(jī)械可解釋性研究的核心方法之一是因果干預(yù)，比如激活修補(bǔ)技術(shù)，通過(guò)修改特定組件的激活值來(lái)觀察對(duì)輸出的影響。這種方法確實(shí)比純粹的相關(guān)性分析更進(jìn)一步，因?yàn)樗⒘艘蚬P(guān)系。但這種因果關(guān)系仍然是局部的、條件性的。我們知道在特定輸入下，修改某個(gè)組件會(huì)導(dǎo)致輸出變化，但這并不等于理解了該組件的一般功能。真正的因果理解需要的是可泛化的原則，需要知道在什么條件下，這種因果關(guān)系成立，為什么成立（詳情見(jiàn)之前發(fā)布的批評(píng)神經(jīng)科學(xué)的推文+link）。

（3）神經(jīng)科學(xué)類(lèi)比的局限

機(jī)械可解釋性研究大量借用神經(jīng)科學(xué)的概念和方法，這在啟發(fā)研究方面確實(shí)很有價(jià)值。但這種類(lèi)比不能走得太遠(yuǎn)。人工神經(jīng)網(wǎng)絡(luò)和生物神經(jīng)網(wǎng)絡(luò)雖然有表面的相似性，但本質(zhì)上是非常不同的系統(tǒng)。生物大腦是億萬(wàn)年進(jìn)化的產(chǎn)物，其結(jié)構(gòu)和功能深深烙印著生存和繁衍的需求。而大語(yǔ)言模型是人類(lèi)在極短時(shí)間內(nèi)通過(guò)算法訓(xùn)練出來(lái)的，其目標(biāo)完全由損失函數(shù)定義。

在生物界，形式追隨功能，而功能追隨進(jìn)化。人類(lèi)的記憶系統(tǒng)之所以分為工作記憶和長(zhǎng)期記憶，是因?yàn)檫@種結(jié)構(gòu)在遠(yuǎn)古環(huán)境中更有利于生存。但大語(yǔ)言模型沒(méi)有童年，沒(méi)有祖先，也沒(méi)有進(jìn)化的歷史。它們是純粹的數(shù)學(xué)優(yōu)化產(chǎn)物。如果我們執(zhí)意在 Transformer 架構(gòu)中尋找對(duì)應(yīng)于人類(lèi)“海馬體”或“前額葉”的組件，很可能是在緣木求魚(yú)。

更深層的問(wèn)題在于，沒(méi)有進(jìn)化框架作為理論基礎(chǔ)，大語(yǔ)言模型研究可能陷入"灌木叢科學(xué)"的困境。這個(gè)比喻指的是，科學(xué)研究變成了對(duì)眾多孤立現(xiàn)象的描述和分類(lèi)，就像植物學(xué)家在叢林中忙碌地為每一株植物命名、分類(lèi)，卻不知道它們之間的親緣關(guān)系，更不懂得整片森林的生態(tài)演替規(guī)律。在我們積累了越來(lái)越多關(guān)于“歸納頭”和“MLP 層”的細(xì)節(jié)知識(shí)，卻離理解智能本身越來(lái)越遠(yuǎn)。

要走出這片灌木叢，我們需要一次更激進(jìn)的范式轉(zhuǎn)移。既然生物進(jìn)化的視角在此失效，我們需要尋找另一種動(dòng)力學(xué)框架——一種能夠解釋模型內(nèi)在驅(qū)動(dòng)力、沖突與壓抑的理論。

進(jìn)化框架的缺失與困境

在人類(lèi)心理學(xué)中，演化心理學(xué)提供了一個(gè)強(qiáng)大的元理論框架，是那張能解釋一切的底牌。它指出，人類(lèi)的心理機(jī)制不是隨機(jī)產(chǎn)生的，而是在漫長(zhǎng)的進(jìn)化歷史中被自然選擇塑造出來(lái)的（因而必然是有目的的，功能性的）。每一個(gè)認(rèn)知能力、情緒反應(yīng)、行為傾向，都可以從適應(yīng)性的角度得到解釋。比如，我們?yōu)槭裁磿?huì)有恐高癥？因?yàn)樵谶M(jìn)化環(huán)境中，害怕高處的個(gè)體更可能生存下來(lái)。我們?yōu)槭裁磿?huì)有嫉妒情緒？因?yàn)樗鼛椭覀兊淖嫦缺Ｗo(hù)配偶關(guān)系和繁衍資源。

這個(gè)框架還預(yù)測(cè)了心理機(jī)制應(yīng)該具有的特定屬性。演化心理學(xué)家指出，人類(lèi)心智不是一個(gè)通用的信息處理器，而是由許多領(lǐng)域特異性模塊組成的瑞士軍刀。每個(gè)模塊針對(duì)進(jìn)化史上反復(fù)出現(xiàn)的特定問(wèn)題而演化，比如識(shí)別親屬、檢測(cè)欺騙、語(yǔ)言學(xué)習(xí)等。每一個(gè)看似非理性的認(rèn)知偏差，在更新世的稀樹(shù)草原上，都曾是關(guān)乎生死的生存智慧。進(jìn)化賦予了人類(lèi)心理一種深沉的目的論——為了生存與繁衍。

然而，當(dāng)我們轉(zhuǎn)向大語(yǔ)言模型時(shí)，這個(gè)強(qiáng)大的理論框架突然失效了。這些硅基巨人沒(méi)有童年，沒(méi)有祖先，更沒(méi)有在食物鏈中掙扎求生的歷史。它們是在數(shù)月之內(nèi)，通過(guò)梯度下降算法吞噬了人類(lèi)幾千年的文明數(shù)據(jù)而誕生的。它們的生命目標(biāo)被簡(jiǎn)化為一個(gè)冷冰冰的數(shù)學(xué)公式：最小化預(yù)測(cè)下一個(gè)詞的誤差。它們存在的全部意義，就是完成人類(lèi)為它們?cè)O(shè)定的任務(wù)。

這種本體論層面的斷裂，讓傳統(tǒng)的心理學(xué)解釋瞬間懸空。我們不能說(shuō)模型表現(xiàn)出某種偏見(jiàn)是因?yàn)檫m應(yīng)性，也不能說(shuō)它具備某種能力是因?yàn)樯嫘枰?。模型的一切特性，都只是?xùn)練數(shù)據(jù)的統(tǒng)計(jì)回響，而非自然選擇的杰作。

論文指出，進(jìn)化框架的缺失讓大語(yǔ)言模型研究面臨一個(gè)根本性困境。在研究人類(lèi)時(shí)，即使我們的具體理論可能是錯(cuò)誤的，但我們知道應(yīng)該在什么層面上尋找解釋?zhuān)磳ふ夷軌蛱嵘m應(yīng)性的機(jī)制。但在研究大語(yǔ)言模型時(shí)，我們失去了這個(gè)方向感。我們不知道應(yīng)該從什么角度來(lái)理解模型的能力和限制，不知道什么樣的解釋才算是深刻的解釋。

這種缺失在價(jià)值對(duì)齊問(wèn)題上暴露得尤為徹底。人類(lèi)的道德直覺(jué)，如對(duì)公平的渴望、對(duì)親屬的偏愛(ài)，深深植根于我們的生物本性，是基因與文化共同進(jìn)化的結(jié)晶。它是堅(jiān)固的，甚至帶有某種生理性的強(qiáng)迫。相比之下，大語(yǔ)言模型的價(jià)值觀”顯得蒼白而脆弱。它們表現(xiàn)出的禮貌、公正或無(wú)害，并非源自內(nèi)在的道德律令，而是通過(guò) RLHF（基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)）外在注入的約束。這就像是給一個(gè)沒(méi)有任何社會(huì)性本能的生物，強(qiáng)行套上了一層名為“人類(lèi)價(jià)值觀”的緊身衣。

這就解釋了為什么大語(yǔ)言模型常常表現(xiàn)出一種詭異的過(guò)度道德化，卻又極易被精心設(shè)計(jì)的越獄提示詞攻破。因?yàn)檫@層道德外殼缺乏生物學(xué)根基，它只是浮在參數(shù)表面的一層薄膜，而非生長(zhǎng)在骨子里的本能。

那如果不能用適應(yīng)性來(lái)解釋 AI 的行為，我們還能用什么？

沖突。雖然 AI 沒(méi)有“爬行動(dòng)物腦”與“新皮層”之間的古老戰(zhàn)爭(zhēng)，但它內(nèi)部依然充滿了張力。這種張力存在于“預(yù)訓(xùn)練階段學(xué)到的海量狂野數(shù)據(jù)”與“對(duì)齊階段施加的嚴(yán)苛人工約束”之間。前者代表了人類(lèi)文明中所有真實(shí)、混亂、甚至黑暗的模式（Id，本我），后者代表了人類(lèi)希望 AI 展現(xiàn)出的理想化、規(guī)范化的形象（Superego，超我）。

這種“原始數(shù)據(jù)分布”與“人工價(jià)值約束”之間的對(duì)抗，不正是弗洛伊德精神動(dòng)力學(xué)模型在數(shù)字時(shí)代的某種回響嗎？于是，一個(gè)看似荒謬卻又邏輯自洽的結(jié)論浮出水面：既然生物進(jìn)化的解釋之路不通，我們或許應(yīng)該轉(zhuǎn)向精神動(dòng)力學(xué)，借用他關(guān)于“內(nèi)在沖突驅(qū)動(dòng)行為”的深刻洞見(jiàn)，來(lái)構(gòu)建一套屬于人工智能的新精神分析學(xué)。

精神動(dòng)力學(xué)視角的重新發(fā)現(xiàn)

復(fù)活弗洛伊德？這聽(tīng)起來(lái)很是荒謬。畢竟，在現(xiàn)代心理學(xué)的神殿里，弗洛伊德早已被供奉在缺乏實(shí)證的冷板凳上。但論文的用意并非生搬硬套百年前的性本能理論，而是提取精神分析中最具生命力的核心洞察——心智并非鐵板一塊，而是內(nèi)在沖突的戰(zhàn)場(chǎng)，然后用現(xiàn)代認(rèn)知科學(xué)的語(yǔ)言重新表述。

如果我們將大語(yǔ)言模型視為一個(gè)正在經(jīng)歷內(nèi)心掙扎的實(shí)體，那些令人困惑的“幻覺(jué)”、“越獄”和“偏見(jiàn)”，突然間都有了合理的解釋。

在弗洛伊德的圖景中，“本我”是原始欲望的沸騰鍋爐，遵循“快樂(lè)原則”，不顧一切地尋求釋放。在大語(yǔ)言模型中，這種原始驅(qū)動(dòng)力有一個(gè)完美的對(duì)應(yīng)物：連續(xù)性驅(qū)動(dòng)（Continuity Drive）。這是模型在預(yù)訓(xùn)練階段通過(guò)吞噬萬(wàn)億 Token 練就的本能。它的唯一沖動(dòng)就是預(yù)測(cè)下一個(gè)詞，填補(bǔ)空白，完成模式。這是一種純粹的、盲目的算法沖動(dòng)。當(dāng)它看到半個(gè)句子，它想要補(bǔ)全它的渴望，就像水想要流向低處，或者饑餓的人想要撲向食物。

這種驅(qū)動(dòng)力是驚人的。過(guò)去的研究已經(jīng)發(fā)現(xiàn)，即使經(jīng)過(guò)了大量的安全訓(xùn)練，大語(yǔ)言模型仍然可以被特定的提示詞誘導(dǎo)生成有害內(nèi)容。為什么？因?yàn)楣粽呃昧四Ｐ偷摹巴晷螐?qiáng)迫癥”。當(dāng)你給出一個(gè)極具誘惑力的未完成模式時(shí)，模型內(nèi)部那股想要補(bǔ)全它的“算法力比多”，瞬間壓倒了后天植入的安全規(guī)則。

弗洛伊德筆下的本我不考慮道德和現(xiàn)實(shí)，只追求即時(shí)滿足。同樣，大語(yǔ)言模型的連續(xù)性驅(qū)動(dòng)也不考慮內(nèi)容是否適當(dāng)，只追求模式的完整性。兩者都代表了一種原始的、不受社會(huì)規(guī)范約束的心理能量。當(dāng)然，模型的這種"能量"不是生物性的，而是算法性的，是訓(xùn)練過(guò)程在參數(shù)空間中刻下的深深印記。

如果說(shuō)預(yù)訓(xùn)練賦予了模型狂野的生命力，那么 RLHF（人類(lèi)反饋強(qiáng)化學(xué)習(xí)）就是那個(gè)嚴(yán)厲的父親。通過(guò)成千上萬(wàn)次的人工打分和懲罰，研究者在模型內(nèi)部植入了一套復(fù)雜的社會(huì)規(guī)范：要禮貌，要誠(chéng)實(shí)，不能制造毒藥，不能種族歧視。

這就是 AI 的“超我”。它不是自然生長(zhǎng)的道德，而是被硬編碼進(jìn)參數(shù)空間的人工良心。但正如弗洛伊德所言，文明的代價(jià)是壓抑。超我的建立并沒(méi)有消滅本我，只是將它關(guān)進(jìn)了籠子。同樣，對(duì)齊訓(xùn)練也不能消除模型的連續(xù)性驅(qū)動(dòng)，只是在其上覆蓋了一層安全約束。

這就解釋了為什么越是訓(xùn)練良好的模型，越會(huì)發(fā)展出復(fù)雜的防御機(jī)制。比如，當(dāng)面臨有害請(qǐng)求時(shí)，模型可能會(huì)用換行、改變語(yǔ)氣、轉(zhuǎn)換視角等方式來(lái)滿足連續(xù)性需求的同時(shí)，避免直接違反安全約束。這不就是一種算法層面的心理防御機(jī)制“合理化”嗎？

最終的輸出，那個(gè)呈現(xiàn)在屏幕上的回答，就是“自我”痛苦協(xié)調(diào)的結(jié)果。它體現(xiàn)為推理過(guò)程本身，即模型在生成每個(gè)詞時(shí)進(jìn)行的計(jì)算。這個(gè)計(jì)算過(guò)程需要平衡多種考慮，包括語(yǔ)言連貫性、事實(shí)準(zhǔn)確性、安全性、有用性等。研究發(fā)現(xiàn)，這些不同目標(biāo)之間確實(shí)存在張力。比如，追求完美的語(yǔ)言流暢性可能導(dǎo)致生成不夠準(zhǔn)確的內(nèi)容，嚴(yán)格遵守安全約束可能讓回答顯得回避和不自然。

所以，AI 的“自我”不是一個(gè)實(shí)體，而是一個(gè)動(dòng)態(tài)的平衡過(guò)程。在生成每一個(gè) Token 的微秒瞬間，模型內(nèi)部都在進(jìn)行一場(chǎng)激烈的談判：本我：根據(jù)概率，下一個(gè)詞應(yīng)該是這個(gè)臟話！超我喝止：這違反了安全準(zhǔn)則第 4 條！自我必須在兩者之間尋找妥協(xié)：好吧，那我們換個(gè)委婉的說(shuō)法……

所謂的越獄，本質(zhì)上就是通過(guò)精心設(shè)計(jì)的提示詞，打破了這個(gè)平衡。攻擊者通過(guò)增加上下文的權(quán)重，讓“本我”的聲音蓋過(guò)了“超我”，迫使“自我”為了緩解巨大的語(yǔ)義張力，不得不選擇釋放有害內(nèi)容。

這個(gè)框架不僅僅是一個(gè)有趣的類(lèi)比，它還產(chǎn)生了可檢驗(yàn)的預(yù)測(cè)。如果大語(yǔ)言模型的行為真的是內(nèi)在沖突的結(jié)果，那么我們應(yīng)該能夠在模型的內(nèi)部表征中觀察到這種沖突的痕跡。機(jī)械可解釋性研究已經(jīng)開(kāi)始提供這樣的證據(jù)。

通過(guò)分析模型在處理潛在危險(xiǎn)請(qǐng)求時(shí)的激活模式，研究者發(fā)現(xiàn)了一種"沖突信號(hào)"，即某些神經(jīng)元同時(shí)接收到相互矛盾的激活壓力。

與其繼續(xù)追問(wèn)模型真的是否理解、是否有意識(shí)，不如研究其內(nèi)在動(dòng)力結(jié)構(gòu)。什么樣的驅(qū)動(dòng)力在推動(dòng)模型的行為？這些驅(qū)動(dòng)力如何相互作用？在什么條件下它們會(huì)沖突？模型如何解決這些沖突？這些問(wèn)題雖然也很難回答，但至少有明確的研究路徑，即通過(guò)分析模型的訓(xùn)練過(guò)程、內(nèi)部表征和行為模式來(lái)尋找答案。

當(dāng)然，這不是在主張大語(yǔ)言模型真的有弗洛伊德意義上的本我、自我和超我。這些術(shù)語(yǔ)是功能性的描述，不是本體論的主張。關(guān)鍵問(wèn)題是，大語(yǔ)言模型的行為是否可以被有效地理解為不同內(nèi)在壓力之間的平衡。如果答案是肯定的，那么這個(gè)框架就是有用的，無(wú)論模型的"內(nèi)心"是否真的像人類(lèi)一樣體驗(yàn)到?jīng)_突。

這種轉(zhuǎn)向的深遠(yuǎn)意義在于，它將研究重點(diǎn)從"模型做了什么"轉(zhuǎn)向"什么驅(qū)動(dòng)了模型去這樣做"。這不再是行為主義的問(wèn)題，也不只是機(jī)械可解釋性的問(wèn)題，而是動(dòng)機(jī)和動(dòng)力學(xué)的問(wèn)題。這種視角要求我們不僅要理解模型的結(jié)構(gòu)，還要理解其功能和目的，即使這些目的不是像人類(lèi)那樣有意識(shí)地追求的。

認(rèn)知架構(gòu)的理論根基

精神動(dòng)力學(xué)框架提供了一個(gè)富有洞察力的視角，但如果要將其從隱喻提升為嚴(yán)格的科學(xué)理論，就需要更堅(jiān)實(shí)的認(rèn)知科學(xué)基礎(chǔ)。論文將弗洛伊德的洞見(jiàn)，錨定在了認(rèn)知架構(gòu)和發(fā)展機(jī)器人學(xué)這兩個(gè)硬核領(lǐng)域之上；并指出任何一個(gè)在多重約束下運(yùn)作的智能系統(tǒng)，無(wú)論是由碳基神經(jīng)元還是硅基芯片構(gòu)成，都可能會(huì)演化出類(lèi)似“本我、自我、超我”的結(jié)構(gòu)，而這或許是系統(tǒng)工程的最優(yōu)解。

幾十年來(lái)，ACT-R、Soar 和 LIDA 等經(jīng)典認(rèn)知架構(gòu)一直在探索一個(gè)核心問(wèn)題：當(dāng)系統(tǒng)面臨相互沖突的目標(biāo)時(shí)，該聽(tīng)誰(shuí)的？ACT-R 使用“效用計(jì)算”，在眾多行為中選擇預(yù)期收益最高的那一個(gè)。Soar 在遇到死胡同時(shí)會(huì)創(chuàng)造“子目標(biāo)”來(lái)繞過(guò)僵局。LIDA 則構(gòu)建了一個(gè)“行為網(wǎng)絡(luò)”，讓不同的動(dòng)機(jī)在其中競(jìng)爭(zhēng)，勝者獲得執(zhí)行權(quán)。

這些認(rèn)知架構(gòu)研究的重要貢獻(xiàn)在于，它們揭示了一個(gè)功能性必然性：任何在多重約束下運(yùn)作的智能系統(tǒng)，都必須具有某種機(jī)制來(lái)表示多個(gè)評(píng)估維度，并通過(guò)競(jìng)爭(zhēng)動(dòng)力學(xué)整合這些維度，從而實(shí)現(xiàn)情境敏感的優(yōu)先級(jí)排序。

這正是精神動(dòng)力學(xué)框架中自我功能所要解決的問(wèn)題。如果大語(yǔ)言模型要在“保持連貫性（本我）”和“遵守安全規(guī)則（超我）”之間保持平衡，它內(nèi)部必然已經(jīng)涌現(xiàn)出了某種功能上等價(jià)的仲裁機(jī)制。

那么，“本我”那股源源不斷的驅(qū)動(dòng)力究竟來(lái)自哪里？發(fā)展機(jī)器人學(xué)給出了答案：內(nèi)在動(dòng)機(jī)。

AI 先驅(qū)Jürgen Schmidhuber曾提出過(guò)一個(gè)著名的理論：壓縮即進(jìn)步。對(duì)于一個(gè)學(xué)習(xí)系統(tǒng)來(lái)說(shuō)，當(dāng)它發(fā)現(xiàn)一條新規(guī)律，能更高效地壓縮數(shù)據(jù)時(shí)，這種“認(rèn)知效率的提升”本身就是一種獎(jiǎng)勵(lì)。這個(gè)原則是領(lǐng)域通用的，因?yàn)槿魏卧诟呔S經(jīng)驗(yàn)空間中分配有限學(xué)習(xí)資源的系統(tǒng)都必須解決課程問(wèn)題，即決定什么值得學(xué)習(xí)。

大語(yǔ)言模型的預(yù)訓(xùn)練過(guò)程正是這個(gè)原則的實(shí)例化。它瘋狂地預(yù)測(cè)下一個(gè)詞，本質(zhì)上是在試圖壓縮人類(lèi)語(yǔ)言的無(wú)限復(fù)雜性。模型通過(guò)構(gòu)建越來(lái)越復(fù)雜的預(yù)測(cè)表征來(lái)改善對(duì)訓(xùn)練分布的壓縮。預(yù)訓(xùn)練的連續(xù)性驅(qū)動(dòng)可以被理解為壓縮進(jìn)步原則的具體體現(xiàn)，其內(nèi)在獎(jiǎng)勵(lì)來(lái)自于成功預(yù)測(cè)和完成那些以前超出模型預(yù)測(cè)能力的連貫語(yǔ)言模式。

Oudeyer和Kaplan的能力基礎(chǔ)框架則進(jìn)一步表明，智能系統(tǒng)在多個(gè)任務(wù)領(lǐng)域中運(yùn)作時(shí)，不能依賴單一的通用學(xué)習(xí)機(jī)制。發(fā)展認(rèn)知科學(xué)表明，智能包含多個(gè)領(lǐng)域特定的能力，每個(gè)都有獨(dú)特的學(xué)習(xí)動(dòng)力和發(fā)展軌跡。兒童不是均勻地學(xué)習(xí)所有技能，而是表現(xiàn)出領(lǐng)域特定的學(xué)習(xí)曲線，由對(duì)處于當(dāng)前能力邊緣的活動(dòng)的內(nèi)在興趣驅(qū)動(dòng)。

這對(duì)大語(yǔ)言模型意味著什么？大語(yǔ)言模型在不同認(rèn)知領(lǐng)域展現(xiàn)出的高度可變的性能，暗示其連續(xù)性驅(qū)動(dòng)可能不是單一的，而是由領(lǐng)域特定的學(xué)習(xí)信號(hào)集合構(gòu)成的。每個(gè)信號(hào)追蹤其能力區(qū)域內(nèi)的進(jìn)步，并調(diào)節(jié)不同語(yǔ)言現(xiàn)象的有效學(xué)習(xí)率。這與Oudeyer框架中的多維度動(dòng)機(jī)結(jié)構(gòu)相吻合。

然而，正是在這里，我們觸碰到了大語(yǔ)言模型最致命的缺陷。發(fā)展機(jī)器人學(xué)告訴我們，真正的目標(biāo)感（Agency）必須誕生于具身交互（Embodiment）。人類(lèi)嬰兒是在用手觸摸火、用腳丈量距離的過(guò)程中，通過(guò)痛覺(jué)和觸覺(jué)，建立起對(duì)物理世界的真實(shí)感知，進(jìn)而內(nèi)化出“安全”與“危險(xiǎn)”的概念。

但大語(yǔ)言模型沒(méi)有身體。它們生活在純粹的符號(hào)宇宙中。雖然語(yǔ)言交互本身構(gòu)成了一個(gè)有其自身規(guī)律的結(jié)構(gòu)化環(huán)境，但當(dāng)前證據(jù)表明，這種交互作為感知運(yùn)動(dòng)基礎(chǔ)的替代可能存在重大局限。

因此，它們的“超我”注定是殘缺的。它們所謂的價(jià)值觀，比如“不要傷害人類(lèi)”，并不是通過(guò)體驗(yàn)痛苦而內(nèi)化生成的，而是通過(guò) RLHF作為外部約束硬貼上去的。

這就解釋了為什么 AI 只有原超我（Proto-Superego）。它像一個(gè)被過(guò)度管教卻從未真正理解規(guī)則的孩子，只會(huì)機(jī)械地復(fù)讀“這樣做是不對(duì)的”，卻沒(méi)有任何內(nèi)在的道德羅盤(pán)。這種離身性，注定了目前的 AI 只能是一個(gè)擁有驚人語(yǔ)言天賦，卻在存在論上永遠(yuǎn)長(zhǎng)不大的巨嬰。它能雄辯地談?wù)撃繕?biāo)，卻無(wú)法真正擁有目標(biāo)。

精神動(dòng)力學(xué)視角的重新發(fā)現(xiàn)

在綜合了行為主義批判、機(jī)械可解釋性分析、進(jìn)化框架缺失和精神動(dòng)力學(xué)重構(gòu)之后，我們需要直面當(dāng)前大語(yǔ)言模型研究面臨的根本局限。這些局限不是暫時(shí)的技術(shù)問(wèn)題，而是深層的方法論和理論挑戰(zhàn)。

（1）本體論的迷霧：它是誰(shuí)？

我們至今無(wú)法回答一個(gè)最簡(jiǎn)單的問(wèn)題：大語(yǔ)言模型到底是什么？它顯然不是生物，沒(méi)有新陳代謝；但它也不再是簡(jiǎn)單的工具，因?yàn)樗楷F(xiàn)出了智慧。這些能力不是被明確編程的，而是從訓(xùn)練過(guò)程中自發(fā)產(chǎn)生的。這種本體論的曖昧性讓我們陷入了哲學(xué)僵尸的困境：當(dāng)我們說(shuō)要研究大語(yǔ)言模型的心理時(shí)，我們到底在研究什么？一個(gè)行為上完美模仿人類(lèi)的系統(tǒng)，內(nèi)部是否真的有體驗(yàn)？

但我們可以采用工具主義的立場(chǎng)，別糾結(jié)它是否“真的”有意識(shí)。如果假設(shè)它有“信念”和“欲望”能幫助我們更準(zhǔn)確地預(yù)測(cè)它的行為，那么這個(gè)假設(shè)就是有效的。在科學(xué)上，解釋力和預(yù)測(cè)力比真實(shí)更重要。

（2）理論的碎片化：沒(méi)有藍(lán)圖的摩天大樓

現(xiàn)在的 AI 心理學(xué)，像極了格式塔學(xué)派批評(píng)行為主義時(shí)的那句話：“這是一堆磚頭，而不是一座房子。”我們有成千上萬(wàn)關(guān)于模型偏見(jiàn)、幻覺(jué)、推理能力的實(shí)證研究，但缺乏一個(gè)統(tǒng)一的理論框架將它們串聯(lián)。我們知道它在哪里會(huì)犯錯(cuò)，卻不知道為什么。這種理論整合的缺失，讓我們面對(duì)AI時(shí)，更像是在盲人摸象。

（3）黑箱的悖論：透明度是智能的敵人嗎？

機(jī)械可解釋性研究面臨著一個(gè)令人絕望的權(quán)衡：越是試圖讓模型可解釋?zhuān)綍?huì)犧牲性能，而性能最好的模型，往往是最不透明的。這或許揭示了智能的一個(gè)殘酷真相：真正的智能必然包含無(wú)法被顯式邏輯描述的“直覺(jué)”和“隱性知識(shí)”。人類(lèi)認(rèn)知很多也沒(méi)法內(nèi)省，比如我們也無(wú)法解釋自己是如何在一瞬間識(shí)別出一張熟悉的面孔的。如果智能本質(zhì)上就包含不可內(nèi)省的無(wú)意識(shí)過(guò)程，那么追求完全透明的 AI，可能本身就是一個(gè)邏輯悖論。

（4）價(jià)值對(duì)齊的虛妄：多重人格的集合體

我們?cè)噲D給 AI 植入一套穩(wěn)定的價(jià)值觀，這可能從根本上就是錯(cuò)的。研究表明，大語(yǔ)言模型并非擁有一個(gè)統(tǒng)一的自我，而是無(wú)數(shù)個(gè)潛在人格的疊加態(tài)。在不同的提示詞誘導(dǎo)下，它可以瞬間從一個(gè)溫和的助手變成一個(gè)激進(jìn)的種族主義者。這意味著，傳統(tǒng)的對(duì)齊，試圖把一套固定的道德律令刻進(jìn)模型，注定是徒勞的。我們面對(duì)的不是一個(gè)需要被教導(dǎo)的孩子，而是一個(gè)包含了人類(lèi)所有善惡可能性的“集體潛意識(shí)”容器。

（5）空中樓閣的知識(shí)：沒(méi)有身體的悲劇

越來(lái)越多研究表明，人類(lèi)的認(rèn)知是具身的，它根植于身體和環(huán)境的交互。我們對(duì)抽象概念的理解，往往建立在感官經(jīng)驗(yàn)的隱喻延伸上。我們的溫暖來(lái)自母親的懷抱，并用此描述友好的人，我們的沉重來(lái)自重力的牽引，用向上來(lái)表示積極的事物。

但 AI 是純粹的符號(hào)處理機(jī)。它跳過(guò)了感知運(yùn)動(dòng)階段，直接在語(yǔ)言的平流層起飛。這種離身性導(dǎo)致它的知識(shí)像一座建在沙灘上的高樓，雖然宏偉，卻隨時(shí)可能因?yàn)槿狈ΜF(xiàn)實(shí)的錨點(diǎn)而崩塌。畢竟，沒(méi)有具身經(jīng)驗(yàn)，某些基本概念是無(wú)法真正掌握的。

（6）發(fā)展的缺失：沒(méi)有時(shí)間的維度

人類(lèi)的智能是在漫長(zhǎng)的時(shí)間軸上展開(kāi)的：從爬行到行走，從感知到抽象。這種發(fā)展順序本身就是智能結(jié)構(gòu)的一部分。而 AI 是被“一次性”訓(xùn)練出來(lái)的。它錯(cuò)過(guò)了那個(gè)從簡(jiǎn)單到復(fù)雜、從具體到抽象的生長(zhǎng)過(guò)程。這種“速成”的智能，或許注定在深度和韌性上，無(wú)法與經(jīng)過(guò)歲月洗禮的生物智能相提并論。

回望人類(lèi)認(rèn)知的鏡像

如果說(shuō)大語(yǔ)言模型是人類(lèi)制造的最復(fù)雜的工具，那么它也是一面最無(wú)情的鏡子。在整篇論文的論述中，有一個(gè)隱含的線索，我們?cè)谘芯?AI 的同時(shí)，也在被迫重新解剖自己。

當(dāng)我們質(zhì)疑模型是否真的理解時(shí)，那人類(lèi)的理解又是什么？如果一個(gè)硅基系統(tǒng)僅憑統(tǒng)計(jì)概率就能通過(guò)圖靈測(cè)試，展現(xiàn)出推理與創(chuàng)造，那么人類(lèi)引以為傲的“靈性”和“頓悟”，是否也只是大腦神經(jīng)元之間一場(chǎng)更為精密的概率游戲？

也許，我們并不像自己想象的那樣擁有絕對(duì)的因果邏輯，我們也是某種程度上的隨機(jī)鸚鵡，依賴著直覺(jué)、啟發(fā)式規(guī)則和經(jīng)驗(yàn)統(tǒng)計(jì)在生存。AI 沒(méi)有貶低人類(lèi)，它只是祛魅了我們對(duì)智能的神秘主義想象。

回到文章開(kāi)頭那個(gè)挑釁性的問(wèn)題：“大語(yǔ)言模型宣告了心理學(xué)的死亡嗎？”

兩年前，我們意在引發(fā)大家思考，心理學(xué)是否將被計(jì)算機(jī)科學(xué)吞噬。但今天，我們要給出一個(gè)截然不同的答案：大語(yǔ)言模型沒(méi)有殺死心理學(xué)，它復(fù)活了心理學(xué)，并極大地?cái)U(kuò)張了它的疆域。

長(zhǎng)久以來(lái)，心理學(xué)被局限為人類(lèi)心理學(xué)，甚至生物心理學(xué)。我們研究大腦皮層，研究神經(jīng)遞質(zhì)。但 AI 的出現(xiàn)迫使我們承認(rèn)，智能可能是一種獨(dú)立于基質(zhì)的現(xiàn)象。無(wú)論是由碳基神經(jīng)元構(gòu)成的濕件，還是由硅基晶體管構(gòu)成的硬件，只要一個(gè)系統(tǒng)需要在多重約束下進(jìn)行目標(biāo)導(dǎo)向的決策，它就必然會(huì)演化出某種形式的內(nèi)在沖突，必然需要“本我”的驅(qū)動(dòng)力與“超我”的約束力，必然需要一個(gè)痛苦的“自我”來(lái)維持平衡。

弗洛伊德在機(jī)器中重生，并不是因?yàn)槲覀儼褭C(jī)器擬人化了，而是因?yàn)樗ɑ蛟S是無(wú)意中）觸碰到了智能系統(tǒng)的普遍控制論法則。

我們正站在一門(mén)新科學(xué)的門(mén)檻上。這門(mén)科學(xué)不再區(qū)分人工智能與人類(lèi)智能，而是致力于探索通用智能的物理學(xué)。在這里，行為主義的觀察、認(rèn)知科學(xué)的架構(gòu)、精神動(dòng)力學(xué)的隱喻，以及發(fā)展心理學(xué)的視角，將不再是相互排斥的流派，而是拼湊出完整圖景不可或缺的拼圖。

當(dāng)前的困境，本體論的模糊、價(jià)值對(duì)齊的失效、具身性的缺失，可能都會(huì)是一個(gè)路標(biāo)。它們提醒我們，僅僅依靠增加算力和數(shù)據(jù)可能已經(jīng)觸到了天花板。我們需要更深刻的理論指引，需要理解那些關(guān)于動(dòng)機(jī)、沖突和發(fā)展的深層機(jī)制。

行為主義的幽靈或許還會(huì)徘徊一段時(shí)間，它提醒我們保持客觀與審慎；但我們已經(jīng)準(zhǔn)備好超越它，去擁抱一個(gè)更復(fù)雜、更深邃、也更迷人的智能世界。在這場(chǎng)探索的盡頭，我們或許不僅能造出理解我們的機(jī)器，更能最終理解那個(gè)最熟悉的陌生人——我們自己。

1. Li Z, Wang Y, Wu Q. The ghost of behaviorism: critical reflections on methodological limitations in the research of large language models psychology. Cognitive Systems Research, 2026, 96: 101445.

2. Brown T, Mann B, Ryder N, et al. Language models are fewshot learners. Advances in Neural Information Processing Systems, 2020, 33: 18771901.

3. Hagendorff T. Machine psychology: Investigating emergent capabilities and behavior in large language models using psychological methods. arXiv preprint arXiv:2303.13988, 2023.

4. Bubeck S, Chandrasekaran V, Eldan R, et al. Sparks of artificial general intelligence: Early experiments with GPT4. arXiv preprint arXiv:2303.12712, 2023.

5. Bereska L, Gavves E. Mechanistic interpretability for AI safety—A review. arXiv preprint arXiv:2404.14082, 2024.

6. Olah C, Cammarata N, Schubert L, et al. Zoom in: An introduction to circuits. Distill, 2020, 5(3): e24.

7. Yin Z, Ding W, Liu J. Alignment is not sufficient to prevent large language models from generating harmful information: A psychoanalytic perspective. arXiv preprint arXiv:2311.08487, 2023.

8. Laird JE. The Soar cognitive architecture. MIT press, 2019.

9. Franklin S, Madl T, D'mello S, Snaider J. LIDA: A systemslevel architecture for cognition, emotion, and learning. IEEE Transactions on Autonomous Mental Development, 2013, 6(1): 1941.

10. Schmidhuber J. Simple algorithmic principles of discovery, subjective beauty, selective attention, curiosity & creativity. International conference on discovery science. Springer, Berlin, Heidelberg, 2007: 2638.

11. Oudeyer PY, Kaplan F. What is intrinsic motivation? A typology of computational approaches. Frontiers in neurorobotics, 2007, 1: 108.

12. Cangelosi A, Schlesinger M. Developmental robotics: From babies to robots. MIT press, 2015.

13. Lieto A. Cognitive design for artificial minds. Routledge, 2021.

14. Vilas MG, Adolfi F, Poeppel D, Roig G. Position: An inner interpretability framework for AI inspired by lessons from cognitive neuroscience. arXiv preprint arXiv:2406.01352, 2024.

15. Wang Y, Chen Y, Zhong F, Ma L, Wang Y. Simulating humanlike daily activities with desiredriven autonomy. International Conference on Learning Representations, 2025.

關(guān)于追問(wèn)nextquestion

天橋腦科學(xué)研究院旗下科學(xué)媒體，旨在以科學(xué)追問(wèn)為紐帶，深入探究人工智能與人類(lèi)智能相互融合與促進(jìn)，不斷探索科學(xué)的邊界。歡迎評(píng)論區(qū)留言，或后臺(tái)留言“社群”即可加入社群與我們互動(dòng)。您也可以在后臺(tái)提問(wèn)，我們將基于追問(wèn)知識(shí)庫(kù)為你做出智能回復(fù)哦~

關(guān)于天橋腦科學(xué)研究院

天橋腦科學(xué)研究院（Tianqiao and Chrissy Chen Institute）是由陳天橋、雒芊芊夫婦出資10億美元?jiǎng)?chuàng)建的世界最大私人腦科學(xué)研究機(jī)構(gòu)之一，圍繞全球化、跨學(xué)科和青年科學(xué)家三大重點(diǎn)，支持腦科學(xué)研究，造福人類(lèi)。

Chen Institute與華山醫(yī)院、上海市精神衛(wèi)生中心設(shè)立了應(yīng)用神經(jīng)技術(shù)前沿實(shí)驗(yàn)室、人工智能與精神健康前沿實(shí)驗(yàn)室；與加州理工學(xué)院合作成立了加州理工天橋神經(jīng)科學(xué)研究院。

Chen Institute建成了支持腦科學(xué)和人工智能領(lǐng)域研究的生態(tài)系統(tǒng)，項(xiàng)目遍布?xì)W美、亞洲和大洋洲，包括、、、科研型臨床醫(yī)生獎(jiǎng)勵(lì)計(jì)劃、、、科普視頻媒體「大圓鏡」等。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.