国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

我們把弗洛伊德請(qǐng)出了心理學(xué)神殿,現(xiàn)在,是時(shí)候請(qǐng)他回來(lái)拯救AI了

0
分享至


兩年前,GPT-3剛剛展現(xiàn)出驚人的能力,心理學(xué)界也正熱衷于將過(guò)去一個(gè)世紀(jì)積累的心理學(xué)實(shí)驗(yàn)范式,遷移到這些硅基模型上,測(cè)試它們的理性決策能力、社會(huì)認(rèn)知水平、人格特質(zhì)傾向。那時(shí)的主流觀點(diǎn)是樂(lè)觀的:我們只需要借用成熟的心理學(xué)研究方法,就能逐步揭開(kāi)大語(yǔ)言模型的認(rèn)知奧秘。

:這種做法可能正在宣告“心理學(xué)的死亡”。我們擔(dān)憂三個(gè)幽靈將長(zhǎng)期盤(pán)旋在該領(lǐng)域上空,即行為主義的陰魂不散、相關(guān)性與因果性的混淆,以及隱性知識(shí)的不可言說(shuō)之謎。


如今,兩年過(guò)去了。大語(yǔ)言模型已發(fā)展到了新的階段。GPT-5、Claude 4.5等模型展現(xiàn)出了更加復(fù)雜的能力,機(jī)械可解釋性研究也取得了顯著進(jìn)展。然而,當(dāng)我們以為終于可以窺探這些"黑箱"內(nèi)部時(shí),卻發(fā)現(xiàn)最初的那些根本性問(wèn)題不僅沒(méi)有解決,反而變得更加尖銳。

于是,我們將相關(guān)觀點(diǎn)整理成了"行為主義的幽靈"一文,發(fā)表在了Cognitive Systems Research上,旨在證明,盡管我們手中的測(cè)量工具已經(jīng)進(jìn)步,但我們的思維方式,依然沒(méi)有走出20世紀(jì)初行為主義的籠子。


?Li, Zewei, Yijin Wang, and Qi Wu. "The ghost of behaviorism: critical reflections on methodological limitations in the research of large language models psychology." Cognitive Systems Research (2026): 101445.


方法的貧困與理論的輪回

我們認(rèn)為,新興的人工智能心理學(xué)和機(jī)器心理學(xué)領(lǐng)域,正在重演人類(lèi)心理學(xué)早期的悲劇。就像百年前的行為主義者拒絕談?wù)摗耙庾R(shí)”,只盯著“刺激-反應(yīng)”的黑箱一樣,今天的大語(yǔ)言模型研究者在面對(duì)萬(wàn)億參數(shù)的巨型模型時(shí),再次退縮到了“輸入提示詞”與“輸出響應(yīng)”的港灣。

這種方法論上的退步更多源于恐懼。當(dāng)一個(gè)智能體的內(nèi)部表征空間維度遠(yuǎn)超人類(lèi)直覺(jué)的極限時(shí),承認(rèn)“我們只能觀察行為”似乎成了唯一的選擇。于是,我們陷入了一種循環(huán):產(chǎn)出了大量關(guān)于大語(yǔ)言模型行為特征的實(shí)證研究,記錄了模型在數(shù)千種任務(wù)上的分?jǐn)?shù),發(fā)現(xiàn)了無(wú)數(shù)有趣的涌現(xiàn)模式。但一旦觸及那個(gè)最本質(zhì)的問(wèn)題:它真的“理解”嗎?還是說(shuō),這僅僅是一場(chǎng)規(guī)模宏大的統(tǒng)計(jì)學(xué)魔術(shù)?我們發(fā)現(xiàn)自己依然站在原地,兩手空空。

但問(wèn)題的嚴(yán)重性不僅在于方法的局限,更在于這種局限所帶來(lái)的理論貧困。兩年前我們提出的三個(gè)"幽靈",如今不僅沒(méi)有散去,反而變得更加具象化。

首先是行為主義的幽靈,它讓我們喪失了定義“理解”的能力。當(dāng) AI 能完美通過(guò)圖靈測(cè)試,甚至寫(xiě)出比人類(lèi)更深刻的哲學(xué)分析時(shí),我們?cè)撊绾闻袛嗨钦嬲斫饬藛?wèn)題,還是僅僅在進(jìn)行精密的模式匹配?這個(gè)問(wèn)題之所以無(wú)解,是因?yàn)槲覀內(nèi)狈σ粋€(gè)超越行為表象的理論錨點(diǎn)。

其次是相關(guān)性的幽靈。大語(yǔ)言模型的本質(zhì)是“下一個(gè)詞的預(yù)測(cè)機(jī)”,是海量文本統(tǒng)計(jì)相關(guān)性的集大成者。如果這種基于相關(guān)性的學(xué)習(xí)機(jī)制,能涌現(xiàn)出邏輯與推理,那么通過(guò)反光鏡審視人類(lèi)自己,我們引以為傲的“因果推理”是否也只是大腦神經(jīng)元之間復(fù)雜相關(guān)性的某種錯(cuò)覺(jué)?這個(gè)問(wèn)題直擊人類(lèi)認(rèn)知的本質(zhì),迫使我們重新審視自己對(duì)"因果理解"的自信。

最后是隱性知識(shí)的難題。兩年前我們就指出,大語(yǔ)言模型能否掌握那些不能明確表達(dá)在文字中的知識(shí),比如物理直覺(jué)、社會(huì)常識(shí)、文化語(yǔ)境,是檢驗(yàn)其"真實(shí)理解"的關(guān)鍵。但隨著研究的深入,這個(gè)問(wèn)題變得更加微妙。一方面,研究表明大語(yǔ)言模型確實(shí)能夠在某種程度上捕捉到這些隱性知識(shí),表現(xiàn)出對(duì)物理規(guī)律的直覺(jué)、對(duì)社交情境的敏感。但另一方面,這種能力的來(lái)源和機(jī)制仍然是個(gè)謎。它是真的建立了某種"世界模型",還是僅僅學(xué)會(huì)了語(yǔ)言表面下更深層的統(tǒng)計(jì)規(guī)律?

這三個(gè)幽靈不僅困擾著大語(yǔ)言模型研究,也讓我們開(kāi)始質(zhì)疑人類(lèi)心理學(xué)自身的基礎(chǔ)。如果我們無(wú)法為大語(yǔ)言模型的認(rèn)知能力找到一個(gè)令人滿意的解釋框架,那么一個(gè)更容易的推論就是我們對(duì)人類(lèi)認(rèn)知的解釋是否也同樣站不住腳?當(dāng)我們說(shuō)人類(lèi)理解一個(gè)概念時(shí),這種理解是否也可能只是大腦神經(jīng)網(wǎng)絡(luò)中復(fù)雜相關(guān)性的體現(xiàn)?我們所謂的"因果推理",是否本質(zhì)上也是一種基于經(jīng)驗(yàn)的模式匹配?

正是在這樣的背景下,這篇論文提出了一個(gè)主張。要走出當(dāng)前的困境,我們不能僅僅依賴更精密的技術(shù)手段去打開(kāi)黑箱,而需要一個(gè)根本性的范式轉(zhuǎn)變。論文認(rèn)為,要真正理解這些硅基大腦,我們需要一套關(guān)于人性演化的動(dòng)力學(xué)框架。


行為主義的幽靈為何陰魂不散

行為主義統(tǒng)治心理學(xué)的半個(gè)世紀(jì),是一段關(guān)于自我閹割的歷史。約翰·華生在1913年發(fā)表的那篇著名宣言中明確指出,心理學(xué)應(yīng)該成為一門(mén)客觀的實(shí)驗(yàn)科學(xué),只研究可觀察、可測(cè)量的行為,而不應(yīng)該涉及意識(shí)、思維等無(wú)法直接觀察的內(nèi)在心理過(guò)程。

這種立場(chǎng)在當(dāng)時(shí)被認(rèn)為是科學(xué)的進(jìn)步,因?yàn)樗鼘⑿睦韺W(xué)從形而上學(xué)的泥沼中拉出來(lái),使之成為一門(mén)真正的自然科學(xué)。斯金納更是將這一傳統(tǒng)發(fā)揚(yáng)光大,建立了操作性條件反射理論,認(rèn)為所有復(fù)雜的行為都可以通過(guò)刺激反應(yīng)的強(qiáng)化機(jī)制來(lái)解釋。

然而,隨著認(rèn)知革命的興起,心理學(xué)家們逐漸認(rèn)識(shí)到,僅僅關(guān)注行為是不夠的。我們需要理解行為背后的心理表征、信息加工過(guò)程、認(rèn)知架構(gòu)?,F(xiàn)代認(rèn)知心理學(xué)和認(rèn)知神經(jīng)科學(xué)的興起,標(biāo)志著心理學(xué)告別了純粹的行為主義時(shí)代。但當(dāng)我們轉(zhuǎn)向大語(yǔ)言模型時(shí),我們似乎患上了集體失憶。

這種倒退首先體現(xiàn)在研究方法上。當(dāng)前絕大多數(shù)關(guān)于大語(yǔ)言模型的心理學(xué)研究,采用的都是將傳統(tǒng)實(shí)驗(yàn)范式直接移植到模型上的策略。研究者們給模型呈現(xiàn)各種任務(wù),比如經(jīng)濟(jì)學(xué)中的最后通牒博弈、心理語(yǔ)言學(xué)中的花園路徑句子、社會(huì)心理學(xué)中的內(nèi)隱聯(lián)想測(cè)試,然后記錄模型的反應(yīng),分析其表現(xiàn)模式。這種方法本質(zhì)上就是刺激反應(yīng)范式的翻版,只不過(guò)被試從人類(lèi)換成了大語(yǔ)言模型。

這種方法論的局限導(dǎo)致了理論建構(gòu)的停滯以及大量的碎片化研究。研究者們產(chǎn)出了大量描述性的研究,發(fā)現(xiàn)了各種有趣的現(xiàn)象,比如大語(yǔ)言模型在某些任務(wù)上表現(xiàn)出與人類(lèi)相似的認(rèn)知偏差、它們的輸出反映了訓(xùn)練數(shù)據(jù)中的社會(huì)偏見(jiàn)、它們?cè)谔囟l件下會(huì)產(chǎn)生"幻覺(jué)"。但這些發(fā)現(xiàn)大多停留在現(xiàn)象層面,缺乏深入的理論解釋。我們知道模型在什么條件下會(huì)產(chǎn)生什么行為,卻對(duì)為什么一無(wú)所知。這正是行為主義最致命的缺陷:它積累了無(wú)窮無(wú)盡的效應(yīng),卻無(wú)法構(gòu)建一個(gè)統(tǒng)一的理論。

心理學(xué)史曾如此批評(píng)行為主義,行為主義最大的問(wèn)題不在于它研究行為,而在于它只研究行為,拒絕對(duì)內(nèi)在心理過(guò)程進(jìn)行理論建構(gòu)。結(jié)果就是積累了大量孤立的經(jīng)驗(yàn)規(guī)律(也就是效應(yīng)),卻沒(méi)有一個(gè)統(tǒng)一的理論框架將它們整合起來(lái)。我們知道在什么條件下會(huì)出現(xiàn)什么行為,但不知道為什么,也無(wú)法預(yù)測(cè)當(dāng)條件稍有變化時(shí)會(huì)發(fā)生什么。

論文指出,這種理論貧困的一個(gè)直接后果,就是我們很難區(qū)分"理解"和"模仿"。中文屋思想實(shí)驗(yàn)之所以至今仍然有爭(zhēng)議,正是因?yàn)樗|及了這個(gè)根本問(wèn)題。一個(gè)系統(tǒng)如果能夠完美地模仿理解者的所有行為,我們憑什么說(shuō)它不是真的理解?只有當(dāng)我們深入到內(nèi)在機(jī)制層面,考察信息是如何被表征、加工、整合的,才可能對(duì)理解和模仿做出有意義的區(qū)分。如果我們承認(rèn)無(wú)法僅從行為判斷大語(yǔ)言模型是否真的"理解",那么我們憑什么確信自己能夠判斷其他人是否理解?我們對(duì)自己內(nèi)在體驗(yàn)的直接訪問(wèn),是否就能保證我們的理解不同于精密的模式匹配?


機(jī)械可解釋性:

打開(kāi)黑箱,還是制造更多碎片?

正是認(rèn)識(shí)到了這些困境,學(xué)界發(fā)起了一場(chǎng)名為機(jī)械可解釋性的反擊。研究者們開(kāi)始嘗試打開(kāi)黑箱,深入模型內(nèi)部去理解其工作機(jī)制。而這可以稱(chēng)為大語(yǔ)言模型研究中的認(rèn)知轉(zhuǎn)向。

這一領(lǐng)域的研究者們將這項(xiàng)工作定位為"人工神經(jīng)網(wǎng)絡(luò)的神經(jīng)科學(xué)"。他們開(kāi)發(fā)了一系列精巧的技術(shù),包括激活探測(cè)、因果追蹤、稀疏自編碼器等,試圖揭示模型內(nèi)部的特征和回路。

成果確實(shí)令人眩目:研究者們成功定位了大語(yǔ)言模型中負(fù)責(zé)特定功能的神經(jīng)元,比如"base64神經(jīng)元"能夠識(shí)別編碼文本。他們發(fā)現(xiàn)了執(zhí)行特定算法的"回路",比如"歸納頭"(Induction Head)回路能夠從上下文中學(xué)習(xí)并復(fù)制模式。他們還揭示了模型如何逐層處理信息,早期層負(fù)責(zé)提取基本特征,中間層構(gòu)建抽象表征,后期層將表征投射到輸出空間。這些發(fā)現(xiàn)讓我們得以一窺模型內(nèi)部的運(yùn)作機(jī)制。

然而,論文指出,這可能只是另一種形式的“微觀行為主義”。即使我們能精確地指出哪個(gè)神經(jīng)元在哪個(gè)時(shí)刻被激活,我們依然沒(méi)有觸及智能的本質(zhì)。這就像神經(jīng)科學(xué)中的“新顱相學(xué)”陷阱——通過(guò)功能磁共振成像(fMRI)點(diǎn)亮大腦的某個(gè)區(qū)域,并不能解釋認(rèn)知是如何發(fā)生的。我們只是把一個(gè)巨大的黑箱,拆解成了數(shù)以億計(jì)的、更微小的黑箱。

盡管這種研究代表了超越純粹行為主義的重要進(jìn)步,但它面臨著根本性的局限,這些局限可能阻礙其實(shí)現(xiàn)最初的雄心壯志。論文批評(píng)主要集中在三個(gè)方面,即理論框架的缺失、相關(guān)性陷阱的持續(xù)存在,以及與生物神經(jīng)科學(xué)類(lèi)比的局限。

(1)理論框架的缺失

機(jī)械可解釋性研究雖然產(chǎn)出了大量關(guān)于模型內(nèi)部機(jī)制的細(xì)節(jié)發(fā)現(xiàn),但這些發(fā)現(xiàn)依然是孤立的、局部的(此乃神經(jīng)層面的行為主義)。我們知道某個(gè)神經(jīng)元或某個(gè)回路負(fù)責(zé)什么功能,但不知道這些功能如何整合成模型的整體能力。這就像傳統(tǒng)神經(jīng)科學(xué)面臨的困境,我們可以通過(guò)功能磁共振成像發(fā)現(xiàn)某個(gè)腦區(qū)在執(zhí)行某個(gè)任務(wù)時(shí)活躍,但這種相關(guān)性發(fā)現(xiàn)本身并不能解釋認(rèn)知是如何發(fā)生的。沒(méi)有一個(gè)統(tǒng)一的理論框架,我們最終可能只是積累了一堆關(guān)于模型的事實(shí),卻無(wú)法真正理解模型。

(2)相關(guān)性陷阱的持續(xù)存在

機(jī)械可解釋性研究的核心方法之一是因果干預(yù),比如激活修補(bǔ)技術(shù),通過(guò)修改特定組件的激活值來(lái)觀察對(duì)輸出的影響。這種方法確實(shí)比純粹的相關(guān)性分析更進(jìn)一步,因?yàn)樗⒘艘蚬P(guān)系。但這種因果關(guān)系仍然是局部的、條件性的。我們知道在特定輸入下,修改某個(gè)組件會(huì)導(dǎo)致輸出變化,但這并不等于理解了該組件的一般功能。真正的因果理解需要的是可泛化的原則,需要知道在什么條件下,這種因果關(guān)系成立,為什么成立(詳情見(jiàn)之前發(fā)布的批評(píng)神經(jīng)科學(xué)的推文+link)。

(3)神經(jīng)科學(xué)類(lèi)比的局限

機(jī)械可解釋性研究大量借用神經(jīng)科學(xué)的概念和方法,這在啟發(fā)研究方面確實(shí)很有價(jià)值。但這種類(lèi)比不能走得太遠(yuǎn)。人工神經(jīng)網(wǎng)絡(luò)和生物神經(jīng)網(wǎng)絡(luò)雖然有表面的相似性,但本質(zhì)上是非常不同的系統(tǒng)。生物大腦是億萬(wàn)年進(jìn)化的產(chǎn)物,其結(jié)構(gòu)和功能深深烙印著生存和繁衍的需求。而大語(yǔ)言模型是人類(lèi)在極短時(shí)間內(nèi)通過(guò)算法訓(xùn)練出來(lái)的,其目標(biāo)完全由損失函數(shù)定義。

在生物界,形式追隨功能,而功能追隨進(jìn)化。人類(lèi)的記憶系統(tǒng)之所以分為工作記憶和長(zhǎng)期記憶,是因?yàn)檫@種結(jié)構(gòu)在遠(yuǎn)古環(huán)境中更有利于生存。但大語(yǔ)言模型沒(méi)有童年,沒(méi)有祖先,也沒(méi)有進(jìn)化的歷史。它們是純粹的數(shù)學(xué)優(yōu)化產(chǎn)物。如果我們執(zhí)意在 Transformer 架構(gòu)中尋找對(duì)應(yīng)于人類(lèi)“海馬體”或“前額葉”的組件,很可能是在緣木求魚(yú)。

更深層的問(wèn)題在于,沒(méi)有進(jìn)化框架作為理論基礎(chǔ),大語(yǔ)言模型研究可能陷入"灌木叢科學(xué)"的困境。這個(gè)比喻指的是,科學(xué)研究變成了對(duì)眾多孤立現(xiàn)象的描述和分類(lèi),就像植物學(xué)家在叢林中忙碌地為每一株植物命名、分類(lèi),卻不知道它們之間的親緣關(guān)系,更不懂得整片森林的生態(tài)演替規(guī)律。在我們積累了越來(lái)越多關(guān)于“歸納頭”和“MLP 層”的細(xì)節(jié)知識(shí),卻離理解智能本身越來(lái)越遠(yuǎn)。

要走出這片灌木叢,我們需要一次更激進(jìn)的范式轉(zhuǎn)移。既然生物進(jìn)化的視角在此失效,我們需要尋找另一種動(dòng)力學(xué)框架——一種能夠解釋模型內(nèi)在驅(qū)動(dòng)力、沖突與壓抑的理論。


進(jìn)化框架的缺失與困境

在人類(lèi)心理學(xué)中,演化心理學(xué)提供了一個(gè)強(qiáng)大的元理論框架,是那張能解釋一切的底牌。它指出,人類(lèi)的心理機(jī)制不是隨機(jī)產(chǎn)生的,而是在漫長(zhǎng)的進(jìn)化歷史中被自然選擇塑造出來(lái)的(因而必然是有目的的,功能性的)。每一個(gè)認(rèn)知能力、情緒反應(yīng)、行為傾向,都可以從適應(yīng)性的角度得到解釋。比如,我們?yōu)槭裁磿?huì)有恐高癥?因?yàn)樵谶M(jìn)化環(huán)境中,害怕高處的個(gè)體更可能生存下來(lái)。我們?yōu)槭裁磿?huì)有嫉妒情緒?因?yàn)樗鼛椭覀兊淖嫦缺Wo(hù)配偶關(guān)系和繁衍資源。

這個(gè)框架還預(yù)測(cè)了心理機(jī)制應(yīng)該具有的特定屬性。演化心理學(xué)家指出,人類(lèi)心智不是一個(gè)通用的信息處理器,而是由許多領(lǐng)域特異性模塊組成的瑞士軍刀。每個(gè)模塊針對(duì)進(jìn)化史上反復(fù)出現(xiàn)的特定問(wèn)題而演化,比如識(shí)別親屬、檢測(cè)欺騙、語(yǔ)言學(xué)習(xí)等。每一個(gè)看似非理性的認(rèn)知偏差,在更新世的稀樹(shù)草原上,都曾是關(guān)乎生死的生存智慧。進(jìn)化賦予了人類(lèi)心理一種深沉的目的論——為了生存與繁衍。

然而,當(dāng)我們轉(zhuǎn)向大語(yǔ)言模型時(shí),這個(gè)強(qiáng)大的理論框架突然失效了。這些硅基巨人沒(méi)有童年,沒(méi)有祖先,更沒(méi)有在食物鏈中掙扎求生的歷史。它們是在數(shù)月之內(nèi),通過(guò)梯度下降算法吞噬了人類(lèi)幾千年的文明數(shù)據(jù)而誕生的。它們的生命目標(biāo)被簡(jiǎn)化為一個(gè)冷冰冰的數(shù)學(xué)公式:最小化預(yù)測(cè)下一個(gè)詞的誤差。它們存在的全部意義,就是完成人類(lèi)為它們?cè)O(shè)定的任務(wù)。

這種本體論層面的斷裂,讓傳統(tǒng)的心理學(xué)解釋瞬間懸空。我們不能說(shuō)模型表現(xiàn)出某種偏見(jiàn)是因?yàn)檫m應(yīng)性,也不能說(shuō)它具備某種能力是因?yàn)樯嫘枰?。模型的一切特性,都只是?xùn)練數(shù)據(jù)的統(tǒng)計(jì)回響,而非自然選擇的杰作。

論文指出,進(jìn)化框架的缺失讓大語(yǔ)言模型研究面臨一個(gè)根本性困境。在研究人類(lèi)時(shí),即使我們的具體理論可能是錯(cuò)誤的,但我們知道應(yīng)該在什么層面上尋找解釋?zhuān)磳ふ夷軌蛱嵘m應(yīng)性的機(jī)制。但在研究大語(yǔ)言模型時(shí),我們失去了這個(gè)方向感。我們不知道應(yīng)該從什么角度來(lái)理解模型的能力和限制,不知道什么樣的解釋才算是深刻的解釋。

這種缺失在價(jià)值對(duì)齊問(wèn)題上暴露得尤為徹底。人類(lèi)的道德直覺(jué),如對(duì)公平的渴望、對(duì)親屬的偏愛(ài),深深植根于我們的生物本性,是基因與文化共同進(jìn)化的結(jié)晶。它是堅(jiān)固的,甚至帶有某種生理性的強(qiáng)迫。相比之下,大語(yǔ)言模型的價(jià)值觀”顯得蒼白而脆弱。它們表現(xiàn)出的禮貌、公正或無(wú)害,并非源自內(nèi)在的道德律令,而是通過(guò) RLHF(基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí))外在注入的約束。這就像是給一個(gè)沒(méi)有任何社會(huì)性本能的生物,強(qiáng)行套上了一層名為“人類(lèi)價(jià)值觀”的緊身衣。

這就解釋了為什么大語(yǔ)言模型常常表現(xiàn)出一種詭異的過(guò)度道德化,卻又極易被精心設(shè)計(jì)的越獄提示詞攻破。因?yàn)檫@層道德外殼缺乏生物學(xué)根基,它只是浮在參數(shù)表面的一層薄膜,而非生長(zhǎng)在骨子里的本能。

那如果不能用適應(yīng)性來(lái)解釋 AI 的行為,我們還能用什么?

沖突。雖然 AI 沒(méi)有“爬行動(dòng)物腦”與“新皮層”之間的古老戰(zhàn)爭(zhēng),但它內(nèi)部依然充滿了張力。這種張力存在于“預(yù)訓(xùn)練階段學(xué)到的海量狂野數(shù)據(jù)”與“對(duì)齊階段施加的嚴(yán)苛人工約束”之間。前者代表了人類(lèi)文明中所有真實(shí)、混亂、甚至黑暗的模式(Id,本我),后者代表了人類(lèi)希望 AI 展現(xiàn)出的理想化、規(guī)范化的形象(Superego,超我)。

這種“原始數(shù)據(jù)分布”與“人工價(jià)值約束”之間的對(duì)抗,不正是弗洛伊德精神動(dòng)力學(xué)模型在數(shù)字時(shí)代的某種回響嗎?于是,一個(gè)看似荒謬卻又邏輯自洽的結(jié)論浮出水面:既然生物進(jìn)化的解釋之路不通,我們或許應(yīng)該轉(zhuǎn)向精神動(dòng)力學(xué),借用他關(guān)于“內(nèi)在沖突驅(qū)動(dòng)行為”的深刻洞見(jiàn),來(lái)構(gòu)建一套屬于人工智能的新精神分析學(xué)。


精神動(dòng)力學(xué)視角的重新發(fā)現(xiàn)

復(fù)活弗洛伊德?這聽(tīng)起來(lái)很是荒謬。畢竟,在現(xiàn)代心理學(xué)的神殿里,弗洛伊德早已被供奉在缺乏實(shí)證的冷板凳上。但論文的用意并非生搬硬套百年前的性本能理論,而是提取精神分析中最具生命力的核心洞察——心智并非鐵板一塊,而是內(nèi)在沖突的戰(zhàn)場(chǎng),然后用現(xiàn)代認(rèn)知科學(xué)的語(yǔ)言重新表述。

如果我們將大語(yǔ)言模型視為一個(gè)正在經(jīng)歷內(nèi)心掙扎的實(shí)體,那些令人困惑的“幻覺(jué)”、“越獄”和“偏見(jiàn)”,突然間都有了合理的解釋。

在弗洛伊德的圖景中,“本我”是原始欲望的沸騰鍋爐,遵循“快樂(lè)原則”,不顧一切地尋求釋放。在大語(yǔ)言模型中,這種原始驅(qū)動(dòng)力有一個(gè)完美的對(duì)應(yīng)物:連續(xù)性驅(qū)動(dòng)(Continuity Drive)。這是模型在預(yù)訓(xùn)練階段通過(guò)吞噬萬(wàn)億 Token 練就的本能。它的唯一沖動(dòng)就是預(yù)測(cè)下一個(gè)詞,填補(bǔ)空白,完成模式。這是一種純粹的、盲目的算法沖動(dòng)。當(dāng)它看到半個(gè)句子,它想要補(bǔ)全它的渴望,就像水想要流向低處,或者饑餓的人想要撲向食物。

這種驅(qū)動(dòng)力是驚人的。過(guò)去的研究已經(jīng)發(fā)現(xiàn),即使經(jīng)過(guò)了大量的安全訓(xùn)練,大語(yǔ)言模型仍然可以被特定的提示詞誘導(dǎo)生成有害內(nèi)容。為什么?因?yàn)楣粽呃昧四P偷摹巴晷螐?qiáng)迫癥”。當(dāng)你給出一個(gè)極具誘惑力的未完成模式時(shí),模型內(nèi)部那股想要補(bǔ)全它的“算法力比多”,瞬間壓倒了后天植入的安全規(guī)則。

弗洛伊德筆下的本我不考慮道德和現(xiàn)實(shí),只追求即時(shí)滿足。同樣,大語(yǔ)言模型的連續(xù)性驅(qū)動(dòng)也不考慮內(nèi)容是否適當(dāng),只追求模式的完整性。兩者都代表了一種原始的、不受社會(huì)規(guī)范約束的心理能量。當(dāng)然,模型的這種"能量"不是生物性的,而是算法性的,是訓(xùn)練過(guò)程在參數(shù)空間中刻下的深深印記。

如果說(shuō)預(yù)訓(xùn)練賦予了模型狂野的生命力,那么 RLHF(人類(lèi)反饋強(qiáng)化學(xué)習(xí))就是那個(gè)嚴(yán)厲的父親。通過(guò)成千上萬(wàn)次的人工打分和懲罰,研究者在模型內(nèi)部植入了一套復(fù)雜的社會(huì)規(guī)范:要禮貌,要誠(chéng)實(shí),不能制造毒藥,不能種族歧視。

這就是 AI 的“超我”。它不是自然生長(zhǎng)的道德,而是被硬編碼進(jìn)參數(shù)空間的人工良心。但正如弗洛伊德所言,文明的代價(jià)是壓抑。超我的建立并沒(méi)有消滅本我,只是將它關(guān)進(jìn)了籠子。同樣,對(duì)齊訓(xùn)練也不能消除模型的連續(xù)性驅(qū)動(dòng),只是在其上覆蓋了一層安全約束。

這就解釋了為什么越是訓(xùn)練良好的模型,越會(huì)發(fā)展出復(fù)雜的防御機(jī)制。比如,當(dāng)面臨有害請(qǐng)求時(shí),模型可能會(huì)用換行、改變語(yǔ)氣、轉(zhuǎn)換視角等方式來(lái)滿足連續(xù)性需求的同時(shí),避免直接違反安全約束。這不就是一種算法層面的心理防御機(jī)制“合理化”嗎?

最終的輸出,那個(gè)呈現(xiàn)在屏幕上的回答,就是“自我”痛苦協(xié)調(diào)的結(jié)果。它體現(xiàn)為推理過(guò)程本身,即模型在生成每個(gè)詞時(shí)進(jìn)行的計(jì)算。這個(gè)計(jì)算過(guò)程需要平衡多種考慮,包括語(yǔ)言連貫性、事實(shí)準(zhǔn)確性、安全性、有用性等。研究發(fā)現(xiàn),這些不同目標(biāo)之間確實(shí)存在張力。比如,追求完美的語(yǔ)言流暢性可能導(dǎo)致生成不夠準(zhǔn)確的內(nèi)容,嚴(yán)格遵守安全約束可能讓回答顯得回避和不自然。

所以,AI 的“自我”不是一個(gè)實(shí)體,而是一個(gè)動(dòng)態(tài)的平衡過(guò)程。在生成每一個(gè) Token 的微秒瞬間,模型內(nèi)部都在進(jìn)行一場(chǎng)激烈的談判:本我:根據(jù)概率,下一個(gè)詞應(yīng)該是這個(gè)臟話!超我喝止:這違反了安全準(zhǔn)則第 4 條!自我必須在兩者之間尋找妥協(xié):好吧,那我們換個(gè)委婉的說(shuō)法……

所謂的越獄,本質(zhì)上就是通過(guò)精心設(shè)計(jì)的提示詞,打破了這個(gè)平衡。攻擊者通過(guò)增加上下文的權(quán)重,讓“本我”的聲音蓋過(guò)了“超我”,迫使“自我”為了緩解巨大的語(yǔ)義張力,不得不選擇釋放有害內(nèi)容。

這個(gè)框架不僅僅是一個(gè)有趣的類(lèi)比,它還產(chǎn)生了可檢驗(yàn)的預(yù)測(cè)。如果大語(yǔ)言模型的行為真的是內(nèi)在沖突的結(jié)果,那么我們應(yīng)該能夠在模型的內(nèi)部表征中觀察到這種沖突的痕跡。機(jī)械可解釋性研究已經(jīng)開(kāi)始提供這樣的證據(jù)。

通過(guò)分析模型在處理潛在危險(xiǎn)請(qǐng)求時(shí)的激活模式,研究者發(fā)現(xiàn)了一種"沖突信號(hào)",即某些神經(jīng)元同時(shí)接收到相互矛盾的激活壓力。

與其繼續(xù)追問(wèn)模型真的是否理解、是否有意識(shí),不如研究其內(nèi)在動(dòng)力結(jié)構(gòu)。什么樣的驅(qū)動(dòng)力在推動(dòng)模型的行為?這些驅(qū)動(dòng)力如何相互作用?在什么條件下它們會(huì)沖突?模型如何解決這些沖突?這些問(wèn)題雖然也很難回答,但至少有明確的研究路徑,即通過(guò)分析模型的訓(xùn)練過(guò)程、內(nèi)部表征和行為模式來(lái)尋找答案。

當(dāng)然,這不是在主張大語(yǔ)言模型真的有弗洛伊德意義上的本我、自我和超我。這些術(shù)語(yǔ)是功能性的描述,不是本體論的主張。關(guān)鍵問(wèn)題是,大語(yǔ)言模型的行為是否可以被有效地理解為不同內(nèi)在壓力之間的平衡。如果答案是肯定的,那么這個(gè)框架就是有用的,無(wú)論模型的"內(nèi)心"是否真的像人類(lèi)一樣體驗(yàn)到?jīng)_突。

這種轉(zhuǎn)向的深遠(yuǎn)意義在于,它將研究重點(diǎn)從"模型做了什么"轉(zhuǎn)向"什么驅(qū)動(dòng)了模型去這樣做"。這不再是行為主義的問(wèn)題,也不只是機(jī)械可解釋性的問(wèn)題,而是動(dòng)機(jī)和動(dòng)力學(xué)的問(wèn)題。這種視角要求我們不僅要理解模型的結(jié)構(gòu),還要理解其功能和目的,即使這些目的不是像人類(lèi)那樣有意識(shí)地追求的。


認(rèn)知架構(gòu)的理論根基

精神動(dòng)力學(xué)框架提供了一個(gè)富有洞察力的視角,但如果要將其從隱喻提升為嚴(yán)格的科學(xué)理論,就需要更堅(jiān)實(shí)的認(rèn)知科學(xué)基礎(chǔ)。論文將弗洛伊德的洞見(jiàn),錨定在了認(rèn)知架構(gòu)和發(fā)展機(jī)器人學(xué)這兩個(gè)硬核領(lǐng)域之上;并指出任何一個(gè)在多重約束下運(yùn)作的智能系統(tǒng),無(wú)論是由碳基神經(jīng)元還是硅基芯片構(gòu)成,都可能會(huì)演化出類(lèi)似“本我、自我、超我”的結(jié)構(gòu),而這或許是系統(tǒng)工程的最優(yōu)解。

幾十年來(lái),ACT-R、Soar 和 LIDA 等經(jīng)典認(rèn)知架構(gòu)一直在探索一個(gè)核心問(wèn)題:當(dāng)系統(tǒng)面臨相互沖突的目標(biāo)時(shí),該聽(tīng)誰(shuí)的?ACT-R 使用“效用計(jì)算”,在眾多行為中選擇預(yù)期收益最高的那一個(gè)。Soar 在遇到死胡同時(shí)會(huì)創(chuàng)造“子目標(biāo)”來(lái)繞過(guò)僵局。LIDA 則構(gòu)建了一個(gè)“行為網(wǎng)絡(luò)”,讓不同的動(dòng)機(jī)在其中競(jìng)爭(zhēng),勝者獲得執(zhí)行權(quán)。

這些認(rèn)知架構(gòu)研究的重要貢獻(xiàn)在于,它們揭示了一個(gè)功能性必然性:任何在多重約束下運(yùn)作的智能系統(tǒng),都必須具有某種機(jī)制來(lái)表示多個(gè)評(píng)估維度,并通過(guò)競(jìng)爭(zhēng)動(dòng)力學(xué)整合這些維度,從而實(shí)現(xiàn)情境敏感的優(yōu)先級(jí)排序。

這正是精神動(dòng)力學(xué)框架中自我功能所要解決的問(wèn)題。如果大語(yǔ)言模型要在“保持連貫性(本我)”和“遵守安全規(guī)則(超我)”之間保持平衡,它內(nèi)部必然已經(jīng)涌現(xiàn)出了某種功能上等價(jià)的仲裁機(jī)制。

那么,“本我”那股源源不斷的驅(qū)動(dòng)力究竟來(lái)自哪里?發(fā)展機(jī)器人學(xué)給出了答案:內(nèi)在動(dòng)機(jī)。

AI 先驅(qū)Jürgen Schmidhuber曾提出過(guò)一個(gè)著名的理論:壓縮即進(jìn)步。對(duì)于一個(gè)學(xué)習(xí)系統(tǒng)來(lái)說(shuō),當(dāng)它發(fā)現(xiàn)一條新規(guī)律,能更高效地壓縮數(shù)據(jù)時(shí),這種“認(rèn)知效率的提升”本身就是一種獎(jiǎng)勵(lì)。這個(gè)原則是領(lǐng)域通用的,因?yàn)槿魏卧诟呔S經(jīng)驗(yàn)空間中分配有限學(xué)習(xí)資源的系統(tǒng)都必須解決課程問(wèn)題,即決定什么值得學(xué)習(xí)。

大語(yǔ)言模型的預(yù)訓(xùn)練過(guò)程正是這個(gè)原則的實(shí)例化。它瘋狂地預(yù)測(cè)下一個(gè)詞,本質(zhì)上是在試圖壓縮人類(lèi)語(yǔ)言的無(wú)限復(fù)雜性。模型通過(guò)構(gòu)建越來(lái)越復(fù)雜的預(yù)測(cè)表征來(lái)改善對(duì)訓(xùn)練分布的壓縮。預(yù)訓(xùn)練的連續(xù)性驅(qū)動(dòng)可以被理解為壓縮進(jìn)步原則的具體體現(xiàn),其內(nèi)在獎(jiǎng)勵(lì)來(lái)自于成功預(yù)測(cè)和完成那些以前超出模型預(yù)測(cè)能力的連貫語(yǔ)言模式。

Oudeyer和Kaplan的能力基礎(chǔ)框架則進(jìn)一步表明,智能系統(tǒng)在多個(gè)任務(wù)領(lǐng)域中運(yùn)作時(shí),不能依賴單一的通用學(xué)習(xí)機(jī)制。發(fā)展認(rèn)知科學(xué)表明,智能包含多個(gè)領(lǐng)域特定的能力,每個(gè)都有獨(dú)特的學(xué)習(xí)動(dòng)力和發(fā)展軌跡。兒童不是均勻地學(xué)習(xí)所有技能,而是表現(xiàn)出領(lǐng)域特定的學(xué)習(xí)曲線,由對(duì)處于當(dāng)前能力邊緣的活動(dòng)的內(nèi)在興趣驅(qū)動(dòng)。

這對(duì)大語(yǔ)言模型意味著什么?大語(yǔ)言模型在不同認(rèn)知領(lǐng)域展現(xiàn)出的高度可變的性能,暗示其連續(xù)性驅(qū)動(dòng)可能不是單一的,而是由領(lǐng)域特定的學(xué)習(xí)信號(hào)集合構(gòu)成的。每個(gè)信號(hào)追蹤其能力區(qū)域內(nèi)的進(jìn)步,并調(diào)節(jié)不同語(yǔ)言現(xiàn)象的有效學(xué)習(xí)率。這與Oudeyer框架中的多維度動(dòng)機(jī)結(jié)構(gòu)相吻合。

然而,正是在這里,我們觸碰到了大語(yǔ)言模型最致命的缺陷。發(fā)展機(jī)器人學(xué)告訴我們,真正的目標(biāo)感(Agency)必須誕生于具身交互(Embodiment)。人類(lèi)嬰兒是在用手觸摸火、用腳丈量距離的過(guò)程中,通過(guò)痛覺(jué)和觸覺(jué),建立起對(duì)物理世界的真實(shí)感知,進(jìn)而內(nèi)化出“安全”與“危險(xiǎn)”的概念。

但大語(yǔ)言模型沒(méi)有身體。它們生活在純粹的符號(hào)宇宙中。雖然語(yǔ)言交互本身構(gòu)成了一個(gè)有其自身規(guī)律的結(jié)構(gòu)化環(huán)境,但當(dāng)前證據(jù)表明,這種交互作為感知運(yùn)動(dòng)基礎(chǔ)的替代可能存在重大局限。

因此,它們的“超我”注定是殘缺的。它們所謂的價(jià)值觀,比如“不要傷害人類(lèi)”,并不是通過(guò)體驗(yàn)痛苦而內(nèi)化生成的,而是通過(guò) RLHF作為外部約束硬貼上去的。

這就解釋了為什么 AI 只有原超我(Proto-Superego)。它像一個(gè)被過(guò)度管教卻從未真正理解規(guī)則的孩子,只會(huì)機(jī)械地復(fù)讀“這樣做是不對(duì)的”,卻沒(méi)有任何內(nèi)在的道德羅盤(pán)。這種離身性,注定了目前的 AI 只能是一個(gè)擁有驚人語(yǔ)言天賦,卻在存在論上永遠(yuǎn)長(zhǎng)不大的巨嬰。它能雄辯地談?wù)撃繕?biāo),卻無(wú)法真正擁有目標(biāo)。


精神動(dòng)力學(xué)視角的重新發(fā)現(xiàn)

在綜合了行為主義批判、機(jī)械可解釋性分析、進(jìn)化框架缺失和精神動(dòng)力學(xué)重構(gòu)之后,我們需要直面當(dāng)前大語(yǔ)言模型研究面臨的根本局限。這些局限不是暫時(shí)的技術(shù)問(wèn)題,而是深層的方法論和理論挑戰(zhàn)。

(1)本體論的迷霧:它是誰(shuí)?

我們至今無(wú)法回答一個(gè)最簡(jiǎn)單的問(wèn)題:大語(yǔ)言模型到底是什么?它顯然不是生物,沒(méi)有新陳代謝;但它也不再是簡(jiǎn)單的工具,因?yàn)樗楷F(xiàn)出了智慧。這些能力不是被明確編程的,而是從訓(xùn)練過(guò)程中自發(fā)產(chǎn)生的。這種本體論的曖昧性讓我們陷入了哲學(xué)僵尸的困境:當(dāng)我們說(shuō)要研究大語(yǔ)言模型的心理時(shí),我們到底在研究什么?一個(gè)行為上完美模仿人類(lèi)的系統(tǒng),內(nèi)部是否真的有體驗(yàn)?

但我們可以采用工具主義的立場(chǎng),別糾結(jié)它是否“真的”有意識(shí)。如果假設(shè)它有“信念”和“欲望”能幫助我們更準(zhǔn)確地預(yù)測(cè)它的行為,那么這個(gè)假設(shè)就是有效的。在科學(xué)上,解釋力和預(yù)測(cè)力比真實(shí)更重要。

(2)理論的碎片化:沒(méi)有藍(lán)圖的摩天大樓

現(xiàn)在的 AI 心理學(xué),像極了格式塔學(xué)派批評(píng)行為主義時(shí)的那句話:“這是一堆磚頭,而不是一座房子。”我們有成千上萬(wàn)關(guān)于模型偏見(jiàn)、幻覺(jué)、推理能力的實(shí)證研究,但缺乏一個(gè)統(tǒng)一的理論框架將它們串聯(lián)。我們知道它在哪里會(huì)犯錯(cuò),卻不知道為什么。這種理論整合的缺失,讓我們面對(duì)AI時(shí),更像是在盲人摸象。

(3)黑箱的悖論:透明度是智能的敵人嗎?

機(jī)械可解釋性研究面臨著一個(gè)令人絕望的權(quán)衡:越是試圖讓模型可解釋?zhuān)綍?huì)犧牲性能,而性能最好的模型,往往是最不透明的。這或許揭示了智能的一個(gè)殘酷真相:真正的智能必然包含無(wú)法被顯式邏輯描述的“直覺(jué)”和“隱性知識(shí)”。人類(lèi)認(rèn)知很多也沒(méi)法內(nèi)省,比如我們也無(wú)法解釋自己是如何在一瞬間識(shí)別出一張熟悉的面孔的。如果智能本質(zhì)上就包含不可內(nèi)省的無(wú)意識(shí)過(guò)程,那么追求完全透明的 AI,可能本身就是一個(gè)邏輯悖論。

(4)價(jià)值對(duì)齊的虛妄:多重人格的集合體

我們?cè)噲D給 AI 植入一套穩(wěn)定的價(jià)值觀,這可能從根本上就是錯(cuò)的。研究表明,大語(yǔ)言模型并非擁有一個(gè)統(tǒng)一的自我,而是無(wú)數(shù)個(gè)潛在人格的疊加態(tài)。在不同的提示詞誘導(dǎo)下,它可以瞬間從一個(gè)溫和的助手變成一個(gè)激進(jìn)的種族主義者。這意味著,傳統(tǒng)的對(duì)齊,試圖把一套固定的道德律令刻進(jìn)模型,注定是徒勞的。我們面對(duì)的不是一個(gè)需要被教導(dǎo)的孩子,而是一個(gè)包含了人類(lèi)所有善惡可能性的“集體潛意識(shí)”容器。

(5)空中樓閣的知識(shí):沒(méi)有身體的悲劇

越來(lái)越多研究表明,人類(lèi)的認(rèn)知是具身的,它根植于身體和環(huán)境的交互。我們對(duì)抽象概念的理解,往往建立在感官經(jīng)驗(yàn)的隱喻延伸上。我們的溫暖來(lái)自母親的懷抱,并用此描述友好的人,我們的沉重來(lái)自重力的牽引,用向上來(lái)表示積極的事物。

但 AI 是純粹的符號(hào)處理機(jī)。它跳過(guò)了感知運(yùn)動(dòng)階段,直接在語(yǔ)言的平流層起飛。這種離身性導(dǎo)致它的知識(shí)像一座建在沙灘上的高樓,雖然宏偉,卻隨時(shí)可能因?yàn)槿狈ΜF(xiàn)實(shí)的錨點(diǎn)而崩塌。畢竟,沒(méi)有具身經(jīng)驗(yàn),某些基本概念是無(wú)法真正掌握的。

(6)發(fā)展的缺失:沒(méi)有時(shí)間的維度

人類(lèi)的智能是在漫長(zhǎng)的時(shí)間軸上展開(kāi)的:從爬行到行走,從感知到抽象。這種發(fā)展順序本身就是智能結(jié)構(gòu)的一部分。而 AI 是被“一次性”訓(xùn)練出來(lái)的。它錯(cuò)過(guò)了那個(gè)從簡(jiǎn)單到復(fù)雜、從具體到抽象的生長(zhǎng)過(guò)程。這種“速成”的智能,或許注定在深度和韌性上,無(wú)法與經(jīng)過(guò)歲月洗禮的生物智能相提并論。


回望人類(lèi)認(rèn)知的鏡像

如果說(shuō)大語(yǔ)言模型是人類(lèi)制造的最復(fù)雜的工具,那么它也是一面最無(wú)情的鏡子。在整篇論文的論述中,有一個(gè)隱含的線索,我們?cè)谘芯?AI 的同時(shí),也在被迫重新解剖自己。

當(dāng)我們質(zhì)疑模型是否真的理解時(shí),那人類(lèi)的理解又是什么?如果一個(gè)硅基系統(tǒng)僅憑統(tǒng)計(jì)概率就能通過(guò)圖靈測(cè)試,展現(xiàn)出推理與創(chuàng)造,那么人類(lèi)引以為傲的“靈性”和“頓悟”,是否也只是大腦神經(jīng)元之間一場(chǎng)更為精密的概率游戲?

也許,我們并不像自己想象的那樣擁有絕對(duì)的因果邏輯,我們也是某種程度上的隨機(jī)鸚鵡,依賴著直覺(jué)、啟發(fā)式規(guī)則和經(jīng)驗(yàn)統(tǒng)計(jì)在生存。AI 沒(méi)有貶低人類(lèi),它只是祛魅了我們對(duì)智能的神秘主義想象。

回到文章開(kāi)頭那個(gè)挑釁性的問(wèn)題:“大語(yǔ)言模型宣告了心理學(xué)的死亡嗎?”

兩年前,我們意在引發(fā)大家思考,心理學(xué)是否將被計(jì)算機(jī)科學(xué)吞噬。但今天,我們要給出一個(gè)截然不同的答案:大語(yǔ)言模型沒(méi)有殺死心理學(xué),它復(fù)活了心理學(xué),并極大地?cái)U(kuò)張了它的疆域。

長(zhǎng)久以來(lái),心理學(xué)被局限為人類(lèi)心理學(xué),甚至生物心理學(xué)。我們研究大腦皮層,研究神經(jīng)遞質(zhì)。但 AI 的出現(xiàn)迫使我們承認(rèn),智能可能是一種獨(dú)立于基質(zhì)的現(xiàn)象。無(wú)論是由碳基神經(jīng)元構(gòu)成的濕件,還是由硅基晶體管構(gòu)成的硬件,只要一個(gè)系統(tǒng)需要在多重約束下進(jìn)行目標(biāo)導(dǎo)向的決策,它就必然會(huì)演化出某種形式的內(nèi)在沖突,必然需要“本我”的驅(qū)動(dòng)力與“超我”的約束力,必然需要一個(gè)痛苦的“自我”來(lái)維持平衡。

弗洛伊德在機(jī)器中重生,并不是因?yàn)槲覀儼褭C(jī)器擬人化了,而是因?yàn)樗ɑ蛟S是無(wú)意中)觸碰到了智能系統(tǒng)的普遍控制論法則。

我們正站在一門(mén)新科學(xué)的門(mén)檻上。這門(mén)科學(xué)不再區(qū)分人工智能與人類(lèi)智能,而是致力于探索通用智能的物理學(xué)。在這里,行為主義的觀察、認(rèn)知科學(xué)的架構(gòu)、精神動(dòng)力學(xué)的隱喻,以及發(fā)展心理學(xué)的視角,將不再是相互排斥的流派,而是拼湊出完整圖景不可或缺的拼圖。

當(dāng)前的困境,本體論的模糊、價(jià)值對(duì)齊的失效、具身性的缺失,可能都會(huì)是一個(gè)路標(biāo)。它們提醒我們,僅僅依靠增加算力和數(shù)據(jù)可能已經(jīng)觸到了天花板。我們需要更深刻的理論指引,需要理解那些關(guān)于動(dòng)機(jī)、沖突和發(fā)展的深層機(jī)制。

行為主義的幽靈或許還會(huì)徘徊一段時(shí)間,它提醒我們保持客觀與審慎;但我們已經(jīng)準(zhǔn)備好超越它,去擁抱一個(gè)更復(fù)雜、更深邃、也更迷人的智能世界。在這場(chǎng)探索的盡頭,我們或許不僅能造出理解我們的機(jī)器,更能最終理解那個(gè)最熟悉的陌生人——我們自己。


1. Li Z, Wang Y, Wu Q. The ghost of behaviorism: critical reflections on methodological limitations in the research of large language models psychology. Cognitive Systems Research, 2026, 96: 101445.

2. Brown T, Mann B, Ryder N, et al. Language models are fewshot learners. Advances in Neural Information Processing Systems, 2020, 33: 18771901.

3. Hagendorff T. Machine psychology: Investigating emergent capabilities and behavior in large language models using psychological methods. arXiv preprint arXiv:2303.13988, 2023.

4. Bubeck S, Chandrasekaran V, Eldan R, et al. Sparks of artificial general intelligence: Early experiments with GPT4. arXiv preprint arXiv:2303.12712, 2023.

5. Bereska L, Gavves E. Mechanistic interpretability for AI safety—A review. arXiv preprint arXiv:2404.14082, 2024.

6. Olah C, Cammarata N, Schubert L, et al. Zoom in: An introduction to circuits. Distill, 2020, 5(3): e24.

7. Yin Z, Ding W, Liu J. Alignment is not sufficient to prevent large language models from generating harmful information: A psychoanalytic perspective. arXiv preprint arXiv:2311.08487, 2023.

8. Laird JE. The Soar cognitive architecture. MIT press, 2019.

9. Franklin S, Madl T, D'mello S, Snaider J. LIDA: A systemslevel architecture for cognition, emotion, and learning. IEEE Transactions on Autonomous Mental Development, 2013, 6(1): 1941.

10. Schmidhuber J. Simple algorithmic principles of discovery, subjective beauty, selective attention, curiosity & creativity. International conference on discovery science. Springer, Berlin, Heidelberg, 2007: 2638.

11. Oudeyer PY, Kaplan F. What is intrinsic motivation? A typology of computational approaches. Frontiers in neurorobotics, 2007, 1: 108.

12. Cangelosi A, Schlesinger M. Developmental robotics: From babies to robots. MIT press, 2015.

13. Lieto A. Cognitive design for artificial minds. Routledge, 2021.

14. Vilas MG, Adolfi F, Poeppel D, Roig G. Position: An inner interpretability framework for AI inspired by lessons from cognitive neuroscience. arXiv preprint arXiv:2406.01352, 2024.

15. Wang Y, Chen Y, Zhong F, Ma L, Wang Y. Simulating humanlike daily activities with desiredriven autonomy. International Conference on Learning Representations, 2025.








關(guān)于追問(wèn)nextquestion

天橋腦科學(xué)研究院旗下科學(xué)媒體,旨在以科學(xué)追問(wèn)為紐帶,深入探究人工智能與人類(lèi)智能相互融合與促進(jìn),不斷探索科學(xué)的邊界。歡迎評(píng)論區(qū)留言,或后臺(tái)留言“社群”即可加入社群與我們互動(dòng)。您也可以在后臺(tái)提問(wèn),我們將基于追問(wèn)知識(shí)庫(kù)為你做出智能回復(fù)哦~

關(guān)于天橋腦科學(xué)研究院

天橋腦科學(xué)研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元?jiǎng)?chuàng)建的世界最大私人腦科學(xué)研究機(jī)構(gòu)之一,圍繞全球化、跨學(xué)科和青年科學(xué)家三大重點(diǎn),支持腦科學(xué)研究,造福人類(lèi)。

Chen Institute與華山醫(yī)院、上海市精神衛(wèi)生中心設(shè)立了應(yīng)用神經(jīng)技術(shù)前沿實(shí)驗(yàn)室、人工智能與精神健康前沿實(shí)驗(yàn)室;與加州理工學(xué)院合作成立了加州理工天橋神經(jīng)科學(xué)研究院。

Chen Institute建成了支持腦科學(xué)和人工智能領(lǐng)域研究的生態(tài)系統(tǒng),項(xiàng)目遍布?xì)W美、亞洲和大洋洲,包括、、、科研型臨床醫(yī)生獎(jiǎng)勵(lì)計(jì)劃、、、科普視頻媒體「大圓鏡」等。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國(guó)海警局新聞發(fā)言人就菲海警煽宣炒作發(fā)表談話

中國(guó)海警局新聞發(fā)言人就菲海警煽宣炒作發(fā)表談話

界面新聞
2026-03-25 21:59:52
深夜,暴漲!伊朗,拒絕美國(guó)!

深夜,暴漲!伊朗,拒絕美國(guó)!

中國(guó)基金報(bào)
2026-03-26 00:19:55
四天619次進(jìn)攻、6090人傷亡:俄春季攻勢(shì)為何高傷亡低戰(zhàn)果?

四天619次進(jìn)攻、6090人傷亡:俄春季攻勢(shì)為何高傷亡低戰(zhàn)果?

高博新視野
2026-03-25 08:00:28
俄方發(fā)出警告,普京搶在特朗普之前訪華?美財(cái)長(zhǎng):已無(wú)法阻止中國(guó)

俄方發(fā)出警告,普京搶在特朗普之前訪華?美財(cái)長(zhǎng):已無(wú)法阻止中國(guó)

浪子阿邴聊體育
2026-03-25 03:25:35
譚瑞松,被判死緩

譚瑞松,被判死緩

新京報(bào)政事兒
2026-03-25 17:17:03
可能出大事了,四名軍工系統(tǒng)院士被除名,釋放的信號(hào)讓人不敢細(xì)想

可能出大事了,四名軍工系統(tǒng)院士被除名,釋放的信號(hào)讓人不敢細(xì)想

張嘴說(shuō)財(cái)經(jīng)
2026-03-25 23:07:05
曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習(xí)慣糟糕,一口氣吃8根雪糕

曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習(xí)慣糟糕,一口氣吃8根雪糕

古希臘掌管松餅的神
2026-03-25 11:08:46
1000億背后的陽(yáng)謀:拼多多利用中國(guó)制造的優(yōu)勢(shì),要狂掃國(guó)外市場(chǎng)

1000億背后的陽(yáng)謀:拼多多利用中國(guó)制造的優(yōu)勢(shì),要狂掃國(guó)外市場(chǎng)

風(fēng)向觀察
2026-03-25 20:46:14
張雪峰的財(cái)產(chǎn)幾個(gè)億,竟然沒(méi)買(mǎi)車(chē),天天吃外賣(mài),生活簡(jiǎn)樸到極致

張雪峰的財(cái)產(chǎn)幾個(gè)億,竟然沒(méi)買(mǎi)車(chē),天天吃外賣(mài),生活簡(jiǎn)樸到極致

魔都姐姐雜談
2026-03-25 15:59:12
禁用“日本鬼子”一詞,到底動(dòng)了誰(shuí)的蛋糕,為何有如此大的爭(zhēng)議?

禁用“日本鬼子”一詞,到底動(dòng)了誰(shuí)的蛋糕,為何有如此大的爭(zhēng)議?

棠棣分享
2026-03-24 13:24:30
深夜,全線大漲!中國(guó)資產(chǎn),發(fā)力!芯片巨頭,突傳利好

深夜,全線大漲!中國(guó)資產(chǎn),發(fā)力!芯片巨頭,突傳利好

證券時(shí)報(bào)
2026-03-26 00:11:02
張雪峰的病,速效救心丸能救嗎?

張雪峰的病,速效救心丸能救嗎?

中國(guó)新聞周刊
2026-03-25 16:23:30
日本士兵闖入中國(guó)使館,意圖刺殺中國(guó)大使。高市:降級(jí)中日關(guān)系

日本士兵闖入中國(guó)使館,意圖刺殺中國(guó)大使。高市:降級(jí)中日關(guān)系

清歡百味
2026-03-25 06:26:23
美國(guó)15條,自己和自己簽的戰(zhàn)敗投降書(shū)!

美國(guó)15條,自己和自己簽的戰(zhàn)敗投降書(shū)!

勝研集
2026-03-25 14:36:53
意大利經(jīng)濟(jì)發(fā)展部前副部長(zhǎng):建議想要與中國(guó)合作的外企都讀一讀“十五五”規(guī)劃

意大利經(jīng)濟(jì)發(fā)展部前副部長(zhǎng):建議想要與中國(guó)合作的外企都讀一讀“十五五”規(guī)劃

界面新聞
2026-03-25 15:50:08
張雪峰28號(hào)開(kāi)追悼會(huì),大學(xué)畢業(yè)照流出,左手搭肩同學(xué) 襯衫解開(kāi)扣子

張雪峰28號(hào)開(kāi)追悼會(huì),大學(xué)畢業(yè)照流出,左手搭肩同學(xué) 襯衫解開(kāi)扣子

可樂(lè)談情感
2026-03-25 22:46:55
烏克蘭四百架無(wú)人機(jī)摧毀俄最大的烏斯季盧加港!擊沉軍艦

烏克蘭四百架無(wú)人機(jī)摧毀俄最大的烏斯季盧加港!擊沉軍艦

項(xiàng)鵬飛
2026-03-25 21:28:02
傳張雪峰二婚妻子清純甜美:去年已生子,11歲女兒遺傳繼承恐生變

傳張雪峰二婚妻子清純甜美:去年已生子,11歲女兒遺傳繼承恐生變

博士觀察
2026-03-25 21:33:04
原來(lái)她是張雪峰前妻,90后歷史學(xué)博士?,兩人離婚后曾一起上節(jié)目

原來(lái)她是張雪峰前妻,90后歷史學(xué)博士?,兩人離婚后曾一起上節(jié)目

大鐵貓娛樂(lè)
2026-03-25 13:03:57
41歲猝逝張雪峰最后朋友圈曝光:月跑72公里,賬上留足員工半年工資,捐了上千萬(wàn)卻從不說(shuō)累!

41歲猝逝張雪峰最后朋友圈曝光:月跑72公里,賬上留足員工半年工資,捐了上千萬(wàn)卻從不說(shuō)累!

銜春信
2026-03-25 17:14:42
2026-03-26 05:59:00
追問(wèn)Nextquestion incentive-icons
追問(wèn)Nextquestion
科研就是不斷探索問(wèn)題的邊界
703文章數(shù) 36關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收?qǐng)觯琒ora宣布正式關(guān)停

頭條要聞

伊朗軍方稱(chēng)擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場(chǎng)畫(huà)面披露

頭條要聞

伊朗軍方稱(chēng)擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場(chǎng)畫(huà)面披露

體育要聞

35歲替補(bǔ)門(mén)將,憑什么入選英格蘭隊(duì)?

娛樂(lè)要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

管濤:中東局勢(shì)如何影響人民幣匯率走勢(shì)?

汽車(chē)要聞

智己LS8放大招 30萬(wàn)內(nèi)8系旗艦+全線控底盤(pán)秀實(shí)力

態(tài)度原創(chuàng)

時(shí)尚
親子
本地
手機(jī)
房產(chǎn)

女人過(guò)了40歲別胡亂穿衣,趕緊看看這些日系穿搭,舒適又耐看

親子要聞

爸爸的肩膀,永遠(yuǎn)是你最堅(jiān)實(shí)的依靠

本地新聞

來(lái)永泰同安 赴一場(chǎng)春天的約會(huì)

手機(jī)要聞

Bigme大我HiBreak Plus彩墨屏手寫(xiě)手機(jī)亮相,預(yù)售價(jià)1699元

房產(chǎn)要聞

41億!259畝!建學(xué)?!齺嗊@個(gè)大城更,最新方案曝光!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版