網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

EPFL等機(jī)構(gòu)發(fā)現(xiàn)大語言模型的內(nèi)部思維與人類創(chuàng)造性大腦高度同步

2026-04-20 21:45:21　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由瑞士洛桑聯(lián)邦理工學(xué)院（EPFL）、意大利盧加諾大學(xué)（USI）、韋斯利安大學(xué)、巴黎腦研究所（ICM）以及賓夕法尼亞州立大學(xué)聯(lián)合開展的研究，以預(yù)印本形式發(fā)布于2026年4月，論文編號(hào)為arXiv:2604.03480。對(duì)這一交叉領(lǐng)域感興趣的讀者，可以通過該編號(hào)在arXiv平臺(tái)上查閱完整原文。

一、為什么要研究AI與創(chuàng)意大腦的關(guān)系

每個(gè)人都有過這樣的體驗(yàn)：盯著一個(gè)普通的回形針，突然靈光一閃，覺得它可以當(dāng)書簽、可以當(dāng)項(xiàng)鏈吊墜、甚至可以撬開手機(jī)的SIM卡槽。這種從單一事物出發(fā)，向四面八方發(fā)散出一堆奇思妙想的能力，心理學(xué)家稱之為"發(fā)散性思維"，也被認(rèn)為是人類創(chuàng)造力的核心引擎。與之相對(duì)的是"收斂性思維"，也就是從很多可能中聚焦到一個(gè)正確答案——比如解數(shù)學(xué)題。

近年來，大語言模型（就是以ChatGPT為代表的那類AI）在測(cè)試創(chuàng)造力的任務(wù)上表現(xiàn)得出人意料地好。研究人員用一種叫做"替代用途測(cè)試"（Alternate Uses Task，簡(jiǎn)稱AUT）的經(jīng)典心理學(xué)工具來衡量發(fā)散性思維：給被測(cè)試者一個(gè)普通物品的名字，比如"風(fēng)箏"或者"磚頭"，讓他們盡量想出這個(gè)東西不尋常的用途，最后由評(píng)審根據(jù)答案的創(chuàng)意程度打分。一些頂尖的AI模型在這個(gè)測(cè)試?yán)锏牡梅忠呀?jīng)達(dá)到甚至超過了普通人類的平均水平。

然而，一個(gè)更有深度的問題隨之浮現(xiàn)：AI在行為上表現(xiàn)出創(chuàng)意，它的內(nèi)部"思考過程"真的和人類大腦產(chǎn)生創(chuàng)意時(shí)的狀態(tài)相似嗎？這就好比一個(gè)人能流利地說外語，但我們并不確定他是真正用那門語言在思考，還是只是在套用翻譯模板。研究團(tuán)隊(duì)正是想解開這個(gè)謎題。

這個(gè)問題之所以重要，不僅僅是出于學(xué)術(shù)好奇心。如果AI在處理創(chuàng)意任務(wù)時(shí)，它的內(nèi)部信息處理方式真的能映射到人類大腦的運(yùn)作模式，那就說明AI在某種程度上"理解"了創(chuàng)造力，而不只是在統(tǒng)計(jì)學(xué)意義上模仿它。這對(duì)于我們理解AI的本質(zhì)、以及如何設(shè)計(jì)更好的AI系統(tǒng)，都有深遠(yuǎn)的意義。

為了回答這個(gè)問題，研究團(tuán)隊(duì)把目光投向了神經(jīng)科學(xué)領(lǐng)域一種叫做"功能性磁共振成像"（fMRI）的技術(shù)，同時(shí)從AI的角度出發(fā)，系統(tǒng)地測(cè)量不同大語言模型內(nèi)部的數(shù)學(xué)表示結(jié)構(gòu)，看兩者之間有多相似。這是歷史上第一次有人把這兩件事放在一起，專門針對(duì)主動(dòng)創(chuàng)意思考任務(wù)進(jìn)行系統(tǒng)研究。

二、實(shí)驗(yàn)是怎么設(shè)計(jì)的

研究團(tuán)隊(duì)使用了神經(jīng)科學(xué)家貝蒂等人于2018年收集的一批珍貴數(shù)據(jù)。這批數(shù)據(jù)來自170名健康參與者，他們?cè)诤舜殴舱駫呙鑳x中分別完成了兩個(gè)任務(wù)。

第一個(gè)任務(wù)是創(chuàng)意任務(wù)，也就是前面提到的替代用途測(cè)試：參與者看到一個(gè)物品名稱后，需要盡量想出最有創(chuàng)意的用途，并報(bào)告他們認(rèn)為最原創(chuàng)的那個(gè)想法。第二個(gè)任務(wù)是非創(chuàng)意控制任務(wù)，叫做"物體特征任務(wù)"（Object Characteristics Task，簡(jiǎn)稱OCT）：看到同一個(gè)物品名稱后，參與者只需要報(bào)告這個(gè)物品最明顯的物理特征，比如看到"磚頭"就回答"紅色的"或"很重"。這兩個(gè)任務(wù)用的是同樣的物品（共46個(gè)），結(jié)構(gòu)高度對(duì)稱，唯一的區(qū)別就是一個(gè)要求創(chuàng)意，一個(gè)不要求。經(jīng)過數(shù)據(jù)清洗，最終保留了162名參與者的有效數(shù)據(jù)。

在處理這些大腦數(shù)據(jù)時(shí)，研究團(tuán)隊(duì)先用專業(yè)工具對(duì)原始的磁共振信號(hào)進(jìn)行了一系列標(biāo)準(zhǔn)化處理，去除干擾信號(hào)、消除趨勢(shì)、進(jìn)行標(biāo)準(zhǔn)化和濾波。他們使用了一種叫做"廣義線性模型"的統(tǒng)計(jì)方法，從原始腦信號(hào)中提取出每一次試驗(yàn)對(duì)應(yīng)的大腦激活模式，這就好比從一段嘈雜的錄音里，精確地提取出每個(gè)音符對(duì)應(yīng)的頻率特征。

在大腦的哪些區(qū)域進(jìn)行分析，也是有講究的。研究團(tuán)隊(duì)重點(diǎn)關(guān)注了兩個(gè)與創(chuàng)造力密切相關(guān)的大腦網(wǎng)絡(luò)。一個(gè)是"默認(rèn)模式網(wǎng)絡(luò)"（Default Mode Network，簡(jiǎn)稱DMN），這個(gè)網(wǎng)絡(luò)在你發(fā)呆、做白日夢(mèng)、進(jìn)行自由聯(lián)想的時(shí)候特別活躍，被認(rèn)為是產(chǎn)生創(chuàng)意的核心神經(jīng)基礎(chǔ)。另一個(gè)是"額頂網(wǎng)絡(luò)"（Frontoparietal Network，簡(jiǎn)稱FPN），負(fù)責(zé)認(rèn)知控制和高級(jí)推理，幫助我們?cè)u(píng)估和篩選那些浮現(xiàn)出來的想法。作為對(duì)照，他們還分析了"軀體運(yùn)動(dòng)網(wǎng)絡(luò)"，這個(gè)網(wǎng)絡(luò)主要管身體運(yùn)動(dòng)，和創(chuàng)意思維基本沒什么關(guān)系，可以用來排除干擾因素。

在AI這一側(cè)，研究團(tuán)隊(duì)向一系列不同規(guī)模的開源大語言模型輸入了與參與者完全相同的任務(wù)指令和物品名稱，然后提取模型每一層的內(nèi)部激活向量作為模型的"思維表示"。這里他們做了一個(gè)重要的創(chuàng)新：不僅提取了模型看到輸入提示詞后的激活狀態(tài)（提示詞階段），還提取了模型生成完回答之后的激活狀態(tài)（生成階段），這樣才能捕捉到模型完整的處理過程。

測(cè)量AI表示和大腦激活之間相似度的方法，叫做"表征相似性分析"（Representational Similarity Analysis，簡(jiǎn)稱RSA）。這個(gè)方法的核心思路可以用一個(gè)類比來理解：假設(shè)你有46首不同的歌曲，讓兩個(gè)人分別給這些歌曲兩兩之間的相似度打分。如果兩個(gè)人的打分模式高度吻合——比如他們都認(rèn)為某兩首歌特別像，某兩首歌特別不像——那就說明這兩個(gè)人的音樂品味在某種深層結(jié)構(gòu)上是一致的，即便他們用來描述歌曲的詞匯可能完全不同。RSA就是用同樣的思路，把大腦對(duì)不同物品的響應(yīng)模式和AI對(duì)同樣物品的內(nèi)部表示結(jié)構(gòu)進(jìn)行比較，量化兩者之間的幾何相似度。

參與者對(duì)每個(gè)AUT任務(wù)的回答還經(jīng)過了四位獨(dú)立評(píng)審的創(chuàng)意打分，評(píng)分量表為1到5分，四位評(píng)審之間的一致性系數(shù)（ICC）達(dá)到0.75，這是統(tǒng)計(jì)學(xué)上"良好一致性"的標(biāo)準(zhǔn)，說明評(píng)分結(jié)果是可靠的。

三、模型越大、越有創(chuàng)意，就越像人類創(chuàng)意大腦

研究團(tuán)隊(duì)測(cè)試了近20個(gè)不同的開源大語言模型，參數(shù)量從2.7億跨越到720億，涵蓋了Gemma、Llama、Qwen、Falcon等多個(gè)主流系列。

當(dāng)他們分析模型在提示詞階段的內(nèi)部激活與人類默認(rèn)模式網(wǎng)絡(luò)響應(yīng)之間的對(duì)齊程度時(shí)，發(fā)現(xiàn)了一個(gè)清晰的規(guī)律：模型參數(shù)量越大，對(duì)齊得分越高，兩者之間的皮爾遜相關(guān)系數(shù)達(dá)到了0.58，統(tǒng)計(jì)顯著性p值小于0.05，這在統(tǒng)計(jì)學(xué)上意味著這種關(guān)系不太可能是隨機(jī)偶然出現(xiàn)的。換句話說，72億參數(shù)的大模型比2.7億參數(shù)的小模型，更能"復(fù)現(xiàn)"人類大腦在進(jìn)行創(chuàng)意思考時(shí)的內(nèi)部狀態(tài)。

更有趣的是，當(dāng)研究團(tuán)隊(duì)將每個(gè)模型的AUT得分（用谷歌的Gemini模型作為打分工具，評(píng)估每個(gè)AI輸出的創(chuàng)意程度）與對(duì)齊得分進(jìn)行相關(guān)分析時(shí)，同樣發(fā)現(xiàn)了顯著的正相關(guān)關(guān)系，相關(guān)系數(shù)為0.51，p值同樣小于0.05。也就是說，AI在創(chuàng)意任務(wù)上表現(xiàn)得越出色，它的內(nèi)部思維結(jié)構(gòu)就越接近人類大腦產(chǎn)生創(chuàng)意時(shí)的神經(jīng)模式。

這個(gè)發(fā)現(xiàn)的意義是雙重的。從神經(jīng)科學(xué)的角度看，它暗示著默認(rèn)模式網(wǎng)絡(luò)所編碼的創(chuàng)意信息，某種程度上也存在于大語言模型足夠深層的表示空間中；從AI研究的角度看，它提供了一種新的、基于神經(jīng)科學(xué)的評(píng)估維度，而不是單純依賴行為層面的測(cè)試分?jǐn)?shù)。

然而，這種美好的對(duì)應(yīng)關(guān)系在模型開始生成回答之后，發(fā)生了明顯的弱化。當(dāng)研究團(tuán)隊(duì)用"提示詞+模型回答"階段的激活進(jìn)行同樣的分析時(shí)，與模型大小的相關(guān)系數(shù)驟降到接近零（0.01），與AUT得分的相關(guān)系數(shù)也下降到0.37且不再具有統(tǒng)計(jì)顯著性。這意味著，一旦模型真正"開口說話"，它的內(nèi)部狀態(tài)就開始偏離人類大腦的創(chuàng)意模式了。

研究團(tuán)隊(duì)對(duì)此提出了兩種可能的解釋。一種是，不同大小的模型在輸出層面會(huì)趨向于生成相似的答案，因?yàn)樗鼈兌际腔谙嗨频拇笠?guī)模文本數(shù)據(jù)訓(xùn)練的，這種"創(chuàng)意同質(zhì)化"會(huì)掩蓋模型間的差異。另一種解釋是，隨著模型越大，其生成的回答在長(zhǎng)度、結(jié)構(gòu)和質(zhì)量上與人類的簡(jiǎn)短回答差距越來越大，導(dǎo)致兩者難以直接比較。這個(gè)發(fā)現(xiàn)為未來的研究指出了一個(gè)重要的局限：目前的對(duì)齊分析主要在輸入處理階段成立，生成階段的動(dòng)態(tài)機(jī)制還有待深入研究。

額頂網(wǎng)絡(luò)方面，研究團(tuán)隊(duì)也進(jìn)行了類似的分析。結(jié)果顯示，額頂網(wǎng)絡(luò)的對(duì)齊得分與AUT性能之間同樣存在顯著正相關(guān)（相關(guān)系數(shù)0.55），但與模型大小的相關(guān)性并不顯著（相關(guān)系數(shù)-0.18）。這說明默認(rèn)模式網(wǎng)絡(luò)和額頂網(wǎng)絡(luò)在與AI規(guī)模的關(guān)系上呈現(xiàn)出不同的模式，額頂網(wǎng)絡(luò)的對(duì)齊更多地與模型的"創(chuàng)意能力"本身相關(guān)，而不是單純的參數(shù)量。

為了確認(rèn)這些效應(yīng)確實(shí)是創(chuàng)意思維特有的，而不是任何任務(wù)或任何大腦網(wǎng)絡(luò)都會(huì)出現(xiàn)的普遍規(guī)律，研究團(tuán)隊(duì)做了兩個(gè)關(guān)鍵的對(duì)照實(shí)驗(yàn)。當(dāng)他們用非創(chuàng)意的OCT任務(wù)數(shù)據(jù)重復(fù)同樣的分析時(shí)，無論是模型大小還是AUT得分，與默認(rèn)模式網(wǎng)絡(luò)對(duì)齊的相關(guān)性均不顯著。當(dāng)他們把目標(biāo)換成與創(chuàng)意基本無關(guān)的軀體運(yùn)動(dòng)網(wǎng)絡(luò)時(shí)，同樣沒有發(fā)現(xiàn)顯著相關(guān)。這種"雙重解離"的模式非常有力地說明，前面觀察到的對(duì)齊效應(yīng)，正是由"創(chuàng)意相關(guān)任務(wù)"和"創(chuàng)意相關(guān)大腦網(wǎng)絡(luò)"這兩個(gè)條件共同決定的，而不是某種泛泛的巧合。

四、越深的層，越懂創(chuàng)意

大語言模型內(nèi)部由很多層組成，每一層都對(duì)輸入信息進(jìn)行一定程度的加工和轉(zhuǎn)化，就像流水線上的不同工序。已有的研究表明，越靠前的層通常處理比較基礎(chǔ)的詞匯和語法信息，越靠后的層則處理更抽象、更與任務(wù)相關(guān)的高級(jí)語義信息。

研究團(tuán)隊(duì)發(fā)現(xiàn)，在所有測(cè)試的模型中，與默認(rèn)模式網(wǎng)絡(luò)對(duì)齊程度最高的，往往是模型靠后的那些層。他們計(jì)算了每個(gè)模型"最佳對(duì)齊層"的相對(duì)位置（用層的編號(hào)除以總層數(shù)，得到一個(gè)0到1之間的數(shù)值），發(fā)現(xiàn)這個(gè)相對(duì)深度與對(duì)齊得分之間存在顯著正相關(guān)，相關(guān)系數(shù)為0.54，p值小于0.05。

從各模型的最佳層位置分布來看，峰值集中在相對(duì)深度0.5到0.75的區(qū)間，也就是說大多數(shù)模型的中后段層是與創(chuàng)意大腦響應(yīng)最相似的部分。這個(gè)結(jié)果與創(chuàng)造力本身作為高級(jí)認(rèn)知功能的定位是一致的——大腦的默認(rèn)模式網(wǎng)絡(luò)負(fù)責(zé)的是復(fù)雜的聯(lián)想和抽象思維，而不是基礎(chǔ)的詞匯處理，對(duì)應(yīng)到AI中，也應(yīng)該是那些處理高級(jí)抽象表示的深層網(wǎng)絡(luò)部分才與其最接近。

五、訓(xùn)練方式?jīng)Q定了AI對(duì)"創(chuàng)意大腦"的親疏遠(yuǎn)近

研究中最精彩、也最具實(shí)際意義的一部分，是關(guān)于不同訓(xùn)練策略如何影響AI與大腦創(chuàng)意響應(yīng)之間對(duì)齊關(guān)系的分析。

研究團(tuán)隊(duì)把參與者的大腦數(shù)據(jù)按照創(chuàng)意得分高低分成了兩組：高創(chuàng)意響應(yīng)組（評(píng)分大于等于2.0，共1358個(gè)樣本）和低創(chuàng)意響應(yīng)組（評(píng)分小于2.0，共1978個(gè)樣本）。評(píng)分量表雖然是1到5分，但由于分布左偏（大多數(shù)回答的創(chuàng)意程度并不高），以2.0為界能大致均衡兩組的樣本量。然后，他們分別測(cè)量幾個(gè)不同版本的Llama-3.1-8B模型與這兩個(gè)創(chuàng)意等級(jí)組的對(duì)齊程度。

這幾個(gè)版本分別是：未經(jīng)過任何微調(diào)訓(xùn)練的基礎(chǔ)預(yù)訓(xùn)練版本（Llama-3.1-8B）；經(jīng)過標(biāo)準(zhǔn)指令跟隨微調(diào)的對(duì)話版本（Llama-3.1-8B-Instruct）；經(jīng)過"創(chuàng)意偏好優(yōu)化"微調(diào)的版本（CrPO-Llama-3.1-8B-Instruct-cre），這個(gè)版本專門針對(duì)新穎性、驚喜感、多樣性和質(zhì)量等多個(gè)創(chuàng)意維度進(jìn)行了優(yōu)化；經(jīng)過模擬人類行為微調(diào)的版本（Llama-3.1-Minitaur-8B），這個(gè)模型被訓(xùn)練成能預(yù)測(cè)和復(fù)現(xiàn)人類在各種認(rèn)知任務(wù)中的實(shí)際行為表現(xiàn)；以及經(jīng)過推理鏈訓(xùn)練的版本（DeepSeek-R1-Distill-Llama-8B），這個(gè)模型通過學(xué)習(xí)DeepSeek-R1系統(tǒng)生成的"一步一步推理"過程進(jìn)行微調(diào)。

在提示詞階段，所有版本表現(xiàn)得非常相似，對(duì)高創(chuàng)意和低創(chuàng)意的大腦響應(yīng)都有一定程度的正向?qū)R，差異不明顯。這說明在"還沒開始想"的階段，不同訓(xùn)練策略帶來的差異還沒有充分顯現(xiàn)出來。

真正的分歧在模型生成回答之后出現(xiàn)了。標(biāo)準(zhǔn)指令微調(diào)版本（Llama-3.1-8B-Instruct）對(duì)高創(chuàng)意和低創(chuàng)意響應(yīng)都保持了相近的對(duì)齊程度，相對(duì)均衡。而創(chuàng)意優(yōu)化版本（CrPO）則表現(xiàn)出一種明顯的"選擇性"：它對(duì)低創(chuàng)意大腦響應(yīng)的對(duì)齊程度顯著下降，而對(duì)高創(chuàng)意大腦響應(yīng)仍然保持了相當(dāng)程度的對(duì)齊。這完全符合這個(gè)模型的訓(xùn)練目標(biāo)——它被專門訓(xùn)練成要生成更有創(chuàng)意的內(nèi)容，所以它的內(nèi)部表示結(jié)構(gòu)自然而然地向高創(chuàng)意的神經(jīng)幾何形狀靠近，同時(shí)遠(yuǎn)離低創(chuàng)意的神經(jīng)幾何形狀。

人類行為模擬版本（Minitaur）則表現(xiàn)出另一種有趣的模式：它對(duì)高創(chuàng)意和低創(chuàng)意的大腦響應(yīng)都有所提升。研究團(tuán)隊(duì)認(rèn)為這是因?yàn)?，這個(gè)模型被訓(xùn)練成能夠復(fù)現(xiàn)真實(shí)人類在各種場(chǎng)景下的行為，包括那些創(chuàng)意程度參差不齊的普通人的回答，所以它的表示空間與人類神經(jīng)響應(yīng)的整體分布更加吻合，無論是高創(chuàng)意還是低創(chuàng)意都能更好地對(duì)應(yīng)。

基礎(chǔ)預(yù)訓(xùn)練版本（Llama-3.1-8B，沒有指令微調(diào)）在生成階段幾乎喪失了對(duì)兩種創(chuàng)意水平的所有對(duì)齊。這可能是因?yàn)?，沒有經(jīng)過指令微調(diào)的基礎(chǔ)模型根本無法有效地理解和遵循創(chuàng)意任務(wù)的要求，所以它在"嘗試完成任務(wù)"時(shí)的內(nèi)部狀態(tài)與真正在做創(chuàng)意思考的人類大腦狀態(tài)毫無關(guān)聯(lián)。

最引人注目的，是推理鏈訓(xùn)練版本（DeepSeek-R1-Distill）的表現(xiàn)：它對(duì)高創(chuàng)意大腦響應(yīng)呈現(xiàn)出負(fù)向?qū)R，而對(duì)低創(chuàng)意大腦響應(yīng)呈現(xiàn)出正向?qū)R。這是一個(gè)方向完全反轉(zhuǎn)的戲劇性結(jié)果。

這個(gè)結(jié)果的含義是：經(jīng)過推理鏈訓(xùn)練（也就是學(xué)習(xí)"先分析問題，再一步步推導(dǎo)答案"這種思維方式）的模型，其內(nèi)部表示結(jié)構(gòu)實(shí)際上與人類創(chuàng)意思考時(shí)的神經(jīng)模式背道而馳。推理鏈訓(xùn)練讓模型擅長(zhǎng)的是有條理的收斂性思維，而創(chuàng)意大腦活躍時(shí)的神經(jīng)幾何形狀，與這種分析推導(dǎo)式的處理模式在表示空間上處于相反的方向。換句話說，AI學(xué)會(huì)了"理性推理"，卻在某種意義上"失去"了對(duì)創(chuàng)意大腦的感應(yīng)能力。

六、這對(duì)AI開發(fā)意味著什么

研究團(tuán)隊(duì)在討論中指出，目前大多數(shù)主流的AI后訓(xùn)練策略，比如訓(xùn)練模型解數(shù)學(xué)題、寫代碼、進(jìn)行邏輯推理，本質(zhì)上都是在優(yōu)化收斂性思維——這些任務(wù)都有標(biāo)準(zhǔn)答案，可以用機(jī)器自動(dòng)評(píng)判，訓(xùn)練起來方便高效。然而，這篇研究的結(jié)果暗示，過度強(qiáng)調(diào)這類訓(xùn)練，可能會(huì)在無意間削弱模型的發(fā)散性思維能力，讓模型的內(nèi)部表示結(jié)構(gòu)越來越遠(yuǎn)離人類創(chuàng)意神經(jīng)幾何的形狀。

一個(gè)具體的證據(jù)就是，推理鏈訓(xùn)練版本不僅在神經(jīng)對(duì)齊層面出現(xiàn)了反轉(zhuǎn)，從直覺上也符合許多人的觀察：用推理鏈訓(xùn)練出來的AI往往給出的答案更"規(guī)整"，但創(chuàng)意上有時(shí)顯得過于保守或千篇一律。而專門針對(duì)創(chuàng)意進(jìn)行優(yōu)化的版本，則在對(duì)齊上呈現(xiàn)出更符合預(yù)期的選擇性模式。

研究團(tuán)隊(duì)認(rèn)為，大腦對(duì)齊分析提供了一種超越行為測(cè)試的、更深層的評(píng)估維度。一個(gè)模型在創(chuàng)意測(cè)試上得分高，并不一定意味著它的內(nèi)部機(jī)制真正在"以類似人類的方式"進(jìn)行創(chuàng)意處理；反過來，如果一個(gè)模型的內(nèi)部表示在神經(jīng)層面與創(chuàng)意大腦高度對(duì)齊，這可能意味著它掌握了更接近人類創(chuàng)造性認(rèn)知的某種計(jì)算原理。

說到底，這項(xiàng)研究最終想告訴我們的是：AI的創(chuàng)造力不只是一個(gè)行為表現(xiàn)問題，它背后有著可以被神經(jīng)科學(xué)工具檢驗(yàn)的內(nèi)部結(jié)構(gòu)。而現(xiàn)在流行的"讓AI學(xué)會(huì)理性推理"的訓(xùn)練路線，與"讓AI學(xué)會(huì)創(chuàng)意發(fā)散"的目標(biāo)之間，存在著需要認(rèn)真權(quán)衡的張力。這對(duì)于未來希望AI能在科學(xué)發(fā)現(xiàn)、藝術(shù)創(chuàng)作或復(fù)雜問題解決等真正需要?jiǎng)?chuàng)造力的領(lǐng)域發(fā)揮作用的研究者和開發(fā)者來說，是一個(gè)值得認(rèn)真對(duì)待的信號(hào)。

歸根結(jié)底，這項(xiàng)研究像一次精密的"內(nèi)窺鏡檢查"，讓我們第一次真正看到了AI在"思考創(chuàng)意"時(shí)，其內(nèi)部狀態(tài)與人類創(chuàng)意大腦之間的共鳴與分歧。更大的模型、更高的創(chuàng)意能力、更深的網(wǎng)絡(luò)層次，都會(huì)讓AI的"創(chuàng)意思維"更接近人類大腦的運(yùn)作方式——但前提是訓(xùn)練的方向要對(duì)，否則即便參數(shù)再多，向著"理性推理"的方向一路走下去，只會(huì)讓AI的大腦越來越不像那個(gè)在天馬行空、浮想聯(lián)翩的你。這對(duì)于一個(gè)充滿復(fù)雜問題、迫切需要真正創(chuàng)意的世界而言，是一個(gè)關(guān)乎AI發(fā)展方向的根本性提醒。感興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者，可以通過arXiv編號(hào)2604.03480查閱完整論文。

Q&A

Q1：替代用途測(cè)試（AUT）是什么，為什么用它來研究創(chuàng)造力？

A：替代用途測(cè)試是心理學(xué)中衡量發(fā)散性思維的經(jīng)典工具。測(cè)試者會(huì)被給予一個(gè)普通物品的名稱，比如"磚頭"或"回形針"，然后盡量想出這個(gè)物品不尋常的用途，評(píng)審再根據(jù)答案的創(chuàng)意程度打分。這個(gè)測(cè)試能反映出一個(gè)人從單一出發(fā)點(diǎn)產(chǎn)生多元、原創(chuàng)想法的能力，被廣泛認(rèn)為是衡量創(chuàng)造力的可靠指標(biāo)，因此被用來同時(shí)測(cè)試人類參與者和大語言模型的創(chuàng)意表現(xiàn)。

Q2：推理鏈訓(xùn)練為什么會(huì)讓AI與創(chuàng)意大腦的對(duì)齊出現(xiàn)"反轉(zhuǎn)"？

A：推理鏈訓(xùn)練讓模型學(xué)會(huì)一步步邏輯推導(dǎo)的思維方式，這種思維模式本質(zhì)上是收斂性的，目標(biāo)是找到唯一正確答案。而人類創(chuàng)意思維時(shí)活躍的大腦網(wǎng)絡(luò)（默認(rèn)模式網(wǎng)絡(luò)）對(duì)應(yīng)的是發(fā)散、自由聯(lián)想的神經(jīng)幾何狀態(tài)。兩種思維方式在大腦表示空間中處于相反的方向，因此推理鏈訓(xùn)練會(huì)把模型的內(nèi)部表示結(jié)構(gòu)推向與創(chuàng)意大腦響應(yīng)相反的方向，導(dǎo)致對(duì)高創(chuàng)意響應(yīng)出現(xiàn)負(fù)向?qū)R。

Q3：表征相似性分析（RSA）是怎么比較AI和大腦的？

A：RSA的核心思路是比較"相似度結(jié)構(gòu)"而非直接比較數(shù)值。研究團(tuán)隊(duì)把46個(gè)物品分別輸入AI和呈現(xiàn)給人類參與者，然后分別計(jì)算每?jī)蓚€(gè)物品之間在AI內(nèi)部表示空間中的距離、以及在大腦響應(yīng)模式中的距離，形成兩個(gè)"距離矩陣"。如果AI認(rèn)為某兩個(gè)物品很相似（距離近），大腦響應(yīng)也認(rèn)為它們相似，就說明兩者的幾何結(jié)構(gòu)是對(duì)齊的。這個(gè)方法不需要AI和大腦使用同樣的"語言"，只需要它們對(duì)物品之間關(guān)系的"感知結(jié)構(gòu)"一致即可。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.