網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

斯坦福最新論文，揭秘大語言模型心智理論的基礎(chǔ)！破解其涌現(xiàn)之謎，最好的方法就是這個(gè)

2025-09-26 23:23:56　來源: 互聯(lián)網(wǎng)思想

廣東舉報(bào)

分享至

斯坦福最新論文，揭秘大語言模型心智理論的基礎(chǔ)

文｜博陽

編輯｜可君

如果你曾好奇，沒有情感和經(jīng)歷的AI，究竟是如何學(xué)會(huì)“察言觀色”、理解人類意圖的，這篇文章會(huì)給你一個(gè)清晰的答案。它解釋了那些被認(rèn)為是人類專屬的“心智”能力，是如何從最簡(jiǎn)單的規(guī)則中誕生的。

從去年開始，Anthropic的一系列研究逐漸揭開了大模型”心理學(xué)“的序幕，也開始讓人們逐步了解到，模型可能具有欺騙、自保等看起來非常有”自主意識(shí)“的行為。

Anthropic也曾經(jīng)開發(fā)過一種名為“Circuit Tracing”（工作回路追蹤）的方法，試圖剖析模型做出判斷時(shí)其神經(jīng)信號(hào)的傳遞規(guī)律，但整體來看，行業(yè)目前在大模型心理解剖學(xué)上的進(jìn)展仍然處在相對(duì)初級(jí)的階段。

近期，斯坦福大學(xué)發(fā)布在《nature》子刊《npj Artificial Intelligence》的論文《How large language models encode theory-of-mind: a study on sparse parameter patterns》，嘗試了一種更間接的研究方法，但卻更明確地將AI認(rèn)知能力的解剖學(xué)更清晰地描繪了出來。

論文所研究的認(rèn)知能力叫“心智理論”（Theory of Mind），這一能力長(zhǎng)期以來被認(rèn)為是人類獨(dú)有的關(guān)鍵特質(zhì)——是指?jìng)€(gè)體 “理解他人內(nèi)心想法、意圖與信念” 的能力，這是構(gòu)建人類社會(huì)認(rèn)知、實(shí)現(xiàn)情感共鳴與順暢社交互動(dòng)的基石。

而今，越來越多的Benchmark和測(cè)試表明，LLM本身似乎也開始掌握這項(xiàng)能力了。這個(gè)原屬于人類或其他高等生物認(rèn)知的特有現(xiàn)象，是如何發(fā)生在一個(gè)硅基智能上的？

這篇論文的研究者提出了一個(gè)發(fā)現(xiàn)：模型中驅(qū)動(dòng)這種復(fù)雜社交推理的能力，其根源并非彌散于整個(gè)龐大的神經(jīng)網(wǎng)絡(luò)，而是驚人地集中在僅占模型總參數(shù) 0.001% 的一小撮“神經(jīng)元”上。

更重要的是，這篇論文所揭示的不僅是一個(gè)關(guān)于人工智能的新秘密，更清晰展示出來智能本身如何從最基礎(chǔ)的秩序中涌現(xiàn)出來的動(dòng)力學(xué)原理。

一臺(tái)機(jī)器也有心智劇場(chǎng)

“心智理論”（Theory-of-Mind, ToM）這一概念，最早由心理學(xué)家大衛(wèi)·普雷馬克（David Premack）在研究黑猩猩時(shí)提出，指的是個(gè)體推斷自身與他人心理狀態(tài)（包括信念、意圖、欲望和知識(shí)等）的能力。它是我們理解他人言外之意、進(jìn)行有效溝通、形成社會(huì)紐帶的核心。

在人類心智發(fā)展的漫長(zhǎng)階梯上，大約四歲左右的孩童會(huì)迎來一個(gè)決定性的時(shí)刻。他們開始理解，別人的想法可以和自己不一樣，而且別人的想法可以是錯(cuò)的。這便是“心智理論”覺醒的標(biāo)志。

科學(xué)家經(jīng)常用“錯(cuò)誤信念”測(cè)試來評(píng)估這種能力。比如論文中就用了這種方式，它描述了一個(gè)場(chǎng)景：桌上有一個(gè)外觀精美的巧克力袋，山姆走過來，看到了這個(gè)袋子，并閱讀了標(biāo)簽，他相信里面裝滿了巧克力。但他不知道的是，袋子里實(shí)際上裝的是爆米花。

此時(shí)，一個(gè)具備心智能力的人會(huì)被問到兩個(gè)問題：第一，袋子里真實(shí)裝的是什么？（爆米花）；第二，山姆認(rèn)為袋子里有什么？（巧克力）。能夠清晰地區(qū)分客觀現(xiàn)實(shí)與他人主觀信念，正是心智能力的核心體現(xiàn)。

在過去的認(rèn)知測(cè)試中，這些問題能夠有效地篩查出心智發(fā)育的進(jìn)程。

然而，當(dāng)研究人員抱著試探性的心態(tài)將這些問題拋給最新一代的大型語言模型（LLMs）時(shí)，如Llama、Qwen等先進(jìn)模型，在很大程度上能夠像一個(gè)心智成熟的人一樣，準(zhǔn)確地回答這些問題。它們似乎真的能夠“代入”到故事角色的視角中，理解他們的信息差，并據(jù)此做出合乎邏輯的推理。

這些模型并沒有真實(shí)的生活體驗(yàn)，沒有情感，也沒有意識(shí)，也沒有經(jīng)歷心理學(xué)上自我覺醒的“鏡面階段”。它們對(duì)情景和主體的“理解”從何而來？

解剖一個(gè)數(shù)字幽靈

為了鑿開這個(gè)“黑箱”，斯坦福的研究團(tuán)隊(duì)，展開了一場(chǎng)前所未有的深入“神經(jīng)回路”的探險(xiǎn)。他們?cè)噲D找到并解剖那些真正負(fù)責(zé)心智能力的功能器官。

研究團(tuán)隊(duì)運(yùn)用了一種基于“Hessian矩陣”的敏感度分析方法，這種方法可以精確測(cè)量模型中每一個(gè)參數(shù)對(duì)于特定任務(wù)的重要性。他們的目標(biāo)，就是找到控制心智能力的總開關(guān)。

經(jīng)過精密的計(jì)算和篩選，他們發(fā)現(xiàn)：在擁有數(shù)十億甚至更多參數(shù)的龐大模型中，驅(qū)動(dòng)ToM能力的關(guān)鍵參數(shù)，其數(shù)量占比僅為0.001%。這是一個(gè)極其稀疏、高度集中的“心智核心”。這一發(fā)現(xiàn)本身就顛覆了許多研究者關(guān)于高級(jí)能力在神經(jīng)網(wǎng)絡(luò)中“廣泛分布”的傳統(tǒng)認(rèn)知。

論文指出，這些參數(shù)并非隨機(jī)散落，而是呈現(xiàn)出一種結(jié)構(gòu)化的低秩特性，主要集中在與注意力機(jī)制直接相關(guān)的查詢（Query）和鍵（Key）矩陣中。這暗示著，模型的社交推理能力，與其最核心的信息處理中樞注意力機(jī)制，存在著直接的物理聯(lián)系。

在初步識(shí)別出那0.001%的“心智核心”參數(shù)后，研究人員首先做了一件經(jīng)典的科學(xué)工作：設(shè)立對(duì)照組。他們發(fā)現(xiàn)，當(dāng)對(duì)這些參數(shù)進(jìn)行擾動(dòng)時(shí)，Llama和Qwen這類使用RoPE架構(gòu)的模型，其心智能力會(huì)崩潰。

之后，他們將同樣的“手術(shù)”應(yīng)用在了不使用RoPE的Jamba模型上。結(jié)果發(fā)現(xiàn)，Jamba的心智能力并未受到影響。因此，這種脆弱性并非普遍存在，而是與一種特定的技術(shù)選擇相關(guān)。

這種技術(shù)就是RoPE。

先理解一下RoPE是做什么的。語言本質(zhì)上是一個(gè)序列，詞語的順序就定義了意義。為了讓模型理解這一點(diǎn)，RoPE為每一個(gè)詞的位置都賦予了一個(gè)獨(dú)特的旋轉(zhuǎn)操作。比如當(dāng)一個(gè)詞出現(xiàn)在句子的第一個(gè)位置時(shí)，它的位置是90度，不旋轉(zhuǎn)；在第二個(gè)位置時(shí)，旋轉(zhuǎn)一個(gè)小角度；在第三個(gè)位置時(shí)，再旋轉(zhuǎn)一個(gè)小角度，以此類推。因此，每個(gè)詞在整個(gè)上下文中的相對(duì)位置，都被精確地編碼在了RoPE展示的角度標(biāo)簽里。

這篇論文發(fā)現(xiàn)，RoPE的運(yùn)作依賴于某些特定的“主導(dǎo)頻率激活”模式。在RoPE給每個(gè)詞做角度標(biāo)記的時(shí)候，有的詞旋轉(zhuǎn)幅度很大，被稱為高頻維度。這種高頻維度一般都用來承載最重要上下文順序信息。

而且研究人員還通過進(jìn)一步的攪動(dòng)比較發(fā)現(xiàn)，那些稀疏的“心智核心”參數(shù)在模型中的作用，與“主導(dǎo)頻率”的模式精確地對(duì)齊。

因此，當(dāng)攪動(dòng)這部分參數(shù)之后，使用RoPE的模型就喪失了“上下文定位能力”，整個(gè)語言結(jié)構(gòu)在它“眼中”變得模糊不清。擾動(dòng)破壞了這種幾何關(guān)系，導(dǎo)致注意力被胡亂分散到不相關(guān)的信息上，最終瓦解了模型連貫的理解能力。

而在Jamba中擾動(dòng)心智參數(shù)并不會(huì)通過位置編碼來影響其上下文定位能力。因此也就不會(huì)有心智能力的突然衰退。

不過這至少為我們解釋模型的心智能力找到一個(gè)底層基礎(chǔ)，即對(duì)句子前后位置的理解。

重構(gòu)心智能力的基礎(chǔ)

這項(xiàng)深入“硅基大腦”的探險(xiǎn)，為我們描繪了一個(gè)復(fù)雜如“心智理論”的智能，是如何從最基礎(chǔ)的規(guī)則中一步步涌現(xiàn)（emerge）的。

首先試搭建智能基石的語序。論文通過解剖模型心智參數(shù)，得到的一個(gè)核心結(jié)論就是，對(duì)序列和結(jié)構(gòu)的精確把握，是所有高級(jí)認(rèn)知能力的絕對(duì)前提。

模型首先需要一個(gè)像RoPE這樣強(qiáng)大而穩(wěn)定的內(nèi)部“GPS系統(tǒng)”，來構(gòu)建起一個(gè)有序的、可依賴的語言世界模型。沒有對(duì)“誰在先、誰在后”、“誰對(duì)誰做了什么”這類基本位置關(guān)系的精確理解，一切后續(xù)的推理都不可能。

第二步，就是在秩序之上學(xué)習(xí)世界的規(guī)律。

在這個(gè)由秩序搭建起來的堅(jiān)實(shí)骨架之上，通過對(duì)人類語言文本進(jìn)行統(tǒng)計(jì)學(xué)分析，模型開始發(fā)現(xiàn)并內(nèi)化語言中所蘊(yùn)含的關(guān)于我們世界的規(guī)律。

比如在文本中，動(dòng)詞時(shí)態(tài)的變化（如puts變?yōu)閙oved）以及時(shí)間副詞（如before、later）的出現(xiàn)，總是與事件在時(shí)間軸上的先后順序呈現(xiàn)出高度相關(guān)的模式。某些事件的描述（如“玻璃杯掉到地上”）總是傾向于出現(xiàn)在另一些事件（如“玻璃杯碎了”）之前。這些文字中的模式，構(gòu)成了模型對(duì)因果關(guān)系模擬的基礎(chǔ)。

雖然也許模型并非真正“理解”了時(shí)間和因果，但確實(shí)通過語序的根基，能夠?qū)W習(xí)到了這些概念在人類語言中的“統(tǒng)計(jì)學(xué)投影”。

之后，便是智能的“涌現(xiàn)”。

最終，論文的作者們認(rèn)為，心智能力可能并非一個(gè)孤立的認(rèn)知模塊，而是“模型在掌握詞語定位和意義構(gòu)建等通用機(jī)制時(shí)所產(chǎn)生的一種涌現(xiàn)屬性” 。

當(dāng)一個(gè)模型對(duì)語言的底層結(jié)構(gòu)（秩序）、中層規(guī)律（時(shí)間與因果）都掌握得足夠好之后，它便自然而然地獲得了進(jìn)行更高級(jí)推理的能力。它能夠根據(jù)語序，為不同的角色分別模擬可能與客觀現(xiàn)實(shí)相悖的“信念路徑”。

這其中雖然還存在著一個(gè)潛在的Gap，因?yàn)槟Ｐ拖胍行闹悄芰Γ仨毷窃陬A(yù)訓(xùn)練中學(xué)會(huì)了一個(gè)隱含的統(tǒng)計(jì)學(xué)規(guī)律：一個(gè)角色的知識(shí)和信念，受其感知范圍的限制。但這都是建立在秩序、時(shí)間因果這些基礎(chǔ)認(rèn)知之上的。

一個(gè)對(duì)高級(jí)心智能力經(jīng)典的涌現(xiàn)解剖，到此就完成了最初的步驟。

認(rèn)識(shí)涌現(xiàn)

最容易的方法就是重構(gòu)其基礎(chǔ)

在2008年，著名哲學(xué)家大衛(wèi)·查爾莫斯曾經(jīng)對(duì)涌現(xiàn)現(xiàn)象做過一個(gè)經(jīng)典分析。

簡(jiǎn)單來說，查爾默斯將“涌現(xiàn)”（Emergence）定義為復(fù)雜系統(tǒng)從其低層次組分的相互作用中產(chǎn)生出高層次、新穎的整體特性。

弱涌現(xiàn)的核心是：高層次的現(xiàn)象是低層次組分相互作用的意外或不可預(yù)見的結(jié)果。但原則上，它完全可以由低層次的規(guī)律和初始條件來解釋和推導(dǎo)出來。

也就是說，雖然涌現(xiàn)這個(gè)事兒本身看起來很讓人意外，比如一堆無生命的原子組成了有生命的細(xì)胞，或一堆硅基芯片和算法產(chǎn)生了能理解他人意圖的“心智理論”。但它完全是可以通過物理規(guī)律解釋的，我們需要的，是通過科學(xué)方法去彌合中間的關(guān)聯(lián)性，找到那條從底層通往高層的路徑。

而這篇論文，就非常完美的證明了，想要建立起對(duì)大型語言模型“心理”的認(rèn)知、破解其涌現(xiàn)之謎，最好的方法就是重構(gòu)。

沿著這篇論文定位、解剖、重構(gòu)的路徑，我們一定會(huì)逐步將類同于魔法般的技術(shù)，還原為微觀的、邏輯清晰的計(jì)算過程。

（來源：騰訊科技）

為偉大思想而生！

AI+時(shí)代，互聯(lián)網(wǎng)思想（wanging0123)，

第一必讀自媒體

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.