大語言模型的“涌現(xiàn)”之謎：能力還是智能？

2025-12-31 15:01:55　來源: 集智俱樂部

北京舉報

分享至

導(dǎo)語

涌現(xiàn)（Emergence）是復(fù)雜科學(xué)中的核心概念，用以描述多體系統(tǒng)如何在規(guī)模擴展后呈現(xiàn)出全新的宏觀屬性——這些屬性可以由低維的有效變量與理論加以刻畫，而無需逐一追蹤微觀機制，這正是安德森所說的“多者異也（more is different）”。智能則常被視為涌現(xiàn)的極致形態(tài)：它不是簡單疊加更多能力，而是通過高度壓縮的概念與表征，以更低成本、更高效率解決更廣泛的問題，即“少者豐也（less is more）”。

近年來，大語言模型在規(guī)模擴展過程中展現(xiàn)出的能力躍遷，頻繁被稱為“涌現(xiàn)”。但一個關(guān)鍵問題隨之浮現(xiàn)：這些現(xiàn)象究竟符合復(fù)雜系統(tǒng)意義上的涌現(xiàn)，還是只是工程尺度放大下的能力堆疊？更重要的是，它們是否已經(jīng)觸及“涌現(xiàn)智能”的門檻？本文從復(fù)雜系統(tǒng)的經(jīng)典定義出發(fā)，系統(tǒng)審視大語言模型中的“涌現(xiàn)”主張，并論證：當(dāng)前證據(jù)更支持涌現(xiàn)能力的存在，而非真正意義上的涌現(xiàn)智能。

關(guān)鍵詞：涌現(xiàn)（Emergence）、大語言模型（Large Language Models）、復(fù)雜系統(tǒng)（Complex Systems）、涌現(xiàn)能力（Emergent Capabilities）、涌現(xiàn)智能（Emergent Intelligence）、知識輸出（Knowledge-Out）、知識輸入（Knowledge-In）

Lynne丨作者

趙思怡丨審校

論文題目：Large Language Models and Emergence: A Complex Systems Perspective 論文鏈接：https://arxiv.org/html/2506.11135v1 發(fā)表時間：2025年6月10日論文來源：arXiv

引言：當(dāng)模型變大，驚喜就來了嗎？

近年來，大語言模型展現(xiàn)出的各種能力常常令人驚嘆。從流暢的文本生成、代碼編寫，到看似復(fù)雜的邏輯推理，這些能力似乎隨著模型參數(shù)和數(shù)據(jù)規(guī)模的擴大而“突然”出現(xiàn)。許多研究者將這種不連續(xù)性稱為“涌現(xiàn)”（Emergence），認為這是模型在跨越某個規(guī)模閾值后產(chǎn)生了質(zhì)的改變。然而，爭議并不在于這些能力是否真實存在，而在于它們是否符合科學(xué)意義上的“涌現(xiàn)”。在復(fù)雜系統(tǒng)研究中，涌現(xiàn)并不等同于“突然變強”或“超出預(yù)期”，而是指系統(tǒng)內(nèi)部組織方式發(fā)生了可識別的重構(gòu)，使我們能夠用更簡潔、更高效的描述來理解其行為。本文將帶領(lǐng)讀者從復(fù)雜系統(tǒng)的經(jīng)典視角，重新審視大語言模型的“涌現(xiàn)”之爭，并深入探討一個更根本的問題：我們今天所見，究竟是模型的涌現(xiàn)能力，還是真正的涌現(xiàn)智能？

“涌現(xiàn)”在科學(xué)中意味著什么？

在討論大語言模型之前，我們先厘清“涌現(xiàn)”在復(fù)雜科學(xué)中的核心要義。涌現(xiàn)并非僅僅指代性能的突變或人類觀察者的意外之感。其最本質(zhì)的特征在于 “粗粒化” 與 “有效理論” 的形成。

想象一下描述流體運動。最微觀的方法，是追蹤每一個分子的位置和動量，運用分子動力學(xué)進行模擬。但這在大多數(shù)工程實踐中既不必要也不可行。相反，我們使用流體動力學(xué)，只需關(guān)注質(zhì)量、壓力、流速等宏觀變量。流體動力學(xué)就是描述流體涌現(xiàn)屬性的一種“有效理論”——它通過一組粗粒化的變量，成功地“屏蔽”了無關(guān)的微觀細節(jié)，從而高效地預(yù)測和解釋系統(tǒng)的行為。這就是安德森那句名言“多者異也”（more is different）的精髓所在：“異”，在于出現(xiàn)了能用新穎的、粗?；淖兞亢秃暧^規(guī)則來描述系統(tǒng)演化的新層面。

因此，判斷一個屬性是否為涌現(xiàn)屬性，一個標志是：系統(tǒng)是否形成了一種新的、壓縮的（compressed）描述方式，這種描述通過粗粒化觀測變量，在保持預(yù)測能力的同時，大幅降低了描述的復(fù)雜度，進而降低預(yù)測和控制系統(tǒng)的巨大成本。

通常而言，當(dāng)系統(tǒng)滿足以下至少部分條件時，可認為其具有涌現(xiàn)性：

規(guī)模化（Scaling）：系統(tǒng)組件數(shù)量的變化如何影響其特性；
臨界性（Criticality）：系統(tǒng)的相態(tài)理論；
壓縮性（Compression）：通過高效粗?；瘜崿F(xiàn)系統(tǒng)描述規(guī)模或維度的降低；
新型基底（Novel Bases）：發(fā)現(xiàn)能夠描述系統(tǒng)的最小構(gòu)成元素；
泛化性（Generalization）：系統(tǒng)規(guī)則在訓(xùn)練或適應(yīng)場景之外的表現(xiàn)。

大語言模型文獻中的“涌現(xiàn)”

在大語言模型的研究領(lǐng)域，“涌現(xiàn)”一詞的使用往往與上述科學(xué)定義有所偏離。2022年，《Emergent Abilities of Large Language Models》的作者們指出，隨著模型規(guī)模和訓(xùn)練數(shù)據(jù)量的擴大，模型在某些基準測試上的性能會出現(xiàn)不連續(xù)的、意外的躍升，這些能力在小規(guī)模模型中并不存在，也無法通過簡單外推小模型的性能改善來預(yù)測。例如，在一個三位數(shù)加法的測試中，60億參數(shù)的模型準確率僅為1%，130億參數(shù)模型略升至8%，而1750億參數(shù)的模型卻突然達到了80%的準確率。這種類似“相變”的突變模式，被許多后續(xù)研究引為涌現(xiàn)的證據(jù)。不過，也有學(xué)者提出，若采用更具連續(xù)性的成功度量指標，其性能隨規(guī)模的提升會呈現(xiàn)連續(xù)性特征，而非突變。

也有觀點認為，LLMs的涌現(xiàn)能力可能源于大模型在“上下文學(xué)習(xí)”（in-context learning）上的可預(yù)測提升，或訓(xùn)練后的“指令調(diào)優(yōu)”（instruction tuning），這些因素改善了大模型遵循提示指令的能力。

此外，也有研究將“涌現(xiàn)能力”寬泛地定義為模型未經(jīng)專門訓(xùn)練而自發(fā)獲得的能力，例如數(shù)值理解、類比推理、法律推理，乃至內(nèi)部“世界模型”的形成。

總體而言，LLM文獻中的涌現(xiàn)一詞主要用于兩種情況：

隨著數(shù)據(jù)、模型或集群規(guī)模的擴大，模型在特定基準上準確率的意外跳躍
模型獲得了未經(jīng)過明確訓(xùn)練的能力，

但這些往往缺乏復(fù)雜系統(tǒng)科學(xué)中的嚴謹基礎(chǔ)。

知識輸出 vs. 知識輸入：兩種不同的涌現(xiàn)

為了更精準地分析大語言模型，我們需要區(qū)分兩種不同類型的涌現(xiàn)，這源于系統(tǒng)與環(huán)境互動方式的不同。

知識輸出涌現(xiàn)（knowledge-out, KO）：這種涌現(xiàn)見于物理、化學(xué)等經(jīng)典復(fù)雜系統(tǒng)。其特點是，宏觀的復(fù)雜結(jié)構(gòu)或行為源于大量簡單組分之間簡單的相互作用。例如，水分子的簡單互動在宏觀上涌現(xiàn)出流體的特性；硅和氧原子在高壓下結(jié)合，集體涌現(xiàn)出石英晶體的壓電特性。這些屬性并非設(shè)計或?qū)W習(xí)的目標，而是相互作用的自然結(jié)果。這里的“知識”是由系統(tǒng)內(nèi)部“輸出”到世界的。

知識輸入涌現(xiàn)（knowledge-in, KI）：這種涌現(xiàn)見于復(fù)雜的自適應(yīng)系統(tǒng)，如生物體、大腦、經(jīng)濟系統(tǒng)，以及大語言模型。這些系統(tǒng)的宏觀屬性（如器官、股票指數(shù)、認知能力）源于系統(tǒng)從預(yù)先存在的、高度復(fù)雜的環(huán)境中提取并內(nèi)化了大量的“知識”——即結(jié)構(gòu)化的信息、事實和規(guī)則。環(huán)境的復(fù)雜性被“輸入”到系統(tǒng)內(nèi)部，塑造其結(jié)構(gòu)。在這里，“涌現(xiàn)”常常與“訓(xùn)練”、“學(xué)習(xí)”、“演化”等過程交織。

大語言模型無疑是典型的“知識輸入”系統(tǒng)。它們通過機器學(xué)習(xí)方法，從海量文本語料庫中汲取信息。因此，在討論其涌現(xiàn)屬性時，我們必須同時關(guān)注其展現(xiàn)的粗?；謱傩裕约斑@些屬性是如何從局部微觀機制（如神經(jīng)元的權(quán)重與激活）中產(chǎn)生的。不能僅憑宏觀性能的提升就下結(jié)論，因為那可能只是大規(guī)模訓(xùn)練直接“編程”的結(jié)果。

分析大語言模型的涌現(xiàn)

大型語言模型（LLMs）展現(xiàn)出的是何種類型的涌現(xiàn)性？與涌現(xiàn)性相關(guān)的粗粒化和壓縮過程是什么？其行為對應(yīng)的有效理論又能提供哪些涌現(xiàn)性證據(jù)？如何在一個“知識輸入”系統(tǒng)中嚴謹?shù)卦u估涌現(xiàn)？我們可以借助復(fù)雜科學(xué)中研究涌現(xiàn)的核心機制來分析：

規(guī)模化與臨界性：系統(tǒng)屬性如何隨組件數(shù)量（尺度）變化？是否存在類似相變的臨界點，伴隨對稱性破缺和內(nèi)部組織的質(zhì)性重組？首先，目前尚不清楚大型語言模型的能力是否存在明確 “相態(tài)”，也不確定觀測到的準確率驟升在特定度量標準下是否實為連續(xù)性提升。其次，大型語言模型的控制變量 “規(guī)?！?實際上是文本數(shù)據(jù)與模型參數(shù)交織的高維復(fù)雜變量，而非簡單的一維參數(shù)。如果模型展現(xiàn)出的宏觀能力是通過大量訓(xùn)練 “編程” 而成，那么這種行為很難被稱為涌現(xiàn)。真正的涌現(xiàn)，應(yīng)體現(xiàn)為外部能力突變與內(nèi)部結(jié)構(gòu)簡化、重組之間的同步與因果關(guān)聯(lián)，不能僅憑性能曲線的陡峭變化下結(jié)論。目前，一些研究觀察到了損失函數(shù)的突然下降與內(nèi)部句法結(jié)構(gòu)的獲得同步發(fā)生，且這種結(jié)構(gòu)似乎支持低復(fù)雜度描述。這可能是涌現(xiàn)能力的一個證據(jù)。然而，許多所謂的“性能躍升”是否真的對應(yīng)內(nèi)部表征的根本性重構(gòu)，仍需更多微觀證據(jù)。
壓縮：系統(tǒng)內(nèi)部是否發(fā)現(xiàn)了能夠捕捉數(shù)據(jù)規(guī)律性的、壓縮的粗粒化模型？例如，在僅用合法走子序列訓(xùn)練的OthelloGPT模型中，研究者發(fā)現(xiàn)其內(nèi)部形成了對棋盤狀態(tài)的壓縮表征，類似于一個“涌現(xiàn)世界模型”，且OthelloGPT模型并未涉及規(guī)模化。這展示了通過壓縮實現(xiàn)的一種涌現(xiàn)形式。不過，也有質(zhì)疑認為這種內(nèi)部模型可能只是一堆啟發(fā)式規(guī)則的集合，且其與模型性能的因果關(guān)聯(lián)尚不明確。因此尚不能確定這是一種真正的涌現(xiàn)能力。
新型基底與流形：系統(tǒng)是否發(fā)現(xiàn)了新的基礎(chǔ)組件或低維流形，來更高效地編碼信息？在大語言模型中，有研究發(fā)現(xiàn)自監(jiān)督Transformer中出現(xiàn)了抽象表征單元，視覺輸入中的協(xié)變特征表明新基的存在。但此類證據(jù)尚少。
泛化：系統(tǒng)是否擁有在訓(xùn)練分布之外的全新情境中解決問題的能力？涌現(xiàn)的粗粒化變量和理論能夠促成強大的泛化。對大語言模型而言，挑戰(zhàn)在于區(qū)分其表現(xiàn)是源于真正的泛化，還是對訓(xùn)練數(shù)據(jù)中相似模式的隱性記憶。已有一些例子表明，某些曾被稱作“涌現(xiàn)”的能力缺乏穩(wěn)健的泛化性。

結(jié)論：涌現(xiàn)能力 ≠ 涌現(xiàn)智能

通過對現(xiàn)有證據(jù)的梳理，我們認為大語言模型確實展示了一些符合“涌現(xiàn)能力”初步證據(jù)的現(xiàn)象，特別是在內(nèi)部形成壓縮表征或伴隨尺度變化出現(xiàn)內(nèi)部重組跡象的案例中。然而，大多數(shù)僅僅基于外部性能“意外”提升的主張，尚未滿足涌現(xiàn)所需的、關(guān)于內(nèi)部粗?；瘷C制的核心條件。

更重要的是，我們必須嚴格區(qū)分涌現(xiàn)能力與涌現(xiàn)智能。

涌現(xiàn)能力指的是一項項具體的、有時甚至超越人類水平的功能性表現(xiàn)。就像一個計算器，它內(nèi)部編碼了多種算法，功能強大，但我們不會稱其為“智能”，因為它無法在這些概念之間構(gòu)建類比，也無法通過簡單修改規(guī)則來創(chuàng)造新的能力。
涌現(xiàn)智能則是一種更一般、更精煉的解決問題的能力。它意味著“少者豐也（less is more）”：用盡可能少的概念和能量消耗，解決盡可能多的問題。人類智能是典型的涌現(xiàn)智能：我們通過抽象、類比，將牛頓力學(xué)、電磁學(xué)等不同領(lǐng)域的規(guī)律統(tǒng)一于“平方反比律”這樣的粗?；拍钪拢晃覀兺ㄟ^寥寥數(shù)語的語言指令，就能讓他人在幾分鐘內(nèi)理解一個復(fù)雜任務(wù)，瞬間重構(gòu)其神經(jīng)表征，而無需漫長試錯。這種基于理解、能夠靈活遷移和創(chuàng)造的低帶寬、高效率的認知方式，才是智能的本質(zhì)。

目前的大語言模型，更像是無數(shù)個高度特化“計算器”的龐大集合。它們通過海量參數(shù)和數(shù)據(jù)進行“暴力”擬合，實現(xiàn)了令人眼花繚亂的功能，但在概念壓縮、類比創(chuàng)造、高效理解方面，尚未展現(xiàn)出人類智能那種“以簡馭繁”的涌現(xiàn)特質(zhì)。

展望：語言是鑰匙嗎？

語言在大語言模型的訓(xùn)練中扮演何種角色？這可能決定了其能力的上限。有三種可能：(1) 語言本身是對世界（包括非語言模態(tài)）近乎完整且壓縮的表述；(2) 語言反映了內(nèi)在的“思維語言”；(3) 語言是一種無監(jiān)督的“編程語言”。無論哪種情況，語言中蘊含的世界信息越豐富，模型通過單純擴大規(guī)模來“學(xué)習(xí)”一切的可能性就越大，但這恰恰會削弱真正的“涌現(xiàn)”主張——因為在這種“知識輸入”的極限下，模型內(nèi)部的自由度只是通過工程手段收斂于每一個外部自由度，并未產(chǎn)生或需要一個新穎的、粗粒化的內(nèi)部模型。

未來的研究，應(yīng)當(dāng)超越對基準測試分數(shù)的迷戀，轉(zhuǎn)而深入模型“黑箱”內(nèi)部，探尋那些支持壓縮、泛化和類比的新穎結(jié)構(gòu)與機制。唯有如此，我們才能更科學(xué)地評估大語言模型乃至更廣泛人工智能中的涌現(xiàn)現(xiàn)象，并最終解答那個根本問題：我們是在創(chuàng)造更強大的工具，還是在孕育真正的新型智能？答案或許就藏在“更多”與“更少”的辯證法之中。

大語言模型與多智能體系統(tǒng)讀書會

集智俱樂部聯(lián)合西湖大學(xué)工學(xué)院特聘研究員趙世鈺、浙江大學(xué)教授任沁源、鵬城實驗室高級工程師崔金強，共同發(fā)起，探究大語言模型給機器人領(lǐng)域帶來的新思想新價值。讀書會已完結(jié)，現(xiàn)在報名可加入社群并解鎖回放視頻權(quán)限。

詳情請見：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.