貝葉斯先驗提煉到人工神經(jīng)網(wǎng)絡(luò)中建?？焖僬Z言學習

2025-12-24 17:30:47　來源: CreateAMind

上海舉報

分享至

Modeling rapid language learning bydistilling Bayesian priors into artificial neuralnetworks

貝葉斯先驗提煉到人工神經(jīng)網(wǎng)絡(luò)中建?？焖僬Z言學習

https://www.nature.com/articles/s41467-025-59957-y

人類能夠從極其有限的經(jīng)驗中學習語言。在認知科學中，開發(fā)能夠解釋這種能力的計算模型一直是一項重大挑戰(zhàn)?，F(xiàn)有方法在解釋人類如何在受控環(huán)境中快速泛化方面取得了成功，但通常過于受限，難以有效處理自然主義（真實世界）的數(shù)據(jù)。我們表明，通過一種彌合兩種主流建模傳統(tǒng)之間鴻溝的方法，可以從有限的自然主義數(shù)據(jù)中進行學習：即貝葉斯模型與神經(jīng)網(wǎng)絡(luò)。該方法將貝葉斯模型的歸納偏置（即指導泛化的因素）提煉到一個具有靈活表征能力的神經(jīng)網(wǎng)絡(luò)中。與貝葉斯模型類似，該系統(tǒng)能夠從有限數(shù)據(jù)中學習形式化的語言模式；與神經(jīng)網(wǎng)絡(luò)類似，它也能從自然出現(xiàn)的句子中學習英語句法的某些方面。因此，該模型提供了一個統(tǒng)一的系統(tǒng)，既能快速學習，又能處理自然主義數(shù)據(jù)。

在極其廣泛的情境中，人們能夠從有限的經(jīng)驗中做出豐富的泛化。這種能力在語言領(lǐng)域尤為明顯，使語言成為關(guān)于學習機制爭論的經(jīng)典場景。僅憑少量例子，人們就能學習新詞的含義1?3、新的句法結(jié)構(gòu)???以及新的音系規(guī)則??11。認知科學的一個核心挑戰(zhàn)，就是理解人們?nèi)绾文軓娜绱讼∩俚淖C據(jù)中推斷出如此豐富的語言知識12,13。這一難題已被廣泛討論，因而積累了多個不同的名稱，包括“刺激貧乏論”（poverty of the stimulus）1?、“柏拉圖問題”（Plato’s problem）1?，以及“語言習得的邏輯問題”（the logical problem of language acquisition）1?。

解釋快速學習的一種流行方法是使用基于貝葉斯推理的概率模型1??21。這些模型對假設(shè)如何被表征和選擇做出了明確的假設(shè)，從而產(chǎn)生強烈的歸納偏置（inductive biases）——即決定學習者如何超越自身經(jīng)驗進行泛化的因素22。因此，貝葉斯模型特別適合刻畫“從少量樣本中學習”的能力。例如，Yang 和 Piantadosi 最近提出的一個貝葉斯模型23表明，僅憑 10 個或更少的例子，就有可能學會句法的許多重要方面。然而，當貝葉斯模型被應(yīng)用于更大規(guī)模的數(shù)據(jù)集時，它們在假設(shè)的設(shè)定上面臨重大挑戰(zhàn)：這些假設(shè)既要足夠靈活以捕捉數(shù)據(jù)，又要保持計算上的可處理性。

另一種有影響力的建模方法是使用神經(jīng)網(wǎng)絡(luò)2??2?。這類方法很少對高層結(jié)構(gòu)做出預設(shè)，從而具備捕捉現(xiàn)實數(shù)據(jù)細微差別所需的靈活性。這些系統(tǒng)用數(shù)值連接權(quán)重的矩陣來表示假設(shè)，并通過數(shù)據(jù)驅(qū)動的學習過程，找到最適合當前任務(wù)的連接權(quán)重。當數(shù)據(jù)充足時，這種方法極為成功，產(chǎn)生了諸如近期語言模型 ChatGPT2? 等最先進的系統(tǒng)。然而，神經(jīng)網(wǎng)絡(luò)的這種靈活性伴隨著較弱的歸納偏置，使其在數(shù)據(jù)稀缺的情境中表現(xiàn)不佳。

我們認為，要解釋從自然主義（真實世界）數(shù)據(jù)中進行快速學習的能力，需要將表征（representations）與歸納偏置（inductive biases）解耦。原則上，這兩個因素是相互獨立的，但在歷史上，特定類型的歸納偏置總是與特定類型的表征捆綁在一起（見圖 1a）：適用于快速學習的強歸納偏置，歷來伴隨著對表征形式的強約束（如貝葉斯模型）；而弱表征約束（即能靈活處理復雜的自然主義數(shù)據(jù)）則歷來伴隨著弱歸納偏置（如神經(jīng)網(wǎng)絡(luò)）。原則上，將這兩個因素解耦，就有可能構(gòu)建一個兼具強歸納偏置和弱表征約束的系統(tǒng)，使其像人類一樣，在不犧牲構(gòu)建更復雜假設(shè)能力的前提下實現(xiàn)快速學習。然而在實踐中，究竟什么樣的系統(tǒng)能同時具備這兩種特性，目前仍遠非顯而易見。

在本研究中，我們展示了如何將貝葉斯模型的歸納偏置“蒸餾”（distill）到神經(jīng)網(wǎng)絡(luò)中。我們的方法利用了元學習（meta-learning）領(lǐng)域近期2?,2?的技術(shù)進展。元學習是一種機器學習技術(shù)，系統(tǒng)通過接觸多種任務(wù)，自動發(fā)現(xiàn)一種歸納偏置，從而更輕松地學習新任務(wù)3?,31。在我們的元學習應(yīng)用中，這些任務(wù)是從一個貝葉斯模型中采樣的，從而將該貝葉斯模型的歸納偏置蒸餾到神經(jīng)網(wǎng)絡(luò)中。我們將這一過程稱為“歸納偏置蒸餾”（inductive bias distillation），其結(jié)果是一個兼具貝葉斯模型強歸納偏置和神經(jīng)網(wǎng)絡(luò)靈活性的系統(tǒng)。

我們使用這種方法構(gòu)建了一個語言學習模型。之所以選擇這一案例，是因為語言學習是一個經(jīng)典問題，長期以來被認為需要結(jié)構(gòu)化的符號表征，因此對基于神經(jīng)網(wǎng)絡(luò)的方法構(gòu)成了嚴峻的考驗。在數(shù)據(jù)有限的情境下（例如從小量例子中學習人工形式語言），我們模型的表現(xiàn)接近 Yang & Piantadosi 的貝葉斯學習器——該模型是首個被證明能在未針對特定語言現(xiàn)象進行大量定制的情況下，僅憑有限數(shù)據(jù)學會此類語言的模型。因此，盡管我們的模型是一個神經(jīng)網(wǎng)絡(luò)，但其蒸餾而來的歸納偏置使其在神經(jīng)網(wǎng)絡(luò)通常難以勝任的環(huán)境中取得了成功，達到了此前只有使用符號表征的模型才能實現(xiàn)的性能水平。此外，由于我們的模型本質(zhì)上是神經(jīng)網(wǎng)絡(luò)，它還足夠靈活，能夠處理貝葉斯模型難以應(yīng)對的情境：從一個包含 860 萬詞的語料庫中學習英語句法的某些方面。我們的結(jié)果表明，融合貝葉斯模型與神經(jīng)網(wǎng)絡(luò)各自優(yōu)勢不僅是可能的，而且具有顯著益處。

結(jié)果
模型：歸納偏置蒸餾

如圖 1b 所示，歸納偏置蒸餾通過三個步驟將一種歸納偏置（稱為“目標偏置”）蒸餾到一個模型（稱為“學生模型”）中。
第一步，用一個貝葉斯模型來定義目標偏置，該模型的先驗分布（prior）給出一個任務(wù)分布。
第二步，從該分布中采樣大量任務(wù)。
第三步，學生模型通過元學習（meta-learning）從這些采樣任務(wù)中學習，從而獲得有助于更輕松學習新任務(wù)的歸納偏置。
通過控制貝葉斯模型，我們就能控制學生模型通過元學習所獲得的歸納偏置。

這種方法具有高度通用性：目標偏置可以由任何可采樣的分布來刻畫，而學生模型可以是任何能夠進行元學習的系統(tǒng)。在我們的具體案例中，每個任務(wù)都是一種語言，因此被蒸餾的歸納偏置是在語言空間上的一個先驗分布32。我們的學生模型是一個神經(jīng)網(wǎng)絡(luò)，這意味著我們將貝葉斯模型中的語言先驗蒸餾到了神經(jīng)網(wǎng)絡(luò)中。該方法擴展了我們此前的概念驗證工作33：此處我們使用一個結(jié)構(gòu)化的概率模型來定義歸納偏置，并在人工語言和自然主義語言兩種情境下對模型進行了測試。在本節(jié)余下部分，我們將詳細描述在語言學習案例中所采用的具體形式的歸納偏置蒸餾方法。

步驟 1：刻畫歸納偏置

我們的起點是 Yang 和 Piantadosi 提出的用于在形式語言（formal languages）上構(gòu)建先驗的模型23。形式語言3??3? 是由抽象規(guī)則定義的一組字符串。例如，集合 {AB, ABAB, ABABAB, …} 就是一個形式語言，由表達式 (AB)+ 定義，表示一個或多個 AB 的重復。用于定義形式語言的機制受到自然語言結(jié)構(gòu)的啟發(fā)。(AB)+ 的情形類似于英語中嵌套介詞短語所體現(xiàn)的尾遞歸（tail recursion）：如果我們將 A 視為一個介詞，B 視為一個名詞短語，那么 (AB)+ 就能捕捉介詞與名詞短語交替出現(xiàn)的字符串，例如 “under the vase on the table in the library”（在圖書館桌子上的花瓶下）。通過將語言結(jié)構(gòu)轉(zhuǎn)化為精確的抽象形式，形式語言長期以來為語言的數(shù)學分析提供了便利3???1。

在我們的研究中，形式語言的數(shù)學特性使其非常適合用于定義語言上的分布。遵循 Yang 和 Piantadosi 所采用的一般方法，我們指定了一個形式化的基本元素（primitives）集合，并構(gòu)建了一個模型，該模型以概率方式組合這些基本元素，從而生成語言的定義。我們所使用的基本元素主要取自正則表達式（regular expressions）?2 中的標準組件——正則表達式是一種特定的形式語言表示法。這些基本元素的例子包括“拼接”（concatenation）和前述的“遞歸”基本元素“plus”（表示一個或多個重復）。例如，由我們基本元素定義的一種語言是 concat(A, plus(C), or(F,B))，它表示由一個 A 開頭，后接一個或多個 C，再接 F 或 B 的字符串集合：{ACF, ACB, ACCF, ACCB, ACCCF, …}。正則表達式的表達能力是有限的：已有證明表明，它們無法捕捉自然語言句法的某些方面?3。為克服這些限制，我們以增強系統(tǒng)表達能力的方式對基本正則表達式基本元素進行了擴充。有關(guān)我們所用基本元素的完整描述，請參見“方法”部分和補充方法（Supplementary Methods）。

我們對語言的完整分布是通過一個概率模型（其結(jié)構(gòu)類似于概率上下文無關(guān)文法）來指定的，該模型定義了對我們所有可能的基本元素組合的概率分布。這種方法為使用較少基本元素定義的語言分配較高的概率，而為描述更復雜的語言分配較低的概率。因此，我們希望通過該模型蒸餾的歸納偏置，是傾向于那些能用我們選定的基本元素簡潔表達的語言。通過使用概率模型來指定目標偏置，我們使該偏置具備了可解釋性和可控性——如果像 Abnar 等人??所做的那樣，用神經(jīng)網(wǎng)絡(luò)來定義目標偏置（即在不同類型神經(jīng)網(wǎng)絡(luò)之間遷移歸納偏置），這些性質(zhì)將無法保證。

步驟 2：采樣數(shù)據(jù)

既然我們已將歸納偏置刻畫為一個語言上的分布，下一步就是從該分布中采樣語言，以便學生模型能夠從這些語言中進行元學習。這一步是直接的，因為該分布是作為一個生成模型定義的，這自然允許我們從中采樣語言，然后從每種語言中進一步采樣具體的字符串。盡管操作簡單，但這一步在概念上至關(guān)重要：它通過將目標偏置具體化為數(shù)據(jù)，彌合了我們的概率模型與神經(jīng)網(wǎng)絡(luò)之間的鴻溝——數(shù)據(jù)成為兩種本截然不同的模型之間的共同基礎(chǔ)。

步驟 3：應(yīng)用元學習

歸納偏置蒸餾的最后一步是讓學生模型從我們采樣的數(shù)據(jù)中進行元學習，從而賦予其目標偏置。我們所使用的學生模型是一種長短期記憶神經(jīng)網(wǎng)絡(luò)（LSTM；參考文獻 45）。已有形式化研究證明，LSTM 能夠處理多種類型的形式語言??，并且在自然語言處理任務(wù)中也取得了顯著的實證成功?????。我們也嘗試使用 Transformer??——另一種在語言任務(wù)中表現(xiàn)優(yōu)異的神經(jīng)網(wǎng)絡(luò)——但我們發(fā)現(xiàn)，對于 Transformer，蒸餾效果不如 LSTM 顯著，很可能是因為在捕捉我們基本元素所依賴的某些形式語言機制方面，LSTM 的表現(xiàn)優(yōu)于 Transformer?1。

我們的 LSTM 執(zhí)行的任務(wù)是“下一個詞預測”（next-word prediction）?2，也稱為語言建模：給定一個序列，LSTM 的目標是根據(jù)前面的詞預測序列中的每一個詞。例如，若序列為 ABA，模型首先需預測第一個詞（A）；然后在已知第一個詞為 A 的條件下預測第二個詞（B）；接著在前綴 AB 的條件下預測第三個詞（A）；最后在前綴 ABA 的條件下生成一個特殊的序列結(jié)束符。對于大多數(shù)語言而言，該任務(wù)無法被完美解決；例如在英語中，“The” 之后可能跟隨許多不同的詞。因此，模型對下一個詞的預測是一個在所有可能詞符（tokens）上的概率分布（理想情況下，為最可能的后續(xù)詞分配最高概率）。我們選擇下一個詞預測任務(wù)，是因為先前研究發(fā)現(xiàn)，該任務(wù)在教會神經(jīng)網(wǎng)絡(luò)掌握語言的語法特性方面非常有效?3???，并且有觀點認為它在人類語言處理中扮演著核心角色??,??。

在描述元學習之前，有必要先說明標準學習（standard learning）。神經(jīng)網(wǎng)絡(luò)由大量數(shù)值參數(shù)（如連接權(quán)重）定義。在標準學習中，網(wǎng)絡(luò)從某些初始參數(shù)值（通常是隨機值）開始，然后被提供大量目標任務(wù)的示例。每處理一個示例后，網(wǎng)絡(luò)的參數(shù)都會進行調(diào)整，使得若再次看到相同示例，其表現(xiàn)會略有提升。經(jīng)過多次這樣的更新后，網(wǎng)絡(luò)應(yīng)獲得能夠有效執(zhí)行該任務(wù)的參數(shù)值。

已有多種元學習方法被證明可提升神經(jīng)網(wǎng)絡(luò)的泛化能力?????。我們所采用的形式是“模型無關(guān)元學習”（Model-Agnostic Meta-Learning, MAML；參考文獻 28）。MAML 可被視為一種層次化貝葉斯建模的方式??，因此非常契合我們蒸餾貝葉斯先驗的目標。直觀地說，在我們的 MAML 應(yīng)用中，網(wǎng)絡(luò)會接觸多種語言，從而學會如何更輕松地學習新語言。MAML 過程中被更新的，是網(wǎng)絡(luò)的初始化參數(shù)（即在學習特定語言之前所采用的初始參數(shù)值）。如果 MAML 成功，那么最終得到的初始化參數(shù)應(yīng)編碼了一種歸納偏置，使模型能夠從相對少量的例子中學會我們分布中的任意語言。由于我們控制了語言的分布，也就控制了元學習所獲得的歸納偏置。圖 2 更詳細地展示了這一過程，完整的 MAML 算法見補充方法（Supplementary Methods）。我們將經(jīng)過歸納偏置蒸餾的神經(jīng)網(wǎng)絡(luò)稱為“先驗訓練神經(jīng)網(wǎng)絡(luò)”（prior-trained neural network），因為它通過訓練獲得了特定的先驗。先驗訓練（prior-training）表面上類似于另一種稱為“預訓練”（pre-training）的方法，但兩者在實現(xiàn)目標上存在重要差異；詳見“討論”部分。

需要強調(diào)的是，在歸納偏置蒸餾中，元學習并非關(guān)于人類如何獲得其歸納偏置的假設(shè)。盡管人類在某些情況下確實進行元學習?????，但我們并不聲稱人類的語言歸納偏置必定通過元學習產(chǎn)生，也不聲稱這些偏置是以 MAML 所采用的形式（即通過連接權(quán)重的初始設(shè)置）編碼的。相反，我們純粹將元學習作為一種工具，用于構(gòu)建具有特定歸納偏置的模型。關(guān)于元學習作為人類先驗來源的討論，參見參考文獻 69。

我們使用歸納偏置蒸餾的目標，是將貝葉斯模型的強歸納偏置與神經(jīng)網(wǎng)絡(luò)的表征靈活性結(jié)合起來。為了檢驗我們的模型是否融合了兩種方法的優(yōu)勢，我們在兩種情境下對其進行了評估：一種是傳統(tǒng)上貝葉斯模型表現(xiàn)良好而神經(jīng)網(wǎng)絡(luò)表現(xiàn)不佳的情境；另一種則恰恰相反。

學習形式語言

我們首先評估模型從少量樣本中學習形式語言的能力——這是貝葉斯模型表現(xiàn)良好而標準神經(jīng)網(wǎng)絡(luò)表現(xiàn)較差的領(lǐng)域。我們使用了 Yang 和 Piantadosi 用于評估其貝葉斯學習器的相同 56 種形式語言。對于每種評估語言，我們用從該語言中抽取的 n 個字符串對模型進行訓練，n 的取值范圍從 1 到 10,000，按對數(shù)尺度分布。為了量化訓練后的模型對目標語言的掌握程度，我們計算模型的 F 分數(shù)（F-score）——這與 Yang 和 Piantadosi 使用的指標相同。F 分數(shù)衡量的是：模型賦予高概率的字符串集合，與真實語言中高概率字符串集合之間的匹配程度（參見“方法”部分）。我們還將先驗訓練網(wǎng)絡(luò)（prior-trained networks）與標準神經(jīng)網(wǎng)絡(luò)進行比較：后者具有與先驗訓練網(wǎng)絡(luò)完全相同的架構(gòu)，但其權(quán)重是隨機初始化的，而非通過歸納偏置蒸餾獲得。

這一情境對神經(jīng)網(wǎng)絡(luò)構(gòu)成了重大挑戰(zhàn)，因為這些形式語言是以離散符號方式定義的。長期以來，神經(jīng)網(wǎng)絡(luò)被認為在本質(zhì)上與符號處理截然不同。事實上，認知科學中的一個核心難題正是：人類心智雖以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)，卻能夠執(zhí)行符號功能?????——這一現(xiàn)象如此令人困惑，以至于 Smolensky 和 Legendre 將其稱為“認知的核心悖論”（the central paradox of cognition）??。因此，該情境為“強歸納偏置可以被蒸餾進神經(jīng)網(wǎng)絡(luò)”這一主張?zhí)峁┝艘粋€嚴峻的檢驗。

盡管我們的模型是一個神經(jīng)網(wǎng)絡(luò)，但其數(shù)據(jù)效率與 Yang 和 Piantadosi 的符號化貝葉斯學習器相當（見圖 3）。相比之下，標準神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)的需求要大得多：要達到相同性能水平，它所需的樣本數(shù)量約為貝葉斯學習器的 10 倍。標準神經(jīng)網(wǎng)絡(luò)與先驗訓練神經(jīng)網(wǎng)絡(luò)在架構(gòu)和學習特定形式語言的程序上完全相同，唯一的區(qū)別在于：前者未經(jīng)過歸納偏置蒸餾，而后者經(jīng)過了。因此，蒸餾過程成功地賦予了我們的模型對學習形式語言有用的歸納偏置。盡管神經(jīng)網(wǎng)絡(luò)通常被認為學習緩慢，但這些結(jié)果表明，“學習緩慢”并非神經(jīng)網(wǎng)絡(luò)的固有屬性。

除了在數(shù)據(jù)效率上接近貝葉斯學習器外，先驗訓練網(wǎng)絡(luò)在時間效率上甚至更優(yōu)。貝葉斯學習器學習一種形式語言所需時間從 1 分鐘到 7 天不等；而我們的神經(jīng)網(wǎng)絡(luò)最多只需 5 分鐘，有時甚至僅需 10 毫秒。貝葉斯學習器本身并非緩慢——考慮到其假設(shè)空間的復雜性，它在同類學習器中堪稱極快，Yang 與 Piantadosi 的軟件包恰當?shù)孛麨?“Fleet”（意為“迅捷”）。然而，神經(jīng)網(wǎng)絡(luò)所具備的靈活并行處理能力，使其即使面對如此高效的貝葉斯學習器，也能實現(xiàn)顯著加速。有關(guān)這些時間對比的更多細節(jié)，參見補充方法（Supplementary Methods）。

學習自然語言

接下來，我們評估模型從一個包含 860 萬詞的英語文本語料庫??中學習自然語言的能力。該語料庫取自 CHILDES 數(shù)據(jù)庫??，由英語母語父母對其子女所說的話語組成，因此代表了人類在習得英語語法結(jié)構(gòu)時所接收的語言輸入類型。由于該數(shù)據(jù)集的規(guī)模和自然語言的復雜性，Yang 與 Piantadosi 的貝葉斯學習器在此情境下無法在計算上可行地應(yīng)用。然而，由于我們的模型具有更高的時間效率，加之神經(jīng)網(wǎng)絡(luò)本就適用于處理大規(guī)模自然主義數(shù)據(jù)集（近期如 ChatGPT2?等大型語言模型的成功即是明證），處理該數(shù)據(jù)集成為可能。

我們通過在保留的測試集上計算“困惑度”（perplexity）來評估模型在此語料庫上的表現(xiàn)。困惑度是評估下一個詞預測任務(wù)的標準指標：困惑度越低，表示模型在給定上下文條件下預測下一個詞的能力越強。困惑度的絕對數(shù)值難以解釋，因此為了更清晰地定位我們模型的性能，我們采用了一個強有力的基線：平滑的 5-gram 模型（這是目前性能最好的非神經(jīng)網(wǎng)絡(luò)系統(tǒng)，用于下一個詞預測）。據(jù)文獻??報道，在該數(shù)據(jù)集上，平滑 5-gram 模型的困惑度為 24.4。

我們的先驗訓練神經(jīng)網(wǎng)絡(luò)達到了 19.66 的困惑度，顯著優(yōu)于 5-gram 基線。如圖 4a 所示，這一困惑度（19.66）略優(yōu)于標準神經(jīng)網(wǎng)絡(luò)所達到的 19.75（雙側(cè) t 檢驗，自由度 = 77.4，t = 13.87，p < 0.001，Cohen’s d = 3.10，均值差異的 95% 置信區(qū)間為 [0.073, 0.097]），也優(yōu)于此前文獻中報道的最佳神經(jīng)網(wǎng)絡(luò)模型的困惑度 19.69??。這些結(jié)果表明，盡管我們的模型具有強歸納偏置，它仍然保留了從自然主義數(shù)據(jù)集中高效學習所需的靈活性。

那么，我們模型的強歸納偏置是否對自然語言學習產(chǎn)生了人類可解釋的影響？前一段落可能讓人覺得答案是否定的，因為先驗訓練網(wǎng)絡(luò)的困惑度僅比標準網(wǎng)絡(luò)略好。然而，即便蒸餾而來的歸納偏置對學習產(chǎn)生了實質(zhì)性影響，前述評估也很可能無法體現(xiàn)這一點。歸納偏置的作用是在訓練數(shù)據(jù)不足時引導學習者。而在前述評估中，測試集與訓練集來自同一分布，且訓練集規(guī)模龐大（860 萬詞），因此訓練數(shù)據(jù)本身可能已提供了足夠強的信號來處理測試集，使得歸納偏置幾乎沒有發(fā)揮作用的空間。

為了更準確地揭示歸納偏置的作用，我們應(yīng)在訓練數(shù)據(jù)信息不足的情境下評估模型。本節(jié)余下部分討論兩種此類情境：一是學習者可獲得的訓練數(shù)據(jù)更少；二是學習者必須進行分布外泛化（out-of-distribution generalization），即泛化到與訓練集分布不同的新樣本。

限制訓練數(shù)據(jù)量

為檢驗當 CHILDES 訓練數(shù)據(jù)量減少時，蒸餾而來的歸納偏置是否會產(chǎn)生更明顯的效果，我們在數(shù)據(jù)集的不同比例上訓練模型——從完整數(shù)據(jù)集的 1/64 到全部數(shù)據(jù)。在神經(jīng)網(wǎng)絡(luò)中，數(shù)據(jù)量會與模型規(guī)模相互作用，共同決定模型性能：通常情況下，參數(shù)更多的模型泛化能力更強，但在訓練數(shù)據(jù)過少、不足以讓大型模型為其所有參數(shù)學習到有效值的情況下，較小的模型有時表現(xiàn)反而更好。因此，我們還通過改變隱藏層大?。淳W(wǎng)絡(luò)內(nèi)部向量表征的維度）來調(diào)整模型參數(shù)數(shù)量。

結(jié)果（圖 4b）表明，在許多情況下，歸納偏置蒸餾顯著改善了在英語數(shù)據(jù)上訓練的模型的困惑度，且從未顯著降低性能。整體結(jié)果模式較為復雜，呈現(xiàn)出一條大致呈對角線的條帶區(qū)域，在該區(qū)域內(nèi)歸納偏置蒸餾帶來的收益最大：它在“小模型+少量數(shù)據(jù)”或“大模型+大量數(shù)據(jù)”的組合中效果最為顯著。關(guān)于這一模式的詳細討論，參見補充討論（Supplementary Discussion）。

測試分布外泛化能力

人類語言習得的一個顯著特征是：我們能夠?qū)W會那些經(jīng)驗中幾乎未提供直接證據(jù)的規(guī)則。考慮以下句子。在英語中，一個陳述句，如 (1a)，可以通過將句中的某個短語（如 the banker）替換為 who 并將其移至句首，轉(zhuǎn)化為疑問句，如 (1b)。這一普遍規(guī)則存在例外??：當 who 對應(yīng)的詞位于一個并列結(jié)構(gòu)（conjunction）內(nèi)部時，以這種方式構(gòu)成的疑問句是不合語法的，如 (2b) 所示。盡管在日常對話中幾乎不會出現(xiàn)像 (2b) 這樣的語境，但英語母語者仍能可靠地習得這一限制規(guī)則。

(1)
a. The judge and the spy will visit the banker.
b. Who will the judge and the spy visit?

(2)
a. The judge will visit the spy and the banker.
b. *Who will the judge visit the spy and?

我們此前使用的評估集是自然發(fā)生文本的一個樣本。因此，對于許多語言現(xiàn)象而言，該評估集中可能包含極少能體現(xiàn)這些現(xiàn)象重要性的句子。結(jié)果就是，模型在該評估集上的表現(xiàn)并不能告訴我們它是否真正學會了語言學家通常關(guān)注的語言現(xiàn)象。

為了檢驗模型是否學到了特定的語言現(xiàn)象，之前的研究??,?? 提出了一種基于“最小對”（minimal pairs）的評估范式——即成對的句子，用于突出所考察的語法規(guī)則。例如，如果一個學習者能識別出句子 (1b) 比 (2b) 更合乎語法，這就表明該學習者已掌握上述疑問句的約束規(guī)則。本文所考慮的神經(jīng)網(wǎng)絡(luò)是下一個詞預測模型，會對所有可能的詞序列分配一個概率。因此，我們可以通過比較模型對最小對中兩個句子所分配的概率高低，來應(yīng)用最小對評估：若模型賦予合語法句子更高的概率，則說明它可能已學到相關(guān)規(guī)則。

我們使用了四個最小對數(shù)據(jù)集（詳見“方法”部分）。每個數(shù)據(jù)集都針對若干語言現(xiàn)象，包括上述的疑問句約束等。在本分析中，我們回到標準網(wǎng)絡(luò)與先驗訓練網(wǎng)絡(luò)均取得最佳困惑度的設(shè)定下進行評估——即在完整數(shù)據(jù)集上訓練，且隱藏層大小為 1024。

在全部四個最小對數(shù)據(jù)集上，先驗訓練神經(jīng)網(wǎng)絡(luò)相比標準網(wǎng)絡(luò)均取得了雖小但具有統(tǒng)計顯著性的提升（見圖 5a）。補充說明 4（Supplementary Note 4）提供了每個數(shù)據(jù)集中各項具體語言現(xiàn)象的結(jié)果；總體而言，有些現(xiàn)象上先驗訓練網(wǎng)絡(luò)明顯優(yōu)于標準網(wǎng)絡(luò)，但在另一些現(xiàn)象上則相反，且難以辨識出清晰的規(guī)律來說明哪些現(xiàn)象更適合哪種模型（有一個例外——遞歸（recursion）——將在下一小節(jié)討論）。

遞歸與啟動效應(yīng)（Recursion and priming）

上一小節(jié)中的最小對結(jié)果在解釋上存在一定困難。這一情況或許并不令人意外，因為那些評估中測試的大多數(shù)語言現(xiàn)象與我們所蒸餾的歸納偏置并無明確關(guān)聯(lián)。因此，我們并沒有充分理由預期蒸餾過程會在這些現(xiàn)象上帶來幫助或損害。

在本小節(jié)中，我們轉(zhuǎn)而考察兩種與我們的目標偏置聯(lián)系更明確的現(xiàn)象：遞歸（recursion）和啟動效應(yīng)（priming）。

我們使用的基本元素之一——“plus” 基本元素——通過允許結(jié)構(gòu)單元無限制地重復，從而支持句法遞歸。例如，plus(AB) 描述了包含一個或多個 AB 的字符串集合：{AB, ABAB, ABABAB, …}。因此，我們可以合理預期，蒸餾而來的歸納偏置應(yīng)能改善模型對英語中遞歸結(jié)構(gòu)的處理能力，例如處理多重強化副詞（如 “the mountain is very very very tall”）或多重所有格（如 “my cousin’s friend’s sister’s neighbor”）。（注：一些學者根據(jù)假設(shè)生成相關(guān)句子所依賴的不同機制，將重復區(qū)分為“遞歸”和“迭代”兩類?1,?2。在本研究中，我們僅討論表層字符串，而不涉及生成它們的算法，因此將這兩類重復統(tǒng)一歸入“遞歸”范疇下進行討論。）

兩個最小對評估集（SCaMP: Plausible 和 SCaMP: Implausible）包含了針對遞歸的刺激項，例如以下例子（更多示例見補充說明 5）。每組刺激項包含一對句子，其結(jié)尾部分相同（以下劃線標出），但在其中一個例子中（每對中的第一個），該下劃線部分是合法的句子結(jié)尾，而在另一個例子中則不是。我們計算每個模型對下劃線部分所分配的概率；若模型對合法情形分配的概率高于非法情形，則視為正確。每對句子都涉及某種程度的遞歸（在以下例子中，每增加一層就添加一個額外的介詞短語）。如果一個模型能很好地處理遞歸，那么當遞歸層級增加時，其準確率不應(yīng)顯著下降。

在我們進行的十二項遞歸評估中，大多數(shù)情況下，先驗訓練網(wǎng)絡(luò)對深層遞歸的處理優(yōu)于標準網(wǎng)絡(luò)（見圖 5c），這支持了如下假設(shè)：蒸餾而來的歸納偏置有助于模型學習英語中的遞歸結(jié)構(gòu)。事實上，SCaMP 數(shù)據(jù)集中針對遞歸的子集，正是圖 5a 中先驗訓練網(wǎng)絡(luò)在這些數(shù)據(jù)集上整體優(yōu)于標準網(wǎng)絡(luò)的主要原因。當排除這些遞歸子集后，SCaMP-Plausible 數(shù)據(jù)集上的得分變?yōu)椋合闰炗柧毦W(wǎng)絡(luò)為 0.731，標準網(wǎng)絡(luò)為 0.733（p = 0.237）；而 SCaMP-Implausible 數(shù)據(jù)集上的得分變?yōu)椋合闰炗柧毦W(wǎng)絡(luò)為 0.718，標準網(wǎng)絡(luò)為 0.713（p < 0.001）。有關(guān)這些統(tǒng)計結(jié)果的更多細節(jié)，參見“方法”部分。

我們在此考慮的另一個基本元素是同步基本元素（synchrony primitive），它能夠使序列中的多個部分保持同步。與我們的分析最相關(guān)的是，該基本元素可以捕捉一類形式語言：其中每個序列包含某個字符串的兩次重復——例如 ACCDACCD 或 BDABDA。英語單個句子的句法中并不存在此類模式，但這種模式確實出現(xiàn)在相鄰句子對中：在我們的語料庫中，有 2.8% 的句子與其前一句完全相同。（請記住，該語料庫包含父母對孩子所說的話語；顯然，父母經(jīng)常重復句子。）例如，語料庫中的前 6 個句子是：

這類重復傾向不僅僅是語料庫的統(tǒng)計特性；語言使用者在句子加工過程中也會利用這種重復，這一點已被“啟動效應(yīng)”（priming）所證實——即語言使用者傾向于產(chǎn)出?3,??并預期??,??那些與他們最近遇到的句子相似的句子。與人類一樣，神經(jīng)網(wǎng)絡(luò)語言模型也表現(xiàn)出啟動效應(yīng)?????。

由于我們的同步基本元素（synchrony primitive）促進了支撐啟動效應(yīng)的那種平行結(jié)構(gòu)（parallelism），我們假設(shè)：蒸餾而來的歸納偏置應(yīng)能增強模型表現(xiàn)出啟動效應(yīng)的程度。為檢驗這一假設(shè)，我們計算模型在兩種情境下對句子（以下劃線標出）所分配的困惑度：

無啟動情境（unprimed setting）：句子孤立出現(xiàn)，如 (7a)；
有啟動情境（primed setting）：句子前有一遍完全相同的重復，如 (7b)。

模型的啟動效應(yīng)越強，其困惑度從無啟動情境到有啟動情境的下降幅度就應(yīng)越大。本分析專為檢驗我們關(guān)于啟動效應(yīng)的假設(shè)而設(shè)計，并不屬于圖 5a 中所用的任何最小對數(shù)據(jù)集。

我們發(fā)現(xiàn)，在我們研究的全部四個條件下，先驗訓練的神經(jīng)網(wǎng)絡(luò)比標準網(wǎng)絡(luò)表現(xiàn)出更大的啟動效應(yīng)（priming）程度（圖5b）。這一結(jié)果支持了我們的假設(shè)，即我們提煉的歸納偏差使模型更傾向于被啟動。

分析提煉的歸納偏差

我們的歸納偏差提煉目標是賦予神經(jīng)網(wǎng)絡(luò)與目標貝葉斯模型相匹配的歸納偏差。我們迄今的實驗表明，提煉過程確實賦予了有用的歸納偏差，但仍存在一種可能性：這些偏差可能有用，但并非我們預期的那些——它們可能在不匹配貝葉斯模型的情況下仍有作用。為了探究這種可能性，我們進行了額外實驗，通過改變目標偏差來觀察先驗訓練網(wǎng)絡(luò)的行為是否相應(yīng)變化。我們考慮了三種不同的目標偏差。第一種是貫穿全文使用的“所有原語”情況，其中神經(jīng)網(wǎng)絡(luò)在使用包含遞歸和同步等原語集定義的形式語言上進行元訓練。另外兩種是基于修改版本去除一個原語的情況：“無遞歸”設(shè)置使用除遞歸外的所有原語，“無同步”設(shè)置使用除同步外的所有原語。

當我們在學習形式語言的任務(wù)上評估這三種先驗訓練網(wǎng)絡(luò)時，結(jié)果以與它們元訓練分布差異平行的方式變化（圖6a）。首先，我們在需要遞歸但不需要同步的8種形式語言集合上評估這些系統(tǒng)；這8種語言是前面評估的56種形式語言的子集?！盁o遞歸”情況的表現(xiàn)遠差于“所有原語”和“無同步”情況，體現(xiàn)在它需要更多訓練樣本才能達到較高的F分數(shù)。隨后，我們在需要同時具備遞歸和同步的8種形式語言集合上評估這些系統(tǒng)。此時，“無遞歸”和“無同步”表現(xiàn)相似，且均顯著差于“所有原語”。（注：我們也考慮過在只需要同步而不需要遞歸的語言上評估，但評估集合中沒有此類語言，且實際困難阻礙了該集合的擴展；見補充方法）。這些結(jié)果支持了如下結(jié)論：歸納偏差提煉確實賦予了目標偏差，因為從目標偏差中移除某個原語會導致先驗訓練系統(tǒng)在包含該原語的語言上表現(xiàn)更差。

隨后，我們通過重復前述自然語言遞歸和啟動評估，將這些修改后的先驗訓練系統(tǒng)應(yīng)用于自然語言。在遞歸評估中，正如預期，“無遞歸”情況的平均表現(xiàn)差于“所有原語”情況（圖6b），盡管在某些個別遞歸評估中“無遞歸”優(yōu)于“所有原語”（見補充圖S1）。出乎意料的是，“無同步”情況的表現(xiàn)也差于“所有原語”情況，這表明同步原語對這些遞歸評估有幫助；這可能是因為遞歸評估不僅涉及遞歸，還涉及短語之間的長距離關(guān)系（例如在上文例（5）的句子中，the book與is blue之間的關(guān)系），而同步可能有助于此類長距離關(guān)系，因為同步創(chuàng)造了序列中相隔甚遠元素相互依賴的機會。

在啟動評估中，我們發(fā)現(xiàn)三種先驗訓練網(wǎng)絡(luò)的表現(xiàn)彼此相似，且均優(yōu)于標準網(wǎng)絡(luò)（圖6c）。這一結(jié)果表明，先驗訓練系統(tǒng)中觀察到的啟動效應(yīng)增強并非如我們先前假設(shè)的那樣源于同步原語，而是源于先驗訓練分布的其他方面，例如（舉例來說）對離散、符號模式的普遍傾向。

總之，當我們在形式語言上評估先驗訓練模型時，目標偏差的性質(zhì)以完全符合預期的形式調(diào)控了性能。當我們在自然語言上評估時，結(jié)果則不那么清晰：遞歸結(jié)果基本符合預期，但啟動結(jié)果并非如此。需要注意的是，我們的目標偏差是在形式語言上定義的，這意味著自然語言遠遠超出元訓練階段使用的分布。我們認為這些結(jié)果與以下結(jié)論一致：歸納偏差提煉在元訓練過程使用的分布內(nèi)（在我們的案例中，即形式語言分布）穩(wěn)健地賦予了目標偏差，但當該目標偏差被應(yīng)用于元訓練分布之外時（例如在我們對系統(tǒng)進行自然語言評估時），其效果則較難預測——這一結(jié)論與先前研究發(fā)現(xiàn)一致，即神經(jīng)網(wǎng)絡(luò)在其訓練分布內(nèi)表現(xiàn)一致，但在分布外泛化時較不可預測90,91。

我們已經(jīng)證明，先驗訓練的神經(jīng)網(wǎng)絡(luò)（通過將貝葉斯先驗提煉到神經(jīng)網(wǎng)絡(luò)中創(chuàng)建）能夠從少量樣本或復雜自然主義數(shù)據(jù)中有效學習。標準的貝葉斯模型和標準的神經(jīng)網(wǎng)絡(luò)僅在其中一種設(shè)置中有效，而在另一種中無效。我們的結(jié)果說明了將歸納偏差的強度與表征承諾的強度分離的可能性和重要性：我們的模型具有以連續(xù)向量表征實例化的強大歸納偏差，這種組合使它們——如同人類一樣——能夠既快速又靈活地學習。

歸納偏差提煉提供了一種橋接認知分析不同層次的方法。Marr92提出認知科學應(yīng)考慮三個分析層次：計算層次，提供心靈所解決問題的抽象特征以及它所使用解決方案的描述；算法層次，描述心靈用于執(zhí)行該解決方案的算法；以及實現(xiàn)層次，描述該算法如何被實現(xiàn)。貝葉斯模型通常被視為計算層次的提案，刻畫人們擁有的歸納偏差（即給定哪些數(shù)據(jù)，人們選擇哪些假設(shè)？），但對這些歸納偏差如何實現(xiàn)保持不可知93–95。神經(jīng)網(wǎng)絡(luò)則更多與算法層次（在某些情況下，與實現(xiàn)層次）對齊。因此，我們的實驗展示了歸納偏差提煉如何將計算層次上提出的歸納偏差連接到算法層次上提出的模型。

在我們的案例研究中，Yang和Piantadosi23的工作為我們提煉的歸納偏差提供了自然的靈感。在更一般的情況下，我們應(yīng)如何識別適合轉(zhuǎn)移到神經(jīng)網(wǎng)絡(luò)的適當偏差？一個有價值的歸納偏差來源是認知的貝葉斯模型，它們通過明確定義捕捉人類歸納偏差的先驗分布來捕捉人類學習的方面17。從這些先驗中采樣元學習任務(wù)，提供了一種簡單的路徑來提取人類歸納偏差并將其轉(zhuǎn)移到機器中。Binz等人96最近指出，元學習可用于使神經(jīng)網(wǎng)絡(luò)適應(yīng)其環(huán)境，從而將理性認知模型擴展到更復雜的設(shè)置。歸納偏差提煉提供了一種實現(xiàn)這一目標的互補策略，在其中我們通過先驗分布定義歸納偏差，然后通過將該先驗提煉到神經(jīng)網(wǎng)絡(luò)中來創(chuàng)建理性模型的近似。

還有幾種與其他歸納偏差提煉相關(guān)的建模方法。我們在這里簡要提及這些方法；詳細討論見補充討論。首先，先驗訓練表面上類似于流行的現(xiàn)有預訓練方法，在預訓練中，網(wǎng)絡(luò)先在大規(guī)模通用數(shù)據(jù)上訓練，然后在特定任務(wù)上進一步訓練97,98。預訓練確實會影響模型的歸納偏差99–102，但我們發(fā)現(xiàn)預訓練在我們的設(shè)置中表現(xiàn)不佳；見補充筆記1。有些大型預訓練模型（如ChatGPT）可能在我們的評估中表現(xiàn)良好，但這些系統(tǒng)作為語言學習模型并不合適，因為它們在不現(xiàn)實的大量自然語言上進行預訓練。其次，先驗數(shù)據(jù)擬合網(wǎng)絡(luò)（PFNs；參考文獻103–106）是一種訓練用于近似貝葉斯推理的神經(jīng)網(wǎng)絡(luò)；然而，PFNs與我們的方法不同，因為它們基于學習而非元學習，并且尚未應(yīng)用于序列化、符號化領(lǐng)域如語言。在同時發(fā)展的工作中，Lake和Baroni63以及Zhou等人64也使用元學習作為將概率模型的歸納偏差融入神經(jīng)網(wǎng)絡(luò)的方式。我們的工作與這些方法的不同在于我們使用的元學習類型（基于梯度的，而非基于記憶的元學習）、我們研究的領(lǐng)域（語言而非指令或視覺概念），以及我們提供了一個通用配方，用于使用元學習將概率模型的歸納偏差提煉到神經(jīng)網(wǎng)絡(luò)中；Lake和Baroni以及Zhou等人展示了特定任務(wù)分布的元學習如何導致特定歸納偏差，但并未提供這種通用框架。最后，稱為貝葉斯神經(jīng)網(wǎng)絡(luò)和貝葉斯深度學習的方法107–110聽起來與歸納偏差提煉相關(guān)，但它們實際上有不同的目標——即通過對模型參數(shù)的不確定性明確估計來增強神經(jīng)網(wǎng)絡(luò)。

通過歸納偏差提煉，我們證明了將神經(jīng)網(wǎng)絡(luò)的表征與貝葉斯模型的歸納偏差相結(jié)合是可能的。與貝葉斯模型一樣，所得到的系統(tǒng)能夠從少量樣本中學習形式語言模式。與神經(jīng)網(wǎng)絡(luò)一樣，它也能以比標準貝葉斯方法高得多的時間效率進行學習，使我們能夠在比以往可能更大的規(guī)模設(shè)置中研究目標歸納偏差（即從數(shù)百萬詞的自然語言中學習英語句法的方面）。我們希望橋接這些建模方法之間的分歧，將使我們能夠解釋人類學習的快速性和靈活性。

方法形式語言原語

我們對形式語言的分布主要使用標準正則表達式原語42定義：

原子字母表符號（A, B, …）
Σ：字母表中的任意符號
ε：空串
concat：連接
or：隨機選擇兩個串中的一個
plus：Kleene plus，它產(chǎn)生一個表達式的一個或多個實例

為了克服正則表達式在表達能力上的形式限制34，我們對基本正則表達式原語進行了兩項增強。首先，標準的Kleene plus原語啟用尾遞歸，其中一個表達式的多個實例依次連接（例如，重復AB以產(chǎn)生ABAB）。然而，它并不啟用嵌套遞歸（也稱為中心嵌入），在其中多個實例的一個表達式被嵌套插入到每個其他實例中（例如，將AB嵌套插入AB以產(chǎn)生AABB）。我們通過引入一個索引參數(shù)來泛化Kleene plus，從而指定遞歸材料插入的位置：plus(AB, 0, 0.5) 在索引0（串的起始）處插入AB的新副本，從而產(chǎn)生尾遞歸：{AB, ABAB, ABABAB, …}。表達式plus(AB, 1, 0.5) 則通過在現(xiàn)有A和B之間插入AB的新副本來創(chuàng)建嵌套遞歸：{AB, AABB, AAABBB, …}。該表達式的最后一個參數(shù)是插入AB新副本的繼續(xù)概率；將此值設(shè)置為0.5意味著，在該語言中，串AB的概率為0.5，串AABB的概率為0.5 × 0.5 = 0.25，等等。

我們對原語集進行的第二項增強是添加一種同步機制——受同步文法11–13啟發(fā)——它允許序列的不同部分被同步。例如，以下定義了一種語言，其中每個序列具有三個部分：

同步模式顯示，第一部分和第三部分被同步（ID為0），而中間部分獨立（ID為1）。中間部分始終是字符串CC。第一部分和第三部分是由A、B和D組成的序列，其中第一部分中每一個A的位置，在第三部分對應(yīng)位置為B；第一部分中每一個B的位置，在第三部分對應(yīng)位置為D。該語言中的示例字符串包括ACCB和AABACCBBDB。

在定義了這些原語之后，我們可以通過概率性地組合原語來形成語言描述，從而采樣一種形式語言，其概率選擇方式受Chi114的啟發(fā)。

具體使用的概率模型詳見補充方法。

我們使用了與Yang和Piantadosi不同的原語集，因為我們發(fā)現(xiàn)，雖然他們的原語在Yang和Piantadosi所用場景（在假設(shè)之間進行選擇）中非常有效，但它們并不適合歸納偏差提煉。具體來說，在歸納偏差提煉中，語言分布通過向?qū)W習者展示來自該分布的樣本而被提煉到學習者中。在從Yang和Piantadosi的先驗分布中采樣的10,000種語言中，我們發(fā)現(xiàn)大多數(shù)語言是退化的：94.4%的語言僅包含一個唯一字符串，98.6%的語言不包含長度大于1的字符串。因此，將這一分布提煉到學習者中需要不現(xiàn)實的大量樣本，才能展示足夠多的非平凡語言示例，故我們選擇了能產(chǎn)生更高比例非平凡語言的原語。

我們嘗試用我們的原語運行Yang和Piantadosi的代碼，但發(fā)現(xiàn)其性能在使用這些原語時比使用Yang和Piantadosi的原語時更差，可能是因為我們的同步機制使假設(shè)空間對他們的學習者來說難以搜索。因此，為了以最有利的方式呈現(xiàn)每種方法，我們呈現(xiàn)的Yang和Piantadosi模型結(jié)果使用了他們的原語集；對于每種語言，我們使用了其補充材料中列出的四個候選假設(shè)中后驗概率最高的那個。

元訓練

請注意，我們對MAML的使用并沒有遵循這個基本方程，因為我們采用了三種額外的優(yōu)化技術(shù)，這些技術(shù)在之前的工作中被發(fā)現(xiàn)能夠使訓練更快地收斂，即多步損失、AdamW優(yōu)化器和基于余弦的學習率調(diào)度器。有關(guān)我們使用的MAML算法的完整定義（包括這些優(yōu)化技術(shù)），請參見補充方法。

該模型是一個具有0.1的dropout的2層LSTM，輸入和輸出詞表示之間有權(quán)重共享，隱藏層大小為1024（除非另有說明）。我們還嘗試了簡單地在相同的數(shù)據(jù)集上預訓練我們的模型（即將所有25,000種語言合并為一個單一的下一個詞預測數(shù)據(jù)集），但我們發(fā)現(xiàn)這種方法的性能遠不如使用MAML；見補充說明1。我們在PyTorch版本2.2.1+cu121120中實現(xiàn)了我們的模型，元訓練由higher版本0.2.1121的包促進，一些訓練函數(shù)基于Transformers庫版本4.38.2122的代碼。

我們使用F分數(shù)作為我們的衡量標準，以便能夠?qū)㈩A先訓練的網(wǎng)絡(luò)的性能與Yang和Piantadosi報告的他們貝葉斯學習者的數(shù)據(jù)進行比較，因為F分數(shù)是Yang和Piantadosi使用的衡量標準。為了從我們的模型中產(chǎn)生，我們在相關(guān)數(shù)據(jù)集上訓練了模型，然后從中抽取了100萬個序列。在某些情況下，我們使用0.5的溫度重新加權(quán)這些概率，作為優(yōu)先考慮模型最有信心的序列的一種措施，并且在某些情況下我們還使用了核采樣來截斷每個下一個令牌的分布，使其達到前0.99概率質(zhì)量，作為減少噪聲的另一種措施（有關(guān)這些措施使用時間的詳細信息，請參見補充方法）。這些超參數(shù)是在不在56種語言評估集中的語言驗證集上進行調(diào)整的。

自然語言數(shù)據(jù)：倫理考慮

我們在自然語言上的實驗涉及兩個數(shù)據(jù)集——參考文獻76中的訓練語料庫和Zorro數(shù)據(jù)集124——它們又基于CHILDES數(shù)據(jù)庫77，該數(shù)據(jù)庫包含父母與孩子之間自然對話的記錄。由于CHILDES可能包含私人數(shù)據(jù)的可能性，我們咨詢了普林斯頓機構(gòu)審查委員會的一名成員，以獲得使用該數(shù)據(jù)集的追溯性倫理批準。他回應(yīng)說，CHILDES數(shù)據(jù)庫可以在網(wǎng)上自由獲取，因此不符合私人（即個人為特定目的提供的信息，并且個人可以合理地期望這些信息不會被公開）的定義。

自然語言訓練

在我們的元訓練階段，模型僅使用了10的詞匯量大小，但我們的英語語料庫的詞匯量大小為17,096。因此，為了將我們的模型應(yīng)用于英語，我們丟棄了其初始嵌入層和最終輸出層，用適當大小的隨機初始化層替換它們。盡管我們在元訓練的每個情節(jié)中使用的優(yōu)化器是隨機梯度下降，但我們在所有自然語言訓練中（包括在先前訓練的網(wǎng)絡(luò)中元學習后的自然語言訓練階段）使用了AdamW優(yōu)化器，因為在初步實驗中，我們發(fā)現(xiàn)它的表現(xiàn)優(yōu)于隨機梯度下降。為了選擇在此數(shù)據(jù)集上訓練模型的超參數(shù)，對于圖4b中的每個單元格，我們對學習率、dropout和周期數(shù)的超參數(shù)進行了廣泛的搜索。我們分別對先前訓練的網(wǎng)絡(luò)和標準網(wǎng)絡(luò)進行了這種超參數(shù)搜索（對每種類型的網(wǎng)絡(luò)使用完全相同的搜索，以確保公平），并使用最適合它的超參數(shù)訓練每種類型的模型。有關(guān)這些超參數(shù)的值，請參見補充方法，有關(guān)超參數(shù)的進一步討論，請參見補充說明3。

為了評估模型在下一個詞預測上的表現(xiàn)，我們使用困惑度。困惑度定義如下，其中W是用于評估模型的詞序列，N是W的長度：

針對性的語言評估

Zorro評估集未作修改，直接使用了參考文獻124中的版本。原始的BLiMP數(shù)據(jù)集125包含許多不在我們模型詞匯表中的單詞，因此我們使用作者的代碼僅使用在模型訓練集中至少出現(xiàn)10次的詞匯表中的單詞重新生成數(shù)據(jù)集，生成了我們標記為BLiMPCH（BLiMPCHILDES的縮寫）的數(shù)據(jù)集。我們還想比較我們的模型在合理與不合理的句子上的表現(xiàn)。在Zorro數(shù)據(jù)集中，句子被故意設(shè)計成語義上不合理的，而BLiMP句子往往是語義上合理的。然而，這些數(shù)據(jù)集在許多其他方面也有所不同，因此它們不能在合理性維度上提供受控的比較。相反，我們生成了兩個新的數(shù)據(jù)集，它們在結(jié)構(gòu)上是相同的，但在單詞選擇上有所不同，以確保更大或更小程度的合理性。結(jié)果是一個新的數(shù)據(jù)集SCaMP（選擇性類別最小對立），它有一個語義上合理的版本和一個語義上不合理的版本。我們針對遞歸和啟動的額外評估是從生成這兩個新最小對立數(shù)據(jù)集的同一代碼庫中生成的。

統(tǒng)計

所有統(tǒng)計數(shù)據(jù)都是使用R（版本4.1.3）計算的。對于圖5a中顯示的p值，我們使用了兩種方法：模型級測試和項目級測試。如下所述，兩種類型的測試都同意在所有情況下都得到p < 0.001（圖5a中顯示的結(jié)果）。模型級p值基于雙側(cè)雙樣本t檢驗。對于四個數(shù)據(jù)集中的每一個，我們獲得了每種模型類型的40次重新運行在該數(shù)據(jù)集上的準確性，結(jié)果得到兩個向量，每個向量都包含40個準確性值；然后使用t檢驗比較這兩個向量。Zorro比較得到的t值（77.9自由度）= 5.30，p < 0.001，Cohen’s d = 1.19，平均差異的95%置信區(qū)間= [0.007, 0.016]。BLiMPCH比較得到的t值（77.9自由度）= 3.62，p < 0.001，Cohen’s d = 0.810，平均差異的95%置信區(qū)間= [0.0016, 0.0054]。SCaMP：合理比較得到的t值（73.4自由度）= 4.41，p < 0.001，Cohen’s d = 0.986，平均差異的95%置信區(qū)間= [0.006, 0.016]；移除遞歸子集后，這些結(jié)果變?yōu)閠值（74.4自由度）= -1.19，p = 0.237，Cohen’s d = -0.267，平均差異的95%置信區(qū)間= [-0.004, 0.001]。SCaMP：不合理比較得到的t值（68.2自由度）= 5.35，p < 0.001，Cohen’s d = 1.20，平均差異的95%置信區(qū)間= [0.008, 0.019]；移除遞歸子集后，這些結(jié)果變?yōu)閠值（77.1自由度）= 3.79，p < 0.001，Cohen’s d = 0.847，平均差異的95%置信區(qū)間= [0.003, 0.008]。項目級p值基于配對雙側(cè)雙樣本t檢驗。對于四個數(shù)據(jù)集中的每一個，我們獲得了每種模型類型的40次重新運行在該數(shù)據(jù)集中每個項目上的正確比例，結(jié)果得到兩個向量，其長度等于數(shù)據(jù)集中的項目數(shù)；然后使用配對t檢驗比較這兩個向量。Zorro比較得到的t值（45,999自由度）= 17.75，p < 0.001，Cohen’s d = 0.037，平均差異的95%置信區(qū)間= [0.010, 0.013]。BLiMPCH比較得到的t值（68,999自由度）= 6.49，p < 0.001，Cohen’s d = 0.0092，平均差異的95%置信區(qū)間= [0.0024, 0.0045]。SCaMP：合理比較得到的t值（66,999自由度）= 22.72，p < 0.001，Cohen’s d = 0.033，平均差異的95%置信區(qū)間= [0.010, 0.012]；移除遞歸子集后，這些結(jié)果變?yōu)閠值（48,999自由度）= -3.06，p = 0.002，Cohen’s d = -0.005，平均差異的95%置信區(qū)間= [-0.003, -0.001]。SCaMP：不合理比較得到的t值（66,999自由度）= 27.11，p < 0.001，Cohen’s d = 0.041，平均差異的95%置信區(qū)間= [0.013, 0.014]；移除遞歸子集后，這些結(jié)果變?yōu)閠值（48,999自由度）= 8.70，p < 0.001，Cohen’s d = 0.014，平均差異的95%置信區(qū)間= [0.004, 0.006]。

原文：https://www.nature.com/articles/s41467-025-59957-y

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.