網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

不用任何人類語言訓(xùn)練，大模型反而更強(qiáng)了？

2026-03-16 11:39:41　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心編輯部

如果有一天，大模型不再依賴人類語言訓(xùn)練，會(huì)發(fā)生什么？

過去幾年，大模型能力的飛躍幾乎都建立在一個(gè)前提之上：海量文本數(shù)據(jù)?；ヂ?lián)網(wǎng)、書籍、代碼、論文，幾乎所有人類留下的語言痕跡，都被當(dāng)作訓(xùn)練數(shù)據(jù)。但隨著高質(zhì)量文本逐漸逼近枯竭，研究者開始提出一個(gè)更激進(jìn)的問題：

語言，真的必須是智能的起點(diǎn)嗎？

最新的一項(xiàng)研究給出了一個(gè)令人意外的答案：也許不需要。他們假設(shè)讓語言模型在學(xué)習(xí)語言之前，先在完全非語言的合成數(shù)據(jù)上進(jìn)行訓(xùn)練。

論文使用了一種完全不同的數(shù)據(jù)來源：在神經(jīng)細(xì)胞自動(dòng)機(jī)（Neural Cellular Automata, NCA）生成的數(shù)據(jù)上對(duì) Transformer 進(jìn)行預(yù)預(yù)訓(xùn)練（pre-pre-training）—— 這些數(shù)據(jù)完全是合成的，不包含任何語言內(nèi)容。

結(jié)果顯示，這種方法能夠?qū)⒄Z言建模性能提升最多 6%，將訓(xùn)練收斂速度加快 40%，并增強(qiáng)模型在下游任務(wù)中的推理能力。

這種方式的效果甚至超過了在自然文本上進(jìn)行預(yù)預(yù)訓(xùn)練（pre-pre-training）的模型。

論文標(biāo)題：Training Language Models via Neural Cellular Automata
論文地址：https://arxiv.org/pdf/2603.10055
博客：https://hanseungwook.github.io/blog/nca-pre-pre-training/

自然語言，真的是通向智能的唯一道路嗎？

本文的核心假設(shè)是：語言之所以適合用于預(yù)訓(xùn)練，關(guān)鍵并不在于它的語義，而在于它所具備的結(jié)構(gòu)。如果這一點(diǎn)成立，那么那些同樣具有豐富結(jié)構(gòu)、但并非語言形式的數(shù)據(jù)，理論上也可能被用來訓(xùn)練智能系統(tǒng)。

在得出這一假設(shè)之后，本文提出利用 NCA 生成合成的、非語言數(shù)據(jù)，用于對(duì)大語言模型進(jìn)行預(yù)預(yù)訓(xùn)練（pre-pre-training），即先在合成數(shù)據(jù)上訓(xùn)練，再在自然語言上繼續(xù)訓(xùn)練。

值得一提的是，預(yù)預(yù)訓(xùn)練是本文提出的一種訓(xùn)練范式，模型先學(xué)習(xí) NCA 序列，然后再在語料庫上預(yù)訓(xùn)練，最后微調(diào)。

NCA 數(shù)據(jù)具有豐富的時(shí)空結(jié)構(gòu)，其統(tǒng)計(jì)特性在某些方面與自然語言相似，同時(shí)又可控且易于大規(guī)模低成本生成。

另外，NCA 是對(duì)康威生命游戲（Conway’s Game of Life）（Gardner，1970）等系統(tǒng)的一種推廣：它通過用神經(jīng)網(wǎng)絡(luò)替代固定的動(dòng)力學(xué)規(guī)則，來定義系統(tǒng)的演化過程，并能夠在空間局部規(guī)則的基礎(chǔ)上生成多樣化的數(shù)據(jù)分布。

這種機(jī)制能夠產(chǎn)生任意規(guī)模的長程時(shí)空模式（見圖 1），并呈現(xiàn)出重尾（heavy-tailed）、齊夫定律的 token 分布，這一統(tǒng)計(jì)特性與自然數(shù)據(jù)十分相似。

在這種框架下，每一個(gè)隨機(jī)采樣得到的神經(jīng)網(wǎng)絡(luò)都會(huì)對(duì)應(yīng)一套獨(dú)特的狀態(tài)轉(zhuǎn)移規(guī)則，從而在網(wǎng)格上產(chǎn)生豐富多樣的時(shí)空動(dòng)態(tài)演化。

當(dāng)這些系統(tǒng)在較長時(shí)間尺度上不斷展開運(yùn)行時(shí)，便會(huì)涌現(xiàn)出一系列復(fù)雜行為：從快速收斂到固定吸引子狀態(tài)的簡單模式，到隨著時(shí)間逐漸演化形成的復(fù)雜結(jié)構(gòu)，呈現(xiàn)出極為豐富的動(dòng)態(tài)形態(tài)譜系。

這些 NCA 的演化軌跡會(huì)被離散化為序列（通過 2×2 的圖塊 patch 進(jìn)行分塊，類似視覺 Transformer 的處理方式），隨后輸入到一個(gè)標(biāo)準(zhǔn) Transformer 模型中，并通過下一 token 預(yù)測(cè)進(jìn)行訓(xùn)練。

關(guān)鍵之處在于：由于每一條序列都對(duì)應(yīng)著一條獨(dú)特的潛在演化規(guī)則（latent rule），模型要想正確預(yù)測(cè)接下來會(huì)發(fā)生什么，就必須在上下文中推斷出這條規(guī)則。

而這種在上下文中推斷規(guī)則的能力，正是語言模型中許多核心推理能力得以產(chǎn)生的基礎(chǔ)。

出人意料的結(jié)果

在相同的 token 預(yù)算（每種設(shè)置均為 1.64 億 tokens）下，使用 NCA 進(jìn)行預(yù)預(yù)訓(xùn)練（pre-pre-training）的模型優(yōu)于以下幾種方案：

從零開始訓(xùn)練；
使用自然語言數(shù)據(jù)（C4）進(jìn)行預(yù)預(yù)訓(xùn)練；
使用其他合成數(shù)據(jù)（如 Dyck）進(jìn)行預(yù)預(yù)訓(xùn)練。

這種優(yōu)勢(shì)在網(wǎng)頁文本、數(shù)學(xué)以及代碼任務(wù)上都得到很好的體現(xiàn)。

更重要的是，這種提升不僅僅體現(xiàn)在收斂速度更快，還體現(xiàn)在最終困惑度（perplexity）更低，也就是說模型在最終性能上同樣更強(qiáng)。

這些在語言建模上的性能提升，也能夠遷移到真實(shí)的推理基準(zhǔn)測(cè)試中：

更令人驚訝的是，作者發(fā)現(xiàn)：在相同規(guī)模的數(shù)據(jù)條件下，這種非語言的 NCA 數(shù)據(jù)表現(xiàn)反而優(yōu)于自然語言數(shù)據(jù)。

因此，作者進(jìn)一步進(jìn)行了測(cè)試：如果給 C4 大約 10 倍的數(shù)據(jù)會(huì)發(fā)生什么？

在新的實(shí)驗(yàn)中，他們將 C4 的預(yù)預(yù)訓(xùn)練（pre-pre-training）規(guī)模擴(kuò)大到 16 億 tokens，而 NCA 仍然保持在 1.64 億 tokens。

即便在這種數(shù)據(jù)規(guī)模明顯占優(yōu)的情況下，NCA 訓(xùn)練的模型依然表現(xiàn)更好：

收斂速度快 1.4 倍；
最終困惑度（perplexity）降低約 5%。

1.64 億 tokens 的自動(dòng)機(jī)數(shù)據(jù)，擊敗了 16 億 tokens 的自然語言。

作者認(rèn)為，這種差異反映了不同數(shù)據(jù)源在不同規(guī)模下所教會(huì)模型的能力差異。

在 16 億 tokens 的規(guī)模下，這仍然遠(yuǎn)低于計(jì)算最優(yōu)規(guī)模（compute-optimal scale），C4 數(shù)據(jù)主要讓模型學(xué)到的是淺層、局部的統(tǒng)計(jì)模式。

而每一條 NCA 序列都會(huì)迫使模型：在上下文中推斷出一個(gè)潛在規(guī)則（即 in-context learning），并在后續(xù)預(yù)測(cè)中持續(xù)一致地應(yīng)用這一規(guī)則。

換句話說，相比于自然語言中大量重復(fù)的語言模式，NCA 數(shù)據(jù)在每個(gè) token 上提供了更多樣的函數(shù)結(jié)構(gòu)。

這種每個(gè) token 所攜帶的高多樣性規(guī)則學(xué)習(xí)信號(hào)，似乎更高效地幫助模型構(gòu)建能夠遷移到語言任務(wù)中的通用表示能力。

是什么驅(qū)動(dòng)了這種遷移？

首先，作者發(fā)現(xiàn)注意力是核心載體。重新初始化實(shí)驗(yàn)表明，注意力層承載了最具可遷移性的計(jì)算原語。而 MLP 層更多編碼的是領(lǐng)域特定的知識(shí)，只有在源任務(wù)與目標(biāo)任務(wù)相匹配時(shí)，這些知識(shí)才具有可遷移性。

其次是復(fù)雜度需要匹配。最優(yōu)的 NCA 復(fù)雜度會(huì)隨著應(yīng)用領(lǐng)域而變化：代碼任務(wù)更受益于較簡單的動(dòng)態(tài)規(guī)則，而數(shù)學(xué)和網(wǎng)頁文本任務(wù)則更偏好更復(fù)雜的動(dòng)態(tài)結(jié)構(gòu)。這為針對(duì)特定領(lǐng)域進(jìn)行定制化訓(xùn)練提供了一種新的調(diào)節(jié)手段。

接著是結(jié)構(gòu)，而非語義。NCA 數(shù)據(jù)完全不包含任何語言內(nèi)容，卻依然能夠訓(xùn)練模型去跟蹤長程依賴關(guān)系并推斷潛在規(guī)則，而這些能力正是語言理解與推理所需要的核心能力。

最后是效率優(yōu)于規(guī)模。更多的合成數(shù)據(jù)并不一定帶來更好的效果。相比單純?cè)黾訑?shù)據(jù)量，校準(zhǔn)數(shù)據(jù)生成機(jī)制的復(fù)雜度更為關(guān)鍵，這使得在更少計(jì)算資源下實(shí)現(xiàn)更高效的訓(xùn)練成為可能。

更純粹的訓(xùn)練信號(hào)

在 token 規(guī)模較小的情況下，自然語言預(yù)訓(xùn)練主要讓模型學(xué)到的是淺層的統(tǒng)計(jì)模式。模型往往依賴語義捷徑（semantic shortcuts）和詞語共現(xiàn)先驗(yàn)（co-occurrence priors）來完成預(yù)測(cè)，而不是從結(jié)構(gòu)本身學(xué)習(xí)推理能力。

相比之下，NCA 序列中完全不存在這樣的語義捷徑。

每一條 NCA 演化軌跡都由一條隱藏的狀態(tài)轉(zhuǎn)移規(guī)則生成，這條規(guī)則來自一個(gè)隨機(jī)采樣的神經(jīng)網(wǎng)絡(luò)，模型必須僅通過上下文信息來推斷它。由于沒有任何語義內(nèi)容可以依賴，每一個(gè) token 都在迫使模型進(jìn)行上下文規(guī)則推斷：觀察序列 → 假設(shè)潛在規(guī)則 → 在后續(xù)預(yù)測(cè)中持續(xù)應(yīng)用該規(guī)則。

這一過程實(shí)際上復(fù)現(xiàn)了語言模型的一項(xiàng)核心能力：上下文學(xué)習(xí)。

此外，NCA 的規(guī)則來自可計(jì)算函數(shù)的一個(gè)通用類別，其中一些甚至可以實(shí)現(xiàn)圖靈完備系統(tǒng)。因此，這一規(guī)則分布的空間過于龐大，無法通過記憶來覆蓋。模型不得不學(xué)習(xí)一種通用的規(guī)則推斷機(jī)制，而不是簡單記住某些特定規(guī)則。

實(shí)驗(yàn)結(jié)果也支持這一點(diǎn)：最具可遷移性的結(jié)構(gòu)主要存在于注意力層，而不是 MLP 層。已有研究表明，上下文學(xué)習(xí)能力的出現(xiàn)與歸納頭（induction heads）的形成密切相關(guān)，這是一種注意力電路，可以從序列前部復(fù)制并應(yīng)用模式到后續(xù)位置。

而 NCA 的預(yù)預(yù)訓(xùn)練過程恰恰只獎(jiǎng)勵(lì)這種行為，因此很可能在語言訓(xùn)練開始之前，就更早且更穩(wěn)固地促成這些注意力電路的形成。

超越「一刀切」的訓(xùn)練方式

這項(xiàng)研究為語言模型訓(xùn)練打開了一條全新的控制維度。過去，人們通常將訓(xùn)練數(shù)據(jù)分布視為既定條件；而現(xiàn)在，可以通過調(diào)節(jié)合成數(shù)據(jù)的結(jié)構(gòu)，使其更好地匹配特定目標(biāo)領(lǐng)域。

例如：對(duì)于代碼任務(wù)，可以使用更簡單的 NCA 規(guī)則；而在基因序列建模等場景中，則可以設(shè)計(jì)具有更豐富長程動(dòng)態(tài)結(jié)構(gòu)的規(guī)則。

這一方向的長期愿景是：基礎(chǔ)模型先通過完全合成的數(shù)據(jù)獲得推理能力，再通過一小部分精心篩選的自然語言語料學(xué)習(xí)語義。

這樣一來，我們或許能夠構(gòu)建出一種新的模型體系，能夠進(jìn)行推理，卻不會(huì)在一開始就繼承人類文本中的各種偏見。

因此，問題已經(jīng)不再是：合成預(yù)訓(xùn)練是否可行，而是：它究竟能夠走多遠(yuǎn)。

參考鏈接：https://hanseungwook.github.io/blog/nca-pre-pre-training/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.