国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

不用任何人類語言訓(xùn)練,大模型反而更強(qiáng)了?

0
分享至

機(jī)器之心編輯部

如果有一天,大模型不再依賴人類語言訓(xùn)練,會(huì)發(fā)生什么?

過去幾年,大模型能力的飛躍幾乎都建立在一個(gè)前提之上:海量文本數(shù)據(jù)?;ヂ?lián)網(wǎng)、書籍、代碼、論文,幾乎所有人類留下的語言痕跡,都被當(dāng)作訓(xùn)練數(shù)據(jù)。但隨著高質(zhì)量文本逐漸逼近枯竭,研究者開始提出一個(gè)更激進(jìn)的問題:

語言,真的必須是智能的起點(diǎn)嗎?

最新的一項(xiàng)研究給出了一個(gè)令人意外的答案:也許不需要。他們假設(shè)讓語言模型在學(xué)習(xí)語言之前,先在完全非語言的合成數(shù)據(jù)上進(jìn)行訓(xùn)練。

論文使用了一種完全不同的數(shù)據(jù)來源:在神經(jīng)細(xì)胞自動(dòng)機(jī)(Neural Cellular Automata, NCA)生成的數(shù)據(jù)上對(duì) Transformer 進(jìn)行預(yù)預(yù)訓(xùn)練(pre-pre-training)—— 這些數(shù)據(jù)完全是合成的,不包含任何語言內(nèi)容。

結(jié)果顯示,這種方法能夠?qū)⒄Z言建模性能提升最多 6%,將訓(xùn)練收斂速度加快 40%,并增強(qiáng)模型在下游任務(wù)中的推理能力。

這種方式的效果甚至超過了在自然文本上進(jìn)行預(yù)預(yù)訓(xùn)練(pre-pre-training)的模型。





  • 論文標(biāo)題:Training Language Models via Neural Cellular Automata
  • 論文地址:https://arxiv.org/pdf/2603.10055
  • 博客:https://hanseungwook.github.io/blog/nca-pre-pre-training/

自然語言,真的是通向智能的唯一道路嗎?

本文的核心假設(shè)是:語言之所以適合用于預(yù)訓(xùn)練,關(guān)鍵并不在于它的語義,而在于它所具備的結(jié)構(gòu)。如果這一點(diǎn)成立,那么那些同樣具有豐富結(jié)構(gòu)、但并非語言形式的數(shù)據(jù),理論上也可能被用來訓(xùn)練智能系統(tǒng)。

在得出這一假設(shè)之后,本文提出利用 NCA 生成合成的、非語言數(shù)據(jù),用于對(duì)大語言模型進(jìn)行預(yù)預(yù)訓(xùn)練(pre-pre-training),即先在合成數(shù)據(jù)上訓(xùn)練,再在自然語言上繼續(xù)訓(xùn)練。

值得一提的是,預(yù)預(yù)訓(xùn)練是本文提出的一種訓(xùn)練范式,模型先學(xué)習(xí) NCA 序列,然后再在語料庫上預(yù)訓(xùn)練,最后微調(diào)。



NCA 數(shù)據(jù)具有豐富的時(shí)空結(jié)構(gòu),其統(tǒng)計(jì)特性在某些方面與自然語言相似,同時(shí)又可控且易于大規(guī)模低成本生成。

另外,NCA 是對(duì)康威生命游戲(Conway’s Game of Life)(Gardner,1970)等系統(tǒng)的一種推廣:它通過用神經(jīng)網(wǎng)絡(luò)替代固定的動(dòng)力學(xué)規(guī)則,來定義系統(tǒng)的演化過程,并能夠在空間局部規(guī)則的基礎(chǔ)上生成多樣化的數(shù)據(jù)分布。

這種機(jī)制能夠產(chǎn)生任意規(guī)模的長程時(shí)空模式(見圖 1),并呈現(xiàn)出重尾(heavy-tailed)、齊夫定律的 token 分布,這一統(tǒng)計(jì)特性與自然數(shù)據(jù)十分相似。



在這種框架下,每一個(gè)隨機(jī)采樣得到的神經(jīng)網(wǎng)絡(luò)都會(huì)對(duì)應(yīng)一套獨(dú)特的狀態(tài)轉(zhuǎn)移規(guī)則,從而在網(wǎng)格上產(chǎn)生豐富多樣的時(shí)空動(dòng)態(tài)演化。

當(dāng)這些系統(tǒng)在較長時(shí)間尺度上不斷展開運(yùn)行時(shí),便會(huì)涌現(xiàn)出一系列復(fù)雜行為:從快速收斂到固定吸引子狀態(tài)的簡單模式,到隨著時(shí)間逐漸演化形成的復(fù)雜結(jié)構(gòu),呈現(xiàn)出極為豐富的動(dòng)態(tài)形態(tài)譜系。



這些 NCA 的演化軌跡會(huì)被離散化為序列(通過 2×2 的圖塊 patch 進(jìn)行分塊,類似視覺 Transformer 的處理方式),隨后輸入到一個(gè)標(biāo)準(zhǔn) Transformer 模型中,并通過下一 token 預(yù)測(cè)進(jìn)行訓(xùn)練。

關(guān)鍵之處在于:由于每一條序列都對(duì)應(yīng)著一條獨(dú)特的潛在演化規(guī)則(latent rule),模型要想正確預(yù)測(cè)接下來會(huì)發(fā)生什么,就必須在上下文中推斷出這條規(guī)則。

而這種在上下文中推斷規(guī)則的能力,正是語言模型中許多核心推理能力得以產(chǎn)生的基礎(chǔ)。

出人意料的結(jié)果

在相同的 token 預(yù)算(每種設(shè)置均為 1.64 億 tokens) 下,使用 NCA 進(jìn)行預(yù)預(yù)訓(xùn)練(pre-pre-training) 的模型優(yōu)于以下幾種方案:

  • 從零開始訓(xùn)練;
  • 使用自然語言數(shù)據(jù)(C4)進(jìn)行預(yù)預(yù)訓(xùn)練;
  • 使用其他合成數(shù)據(jù)(如 Dyck)進(jìn)行預(yù)預(yù)訓(xùn)練。

這種優(yōu)勢(shì)在網(wǎng)頁文本、數(shù)學(xué)以及代碼任務(wù)上都得到很好的體現(xiàn)。

更重要的是,這種提升不僅僅體現(xiàn)在收斂速度更快,還體現(xiàn)在最終困惑度(perplexity)更低,也就是說模型在最終性能上同樣更強(qiáng)。





這些在語言建模上的性能提升,也能夠遷移到真實(shí)的推理基準(zhǔn)測(cè)試中:



更令人驚訝的是,作者發(fā)現(xiàn):在相同規(guī)模的數(shù)據(jù)條件下,這種非語言的 NCA 數(shù)據(jù)表現(xiàn)反而優(yōu)于自然語言數(shù)據(jù)。

因此,作者進(jìn)一步進(jìn)行了測(cè)試:如果給 C4 大約 10 倍的數(shù)據(jù)會(huì)發(fā)生什么?

在新的實(shí)驗(yàn)中,他們將 C4 的預(yù)預(yù)訓(xùn)練(pre-pre-training)規(guī)模擴(kuò)大到 16 億 tokens,而 NCA 仍然保持在 1.64 億 tokens。

即便在這種數(shù)據(jù)規(guī)模明顯占優(yōu)的情況下,NCA 訓(xùn)練的模型依然表現(xiàn)更好:

  • 收斂速度快 1.4 倍;
  • 最終困惑度(perplexity)降低約 5%。



1.64 億 tokens 的自動(dòng)機(jī)數(shù)據(jù),擊敗了 16 億 tokens 的自然語言。

作者認(rèn)為,這種差異反映了不同數(shù)據(jù)源在不同規(guī)模下所教會(huì)模型的能力差異。

在 16 億 tokens 的規(guī)模下,這仍然遠(yuǎn)低于計(jì)算最優(yōu)規(guī)模(compute-optimal scale),C4 數(shù)據(jù)主要讓模型學(xué)到的是淺層、局部的統(tǒng)計(jì)模式。

而每一條 NCA 序列都會(huì)迫使模型:在上下文中推斷出一個(gè)潛在規(guī)則(即 in-context learning),并在后續(xù)預(yù)測(cè)中持續(xù)一致地應(yīng)用這一規(guī)則。

換句話說,相比于自然語言中大量重復(fù)的語言模式,NCA 數(shù)據(jù)在每個(gè) token 上提供了更多樣的函數(shù)結(jié)構(gòu)。

這種每個(gè) token 所攜帶的高多樣性規(guī)則學(xué)習(xí)信號(hào),似乎更高效地幫助模型構(gòu)建能夠遷移到語言任務(wù)中的通用表示能力。

是什么驅(qū)動(dòng)了這種遷移?

首先,作者發(fā)現(xiàn)注意力是核心載體。重新初始化實(shí)驗(yàn)表明,注意力層承載了最具可遷移性的計(jì)算原語。而 MLP 層更多編碼的是領(lǐng)域特定的知識(shí),只有在源任務(wù)與目標(biāo)任務(wù)相匹配時(shí),這些知識(shí)才具有可遷移性。

其次是復(fù)雜度需要匹配。最優(yōu)的 NCA 復(fù)雜度會(huì)隨著應(yīng)用領(lǐng)域而變化:代碼任務(wù)更受益于較簡單的動(dòng)態(tài)規(guī)則,而數(shù)學(xué)和網(wǎng)頁文本任務(wù)則更偏好更復(fù)雜的動(dòng)態(tài)結(jié)構(gòu)。這為針對(duì)特定領(lǐng)域進(jìn)行定制化訓(xùn)練提供了一種新的調(diào)節(jié)手段。

接著是結(jié)構(gòu),而非語義。NCA 數(shù)據(jù)完全不包含任何語言內(nèi)容,卻依然能夠訓(xùn)練模型去跟蹤長程依賴關(guān)系并推斷潛在規(guī)則,而這些能力正是語言理解與推理所需要的核心能力。

最后是效率優(yōu)于規(guī)模。更多的合成數(shù)據(jù)并不一定帶來更好的效果。相比單純?cè)黾訑?shù)據(jù)量,校準(zhǔn)數(shù)據(jù)生成機(jī)制的復(fù)雜度更為關(guān)鍵,這使得在更少計(jì)算資源下實(shí)現(xiàn)更高效的訓(xùn)練成為可能。

更純粹的訓(xùn)練信號(hào)

在 token 規(guī)模較小的情況下,自然語言預(yù)訓(xùn)練主要讓模型學(xué)到的是淺層的統(tǒng)計(jì)模式。模型往往依賴語義捷徑(semantic shortcuts)和詞語共現(xiàn)先驗(yàn)(co-occurrence priors)來完成預(yù)測(cè),而不是從結(jié)構(gòu)本身學(xué)習(xí)推理能力。

相比之下,NCA 序列中完全不存在這樣的語義捷徑。

每一條 NCA 演化軌跡都由一條隱藏的狀態(tài)轉(zhuǎn)移規(guī)則生成,這條規(guī)則來自一個(gè)隨機(jī)采樣的神經(jīng)網(wǎng)絡(luò),模型必須僅通過上下文信息來推斷它。由于沒有任何語義內(nèi)容可以依賴,每一個(gè) token 都在迫使模型進(jìn)行上下文規(guī)則推斷:觀察序列 → 假設(shè)潛在規(guī)則 → 在后續(xù)預(yù)測(cè)中持續(xù)應(yīng)用該規(guī)則。

這一過程實(shí)際上復(fù)現(xiàn)了語言模型的一項(xiàng)核心能力:上下文學(xué)習(xí)。

此外,NCA 的規(guī)則來自可計(jì)算函數(shù)的一個(gè)通用類別,其中一些甚至可以實(shí)現(xiàn)圖靈完備系統(tǒng)。因此,這一規(guī)則分布的空間過于龐大,無法通過記憶來覆蓋。模型不得不學(xué)習(xí)一種通用的規(guī)則推斷機(jī)制,而不是簡單記住某些特定規(guī)則。

實(shí)驗(yàn)結(jié)果也支持這一點(diǎn):最具可遷移性的結(jié)構(gòu)主要存在于注意力層,而不是 MLP 層。已有研究表明,上下文學(xué)習(xí)能力的出現(xiàn)與歸納頭(induction heads)的形成密切相關(guān),這是一種注意力電路,可以從序列前部復(fù)制并應(yīng)用模式到后續(xù)位置。

而 NCA 的預(yù)預(yù)訓(xùn)練過程恰恰只獎(jiǎng)勵(lì)這種行為,因此很可能在語言訓(xùn)練開始之前,就更早且更穩(wěn)固地促成這些注意力電路的形成。

超越「一刀切」的訓(xùn)練方式

這項(xiàng)研究為語言模型訓(xùn)練打開了一條全新的控制維度。過去,人們通常將訓(xùn)練數(shù)據(jù)分布視為既定條件;而現(xiàn)在,可以通過調(diào)節(jié)合成數(shù)據(jù)的結(jié)構(gòu),使其更好地匹配特定目標(biāo)領(lǐng)域。

例如:對(duì)于代碼任務(wù),可以使用更簡單的 NCA 規(guī)則;而在基因序列建模等場景中,則可以設(shè)計(jì)具有更豐富長程動(dòng)態(tài)結(jié)構(gòu)的規(guī)則。

這一方向的長期愿景是:基礎(chǔ)模型先通過完全合成的數(shù)據(jù)獲得推理能力,再通過一小部分精心篩選的自然語言語料學(xué)習(xí)語義。

這樣一來,我們或許能夠構(gòu)建出一種新的模型體系,能夠進(jìn)行推理,卻不會(huì)在一開始就繼承人類文本中的各種偏見。

因此,問題已經(jīng)不再是:合成預(yù)訓(xùn)練是否可行,而是:它究竟能夠走多遠(yuǎn)。

參考鏈接:https://hanseungwook.github.io/blog/nca-pre-pre-training/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女子稱找高鐵乘務(wù)員投訴一名男子在列車口抽煙,被發(fā)了一個(gè)口罩,當(dāng)事人:乘務(wù)員的態(tài)度很好,但自己對(duì)這種情況無語,希望高鐵全面禁煙

女子稱找高鐵乘務(wù)員投訴一名男子在列車口抽煙,被發(fā)了一個(gè)口罩,當(dāng)事人:乘務(wù)員的態(tài)度很好,但自己對(duì)這種情況無語,希望高鐵全面禁煙

洪觀新聞
2026-03-25 14:56:54
張雪峰離世!北京蘇州房產(chǎn)不在名下,1400名員工等安撫,好友停工

張雪峰離世!北京蘇州房產(chǎn)不在名下,1400名員工等安撫,好友停工

阿纂看事
2026-03-25 21:31:59
曾因污言穢語被封禁的張雪峰,憑什么讓鄭大悼念,新華社發(fā)訃告?

曾因污言穢語被封禁的張雪峰,憑什么讓鄭大悼念,新華社發(fā)訃告?

觀察者海風(fēng)
2026-03-25 22:10:33
人民日?qǐng)?bào)轉(zhuǎn)發(fā),三大巧合坐實(shí)“遺言”,猝死前說的話全應(yīng)驗(yàn)了!

人民日?qǐng)?bào)轉(zhuǎn)發(fā),三大巧合坐實(shí)“遺言”,猝死前說的話全應(yīng)驗(yàn)了!

奇思妙想草葉君
2026-03-25 12:40:13
南京女教師停職風(fēng)波反轉(zhuǎn)!大批家長發(fā)聲力挺,懇請(qǐng)恢復(fù)崗位與聲譽(yù)

南京女教師停職風(fēng)波反轉(zhuǎn)!大批家長發(fā)聲力挺,懇請(qǐng)恢復(fù)崗位與聲譽(yù)

火山詩話
2026-03-26 06:37:23
洛克希德·馬?。簩⒕_打擊導(dǎo)彈產(chǎn)量提升四倍

洛克希德·馬?。簩⒕_打擊導(dǎo)彈產(chǎn)量提升四倍

財(cái)聯(lián)社
2026-03-25 19:18:36
張雪峰去世事件升級(jí)!很多人連夜下單AED,有店鋪一天銷售100多臺(tái)

張雪峰去世事件升級(jí)!很多人連夜下單AED,有店鋪一天銷售100多臺(tái)

火山詩話
2026-03-26 07:32:38
張雪峰的財(cái)產(chǎn)幾個(gè)億,竟然沒買車,天天吃外賣,生活簡樸到極致

張雪峰的財(cái)產(chǎn)幾個(gè)億,竟然沒買車,天天吃外賣,生活簡樸到極致

魔都姐姐雜談
2026-03-25 15:59:12
斬首”讓一將功成萬骨枯成為歷史

斬首”讓一將功成萬骨枯成為歷史

昊軒看世界
2026-03-23 18:50:52
美媒曬NBA球隊(duì)市值排名:勇士113.3億美元居首 湖人第2火箭第10

美媒曬NBA球隊(duì)市值排名:勇士113.3億美元居首 湖人第2火箭第10

羅說NBA
2026-03-26 06:18:02
76人最多領(lǐng)先47分大勝公牛 恩比德復(fù)出35+6+7喬治解禁28分

76人最多領(lǐng)先47分大勝公牛 恩比德復(fù)出35+6+7喬治解禁28分

醉臥浮生
2026-03-26 09:25:57
伊朗重要人事任命,釋放強(qiáng)烈信號(hào)!

伊朗重要人事任命,釋放強(qiáng)烈信號(hào)!

斐君觀點(diǎn)
2026-03-25 21:08:16
只剩6天!醫(yī)保全國統(tǒng)一,41-61歲抓緊辦這幾件事,否則就晚了!

只剩6天!醫(yī)保全國統(tǒng)一,41-61歲抓緊辦這幾件事,否則就晚了!

另子維愛讀史
2026-03-25 22:09:07
曝信達(dá)證券所長猥褻員工,長得很老實(shí),女方顏值出眾,合影曝光

曝信達(dá)證券所長猥褻員工,長得很老實(shí),女方顏值出眾,合影曝光

180視角
2026-03-25 17:34:12
從“價(jià)格戰(zhàn)”到“定標(biāo)準(zhǔn)”,自主家轎三強(qiáng)重新定義“國民家轎”

從“價(jià)格戰(zhàn)”到“定標(biāo)準(zhǔn)”,自主家轎三強(qiáng)重新定義“國民家轎”

汽車預(yù)言家
2026-03-25 10:25:08
布朗31分8板8助凱爾特人終結(jié)雷霆12連勝,亞歷山大33分8助攻

布朗31分8板8助凱爾特人終結(jié)雷霆12連勝,亞歷山大33分8助攻

湖人崛起
2026-03-26 10:00:59
聯(lián)大認(rèn)定“奴隸制”為最嚴(yán)重反人類罪:123票贊成,美國、以色列、阿根廷共3票反對(duì)

聯(lián)大認(rèn)定“奴隸制”為最嚴(yán)重反人類罪:123票贊成,美國、以色列、阿根廷共3票反對(duì)

都市快報(bào)橙柿互動(dòng)
2026-03-26 07:59:37
張雪峰6年前已離婚,獨(dú)女張姩菡只能分16.5%遺產(chǎn),現(xiàn)任妻子占大頭

張雪峰6年前已離婚,獨(dú)女張姩菡只能分16.5%遺產(chǎn),現(xiàn)任妻子占大頭

楓紅染山徑
2026-03-25 16:56:22
伊朗外長:伊朗經(jīng)調(diào)解方與美“交流信息”,沒有談判;白宮稱美伊談判“仍在繼續(xù)”;俄羅斯:烏克蘭問題談判已暫停;布油跌超2%丨每經(jīng)早參

伊朗外長:伊朗經(jīng)調(diào)解方與美“交流信息”,沒有談判;白宮稱美伊談判“仍在繼續(xù)”;俄羅斯:烏克蘭問題談判已暫停;布油跌超2%丨每經(jīng)早參

每日經(jīng)濟(jì)新聞
2026-03-26 06:49:04
到底有多無知,才能做出這樣的判決!

到底有多無知,才能做出這樣的判決!

槽三刀
2026-03-25 22:01:04
2026-03-26 10:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

硅谷因AI大裁員?一線工程師戳破真相

頭條要聞

舉天價(jià)零件發(fā)出靈魂拷問的美官員 自己被大學(xué)生質(zhì)問了

頭條要聞

舉天價(jià)零件發(fā)出靈魂拷問的美官員 自己被大學(xué)生質(zhì)問了

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

黃仁勛:芯片公司的時(shí)代已經(jīng)結(jié)束了

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

健康
旅游
藝術(shù)
本地
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

白如雪粉如霞!玉盞輕舉,盛放廟行春光

藝術(shù)要聞

王洪文的狂草背后隱藏的秘密,趙孟頫書法的真實(shí)價(jià)值揭秘!

本地新聞

來永泰同安 赴一場春天的約會(huì)

軍事要聞

伊朗重申非交戰(zhàn)國家船只可安全通過霍爾木茲海峽

無障礙瀏覽 進(jìn)入關(guān)懷版