国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不用一個字,MIT團隊讓細胞自動機教會了大模型推理

0
分享至

1970 年,數(shù)學家約翰·康威發(fā)明了“生命游戲”(Game of Life)。在一塊無限延伸的棋盤上,每個方格非生即死,遵循幾條極其簡單的規(guī)則:活細胞如果鄰居太少就會孤獨而死,太多則因擁擠而亡;死細胞恰好有三個活鄰居就會復(fù)活。

沒有人下棋,沒有人操控,但這些簡單規(guī)則跑起來之后,屏幕上會涌現(xiàn)出滑翔機、脈沖槍、甚至可以模擬圖靈機的復(fù)雜結(jié)構(gòu)。半個多世紀以來,這個實驗一直被視為復(fù)雜性科學的經(jīng)典演示,展示簡單規(guī)則如何生成無窮復(fù)雜的行為。


圖丨康威的“生命游戲”(來源:WikiPedia)

沒人想過這些東西能教 AI 說話。直到現(xiàn)在。

MIT Improbable AI 實驗室 Pulkit Agrawal 團隊在今年 3 月發(fā)表了一篇論文,提出了一個聽起來相當不合常理的想法:用類似“生命游戲”的細胞自動機生成的數(shù)據(jù),去預(yù)訓練大型語言模型。這些數(shù)據(jù)不包含任何文字、任何語義,只是一個 12×12 網(wǎng)格上像素不斷演化的軌跡。


圖丨Pulkit Agrawal(來源:MIT CSAIL)

但實驗結(jié)果顯示,在這些純粹的“動態(tài)圖案”上訓練過的模型,在隨后的自然語言學習中表現(xiàn)得更好,困惑度(perplexity)降低了最多 6%,收斂速度加快了最多 1.6 倍。更讓人意外的是,僅用 1.64 億個細胞自動機 token 做預(yù)訓練,效果竟然超過了用 16 億個真實英語文本(來自 Common Crawl 數(shù)據(jù)集 C4)做同樣的預(yù)訓練。

這項工作的核心思路可以用一句話概括:語言模型真正需要學習的,可能不是語言本身,而是語言背后的計算結(jié)構(gòu)。


圖丨NCA 預(yù)預(yù)訓練到語言預(yù)訓練的概覽(來源:arXiv)

研究團隊使用的是“神經(jīng)細胞自動機”(Neural Cellular Automata, NCA),這是經(jīng)典細胞自動機的一種推廣。傳統(tǒng)的細胞自動機(比如康威的生命游戲)使用固定的規(guī)則,而 NCA 把規(guī)則替換成了一個小型神經(jīng)網(wǎng)絡(luò),具體來說是一個 3×3 卷積加上一層 MLP。

每次生成訓練數(shù)據(jù)時,研究者隨機初始化這個網(wǎng)絡(luò)的權(quán)重,等于隨機抽取一條全新的動力學規(guī)則,然后讓它在網(wǎng)格上跑出一段時空演化軌跡。這些軌跡被切割成 2×2 的圖像塊,映射為 token 序列,再用標準的下一個 token 預(yù)測任務(wù)來訓練 transformer。

換句話說,模型拿到的每一條序列,都來自一個它從未見過的規(guī)則。要預(yù)測下一個 token,它必須在上下文中推斷出這條隱藏規(guī)則,然后應(yīng)用它。這和語言模型在真實文本上做的事情存在某種深層對應(yīng)。

斯坦福大學馬騰宇與 Percy Liang 團隊在 2022 年的工作中就曾論證,下一個 token 預(yù)測本質(zhì)上是一種隱式的貝葉斯推斷:模型從已有的文本中推斷出潛在的“生成概念”,再據(jù)此預(yù)測接下來會出現(xiàn)什么。NCA 訓練把這個過程提純了。自然語言中混雜著語義快捷方式和共現(xiàn)先驗,模型可以“投機取巧”;而 NCA 數(shù)據(jù)中沒有任何語義可以依賴,每一個 token 都在迫使模型做純粹的規(guī)則推斷。

這套方法被稱為“pre-pre-training”,即在正式的語言預(yù)訓練之前,先用合成數(shù)據(jù)做一輪“預(yù)預(yù)訓練”。

訓練流程分三步走:先在 NCA 數(shù)據(jù)上訓練 transformer 的非嵌入層權(quán)重,再在自然語言語料(網(wǎng)頁文本、代碼或數(shù)學文本)上做標準預(yù)訓練,最后是針對具體任務(wù)的微調(diào)。研究者測試了三個下游語料庫,分別是 OpenWebText(網(wǎng)頁文本,約 90 億 token)、OpenWebMath(數(shù)學文本,約 40 億 token)和 CodeParrot(代碼,約 130 億 token),在所有三個領(lǐng)域上都觀察到了持續(xù)的改善。


(來源:arXiv)

在推理基準測試上,收益同樣可見。GSM8K 數(shù)學推理測試中,NCA 預(yù)訓練將 pass@1 從 3.8% 提升到 4.4%;HumanEval 代碼生成測試中,pass@1 從 6.8% 提升到 7.5%;BigBench-Lite 綜合推理測試中,pass@4 從 25.9% 躍升至 36.5%。

絕對數(shù)字不算大,這些畢竟是 16 億參數(shù)的模型,而非千億級的商用系統(tǒng),但對照實驗的一致性指向了一個清晰的信號:從非語言數(shù)據(jù)中習得的某些東西,確實在幫助模型處理語言任務(wù)。

那么,到底是什么被轉(zhuǎn)移了?研究者做了一個拆解實驗:在 NCA 預(yù)訓練完成后,選擇性地重新初始化模型的不同組件(注意力層、MLP 層、LayerNorm 層),然后觀察下游表現(xiàn)的變化。結(jié)果非常明確:重新初始化注意力權(quán)重造成的性能損失最大,遠超其他組件。這意味著注意力層承載了最多的可遷移結(jié)構(gòu)。

MLP 層的效果則因領(lǐng)域而異:在 OpenWebText 上,保留 NCA 階段的 MLP 權(quán)重反而會干擾語言學習;但在 CodeParrot 上,影響可以忽略不計。

這一發(fā)現(xiàn)和最近 Jelassi 等人(2025 年)對混合專家(MoE)架構(gòu)的分析形成了一定程度的呼應(yīng),那項工作表明擴大 MLP 參數(shù)主要增強的是記憶能力而非推理能力。兩相對照,一幅功能分工的圖景浮現(xiàn)出來:注意力層負責學習通用的依賴追蹤和上下文推斷機制,MLP 層則傾向于存儲特定領(lǐng)域的模式和統(tǒng)計規(guī)律。正因如此,注意力層從 NCA 到語言的遷移是“萬金油”式的,而 MLP 的遷移效果取決于源域和目標域之間的匹配程度。

研究中另一個值得關(guān)注的發(fā)現(xiàn)有關(guān)于復(fù)雜性匹配。團隊使用 gzip 壓縮率作為 NCA 軌跡復(fù)雜性的度量,壓縮率低意味著數(shù)據(jù)更有規(guī)律、更可預(yù)測,壓縮率高則意味著更豐富的時空結(jié)構(gòu)。他們把 NCA 數(shù)據(jù)按壓縮率分成幾個區(qū)間(20-30%、30-40%、40-50%、50% 以上),分別測試各區(qū)間對不同下游領(lǐng)域的遷移效果。

結(jié)果表明,網(wǎng)頁文本和數(shù)學文本從高復(fù)雜度 NCA(50%+ 壓縮率)中受益最大,而代碼領(lǐng)域的最優(yōu)區(qū)間在中等復(fù)雜度(30-40%)。有意思的是,這恰好與目標語料自身的復(fù)雜度特征對齊,OpenWebText 和 OpenWebMath 的 gzip 壓縮率在 60-70%,CodeParrot 則只有 32%。

這意味著,合成數(shù)據(jù)不是“越多越好”或“越復(fù)雜越好”,而是需要與目標領(lǐng)域的計算特征相匹配。研究者稱之為“domain-targeted data design”,一種自然語言訓練中不存在的調(diào)控杠桿。你無法輕易改變英語的統(tǒng)計特性,但你可以調(diào)整 NCA 的規(guī)則空間、字母表大小、復(fù)雜度分布,讓它精確匹配你想要訓練的能力。

這項工作的理論背景可以追溯到幾條學術(shù)脈絡(luò)。一條是 MIT 同校 Phillip Isola 團隊在 2024 年提出的“柏拉圖表征假說”(Platonic Representation Hypothesis),核心觀點是不同模態(tài)、不同架構(gòu)的 AI 模型,隨著規(guī)模增大,內(nèi)部表征正在趨同,仿佛都在逼近對現(xiàn)實世界的某種共同的統(tǒng)計模型。如果這個假說成立,那么從非語言數(shù)據(jù)中能學到與語言相通的表征,就不那么令人驚訝了。

另一條脈絡(luò)來自 Finzi 等人(2026 年)提出的“epiplexity”概念,它指出對于計算能力有限的觀察者而言,簡單的確定性過程也能生成需要學習才能把握的結(jié)構(gòu)信息。經(jīng)典信息論認為確定性變換不能增加信息量,但那假設(shè)的是全知全能的觀察者;對于一個有限容量的 transformer 來說,生命游戲中涌現(xiàn)的滑翔機和碰撞圖案,確實包含了它必須“理解”才能預(yù)測的東西。

關(guān)于“為什么 1.6 億 token 的自動機數(shù)據(jù)能勝過 16 億 token 的英語”,研究者給出的解釋是:在遠低于計算最優(yōu)規(guī)模的 token 預(yù)算下(Chinchilla 定律建議 16 億參數(shù)模型需要約 320 億 token),自然語言訓練主要在學習淺層的局部模式,比如詞匯搭配、句法片段這些“表面功夫”。

而 NCA 數(shù)據(jù)由于每條序列都對應(yīng)一個獨特的動力學規(guī)則,多樣性極高,冗余性極低,每個 token 都在訓練模型做深層的規(guī)則推斷。加之 Abbas 等人(2023 年)的研究已經(jīng)表明大規(guī)模自然語言數(shù)據(jù)集內(nèi)部存在大量語義冗余,NCA 在 token 效率上的優(yōu)勢就變得可以理解了。

不過,目前這個實驗的規(guī)模還限于 16 億參數(shù),距離工業(yè)級的千億參數(shù)模型還有數(shù)量級的差距。NCA 預(yù)訓練的增益隨模型規(guī)模增大而遞減,400M 模型改善了 8.6%,1.6B 模型改善了 5.7%,這個趨勢在更大規(guī)模上是否會完全消失,目前還不清楚。

此外,對于較大字母表(n=10, 15)的 NCA,收益在一定 token 預(yù)算后出現(xiàn)飽和甚至下降,說明簡單地“生成更多 NCA 數(shù)據(jù)”并不是萬能解法。如何從理論上指導合成數(shù)據(jù)的生成,使其精確匹配目標領(lǐng)域的計算特征,仍然是一個開放的研究問題。

但研究者們的期望不止于此。論文的結(jié)尾寫道,他們的最終愿景是完全用干凈的合成數(shù)據(jù)做預(yù)訓練,只在最后階段用少量經(jīng)過精心篩選的自然語言來獲取語義。當前的“預(yù)預(yù)訓練”框架是這個范式的早期原型。

參考資料:

1.https://arxiv.org/pdf/2603.10055

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
四川省文物局局長唐飛:眉山文物資源呈現(xiàn)出三大特點丨關(guān)注四川歷史文化名城保護③

四川省文物局局長唐飛:眉山文物資源呈現(xiàn)出三大特點丨關(guān)注四川歷史文化名城保護③

北青網(wǎng)-北京青年報
2026-03-25 19:43:12
47歲袁泉被罵“斷崖式衰老”,素顏糙臉背后,藏著演員最狠的自律

47歲袁泉被罵“斷崖式衰老”,素顏糙臉背后,藏著演員最狠的自律

情感大頭說說
2026-03-26 17:04:32
三分命中率64.1%,斷層全聯(lián)盟第一!郭士強該給他一個國家隊名額

三分命中率64.1%,斷層全聯(lián)盟第一!郭士強該給他一個國家隊名額

弄月公子
2026-03-26 11:03:13
強化金融風險源頭防控

強化金融風險源頭防控

經(jīng)濟日報
2026-03-26 06:48:05
5種“奪命花”不要養(yǎng),家里要有趕快扔,誰不聽勸誰吃虧

5種“奪命花”不要養(yǎng),家里要有趕快扔,誰不聽勸誰吃虧

三農(nóng)老歷
2026-03-26 09:42:30
57歲的宋祖英,雖是大媽年齡,卻散發(fā)出中年女性的氣質(zhì)。

57歲的宋祖英,雖是大媽年齡,卻散發(fā)出中年女性的氣質(zhì)。

情感大頭說說
2026-03-27 00:16:52
大巨變!發(fā)現(xiàn)沒有?農(nóng)村越來越多四五十歲的人,都不出去打工了

大巨變!發(fā)現(xiàn)沒有?農(nóng)村越來越多四五十歲的人,都不出去打工了

復(fù)轉(zhuǎn)這些年
2026-03-22 17:26:02
寶格麗晚宴:劉亦菲兜不住副乳,海瑟薇手歪曲,金智媛生圖沒眼看

寶格麗晚宴:劉亦菲兜不住副乳,海瑟薇手歪曲,金智媛生圖沒眼看

嫹筆牂牂
2026-03-25 07:14:56
一審重判整整17年,柯文哲當庭最后一搏,藏著賴清德最擔心的結(jié)局

一審重判整整17年,柯文哲當庭最后一搏,藏著賴清德最擔心的結(jié)局

李健政觀察
2026-03-26 18:16:56
撕破臉!鄭麗文公開炮轟盧秀燕,藍營內(nèi)斗徹底公開化!

撕破臉!鄭麗文公開炮轟盧秀燕,藍營內(nèi)斗徹底公開化!

達文西看世界
2026-03-25 10:53:39
伊朗稱已組織超百萬人為地面戰(zhàn)斗做準備

伊朗稱已組織超百萬人為地面戰(zhàn)斗做準備

界面新聞
2026-03-26 22:53:08
省下一億鎊!曼聯(lián)自有 “新吉馬良斯”,卡里克手握王炸

省下一億鎊!曼聯(lián)自有 “新吉馬良斯”,卡里克手握王炸

瀾歸序
2026-03-26 04:56:27
柯文哲被判重刑,黃國昌蔣萬安回應(yīng),賴清德又盯上鄭麗文?

柯文哲被判重刑,黃國昌蔣萬安回應(yīng),賴清德又盯上鄭麗文?

DS北風
2026-03-26 17:58:06
外資大撤退:亞洲股市遭遇2009年以來...

外資大撤退:亞洲股市遭遇2009年以來...

新浪財經(jīng)
2026-03-27 01:06:32
A股:緊急提醒3億股民股民,主力已攤牌,周五,將迎來狂風暴雨

A股:緊急提醒3億股民股民,主力已攤牌,周五,將迎來狂風暴雨

云鵬敘事
2026-03-27 00:00:07
李莉沒有說過“伊朗半小時滅以色列”,

李莉沒有說過“伊朗半小時滅以色列”,

雪中風車
2026-03-01 08:11:49
4.7萬億!馬斯克打破人類財富紀錄:他一個人的錢抵得過160個國家

4.7萬億!馬斯克打破人類財富紀錄:他一個人的錢抵得過160個國家

通鑒史智
2026-03-15 11:45:00
蒙古總理當眾給斯大林一耳光,走出宴會廳3小時后,被扣上間諜帽子槍決

蒙古總理當眾給斯大林一耳光,走出宴會廳3小時后,被扣上間諜帽子槍決

老杉說歷史
2026-03-23 22:17:08
終于知道廣東人為啥不抑郁了!網(wǎng)友:西醫(yī)叫抑郁,中醫(yī)叫郁結(jié)

終于知道廣東人為啥不抑郁了!網(wǎng)友:西醫(yī)叫抑郁,中醫(yī)叫郁結(jié)

另子維愛讀史
2026-03-25 22:34:08
陪玩陪睡不過冰山一角?張藝謀團隊爆猛料,讓女演員“小三逼婚”

陪玩陪睡不過冰山一角?張藝謀團隊爆猛料,讓女演員“小三逼婚”

情感大頭說說
2026-03-25 03:04:32
2026-03-27 01:51:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16491文章數(shù) 514798關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
健康
本地
時尚
旅游

教育要聞

精準研判,提質(zhì)增效丨我校召開2026屆畢業(yè)生就業(yè)工作研判會

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復(fù)仇了一萬遍

400萬人愛過的女孩,被黃謠網(wǎng)暴180天后

旅游要聞

河南開封萬歲山武俠城,游客買300元門票:給妻子拍照被保安阻攔

無障礙瀏覽 進入關(guān)懷版