CMU與NYU聯(lián)合團隊提出“上褶度”，揭秘計算受限下的智能真相

2026-01-09 20:07:03　來源: DeepTech深科技

北京舉報

分享至

當我們說一個 AI 模型“學到了東西”，究竟是什么意思？這個問題聽起來有點哲學，但它正在成為機器學習研究中一個越來越緊迫的技術命題。

2026 年 1 月初，來自美國卡內(nèi)基梅隆大學和紐約大學的聯(lián)合團隊發(fā)布了一篇題為《從熵到上褶度：為計算受限智能重新思考信息》（From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence）的論文，團隊耗時兩年進行研究，提出了一個名為“epiplexity”（上褶度，或可譯為“認知復雜度”，epi 表“上層”，plexity 與 complex／perplexity 同源，指向“復雜性”）的新概念，試圖從根本上回答這個問題，論文發(fā)布后迅速在設計媒體上引發(fā)了討論。

圖丨相關論文（來源：arXiv）

日前，相關論文發(fā)表于預印本平臺 arXiv，卡內(nèi)基梅隆大學博士后 Marc Finzi、博士生 Yiding jiang 與紐約大學博士生裘釋凱（Shikai Qiu）共同擔任第一作者。

（來源：GitHub）

這篇論文的核心論點是：我們長期以來用于衡量信息的經(jīng)典工具香農(nóng)熵（Shannon entropy）和柯爾莫哥洛夫復雜度（Kolmogorov complexity）在面對現(xiàn)代機器學習時表現(xiàn)得捉襟見肘。這些框架隱含地假設觀察者擁有無限的計算能力，但現(xiàn)實中的學習系統(tǒng)，無論是人腦還是 GPU 集群，都在有限的計算預算下運作。當我們忽視這一點時，理論與實踐之間就會出現(xiàn)令人困惑的裂痕。

圖丨隨機信息與結(jié)構性信息示意圖（來源：arXiv）

研究團隊列舉了三個“信息論悖論”，用以說明現(xiàn)有理論框架的局限性。

第一個悖論涉及信息守恒：根據(jù)數(shù)據(jù)處理不等式（Data Processing Inequality），確定性變換不能增加信息量。然而 AlphaZero 僅從圍棋規(guī)則這一極其簡短的程序出發(fā)就學會了超越人類的策略，最終模型參數(shù)規(guī)模卻相當大。這些“額外的信息”從何而來？

第二個悖論關乎順序：香農(nóng)信息論告訴我們，先觀察 X 再觀察 Y 與先 Y 后 X 得到的總信息量相同，即 H（Y｜X）＋H（X）＝H（X｜Y）＋H（Y）。但大量實驗表明，大語言模型在正向閱讀英文時的壓縮效果明顯優(yōu)于逆向閱讀，數(shù)據(jù)的呈現(xiàn)順序確實影響學習效果。

第三個悖論則觸及似然建模的本質(zhì)：最大化似然被認為等同于匹配數(shù)據(jù)分布，因此模型不可能學到比數(shù)據(jù)生成過程更復雜的東西。但研究者們發(fā)現(xiàn)，在康威生命游戲這樣的系統(tǒng)中，計算受限的模型為了做出預測，必須學習識別“滑翔機”“振蕩器”等涌現(xiàn)結(jié)構，而這些概念在原始的局部演化規(guī)則中根本不存在。

為了調(diào)和這些矛盾，研究者們引入了“時間受限熵”（time-bounded entropy）和“上褶度”（epiplexity）兩個概念。其核心定義建立在最小描述長度原則（Minimum Description Length，MDL）之上。

給定一個隨機變量 X 和計算時間上界 T，他們首先找到在該時間約束下能最優(yōu)壓縮數(shù)據(jù)的概率模型：

這里 P_T 表示所有能在時間 T 內(nèi)完成采樣和概率計算的程序集合，｜P｜是程序 P 的比特長度，E［log 1／P（X）］則是用該模型編碼數(shù)據(jù)所需的期望比特數(shù)。找到這個最優(yōu)模型后，上褶度和時間受限熵分別定義為：

（上褶度，即在給定計算預算下，為了把數(shù)據(jù)壓縮到最好，模型必須“內(nèi)化”的結(jié)構性規(guī)律總量）

（時間受限熵，即用最優(yōu)模型編碼數(shù)據(jù)的期望長度）

用更直白的話說：時間受限熵是“噪聲”，上褶度是“信號”，但這里的噪聲和信號是相對于特定計算能力而言的。一個密碼學安全的偽隨機數(shù)生成器（Cryptographically Secure Pseudo-Random Number Generator，CSPRNG）對于只有多項式時間計算預算的模型來說就是純噪聲，盡管它在數(shù)學上是完全確定的。

圖丨如何估計上褶度（來源：arXiv）

論文中證明，對于任何 CSPRNG 輸出，其時間受限熵接近最大值 n 比特，而上褶度則接近常數(shù)，這與我們的直覺完全吻合。

“信息取決于觀察者”這個想法在密碼學中其實早有根基。單向函數(shù)（正向計算容易、逆向計算難），正是現(xiàn)代密碼體系的基石。但將這一思想系統(tǒng)性地引入機器學習的理論框架，并給出可操作的度量方法，是這篇論文的貢獻所在。

研究者們提出了兩種估算上褶度的實用方法。第一種叫預序編碼（prequential coding），其核心思想可以用訓練損失曲線來理解：

這個公式的含義是：用模型在第 i 步的損失減去最終收斂后的損失，然后對所有訓練步驟求和。如果你畫出訓練損失曲線，這就是曲線與最終水平線之間的面積。損失下降得越多、持續(xù)得越久，面積就越大，意味著模型“吸收”了越多的結(jié)構性信息。

第二種方法叫請求編碼（requential coding），通過教師－學生蒸餾過程中的 KL 散度累積來給出更嚴格的上界，計算成本更高但理論上更可靠。

論文中的實驗涵蓋了從元胞自動機到國際象棋再到自然語言的多種數(shù)據(jù)類型。團隊首先用初等元胞自動機（Elementary Cellular Automaton，ECA）做了一組對比實驗，ECA 的規(guī)則一共有 256 種，研究者挑了三種代表性的來測試。

規(guī)則 15 產(chǎn)生簡單周期圖案，模型很快學會預測，上褶度很低；規(guī)則 30 產(chǎn)生混沌輸出，模型永遠無法做出有效預測，時間受限熵極高但上褶度幾乎為零；規(guī)則 54 則處于“復雜性邊緣”，產(chǎn)生部分可預測的涌現(xiàn)結(jié)構，上褶度隨計算預算增加而穩(wěn)步上升。這也和此前耶魯大學團隊提出的“混沌邊緣智能”（Intelligence at the Edge of Chaos）的研究方向形成了呼應，最有價值的學習信號，或許恰恰藏在有序與混沌的交界地帶。

圖丨用元胞自動機創(chuàng)建的信息（來源：arXiv）

在國際象棋數(shù)據(jù)上，研究者們比較了兩種格式：先給出棋步序列再給出最終局面，與先給出局面再給出棋步。前者類似于“正向”計算，從走法推導局面是簡單的規(guī)則應用；后者則類似于“逆向”推理，從局面反推走法需要更復雜的理解。

實驗表明，后者雖然訓練損失更高，但上褶度也更高，而且在下游任務（如國際象棋謎題求解和局面評估）上表現(xiàn)更好。這說明更難學習的數(shù)據(jù)呈現(xiàn)方式可能反而能迫使模型習得更豐富的局面表征，這些表征更容易遷移到需要理解局面的 OOD（Out-of-Distribution Generalization，分布外泛化）任務上。

論文中可能最有現(xiàn)實啟發(fā)的一點，是它在同一算力條件下對比了不同數(shù)據(jù)模態(tài)的“可學結(jié)構”。在相同的計算預算下，OpenWebText 文本數(shù)據(jù)的上褶度顯著高于 Lichess 國際象棋數(shù)據(jù)，而后者又高于 CIFAR－5M 圖像數(shù)據(jù)。圖像數(shù)據(jù)的總信息量（按原始字節(jié)計）最大，但超過 99％都是“時間受限熵”，即像素級的不可預測噪聲。

圖丨上褶度揭示了不同數(shù)據(jù)模態(tài)中的結(jié)構信息差異（來源：arXiv）

這或許解釋了一個長期困擾研究者的現(xiàn)象：為什么在文本上預訓練能帶來廣泛的能力遷移，而在圖像上預訓練卻不然？因為文本包含更多可學習的結(jié)構性信息，這些信息被編碼進模型權重后可以在新任務中復用。

論文還探討了“歸納”（induction）和“涌現(xiàn)”（emergence）兩類現(xiàn)象如何產(chǎn)生超出數(shù)據(jù)生成過程的上褶度。

關于歸納，研究者們援引了 Ilya Sutskever 的一個經(jīng)典思想實驗：當你讀一本偵探小說，在某個時刻文本揭示了兇手的身份。如果模型能預測出這個名字，它就必須從前文的線索中推斷出答案。但小說作者并不需要做這種推理，她可能先決定誰是兇手，然后編織一個自圓其說的故事。因此，預測模型被迫學習的推理能力，可能根本不存在于數(shù)據(jù)的生成過程中。

圖丨通過上褶度研究歸納（來源：arXiv）

關于涌現(xiàn)，康威生命游戲提供了一個很好的說明。游戲規(guī)則可以用幾十個字節(jié)描述，一個計算能力無限的觀察者只需逐步執(zhí)行規(guī)則就能完美預測。

但計算受限的觀察者無力進行這種暴力模擬，必須學習識別和追蹤涌現(xiàn)結(jié)構，比如滑翔機的運動軌跡、不同“物種”的碰撞規(guī)則等，才能做出有效預測。這種被迫習得的高層抽象，正是上褶度試圖捕捉的東西。

論文中的一個實驗顯示，當計算預算足夠大以至于模型可以“循環(huán)展開”（類似于思維鏈推理）來模擬游戲規(guī)則時，上褶度反而會驟降，因為此時簡單的暴力解法變得可行，復雜的涌現(xiàn)知識不再必要。

不過要注意的是，上褶度是一個理論上定義清晰、但實踐中只能近似估計的量。論文承認，由于只能在有限的超參數(shù)空間中搜索，估計值可能與真實值存在系統(tǒng)性偏差。此外，高上褶度并不保證在特定下游任務上表現(xiàn)更好，它度量的是結(jié)構性信息的總量，而非與特定任務的相關性。一個模型可能學到了大量結(jié)構，但這些結(jié)構未必對你關心的任務有用。

但總體而言，這篇論文代表了機器學習理論的一個轉(zhuǎn)向：從關注模型選擇轉(zhuǎn)向關注數(shù)據(jù)選擇。經(jīng)典學習理論將訓練分布視為給定，優(yōu)化目標放在模型架構和正則化上。但在預訓練時代，模型架構趨于同質(zhì)化，數(shù)據(jù)質(zhì)量和組成反而成為決定性因素。上褶度提供了一個不依賴于特定下游任務的數(shù)據(jù)價值度量，這對于合成數(shù)據(jù)生成、數(shù)據(jù)配比優(yōu)化、課程學習等方向都有潛在的指導意義。

香農(nóng)信息論誕生于通信時代，其核心關切是信息的表征和傳輸，計算過程被抽象掉了。但學習，無論是生物的還是人工的，本質(zhì)上是計算過程。什么能被學到，取決于可用的計算資源。上褶度的提出，是朝著將計算約束納入信息論框架的一次認真嘗試。它未必是最終答案，但它提出了正確的問題。

參考資料：

1.https://arxiv.org/pdf/2601.03220

2.https://x.com/m_finzi/status/2008934727156453661

運營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.