網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

壓縮即是全部 —— 菲爾茲獎(jiǎng)得主 Michael Freedman 給數(shù)學(xué)和 AI 的一封信

2026-05-09 00:51:54　來(lái)源: 新浪財(cái)經(jīng)

河北舉報(bào)

分享至

來(lái)源：市場(chǎng)資訊

（來(lái)源：圖靈人工智能）

您想知道的人工智能干貨，第一時(shí)間送達(dá)

2026 年 3 月，菲爾茲獎(jiǎng)得主 Michael Freedman 發(fā)了一篇只有 30 多頁(yè)的論文，標(biāo)題叫《Compression is all you need》。他用一個(gè)優(yōu)雅的代數(shù)模型回答了三個(gè)古老問題：人類怎么構(gòu)建數(shù)學(xué)？人類數(shù)學(xué)和形式數(shù)學(xué)的本質(zhì)區(qū)別是什么？未來(lái)人類數(shù)學(xué)家如何和 AI 協(xié)作？答案只有兩個(gè)字——壓縮。

2017 年 6 月，Google Brain 的八個(gè)人把一篇論文扔上了 arXiv。

標(biāo)題狂得不像論文：《Attention Is All You Need》。

九年過(guò)去了，這個(gè)標(biāo)題成了 AI 史上最著名的七個(gè)單詞。基于它的 Transformer，撐起了 ChatGPT、Gemini、Claude、DeepSeek、萬(wàn)億市值、一代人的焦慮。

2026 年 3 月 27 日，又一篇論文悄悄上了 arXiv。標(biāo)題只有七個(gè)單詞，格式一模一樣：

Compression is all you need: Modeling Mathematics

看到這個(gè)標(biāo)題，任何做 AI 的人都會(huì)下意識(shí)笑一下——"又一個(gè)蹭熱度的"。點(diǎn)開作者一欄，笑容消失。

Michael Freedman。

這不是什么 ML 工程師。這是 1986 年菲爾茲獎(jiǎng)得主，四維龐加萊猜想的證明者，過(guò)去二十年微軟 Station Q 的靈魂人物，當(dāng)今在世的數(shù)學(xué)家里戲份最重的那一批。

他在寫 AI？不是。他在告訴所有搞 AI 的人：你們一直在用的那個(gè)詞"壓縮"，其實(shí)比你們想象的要深得多。

這篇文章不是《Attention Is All You Need》那種工程突破。它是一封信——一位數(shù)學(xué)家，用他畢生訓(xùn)練出來(lái)的直覺，回答了三個(gè)困擾人類上千年的問題：

人類究竟是怎么構(gòu)建數(shù)學(xué)知識(shí)的？

人類做的數(shù)學(xué)，和形式化的"純邏輯數(shù)學(xué)"，本質(zhì)區(qū)別是什么？

未來(lái)的人類數(shù)學(xué)家，到底該怎么和 AI 協(xié)同工作？

他給出的答案，只有一個(gè)詞：壓縮。

今天這篇文章，就把這封信翻譯給你。

第一章：Freedman 是誰(shuí)

先說(shuō)清楚為什么這個(gè)人開口說(shuō)話，AI 圈必須聽。

1981 年，三十歲的 Freedman 在加州大學(xué)圣地亞哥分校解決了四維龐加萊猜想——這個(gè)問題懸了 77 年。三維版本讓 Perelman 在 2006 年拿到菲爾茲獎(jiǎng)（他拒絕了）；五維以上早在 60 年代就被解決。唯獨(dú)四維——卡在最要命的那個(gè)維度——是 Freedman 攻下來(lái)的。

1986 年，柏克萊，國(guó)際數(shù)學(xué)家大會(huì)。Freedman 領(lǐng)走了菲爾茲獎(jiǎng)。

1997 年，F(xiàn)reedman 做了一件數(shù)學(xué)家很少做的事——從學(xué)術(shù)界出走。微軟給他開了一個(gè)幾乎是為他量身定做的部門 Station Q，目標(biāo)只有一個(gè)：用數(shù)學(xué)家的思路造拓?fù)淞孔佑?jì)算機(jī)。他當(dāng)了主任，一干就是二十五年。

2023 年，他回到哈佛 CMSA（數(shù)學(xué)與應(yīng)用中心），換了一個(gè)身份：思考 AI 和數(shù)學(xué)的關(guān)系。

所以當(dāng) Freedman 這個(gè)人在 2026 年 3 月扔出一篇叫《Compression is all you need》的論文——這不是某個(gè)追熱點(diǎn)的研究員，這是一個(gè)一輩子在數(shù)學(xué)內(nèi)部看世界的人，突然轉(zhuǎn)身跟所有人說(shuō)：

"我看清楚了一件事。你們要聽嗎？"

第二章：一個(gè)讓所有人尷尬的事實(shí)

Freedman 論文的切入點(diǎn)，是一個(gè)數(shù)學(xué)界人盡皆知、但幾乎沒人能解釋的尷尬事實(shí)。

先建立兩個(gè)概念：

形式數(shù)學(xué)（Formal Mathematics, FM）
：所有合乎邏輯規(guī)則的推演。
人類數(shù)學(xué)（Human Mathematics, HM）
：人類真正寫下、收錄、引用的那部分?jǐn)?shù)學(xué)。

FM 的空間有多大？假設(shè)你有 n 個(gè)基礎(chǔ)符號(hào)，組合出來(lái)的"合法推演"是指數(shù)級(jí)——n 上百以后就超過(guò)了整個(gè)宇宙里的原子數(shù)。

HM 呢？從歐幾里得到今天所有數(shù)學(xué)家加起來(lái)寫過(guò)的定理，約百萬(wàn)量級(jí)。Lean 4 的 MathLib 收錄其中約 14 萬(wàn)條。

兩個(gè)數(shù)字并排寫

FM：> 1080HM：~ 105中間隔了 75 個(gè)零。

人類數(shù)學(xué)，是形式數(shù)學(xué)這個(gè)宇宙里一粒塵埃都不到的小角落。

而且——為什么是這一粒？

FM 里有無(wú)窮無(wú)盡的"合法但無(wú)聊"的定理。比如："對(duì)任意整數(shù) n，n + 0 = n"，"對(duì)任意整數(shù) n，n + 0 + 0 = n"，"對(duì)任意整數(shù) n，n + 0 + 0 + 0 = n"……每一條都合法，每一條都無(wú)意義。人類數(shù)學(xué)家從來(lái)不寫這些。

一百年來(lái)這個(gè)問題有過(guò)無(wú)數(shù)個(gè)哲學(xué)回答："美""簡(jiǎn)潔""有用""深刻"——都是詞語(yǔ)的游戲。沒有一個(gè)是數(shù)學(xué)答案。

直到 Freedman 2026 年給出了第一個(gè)能算的回答：

因?yàn)?HM 是 FM 里那個(gè)"可壓縮"的子集。

第三章：壓縮——先站在日常地面上

Freedman 說(shuō)的"壓縮"是什么意思？先別想數(shù)學(xué)，先想幾個(gè)你已經(jīng)懂的例子。

例子一：Huffman 編碼

你家貓叫小花。照片里出現(xiàn)最多的動(dòng)作是"睡覺"（4000 次），其次"吃飯"（3000）、"抓沙發(fā)"（2000）、"發(fā)呆"（1000）。

固定 8 位編碼：80000 位。Huffman 編碼："睡覺→0；吃飯→10；抓沙發(fā)→110；發(fā)呆→111"——19000 位。壓縮率 4 倍，沒有丟失任何信息。

只要事物分布是不均勻的，就存在壓縮。

例子二：牛頓三定律

宇宙里每一秒都在發(fā)生無(wú)數(shù)次的運(yùn)動(dòng)：蘋果落地、月亮繞地、彈簧振動(dòng)、子彈出膛、潮汐起落……你想記錄所有這些運(yùn)動(dòng)，需要多少信息？

不需要。

你只需要記住 F = m·a，外加兩條（慣性、反作用），就能重新生成上面所有運(yùn)動(dòng)。

牛頓三定律是一個(gè)幾十字符的程序，它編碼了經(jīng)典力學(xué)的全部。

例子三：zip 文件

"to be or not to be, that is the question; to be"——把反復(fù)出現(xiàn)的"to be"和"the"命名成 A、B，之后只寫名字。這是 LZ77 算法（zip / gzip / PNG 的底層），1977。

例子四：大型語(yǔ)言模型

喂整個(gè)互聯(lián)網(wǎng)給 LLM——幾萬(wàn)億字、幾百萬(wàn)小時(shí)文本。訓(xùn)練完得到幾百億參數(shù)的模型（幾百 GB）。它能生成類似訓(xùn)練集里的任何內(nèi)容。

這件事，用信息論的語(yǔ)言說(shuō)叫：LLM 就是互聯(lián)網(wǎng)的一次有損壓縮。

DeepMind 2023 年做了一件讓人血壓升高的事：他們把 Chinchilla 70B 當(dāng)成一個(gè)通用壓縮器，用它去壓縮原始字節(jié)流——不僅是文本，還有從沒訓(xùn)練過(guò)的圖像和音頻。結(jié)果：

文本壓縮率：比 gzip 好很多
圖像壓縮率：比 PNG 好
音頻壓縮率：比 FLAC 好

一個(gè)只訓(xùn)練了語(yǔ)言的模型，居然能壓縮它從沒見過(guò)的圖像——因?yàn)樗鼘W(xué)到了"通用的世界結(jié)構(gòu)"。

從 Huffman 的字符編碼到 LLM 的幾百億參數(shù)——壓縮的顆粒度越來(lái)越粗，本質(zhì)是同一個(gè)。

任何"理解"的行為，本質(zhì)都是找到更短的描述。這不是比喻。這是 Freedman 論文的出發(fā)點(diǎn)。

第四章：Freedman 的建模——字符串和"宏"

Freedman 說(shuō)的第一件事：把數(shù)學(xué)推演當(dāng)成字符串。你在黑板上寫證明，本質(zhì)就是一串字符。所有"合法的證明字符串"排起來(lái)——就是 FM。

但數(shù)學(xué)家從來(lái)不這樣寫。他會(huì)說(shuō)："設(shè) f 在 [a, b] 上連續(xù)，則 f 一致連續(xù)。"

"連續(xù)"是一段定義，展開約三行字符。"一致連續(xù)"是另一段，展開約五行。表面 20 個(gè)字，完全展開超過(guò) 100 個(gè)字符。繼續(xù)挖下去——一條"短句子"背后，是一棵很深的定義樹。

Freedman 給這種"名字 → 一段長(zhǎng)字符串"的約定起了個(gè)名字：宏（macro）。

"連續(xù)" = 一個(gè)宏
"一致連續(xù)" = 一個(gè)宏
"積分" = 一個(gè)宏（調(diào)用"極限""分割""黎曼和"的宏）
"勒貝格積分" = 一個(gè)宏（調(diào)用"測(cè)度""可測(cè)函數(shù)"的宏）
"黎曼-勒貝格引理" = 一個(gè)宏（調(diào)用以上所有）

一條現(xiàn)代定理"完全展開"往往是億級(jí)字符。但數(shù)學(xué)家永遠(yuǎn)只看最外層。

數(shù)學(xué)家的工作，就是不斷造宏。一位數(shù)學(xué)家的一生，可能就干了一件事——看到了一個(gè)之前沒人壓縮過(guò)的模式，給它起了一個(gè)名字。

高斯給"正態(tài)分布"起了名字。黎曼給"流形"起了名字。伽羅瓦給"群"起了名字?？低袪柦o"集合"起了名字。圖靈給"可計(jì)算性"起了名字。香農(nóng)給"熵"起了名字。

你今天學(xué)的所有數(shù)學(xué)，都是在站在前人造好的宏上。如果不能層層壓縮，人類根本學(xué)不動(dòng)數(shù)學(xué)。

第五章：$A_n$ vs $F_n$——兩種宇宙

到這里一切都是直覺。Freedman 接下來(lái)要做的，是把這個(gè)直覺變成數(shù)學(xué)。

他引入兩個(gè)代數(shù)對(duì)象（別緊張，用直覺講）：

A_n 像拼樂高

你有一堆樂高積木——紅、藍(lán)、綠。紅拼藍(lán)上加綠，還是先綠再藍(lán)再紅——最后模型一樣。順序無(wú)關(guān)緊要，只在乎哪些積木。

F_n 像編辮子

先壓左繩再壓右繩，和先壓右再壓左——得到的辮子完全不一樣。順序決定一切。

Freedman 的定理說(shuō)了一件"漂亮得像魔法"的事：

Freedman 的核心代數(shù)發(fā)現(xiàn)

在 An 里，只要用 O(log n) 個(gè)宏（對(duì)數(shù)級(jí)稀疏），就能讓表達(dá)力指數(shù)級(jí)擴(kuò)張。在 Fn 里，就算用 O(nk) 個(gè)宏（多項(xiàng)式級(jí)稠密），表達(dá)力也只能線性擴(kuò)張。

同樣的"造宏"策略，在兩種宇宙里結(jié)果天差地別——可壓縮性是結(jié)構(gòu)性的。

用大白話翻譯：

在"樂高宇宙"里，造幾個(gè)宏頂一萬(wàn)個(gè)宏——積木自由組合，宏之間也自由組合
在"辮子宇宙"里，造再多宏也救不了你——順序是死的，每個(gè)組合都得單獨(dú)記

這個(gè)對(duì)比為什么重要？因?yàn)樗嬖V我們："可壓縮性"不是普世的，它只在特定結(jié)構(gòu)里才存在。

數(shù)學(xué)里的加法、乘法、集合并、函數(shù)復(fù)合——都是可交換或近似可交換的。所以數(shù)學(xué)是可壓縮的。

那人類的語(yǔ)言呢？主語(yǔ)動(dòng)詞賓語(yǔ)順序很要命——"狗咬人"和"人咬狗"不是一回事。所以語(yǔ)言壓縮程度遠(yuǎn)低于數(shù)學(xué)。

那生物學(xué)呢？DNA 順序至關(guān)重要——所以生物學(xué)長(zhǎng)期是描述性的，沒有"F = m·a"級(jí)別的簡(jiǎn)潔定律。

那LLM 的參數(shù)空間呢？第八章再說(shuō)。

第六章：MathLib 實(shí)證——數(shù)據(jù)來(lái)說(shuō)話

光有理論不夠。Freedman 做了一件讓這篇論文從"哲學(xué)隨筆"升級(jí)成"硬科學(xué)"的事：把模型拿到真實(shí)的人類數(shù)學(xué)上驗(yàn)證。

測(cè)試對(duì)象：MathLib——Lean 4 的數(shù)學(xué)形式化庫(kù)，14 萬(wàn)條定理，覆蓋代數(shù)、分析、拓?fù)洹?shù)論、范疇論……

對(duì)每條定理，測(cè)三個(gè)量：

depth
：嵌套深度
wrapped length
：定義里的 token 數(shù)
unwrapped length
：完全展開后的原始符號(hào)數(shù)

結(jié)果 1：unwrapped length 隨 depth 指數(shù)爆炸。

越深，完全展開后字符數(shù)按指數(shù)增長(zhǎng)。到深度 10+，展開一條定理就要數(shù)千萬(wàn)字符。

結(jié)果 2：wrapped length 幾乎是常數(shù)。

但數(shù)學(xué)家寫出來(lái)的定義，無(wú)論 depth 是 2 還是 12，長(zhǎng)度幾乎不變——永遠(yuǎn)就是幾十個(gè) token。

數(shù)學(xué)家從來(lái)不寫很長(zhǎng)的定義。每當(dāng)一個(gè)東西變復(fù)雜，數(shù)學(xué)家的第一反應(yīng)是：先給它起個(gè)名字，然后用名字繼續(xù)。

unwrapped 指數(shù)爆炸，wrapped 巋然不動(dòng)——數(shù)學(xué)家每到一層就造一個(gè)宏，把復(fù)雜性壓回來(lái)。

結(jié)果 3：數(shù)據(jù)完美符合 A_n，嚴(yán)重違反 F_n。

Freedman 把兩種模型的理論曲線畫在同一張圖上。An 的指數(shù)擴(kuò)張曲線嚴(yán)絲合縫地蓋在實(shí)測(cè)數(shù)據(jù)上。Fn 的線性曲線差了好幾個(gè)數(shù)量級(jí)。

人類數(shù)學(xué)，生活在 An 模型預(yù)測(cè)的那個(gè)可壓縮子空間里。這不是隱喻，是可測(cè)量的事實(shí)。

第七章：三個(gè)古老問題的答案

現(xiàn)在可以回到開頭的三個(gè)問題了。Freedman 給的答案，每一個(gè)都短到令人震撼。

問題一：人類究竟是怎么構(gòu)建數(shù)學(xué)知識(shí)的？

層層壓縮。每一代數(shù)學(xué)家看到前一代的成果，找出其中"可以起名字"的部分，造新的宏，然后在新宏之上繼續(xù)推演。整個(gè)數(shù)學(xué)史就是一部宏的積累史。

歐幾里得給"點(diǎn)、線、面"起名字 → 笛卡爾給"坐標(biāo)"起名字 → 牛頓給"導(dǎo)數(shù)"起名字 → 柯西給"極限"起名字 → 康托爾給"集合"起名字 → 希爾伯特給"空間"起名字 → 格羅滕迪克給"概形"起名字……每一層，都比上一層壓縮了更多。

問題二：人類數(shù)學(xué)和形式數(shù)學(xué)的本質(zhì)區(qū)別是什么？

可壓縮 vs 不可壓縮。FM 里大部分定理是"合法但無(wú)聊的"——沒有結(jié)構(gòu)、不能被起名字、沒法進(jìn)一步用。HM 是 FM 里那個(gè)碰巧活在 An-like 子空間的小角落。

人類數(shù)學(xué)之所以是"人類"的，恰恰是因?yàn)槿祟惖恼J(rèn)知帶寬極其有限——我們只能在那個(gè)可壓縮的子空間里活動(dòng)。而那個(gè)子空間的存在，是宇宙給我們的禮物——如果它不存在，人類壓根不會(huì)有數(shù)學(xué)。

問題三：未來(lái)人類數(shù)學(xué)家怎么和 AI 協(xié)同？

AI 的長(zhǎng)處是在 FM 的巨大空間里并行搜索——因?yàn)樗形覀儧]有的帶寬。人類的長(zhǎng)處是判斷哪些地方"值得起名字"——因?yàn)槲覀冇形迦f(wàn)年的語(yǔ)言和抽象訓(xùn)練。

這不是 AI 取代數(shù)學(xué)家，也不是數(shù)學(xué)家訓(xùn)練 AI。是兩種不同認(rèn)知帶寬的分工協(xié)作。

Freedman 還具體建議：在 MathLib 的依賴圖上跑 PageRank + 壓縮度分析。一條定理如果被很多下游定理引用（PageRank 高），又能大幅壓縮下游內(nèi)容（壓縮度高），那它就是核心定理——值得人類數(shù)學(xué)家投入，值得 AI 優(yōu)先搜索。

這把"什么是重要的數(shù)學(xué)"從一個(gè)主觀判斷，變成了一個(gè)可以算的量。

第八章：這對(duì) AI 意味著什么

第一個(gè)含義：AI 做數(shù)學(xué)的路線圖，清晰了。

2024 年以來(lái)：DeepMind 的 AlphaProof 在 IMO 上拿銀牌；陶哲軒公開宣布 Lean 4 是工作流的一部分；DeepMind 的 FunSearch 在組合數(shù)學(xué)里發(fā)現(xiàn)了新定理；專門的數(shù)學(xué) LLM 涌現(xiàn)。

所有這些，F(xiàn)reedman 的框架都給了同一個(gè)解釋——它們?cè)?FM 的巨大空間里搜索，但它們能成功的地方，恰恰是 HM 已經(jīng)壓縮過(guò)的地方。

AI 的數(shù)學(xué)能力，是站在人類兩千年"造宏"的結(jié)果之上的。脫離了 MathLib 里那 14 萬(wàn)條定理，AI 在純 FM 里就像撒哈拉沙漠里找一粒米。

下一步的突破，不會(huì)來(lái)自于讓 AI 在 FM 里搜索得更快——而是讓 AI 學(xué)會(huì)"自己造宏"。

第二個(gè)含義：LLM 是什么？答案變清楚了。

DeepMind 那篇《Language Modeling Is Compression》（2023）給出了第一層答案：下一個(gè) token 預(yù)測(cè) = 算術(shù)編碼下的壓縮率最大化。訓(xùn)練時(shí)的 cross-entropy loss，嚴(yán)格來(lái)講就是"對(duì)訓(xùn)練集的壓縮率"的負(fù)對(duì)數(shù)。loss 越低，壓縮率越高，理解越深——不是比喻，是數(shù)學(xué)恒等。

但 Freedman 給出了第二層答案：LLM 會(huì)用宏，但不會(huì)造宏。

LLM 訓(xùn)練時(shí)吃了整個(gè)互聯(lián)網(wǎng)——里面充滿了人類兩千年造出來(lái)的宏（"微積分""進(jìn)化論""民主""熵""注意力"……）。LLM 學(xué)會(huì)了在這些宏之間自如穿梭——所以它在"單步推理"上驚艷。

但在"長(zhǎng)證明"上——它崩潰。一條需要造新宏的證明，LLM 很難穩(wěn)定完成。因?yàn)樗鼪]有在訓(xùn)練中見過(guò)這個(gè)宏，它不會(huì)從零定義一個(gè)新概念然后在新概念上繼續(xù)推演。

這正好是 Freedman 說(shuō)的"層層壓縮"里的"層"——每一層都是一次新的命名。LLM 在一層內(nèi)表現(xiàn)驚艷，跨層就斷。

第三個(gè)含義：為什么 LLM 的 scaling 可能有上限。

如果智能本質(zhì)是"層層壓縮"——造宏、在宏上造宏——那么單純把模型變大，增加的是單層的帶寬，不是層數(shù)。

一個(gè)更大的 LLM，能用更精細(xì)的宏、更大的詞表、更長(zhǎng)的上下文。但它造新宏的能力，沒有因?yàn)樽兇蠖@得質(zhì)變。

LLM 是一個(gè)宏使用器。真正的智能是一個(gè)宏生成器。

—— 這呼應(yīng)了《世界模型之爭(zhēng)》里 LeCun / 李飛飛 vs Ilya 那場(chǎng)口水戰(zhàn)。Ilya 說(shuō)的是"用宏"的上限還沒到，LeCun 說(shuō)的是"造宏"的能力根本還沒開始。

第八章半：數(shù)學(xué)之外——詩(shī)、畫、樂也是壓縮

Freedman 的論文從頭到尾只談數(shù)學(xué)。但如果"壓縮即理解"真的是宇宙級(jí)的事實(shí)，它就不該只在數(shù)學(xué)里成立。

我寫到這里的時(shí)候，腦子里跳出來(lái)的是王維。

大漠孤煙直，長(zhǎng)河落日?qǐng)A。

十個(gè)字。沒有修飾、沒有形容詞、沒有一個(gè)"情"字。但你讀完這十個(gè)字，眼前立刻浮起一張畫——遼闊、空曠、孤直的一縷煙、渾圓的落日壓在地平線上。緊接著，是一股你說(shuō)不出但確實(shí)感到的蒼涼和孤寂。

這十個(gè)字背后，藏著多少信息？視覺上是一幅完整的西北邊塞畫面；幾何上是"直"與"圓"的極簡(jiǎn)構(gòu)圖對(duì)比，一豎一圓撐起整個(gè)空間；時(shí)間是日落的那個(gè)瞬間，一天將盡；心境是使者獨(dú)自遠(yuǎn)行的孤獨(dú)、遠(yuǎn)離故土的悵然；背景是盛唐邊塞詩(shī)的整套意象系統(tǒng)。用散文來(lái)復(fù)述，上千字都說(shuō)不完。王維用十個(gè)字，把它壓縮成了一個(gè)可以在你腦中重新展開的種子。

這和 Freedman 論文里講的"宏"是同一件事。"大漠""孤煙""長(zhǎng)河""落日"，每一個(gè)都是一個(gè)宏——它調(diào)用了中文文學(xué)兩千年積累的意象、畫面、情緒。王維的天才不是"寫得漂亮"，而是挑出了那四個(gè)展開之后信息量最大的宏，把它們擺在一起。

音樂是另一個(gè)面孔。貝多芬第五交響曲的開頭只有四個(gè)音：ta-ta-ta-tum。但這四個(gè)音在整首交響曲里被變形、重組、上行、下行、反轉(zhuǎn)了幾百次。一首四十分鐘的交響曲，本質(zhì)上是從一個(gè)四音動(dòng)機(jī)里壓出來(lái)的——這就是作曲家說(shuō)的"主題與變奏"，用 Freedman 的話講就是：造一個(gè)宏，然后在宏的空間里自由展開。

繪畫也是。齊白石畫蝦，不畫水、不畫水草，只畫蝦——你看到的是蝦，感受到的卻是整個(gè)池塘。留白不是"沒畫"，是讓觀者自己在心里展開那一大片信息。八大山人一只翻白眼的鳥，你讀出了整個(gè)明末遺民的心境。

為什么所有藝術(shù)都指向同一件事？我的猜想是這樣的：

人類的大腦，能同時(shí)握住的"維度"是有限的。幾千個(gè)腦細(xì)胞組成的注意力，在某一刻只能在一個(gè)相對(duì)低維的空間里做關(guān)聯(lián)。

所以我們分科——有人專心在數(shù)學(xué)的維度里找可壓縮的結(jié)構(gòu)（幾何、群、流形），有人專心在語(yǔ)言的維度里找（意象、節(jié)奏、雙關(guān)），有人專心在聲音的維度里找（和聲、調(diào)性、動(dòng)機(jī)），有人專心在視覺的維度里找（構(gòu)圖、比例、留白）。不是因?yàn)檫@些領(lǐng)域彼此無(wú)關(guān)，而是因?yàn)橐粋€(gè)人扛不動(dòng)所有維度。我們用自己天生敏感的那一條通道去壓縮世界，彼此隔行如隔山——其實(shí)隔的不是山，是我們自己的認(rèn)知帶寬。

而 LLM 第一次給了"把維度連起來(lái)"這件事一個(gè)物理基礎(chǔ)。

幾千億參數(shù)的模型，其內(nèi)部表示空間的維度，遠(yuǎn)遠(yuǎn)超過(guò)任何一個(gè)人類個(gè)體能同時(shí)調(diào)用的維度。于是很多在我們看來(lái)"不相關(guān)"的東西——一首宋詞、一段巴赫的賦格、一個(gè)偏微分方程、一張水墨畫——在那個(gè)高維空間里，開始出現(xiàn)彼此對(duì)齊的方向。

LLM 的涌現(xiàn)，不是神秘的玄學(xué)，而是：當(dāng)壓縮維度大到一定程度，原本散落在不同學(xué)科的宏，開始互相調(diào)用。"熵"這個(gè)宏，在物理、信息論、經(jīng)濟(jì)學(xué)、心理學(xué)里，突然變成同一個(gè)東西；"對(duì)稱"這個(gè)宏，在群論、晶體、音樂、詩(shī)歌里，突然變成同一個(gè)東西。這大概就是跨域泛化，就是所謂"世界模型"的雛形。

所以，數(shù)學(xué)、詩(shī)、畫、樂，不是四件不同的事。它們是同一件事在四種媒介上的投影。

王維不是"詩(shī)人而已"，他是一個(gè)在語(yǔ)言維度上找可壓縮結(jié)構(gòu)的人。歐拉不是"數(shù)學(xué)家而已"，他是一個(gè)在符號(hào)維度上找可壓縮結(jié)構(gòu)的人。貝多芬不是"作曲家而已"，他是一個(gè)在時(shí)間維度上找可壓縮結(jié)構(gòu)的人。齊白石不是"畫家而已"，他是一個(gè)在視覺維度上找可壓縮結(jié)構(gòu)的人。

殊途同歸。萬(wàn)物為一。

我們每個(gè)普通人，只是在自己最敏感的那條通道里，做著同一件事——把復(fù)雜的世界壓成一個(gè)自己能握住的短描述，然后靠這個(gè)短描述活下去。

Freedman 用代數(shù)模型證明了：數(shù)學(xué)之所以存在，是因?yàn)樗钤谝粋€(gè) A_n-like 的可壓縮子空間里。我想補(bǔ)一句他沒說(shuō)的：人類文明之所以存在，是因?yàn)樗钤跓o(wú)數(shù)個(gè)可壓縮子空間的并集里。數(shù)學(xué)只是其中最干凈的那一個(gè)，但不是唯一的一個(gè)。

第九章：四種概率觀的收束

寫到這里，忍不住回頭看一眼這一年來(lái)博客走過(guò)的路。

一條主線貫穿了四篇文章——每一篇都在用不同的視角看同一個(gè)數(shù)學(xué)對(duì)象 P(x)：

視角

P(x) 是什么

核心論述

代表人物

貝葉斯

信念

證據(jù)到了就更新

Bayes / Jaynes

無(wú)知

熵是無(wú)知的度量

Boltzmann / Shannon

量子 QBism

實(shí)在

概率是世界本身的狀態(tài)

Born / Fuchs

壓縮（本文）

理解

-log P 就是描述長(zhǎng)度

Shannon / Freedman

這四個(gè)視角指向同一個(gè)公式：

L(x) = ? log P(x)

貝葉斯派
：L(x) 是"意外"，驅(qū)動(dòng)信念更新
統(tǒng)計(jì)力學(xué)派
：L(x) 是微觀狀態(tài)對(duì)熵的貢獻(xiàn)
QBism 派
：L(x) 是測(cè)量結(jié)果在下次下注時(shí)的權(quán)重
壓縮派
：L(x) 是這個(gè)事件在最優(yōu)編碼里占的字符數(shù)

它們是同一個(gè)數(shù)學(xué)對(duì)象，從四個(gè)不同的哲學(xué)位置看。

Freedman 這篇論文的意義是——他把這個(gè)公式從"一個(gè)信息論工具"升級(jí)成了"數(shù)學(xué)本身的基礎(chǔ)"。數(shù)學(xué)之所以能存在，是因?yàn)橛钪婵蓧嚎s；人類之所以能做數(shù)學(xué)，是因?yàn)槲覀兓钤?An 那樣一個(gè)低描述長(zhǎng)度的結(jié)構(gòu)里。

第十章：壓縮留下的三個(gè)直覺

一、所有"理解"都是壓縮。

你理解了一個(gè)現(xiàn)象，意味著你能用比原始數(shù)據(jù)短得多的描述重新生成它。做到這一點(diǎn)，你就理解了；做不到，你就只是在記憶。

二、數(shù)學(xué)獨(dú)特之處，是它能做"嵌套的壓縮"。

不止一次壓縮，而是"在壓縮之上再壓縮"。每一代數(shù)學(xué)家把上一代結(jié)果打包成一個(gè)名字，然后在那個(gè)名字上繼續(xù)工作。這個(gè)遞歸過(guò)程，是其他學(xué)科沒有（或者沒有這么強(qiáng)的）。

三、數(shù)學(xué)、詩(shī)、畫、樂，是同一件事在四種媒介上的投影。

每個(gè)領(lǐng)域的大師，都是在自己那條通道里做可壓縮子空間的挖掘者。王維的"大漠孤煙直，長(zhǎng)河落日?qǐng)A"和歐拉的 e^(iπ)+1=0，本質(zhì)同構(gòu)——都是把龐大的信息壓成一顆能在別人腦中重新展開的種子。我們分科，不是因?yàn)槭澜缡歉盍训?，是因?yàn)橐粋€(gè)人的認(rèn)知帶寬不夠。LLM 第一次讓這些分科的宏在同一個(gè)高維空間里開始互相調(diào)用——這就是所謂的涌現(xiàn)和泛化。

四、AI 要做真正的數(shù)學(xué)（和深度智能任務(wù)），必須學(xué)會(huì)"造宏"而不只是"用宏"。

"用宏"是工程問題——擴(kuò)大上下文、提高精度、疊更多層。"造宏"是認(rèn)知問題——從混亂現(xiàn)象中看出一個(gè)可以命名的模式。

目前所有 LLM 的 scaling 都在"用宏"的層面上。真正的突破——不管它叫 AGI、叫 JEPA、叫世界模型、還是叫別的——一定出現(xiàn)在 AI 開始自己造宏的那一天。

尾聲：你在讀這篇文章，就是在壓縮

Freedman 寫完這篇論文大概花了一年。我寫這篇文章帶上查資料畫圖，大概八小時(shí)。你讀它，大概二十分鐘。

一年 → 八小時(shí) → 二十分鐘。

每一次壓縮，都有損失。但每一次壓縮，也都有獲得——你能在二十分鐘里帶走一個(gè)新的看世界的方式。

你讀完過(guò)幾天，記得的大概只有幾個(gè)關(guān)鍵詞：壓縮、宏、樂高和辮子、MathLib、造宏而不是用宏。

這就是又一次壓縮。

如果這幾個(gè)關(guān)鍵詞以后在你遇到別的問題時(shí)——學(xué)一個(gè)新領(lǐng)域、讀一篇論文、訓(xùn)練自己的模型、帶一個(gè)學(xué)生、甚至只是想一件事——還能被你調(diào)用，那說(shuō)明它們?cè)谀隳X子里成了新的宏。

你也在做 Freedman 說(shuō)的那件事。

數(shù)學(xué)家、程序員、作家、老師、學(xué)生——所有"用頭腦工作"的人，每天都在干同一件事：把世界的復(fù)雜，壓進(jìn)一個(gè)可以用的短名字。

下一次有人問你"什么是智能"的時(shí)候——你可以換一種回答了。

不是"處理信息"。不是"模式識(shí)別"。不是"深度學(xué)習(xí)"。是：

找到更短的描述?！?壓縮，即是全部。

下一篇，回到《看見物理》系列的最后一站——對(duì)稱性。諾特定理、楊振寧、宇宙的骨架。對(duì)稱性和壓縮是一對(duì)孿生姐妹——有對(duì)稱就有守恒，有守恒就有可壓縮的描述。

—— 所以，實(shí)際上我們還在同一個(gè)故事里。

本文首發(fā)于「AI 學(xué)習(xí)筆記」博客：https://Jason-Azure.github.io/ai-blog/posts/compression-is-all-you-need/微信公眾號(hào)：AI-lab學(xué)習(xí)筆記參考：Freedman, Compression is all you need: Modeling Mathematics, arXiv 2603.20396 (2026-03)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.