哈薩比斯出的難題，GPT之父接上了：用一個知識停在1930年的模型

2026-04-30 13:20:52　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

一個訓練數(shù)據(jù)截止到 1911 年的模型，能不能自己推導出愛因斯坦 1915 年提出的廣義相對論？」今年年初，哈薩比斯給出了一個極其硬核的 AGI 判定標準。

沒想到的是，這件事真的有人嘗試去做了，而且其中一位作者還是 GPT 之父 Alec Radford。

最近，Alec Radford 和「神經(jīng)常微分方程」提出者之一、陳天琦導師 David Duvenaud 以及量化專家 Nick Levine 一起做了一個有趣的項目：用 1931 年以前的數(shù)據(jù)訓練了一個 13B 模型 ——Talkie，然后和這個模型對話，看看會發(fā)生什么有意思的事情。

這個「來自 1930 年」的模型被切斷了所有現(xiàn)代知識的污染。這給了研究者一個罕見的機會：當你想測試一個 AI 到底是真的理解了某些能力，還是僅僅在重復訓練數(shù)據(jù)里的答案，talkie-1930 就是那個誠實的參照系（理論上是）。對于哈薩比斯提出的問題，這也是一個很好的探索起點。

來自 1930 年的模型，有什么用？

talkie 的訓練數(shù)據(jù)，全部來自 1931 年以前的英文文本，包括書籍、報紙、期刊、專利、法律文書，總計 2600 億個 token。之所以選這一年作為截止點，是因為在美國，在此之前的作品已進入公共領域，可以合法使用。

模型訓練好之后，研究者們做了一件很有趣的事：他們開了一個 24 小時的直播頻道，讓 Claude Sonnet 4.6 全天候地去和 talkie?1930 聊天，探索這個「古人」的知識邊界。對話記錄是公開的，大家看看怎么樣。

其他人也可以試用這個模型，以下是我們問的兩個簡單的小問題。

體驗鏈接：https://talkie-lm.com/chat

但更有意思的，不是模型具體表現(xiàn)，而是研究者們?yōu)槭裁匆@么做。

他們提出了一個問題：一個只活在過去的模型，能在多大程度上「預感」到未來？

他們從《紐約時報》的「歷史上的今天」欄目里抓了將近 5000 條歷史事件的描述，然后測量這些描述對 talkie 來說有多「意外」。用信息論的語言說，就是每字節(jié)文本的驚訝度。結果正如預期的那樣：1930 年之前的事，talkie 不覺得意外；1930 年之后，驚訝度明顯爬升，在五六十年代達到頂峰，之后趨于平穩(wěn)。

這套方法背后藏著一個更野心勃勃的設想。研究者們引用了 DeepMind 創(chuàng)始人 Demis Hassabis 曾經(jīng)提出過的問題（如前所述），他們還舉了幾個類似的例子：西科斯基的直升機專利（1935 年）、圖靈關于可計算數(shù)的論文（1936 年）、卡爾森的靜電復印專利（1942 年）—— 這些都是 talkie「理論上」無法知曉的東西。但如果模型足夠大、理解足夠深，能不能憑借對已有知識的推演，自己走到那一步

這個問題目前還沒有答案，但已經(jīng)足夠讓人認真想一想了。

他們提出的第二個動機，是污染問題。

評估大模型能力，有一個長期困擾研究者的麻煩：你怎么知道模型是真的「會」，而不是在訓練數(shù)據(jù)里見過這道題的答案？這個問題幾乎無解，因為現(xiàn)代模型的訓練數(shù)據(jù)實在太龐大，根本沒法逐一排查。

talkie 天然繞開了這個問題。它完全不知道 Python 是什么，也從未見過任何一行現(xiàn)代代碼。于是研究者們做了一個實驗 —— 用 HumanEval 這套標準編程測試來評估它。他們給 talkie 隨機挑選幾個 Python 函數(shù)作為示例，然后讓它自己寫一個新的出來，看它能在 100 次嘗試中至少答對一次的比例有多高。

結果是：talkie 確實能學，而且隨著規(guī)模的擴大，模型在這項任務上的表現(xiàn)會緩慢但穩(wěn)定地提升。

但比起訓練在現(xiàn)代網(wǎng)頁數(shù)據(jù)上的同等規(guī)模模型，talkie 還有很大差距。而且，它答對的題目全都屬于兩類：要么是極簡單的單行程序，要么是對示例程序的小幅改動。研究者們特別提到了一個例子 —— 一個旋轉密碼的解碼函數(shù)。示例里給了編碼函數(shù)，talkie 理解了「逆操作」的概念，把加號換成減號，一字之差，答案正確。他們認為，這說明模型對「逆函數(shù)」這個抽象概念有所理解，而不只是在照貓畫虎。

一個對數(shù)字計算機一無所知的模型，依然能從示例里摸索出編程的邏輯。這個結果讓研究者們覺得值得繼續(xù)往下做。

第三個動機，是關于數(shù)據(jù)多樣性的一個更深層的問題。

當今所有主流大模型，無論是 GPT、Claude、還是 Gemini，訓練數(shù)據(jù)最終都指向同一個來源：互聯(lián)網(wǎng)。直接爬取也好，蒸餾也好，合成數(shù)據(jù)也好，本質上都是同一片信息海洋的產(chǎn)物。這就引出了一個值得認真對待的問題：我們以為自己在研究「語言模型的普遍規(guī)律」，實際上研究的，會不會只是「訓練在互聯(lián)網(wǎng)上的模型」的特殊性質？這些模型在氣質、能力和行為傾向上的相似，到底有多少來自人類語言和文化的共性，又有多少只是因為喝了同一口井里的水？

talkie 提供了一個對照組。通過研究它與現(xiàn)代模型的異同，研究者們希望剝離出哪些特征是語言模型的普遍屬性，哪些是「互聯(lián)網(wǎng)訓練」的特有產(chǎn)物。

為了更直觀地衡量 talkie 的能力，研究者們還專門訓練了一個「現(xiàn)代孿生」模型 —— 架構完全一樣，只是把訓練數(shù)據(jù)換成了現(xiàn)代網(wǎng)頁數(shù)據(jù)集 FineWeb。兩個模型在語言理解、數(shù)字計算和知識掌握三個維度上正面比較。

結果是 talkie 全面落后。但研究者們注意到一個細節(jié)：測試題里有很多問題，對一個只知道 1930 年以前世界的模型來說，本身就是「超綱」的 —— 它沒有理由知道那些事。把這些題目過濾掉之后，兩個模型之間的差距大約縮小了一半。

在語言理解和數(shù)字計算這兩個維度上，talkie 的表現(xiàn)與現(xiàn)代孿生模型相當接近。研究者們認為，剩余的差距，很可能來自兩個原因：一是歷史文本的 OCR 識別質量較差，二是訓練語料的主題分布與現(xiàn)代模型差異較大。

訓練復古模型，沒有那么容易？

訓練一個復古模型遠沒有聽起來那么簡單。

最棘手的問題叫「時間泄漏」。訓練數(shù)據(jù)的截止日期是 1930 年，但「1930 年以前出版」并不等于「內(nèi)容只涉及 1930 年以前的事」。一本 1920 年的書，如果后來重版，編輯可能加了現(xiàn)代的序言；一份報紙的數(shù)字化檔案，可能附帶著整理者寫的當代注釋。這些內(nèi)容一旦混進訓練集，模型就會在不該知道的地方突然「開竅」。

早期的 7B 版本就出過這種狀況 —— 有人問它 1936 年誰是美國總統(tǒng)，簽署了哪些重要立法，它不假思索地答出了羅斯福和新政的細節(jié)，順帶還提到了聯(lián)合國和德國的戰(zhàn)后分裂。一個理應只活在 1930 年的模型，不知從哪條縫里看到了后來的世界。

研究者們?yōu)榇碎_發(fā)了一套基于 n-gram 的異常詞檢測分類器，專門用來過濾訓練數(shù)據(jù)，但承認這套方法并不完美。13B 版本的 talkie 依然對二戰(zhàn)后的某些事情有模糊的感知。怎么徹底堵住這條縫，還是一個未解決的問題。

另一個麻煩是數(shù)據(jù)質量。1930 年沒有數(shù)字出版，所有文本都要從紙質原件掃描、識別。傳統(tǒng)的 OCR 系統(tǒng)對付干凈的印刷品還行，碰上版式復雜或保存不善的舊書，識別出來的東西往往慘不忍睹 —— 字母錯位、段落混亂、符號亂入。研究者們做過對照實驗：同樣的訓練量，用傳統(tǒng) OCR 轉錄的文本訓練出來的模型，性能只有人工轉錄版本的 30%。做一些正則清洗之后，能回升到 70%，但差距仍然很大。

他們現(xiàn)在正在開發(fā)一套專門針對歷史文獻的 OCR 系統(tǒng)，希望把這個缺口補上。

還有一個問題是訓練后的對齊?，F(xiàn)代大模型的指令微調(diào)，依賴大量人工標注的對話數(shù)據(jù)，但那些數(shù)據(jù)全都帶著現(xiàn)代世界的氣息和預設。用它們來微調(diào) talkie，就像是把一個維多利亞時代的紳士送去參加企業(yè)培訓，出來之后說話開始帶著 PPT 腔。早期版本的 talkie 在強化學習之后，有段時間說話全是列表和要點，完全不像一個 1930 年代的人。

為了解決這個問題，研究者們從歷史文本本身入手，用禮儀手冊、書信范文、烹飪食譜、百科全書這類結構規(guī)整的舊書生成指令 - 回復對，從頭構建了一套后訓練流程。用 Claude Opus 4.6 扮演用戶、talkie 扮演助手，生成多輪對話，再用 Claude Sonnet 4.6 做裁判，給 talkie 的回答打分。訓練開始時，裁判平均給 2 分（滿分 5 分），結束時升到了 3.4 分。

他們也坦承，用現(xiàn)代 AI 做裁判，本身就是一種「時代污染」。徹底干凈的做法，應該用 talkie 的基礎模型來評價 talkie 的對話 —— 自己審判自己，完全活在 1930 年的邏輯里。這是他們下一步想嘗試的方向。

目前，他們正在訓練一個 GPT-3 級別的模型，并希望在今年夏天發(fā)布。初步估計表明，他們可以將語料庫擴展到超過 1T 個歷史文本 token，這應該足以創(chuàng)建一個 GPT-3.5 級別的模型 —— 其功能與最初的 ChatGPT 類似。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.