国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

哈薩比斯出的難題,GPT之父接上了:用一個知識停在1930年的模型

0
分享至


機器之心編輯部

一個訓練數(shù)據(jù)截止到 1911 年的模型,能不能自己推導出愛因斯坦 1915 年提出的廣義相對論?」今年年初,哈薩比斯給出了一個極其硬核的 AGI 判定標準。



沒想到的是,這件事真的有人嘗試去做了,而且其中一位作者還是 GPT 之父 Alec Radford。



最近,Alec Radford 和「神經(jīng)常微分方程」提出者之一、陳天琦導師 David Duvenaud 以及量化專家 Nick Levine 一起做了一個有趣的項目:用 1931 年以前的數(shù)據(jù)訓練了一個 13B 模型 ——Talkie,然后和這個模型對話,看看會發(fā)生什么有意思的事情。



這個「來自 1930 年」的模型被切斷了所有現(xiàn)代知識的污染。這給了研究者一個罕見的機會:當你想測試一個 AI 到底是真的理解了某些能力,還是僅僅在重復訓練數(shù)據(jù)里的答案,talkie-1930 就是那個誠實的參照系(理論上是)。對于哈薩比斯提出的問題,這也是一個很好的探索起點。

來自 1930 年的模型,有什么用?

talkie 的訓練數(shù)據(jù),全部來自 1931 年以前的英文文本,包括書籍、報紙、期刊、專利、法律文書,總計 2600 億個 token。之所以選這一年作為截止點,是因為在美國,在此之前的作品已進入公共領域,可以合法使用。

模型訓練好之后,研究者們做了一件很有趣的事:他們開了一個 24 小時的直播頻道,讓 Claude Sonnet 4.6 全天候地去和 talkie?1930 聊天,探索這個「古人」的知識邊界。對話記錄是公開的,大家看看怎么樣。

其他人也可以試用這個模型,以下是我們問的兩個簡單的小問題。





體驗鏈接:https://talkie-lm.com/chat

但更有意思的,不是模型具體表現(xiàn),而是研究者們?yōu)槭裁匆@么做。

他們提出了一個問題:一個只活在過去的模型,能在多大程度上「預感」到未來?

他們從《紐約時報》的「歷史上的今天」欄目里抓了將近 5000 條歷史事件的描述,然后測量這些描述對 talkie 來說有多「意外」。用信息論的語言說,就是每字節(jié)文本的驚訝度。結果正如預期的那樣:1930 年之前的事,talkie 不覺得意外;1930 年之后,驚訝度明顯爬升,在五六十年代達到頂峰,之后趨于平穩(wěn)。



這套方法背后藏著一個更野心勃勃的設想。研究者們引用了 DeepMind 創(chuàng)始人 Demis Hassabis 曾經(jīng)提出過的問題(如前所述),他們還舉了幾個類似的例子:西科斯基的直升機專利(1935 年)、圖靈關于可計算數(shù)的論文(1936 年)、卡爾森的靜電復印專利(1942 年)—— 這些都是 talkie「理論上」無法知曉的東西。但如果模型足夠大、理解足夠深,能不能憑借對已有知識的推演,自己走到那一步

這個問題目前還沒有答案,但已經(jīng)足夠讓人認真想一想了。

他們提出的第二個動機,是污染問題。

評估大模型能力,有一個長期困擾研究者的麻煩:你怎么知道模型是真的「會」,而不是在訓練數(shù)據(jù)里見過這道題的答案?這個問題幾乎無解,因為現(xiàn)代模型的訓練數(shù)據(jù)實在太龐大,根本沒法逐一排查。

talkie 天然繞開了這個問題。它完全不知道 Python 是什么,也從未見過任何一行現(xiàn)代代碼。于是研究者們做了一個實驗 —— 用 HumanEval 這套標準編程測試來評估它。他們給 talkie 隨機挑選幾個 Python 函數(shù)作為示例,然后讓它自己寫一個新的出來,看它能在 100 次嘗試中至少答對一次的比例有多高。

結果是:talkie 確實能學,而且隨著規(guī)模的擴大,模型在這項任務上的表現(xiàn)會緩慢但穩(wěn)定地提升。



但比起訓練在現(xiàn)代網(wǎng)頁數(shù)據(jù)上的同等規(guī)模模型,talkie 還有很大差距。而且,它答對的題目全都屬于兩類:要么是極簡單的單行程序,要么是對示例程序的小幅改動。研究者們特別提到了一個例子 —— 一個旋轉密碼的解碼函數(shù)。示例里給了編碼函數(shù),talkie 理解了「逆操作」的概念,把加號換成減號,一字之差,答案正確。他們認為,這說明模型對「逆函數(shù)」這個抽象概念有所理解,而不只是在照貓畫虎。



一個對數(shù)字計算機一無所知的模型,依然能從示例里摸索出編程的邏輯。這個結果讓研究者們覺得值得繼續(xù)往下做。

第三個動機,是關于數(shù)據(jù)多樣性的一個更深層的問題。

當今所有主流大模型,無論是 GPT、Claude、還是 Gemini,訓練數(shù)據(jù)最終都指向同一個來源:互聯(lián)網(wǎng)。直接爬取也好,蒸餾也好,合成數(shù)據(jù)也好,本質上都是同一片信息海洋的產(chǎn)物。這就引出了一個值得認真對待的問題:我們以為自己在研究「語言模型的普遍規(guī)律」,實際上研究的,會不會只是「訓練在互聯(lián)網(wǎng)上的模型」的特殊性質?這些模型在氣質、能力和行為傾向上的相似,到底有多少來自人類語言和文化的共性,又有多少只是因為喝了同一口井里的水?

talkie 提供了一個對照組。通過研究它與現(xiàn)代模型的異同,研究者們希望剝離出哪些特征是語言模型的普遍屬性,哪些是「互聯(lián)網(wǎng)訓練」的特有產(chǎn)物。

為了更直觀地衡量 talkie 的能力,研究者們還專門訓練了一個「現(xiàn)代孿生」模型 —— 架構完全一樣,只是把訓練數(shù)據(jù)換成了現(xiàn)代網(wǎng)頁數(shù)據(jù)集 FineWeb。兩個模型在語言理解、數(shù)字計算和知識掌握三個維度上正面比較。

結果是 talkie 全面落后。但研究者們注意到一個細節(jié):測試題里有很多問題,對一個只知道 1930 年以前世界的模型來說,本身就是「超綱」的 —— 它沒有理由知道那些事。把這些題目過濾掉之后,兩個模型之間的差距大約縮小了一半。



在語言理解和數(shù)字計算這兩個維度上,talkie 的表現(xiàn)與現(xiàn)代孿生模型相當接近。研究者們認為,剩余的差距,很可能來自兩個原因:一是歷史文本的 OCR 識別質量較差,二是訓練語料的主題分布與現(xiàn)代模型差異較大。

訓練復古模型,沒有那么容易?

訓練一個復古模型遠沒有聽起來那么簡單。

最棘手的問題叫「時間泄漏」。訓練數(shù)據(jù)的截止日期是 1930 年,但「1930 年以前出版」并不等于「內(nèi)容只涉及 1930 年以前的事」。一本 1920 年的書,如果后來重版,編輯可能加了現(xiàn)代的序言;一份報紙的數(shù)字化檔案,可能附帶著整理者寫的當代注釋。這些內(nèi)容一旦混進訓練集,模型就會在不該知道的地方突然「開竅」。

早期的 7B 版本就出過這種狀況 —— 有人問它 1936 年誰是美國總統(tǒng),簽署了哪些重要立法,它不假思索地答出了羅斯福和新政的細節(jié),順帶還提到了聯(lián)合國和德國的戰(zhàn)后分裂。一個理應只活在 1930 年的模型,不知從哪條縫里看到了后來的世界。



研究者們?yōu)榇碎_發(fā)了一套基于 n-gram 的異常詞檢測分類器,專門用來過濾訓練數(shù)據(jù),但承認這套方法并不完美。13B 版本的 talkie 依然對二戰(zhàn)后的某些事情有模糊的感知。怎么徹底堵住這條縫,還是一個未解決的問題。

另一個麻煩是數(shù)據(jù)質量。1930 年沒有數(shù)字出版,所有文本都要從紙質原件掃描、識別。傳統(tǒng)的 OCR 系統(tǒng)對付干凈的印刷品還行,碰上版式復雜或保存不善的舊書,識別出來的東西往往慘不忍睹 —— 字母錯位、段落混亂、符號亂入。研究者們做過對照實驗:同樣的訓練量,用傳統(tǒng) OCR 轉錄的文本訓練出來的模型,性能只有人工轉錄版本的 30%。做一些正則清洗之后,能回升到 70%,但差距仍然很大。



他們現(xiàn)在正在開發(fā)一套專門針對歷史文獻的 OCR 系統(tǒng),希望把這個缺口補上。

還有一個問題是訓練后的對齊?,F(xiàn)代大模型的指令微調(diào),依賴大量人工標注的對話數(shù)據(jù),但那些數(shù)據(jù)全都帶著現(xiàn)代世界的氣息和預設。用它們來微調(diào) talkie,就像是把一個維多利亞時代的紳士送去參加企業(yè)培訓,出來之后說話開始帶著 PPT 腔。早期版本的 talkie 在強化學習之后,有段時間說話全是列表和要點,完全不像一個 1930 年代的人。

為了解決這個問題,研究者們從歷史文本本身入手,用禮儀手冊、書信范文、烹飪食譜、百科全書這類結構規(guī)整的舊書生成指令 - 回復對,從頭構建了一套后訓練流程。用 Claude Opus 4.6 扮演用戶、talkie 扮演助手,生成多輪對話,再用 Claude Sonnet 4.6 做裁判,給 talkie 的回答打分。訓練開始時,裁判平均給 2 分(滿分 5 分),結束時升到了 3.4 分。



他們也坦承,用現(xiàn)代 AI 做裁判,本身就是一種「時代污染」。徹底干凈的做法,應該用 talkie 的基礎模型來評價 talkie 的對話 —— 自己審判自己,完全活在 1930 年的邏輯里。這是他們下一步想嘗試的方向。

目前,他們正在訓練一個 GPT-3 級別的模型,并希望在今年夏天發(fā)布。初步估計表明,他們可以將語料庫擴展到超過 1T 個歷史文本 token,這應該足以創(chuàng)建一個 GPT-3.5 級別的模型 —— 其功能與最初的 ChatGPT 類似。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
以色列前總理貝內(nèi)特:伊朗實質上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實質上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應為何如此激烈

偉偉道來 | 伊朗的反應為何如此激烈

經(jīng)濟觀察報
2026-05-06 11:40:46
吳宜澤透露拿到獎金后準備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

吳宜澤透露拿到獎金后準備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

大風新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個隱私,是性感嗎?

女性跑步:暴露這個隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復趙心童、丁俊暉:一起加油,永遠的大哥

吳宜澤社媒回復趙心童、丁俊暉:一起加油,永遠的大哥

懂球帝
2026-05-05 19:39:09
在中國人民公安大學,穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

在中國人民公安大學,穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

侃故事的阿慶
2026-05-06 09:21:32
被延長的搶救時間,被卡住的工傷認定

被延長的搶救時間,被卡住的工傷認定

新京報
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國工廠說關就關?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關就關?曹德旺:美國不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報
2026-05-06 12:38:05
中美同時向全球下達禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時向全球下達禁令,各國都傻眼了!美媒:中國此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當庭戳老底

頭條要聞

男子購百萬保險被邀免費游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險被邀免費游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財經(jīng)要聞

人形機器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領克10/領克10+ 無論能源形式 領克都要快樂

態(tài)度原創(chuàng)

房產(chǎn)
旅游
本地
游戲
公開課

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

旅游要聞

龍江新觀察|“五一”文旅熱力十足 特色體驗燃動春日消費

本地新聞

用青花瓷的方式,打開西溪濕地

掌控陰陽挑戰(zhàn)圣山!《生肖山Zodiac Mountain》登陸Steam牌組構建游戲節(jié)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版