国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話清華劉子鳴:AI還沒迎來自己的牛頓時代

0
分享至


圖源:Pixabay

編者按
  • 去年年底,清華大學(xué)人工智能學(xué)院助理教授劉子鳴在個人博客上發(fā)文,直言 AI 研究尚未迎來屬于自己的“牛頓時代”。他借用物理學(xué)史上“第谷—開普勒—牛頓”的演進(jìn)路徑作類比,形容今天的 AI 更像停留在觀測和經(jīng)驗(yàn)公式階段。我們擁有大量數(shù)據(jù)和模型,卻缺乏真正理解背后規(guī)律的科學(xué)語言。Scaling Law 雖然有效,卻讓研究者沉迷于規(guī)模擴(kuò)張,而忽略了對機(jī)制的探索。

撰文 | 張?zhí)炱?/strong>

劉子鳴出身物理系,早期研究集中在“AI for Physics”,用 AI 解決物理問題。直到 2022 年博三時,ChatGPT 的誕生讓他意識到 AI 本身可能才是更值得研究的對象,他開始思考能否用物理學(xué)的方法論去理解 AI 系統(tǒng)內(nèi)部的演化和能力形成。

現(xiàn)在,他走上了 Physics of AI 的道路,嘗試用物理學(xué)的思路理解 AI,把神經(jīng)網(wǎng)絡(luò)當(dāng)作一個可以被觀測和實(shí)驗(yàn)的系統(tǒng),通過觀察、實(shí)驗(yàn)和歸納,去拆解其訓(xùn)練中的動力學(xué)過程。

在他看來,科學(xué)建立在可復(fù)現(xiàn)的實(shí)驗(yàn)和現(xiàn)象的持續(xù)積累之上。但在當(dāng)下的AI研究中,對于很多現(xiàn)象還缺乏一套共同的科學(xué)語言。研究者的關(guān)注往往集中于少數(shù)熱點(diǎn)問題,許多細(xì)微卻重要的觀察,卻因?yàn)闆]法講出一個好故事而無法發(fā)表。

“我們需要建立一套更統(tǒng)一的科學(xué)語言。只有當(dāng)研究能夠用這種可復(fù)現(xiàn)、可討論的語言展開,AI 才有可能真正從‘煉丹’走向一門嚴(yán)謹(jǐn)?shù)目茖W(xué)”,劉子鳴說。

01 用物理學(xué)的視角研究AI

《知識分子》:你本科和博士都在物理系,早期的作品很多是用 AI 當(dāng)作工具去解決物理問題。但最近這幾年,你的視角似乎完全反過來了,開始用物理學(xué)的思維去研究 AI 本身。這種反轉(zhuǎn)是如何發(fā)生的?

劉子鳴:研究對象從物理到AI,這確實(shí)是一個順應(yīng)時代進(jìn)程的轉(zhuǎn)變。我的本科和博士都在物理系,博二之前主要做AI for Physics,那時物理是研究的核心,AI 只是工具 。

轉(zhuǎn)折點(diǎn)發(fā)生在 2022 年,也就是我博三的時候,ChatGPT 誕生了。那個時候我開始覺得 AI 本身就是一個非常有意思的研究對象,其中蘊(yùn)含著巨大的機(jī)會。但我并不想單純?nèi)フ{(diào)參或者刷榜,我覺得那不是我特別想做、也不是特別擅長的事情 。

我想,能不能結(jié)合我之前擅長的技能,也就是在物理學(xué)中學(xué)到的方法論和具體的數(shù)理工具,把它們應(yīng)用到 AI 上?當(dāng)時這還是一個比較獨(dú)特的角度。大家更多的是去構(gòu)建新方法,但對方法背后的原理并不清楚。所以我們想從物理的角度去理解現(xiàn)代 AI 系統(tǒng)中觀察到的現(xiàn)象,并希望這些洞見能幫助我們未來更系統(tǒng)地構(gòu)建下一代模型 。

后來我們發(fā)現(xiàn),研究 AI 問題和研究物理系統(tǒng)本質(zhì)上是一樣的,甚至 AI 更可控、迭代更快。在自然科學(xué)里你會受到實(shí)驗(yàn)設(shè)備的限制,但在 AI 系統(tǒng)里,你擁有上帝視角,可以觀察任何你想觀察的東西,只要把它打印出來或收集起來。這種便利性為我們提供了海量的研究素材,這是自然科學(xué)實(shí)驗(yàn)難以比擬的 。

《知識分子》:你認(rèn)為目前 AI 原理上最重要、最值得探索的問題是什么?

劉子鳴:我認(rèn)為最核心的問題是 AI 的訓(xùn)練動力學(xué)。

生物學(xué)里有一句名言:“Nothing in biology makes sense except in the light of evolution.(如果不從進(jìn)化的角度去看,生物學(xué)的一切都無法解釋。)”如果你不從進(jìn)化的角度理解現(xiàn)在的生命形態(tài),很多事情是不合理的;但一旦引入進(jìn)化視角,一切就豁然開朗了 。

這跟 AI 是一樣的。我們現(xiàn)在很多時候只看訓(xùn)練完成后的模型,看它有什么能力。但我們更希望理解的是:它是如何在訓(xùn)練過程中獲得這些能力的?我們需要去理解這個“進(jìn)化”的過程。

雖然我們都知道它是靠反向傳播、靠梯度下降,但這個過程內(nèi)部發(fā)生了什么?我們希望建立一種多層次的理解。宏觀上,它什么時候掌握了某種能力?微觀上,底層的神經(jīng)元和權(quán)重是如何隨著時間演化的?介觀上,它內(nèi)部是否形成了一些特定的模塊或結(jié)構(gòu)來處理子任務(wù)?只有理解了這個動態(tài)的進(jìn)化過程,我們才能真正系統(tǒng)地去診斷模型、改進(jìn)模型 。

《知識分子》:對于我們理解AI的進(jìn)化,現(xiàn)在研究上的阻礙在哪里?

劉子鳴:問題在于對現(xiàn)象的研究和觀察不足。

現(xiàn)在的 AI 就是一頭大象。我們想理解它,理論上應(yīng)該把大象的每一個部位都摸一遍,拼湊起來才能知道全貌。但現(xiàn)在有兩個阻礙。

第一,很多人不愿意去摸這頭大象,或者說只關(guān)注大象的鼻子。比方說,如果只關(guān)心訓(xùn)練的 loss 曲線或者最終的性能指標(biāo),其實(shí)就丟失了大量其他重要現(xiàn)象。比如模型內(nèi)部是如何演化的,這些大家往往沒有去觀察。

第二,即使有人去摸,大多數(shù)注意力又過于集中在少數(shù)“戲劇性”的現(xiàn)象上。像大家熟知的規(guī)模定律、頓悟(Grokking)等,這些現(xiàn)象研究得很透徹,是因?yàn)樗鼈儔驊騽⌒?,有故事可講。但這只是整個系統(tǒng)的一小部分。

但我想說,要充分理解這個系統(tǒng),可能需要發(fā)現(xiàn) 100 種甚至 1000 種現(xiàn)象。剩下那些可能不那么令人興奮,但這需要我們耐著性子坐冷板凳去發(fā)現(xiàn)。大家不要只盯著鼻子看,去摸摸大象的耳朵、尾巴、腿。哪怕這些部位看起來不那么重要,但只有把它們都摸清楚了,我們才能形成對這頭大象的全局理解 。積累到一定量之后,才會有真正的大的洞見涌現(xiàn)出來 。

現(xiàn)在的問題是,這些微小的洞見很難發(fā)表成論文。因?yàn)樗茈y被包裝成一個聽起來特別 戲劇性 的故事。現(xiàn)在的發(fā)表文化往往是:只要我摸到了大象的鼻子,我就去仔細(xì)研究鼻子的紋理,甚至研究鼻子的每一個細(xì)胞,把這個局部故事講得特別漂亮、特別精細(xì)。但大象的鼻子終究不是大象,研究得再精細(xì),也偏離了我們要理解大系統(tǒng)的目標(biāo)。

《知識分子》:如何理解“Physics of AI”?你希望它彌補(bǔ)當(dāng)前 AI 研究中哪些被忽略的理解層面?

劉子鳴:Physics of AI 是我對自己研究思路的一種概括。所謂用物理學(xué)的方式理解 AI,更像是一種實(shí)驗(yàn)驅(qū)動的科學(xué)。

我會借用物理學(xué)中的簡化和抽象的思考方式。比如我想研究系統(tǒng)的某個行為,我會嘗試把相關(guān)因素簡化到一兩個,建立一個描述該行為的有效模型或有效理論。當(dāng)描述另一個行為時,建立另一套簡化的方法 。

從這個意義上說,Physics of AI 更像是一套方法論。它是可以日積月累去做的,不需要依賴靈感,等著蘋果砸到頭上,只要按照這個方法論去研究,每天都能獲得一點(diǎn)新的理解。我覺得這個是更可持續(xù)的一個方向。

《知識分子》:以你說的這種“物理學(xué)視角”來統(tǒng)攝這些層面,和現(xiàn)有研究路徑相比,它最核心的優(yōu)勢在哪里?

劉子鳴:我的方法論本身并沒有什么特別新奇的地方,核心只是把理論和實(shí)踐真正連接起來,而這個連接的橋梁就是玩具模型(Toy Model)。

現(xiàn)在的一個常見問題是割裂:做大模型的人在實(shí)踐中觀察到很多現(xiàn)象,但因?yàn)橄到y(tǒng)太復(fù)雜,沒法解釋;而做理論的人在造非常簡單的數(shù)學(xué)模型,然后強(qiáng)行解釋說這個模型和大模型有關(guān)。這就像我剛才反思時說的,是在“強(qiáng)行說大象的鼻子就是大象”。

我的做法是構(gòu)建一個 Hierarchy(層級結(jié)構(gòu))。首先,我會從最簡單的玩具模型開始,看這個現(xiàn)象能不能在小系統(tǒng)中出現(xiàn)。如果能夠觀察到,就逐步增加復(fù)雜度,比如把模型做得更深一些、更寬一些,或者引入更多結(jié)構(gòu),接著再去看這個現(xiàn)象是被放大了、被削弱了,還是轉(zhuǎn)化成了別的形式。

我認(rèn)為我們需要的是耐下心來,積累非常多小的洞見。知道它們之間有什么聯(lián)系后,把這些點(diǎn)全部連起來,最終才會迎來一個頓悟的時刻,“原來這頭大象是長這樣的?!?/p>

《知識分子》:簡單模型上的研究成果,在什么程度可以遷移到大模型上?

劉子鳴:還原論是我個人的信念。我相信只要理解了每一個基本模塊的行為,以及它們之間是如何相互作用的,就能理解整個龐大的系統(tǒng)是怎么工作的 。

我并不寄希望小模型上觀察的現(xiàn)象,能夠立刻去和大模型上的現(xiàn)象去做對應(yīng)。但是我們?nèi)ソ鈽?gòu)這個小模型的現(xiàn)象的時候,會發(fā)現(xiàn)一些原因。這些原因在大模型上仍然存在,只是體現(xiàn)的程度和規(guī)模不同。

所以我把研究過程分成三個步驟。第一步,我們先觀察小模型上的現(xiàn)象;第二步,對這些現(xiàn)象進(jìn)行解釋,追溯到產(chǎn)生它們的原因;第三步,再把這些原因應(yīng)用去生成對大模型的理解或解釋。當(dāng)然實(shí)際的研究過程不需要這么教條,很多時候就是純粹的好奇心驅(qū)動。

這樣做有兩個好處: 第一,如果小模型上的現(xiàn)象能直接對應(yīng)到大模型,那我們就可以在小模型上做大量可控的實(shí)驗(yàn),成本極低 。 第二,更常見的情況是,小模型和大模型的現(xiàn)象看起來不一樣,就像大象的耳朵和老鼠的耳朵,長得完全不同,但聽聲音這個機(jī)制是一樣的 。我們通過研究老鼠的耳朵搞清楚了聽覺機(jī)制,就可以推演大象是怎么聽聲音的。

一旦我們在小系統(tǒng)上鎖定了某個現(xiàn)象,我們就有能力去做更多的參數(shù)掃描,做更多可控的實(shí)驗(yàn),從而獲得透徹的理解。有了這個理解,我們就不需要無頭蒼蠅一樣在大系統(tǒng)上亂試。

02 AI研究還沒有迎來牛頓時代

《知識分子》:你曾用物理學(xué)史上的“第谷—開普勒—牛頓”來類比 AI 理論的發(fā)展階段。能否具體解釋一下,這三個階段各自代表了什么?我們今天大致處在哪個階段?

劉子鳴:這是一條非常經(jīng)典的科學(xué)發(fā)展路線。

第谷階段的核心是觀測。第谷·布拉赫做了大量、極其精確的天文觀測,積累了當(dāng)時最可靠的數(shù)據(jù),但這些數(shù)據(jù)本身只是呈現(xiàn)出一些現(xiàn)象,并沒有形成真正的理論。

到了開普勒階段,則是唯象理論的建立。他利用第谷的數(shù)據(jù),總結(jié)出了行星繞太陽運(yùn)行的橢圓軌道定律。這一步非常重要,它用簡潔的幾何規(guī)律壓縮了海量觀測數(shù)據(jù),能夠很好地描述自然現(xiàn)象。但從科學(xué)本質(zhì)上說,它仍然停留在描述層面,并沒有回答為什么會是這樣,因?yàn)槠渲羞€沒有“力”的概念。

真正進(jìn)入本質(zhì)層面的,是牛頓階段。牛頓通過萬有引力定律和牛頓第二定律,從根本機(jī)制出發(fā)推導(dǎo)出了橢圓軌道。更重要的是,一旦掌握了這個機(jī)制,不僅可以解釋行星運(yùn)動,連蘋果落地這樣的非橢圓軌跡的拋物線運(yùn)動,同樣可以被統(tǒng)一推導(dǎo)出來。這標(biāo)志著科學(xué)從經(jīng)驗(yàn)規(guī)律上升為可演繹、可推廣的理論體系。

從第谷到開普勒,再到牛頓,本質(zhì)上是一個從表象走向本質(zhì)、從冗余數(shù)據(jù)走向高度壓縮知識的過程。

如果把這條路徑放到 AI 上來看,我個人認(rèn)為,我們現(xiàn)在還遠(yuǎn)遠(yuǎn)稱不上“科學(xué)”,甚至連開普勒階段都沒有真正到達(dá),更接近于第谷階段的早期。甚至我們還不太清楚應(yīng)該觀察什么。我們對模型的觀測是高度離散、非常匱乏的,更重要的是,我們并不清楚這些零散觀察之間究竟如何彼此關(guān)聯(lián)。

在物理學(xué)里,通常是先觀察到一個現(xiàn)象,然后大家會本能地去追問:它為什么會發(fā)生?背后的機(jī)制是什么?比如發(fā)現(xiàn)一個新的規(guī)律,可能很快就會有上千篇論文去嘗試解釋它。當(dāng)然論文多不一定是好事,但至少說明大家在努力理解它。

但在 AI 里,情況有點(diǎn)不一樣。以 Scaling Law 為例,大家觀察到這個現(xiàn)象之后,第一反應(yīng)往往不是去解釋它,而是去利用它,去融資、去把模型做得更大。這個選擇當(dāng)然可以理解,因?yàn)樗_實(shí)有效,但慢慢地,它就變成了一種近乎信仰的東西,而不是一個等待被解釋的科學(xué)問題。

《知識分子》:這種“信仰”會帶來什么問題?

劉子鳴:最糟糕的地方在于,Scaling 確實(shí)是有用的。系統(tǒng)做大了,性能真的會上升。也正因?yàn)樗行?,反而削弱了我們?nèi)プ穯枡C(jī)制的動機(jī)。

就像求雨,如果你求了很多次雨,發(fā)現(xiàn)和降雨毫無關(guān)系,你自然會意識到這是迷信,會有動力去發(fā)展氣象學(xué),去真正理解降雨的機(jī)制。但如果你每次求雨,天真的都會下雨,你可能就不會再去思考因果關(guān)系了。我覺得現(xiàn)在的 Scaling 有點(diǎn)類似這種狀態(tài)。它帶來了進(jìn)步,但也讓整個領(lǐng)域過度依賴規(guī)模擴(kuò)張,而忽略了更系統(tǒng)、更高效的理解路徑。從長遠(yuǎn)看,這未必是最聰明的方式。

《知識分子》:目前業(yè)界普遍相信 Scaling Law,認(rèn)為只要不斷擴(kuò)大數(shù)據(jù)、模型和算力規(guī)模,就能一步步逼近 AGI。您怎么看這條以規(guī)模擴(kuò)張為核心的路徑?它最終真的能通向 AGI 嗎?

劉子鳴:其實(shí)我在博客上有過評論,我的觀點(diǎn)是,如果沒有能量或者數(shù)據(jù)的瓶頸,現(xiàn)在的方法也能通向 AGI。

按照現(xiàn)在方法的邏輯,如果做不到泛化到分布之外的情況,那是因?yàn)閿?shù)據(jù)不夠多或者模型還不夠大。但是,只要有了足夠多的數(shù)據(jù),把世界上所有的東西都變成了分布之內(nèi),那么 AGI 自然就到來了。所以我并不懷疑現(xiàn)在的方式是可以到達(dá) AGI 的,這一點(diǎn)我同意。

但是,這不是一種最聰明的方式。甚至可以說,這是一種極其低效的方式。

這就好比讓一群猴子去打字,只要時間足夠長,它們最后都能打出一部《莎士比亞全集》。我沒有說 scaling就是這么的愚蠢,它最后確實(shí)能像我說的,靠收集無窮的數(shù)據(jù)、消耗無窮的能量達(dá)到 AGI。但這恰恰是問題所在。我們未來不久就會碰到數(shù)據(jù)和能量的瓶頸,這時候我們需要尋找一些更聰明的方法。

我們需要的是一種像化學(xué)那樣的指導(dǎo)性科學(xué)。在化學(xué)誕生之前,煉丹師也能偶爾發(fā)現(xiàn)火藥或者合金,但那是隨機(jī)的、不可控的。而當(dāng)化學(xué)建立起來之后,有了元素周期表,也理解了原子和分子是如何結(jié)合的,我們就能有目標(biāo)地去設(shè)計(jì)材料,知道該往哪個方向嘗試,而不是在大海里撈針。

《知識分子》:這是否意味著當(dāng)下的AI研究已經(jīng)到了瓶頸?

劉子鳴:我覺得現(xiàn)在 AI 研究領(lǐng)域一個很大的問題是大家各說各的,缺乏統(tǒng)一的科學(xué)語言。

正因?yàn)闆]有共識。大家只能陷入一種公關(guān)戰(zhàn)爭 。最后的結(jié)果是什么呢?就是影響力取決于誰的嗓門大,取決于誰之前做出過什么東西,而不是取決于這個東西到底有多科學(xué) 。

你會看到張三出來說:“我的模型更好!”李四也出來喊:“不,我的模型更好!”大家都在比誰的分?jǐn)?shù)高,比誰的嗓門大。但這種爭論往往是無效的,因?yàn)榇蠹疫B“好”的標(biāo)準(zhǔn)和背后的機(jī)制都沒有共識。

某種程度上,研究成了玄學(xué)甚至許愿?,F(xiàn)在很多人做 AI 也是這樣,調(diào)整了一個特定的參數(shù),模型變強(qiáng)了,就把這個調(diào)參技巧包裝成神技。但實(shí)際上,這中間的因果關(guān)系是不清楚的。大家都在對著黑盒許愿,一旦靈驗(yàn)了就大肆宣傳,但這不是科學(xué),這是迷信。

我們需要建立一套更統(tǒng)一的科學(xué)語言。與其爭論“誰的模型更好”,不如客觀地描述,在什么樣的數(shù)據(jù)分布下、什么樣的結(jié)構(gòu)和訓(xùn)練過程,會穩(wěn)定地產(chǎn)生什么樣的現(xiàn)象。只有當(dāng)研究能夠用這種可復(fù)現(xiàn)、可討論的語言展開,AI 才有可能真正從“煉丹”走向一門嚴(yán)謹(jǐn)?shù)目茖W(xué)。

一旦我們有了這種科學(xué)的語言,情況就會完全不同。大家才能真正開始溝通。哪怕我不同意你的模型比我的好,但我們至少能達(dá)成一個共識?,F(xiàn)在我們沒有這種基礎(chǔ),沒有這種關(guān)于知識的共識,所以導(dǎo)致溝通起來非常困難。

我們急需兩方面的改變: 從技術(shù)上,我們要先發(fā)展出 AI 的元素周期表,幫助我們更好地去設(shè)計(jì)東西。 從文化上,我們需要建立一套統(tǒng)一的科學(xué)語言。否則,這個領(lǐng)域會永遠(yuǎn)停留在“煉丹”的階段。雖然這樣或許也能熬到 AGI,但我覺得這絕對不是最聰明的辦法 。

《知識分子》:您在博客中提出了“結(jié)構(gòu)主義”(Structuralism),并把它作為區(qū)別于符號主義和連接主義的第三條路徑。這三者的本質(zhì)是什么?為什么您認(rèn)為“結(jié)構(gòu)主義”是通向 AGI 的更有希望的方向?

劉子鳴:這其實(shí)關(guān)乎我們?nèi)绾慰创悄艿谋举|(zhì)。我可以用一個最簡單的監(jiān)督學(xué)習(xí)任務(wù)來做類比,比如給定輸入 x,預(yù)測輸出 y。

如果是符號主義(Symbolism),最典型的對應(yīng)就是線性回歸。這一類方法高度可解釋,你可以清楚地寫出每一個變量如何影響結(jié)果,就像物理學(xué)中的還原論,試圖把系統(tǒng)拆解為明確的數(shù)學(xué)符號和公式。它的優(yōu)勢是透明、可分析,但問題也很明顯,一旦系統(tǒng)變得復(fù)雜,它往往就不夠用了。

連接主義(Connectionism)對應(yīng)的則是多層感知機(jī)(MLP),也是當(dāng)前的主流。這類方法完全是數(shù)據(jù)驅(qū)動的,通過大量數(shù)據(jù)去學(xué)習(xí)輸入和輸出之間的映射關(guān)系。它的表達(dá)能力非常強(qiáng),但它內(nèi)部是一團(tuán)混沌,我們不知道它是怎么做到的。這就導(dǎo)致我們很難信任它,也很難從原理上改進(jìn)它。

結(jié)構(gòu)主義(Structuralism)是我試圖定義的中間路線,對應(yīng)像 KAN 這樣的新架構(gòu)。它仍然是數(shù)據(jù)驅(qū)動的,你可以像訓(xùn)練 MLP 一樣訓(xùn)練它,讓他泛化。但它可以被更好的解釋。

《知識分子》:這里所說的“結(jié)構(gòu)”,具體指的是什么?

劉子鳴:我可以用一個非常日常的例子來說明。比如我從家里去學(xué)校辦公室,這個過程在最底層當(dāng)然涉及復(fù)雜的肌肉控制,很難寫成明確的數(shù)學(xué)公式。但在中間層的規(guī)劃層面,我的行為是高度結(jié)構(gòu)化的:先騎車,再爬樓,再轉(zhuǎn)彎。這些都是可以被清楚區(qū)分的子任務(wù)或模塊。

這種結(jié)構(gòu)帶來了巨大的優(yōu)勢:遷移能力。如果我明天要去一個新的地方,就不需要從頭學(xué)習(xí)怎么走路,因?yàn)槲抑涝趺凑{(diào)用“騎車”、“轉(zhuǎn)彎”、“爬樓”這些模塊,配合地圖,就能去任何地方。

我把這種模塊稱為“結(jié)構(gòu)”。理想情況下,這些結(jié)構(gòu)不應(yīng)該由人類寫進(jìn)模型,而應(yīng)當(dāng)在訓(xùn)練過程中自行涌現(xiàn)。傳統(tǒng)的符號主義是試圖強(qiáng)行注入結(jié)構(gòu),由人來規(guī)定“你必須先騎車再爬樓”。這在復(fù)雜的現(xiàn)實(shí)中是行不通的。

我所提倡的結(jié)構(gòu)主義關(guān)心的是:既然我們接受系統(tǒng)是數(shù)據(jù)驅(qū)動的,那么什么樣的架構(gòu)設(shè)計(jì),能讓結(jié)構(gòu)最優(yōu)化、最高效地“涌現(xiàn)(Emerge)”出來?我現(xiàn)在的擔(dān)憂是,目前的 Transformer 或 MLP 架構(gòu),并沒有為結(jié)構(gòu)的涌現(xiàn)做優(yōu)化。它們可能也能學(xué)會,但效率很低,而且很難自發(fā)形成清晰的模塊。

03 如今的發(fā)表文化在強(qiáng)迫大家追熱點(diǎn)

《知識分子》:剛才你說到當(dāng)前的發(fā)表文化阻礙了大家對AI的探索。具體阻礙在哪里?

劉子鳴:現(xiàn)在的發(fā)表文化,在強(qiáng)迫大家去講故事和追熱點(diǎn)。

我們可能觀察到了1000個有趣的現(xiàn)象,但為了發(fā)表論文就必須挑出其中一個,強(qiáng)行把它包裝成一個驚天動地的大發(fā)現(xiàn),并且一定要講它跟大模型有什么關(guān)系。如果這個聯(lián)系不顯著,就得花大量時間去調(diào)參、去湊數(shù)據(jù),把故事圓回來。這浪費(fèi)了大量本該用于科學(xué)探索的時間。

現(xiàn)在的期刊發(fā)表模式,節(jié)奏已經(jīng)明顯跟不上學(xué)術(shù)信息交流的需要了。大家也意識到這個問題,所以AI領(lǐng)域開了更多學(xué)術(shù)會議,但即使是頂級會議,發(fā)表論文也面臨同樣的問題。

像ICLR或NeurIPS,現(xiàn)在動輒就是六千篇論文。我有一次花了整整三天時間,把這些論文的標(biāo)題一篇一篇看完,最大的感受是信息噪音太大了。在這種規(guī)模下,很難判斷哪些工作真正重要,哪些只是技術(shù)細(xì)節(jié)的堆疊。

《知識分子》:正式的期刊發(fā)表或會議論文之外,你認(rèn)為研究者是否應(yīng)該嘗試新的發(fā)表方式?或者說,有沒有更高效的信息交換方式?

劉子鳴:我現(xiàn)在就是在自己的網(wǎng)站上持續(xù)更新博客。我覺得未來的學(xué)術(shù)交流的理想形式,可能會更接近AI Safety領(lǐng)域的一個社區(qū)網(wǎng)站,叫LessWrong。它本質(zhì)上是一個論壇形式的社區(qū),結(jié)構(gòu)上有點(diǎn)像早期的貼吧或論壇,大家發(fā)帖,下面的人基于你的內(nèi)容繼續(xù)展開。

這種機(jī)制帶來的好處,是形成了一種自然的分工。舉個例子,我在帖子里說,我觀察到了一個現(xiàn)象,但現(xiàn)在還不會解釋。下面可能就會有擅長數(shù)學(xué)的研究者,嘗試從理論角度給出解釋。或者我提出一個關(guān)于大模型的預(yù)測,但沒有算力去驗(yàn)證,很快就會有掌握算力資源的人,把這個想法直接在大模型上跑一遍,給出實(shí)際觀測結(jié)果。這樣一來,現(xiàn)象、解釋和驗(yàn)證就被不同的人高效地連接起來,逐漸形成一個有機(jī)的社區(qū)。

《知識分子》:這種社區(qū)形式,在學(xué)術(shù)界有現(xiàn)實(shí)的成功案例嗎?

劉子鳴:如果說完整意義上的社區(qū),目前可能還沒有一個特別成熟的例子。但在交流方式上,博客已經(jīng)有非常好的先例,比如陶哲軒老師的博客,還有蘇劍林老師的“科學(xué)空間”。我自己其實(shí)也是在向他們學(xué)習(xí)。

系統(tǒng)的改變肯定是很難的,但是如果不改的話,我覺得AI學(xué)術(shù)界做的工作肯定會被工業(yè)界吊打,所以需要做一些范式上的改變。比如建立一個高質(zhì)量的論壇,在評終身教職的時候,你在論壇上的貢獻(xiàn)也可以折算成發(fā)表記錄。或許應(yīng)該有這樣的機(jī)制,雖然具體實(shí)施起來肯定很復(fù)雜。

我希望能盡快給出一些有影響力的Physics Of AI的例子,但同時又不能太著急。太著急了,就不是把它當(dāng)成科學(xué)問題去研究了;但太不著急,別人又覺得你做的東西沒有時效性了。我的信仰是:長期來看,Physics Of AI是一條通往AGI的更快路徑,雖然短期可能看起來更慢。雖然大家說“Science is slow”,物理學(xué)從牛頓到現(xiàn)在發(fā)展了400年,但AI的物理學(xué)不需要這么長的時間,如果我們肯改變發(fā)表文化的話。比如過去我一年可能就發(fā)表2-3篇1作文章,如今我每天都可以寫一篇日報(bào),而每篇日報(bào)中學(xué)到的東西其實(shí)和1篇文章也類似,只是少了些包裝和講故事,這大概是200倍的加速。

這也是我提出Physics of AI而不是Math of AI的原因。如果做Math of AI,那是一個太長期的工程。而物理學(xué)家有時并不追求完全的定量精確,只要定性理解夠了,就能快速獲得有價(jià)值的洞見,這種定性或半定量的理解其實(shí)可以很快達(dá)成,不需要耗費(fèi)太多時間。

《知識分子》:現(xiàn)在在工業(yè)界已經(jīng)掌握了大量的資源,學(xué)界則是資源受限。那在這種情況下,大學(xué)究竟應(yīng)該如何做研究呢?

劉子鳴:高校不應(yīng)該去卷算力,去重復(fù)造輪子。高校能做的,恰恰是工業(yè)界沒時間也沒動力做的事,也就是現(xiàn)象的研究和機(jī)制發(fā)現(xiàn)。我認(rèn)為學(xué)術(shù)界的任務(wù)是發(fā)現(xiàn)現(xiàn)象、建立預(yù)期,告訴工業(yè)界哪些方向值得去測,以及可能會遇到什么。

現(xiàn)在的大模型是個黑盒子。工業(yè)界的問題是,沒辦法知道應(yīng)該看黑盒子的哪個部分。而我們在學(xué)術(shù)界,通過在玩具模型上獲得的洞見,可以明確地告訴工業(yè)界:“你可以去看這個黑盒子的哪個具體部分,那里應(yīng)該有一個什么樣的東西?!蔽以赥oy Model上觀測到了一個很有意思的現(xiàn)象,或者我把這個現(xiàn)象歸結(jié)出了原因,根據(jù)這個原因,我可以推測在大模型上應(yīng)該會觀察到什么現(xiàn)象。這樣工業(yè)界就不用大海撈針了。

這是一個非??沈?yàn)證的東西。這就回到了物理學(xué)家的標(biāo)準(zhǔn):一個理論哪怕是錯的都無所謂,只要它能被證偽,只要它是可測試的,它就是好的科學(xué)。學(xué)術(shù)界提供的是Testable Scientific Hypothesis(可測試的科學(xué)假設(shè)),然后讓工業(yè)界去驗(yàn)證。

《知識分子》:這種高校和工業(yè)界合作模式的實(shí)現(xiàn),有時間表嗎?

劉子鳴:我希望在一到兩年內(nèi),能有一些特別有影響力的Physics Of AI的例子出來。到那個時候,工業(yè)界也會更愿意合作,甚至工業(yè)界自己會專門開一些實(shí)驗(yàn)室來做這種物理層面的研究。到那時資源就不是問題了。

但在現(xiàn)階段,學(xué)術(shù)界和工業(yè)界可以有一種分工。雖然驗(yàn)證超大規(guī)模模型確實(shí)需要工業(yè)界的資源,但至少在學(xué)術(shù)界,我們完全可以獨(dú)立進(jìn)行這些現(xiàn)象學(xué)的研究。先發(fā)現(xiàn)現(xiàn)象、總結(jié)規(guī)律,再去指導(dǎo)規(guī)?;?。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
多家上市公司回應(yīng)津巴布韋暫停鋰礦出口影響

多家上市公司回應(yīng)津巴布韋暫停鋰礦出口影響

財(cái)聯(lián)社
2026-02-26 13:42:06
哈登加盟首場傷停騎士惜敗雄鹿 波特準(zhǔn)絕殺阿倫27+11扳平球無效

哈登加盟首場傷停騎士惜敗雄鹿 波特準(zhǔn)絕殺阿倫27+11扳平球無效

醉臥浮生
2026-02-26 11:27:00
河南一蜜雪冰城店被曝用垃圾車運(yùn)冰塊送后廚,店長疑刪監(jiān)控后稱:你是同行嗎?這么有正義感

河南一蜜雪冰城店被曝用垃圾車運(yùn)冰塊送后廚,店長疑刪監(jiān)控后稱:你是同行嗎?這么有正義感

爆角追蹤
2026-02-26 08:12:43
75歲張藝謀再掀桌:比748萬罰款更狠的,是陳婷留的這一手!

75歲張藝謀再掀桌:比748萬罰款更狠的,是陳婷留的這一手!

笑飲孤鴻非
2026-02-24 16:59:29
不聲不響從18漲到219,因?yàn)橐粋€概念,1只股票年內(nèi)偷偷漲了12倍!

不聲不響從18漲到219,因?yàn)橐粋€概念,1只股票年內(nèi)偷偷漲了12倍!

財(cái)經(jīng)智多星
2026-02-26 10:57:03
一對夫妻自駕從新疆喀什到重慶,因晚5秒錯過免費(fèi)高速時間付1700余元,“當(dāng)時又好笑又好氣,當(dāng)長教訓(xùn)了”

一對夫妻自駕從新疆喀什到重慶,因晚5秒錯過免費(fèi)高速時間付1700余元,“當(dāng)時又好笑又好氣,當(dāng)長教訓(xùn)了”

大象新聞
2026-02-25 23:41:07
大理拖車4公里1400元:車主硬剛到底,曝光換胎公司,誰都跑不了

大理拖車4公里1400元:車主硬剛到底,曝光換胎公司,誰都跑不了

離離言幾許
2026-02-25 16:13:29
堵車的源頭找到了!懷化一高速長達(dá)12公里擁堵,居然是司機(jī)睡著了

堵車的源頭找到了!懷化一高速長達(dá)12公里擁堵,居然是司機(jī)睡著了

火山詩話
2026-02-26 10:07:44
父親是中國人,母親是短跑強(qiáng)國的黑人,球員朱正加入男籃成功落戶

父親是中國人,母親是短跑強(qiáng)國的黑人,球員朱正加入男籃成功落戶

以茶帶書
2026-02-25 19:48:32
俄烏犧牲士兵們的平凡愿望,如今只能在AI里實(shí)現(xiàn)了

俄烏犧牲士兵們的平凡愿望,如今只能在AI里實(shí)現(xiàn)了

網(wǎng)易新聞出品
2026-02-24 10:00:05
8歲高考760分,智商230超過愛因斯坦,神童陶哲軒如今怎么樣了?

8歲高考760分,智商230超過愛因斯坦,神童陶哲軒如今怎么樣了?

戶外阿毽
2026-02-26 06:16:12
哈登!骨折?騎士接下來怎么辦?

哈登!骨折?騎士接下來怎么辦?

籃球盛世
2026-02-26 10:40:39
0比3慘?。『翢o還手之力,橋本帆乃香被打成紙老虎,雷聲大雨點(diǎn)小

0比3慘?。『翢o還手之力,橋本帆乃香被打成紙老虎,雷聲大雨點(diǎn)小

卿子書
2026-02-26 08:32:53
中國音樂家紐約路邊換胎被撞身亡,年僅35歲

中國音樂家紐約路邊換胎被撞身亡,年僅35歲

揚(yáng)子晚報(bào)
2026-02-26 10:51:43
報(bào)告114傷1死,中國企業(yè)的血糖儀遭FDA警告

報(bào)告114傷1死,中國企業(yè)的血糖儀遭FDA警告

健識局
2026-02-25 20:07:55
中國公民大阪街頭遇襲,現(xiàn)金被劫走!總領(lǐng)館要求日方盡快破案

中國公民大阪街頭遇襲,現(xiàn)金被劫走!總領(lǐng)館要求日方盡快破案

南方都市報(bào)
2026-02-26 11:28:11
廣州領(lǐng)跑開門紅!2026,千年商都如何跑出加速度?

廣州領(lǐng)跑開門紅!2026,千年商都如何跑出加速度?

智谷趨勢
2026-02-26 09:47:53
王健林預(yù)言成真!第3輪大漲來了?內(nèi)行人:2026年房價(jià)將超乎想象

王健林預(yù)言成真!第3輪大漲來了?內(nèi)行人:2026年房價(jià)將超乎想象

貓叔東山再起
2026-02-26 10:35:03
男子后備箱掛上4只雞鵝返程,高速被追尾,大鵝當(dāng)場逝世,當(dāng)事人:對方懵了,賠近400元家禽損失,不想浪費(fèi)父母心意,將鵝帶回家吃了

男子后備箱掛上4只雞鵝返程,高速被追尾,大鵝當(dāng)場逝世,當(dāng)事人:對方懵了,賠近400元家禽損失,不想浪費(fèi)父母心意,將鵝帶回家吃了

觀威海
2026-02-26 09:18:15
央媒親自下場!打人夫妻被正式批捕,真實(shí)身份曝光,勢力大也沒用

央媒親自下場!打人夫妻被正式批捕,真實(shí)身份曝光,勢力大也沒用

呂甒極限手工
2026-02-26 02:22:31
2026-02-26 14:36:49
知識分子 incentive-icons
知識分子
關(guān)注科學(xué)、人文、思想
592文章數(shù) 1037關(guān)注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

賴清德改口稱“大陸”被指釋出善意 國民黨發(fā)言人表態(tài)

頭條要聞

賴清德改口稱“大陸”被指釋出善意 國民黨發(fā)言人表態(tài)

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財(cái)經(jīng)要聞

短劇市場風(fēng)云突變!有人投百萬賠得精光

汽車要聞

第五代宏光MINIEV煥新 四門玩趣代步車來襲

態(tài)度原創(chuàng)

游戲
家居
數(shù)碼
旅游
軍事航空

PS港服三月會免來了!怪獵崛起 史萊姆牧場2等

家居要聞

歸隱于都市 慢享自由

數(shù)碼要聞

華碩靈耀14雙屏2026筆記本上市:Ultra X9 388H,14999元起

旅游要聞

水潤壽鄉(xiāng) 文旅煥新——眉山市彭山區(qū)擘畫現(xiàn)代化都市圈文旅融合新圖景

軍事要聞

美政府給新伊核協(xié)議設(shè)限內(nèi)容遭披露

無障礙瀏覽 進(jìn)入關(guān)懷版