国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

尋找AI界的麥克斯韋,誰來填補(bǔ)大模型的理論真空?| 萬字對談MIT人工智能傳奇人物Tomaso Poggio

0
分享至



對談嘉賓

Tomaso Poggio

麻省理工學(xué)院腦與認(rèn)知科學(xué)系講席教授,麥戈文腦科學(xué)研究所研究員,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)成員

Poggio教授是計(jì)算神經(jīng)科學(xué)領(lǐng)域巨匠,研究領(lǐng)域涵蓋視覺系統(tǒng)的生物物理和行為、人類和機(jī)器的視覺和學(xué)習(xí)的計(jì)算分析。他的研究極富開拓性,是被引用最多的計(jì)算神經(jīng)科學(xué)家之一。他的兩位前博士后 Demis Hassabis和Amnon Shashua 分別是 DeepMind 和 Mobileye 的創(chuàng)始人。


主持人

Paul Middlebrooks

卡內(nèi)基梅隆大學(xué)的特聘助理研究員

卡內(nèi)基梅隆大學(xué)的特聘助理研究員,同時(shí)是播客“Brain Inspired”的主持人。他主要研究運(yùn)動皮層和基底神經(jīng)節(jié)神經(jīng)群體活動如何在自由行為的小鼠中支持自然行為,致力于揭示神經(jīng)活動與復(fù)雜行為之間的關(guān)系。

目錄:

01 學(xué)習(xí):通向智能理論的真正入口

02 為什么淺層理論不夠?

03 為什么少參數(shù)意味著能泛化?

04 組合性是否存在于真實(shí)神經(jīng)系統(tǒng)?

05 流形還是組合?不同理論的解釋力與進(jìn)化視角

保羅:今天這位嘉賓的履歷實(shí)在太過豐富,我恐怕難以在幾句話中介紹清楚。他是托馬索·波焦(Tomaso Poggio)。至于他的頭銜,實(shí)在太多了。

他是麻省理工學(xué)院腦與認(rèn)知科學(xué)系的Eugene McDermott講席教授,麥戈文腦科學(xué)研究所研究員,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的成員。此外,他還分別是生物與計(jì)算學(xué)習(xí)中心以及腦、心智與機(jī)器中心兩個研究中心的負(fù)責(zé)人。

托馬索發(fā)表論文的年頭,比我的年紀(jì)還要大,而我也早已不再是初出茅廬的毛頭小子了。在谷歌學(xué)術(shù)上,他最早的一篇論文發(fā)表于1972年,刊登在Kybernetik上。論文題目是《時(shí)間記憶與視動反應(yīng)的全息特性》(Holographic Aspects of Temporal Memory and Optomotor Responses)。

簡而言之,他在這條路上已深耕多年。他究竟在探尋什么?答案是智能背后的理論基石。其中的關(guān)鍵詞在于“理論”,托馬索始終對智能背后的理論原則感興趣。為此,他將人工智能與大腦的運(yùn)作機(jī)制并置研究。

我們今天擁有非常出色的人工智能。這樣的系統(tǒng)已經(jīng)存在一段時(shí)間,從最初并不成熟,發(fā)展到如今性能驚人,并且仍在不斷進(jìn)步。但從根本上講,我們依然沒有看透它是如何運(yùn)作的。人工智能的早期發(fā)展當(dāng)然有理論基礎(chǔ)作為起點(diǎn)。但近年來這波洶涌的AI浪潮,本質(zhì)上是由工程實(shí)踐驅(qū)動的,在于構(gòu)建和擴(kuò)展系統(tǒng),而不是在深入理解其原理。

托馬索用一個歷史類比,來說明當(dāng)前人工智能領(lǐng)域工程與理論之間的關(guān)系。他認(rèn)為,我們現(xiàn)在的處境有點(diǎn)像當(dāng)年伏打與麥克斯韋之間的那段時(shí)期。當(dāng)年,亞歷山德羅·伏打(Alessandro Volta)發(fā)明第一塊電池之后,人類第一次獲得了持續(xù)穩(wěn)定的電源。隨之而來的是大量應(yīng)用的出現(xiàn),人們開始利用電,并逐漸將其工程化。但那時(shí),人們并不真正理解電的本質(zhì)。直到多年以后,詹姆斯·麥克斯韋(James Clerk Maxwell)提出電磁方程組,系統(tǒng)建立起電磁學(xué)理論,人類才真正理解電磁現(xiàn)象的規(guī)律。正是這套理論,使后來一系列技術(shù)得以發(fā)展,包括計(jì)算機(jī)以及現(xiàn)代人工智能。在托馬索看來,今天的人工智能,很可能正處在伏打與麥克斯韋之間的階段。

在那個時(shí)期,從工程突破到理論成熟,中間經(jīng)歷了很多年。當(dāng)然,當(dāng)時(shí)的信息傳播遠(yuǎn)比今天緩慢。正如托馬索稍后提到的,那時(shí)消息主要靠馬匹傳遞。但即便如此,從電池被發(fā)明,到相關(guān)應(yīng)用逐步出現(xiàn),再到人們真正理解電為何以及如何運(yùn)作,這之間依然相隔多年。他認(rèn)為,我們今天正處在類似的階段。因此,他多年來孜孜不倦地鉆研那些理論原則,試圖以此照亮我們對智能運(yùn)作機(jī)制的理解之路。

今天,我們會討論他近年來一直在研究的一些理論原則。在他看來,如果想構(gòu)建一個高效、可計(jì)算的函數(shù)系統(tǒng),并讓這些函數(shù)組合出一個能支撐智能行為的泛化計(jì)算體系,那么這些原則在理論上是非常重要的。

如果要給這些原則一個名稱,其中一個則是“稀疏組合性”(sparse compositionality)。它的含義是,如果你希望高效地計(jì)算出某種智能行為,那么這個系統(tǒng)需要由許多相對簡單的函數(shù)構(gòu)成。這里的“簡單”,指的是每一個函數(shù)本身只依賴于少量變量。當(dāng)系統(tǒng)具備這樣的結(jié)構(gòu),由多個低維函數(shù)組合而成時(shí),從理論上說,它更有可能實(shí)現(xiàn)泛化。

這也解釋了為什么深度神經(jīng)網(wǎng)絡(luò)需要“深度”才能發(fā)揮作用。它依賴于大量簡單函數(shù)的重復(fù)與組合。這種結(jié)構(gòu)聽起來有些像大腦的新皮層。我們在對話中也討論了,這些原則是否只適用于人工智能和深度學(xué)習(xí),還是同樣適用于我們的大腦。此外,對話中我們還談到了他是如何發(fā)展出這些理論,以及他為何選擇從理論角度理解智能的。

在這次對話中,我尤其享受于托馬索分享他數(shù)十年來與不同領(lǐng)域杰出人物合作、研究有趣問題的經(jīng)歷,而且他至今仍在繼續(xù)這樣的工作。我們這次對談,只談到了托馬索多年研究中的一小部分,從而了解到了他工作的一個側(cè)面。下面,讓我們正式開始。


學(xué)習(xí):通向智能理論的真正入口

保羅:大多數(shù)科學(xué)家在科研生涯中都會經(jīng)歷樂觀與悲觀的起伏,尤其是在早期階段。也許那正是關(guān)鍵所在,我也說不太準(zhǔn)。這種起伏既體現(xiàn)在對自己研究進(jìn)展的判斷上,也體現(xiàn)在對整個領(lǐng)域前景的看法上。

舉個例子,當(dāng)年你和大衛(wèi)·馬爾(David Marr)提出分析層級框架,后來又把“學(xué)習(xí)”加入為第四個層級。我想,當(dāng)時(shí)你應(yīng)該是樂觀的,覺得這會真正開啟一個新的維度,也可能會加快研究進(jìn)展。如果大家意識到,學(xué)習(xí)才是需要關(guān)注的重點(diǎn),或許整個領(lǐng)域都會因此受益。而且,從你的研究軌跡和做事方式來看,,你似乎是一個無論境遇如何,都能穩(wěn)步向前的人。你是個例外嗎?還是說,在這方面你也和常人無異,同樣會經(jīng)歷這種起伏?

托馬索:我也會經(jīng)歷那種起伏。有些起伏很大,可能持續(xù)幾個月,甚至幾年。也有小的,日常的波動,就像是今天樂觀,明天又悲觀的表現(xiàn)?!拔夷茏C明這個定理,我已經(jīng)證明了。”然后又發(fā)現(xiàn),“不對,我錯了?!敝T如此類。

至于把“學(xué)習(xí)”作為第四個層級加入框架,那是后來回顧時(shí)的說法。其實(shí)在很多年之前,我已經(jīng)意識到了學(xué)習(xí)的重要性。

我第一篇關(guān)于機(jī)器學(xué)習(xí)的論文,大概是在 1981年左右,討論的是非線性學(xué)習(xí)。不過當(dāng)時(shí)我決定先去研究其他問題,比如人類視覺、立體視覺,我們?nèi)绾慰吹饺S世界。在真正回到學(xué)習(xí)這個主題之前,大約花了十年時(shí)間做這些研究??梢哉f,關(guān)于學(xué)習(xí)的研究我是晚了一些才重新展開的。

保羅:是因?yàn)閷W(xué)習(xí)這個問題更難,還是因?yàn)槟切┢渌膯栴}更有吸引力呢?

托馬索:主要是那些問題更容易下手,而學(xué)習(xí)確實(shí)更具挑戰(zhàn)性、更難一些。而且我一直有一種偏好,也許是錯誤的偏好。回頭看,我總希望在做應(yīng)用或演示之前,先在理論層面理解一種新方法。這更多是一種研究取向的差異,有些人傾向于先嘗試,如果有效,再去發(fā)展理論,或者干脆不發(fā)展理論。比如杰弗里·辛頓(Geoffrey Hinton)就更偏向那種做法,而我恰好相反。

有時(shí)候,這種理論優(yōu)先的做法可能限制了我原本可以更早嘗試的事情,但沒辦法,這就是我的思考方式。直到1990年,我建立起一個機(jī)器學(xué)習(xí)的理論框架之后,才開始把學(xué)習(xí)方法應(yīng)用到各種問題上,比如計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)、基因芯片中的癌癥檢測、文本分類、自動駕駛,幾乎涵蓋了今天人們?nèi)栽谘芯康脑S多方向。當(dāng)時(shí)使用的主要是淺層網(wǎng)絡(luò),比如徑向基函數(shù)網(wǎng)絡(luò)和核方法,這些90年代的技術(shù)。

保羅:那時(shí)候計(jì)算資源有限,網(wǎng)絡(luò)規(guī)模也更小,所以實(shí)現(xiàn)起來更困難。但從某種意義上說,那些方法反而更有理論基礎(chǔ),是嗎?

托馬索:是的。1990年,我和一位出色的合作者費(fèi)德里科·吉羅西(Federico Girosi)一起寫了一篇論文,討論了這種淺層網(wǎng)絡(luò)的理論。那實(shí)際上是一套關(guān)于“核機(jī)器”(kernel machines)的理論,只是當(dāng)時(shí)這個術(shù)語還沒有被正式使用。在有了這套理論之后,我才開始把學(xué)習(xí)方法應(yīng)用到遺傳學(xué)、視覺、圖形學(xué)等問題上。

保羅:也就是說,在有了理論之后,你才覺得可以自由地去做那些應(yīng)用。

托馬索:是的。

保羅:我明白,這是你的風(fēng)格。

托馬索:沒錯。從某種意義上說,我對此有些遺憾。也許后來我學(xué)到的一點(diǎn)教訓(xùn),和伏打的故事有關(guān)。

這只是一個比喻,不必過于字面理解。正如那句話所說,歷史不會簡單重復(fù),但有時(shí)會以相似的方式出現(xiàn)。伏打與電學(xué)的這個類比,本身就值得思考。很多人或許沒有意識到,在1800年之前,也就是兩百多年前,當(dāng)時(shí)正值拿破侖時(shí)代,信息傳播的速度基本上就是馬匹的速度。

在那之前,人類歷史上信息傳播從未比馬更快。有一些有趣的歷史書信,記錄了人們得知君士坦丁堡陷落時(shí)的反應(yīng)。這在當(dāng)時(shí)的基督教世界是一件重要事件,大約發(fā)生在1453年。人們在巴黎、維也納之間互相通信。在巴黎,有人寫信問:“你聽說了嗎?君士坦丁堡被土耳其人攻陷了?!痹隈R德里,也有類似的書信。那時(shí),我們甚至可以追蹤信息傳播所花費(fèi)的時(shí)間:傳到維也納用了三周,到巴黎用了四周,到馬德里用了五周。花費(fèi)的時(shí)間,差不多就是一匹馬連續(xù)奔跑所需的時(shí)間。

保羅:前提是天氣還得不錯。

托馬索:是的,前提是天氣好。1800年,伏打的時(shí)代,也是拿破侖的時(shí)代。在那之前,人們對電的認(rèn)識基本上只停留在閃電這樣的自然現(xiàn)象上。直到伏打發(fā)明了第一種能夠持續(xù)產(chǎn)生電流的裝置,科學(xué)家第一次可以在實(shí)驗(yàn)室里系統(tǒng)地研究電現(xiàn)象。隨之而來的是一連串發(fā)現(xiàn),幾乎可以說是一場科學(xué)的“雪崩”。接下來的十五到二十年里,電化學(xué)迅速發(fā)展。隨后,人們陸續(xù)提出了電學(xué)的一系列基本定律,比如歐姆定律、安培的電磁理論,法拉第發(fā)明了發(fā)電機(jī)和電動機(jī),厄斯特揭示了電與磁之間的聯(lián)系。所有這些成果,最終在1864年達(dá)到高潮。那一年,麥克斯韋提出了著名的四個電磁方程,系統(tǒng)地建立起電磁學(xué)理論。

保羅:是的,他建立了一整套理論。

托馬索:這可是花了整整六十年。

保羅:而且還是按“馬車時(shí)代”的速度算的。

托馬索:是的,不過那依然是很長的一段時(shí)間。在那六十年里,在麥克斯韋出現(xiàn)之前,人們其實(shí)并不知道電究竟是什么。但這并沒有妨礙電動機(jī)、發(fā)電機(jī)等重要應(yīng)用的發(fā)展。這正是我想說的啟示。在人工智能領(lǐng)域,我們今天很可能也正處在伏打與麥克斯韋之間的某個階段。只是,我們究竟走到哪一步了,很難判斷。

保羅:是的,我們現(xiàn)在可比馬跑得快多了。我聽你講過這個類比。不過我也聽你在別的場合提到過另一種可能:也許人工智能并不需要自己的“麥克斯韋”,也許并不一定需要一套統(tǒng)一理論??赡阕约河衷谂ν苿永碚摰陌l(fā)展。這兩種說法怎么協(xié)調(diào)?我很難想象你真的相信“不需要理論”。你這么說,是不是在承認(rèn)某種你自己都不信的可能性?

托馬索:是的。某種程度上,我確實(shí)承認(rèn)了一種自己并不真正相信的可能性。不過,我還是希望我們需要理論,而且最終也會有理論。至于它會有多完整,我不知道。但我?guī)缀蹩梢钥隙?,它不會像麥克斯韋那樣,用四個方程就統(tǒng)一一切。它更可能是一組關(guān)于“智能的基本原則”。

就像分子生物學(xué)那樣。我們并沒有幾條簡單的方程來解釋生命,但我們有一些根本性的原則。比如DNA的雙螺旋結(jié)構(gòu)如何復(fù)制和傳遞生物信息。這本身就是一個極其優(yōu)雅的原理。我想,關(guān)于智能的理論可能也會類似。它們是基礎(chǔ)性原則,但未必會像電磁學(xué)那樣,形成一套高度封閉、完整的數(shù)學(xué)體系。這是我的期待。當(dāng)然,也始終存在另一種可能:也許機(jī)器學(xué)習(xí)系統(tǒng)、大型語言模型,或者它們的繼任者,會自己發(fā)展出某種理論,而我們卻未必能夠理解它。

保羅:你剛才提到“原則”,這一點(diǎn)很有意思。我最近和一位神經(jīng)生理學(xué)家亞歷克斯·邁耶(Alex Meyer)聊過。他最近對“整合信息理論”(Integrated Information Theory)非常著迷,認(rèn)為它可能解釋意識。他之所以著迷,是因?yàn)檫@套理論有一整套嚴(yán)格的數(shù)學(xué)形式。它似乎讓人看到一種可能,也許我們可以為意識建立數(shù)學(xué)定律。而這種形式化的表達(dá),往往會讓科學(xué)家特別有滿足感。

當(dāng)然,進(jìn)化論、分子生物學(xué)、DNA雙螺旋,這些都是重要的原則,但它們不像自然定律那樣有精確的數(shù)學(xué)表達(dá)。某種程度上,我們這些科學(xué)家似乎只有在把現(xiàn)象寫成數(shù)學(xué)關(guān)系時(shí),才真正感到安心。我本來想說“簡化”,但也許更準(zhǔn)確的詞是“形式化”。那么,你在研究學(xué)習(xí)理論和機(jī)器學(xué)習(xí)理論時(shí),追求的也是這種形式化的原則嗎?

托馬索:我想是的。我追求的確實(shí)是原則,而且是具有數(shù)學(xué)結(jié)構(gòu)的原則。

保羅:我們接下來要談的“稀疏性”和“組合性”,本質(zhì)上也是原則。但要對它們作出具體而嚴(yán)謹(jǐn)?shù)年愂?,就必須通過定理來證明。而這正是你一直在做的事情。

那這和“形式化的數(shù)學(xué)定律”有什么區(qū)別?它們算是原則,還是定律?

托馬索:像“稀疏組合性”(sparse compositionality)這樣的原則,是一個很有意思的例子,我們稍后可以詳細(xì)討論。我們可以證明,如果一個函數(shù),或者完成某項(xiàng)任務(wù)的能力,是由圖靈機(jī)在非指數(shù)時(shí)間內(nèi)可計(jì)算的,那么它必然具有組合稀疏的結(jié)構(gòu)。這是可以嚴(yán)格證明的。這意味著,任何運(yùn)行在計(jì)算機(jī)上的系統(tǒng),比如ChatGPT,都必然是組合稀疏的,因?yàn)樗鼈儽举|(zhì)上是在圖靈機(jī)上實(shí)現(xiàn)的。但這并不意味著,人腦所做的一切也都是組合稀疏的。因?yàn)槲覀儾⒉恢?,大腦的全部能力是否都可以被機(jī)器完全復(fù)現(xiàn)。大多數(shù)人相信可以,不過——

保羅:我明白,這是你的風(fēng)格。你自己呢?

托馬索:我并不完全相信。這個問題我們可以稍后再談。這里還有一個關(guān)鍵點(diǎn)。所謂“可計(jì)算”,并不是指在理論上可以算出來,而是指“高效可計(jì)算”。也就是說,它必須能夠在合理時(shí)間內(nèi)算完,而不是說要算上個宇宙年齡那么久,對吧?

所謂“合理時(shí)間”。換個說法,有些物理過程,比如混沌系統(tǒng),例如天氣的形成和演化,很可能并不是“高效圖靈可計(jì)算”的。原因在于,如果你想在未來保持一個固定的預(yù)測窗口,也就是說,希望預(yù)測的時(shí)間范圍不隨著時(shí)間推進(jìn)而縮短,那么你就必須以指數(shù)級的方式提高對初始條件的測量精度。從理論上講,它當(dāng)然是可計(jì)算的。但它并不是“高效圖靈可計(jì)算”的。這里存在一個所謂的“可預(yù)測窗口”。順便說一句,這也許和意識的問題有關(guān)。也許意識本身并不是圖靈可計(jì)算的,就像我們無法以任意精度預(yù)測三天后的天氣一樣。

保羅:我?guī)缀鯚o法想象意識是圖靈可計(jì)算的。亞歷克斯·邁耶有一個觀點(diǎn)。他希望在某種數(shù)學(xué)結(jié)構(gòu)與“現(xiàn)象意識”的屬性之間建立一種同構(gòu)關(guān)系,比如主觀體驗(yàn),也就是所謂的“感質(zhì)”(qualia)。他刻意把意識和認(rèn)知區(qū)分開來。因?yàn)檎J(rèn)知可以被理解為函數(shù)。人工智能做的事情、神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的計(jì)算,本質(zhì)上都是函數(shù)映射。但“同構(gòu)”與“函數(shù)”是兩種完全不同的概念。這之間有很大的差別。

托馬索:是的。在我看來,你有一類函數(shù),它們本質(zhì)上是可組合的,也能被計(jì)算機(jī)計(jì)算;而另一類函數(shù)則太復(fù)雜了,沒辦法在合理的時(shí)間內(nèi)算出來。

保羅:學(xué)習(xí)本身也是一種函數(shù)。自從你把“學(xué)習(xí)”作為第四個分析層級提出之后,它是不是就成了你長期關(guān)注的核心問題?你幾乎一直在研究它。我真正想問的是,這些年你對“學(xué)習(xí)”的看法有沒有發(fā)生變化?有沒有哪些你過去深信不疑、現(xiàn)在卻不再認(rèn)同的觀點(diǎn)?還是說,你的思路一直都是穩(wěn)步推進(jìn),并沒有大的轉(zhuǎn)折?

托馬索:我一直認(rèn)為,學(xué)習(xí)是真正通向智能的大門。改變的,其實(shí)不是我對學(xué)習(xí)重要性的看法,而是計(jì)算機(jī)科學(xué)界對它的態(tài)度。很長一段時(shí)間,我一直在對計(jì)算機(jī)系的同事們說,學(xué)習(xí)至關(guān)重要。但大概是在2010年左右,他們才開始認(rèn)真聽我說,至少在麻省理工學(xué)院是這樣。

保羅:他們?yōu)槭裁床辉敢饨邮???dāng)時(shí)的癥結(jié)在哪里?

托馬索:這個問題很有意思。其實(shí),如果從歷史上看,這種情況是有有跡可循的。自1950年代左右計(jì)算機(jī)科學(xué)形成以來,這個領(lǐng)域的基本研究范式一直是“編程”。

保羅:算法,以算法為核心的編程。

托馬索:對。你告訴計(jì)算機(jī)該做什么。哪怕任務(wù)再復(fù)雜,本質(zhì)上也是由人來寫程序、給出明確的指令。研究者的職責(zé),就是寫出一個足夠聰明的程序。這種模式大概一直持續(xù)到2000 年前后,甚至2010年左右。但如果看看今天的計(jì)算機(jī)科學(xué),它已經(jīng)完全變了。幾乎所有方向都圍繞機(jī)器學(xué)習(xí)展開。過去,編譯器、程序語言、機(jī)器人、計(jì)算機(jī)視覺、自然語言處理,這些都是彼此獨(dú)立的領(lǐng)域,各自為政。現(xiàn)在幾乎都被機(jī)器學(xué)習(xí)統(tǒng)一了。早在1990年左右,我就說過,機(jī)器學(xué)習(xí)會成為計(jì)算機(jī)科學(xué)的“通用語言”。只是,這個轉(zhuǎn)變確實(shí)花了很長時(shí)間。

我記得在1980年代,我們在麻省理工學(xué)院已在使用電子郵件。那時(shí)我還擔(dān)任一家很有意思的小公司的顧問,這家公司叫“思維機(jī)器公司”(Thinking Machines)。他們開發(fā)了一種叫“連接機(jī)器”(Connection Machine)的超級計(jì)算機(jī),內(nèi)部有一百萬個非常簡單的處理單元。當(dāng)時(shí)我是他們的企業(yè)研究員。另一位企業(yè)研究員是理查德·費(fèi)曼(Richard Feynman)。

保羅:你的老朋友嗎?

托馬索:對,還有史蒂芬·沃爾夫勒姆(Stephen Wolfram)也是。

當(dāng)時(shí)公司里還有幾位同樣很有意思的人。那時(shí)候,在我看來,電子郵件顯然是未來的發(fā)展方向。但人們又過了整整15年才真正停用傳真機(jī)。

保羅:上個月我還被迫發(fā)了次傳真,我完全搞不懂為什么還要用這玩意兒。

托馬索:當(dāng)時(shí)我基本都放棄電子郵件會普及的希望了,結(jié)果它當(dāng)然還是來了。

保羅:到那時(shí),你可能已經(jīng)開始用Slack*之類的工具了吧。神經(jīng)網(wǎng)絡(luò)其實(shí)一直都在。PDP學(xué)派,也就是“并行分布式處理”那一批研究者,多年來一直在強(qiáng)調(diào)學(xué)習(xí)的重要性。問題在于多層網(wǎng)絡(luò)的訓(xùn)練,尤其是反向傳播算法(backpropagation),曾經(jīng)被認(rèn)為太慢、效率不高。當(dāng)然,情況在2012年發(fā)生了改變。那一年,在ImageNet數(shù)據(jù)集上的突破顯著降低了錯誤率。所以,并不是神經(jīng)網(wǎng)絡(luò)不存在,而是它們真正發(fā)揮威力,經(jīng)歷了一個漫長的過程。

*譯者注:Slack是一種企業(yè)內(nèi)部即時(shí)通訊與協(xié)作工具,在科技公司和研究團(tuán)隊(duì)中被廣泛使用。

托馬索:神經(jīng)網(wǎng)絡(luò)確實(shí)一直存在。但我當(dāng)時(shí)是個懷疑者。從某種意義上說,我錯了。

保羅:錯在哪兒?

托馬索在神經(jīng)網(wǎng)絡(luò)的問題上。我當(dāng)時(shí)主要使用的是淺層神經(jīng)網(wǎng)絡(luò),而不是深度網(wǎng)絡(luò)。因?yàn)樵?008年,甚至2010年之前,淺層網(wǎng)絡(luò)的表現(xiàn)其實(shí)并不比深度網(wǎng)絡(luò)差。這牽涉到另一個話題,就是技術(shù)如何影響思想。我們常常以為,是理論和算法推動了技術(shù)的發(fā)展。但很多時(shí)候,恰恰是當(dāng)下的技術(shù)條件決定了我們能做什么。什么是可行的,什么是容易實(shí)現(xiàn)的,什么又太困難。這些都會在很大程度上影響我們提出什么樣的理論,以及采用什么樣的算法。

保羅:是的,楊立昆也曾強(qiáng)調(diào)過這一點(diǎn)。歷史上這樣的例子太多了。

托馬索:沒錯。我記得大約在1999年左右,我坐過一輛梅賽德斯在德國斯圖加特測試的自動駕駛汽車。

保羅:真的假的?

托馬索:是的。那輛車當(dāng)時(shí)可以在斯圖加特市中心狹窄的街道上自動行駛。當(dāng)然,駕駛座上還是有一位司機(jī),雙手幾乎貼著方向盤,以防萬一。后備箱里塞滿了計(jì)算機(jī)設(shè)備。我記得,當(dāng)時(shí)有一場為期三天的自動駕駛研討會,只邀請相關(guān)人員參加。最后半天出席的是律師。研討會結(jié)束時(shí),戴姆勒·奔馳的管理層就拍板了:“不搞自動駕駛了,砍掉這個項(xiàng)目?!?/p>

保羅:我剛想說兩件事。第一,我敢打賭,那輛車的計(jì)算系統(tǒng)里肯定沒用上福島邦彥(Kunihiko Fukushima)的“新認(rèn)知機(jī)”模型。

托馬索:怎么會?不,其實(shí)用到了,因?yàn)槲覀儺?dāng)時(shí)做的基本上就是類似的東西。比如,我們訓(xùn)練了一個行人檢測系統(tǒng)。當(dāng)時(shí)只用了大約200個樣本。以今天的標(biāo)準(zhǔn)來看,這幾乎難以想象。從科學(xué)研究的角度講,那個系統(tǒng)表現(xiàn)得相當(dāng)不錯。但從實(shí)際應(yīng)用的角度看,它每十秒鐘大約會出現(xiàn)三次錯誤。雖然按幀數(shù)計(jì)算,錯誤率其實(shí)并不算高,遠(yuǎn)遠(yuǎn)不到每一幀都出錯。但在真實(shí)駕駛環(huán)境中,這樣的錯誤頻率顯然是不可接受的。無論如何,它都還談不上真正可用。

保羅:托馬索,交個底吧,那天你們到底“撞”了多少人?

托馬索:沒有撞到真正的人啦。

保羅:我還以為你會說,最后他們承諾“五年內(nèi)就能實(shí)現(xiàn)自動駕駛”,因?yàn)榭萍既Φ某兄Z永遠(yuǎn)都是“再過五年”。結(jié)果你卻說他們直接說“不搞了”,看來律師確實(shí)起了作用。

托馬索:總之,戴姆勒公司內(nèi)部終止了這個項(xiàng)目。其實(shí)挺可惜的,當(dāng)時(shí)他們確實(shí)走在最前沿。只是時(shí)機(jī)太早了。

保羅:你剛才說那輛車,是在1999年左右?

托馬索:差不多吧。也許是1997年左右。

保羅:我讀過你的自傳。當(dāng)然,在那之前我也已經(jīng)了解了你很多研究工作。你在書里提到,自己在1980年代初期就開始做目標(biāo)識別的研究,也就是在當(dāng)時(shí)的場景里,檢測行人或物體。這顯然和神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)問題密切相關(guān)。你當(dāng)時(shí)曾懷疑,休伯爾(David Hubel)和維澤爾(Torsten Wiesel)提出的“簡單細(xì)胞”和“復(fù)雜細(xì)胞”模型,是否真的能夠通過層級組合構(gòu)成對物體的表征。后來你承認(rèn)自己錯了,并發(fā)展出HMAX模型,也就是基于層級結(jié)構(gòu)的目標(biāo)識別系統(tǒng)。那段時(shí)間,你是怎么理解“學(xué)習(xí)”這個問題的?

托馬索:在那個時(shí)候,我們所謂的“學(xué)習(xí)”,其實(shí)只發(fā)生在最后一層。前面的層級結(jié)構(gòu)負(fù)責(zé)做特征處理,但這些特征并不是通過復(fù)雜的學(xué)習(xí)得到的,而是用一種很簡單的方式構(gòu)建出來。比如,從圖像里隨機(jī)取一些局部片段作為特征。真正的學(xué)習(xí),主要是訓(xùn)練分類器的權(quán)重,也就是網(wǎng)絡(luò)最后一層的參數(shù)。

保羅:明白了。

托馬索:原因在于,我當(dāng)時(shí)真的不相信“反向傳播”在生物學(xué)上是合理的。

保羅:你這個懷疑是有道理的。

托馬索:從某種意義上說,我當(dāng)時(shí)是對的。但在機(jī)器學(xué)習(xí)的實(shí)踐層面,我又是錯的。我當(dāng)時(shí)是被這個“生物學(xué)約束”給絆住了?,F(xiàn)在,我們開始有一些新的想法。從神經(jīng)科學(xué)的角度看,這些模型似乎更合理。當(dāng)然,我不知道它們是不是對的,這還需要實(shí)驗(yàn)來檢驗(yàn)。但至少,是有可能的。

它未必是嚴(yán)格意義上的反向傳播。更像是一種更一般形式的梯度下降。而這種機(jī)制,也許可以通過神經(jīng)元連接的自組織方式自然實(shí)現(xiàn)。聽起來有點(diǎn)神奇,但未必真的那么神奇。我覺得,這是神經(jīng)科學(xué)里一個非常關(guān)鍵的問題。因?yàn)槿绻覀冋娴哪茉诖竽X里找到某種與反向傳播等價(jià)的機(jī)制,那神經(jīng)科學(xué)和機(jī)器學(xué)習(xí)之間就會建立起一種非常深的聯(lián)系。到那時(shí),我們就可以看著具體的神經(jīng)回路、突觸結(jié)構(gòu),說:“哦,這里正在發(fā)生這樣的計(jì)算?!?/p>

保羅:這算是個題外話,我稍微跳一下話題。你剛才提到自己在做一些自組織、具備生物可行性的可塑性網(wǎng)絡(luò)模型。其實(shí)這些年也有不少研究在嘗試提出“生物學(xué)版本”的學(xué)習(xí)機(jī)制,希望在功能上復(fù)現(xiàn)反向傳播。已經(jīng)有好幾種概念驗(yàn)證方案了,只是它們在多大程度上真正模擬了反向傳播,效果各有不同。

我最近讀了你的一篇論文,里面幾乎全是深度學(xué)習(xí)理論的術(shù)語。我心里在想,“天哪,我也算懂一點(diǎn),比如流形之類的概念,可一旦進(jìn)入那些技術(shù)細(xì)節(jié),就有點(diǎn)跟不上了?!蹦泔@然已經(jīng)完全沉浸在那個世界里。所以我很好奇,你平時(shí)思考問題時(shí),更多是在機(jī)器學(xué)習(xí)的框架里思考,還是在生物學(xué)習(xí)的框架里思考?如果這兩者可以區(qū)分的話,你的大腦大概是怎么分配的?

托馬索:很長一段時(shí)間里,大概是五五開。但在過去五年左右,我可能稍微更偏向人工神經(jīng)網(wǎng)絡(luò)這一側(cè)。

保羅:是因?yàn)槟抢锏臄?shù)據(jù)更充足,更方便做驗(yàn)證嗎?

托馬索:也不完全是,不單純因?yàn)閿?shù)據(jù)。更主要的原因是,我一直被一個問題困擾:我們到底需不需要一套真正的理論?這兩三年來,我越來越覺得,自己可能抓到了一些原則。當(dāng)然,我并不認(rèn)為它們是最終答案,更談不上是最關(guān)鍵的原則。但至少,它們看起來像是理解人工機(jī)器學(xué)習(xí)系統(tǒng)時(shí)繞不開的一部分。


為什么淺層理論不夠?

深度與組合結(jié)構(gòu)的必要性

保羅:那我們現(xiàn)在就來談?wù)勥@些吧。“稀疏組合性”是你目前關(guān)注的核心原則嗎?

托馬索:它是其中之一。對我來說,它確實(shí)解決了一個長期困擾我的問題。正如我之前提到的,我總是需要對正在發(fā)生的事情至少有一個理論上的輪廓性的理解。大約在2003年左右,我和一位非常著名的數(shù)學(xué)家史蒂芬·斯梅爾(Stephen Smale)一起,為美國數(shù)學(xué)學(xué)會寫了一篇關(guān)于機(jī)器學(xué)習(xí)的綜述文章。在那篇文章中,我們比較系統(tǒng)、也相當(dāng)完整地梳理了淺層網(wǎng)絡(luò)、核機(jī)器等模型的理論基礎(chǔ)。

當(dāng)時(shí)在討論部分,我專門寫了幾段文字,談到一個讓我始終想不通的難題。按照當(dāng)時(shí)的理論框架,淺層網(wǎng)絡(luò)已經(jīng)足夠表達(dá)我們關(guān)心的函數(shù),并不需要多層深度結(jié)構(gòu)??墒菑纳韺W(xué)角度看,例如視覺皮層的結(jié)構(gòu),卻明顯是多層級組織,而且這些層級似乎具有功能上的重要性。于是問題就出現(xiàn)了。既然淺層理論已經(jīng)足夠,為什么大腦卻是分層的。深度到底有什么必要性。這個問題讓我卡了很久。在真正愿意去接受并應(yīng)用深度網(wǎng)絡(luò)之前,我始終沒有想明白這一點(diǎn)。后來我逐漸意識到,“稀疏組合性”很可能正是這個謎題的答案,同時(shí)也解釋了其他類似的問題。

保羅:我可以想象兩種路徑。一種是,你先訓(xùn)練深度網(wǎng)絡(luò),然后去觀察它們的內(nèi)部表征,從這些表征中總結(jié)出某些結(jié)構(gòu)性的規(guī)律。另一種是,你從一個更偏理論、更強(qiáng)調(diào)原則的角度出發(fā),先思考哪些結(jié)構(gòu)特征在原理上應(yīng)該是重要的。你的想法是怎么形成的?

托馬索:更接近第二種方式。這個想法最初其實(shí)是為了回答另一個相關(guān)的問題,那就是,為什么卷積神經(jīng)網(wǎng)絡(luò)似乎明顯優(yōu)于全連接網(wǎng)絡(luò)。在卷積網(wǎng)絡(luò)中,就像視覺皮層一樣,每個神經(jīng)單元只接收一小部分輸入,而不是連接到所有輸入。舉個簡單的例子。假設(shè)你有大量感光受體,也就是視網(wǎng)膜上的光感受器。第一層中的每一個單元,只會“看到”其中一個很小的局部區(qū)域,而不是整個輸入圖像。

保羅:也就是一個小的局部區(qū)域。

托馬索:對,就是局部區(qū)域。于是我開始思考這樣一個問題。假設(shè)我們有一個多變量函數(shù)。為了簡單起見,我們設(shè)它有八個輸入變量,記作X1、X2、一直到X8?,F(xiàn)在再設(shè)想,這個函數(shù)并不是一個“整體式”的函數(shù),而是具有某種層級結(jié)構(gòu)。也就是說,它是“函數(shù)的函數(shù)的函數(shù)”。例如,我們先定義一個關(guān)于X1和X2的函數(shù)。再定義另一個關(guān)于X3和X4的函數(shù)。接著,再定義一個函數(shù),把前面兩個函數(shù)的輸出作為輸入。依此類推。從結(jié)構(gòu)上看,它就像一棵二叉樹。最底層是八個輸入節(jié)點(diǎn),而每一個上層節(jié)點(diǎn),都是由兩個變量,或者兩個子函數(shù)的輸出,組合而成。

這個結(jié)構(gòu),可以看作是卷積神經(jīng)網(wǎng)絡(luò)的一種“玩具模型”。這里卷積本身并不是關(guān)鍵。所謂卷積,就是權(quán)重在平移下保持不變。但真正重要的,是這種“局部組合”的結(jié)構(gòu)。如果我們考慮一個普通的八變量函數(shù),在一般情況下,就會遇到所謂的“維度災(zāi)難”(curse of dimensionality)。換句話說,為了逼近這樣一個函數(shù),你所需要的參數(shù)數(shù)量,往往會隨著變量數(shù)量呈指數(shù)級增長。而指數(shù)級增長,在計(jì)算上是災(zāi)難性的。

保羅:如果這些變量彼此獨(dú)立,沒有高度相關(guān)性,那就是最糟糕的情況。

托馬索:沒錯。函數(shù)的平滑性在某種程度上可以緩解這個問題,但根本的困難還是會出現(xiàn)。舉個例子,如果我們有一個包含一千個變量的函數(shù)(其實(shí)這并不算多),一張32×32的小圖像就大約有一千個像素?,F(xiàn)在設(shè)想,我們要逼近一個關(guān)于這1000個像素的函數(shù),并允許大約10%的逼近誤差。在一般情況下,你可能需要大約101000個參數(shù)。這是一個極其巨大的數(shù)字。作為對比,宇宙中質(zhì)子的總數(shù)大約是1080。

保羅:我就知道你會用電子或者質(zhì)子的數(shù)量來做類比。一旦參數(shù)數(shù)量超過宇宙中質(zhì)子的總數(shù),那肯定不是個好兆頭。

托馬索:但如果這個函數(shù)具有我剛才說的那種結(jié)構(gòu),也就是“函數(shù)的函數(shù)”的層級結(jié)構(gòu),情況就完全不同。我們最初稱之為“層級局部性”,現(xiàn)在更準(zhǔn)確的術(shù)語是“稀疏”。所謂“組合稀疏”,是指整個函數(shù)是由多個子函數(shù)組合而成,而每一個子函數(shù)只依賴于少量變量。

保羅:這里的“稀疏”是一個精確定義的概念嗎?還是只是一個方向性的說法?比如,稀疏是不是意味著變量少于三個?還是說只是相對而言比較少?

托馬索:它首先是一個方向性的概念。不過考慮到指數(shù)級復(fù)雜度帶來的后果,我會給出一個數(shù)量級上的判斷。比如在二值變量的情況下,“稀疏”大致意味著每個子函數(shù)所涉及的變量數(shù)量少于40個。

保羅:明白了。

托馬索:如果是非二值變量,那么這個數(shù)量級大概在14個左右。

保羅:那這顯然是非常稀疏了。

托馬索:是的。

保羅:那么,“稀疏”是一方面。你剛才說“函數(shù)的函數(shù)”,那既是“組合”的含義,也是“層級”的含義。你能區(qū)分一下“層級性”和“組合性”嗎?

托馬索:嚴(yán)格來說,兩者并沒有實(shí)質(zhì)差別。我認(rèn)為它們只是不同的說法。我更喜歡“組合”這個詞,因?yàn)槲覀冇懻摰氖呛瘮?shù)的組合,也就是函數(shù)的函數(shù)的函數(shù)。這個概念在很多領(lǐng)域都會出現(xiàn),比如語言學(xué)中的“組合性”。意思是,我們可以用簡單的基本單元,構(gòu)建出更大的結(jié)構(gòu)、更豐富的意義。諾姆·喬姆斯基強(qiáng)調(diào)過這一點(diǎn)。赫爾曼·馮·亥姆霍茲(也曾指出,語言的力量在于能夠用有限的簡單元素生成無限復(fù)雜的表達(dá)。但更有意思的是,這種能力并不只屬于語言。它實(shí)際上是所有能夠被高效計(jì)算的函數(shù)所共有的一個性質(zhì)。

保羅:也就是說,這是必然的。

托馬索:是的,必然如此。

保羅:那么,這里的瓶頸究竟在哪里?關(guān)鍵點(diǎn)是什么?關(guān)鍵在于函數(shù)本身嗎?如果從進(jìn)化的角度來想,進(jìn)化是如何“找到”那些能夠在這種稀疏組合結(jié)構(gòu)中高效協(xié)作的函數(shù)的?聽起來這像是一個非常精細(xì)、甚至有些脆弱的系統(tǒng),但我們知道大腦其實(shí)是高度穩(wěn)健的。是否問題的關(guān)鍵在于,你必須選對那些函數(shù)?而且無論如何,這些函數(shù)仍然需要通過學(xué)習(xí)獲得。

托馬索:這個問題非常有意思。我不確定這算是一種沖突,還是說是一條分界線,但它確實(shí)揭示了經(jīng)典數(shù)學(xué)和計(jì)算機(jī)科學(xué)之間的一種差異。在經(jīng)典數(shù)學(xué)中,我們通常是先定義一個函數(shù)空間。這個空間具有某些性質(zhì),比如不同形式的平滑性,或者滿足若干階導(dǎo)數(shù)存在等條件。函數(shù)是在這樣的抽象空間里被研究的。而在計(jì)算機(jī)科學(xué)中,思路完全不同。計(jì)算機(jī)科學(xué)里,每一個函數(shù)都是由少量基本原語構(gòu)造出來的。你從“與”、“或”、“非”這些最基本的邏輯操作開始,然后通過不斷組合,構(gòu)建出越來越復(fù)雜的函數(shù)。在這里,“組合”本身就是一種基本操作。因此,對計(jì)算機(jī)科學(xué)家來說,組合性并不是某種偶然的演化結(jié)果,而是所有能夠被計(jì)算的函數(shù)必然具有的結(jié)構(gòu)特征。

保羅:明白了。

托馬索:對數(shù)學(xué)家來說,這個觀點(diǎn)會更難接受,這并不是他們熟悉的那套思維方式。

保羅:我差點(diǎn)忘了,我們現(xiàn)在是在計(jì)算機(jī)科學(xué)的地盤。一切最終都要回到布爾邏輯,對吧?

托馬索:是的。事實(shí)上,在我為一個包含28篇文章的理論文集撰寫的論文中,有一篇就專門討論一個問題:“實(shí)數(shù)是否真的存在?”這并不是一個玩笑式的問題。因?yàn)橐坏┪覀冋劦綀D靈可計(jì)算性,原則上講,任何一個數(shù)最終都必須被表示為布爾變量,也就是0和1的有限或無限序列。哪怕這個序列非常非常長,本質(zhì)上它仍然是由布爾值構(gòu)成的。

從計(jì)算機(jī)科學(xué)的角度來看,實(shí)數(shù)并不是一個真正“存在”的對象。如果你去看看數(shù)學(xué)的基礎(chǔ),支撐實(shí)數(shù)的“連續(xù)統(tǒng)假設(shè)”,對于基礎(chǔ)數(shù)學(xué)來說也并不是非有不可的。即便放棄完整的實(shí)數(shù)連續(xù)統(tǒng),我們在很多基礎(chǔ)數(shù)學(xué)結(jié)構(gòu)中也不會損失太多。當(dāng)然,有些實(shí)數(shù)是可計(jì)算的,比如π或e。但還有大量實(shí)數(shù)是不可計(jì)算的。從某種意義上說,那些不可計(jì)算的實(shí)數(shù)更像詩歌。它們在概念上是存在的,卻無法被真正寫出來、算出來,或在計(jì)算機(jī)中實(shí)現(xiàn)。

保羅:換句話說,毫無用處。

托馬索:在計(jì)算意義上,毫無用處。你沒法拿它們做實(shí)驗(yàn),什么都干不了。

保羅:好吧,我們剛才講到哪里了?我們有一組稀疏的組合結(jié)構(gòu)。那么,你究竟證明了什么?

托馬索:我們證明的是這樣一個命題:任何“高效可計(jì)算”的函數(shù),也就是說,能夠在非指數(shù)時(shí)間內(nèi)由圖靈機(jī)計(jì)算完成的函數(shù),在結(jié)構(gòu)上必然具有組合稀疏性。換句話說,這樣的函數(shù)一定可以被分解為若干子函數(shù)的組合,而每一個子函數(shù)只依賴于少量變量。也就是說,每一層都是“稀疏”的。而且,這種分解方式并不是唯一的。對于同一個函數(shù),往往存在許多不同的分解結(jié)構(gòu)。如果把這種分解推到極端,你可以得到一個非常深的層級結(jié)構(gòu),由最簡單、最基礎(chǔ)的函數(shù)逐層組合而成。最終,這些最基本的操作可以還原為布爾邏輯中的“與”、“或”、“非”。從理論上講,任何圖靈機(jī)程序,都可以在數(shù)學(xué)上等價(jià)地轉(zhuǎn)化為一個布爾函數(shù)。因此,只要一個函數(shù)是高效圖靈可計(jì)算的,它就必然可以表示為由若干低維、稀疏子函數(shù)組成的層級結(jié)構(gòu)。

保羅:那么,從學(xué)習(xí)的角度來看,如果一個函數(shù)確實(shí)具有這種由稀疏子函數(shù)構(gòu)成的層級結(jié)構(gòu),那么學(xué)習(xí)這些基本的布爾運(yùn)算及其組合方式,在理論上就不會帶來指數(shù)級的計(jì)算負(fù)擔(dān),對嗎?

托馬索:是的。關(guān)鍵在于,如果我能夠獲得每一個子函數(shù)的輸入與輸出數(shù)據(jù),那么每一個子函數(shù)本身都是容易學(xué)習(xí)的??梢杂靡粋€多層神經(jīng)網(wǎng)絡(luò)來類比。通常,我們只有整個網(wǎng)絡(luò)的輸入,以及整個網(wǎng)絡(luò)最終的輸出。只憑這兩端的數(shù)據(jù)進(jìn)行訓(xùn)練,確實(shí)可能很困難。但如果我能夠獲得中間層的數(shù)據(jù),也就是說,我不僅知道整體輸入和整體輸出,還知道每一層的輸入與輸出,那么每一層都可以被單獨(dú)、高效地學(xué)習(xí)。既然每一個子函數(shù)都容易學(xué)會,那最終組合起來的整體函數(shù),自然也就學(xué)會了。

這也是Transformer模型之所以有效的原因之一。它的“魔力”在于采用了自回歸訓(xùn)練框架。模型不是被要求讀完整本書,然后只預(yù)測最后一個字、最后一個詞,或者最后一句話。它的訓(xùn)練方式是這樣的:給定前面的詞,預(yù)測下一個詞。然后把預(yù)測得到的結(jié)果加入上下文,再繼續(xù)預(yù)測下一個詞。換句話說,它不斷在學(xué)習(xí)局部的子任務(wù)。每一步,其實(shí)都類似于在學(xué)習(xí)一個小規(guī)模的子函數(shù)。

保羅:明白了。

托馬索:這樣一來,我就可以預(yù)測下一個詞,再把新生成的詞加入到當(dāng)前序列中,繼續(xù)預(yù)測下一個詞,如此循環(huán)。

保羅:也就是說,你預(yù)測出來的那個詞,會被納入新的上下文,然后再用它去預(yù)測接下來的詞?

托馬索:正是如此。


從維度災(zāi)難到可泛化:

為什么“少參數(shù)”意味著“能泛化”

保羅:我們還是回到機(jī)器學(xué)習(xí)本身。來談?wù)劮夯芰Π?。我知道你很關(guān)心這個問題。既然深度網(wǎng)絡(luò)的優(yōu)勢在于能夠表達(dá)這種“稀疏組合”的結(jié)構(gòu),那么這種結(jié)構(gòu)對泛化能力意味著什么?

現(xiàn)在的大多數(shù)機(jī)器學(xué)習(xí)任務(wù)都非常“狹窄”。而且還有一個著名的難題,叫做“持續(xù)學(xué)習(xí)”。模型在某個任務(wù)上訓(xùn)練完成后,一旦轉(zhuǎn)向新的任務(wù),往往不得不重新學(xué)習(xí),甚至?xí)z忘之前掌握的知識。真正難得的是“泛化能力”。那才是人工智能追求的目標(biāo),是彩虹盡頭的那一罐金子,是所有人都想找到的寶藏。那么,這種稀疏的組合結(jié)構(gòu),究竟如何幫助我們理解泛化?它和泛化能力之間到底有什么內(nèi)在聯(lián)系?

托馬索:這種結(jié)構(gòu),對整個機(jī)器學(xué)習(xí)框架都至關(guān)重要。當(dāng)前主流的機(jī)器學(xué)習(xí)范式,大致可以這樣描述。假設(shè)我面對的是一個未知函數(shù)。以ImageNet為例。我希望完成圖像分類任務(wù),一共有1000個類別。我需要一個函數(shù),把一張200×200的圖像映射到1000個類別中的某一個。也就是說,把大約4萬個輸入變量映射到一個類別標(biāo)簽上。但問題在于,我并不知道這個函數(shù)的真實(shí)形式。我手里只有訓(xùn)練數(shù)據(jù),也就是輸入圖像,以及對應(yīng)的正確類別標(biāo)簽。訓(xùn)練集中包含大量這樣的樣本對。我的任務(wù),就是根據(jù)這些樣本去逼近那個未知函數(shù)。

在這個框架下,我需要使用一個足夠強(qiáng)大的通用工具,來逼近這個未知函數(shù)?!跋∈杞M合性”這一原則告訴我們,你應(yīng)該用的通用工具就是深度網(wǎng)絡(luò)。之所以強(qiáng)調(diào)“深度”,是因?yàn)橹灰粋€函數(shù)是可計(jì)算的,它就可以表示為若干子函數(shù)的組合。深度結(jié)構(gòu)正是這種組合形式的自然表達(dá)。這是數(shù)學(xué)上的結(jié)論,也是理論的核心信息。理論還給出了一個重要的保證。假設(shè)你擁有一個多層網(wǎng)絡(luò),并且能夠成功完成優(yōu)化,那么你的任務(wù)就是調(diào)節(jié)網(wǎng)絡(luò)中的參數(shù)??梢园堰@些參數(shù)想象成許多旋鈕,比如十萬個旋鈕。你需要不斷調(diào)整這些旋鈕,使網(wǎng)絡(luò)在訓(xùn)練集上的輸出盡可能逼近那個未知函數(shù)。換句話說,你要調(diào)節(jié)參數(shù),讓網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)上實(shí)現(xiàn)正確分類。

保羅:弗蘭克·羅森布拉特(Frank Rosenblatt)當(dāng)年確實(shí)是用手去擰那些旋鈕的,不過我明白你說的是現(xiàn)代意義上的“調(diào)參數(shù)”。

托馬索:是的。理論告訴我們,你不需要無窮多、也不需要指數(shù)級數(shù)量的“旋鈕”。如果函數(shù)具有稀疏組合結(jié)構(gòu),那么所需的參數(shù)數(shù)量就不會呈指數(shù)增長,而是控制在一個非指數(shù)級的規(guī)模內(nèi)。這個結(jié)論非常重要。它不僅意味著我們能夠有效地逼近復(fù)雜函數(shù),更關(guān)鍵的是,它為泛化能力提供了保證。本質(zhì)上,這里存在一種權(quán)衡關(guān)系。背后當(dāng)然是數(shù)學(xué)推導(dǎo),但直觀地講,如果一個函數(shù)可以用相對較少的參數(shù)來表示,那么模型不僅能夠擬合訓(xùn)練數(shù)據(jù),還更有可能在未見過的數(shù)據(jù)上表現(xiàn)良好,也就是實(shí)現(xiàn)泛化。

如果你使用一種需要極其龐大甚至無限參數(shù)數(shù)量的方法,就會面臨兩個問題。第一,你在計(jì)算上根本無法處理例如101000這樣規(guī)模的參數(shù)。第二,你將無法實(shí)現(xiàn)泛化。你只是簡單地?cái)M合了訓(xùn)練數(shù)據(jù)。

保羅:也就是說,如果模型參數(shù)過多,本質(zhì)上就會發(fā)生過擬合。

托馬索:沒錯。不過這個問題比較微妙,需要更深入地討論“過參數(shù)化”究竟意味著什么。因?yàn)榻裉斓纳窠?jīng)網(wǎng)絡(luò)確實(shí)是過參數(shù)化的,它們的參數(shù)數(shù)量往往超過訓(xùn)練數(shù)據(jù)的樣本數(shù)量。但關(guān)鍵在于,如果沒有“稀疏組合性”帶來的理論保證,所需的參數(shù)數(shù)量會大得多。那樣的話,幾乎不可能實(shí)現(xiàn)我們現(xiàn)在所看到的這種效果。

保羅:我明白了。剛剛我突然想到一個類比。是不是可以把這種函數(shù)結(jié)構(gòu)看作處在兩個極端之間?一端是傳統(tǒng)的符號人工智能。那里有清晰分離的模塊,各自執(zhí)行特定功能,并彼此通信。另一端則是極其底層的實(shí)現(xiàn)方式。每一個神經(jīng)元就像一個簡單的邏輯門,執(zhí)行非常基礎(chǔ)的操作,而整個系統(tǒng)的能力來自于這些簡單單元的大規(guī)模組合。從某種意義上說,這些結(jié)構(gòu)是不是可以理解為一簇簇布爾函數(shù)節(jié)點(diǎn)的組合,只是它們以更加連續(xù)、分布式的方式組織起來。我這樣理解對嗎?

托馬索:可以這樣理解。或許最清晰的方式,是回到那棵二叉樹的類比。最底層是輸入節(jié)點(diǎn),最頂端是一個輸出節(jié)點(diǎn)。隨著結(jié)構(gòu)向上延伸,寬度逐層減少。這有點(diǎn)像視覺皮層的第一層神經(jīng)元,每個神經(jīng)元只關(guān)注圖像中的一個局部區(qū)域。接著,在上一層的神經(jīng)元中,每個單元會接收并整合第一層神經(jīng)元的輸出。

保羅:上一層的單元數(shù)量會減少一半,對嗎?

托馬索:是的。

保羅:也就是說,上層的維度比下層更低?

托馬索:正是如此。這個過程可以不斷向上推進(jìn)。每一層神經(jīng)元讀取下層神經(jīng)元的輸出,并將整合后的信息傳遞到更高層。隨著層級上升,單個神經(jīng)元的感受野會越來越大。這與視覺皮層的組織方式高度相似。在V1區(qū)域,神經(jīng)元的感受野非常小。到了V2和V4,感受野逐漸擴(kuò)大。而在IT區(qū)域,神經(jīng)元可以整合更大范圍的視覺信息。


從AI到大腦:

組合性是否存在于真實(shí)神經(jīng)系統(tǒng)?

保羅:你說“大致相似”,我也覺得只能說是“大致”。不過我還想問,你認(rèn)為這個理論結(jié)果在理解真實(shí)的大腦時(shí)到底有多大意義?它真的適用于生物大腦嗎?

托馬索:首先,我并不確定。這是一個開放的問題。

保羅:但我知道你很在意這個問題。

托馬索:我當(dāng)然關(guān)心這個問題。我的意思是,從數(shù)學(xué)角度來說,我可以非常確定地告訴你,像ChatGPT這樣的系統(tǒng),以及所有運(yùn)行在計(jì)算機(jī)上的類似系統(tǒng),都必須具備“稀疏組合性”。凡是能夠在計(jì)算機(jī)上高效運(yùn)行的系統(tǒng),都必然具有這種結(jié)構(gòu)。這一點(diǎn)幾乎是邏輯上的必然。

但對于人類大腦,我無法給出同樣確定的結(jié)論。我猜測,大腦的某些功能,例如語言、數(shù)學(xué),以及其他一些明顯具有結(jié)構(gòu)性的認(rèn)知能力,本身就表現(xiàn)出強(qiáng)烈的組合特征。它們似乎天然符合這種層級分解的形式。但也可能存在另一種情況。比如進(jìn)化上更古老的腦區(qū),例如我們魚類祖先所具有的中腦結(jié)構(gòu),或者像基底節(jié)這類深層腦結(jié)構(gòu),那里也許并不存在明顯的模塊化,也未必體現(xiàn)出清晰的組合結(jié)構(gòu)。是有這種可能的。

保羅:是的,比如說,如果基底節(jié)只是起到“增益調(diào)節(jié)”的作用,那它本身可能就不需要那種組合結(jié)構(gòu)。

托馬索:也許確實(shí)不需要。也許我們甚至無法高效地模擬它。這種說法多少有點(diǎn)科幻意味,只是一種理論上的可能性。我并不是在斷言這一點(diǎn)。就我個人而言,我并不認(rèn)為大腦中存在某種功能是完全無法用計(jì)算機(jī)程序描述的。但我也承認(rèn),這種可能性在邏輯上不能被徹底排除。

保羅:目前還沒有定論。你大概更傾向于認(rèn)為,真正與智能密切相關(guān)的是大腦皮層,對嗎?換句話說,人工智能主要是在模擬皮層功能。

托馬索:我認(rèn)為,大腦皮層很可能具有明顯的組合結(jié)構(gòu),因此也更容易在計(jì)算機(jī)中加以模擬。至于大腦的其他部分,就未必如此。這其實(shí)有點(diǎn)諷刺。按照直覺,那些在進(jìn)化上更古老、結(jié)構(gòu)看起來更簡單的腦區(qū),反而可能更難被模擬。

保羅:目前也沒有跨物種的證據(jù),能夠證明這種組合結(jié)構(gòu)確實(shí)存在于大腦中,對嗎?

托馬索:沒有。

保羅:我還想問一個問題,物理學(xué)之所以成功,很大程度上依賴于理論與實(shí)驗(yàn)之間的持續(xù)對話。理論家提出假設(shè),實(shí)驗(yàn)者去驗(yàn)證,然后再反過來修正理論。在你這種情況下,作為一個偏理論的人,你會主動去尋找實(shí)驗(yàn)驗(yàn)證嗎?你會不會去說服實(shí)驗(yàn)學(xué)者,比如說,“我需要這組數(shù)據(jù)”,或者“看看我的理論,大腦里有沒有這樣的結(jié)構(gòu)”?你通常是如何推進(jìn)這種合作的?

托馬索:我在職業(yè)生涯中一直在這么做。只是最近幾年可能少了一些。我至今都忘不了那種興奮感。有一次,我對果蠅的行為提出了一個理論預(yù)測,其實(shí)是一個相當(dāng)簡單的預(yù)測。后來實(shí)驗(yàn)做出來,結(jié)果竟然完全符合——

保羅:天哪。那種感覺一定非常震撼吧。

很多理論學(xué)者都會有一種感覺:理論在邏輯上是成立的,所以它“必然”是正確的。對理論本身,他們已經(jīng)建立起一種高度的信心。但真正看到理論在現(xiàn)實(shí)世界中被驗(yàn)證,看到實(shí)驗(yàn)結(jié)果與推導(dǎo)嚴(yán)絲合縫地對應(yīng),那又是完全不同層次的體驗(yàn)。

托馬索:沒錯,正是這樣。這種體驗(yàn)很有意思,而且是分層次的。雖然我不是數(shù)學(xué)家,也算不上優(yōu)秀的數(shù)學(xué)家,但有幾次我確實(shí)證明過一些結(jié)果,那種感覺確實(shí)令人興奮。但當(dāng)實(shí)驗(yàn)真正驗(yàn)證了你的理論,那種興奮是完全不同的。

保羅:我其實(shí)有很多問題想問,所以在對話過程中一有機(jī)會就忍不住插進(jìn)來。你覺得,誰更需要深度學(xué)習(xí)理論?是那些構(gòu)建人工智能系統(tǒng)的機(jī)器學(xué)習(xí)工程師,還是試圖解釋大腦機(jī)制的神經(jīng)科學(xué)家?

托馬索:如果你去問OpenAI這樣的機(jī)構(gòu)里的頂尖研究人員,我相當(dāng)確定,他們大概會說,我們并不需要理論。

保羅:聽到他們這么說,你心里是什么感覺?

托馬索:我想......大概已經(jīng)習(xí)慣了吧。

保羅:以你的經(jīng)歷,完全可以說一句:“再過二十年你們就知道了”

托馬索:是啊。不過你永遠(yuǎn)不知道歷史會不會重演。

保羅:也是。

托馬索:而且這次情況非常特殊,我們研究的對象本身就是“智能”。所以有時(shí)候我也會擔(dān)心,也許理論真的會從此消失。

保羅:那不可能吧。

托馬索:我的立場更像是很多年前布萊茲·帕斯卡(Blaise Pascal)提出的那個“賭注”,所謂的“帕斯卡賭注”。帕斯卡認(rèn)為,從理性角度講,更合理的選擇是押注“上帝存在”,并據(jù)此行事。因?yàn)槿绻阊哄e了,假設(shè)上帝不存在,那損失有限;但如果你押的是“上帝不存在”,而事實(shí)上存在,那代價(jià)就是無限的,比如你將要永遠(yuǎn)下地獄。

保羅:不過帕斯卡賭的是“永恒”。而你有這么長一段成功的經(jīng)歷和成果積累,我想你大概會比帕斯卡更有底氣一點(diǎn)吧。

托馬索:是的。我主要的觀點(diǎn)其實(shí)是:去賭一個超級智能會在短短三五年內(nèi)接管我們,這毫無意義。更理性的賭注是,我們還有相當(dāng)長的一段時(shí)間可以和機(jī)器合作,提升我們的智能,看看我們能一起做些什么。至于所謂的通用人工智能是否會“接管”,即便真的會發(fā)生,那也至少是很多年以后的事,甚至未必會發(fā)生。

保羅:我其實(shí)不太相信AGI是一個明確存在的東西,不過那是另一個話題了。倒是宣稱AGI即將到來這件事,確實(shí)很賺錢。

托馬索:是的。不過從經(jīng)濟(jì)角度看,這種敘事其實(shí)也有些風(fēng)險(xiǎn)。說實(shí)話,在我的職業(yè)生涯中,真正讓我震驚的時(shí)刻,并不是 ImageNet。2012年深度網(wǎng)絡(luò)在ImageNet分類任務(wù)上的成功,當(dāng)然非常重要,它們比之前的方法提升了大約20%,這已經(jīng)是巨大的進(jìn)步,但這種改進(jìn)本身并沒有讓我特別驚訝。真正讓我感到震撼的是2017年。后來我逐漸意識到Transformer模型,以及最終出現(xiàn)的 ChatGPT,才是更大的突破。直到今天,我依然對大語言模型的能力感到驚嘆。即便它們并不像我們?nèi)祟惸菢铀伎?,它們依然非常?qiáng)大。

保羅:確實(shí),它們強(qiáng)得驚人。

托馬索:從圖靈測試的標(biāo)準(zhǔn)來看,它們當(dāng)然可以被稱為“智能”。在人類歷史上,這是第一次,我們不僅擁有自己的智能,還面對另一種智能形態(tài)。而且它們與我們不同。這對我們來說,是一個非常難得的機(jī)會,我們可以去研究:什么是共通的,什么是不同的。這有點(diǎn)像研究不同物種的基因組,比如果蠅(Drosophila)的基因組,或者秀麗隱桿線蟲(C. elegans)的基因組。通過比較不同物種的基因,我們對自身基因的功能有了更深的理解。同樣地,研究這些不同形態(tài)的智能,或許也能幫助我們更好地理解人類自己的智能。

保羅:剛看到大語言模型時(shí),我的反應(yīng)其實(shí)是:“哦,又一次技術(shù)進(jìn)步而已。”以前大家也曾為循環(huán)神經(jīng)網(wǎng)絡(luò)興奮過,也為LSTM興奮過。而且?guī)缀趺恳淮?,?dāng)一種新模型橫空出世并帶來巨大希望時(shí),神經(jīng)科學(xué)界總會有不少人說:“啊,現(xiàn)在大腦就是玻爾茲曼機(jī)?!被蛘摺艾F(xiàn)在大腦是卷積神經(jīng)網(wǎng)絡(luò)?!比缃裼肿兂桑骸按竽X就是大語言模型?!边@到底是怎么回事?為什么我們這么容易就被帶著跑?

托馬索:早些年也有類似的“風(fēng)潮”。那時(shí)甚至有人認(rèn)為,大腦不過是一種流體力學(xué)系統(tǒng)。

保羅:這聽起來可不太光彩。我自己就是神經(jīng)科學(xué)家,這多少有點(diǎn)尷尬。每次新技術(shù)出來,我都會在心里想:“好吧,又來了。”結(jié)果卻常常被打臉。有些突破確實(shí)讓我始料未及,比如大語言模型,我當(dāng)時(shí)真的是沒預(yù)料到。

托馬索:很多人一樣,我也是等到ChatGPT出現(xiàn)之后,才真正意識到這種能力的強(qiáng)大。這是第一次能夠和它自然對話。那一刻我才意識到,事情變得不一樣了。

保羅:而且更有意思的是,我們幾乎毫不費(fèi)力就把它融入到日常生活了。至少對我來說是這樣,我猜大多數(shù)人也是。它并不像一個完全陌生的技術(shù),反而特別自然,好像一下子就嵌進(jìn)了日常。我想,這本身就是它最令人震撼的地方之一。

托馬索:而且在某種直覺層面上,我們也逐漸摸索出它能為我們做什么、能信任它到什么程度,以及如何更好地駕馭它。

保羅:不過在這方面,每個人的“使用能力”確實(shí)不一樣。有些人會更天真一點(diǎn),也更容易輕信。但如果把它當(dāng)成工具來看,天哪,真的太厲害了。它作為工具的價(jià)值,簡直驚人。

托馬索:確實(shí),非常了不起。

保羅:我剛才還在為自己、為神經(jīng)科學(xué)家們感到尷尬,不過回到幾分鐘前的那個問題:到底是神經(jīng)科學(xué)家更需要深度學(xué)習(xí)理論,還是搞機(jī)器學(xué)習(xí)的人更需要?神經(jīng)科學(xué)家真的需要這個嗎?

托馬索:我認(rèn)為需要。正如你剛才說的,把大腦簡單地等同為一個Transformer模型,是沒有意義的。

保羅:完全說不通。

托馬索:如果我們能夠理解Transformer所有的那些基本原則,那么這些原則本身,理論上也可能被大腦所采用,只是形式可能完全不同。當(dāng)然,大腦并不一定真的在使用 Transformer。但如果我們談的是原則,而不是某種具體的工程實(shí)現(xiàn),那么它完全可以通過一種截然不同的方式存在。比如,大腦是否也在某種意義上利用了“組合稀疏”的結(jié)構(gòu),或者是否存在類似自回歸機(jī)制的過程。這樣一來,我們至少可以提出一個更合理的問題:大腦是否運(yùn)用了類似的原理?

保羅:抱歉打斷一下。不過這有點(diǎn)像那個笑話:有人在路燈下找鑰匙,因?yàn)椤澳莾河泄狻薄N覀儠粫皇且驗(yàn)門ransformer在那里發(fā)光,所以才從這個方向去理解大腦?那么,組合稀疏性在分析層級框架中屬于哪一層?它不是一個具體算法,而是一種原則。那原則應(yīng)該放在哪個層面?

托馬索:這是個很有意思的問題。我想,它大概應(yīng)該歸入“學(xué)習(xí)理論”這一層。

保羅:那可是一個很大的范疇。

托馬索:是的,確實(shí)很大。

保羅:關(guān)于理論的作用,你剛才提到,我們現(xiàn)在可能處在伏打和麥克斯韋之間的階段。其中,你談了電池發(fā)明之后涌現(xiàn)出的各種應(yīng)用和創(chuàng)新,但沒有談麥克斯韋之后發(fā)生的事情。那是一個真正改變局面的時(shí)刻嗎?我們真的需要麥克斯韋嗎?如果沒有那套理論,技術(shù)會不會照樣發(fā)展?我們到底需不需要理論?

托馬索:我覺得麥克斯韋之后發(fā)生的很多事情,正是因?yàn)辂溈怂鬼f才成為可能。無線電、電視、雷達(dá)、互聯(lián)網(wǎng),以及制造電子元器件的能力,這些都離不開電磁學(xué)理論。當(dāng)然,不只是麥克斯韋個人,而是整套電磁理論體系。理論讓我們不僅能夠理解電動機(jī)、發(fā)電機(jī)這些已經(jīng)出現(xiàn)的技術(shù),還能把它們優(yōu)化、推廣、系統(tǒng)化。更重要的是,它打開了全新的可能性,催生了后來的一系列技術(shù)革命。換句話說,理論不僅僅是解釋已有成果,它本身也創(chuàng)造了新的空間。


流形還是組合?

不同理論的解釋力與進(jìn)化視角

保羅:咱們這話題其實(shí)已經(jīng)跑偏又繞回來好幾回了,不過還是得回到“組合稀疏性”上。在你最近發(fā)在arXiv上的那篇論文里,你把這個原則和其他一些替代原則做了對比。其中一個就是“流形學(xué)習(xí)”。現(xiàn)在在神經(jīng)科學(xué)領(lǐng)域,關(guān)于“流形”的說法幾乎無處不在。很多現(xiàn)象都被解釋為存在某種低維流形結(jié)構(gòu)。如果偏離這個流形,學(xué)習(xí)就會變得困難。

越接近原有流形結(jié)構(gòu),學(xué)習(xí)速度就越快,類似這樣的觀點(diǎn)。你能解釋一下,“組合稀疏性”和“流形學(xué)習(xí)”之間的區(qū)別嗎?為什么你更傾向于把前者視為一個更基礎(chǔ)的原則?當(dāng)然,也許我這樣表述本身就不夠準(zhǔn)確。

托馬索:是的。我認(rèn)為這其實(shí)是同一種現(xiàn)象的兩種不同視角。當(dāng)你談?wù)摵瘮?shù)的組合時(shí),也可以把它理解為用更簡單的片段逐步構(gòu)造一個流形。就像視覺系統(tǒng)中那樣,早期神經(jīng)元先處理局部圖像片段,然后這些局部片段被進(jìn)一步組合,逐漸形成更復(fù)雜、更大尺度的視覺流形結(jié)構(gòu)。我還沒有系統(tǒng)地推導(dǎo)兩者之間的嚴(yán)格數(shù)學(xué)關(guān)系,但直觀上看,它們之間幾乎存在一種一一對應(yīng)的映射關(guān)系。

它們的區(qū)別更多體現(xiàn)在語言層面。正如我之前提到的,在經(jīng)典數(shù)學(xué)中,人們談?wù)摰氖恰敖Y(jié)構(gòu)”,例如流形。構(gòu)造流形時(shí),需要以某種平滑的方式把不同部分拼接起來。從本質(zhì)上講,這等價(jià)于在空間的不同區(qū)域定義不同的函數(shù),并通過某種規(guī)則把它們組織在一起。這正是組合稀疏性的思想。我認(rèn)為,兩種說法在核心結(jié)構(gòu)上是等價(jià)的。

保羅:那么組合稀疏性是否意味著,或者說是否要求,任意局部區(qū)域內(nèi)都存在一個平滑的歐幾里得空間結(jié)構(gòu),就像流形理論所要求的那樣?

托馬索:是的。在局部區(qū)域內(nèi),這個流形只依賴于高維空間中的一部分變量。而在其他區(qū)域,它可能依賴于另一部分變量,或者與前者部分重疊的變量。

保羅:既然你一直關(guān)注學(xué)習(xí)這個問題,你是否會把進(jìn)化看作一種極其緩慢的學(xué)習(xí)過程?

托馬索:這是一個很有意思的問題。確實(shí)有一些不錯的嘗試,把進(jìn)化理解為一種學(xué)習(xí)過程。其中之一是萊斯利·瓦利安特(Leslie Valiant),他是一位杰出的計(jì)算機(jī)科學(xué)家,也是我的朋友。他曾寫過一篇文章,把進(jìn)化看作一種學(xué)習(xí)機(jī)制。從某種意義上說,它確實(shí)像你所說的,是一種更為緩慢的學(xué)習(xí)。不過,我認(rèn)為事情可能比這更復(fù)雜一些。在學(xué)習(xí)過程中,你通常是在一個既定的解空間或假設(shè)空間中進(jìn)行探索。人們常常稱之為“假設(shè)空間”。也就是說,你事先限定了可能的函數(shù)集合,然后從中尋找最合適的那個。

在機(jī)器學(xué)習(xí)中,例如你選定了某種核方法,比如高斯核,那么你實(shí)際上就在一個特定的函數(shù)空間內(nèi)搜索。訓(xùn)練的過程,就是在這個空間中找到最符合數(shù)據(jù)的函數(shù)。而進(jìn)化的情況可能不同。它未必只是從一個固定的函數(shù)空間中進(jìn)行搜索。它可能是在塑造不同的函數(shù)空間本身。換一種說法,在機(jī)器學(xué)習(xí)中,你通常已經(jīng)確定了架構(gòu),然后在這個架構(gòu)內(nèi)通過訓(xùn)練解決具體問題。而進(jìn)化所做的,可能是產(chǎn)生和篩選不同類型的架構(gòu)。

保羅:也就是說,進(jìn)化能夠嘗試的可能方案范圍更廣?

托馬索:每一種架構(gòu)所對應(yīng)的搜索空間,其實(shí)都是不同的。

保羅:這是什么意思?

托馬索:舉個例子。假設(shè)在智能最早出現(xiàn)的時(shí)候,這當(dāng)然只是推測,生物體只有非常簡單的聯(lián)結(jié)式反射。比如,一道閃光出現(xiàn),就觸發(fā)逃避反應(yīng)。最初,這種反應(yīng)大概是寫在基因里的硬編碼機(jī)制。后來,它可能逐漸變得更為靈活,會根據(jù)刺激強(qiáng)度或環(huán)境狀態(tài)作出不同反應(yīng)。但這種機(jī)制仍然是一種非常狹窄的解決方案。本質(zhì)上,它就像一個單層網(wǎng)絡(luò)。如果用神經(jīng)網(wǎng)絡(luò)的比喻來說,就是只有一層的結(jié)構(gòu)。直到某個階段,你發(fā)現(xiàn)可以使用多層結(jié)構(gòu)。

這會擴(kuò)大你能夠表示的解決方案類型,也擴(kuò)大可以學(xué)習(xí)的問題范圍,但仍然不是全部。比如,在這種結(jié)構(gòu)下,你可以進(jìn)行類似監(jiān)督學(xué)習(xí)的學(xué)習(xí)方式,但還無法像強(qiáng)化學(xué)習(xí)那樣通過主動探索來發(fā)現(xiàn)策略。進(jìn)化可能正是在不斷“發(fā)現(xiàn)”或塑造這些更復(fù)雜的智能形式,或者說,不同的學(xué)習(xí)機(jī)制。換句話說,它不僅是在優(yōu)化已有架構(gòu)內(nèi)的參數(shù),而是在不斷創(chuàng)造新的學(xué)習(xí)方式。

保羅:很有意思,這樣理解也很合理。在最后幾分鐘,我們不妨再把視角拉回到更宏觀的層面。剛才我把話題從你提到的“Brains, Minds, and Machines”項(xiàng)目帶開了,聽起來那是一個面向未來的計(jì)劃。我現(xiàn)在更想問的是,你對未來的整體判斷。你對接下來二十年的理論發(fā)展感到興奮,或更多的是忐忑?同時(shí),你認(rèn)為當(dāng)前這個領(lǐng)域真正的瓶頸是什么?我猜你的回答可能會是“學(xué)習(xí)理論”,但如果真是這樣,是否還有更具體的層面值得指出?

托馬索:毫無疑問,我對未來確實(shí)充滿期待。當(dāng)然,也難免會有一點(diǎn)擔(dān)憂。

保羅:如果和三十年前相比,你現(xiàn)在的感受一樣嗎?你一直穩(wěn)步推進(jìn)自己的研究。如今是比過去更興奮,還是更擔(dān)憂?或是更從容?這是一個完全不同的階段,還是說,你覺得這本來就是歷史的自然進(jìn)程?你見過各種潮起潮落,而未來也會繼續(xù)向前發(fā)展。

托馬索:我確實(shí)感到興奮。當(dāng)然,三十年前我也同樣興奮。但現(xiàn)在的賭注大多了。如今,經(jīng)濟(jì)的許多領(lǐng)域,以及科學(xué)研究的多個方向,都深度依賴機(jī)器學(xué)習(xí)。過去并非如此。正因?yàn)橛绊懜鼜V泛,我們更需要把方向走對,而且要真正做好。坦率地說,我從未想過,我們會在這場“智能競賽”中走到今天這個階段。

保羅:真的嗎?這太令人驚訝了。

托馬索:是的。我原本以為進(jìn)展會更慢,也許到最后我想的是對的。但目前確實(shí)發(fā)生了明顯的進(jìn)展,尤其是大語言模型,這一點(diǎn)真的讓我感到意外。它們?yōu)檫M(jìn)一步探索提供了非常扎實(shí)的“落腳點(diǎn)”,尤其是在理論層面。同時(shí),我也覺得,我們以及許多同行正在構(gòu)建的理論體系,比十年前我所能預(yù)期的要豐富得多。當(dāng)然,仍然有大量工作等待去完成。

保羅:那太好了。

托馬索:這件事遠(yuǎn)沒有那么簡單。這并不是某種神經(jīng)網(wǎng)絡(luò)因?yàn)橐粌蓚€偶然因素就“恰好成功”了。它背后有很多值得深入研究的方面,其中有些相當(dāng)深刻。從研究一種在某些方面可能超越我們的人類智能這一點(diǎn)來看,我覺得就非常令人興奮。不過,我一直認(rèn)為,它的發(fā)展速度可能會比許多人想象的更慢。我記得大約十年前,在波多黎各的一次會議上,馬克斯·泰格馬克(Max Tegmark)和幾位朋友組織了一場討論。當(dāng)時(shí)我們做了一個投票。大多數(shù)人預(yù)測,所謂的通用人工智能,或者超級智能,大概會在二十五年內(nèi)出現(xiàn)。我當(dāng)時(shí)給出的判斷是五十年。

保羅:等等,這是多久以前的事?幾年前嗎?

托馬索:十年前。

保羅:對那些樂觀派來說,這數(shù)字已經(jīng)挺大了,他們通常會說“接下來的5年、10年”。25 年已經(jīng)是個大數(shù)字了,但我喜歡你直接把它翻了個倍。

托馬索:我當(dāng)時(shí)估計(jì)的是五十年?,F(xiàn)在的話,大概是四十年左右。我可能還是會堅(jiān)持這個判斷。當(dāng)然,現(xiàn)在我覺得它也許會更快一些,但這取決于你如何定義“實(shí)現(xiàn)”。比如,自動駕駛就是一個很好的例子。我一直在密切關(guān)注這一領(lǐng)域。最初我自己參與過相關(guān)研究。后來通過我的好友阿姆農(nóng)·沙舒阿(Amnon Shashua),他創(chuàng)辦的公司Mobileye為特斯拉提供了第一套系統(tǒng)。自動駕駛已經(jīng)“出現(xiàn)”了。在舊金山等城市,你可以乘坐自動駕駛出租車。但真正完全普及、隨處可見的自動駕駛車輛仍然很少。而且,目前仍然做不到讓一輛車在任何環(huán)境下都像人類一樣自如駕駛。問題往往卡在那“最后的1%”可靠性上。恰恰是這最后1%,可能需要非常漫長的時(shí)間才能攻克。

保羅:這很有意思。人們一說“自動駕駛”,腦海里往往會自動浮現(xiàn)一個畫面:問題已經(jīng)徹底解決,自動駕駛汽車滿街都是。但現(xiàn)實(shí)并不是這樣。

托馬索:確實(shí)如此。大概十年前,我在舊金山的Uber面試過一次,主要是出于興趣。

保羅:出于興趣去面試?

托馬索:是的,我并沒有真的打算加入他們。不過讓我印象深刻的是,當(dāng)時(shí)他們談到自動駕駛時(shí),語氣仿佛2015年已經(jīng)近在眼前,接下來六個月就會發(fā)生重大突破。

保羅:在那樣的環(huán)境里工作,確實(shí)需要這種樂觀精神,才能每天都有動力去推進(jìn)。

托馬索:大概是吧。

保羅:我算是X世代吧,可能是偏晚一點(diǎn)的那一批。我小時(shí)候用的是錄像機(jī)那種模擬設(shè)備,也經(jīng)歷了電腦剛開始普及的年代。直接說重點(diǎn)吧。我有年幼的孩子,說實(shí)話,我很擔(dān)心技術(shù)變化的速度。它變得越來越難以預(yù)測。

在過去靠馬匹傳遞書信的時(shí)代,你大概還能比較準(zhǔn)確地預(yù)測明年會發(fā)生什么。但現(xiàn)在,這些新工具會怎樣影響他們,我根本無法想象,也不知道接下來會發(fā)生什么。一切都在加速。作為父親,這種不確定感這讓我感到相當(dāng)不安。我知道你的孩子已經(jīng)長大了。

托馬索:我完全同意。當(dāng)然,我也擔(dān)心氣候變化,但在某種意義上,我更擔(dān)心人工智能與教育的問題。正如你所說,變化的速度太快,我們幾乎跟不上。我們甚至不知道最好的教學(xué)方式應(yīng)該是什么。你不可能禁止孩子使用 ChatGPT。事實(shí)上,也許還應(yīng)該鼓勵他們?nèi)W(xué)會使用它。但與此同時(shí),我們必須確保他們真正掌握數(shù)學(xué)等基礎(chǔ)能力。

問題是,我們?nèi)绾瓮瑫r(shí)做到這兩點(diǎn)?我已經(jīng)在大學(xué)里看到這種困境。一方面允許使用 ChatGPT,另一方面又要求學(xué)生說明何時(shí)使用、如何使用。因?yàn)槲覀儺?dāng)然不希望學(xué)生把所有的自主權(quán)都交出去,完全依賴ChatGPT,那會毀了我們的文化,毀了我們的社會。

保羅:問題在于,我們得去想辦法應(yīng)對它,找到解決方案??傻任覀冋嬲肭宄臅r(shí)候,這個問題可能已經(jīng)不復(fù)存在了,因?yàn)樾碌奶魬?zhàn)又出現(xiàn)了。它會被下一個變化取代。我也說不好。

托馬索:《百年孤獨(dú)》的作者加夫列爾·加西亞·馬爾克斯(García Márquez)曾說過,乘坐飛機(jī)旅行會打亂我們對世界的感知。他說,人應(yīng)該像騎馬或坐火車那樣旅行,這樣時(shí)間不會變化得太快。

否則你會被甩出去,就像經(jīng)歷時(shí)差一樣。對教育來說,這是一場巨大的“時(shí)差反應(yīng)”。

保羅:這個比喻真不錯。我還記得《百年孤獨(dú)》里的這句話,“世界像橙子一樣是圓的”。

對談鏈接:

https://www.thetransmitter.org/brain-inspired/tomaso-poggio-on-his-quest-for-theories-to-explain-the-fundamental-learning-abilities-of-brains-and-machines/








關(guān)于追問nextquestion

天橋腦科學(xué)研究院旗下科學(xué)媒體,旨在以科學(xué)追問為紐帶,深入探究人工智能與人類智能相互融合與促進(jìn),不斷探索科學(xué)的邊界。歡迎評論區(qū)留言,或后臺留言“社群”即可加入社群與我們互動。您也可以在后臺提問,我們將基于追問知識庫為你做出智能回復(fù)哦~

關(guān)于天橋腦科學(xué)研究院

天橋腦科學(xué)研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創(chuàng)建的世界最大私人腦科學(xué)研究機(jī)構(gòu)之一,圍繞全球化、跨學(xué)科和青年科學(xué)家三大重點(diǎn),支持腦科學(xué)研究,造福人類。

Chen Institute與華山醫(yī)院、上海市精神衛(wèi)生中心設(shè)立了應(yīng)用神經(jīng)技術(shù)前沿實(shí)驗(yàn)室、人工智能與精神健康前沿實(shí)驗(yàn)室;與加州理工學(xué)院合作成立了加州理工天橋神經(jīng)科學(xué)研究院。

Chen Institute建成了支持腦科學(xué)和人工智能領(lǐng)域研究的生態(tài)系統(tǒng),項(xiàng)目遍布?xì)W美、亞洲和大洋洲,包括、、、科研型臨床醫(yī)生獎勵計(jì)劃、、、科普視頻媒體「大圓鏡」等。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國海警局新聞發(fā)言人就菲海警煽宣炒作發(fā)表談話

中國海警局新聞發(fā)言人就菲海警煽宣炒作發(fā)表談話

界面新聞
2026-03-25 21:59:52
深夜,暴漲!伊朗,拒絕美國!

深夜,暴漲!伊朗,拒絕美國!

中國基金報(bào)
2026-03-26 00:19:55
四天619次進(jìn)攻、6090人傷亡:俄春季攻勢為何高傷亡低戰(zhàn)果?

四天619次進(jìn)攻、6090人傷亡:俄春季攻勢為何高傷亡低戰(zhàn)果?

高博新視野
2026-03-25 08:00:28
俄方發(fā)出警告,普京搶在特朗普之前訪華?美財(cái)長:已無法阻止中國

俄方發(fā)出警告,普京搶在特朗普之前訪華?美財(cái)長:已無法阻止中國

浪子阿邴聊體育
2026-03-25 03:25:35
譚瑞松,被判死緩

譚瑞松,被判死緩

新京報(bào)政事兒
2026-03-25 17:17:03
可能出大事了,四名軍工系統(tǒng)院士被除名,釋放的信號讓人不敢細(xì)想

可能出大事了,四名軍工系統(tǒng)院士被除名,釋放的信號讓人不敢細(xì)想

張嘴說財(cái)經(jīng)
2026-03-25 23:07:05
曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習(xí)慣糟糕,一口氣吃8根雪糕

曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習(xí)慣糟糕,一口氣吃8根雪糕

古希臘掌管松餅的神
2026-03-25 11:08:46
1000億背后的陽謀:拼多多利用中國制造的優(yōu)勢,要狂掃國外市場

1000億背后的陽謀:拼多多利用中國制造的優(yōu)勢,要狂掃國外市場

風(fēng)向觀察
2026-03-25 20:46:14
張雪峰的財(cái)產(chǎn)幾個億,竟然沒買車,天天吃外賣,生活簡樸到極致

張雪峰的財(cái)產(chǎn)幾個億,竟然沒買車,天天吃外賣,生活簡樸到極致

魔都姐姐雜談
2026-03-25 15:59:12
禁用“日本鬼子”一詞,到底動了誰的蛋糕,為何有如此大的爭議?

禁用“日本鬼子”一詞,到底動了誰的蛋糕,為何有如此大的爭議?

棠棣分享
2026-03-24 13:24:30
深夜,全線大漲!中國資產(chǎn),發(fā)力!芯片巨頭,突傳利好

深夜,全線大漲!中國資產(chǎn),發(fā)力!芯片巨頭,突傳利好

證券時(shí)報(bào)
2026-03-26 00:11:02
張雪峰的病,速效救心丸能救嗎?

張雪峰的病,速效救心丸能救嗎?

中國新聞周刊
2026-03-25 16:23:30
日本士兵闖入中國使館,意圖刺殺中國大使。高市:降級中日關(guān)系

日本士兵闖入中國使館,意圖刺殺中國大使。高市:降級中日關(guān)系

清歡百味
2026-03-25 06:26:23
美國15條,自己和自己簽的戰(zhàn)敗投降書!

美國15條,自己和自己簽的戰(zhàn)敗投降書!

勝研集
2026-03-25 14:36:53
意大利經(jīng)濟(jì)發(fā)展部前副部長:建議想要與中國合作的外企都讀一讀“十五五”規(guī)劃

意大利經(jīng)濟(jì)發(fā)展部前副部長:建議想要與中國合作的外企都讀一讀“十五五”規(guī)劃

界面新聞
2026-03-25 15:50:08
張雪峰28號開追悼會,大學(xué)畢業(yè)照流出,左手搭肩同學(xué) 襯衫解開扣子

張雪峰28號開追悼會,大學(xué)畢業(yè)照流出,左手搭肩同學(xué) 襯衫解開扣子

可樂談情感
2026-03-25 22:46:55
烏克蘭四百架無人機(jī)摧毀俄最大的烏斯季盧加港!擊沉軍艦

烏克蘭四百架無人機(jī)摧毀俄最大的烏斯季盧加港!擊沉軍艦

項(xiàng)鵬飛
2026-03-25 21:28:02
傳張雪峰二婚妻子清純甜美:去年已生子,11歲女兒遺傳繼承恐生變

傳張雪峰二婚妻子清純甜美:去年已生子,11歲女兒遺傳繼承恐生變

博士觀察
2026-03-25 21:33:04
原來她是張雪峰前妻,90后歷史學(xué)博士?,兩人離婚后曾一起上節(jié)目

原來她是張雪峰前妻,90后歷史學(xué)博士?,兩人離婚后曾一起上節(jié)目

大鐵貓娛樂
2026-03-25 13:03:57
41歲猝逝張雪峰最后朋友圈曝光:月跑72公里,賬上留足員工半年工資,捐了上千萬卻從不說累!

41歲猝逝張雪峰最后朋友圈曝光:月跑72公里,賬上留足員工半年工資,捐了上千萬卻從不說累!

銜春信
2026-03-25 17:14:42
2026-03-26 05:59:00
追問Nextquestion incentive-icons
追問Nextquestion
科研就是不斷探索問題的邊界
703文章數(shù) 36關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收場,Sora宣布正式關(guān)停

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場畫面披露

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場畫面披露

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

健康
親子
藝術(shù)
時(shí)尚
房產(chǎn)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

親子要聞

爸爸的肩膀,永遠(yuǎn)是你最堅(jiān)實(shí)的依靠

藝術(shù)要聞

原來唐朝貴婦的生活,比我們還會享受!

女人過了40歲別胡亂穿衣,趕緊看看這些日系穿搭,舒適又耐看

房產(chǎn)要聞

41億!259畝!建學(xué)?!齺嗊@個大城更,最新方案曝光!

無障礙瀏覽 進(jìn)入關(guān)懷版