尋找AI界的麥克斯韋，誰來填補(bǔ)大模型的理論真空？| 萬字對談MIT人工智能傳奇人物Tomaso Poggio

2026-03-06 08:24:14　來源: 追問Nextquestion

上海舉報(bào)

分享至

對談嘉賓

Tomaso Poggio

麻省理工學(xué)院腦與認(rèn)知科學(xué)系講席教授，麥戈文腦科學(xué)研究所研究員，麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室（CSAIL）成員

Poggio教授是計(jì)算神經(jīng)科學(xué)領(lǐng)域巨匠，研究領(lǐng)域涵蓋視覺系統(tǒng)的生物物理和行為、人類和機(jī)器的視覺和學(xué)習(xí)的計(jì)算分析。他的研究極富開拓性，是被引用最多的計(jì)算神經(jīng)科學(xué)家之一。他的兩位前博士后 Demis Hassabis和Amnon Shashua 分別是 DeepMind 和 Mobileye 的創(chuàng)始人。

主持人

Paul Middlebrooks

卡內(nèi)基梅隆大學(xué)的特聘助理研究員

卡內(nèi)基梅隆大學(xué)的特聘助理研究員，同時(shí)是播客“Brain Inspired”的主持人。他主要研究運(yùn)動皮層和基底神經(jīng)節(jié)神經(jīng)群體活動如何在自由行為的小鼠中支持自然行為，致力于揭示神經(jīng)活動與復(fù)雜行為之間的關(guān)系。

目錄：

01 學(xué)習(xí)：通向智能理論的真正入口

02 為什么淺層理論不夠？

03 為什么少參數(shù)意味著能泛化？

04 組合性是否存在于真實(shí)神經(jīng)系統(tǒng)？

05 流形還是組合？不同理論的解釋力與進(jìn)化視角

保羅：今天這位嘉賓的履歷實(shí)在太過豐富，我恐怕難以在幾句話中介紹清楚。他是托馬索·波焦（Tomaso Poggio）。至于他的頭銜，實(shí)在太多了。

他是麻省理工學(xué)院腦與認(rèn)知科學(xué)系的Eugene McDermott講席教授，麥戈文腦科學(xué)研究所研究員，麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室（CSAIL）的成員。此外，他還分別是生物與計(jì)算學(xué)習(xí)中心以及腦、心智與機(jī)器中心兩個研究中心的負(fù)責(zé)人。

托馬索發(fā)表論文的年頭，比我的年紀(jì)還要大，而我也早已不再是初出茅廬的毛頭小子了。在谷歌學(xué)術(shù)上，他最早的一篇論文發(fā)表于1972年，刊登在Kybernetik上。論文題目是《時(shí)間記憶與視動反應(yīng)的全息特性》（Holographic Aspects of Temporal Memory and Optomotor Responses）。

簡而言之，他在這條路上已深耕多年。他究竟在探尋什么？答案是智能背后的理論基石。其中的關(guān)鍵詞在于“理論”，托馬索始終對智能背后的理論原則感興趣。為此，他將人工智能與大腦的運(yùn)作機(jī)制并置研究。

我們今天擁有非常出色的人工智能。這樣的系統(tǒng)已經(jīng)存在一段時(shí)間，從最初并不成熟，發(fā)展到如今性能驚人，并且仍在不斷進(jìn)步。但從根本上講，我們依然沒有看透它是如何運(yùn)作的。人工智能的早期發(fā)展當(dāng)然有理論基礎(chǔ)作為起點(diǎn)。但近年來這波洶涌的AI浪潮，本質(zhì)上是由工程實(shí)踐驅(qū)動的，在于構(gòu)建和擴(kuò)展系統(tǒng)，而不是在深入理解其原理。

托馬索用一個歷史類比，來說明當(dāng)前人工智能領(lǐng)域工程與理論之間的關(guān)系。他認(rèn)為，我們現(xiàn)在的處境有點(diǎn)像當(dāng)年伏打與麥克斯韋之間的那段時(shí)期。當(dāng)年，亞歷山德羅·伏打（Alessandro Volta）發(fā)明第一塊電池之后，人類第一次獲得了持續(xù)穩(wěn)定的電源。隨之而來的是大量應(yīng)用的出現(xiàn)，人們開始利用電，并逐漸將其工程化。但那時(shí)，人們并不真正理解電的本質(zhì)。直到多年以后，詹姆斯·麥克斯韋（James Clerk Maxwell）提出電磁方程組，系統(tǒng)建立起電磁學(xué)理論，人類才真正理解電磁現(xiàn)象的規(guī)律。正是這套理論，使后來一系列技術(shù)得以發(fā)展，包括計(jì)算機(jī)以及現(xiàn)代人工智能。在托馬索看來，今天的人工智能，很可能正處在伏打與麥克斯韋之間的階段。

在那個時(shí)期，從工程突破到理論成熟，中間經(jīng)歷了很多年。當(dāng)然，當(dāng)時(shí)的信息傳播遠(yuǎn)比今天緩慢。正如托馬索稍后提到的，那時(shí)消息主要靠馬匹傳遞。但即便如此，從電池被發(fā)明，到相關(guān)應(yīng)用逐步出現(xiàn)，再到人們真正理解電為何以及如何運(yùn)作，這之間依然相隔多年。他認(rèn)為，我們今天正處在類似的階段。因此，他多年來孜孜不倦地鉆研那些理論原則，試圖以此照亮我們對智能運(yùn)作機(jī)制的理解之路。

今天，我們會討論他近年來一直在研究的一些理論原則。在他看來，如果想構(gòu)建一個高效、可計(jì)算的函數(shù)系統(tǒng)，并讓這些函數(shù)組合出一個能支撐智能行為的泛化計(jì)算體系，那么這些原則在理論上是非常重要的。

如果要給這些原則一個名稱，其中一個則是“稀疏組合性”（sparse compositionality）。它的含義是，如果你希望高效地計(jì)算出某種智能行為，那么這個系統(tǒng)需要由許多相對簡單的函數(shù)構(gòu)成。這里的“簡單”，指的是每一個函數(shù)本身只依賴于少量變量。當(dāng)系統(tǒng)具備這樣的結(jié)構(gòu)，由多個低維函數(shù)組合而成時(shí)，從理論上說，它更有可能實(shí)現(xiàn)泛化。

這也解釋了為什么深度神經(jīng)網(wǎng)絡(luò)需要“深度”才能發(fā)揮作用。它依賴于大量簡單函數(shù)的重復(fù)與組合。這種結(jié)構(gòu)聽起來有些像大腦的新皮層。我們在對話中也討論了，這些原則是否只適用于人工智能和深度學(xué)習(xí)，還是同樣適用于我們的大腦。此外，對話中我們還談到了他是如何發(fā)展出這些理論，以及他為何選擇從理論角度理解智能的。

在這次對話中，我尤其享受于托馬索分享他數(shù)十年來與不同領(lǐng)域杰出人物合作、研究有趣問題的經(jīng)歷，而且他至今仍在繼續(xù)這樣的工作。我們這次對談，只談到了托馬索多年研究中的一小部分，從而了解到了他工作的一個側(cè)面。下面，讓我們正式開始。

學(xué)習(xí)：通向智能理論的真正入口

保羅：大多數(shù)科學(xué)家在科研生涯中都會經(jīng)歷樂觀與悲觀的起伏，尤其是在早期階段。也許那正是關(guān)鍵所在，我也說不太準(zhǔn)。這種起伏既體現(xiàn)在對自己研究進(jìn)展的判斷上，也體現(xiàn)在對整個領(lǐng)域前景的看法上。

舉個例子，當(dāng)年你和大衛(wèi)·馬爾（David Marr）提出分析層級框架，后來又把“學(xué)習(xí)”加入為第四個層級。我想，當(dāng)時(shí)你應(yīng)該是樂觀的，覺得這會真正開啟一個新的維度，也可能會加快研究進(jìn)展。如果大家意識到，學(xué)習(xí)才是需要關(guān)注的重點(diǎn)，或許整個領(lǐng)域都會因此受益。而且，從你的研究軌跡和做事方式來看，，你似乎是一個無論境遇如何，都能穩(wěn)步向前的人。你是個例外嗎？還是說，在這方面你也和常人無異，同樣會經(jīng)歷這種起伏？

托馬索：我也會經(jīng)歷那種起伏。有些起伏很大，可能持續(xù)幾個月，甚至幾年。也有小的，日常的波動，就像是今天樂觀，明天又悲觀的表現(xiàn)?！拔夷茏C明這個定理，我已經(jīng)證明了。”然后又發(fā)現(xiàn)，“不對，我錯了?！敝T如此類。

至于把“學(xué)習(xí)”作為第四個層級加入框架，那是后來回顧時(shí)的說法。其實(shí)在很多年之前，我已經(jīng)意識到了學(xué)習(xí)的重要性。

我第一篇關(guān)于機(jī)器學(xué)習(xí)的論文，大概是在 1981年左右，討論的是非線性學(xué)習(xí)。不過當(dāng)時(shí)我決定先去研究其他問題，比如人類視覺、立體視覺，我們?nèi)绾慰吹饺S世界。在真正回到學(xué)習(xí)這個主題之前，大約花了十年時(shí)間做這些研究?？梢哉f，關(guān)于學(xué)習(xí)的研究我是晚了一些才重新展開的。

保羅：是因?yàn)閷W(xué)習(xí)這個問題更難，還是因?yàn)槟切┢渌膯栴}更有吸引力呢？

托馬索：主要是那些問題更容易下手，而學(xué)習(xí)確實(shí)更具挑戰(zhàn)性、更難一些。而且我一直有一種偏好，也許是錯誤的偏好。回頭看，我總希望在做應(yīng)用或演示之前，先在理論層面理解一種新方法。這更多是一種研究取向的差異，有些人傾向于先嘗試，如果有效，再去發(fā)展理論，或者干脆不發(fā)展理論。比如杰弗里·辛頓（Geoffrey Hinton）就更偏向那種做法，而我恰好相反。

有時(shí)候，這種理論優(yōu)先的做法可能限制了我原本可以更早嘗試的事情，但沒辦法，這就是我的思考方式。直到1990年，我建立起一個機(jī)器學(xué)習(xí)的理論框架之后，才開始把學(xué)習(xí)方法應(yīng)用到各種問題上，比如計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)、基因芯片中的癌癥檢測、文本分類、自動駕駛，幾乎涵蓋了今天人們?nèi)栽谘芯康脑S多方向。當(dāng)時(shí)使用的主要是淺層網(wǎng)絡(luò)，比如徑向基函數(shù)網(wǎng)絡(luò)和核方法，這些90年代的技術(shù)。

保羅：那時(shí)候計(jì)算資源有限，網(wǎng)絡(luò)規(guī)模也更小，所以實(shí)現(xiàn)起來更困難。但從某種意義上說，那些方法反而更有理論基礎(chǔ)，是嗎？

托馬索：是的。1990年，我和一位出色的合作者費(fèi)德里科·吉羅西（Federico Girosi）一起寫了一篇論文，討論了這種淺層網(wǎng)絡(luò)的理論。那實(shí)際上是一套關(guān)于“核機(jī)器”（kernel machines）的理論，只是當(dāng)時(shí)這個術(shù)語還沒有被正式使用。在有了這套理論之后，我才開始把學(xué)習(xí)方法應(yīng)用到遺傳學(xué)、視覺、圖形學(xué)等問題上。

保羅：也就是說，在有了理論之后，你才覺得可以自由地去做那些應(yīng)用。

托馬索：是的。

保羅：我明白，這是你的風(fēng)格。

托馬索：沒錯。從某種意義上說，我對此有些遺憾。也許后來我學(xué)到的一點(diǎn)教訓(xùn)，和伏打的故事有關(guān)。

這只是一個比喻，不必過于字面理解。正如那句話所說，歷史不會簡單重復(fù)，但有時(shí)會以相似的方式出現(xiàn)。伏打與電學(xué)的這個類比，本身就值得思考。很多人或許沒有意識到，在1800年之前，也就是兩百多年前，當(dāng)時(shí)正值拿破侖時(shí)代，信息傳播的速度基本上就是馬匹的速度。

在那之前，人類歷史上信息傳播從未比馬更快。有一些有趣的歷史書信，記錄了人們得知君士坦丁堡陷落時(shí)的反應(yīng)。這在當(dāng)時(shí)的基督教世界是一件重要事件，大約發(fā)生在1453年。人們在巴黎、維也納之間互相通信。在巴黎，有人寫信問：“你聽說了嗎？君士坦丁堡被土耳其人攻陷了?！痹隈R德里，也有類似的書信。那時(shí)，我們甚至可以追蹤信息傳播所花費(fèi)的時(shí)間：傳到維也納用了三周，到巴黎用了四周，到馬德里用了五周。花費(fèi)的時(shí)間，差不多就是一匹馬連續(xù)奔跑所需的時(shí)間。

保羅：前提是天氣還得不錯。

托馬索：是的，前提是天氣好。1800年，伏打的時(shí)代，也是拿破侖的時(shí)代。在那之前，人們對電的認(rèn)識基本上只停留在閃電這樣的自然現(xiàn)象上。直到伏打發(fā)明了第一種能夠持續(xù)產(chǎn)生電流的裝置，科學(xué)家第一次可以在實(shí)驗(yàn)室里系統(tǒng)地研究電現(xiàn)象。隨之而來的是一連串發(fā)現(xiàn)，幾乎可以說是一場科學(xué)的“雪崩”。接下來的十五到二十年里，電化學(xué)迅速發(fā)展。隨后，人們陸續(xù)提出了電學(xué)的一系列基本定律，比如歐姆定律、安培的電磁理論，法拉第發(fā)明了發(fā)電機(jī)和電動機(jī)，厄斯特揭示了電與磁之間的聯(lián)系。所有這些成果，最終在1864年達(dá)到高潮。那一年，麥克斯韋提出了著名的四個電磁方程，系統(tǒng)地建立起電磁學(xué)理論。

保羅：是的，他建立了一整套理論。

托馬索：這可是花了整整六十年。

保羅：而且還是按“馬車時(shí)代”的速度算的。

托馬索：是的，不過那依然是很長的一段時(shí)間。在那六十年里，在麥克斯韋出現(xiàn)之前，人們其實(shí)并不知道電究竟是什么。但這并沒有妨礙電動機(jī)、發(fā)電機(jī)等重要應(yīng)用的發(fā)展。這正是我想說的啟示。在人工智能領(lǐng)域，我們今天很可能也正處在伏打與麥克斯韋之間的某個階段。只是，我們究竟走到哪一步了，很難判斷。

保羅：是的，我們現(xiàn)在可比馬跑得快多了。我聽你講過這個類比。不過我也聽你在別的場合提到過另一種可能：也許人工智能并不需要自己的“麥克斯韋”，也許并不一定需要一套統(tǒng)一理論?？赡阕约河衷谂ν苿永碚摰陌l(fā)展。這兩種說法怎么協(xié)調(diào)？我很難想象你真的相信“不需要理論”。你這么說，是不是在承認(rèn)某種你自己都不信的可能性？

托馬索：是的。某種程度上，我確實(shí)承認(rèn)了一種自己并不真正相信的可能性。不過，我還是希望我們需要理論，而且最終也會有理論。至于它會有多完整，我不知道。但我?guī)缀蹩梢钥隙?，它不會像麥克斯韋那樣，用四個方程就統(tǒng)一一切。它更可能是一組關(guān)于“智能的基本原則”。

就像分子生物學(xué)那樣。我們并沒有幾條簡單的方程來解釋生命，但我們有一些根本性的原則。比如DNA的雙螺旋結(jié)構(gòu)如何復(fù)制和傳遞生物信息。這本身就是一個極其優(yōu)雅的原理。我想，關(guān)于智能的理論可能也會類似。它們是基礎(chǔ)性原則，但未必會像電磁學(xué)那樣，形成一套高度封閉、完整的數(shù)學(xué)體系。這是我的期待。當(dāng)然，也始終存在另一種可能：也許機(jī)器學(xué)習(xí)系統(tǒng)、大型語言模型，或者它們的繼任者，會自己發(fā)展出某種理論，而我們卻未必能夠理解它。

保羅：你剛才提到“原則”，這一點(diǎn)很有意思。我最近和一位神經(jīng)生理學(xué)家亞歷克斯·邁耶（Alex Meyer）聊過。他最近對“整合信息理論”（Integrated Information Theory）非常著迷，認(rèn)為它可能解釋意識。他之所以著迷，是因?yàn)檫@套理論有一整套嚴(yán)格的數(shù)學(xué)形式。它似乎讓人看到一種可能，也許我們可以為意識建立數(shù)學(xué)定律。而這種形式化的表達(dá)，往往會讓科學(xué)家特別有滿足感。

當(dāng)然，進(jìn)化論、分子生物學(xué)、DNA雙螺旋，這些都是重要的原則，但它們不像自然定律那樣有精確的數(shù)學(xué)表達(dá)。某種程度上，我們這些科學(xué)家似乎只有在把現(xiàn)象寫成數(shù)學(xué)關(guān)系時(shí)，才真正感到安心。我本來想說“簡化”，但也許更準(zhǔn)確的詞是“形式化”。那么，你在研究學(xué)習(xí)理論和機(jī)器學(xué)習(xí)理論時(shí)，追求的也是這種形式化的原則嗎？

托馬索：我想是的。我追求的確實(shí)是原則，而且是具有數(shù)學(xué)結(jié)構(gòu)的原則。

保羅：我們接下來要談的“稀疏性”和“組合性”，本質(zhì)上也是原則。但要對它們作出具體而嚴(yán)謹(jǐn)?shù)年愂?，就必須通過定理來證明。而這正是你一直在做的事情。

那這和“形式化的數(shù)學(xué)定律”有什么區(qū)別？它們算是原則，還是定律？

托馬索：像“稀疏組合性”（sparse compositionality）這樣的原則，是一個很有意思的例子，我們稍后可以詳細(xì)討論。我們可以證明，如果一個函數(shù)，或者完成某項(xiàng)任務(wù)的能力，是由圖靈機(jī)在非指數(shù)時(shí)間內(nèi)可計(jì)算的，那么它必然具有組合稀疏的結(jié)構(gòu)。這是可以嚴(yán)格證明的。這意味著，任何運(yùn)行在計(jì)算機(jī)上的系統(tǒng)，比如ChatGPT，都必然是組合稀疏的，因?yàn)樗鼈儽举|(zhì)上是在圖靈機(jī)上實(shí)現(xiàn)的。但這并不意味著，人腦所做的一切也都是組合稀疏的。因?yàn)槲覀儾⒉恢?，大腦的全部能力是否都可以被機(jī)器完全復(fù)現(xiàn)。大多數(shù)人相信可以，不過——

保羅：我明白，這是你的風(fēng)格。你自己呢？

托馬索：我并不完全相信。這個問題我們可以稍后再談。這里還有一個關(guān)鍵點(diǎn)。所謂“可計(jì)算”，并不是指在理論上可以算出來，而是指“高效可計(jì)算”。也就是說，它必須能夠在合理時(shí)間內(nèi)算完，而不是說要算上個宇宙年齡那么久，對吧？

所謂“合理時(shí)間”。換個說法，有些物理過程，比如混沌系統(tǒng)，例如天氣的形成和演化，很可能并不是“高效圖靈可計(jì)算”的。原因在于，如果你想在未來保持一個固定的預(yù)測窗口，也就是說，希望預(yù)測的時(shí)間范圍不隨著時(shí)間推進(jìn)而縮短，那么你就必須以指數(shù)級的方式提高對初始條件的測量精度。從理論上講，它當(dāng)然是可計(jì)算的。但它并不是“高效圖靈可計(jì)算”的。這里存在一個所謂的“可預(yù)測窗口”。順便說一句，這也許和意識的問題有關(guān)。也許意識本身并不是圖靈可計(jì)算的，就像我們無法以任意精度預(yù)測三天后的天氣一樣。

保羅：我?guī)缀鯚o法想象意識是圖靈可計(jì)算的。亞歷克斯·邁耶有一個觀點(diǎn)。他希望在某種數(shù)學(xué)結(jié)構(gòu)與“現(xiàn)象意識”的屬性之間建立一種同構(gòu)關(guān)系，比如主觀體驗(yàn)，也就是所謂的“感質(zhì)”（qualia）。他刻意把意識和認(rèn)知區(qū)分開來。因?yàn)檎J(rèn)知可以被理解為函數(shù)。人工智能做的事情、神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的計(jì)算，本質(zhì)上都是函數(shù)映射。但“同構(gòu)”與“函數(shù)”是兩種完全不同的概念。這之間有很大的差別。

托馬索：是的。在我看來，你有一類函數(shù)，它們本質(zhì)上是可組合的，也能被計(jì)算機(jī)計(jì)算；而另一類函數(shù)則太復(fù)雜了，沒辦法在合理的時(shí)間內(nèi)算出來。

保羅：學(xué)習(xí)本身也是一種函數(shù)。自從你把“學(xué)習(xí)”作為第四個分析層級提出之后，它是不是就成了你長期關(guān)注的核心問題？你幾乎一直在研究它。我真正想問的是，這些年你對“學(xué)習(xí)”的看法有沒有發(fā)生變化？有沒有哪些你過去深信不疑、現(xiàn)在卻不再認(rèn)同的觀點(diǎn)？還是說，你的思路一直都是穩(wěn)步推進(jìn)，并沒有大的轉(zhuǎn)折？

托馬索：我一直認(rèn)為，學(xué)習(xí)是真正通向智能的大門。改變的，其實(shí)不是我對學(xué)習(xí)重要性的看法，而是計(jì)算機(jī)科學(xué)界對它的態(tài)度。很長一段時(shí)間，我一直在對計(jì)算機(jī)系的同事們說，學(xué)習(xí)至關(guān)重要。但大概是在2010年左右，他們才開始認(rèn)真聽我說，至少在麻省理工學(xué)院是這樣。

保羅：他們?yōu)槭裁床辉敢饨邮?？?dāng)時(shí)的癥結(jié)在哪里？

托馬索：這個問題很有意思。其實(shí)，如果從歷史上看，這種情況是有有跡可循的。自1950年代左右計(jì)算機(jī)科學(xué)形成以來，這個領(lǐng)域的基本研究范式一直是“編程”。

保羅：算法，以算法為核心的編程。

托馬索：對。你告訴計(jì)算機(jī)該做什么。哪怕任務(wù)再復(fù)雜，本質(zhì)上也是由人來寫程序、給出明確的指令。研究者的職責(zé)，就是寫出一個足夠聰明的程序。這種模式大概一直持續(xù)到2000 年前后，甚至2010年左右。但如果看看今天的計(jì)算機(jī)科學(xué)，它已經(jīng)完全變了。幾乎所有方向都圍繞機(jī)器學(xué)習(xí)展開。過去，編譯器、程序語言、機(jī)器人、計(jì)算機(jī)視覺、自然語言處理，這些都是彼此獨(dú)立的領(lǐng)域，各自為政。現(xiàn)在幾乎都被機(jī)器學(xué)習(xí)統(tǒng)一了。早在1990年左右，我就說過，機(jī)器學(xué)習(xí)會成為計(jì)算機(jī)科學(xué)的“通用語言”。只是，這個轉(zhuǎn)變確實(shí)花了很長時(shí)間。

我記得在1980年代，我們在麻省理工學(xué)院已在使用電子郵件。那時(shí)我還擔(dān)任一家很有意思的小公司的顧問，這家公司叫“思維機(jī)器公司”（Thinking Machines）。他們開發(fā)了一種叫“連接機(jī)器”（Connection Machine）的超級計(jì)算機(jī)，內(nèi)部有一百萬個非常簡單的處理單元。當(dāng)時(shí)我是他們的企業(yè)研究員。另一位企業(yè)研究員是理查德·費(fèi)曼（Richard Feynman）。

保羅：你的老朋友嗎？

托馬索：對，還有史蒂芬·沃爾夫勒姆（Stephen Wolfram）也是。

當(dāng)時(shí)公司里還有幾位同樣很有意思的人。那時(shí)候，在我看來，電子郵件顯然是未來的發(fā)展方向。但人們又過了整整15年才真正停用傳真機(jī)。

保羅：上個月我還被迫發(fā)了次傳真，我完全搞不懂為什么還要用這玩意兒。

托馬索：當(dāng)時(shí)我基本都放棄電子郵件會普及的希望了，結(jié)果它當(dāng)然還是來了。

保羅：到那時(shí)，你可能已經(jīng)開始用Slack*之類的工具了吧。神經(jīng)網(wǎng)絡(luò)其實(shí)一直都在。PDP學(xué)派，也就是“并行分布式處理”那一批研究者，多年來一直在強(qiáng)調(diào)學(xué)習(xí)的重要性。問題在于多層網(wǎng)絡(luò)的訓(xùn)練，尤其是反向傳播算法（backpropagation），曾經(jīng)被認(rèn)為太慢、效率不高。當(dāng)然，情況在2012年發(fā)生了改變。那一年，在ImageNet數(shù)據(jù)集上的突破顯著降低了錯誤率。所以，并不是神經(jīng)網(wǎng)絡(luò)不存在，而是它們真正發(fā)揮威力，經(jīng)歷了一個漫長的過程。

*譯者注：Slack是一種企業(yè)內(nèi)部即時(shí)通訊與協(xié)作工具，在科技公司和研究團(tuán)隊(duì)中被廣泛使用。

托馬索：神經(jīng)網(wǎng)絡(luò)確實(shí)一直存在。但我當(dāng)時(shí)是個懷疑者。從某種意義上說，我錯了。

保羅：錯在哪兒？

托馬索：在神經(jīng)網(wǎng)絡(luò)的問題上。我當(dāng)時(shí)主要使用的是淺層神經(jīng)網(wǎng)絡(luò)，而不是深度網(wǎng)絡(luò)。因?yàn)樵?008年，甚至2010年之前，淺層網(wǎng)絡(luò)的表現(xiàn)其實(shí)并不比深度網(wǎng)絡(luò)差。這牽涉到另一個話題，就是技術(shù)如何影響思想。我們常常以為，是理論和算法推動了技術(shù)的發(fā)展。但很多時(shí)候，恰恰是當(dāng)下的技術(shù)條件決定了我們能做什么。什么是可行的，什么是容易實(shí)現(xiàn)的，什么又太困難。這些都會在很大程度上影響我們提出什么樣的理論，以及采用什么樣的算法。

保羅：是的，楊立昆也曾強(qiáng)調(diào)過這一點(diǎn)。歷史上這樣的例子太多了。

托馬索：沒錯。我記得大約在1999年左右，我坐過一輛梅賽德斯在德國斯圖加特測試的自動駕駛汽車。

保羅：真的假的？

托馬索：是的。那輛車當(dāng)時(shí)可以在斯圖加特市中心狹窄的街道上自動行駛。當(dāng)然，駕駛座上還是有一位司機(jī)，雙手幾乎貼著方向盤，以防萬一。后備箱里塞滿了計(jì)算機(jī)設(shè)備。我記得，當(dāng)時(shí)有一場為期三天的自動駕駛研討會，只邀請相關(guān)人員參加。最后半天出席的是律師。研討會結(jié)束時(shí)，戴姆勒·奔馳的管理層就拍板了：“不搞自動駕駛了，砍掉這個項(xiàng)目?！?/p>

保羅：我剛想說兩件事。第一，我敢打賭，那輛車的計(jì)算系統(tǒng)里肯定沒用上福島邦彥（Kunihiko Fukushima）的“新認(rèn)知機(jī)”模型。

托馬索：怎么會？不，其實(shí)用到了，因?yàn)槲覀儺?dāng)時(shí)做的基本上就是類似的東西。比如，我們訓(xùn)練了一個行人檢測系統(tǒng)。當(dāng)時(shí)只用了大約200個樣本。以今天的標(biāo)準(zhǔn)來看，這幾乎難以想象。從科學(xué)研究的角度講，那個系統(tǒng)表現(xiàn)得相當(dāng)不錯。但從實(shí)際應(yīng)用的角度看，它每十秒鐘大約會出現(xiàn)三次錯誤。雖然按幀數(shù)計(jì)算，錯誤率其實(shí)并不算高，遠(yuǎn)遠(yuǎn)不到每一幀都出錯。但在真實(shí)駕駛環(huán)境中，這樣的錯誤頻率顯然是不可接受的。無論如何，它都還談不上真正可用。

保羅：托馬索，交個底吧，那天你們到底“撞”了多少人？

托馬索：沒有撞到真正的人啦。

保羅：我還以為你會說，最后他們承諾“五年內(nèi)就能實(shí)現(xiàn)自動駕駛”，因?yàn)榭萍既Φ某兄Z永遠(yuǎn)都是“再過五年”。結(jié)果你卻說他們直接說“不搞了”，看來律師確實(shí)起了作用。

托馬索：總之，戴姆勒公司內(nèi)部終止了這個項(xiàng)目。其實(shí)挺可惜的，當(dāng)時(shí)他們確實(shí)走在最前沿。只是時(shí)機(jī)太早了。

保羅：你剛才說那輛車，是在1999年左右？

托馬索：差不多吧。也許是1997年左右。

保羅：我讀過你的自傳。當(dāng)然，在那之前我也已經(jīng)了解了你很多研究工作。你在書里提到，自己在1980年代初期就開始做目標(biāo)識別的研究，也就是在當(dāng)時(shí)的場景里，檢測行人或物體。這顯然和神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)問題密切相關(guān)。你當(dāng)時(shí)曾懷疑，休伯爾（David Hubel）和維澤爾（Torsten Wiesel）提出的“簡單細(xì)胞”和“復(fù)雜細(xì)胞”模型，是否真的能夠通過層級組合構(gòu)成對物體的表征。后來你承認(rèn)自己錯了，并發(fā)展出HMAX模型，也就是基于層級結(jié)構(gòu)的目標(biāo)識別系統(tǒng)。那段時(shí)間，你是怎么理解“學(xué)習(xí)”這個問題的？

托馬索：在那個時(shí)候，我們所謂的“學(xué)習(xí)”，其實(shí)只發(fā)生在最后一層。前面的層級結(jié)構(gòu)負(fù)責(zé)做特征處理，但這些特征并不是通過復(fù)雜的學(xué)習(xí)得到的，而是用一種很簡單的方式構(gòu)建出來。比如，從圖像里隨機(jī)取一些局部片段作為特征。真正的學(xué)習(xí)，主要是訓(xùn)練分類器的權(quán)重，也就是網(wǎng)絡(luò)最后一層的參數(shù)。

保羅：明白了。

托馬索：原因在于，我當(dāng)時(shí)真的不相信“反向傳播”在生物學(xué)上是合理的。

保羅：你這個懷疑是有道理的。

托馬索：從某種意義上說，我當(dāng)時(shí)是對的。但在機(jī)器學(xué)習(xí)的實(shí)踐層面，我又是錯的。我當(dāng)時(shí)是被這個“生物學(xué)約束”給絆住了?，F(xiàn)在，我們開始有一些新的想法。從神經(jīng)科學(xué)的角度看，這些模型似乎更合理。當(dāng)然，我不知道它們是不是對的，這還需要實(shí)驗(yàn)來檢驗(yàn)。但至少，是有可能的。

它未必是嚴(yán)格意義上的反向傳播。更像是一種更一般形式的梯度下降。而這種機(jī)制，也許可以通過神經(jīng)元連接的自組織方式自然實(shí)現(xiàn)。聽起來有點(diǎn)神奇，但未必真的那么神奇。我覺得，這是神經(jīng)科學(xué)里一個非常關(guān)鍵的問題。因?yàn)槿绻覀冋娴哪茉诖竽X里找到某種與反向傳播等價(jià)的機(jī)制，那神經(jīng)科學(xué)和機(jī)器學(xué)習(xí)之間就會建立起一種非常深的聯(lián)系。到那時(shí)，我們就可以看著具體的神經(jīng)回路、突觸結(jié)構(gòu)，說：“哦，這里正在發(fā)生這樣的計(jì)算?！?/p>

保羅：這算是個題外話，我稍微跳一下話題。你剛才提到自己在做一些自組織、具備生物可行性的可塑性網(wǎng)絡(luò)模型。其實(shí)這些年也有不少研究在嘗試提出“生物學(xué)版本”的學(xué)習(xí)機(jī)制，希望在功能上復(fù)現(xiàn)反向傳播。已經(jīng)有好幾種概念驗(yàn)證方案了，只是它們在多大程度上真正模擬了反向傳播，效果各有不同。

我最近讀了你的一篇論文，里面幾乎全是深度學(xué)習(xí)理論的術(shù)語。我心里在想，“天哪，我也算懂一點(diǎn)，比如流形之類的概念，可一旦進(jìn)入那些技術(shù)細(xì)節(jié)，就有點(diǎn)跟不上了?！蹦泔@然已經(jīng)完全沉浸在那個世界里。所以我很好奇，你平時(shí)思考問題時(shí)，更多是在機(jī)器學(xué)習(xí)的框架里思考，還是在生物學(xué)習(xí)的框架里思考？如果這兩者可以區(qū)分的話，你的大腦大概是怎么分配的？

托馬索：很長一段時(shí)間里，大概是五五開。但在過去五年左右，我可能稍微更偏向人工神經(jīng)網(wǎng)絡(luò)這一側(cè)。

保羅：是因?yàn)槟抢锏臄?shù)據(jù)更充足，更方便做驗(yàn)證嗎？

托馬索：也不完全是，不單純因?yàn)閿?shù)據(jù)。更主要的原因是，我一直被一個問題困擾：我們到底需不需要一套真正的理論？這兩三年來，我越來越覺得，自己可能抓到了一些原則。當(dāng)然，我并不認(rèn)為它們是最終答案，更談不上是最關(guān)鍵的原則。但至少，它們看起來像是理解人工機(jī)器學(xué)習(xí)系統(tǒng)時(shí)繞不開的一部分。

為什么淺層理論不夠？

深度與組合結(jié)構(gòu)的必要性

保羅：那我們現(xiàn)在就來談?wù)勥@些吧。“稀疏組合性”是你目前關(guān)注的核心原則嗎？

托馬索：它是其中之一。對我來說，它確實(shí)解決了一個長期困擾我的問題。正如我之前提到的，我總是需要對正在發(fā)生的事情至少有一個理論上的輪廓性的理解。大約在2003年左右，我和一位非常著名的數(shù)學(xué)家史蒂芬·斯梅爾（Stephen Smale）一起，為美國數(shù)學(xué)學(xué)會寫了一篇關(guān)于機(jī)器學(xué)習(xí)的綜述文章。在那篇文章中，我們比較系統(tǒng)、也相當(dāng)完整地梳理了淺層網(wǎng)絡(luò)、核機(jī)器等模型的理論基礎(chǔ)。

當(dāng)時(shí)在討論部分，我專門寫了幾段文字，談到一個讓我始終想不通的難題。按照當(dāng)時(shí)的理論框架，淺層網(wǎng)絡(luò)已經(jīng)足夠表達(dá)我們關(guān)心的函數(shù)，并不需要多層深度結(jié)構(gòu)?？墒菑纳韺W(xué)角度看，例如視覺皮層的結(jié)構(gòu)，卻明顯是多層級組織，而且這些層級似乎具有功能上的重要性。于是問題就出現(xiàn)了。既然淺層理論已經(jīng)足夠，為什么大腦卻是分層的。深度到底有什么必要性。這個問題讓我卡了很久。在真正愿意去接受并應(yīng)用深度網(wǎng)絡(luò)之前，我始終沒有想明白這一點(diǎn)。后來我逐漸意識到，“稀疏組合性”很可能正是這個謎題的答案，同時(shí)也解釋了其他類似的問題。

保羅：我可以想象兩種路徑。一種是，你先訓(xùn)練深度網(wǎng)絡(luò)，然后去觀察它們的內(nèi)部表征，從這些表征中總結(jié)出某些結(jié)構(gòu)性的規(guī)律。另一種是，你從一個更偏理論、更強(qiáng)調(diào)原則的角度出發(fā)，先思考哪些結(jié)構(gòu)特征在原理上應(yīng)該是重要的。你的想法是怎么形成的？

托馬索：更接近第二種方式。這個想法最初其實(shí)是為了回答另一個相關(guān)的問題，那就是，為什么卷積神經(jīng)網(wǎng)絡(luò)似乎明顯優(yōu)于全連接網(wǎng)絡(luò)。在卷積網(wǎng)絡(luò)中，就像視覺皮層一樣，每個神經(jīng)單元只接收一小部分輸入，而不是連接到所有輸入。舉個簡單的例子。假設(shè)你有大量感光受體，也就是視網(wǎng)膜上的光感受器。第一層中的每一個單元，只會“看到”其中一個很小的局部區(qū)域，而不是整個輸入圖像。

保羅：也就是一個小的局部區(qū)域。

托馬索：對，就是局部區(qū)域。于是我開始思考這樣一個問題。假設(shè)我們有一個多變量函數(shù)。為了簡單起見，我們設(shè)它有八個輸入變量，記作X1、X2、一直到X8?，F(xiàn)在再設(shè)想，這個函數(shù)并不是一個“整體式”的函數(shù)，而是具有某種層級結(jié)構(gòu)。也就是說，它是“函數(shù)的函數(shù)的函數(shù)”。例如，我們先定義一個關(guān)于X1和X2的函數(shù)。再定義另一個關(guān)于X3和X4的函數(shù)。接著，再定義一個函數(shù)，把前面兩個函數(shù)的輸出作為輸入。依此類推。從結(jié)構(gòu)上看，它就像一棵二叉樹。最底層是八個輸入節(jié)點(diǎn)，而每一個上層節(jié)點(diǎn)，都是由兩個變量，或者兩個子函數(shù)的輸出，組合而成。

這個結(jié)構(gòu)，可以看作是卷積神經(jīng)網(wǎng)絡(luò)的一種“玩具模型”。這里卷積本身并不是關(guān)鍵。所謂卷積，就是權(quán)重在平移下保持不變。但真正重要的，是這種“局部組合”的結(jié)構(gòu)。如果我們考慮一個普通的八變量函數(shù)，在一般情況下，就會遇到所謂的“維度災(zāi)難”（curse of dimensionality）。換句話說，為了逼近這樣一個函數(shù)，你所需要的參數(shù)數(shù)量，往往會隨著變量數(shù)量呈指數(shù)級增長。而指數(shù)級增長，在計(jì)算上是災(zāi)難性的。

保羅：如果這些變量彼此獨(dú)立，沒有高度相關(guān)性，那就是最糟糕的情況。

托馬索：沒錯。函數(shù)的平滑性在某種程度上可以緩解這個問題，但根本的困難還是會出現(xiàn)。舉個例子，如果我們有一個包含一千個變量的函數(shù)（其實(shí)這并不算多），一張32×32的小圖像就大約有一千個像素?，F(xiàn)在設(shè)想，我們要逼近一個關(guān)于這1000個像素的函數(shù)，并允許大約10%的逼近誤差。在一般情況下，你可能需要大約101000個參數(shù)。這是一個極其巨大的數(shù)字。作為對比，宇宙中質(zhì)子的總數(shù)大約是1080。

保羅：我就知道你會用電子或者質(zhì)子的數(shù)量來做類比。一旦參數(shù)數(shù)量超過宇宙中質(zhì)子的總數(shù)，那肯定不是個好兆頭。

托馬索：但如果這個函數(shù)具有我剛才說的那種結(jié)構(gòu)，也就是“函數(shù)的函數(shù)”的層級結(jié)構(gòu)，情況就完全不同。我們最初稱之為“層級局部性”，現(xiàn)在更準(zhǔn)確的術(shù)語是“稀疏”。所謂“組合稀疏”，是指整個函數(shù)是由多個子函數(shù)組合而成，而每一個子函數(shù)只依賴于少量變量。

保羅：這里的“稀疏”是一個精確定義的概念嗎？還是只是一個方向性的說法？比如，稀疏是不是意味著變量少于三個？還是說只是相對而言比較少？

托馬索：它首先是一個方向性的概念。不過考慮到指數(shù)級復(fù)雜度帶來的后果，我會給出一個數(shù)量級上的判斷。比如在二值變量的情況下，“稀疏”大致意味著每個子函數(shù)所涉及的變量數(shù)量少于40個。

保羅：明白了。

托馬索：如果是非二值變量，那么這個數(shù)量級大概在14個左右。

保羅：那這顯然是非常稀疏了。

托馬索：是的。

保羅：那么，“稀疏”是一方面。你剛才說“函數(shù)的函數(shù)”，那既是“組合”的含義，也是“層級”的含義。你能區(qū)分一下“層級性”和“組合性”嗎？

托馬索：嚴(yán)格來說，兩者并沒有實(shí)質(zhì)差別。我認(rèn)為它們只是不同的說法。我更喜歡“組合”這個詞，因?yàn)槲覀冇懻摰氖呛瘮?shù)的組合，也就是函數(shù)的函數(shù)的函數(shù)。這個概念在很多領(lǐng)域都會出現(xiàn)，比如語言學(xué)中的“組合性”。意思是，我們可以用簡單的基本單元，構(gòu)建出更大的結(jié)構(gòu)、更豐富的意義。諾姆·喬姆斯基強(qiáng)調(diào)過這一點(diǎn)。赫爾曼·馮·亥姆霍茲（也曾指出，語言的力量在于能夠用有限的簡單元素生成無限復(fù)雜的表達(dá)。但更有意思的是，這種能力并不只屬于語言。它實(shí)際上是所有能夠被高效計(jì)算的函數(shù)所共有的一個性質(zhì)。

保羅：也就是說，這是必然的。

托馬索：是的，必然如此。

保羅：那么，這里的瓶頸究竟在哪里？關(guān)鍵點(diǎn)是什么？關(guān)鍵在于函數(shù)本身嗎？如果從進(jìn)化的角度來想，進(jìn)化是如何“找到”那些能夠在這種稀疏組合結(jié)構(gòu)中高效協(xié)作的函數(shù)的？聽起來這像是一個非常精細(xì)、甚至有些脆弱的系統(tǒng)，但我們知道大腦其實(shí)是高度穩(wěn)健的。是否問題的關(guān)鍵在于，你必須選對那些函數(shù)？而且無論如何，這些函數(shù)仍然需要通過學(xué)習(xí)獲得。

托馬索：這個問題非常有意思。我不確定這算是一種沖突，還是說是一條分界線，但它確實(shí)揭示了經(jīng)典數(shù)學(xué)和計(jì)算機(jī)科學(xué)之間的一種差異。在經(jīng)典數(shù)學(xué)中，我們通常是先定義一個函數(shù)空間。這個空間具有某些性質(zhì)，比如不同形式的平滑性，或者滿足若干階導(dǎo)數(shù)存在等條件。函數(shù)是在這樣的抽象空間里被研究的。而在計(jì)算機(jī)科學(xué)中，思路完全不同。計(jì)算機(jī)科學(xué)里，每一個函數(shù)都是由少量基本原語構(gòu)造出來的。你從“與”、“或”、“非”這些最基本的邏輯操作開始，然后通過不斷組合，構(gòu)建出越來越復(fù)雜的函數(shù)。在這里，“組合”本身就是一種基本操作。因此，對計(jì)算機(jī)科學(xué)家來說，組合性并不是某種偶然的演化結(jié)果，而是所有能夠被計(jì)算的函數(shù)必然具有的結(jié)構(gòu)特征。

保羅：明白了。

托馬索：對數(shù)學(xué)家來說，這個觀點(diǎn)會更難接受，這并不是他們熟悉的那套思維方式。

保羅：我差點(diǎn)忘了，我們現(xiàn)在是在計(jì)算機(jī)科學(xué)的地盤。一切最終都要回到布爾邏輯，對吧？

托馬索：是的。事實(shí)上，在我為一個包含28篇文章的理論文集撰寫的論文中，有一篇就專門討論一個問題：“實(shí)數(shù)是否真的存在？”這并不是一個玩笑式的問題。因?yàn)橐坏┪覀冋劦綀D靈可計(jì)算性，原則上講，任何一個數(shù)最終都必須被表示為布爾變量，也就是0和1的有限或無限序列。哪怕這個序列非常非常長，本質(zhì)上它仍然是由布爾值構(gòu)成的。

從計(jì)算機(jī)科學(xué)的角度來看，實(shí)數(shù)并不是一個真正“存在”的對象。如果你去看看數(shù)學(xué)的基礎(chǔ)，支撐實(shí)數(shù)的“連續(xù)統(tǒng)假設(shè)”，對于基礎(chǔ)數(shù)學(xué)來說也并不是非有不可的。即便放棄完整的實(shí)數(shù)連續(xù)統(tǒng)，我們在很多基礎(chǔ)數(shù)學(xué)結(jié)構(gòu)中也不會損失太多。當(dāng)然，有些實(shí)數(shù)是可計(jì)算的，比如π或e。但還有大量實(shí)數(shù)是不可計(jì)算的。從某種意義上說，那些不可計(jì)算的實(shí)數(shù)更像詩歌。它們在概念上是存在的，卻無法被真正寫出來、算出來，或在計(jì)算機(jī)中實(shí)現(xiàn)。

保羅：換句話說，毫無用處。

托馬索：在計(jì)算意義上，毫無用處。你沒法拿它們做實(shí)驗(yàn)，什么都干不了。

保羅：好吧，我們剛才講到哪里了？我們有一組稀疏的組合結(jié)構(gòu)。那么，你究竟證明了什么？

托馬索：我們證明的是這樣一個命題：任何“高效可計(jì)算”的函數(shù)，也就是說，能夠在非指數(shù)時(shí)間內(nèi)由圖靈機(jī)計(jì)算完成的函數(shù)，在結(jié)構(gòu)上必然具有組合稀疏性。換句話說，這樣的函數(shù)一定可以被分解為若干子函數(shù)的組合，而每一個子函數(shù)只依賴于少量變量。也就是說，每一層都是“稀疏”的。而且，這種分解方式并不是唯一的。對于同一個函數(shù)，往往存在許多不同的分解結(jié)構(gòu)。如果把這種分解推到極端，你可以得到一個非常深的層級結(jié)構(gòu)，由最簡單、最基礎(chǔ)的函數(shù)逐層組合而成。最終，這些最基本的操作可以還原為布爾邏輯中的“與”、“或”、“非”。從理論上講，任何圖靈機(jī)程序，都可以在數(shù)學(xué)上等價(jià)地轉(zhuǎn)化為一個布爾函數(shù)。因此，只要一個函數(shù)是高效圖靈可計(jì)算的，它就必然可以表示為由若干低維、稀疏子函數(shù)組成的層級結(jié)構(gòu)。

保羅：那么，從學(xué)習(xí)的角度來看，如果一個函數(shù)確實(shí)具有這種由稀疏子函數(shù)構(gòu)成的層級結(jié)構(gòu)，那么學(xué)習(xí)這些基本的布爾運(yùn)算及其組合方式，在理論上就不會帶來指數(shù)級的計(jì)算負(fù)擔(dān)，對嗎？

托馬索：是的。關(guān)鍵在于，如果我能夠獲得每一個子函數(shù)的輸入與輸出數(shù)據(jù)，那么每一個子函數(shù)本身都是容易學(xué)習(xí)的?？梢杂靡粋€多層神經(jīng)網(wǎng)絡(luò)來類比。通常，我們只有整個網(wǎng)絡(luò)的輸入，以及整個網(wǎng)絡(luò)最終的輸出。只憑這兩端的數(shù)據(jù)進(jìn)行訓(xùn)練，確實(shí)可能很困難。但如果我能夠獲得中間層的數(shù)據(jù)，也就是說，我不僅知道整體輸入和整體輸出，還知道每一層的輸入與輸出，那么每一層都可以被單獨(dú)、高效地學(xué)習(xí)。既然每一個子函數(shù)都容易學(xué)會，那最終組合起來的整體函數(shù)，自然也就學(xué)會了。

這也是Transformer模型之所以有效的原因之一。它的“魔力”在于采用了自回歸訓(xùn)練框架。模型不是被要求讀完整本書，然后只預(yù)測最后一個字、最后一個詞，或者最后一句話。它的訓(xùn)練方式是這樣的：給定前面的詞，預(yù)測下一個詞。然后把預(yù)測得到的結(jié)果加入上下文，再繼續(xù)預(yù)測下一個詞。換句話說，它不斷在學(xué)習(xí)局部的子任務(wù)。每一步，其實(shí)都類似于在學(xué)習(xí)一個小規(guī)模的子函數(shù)。

保羅：明白了。

托馬索：這樣一來，我就可以預(yù)測下一個詞，再把新生成的詞加入到當(dāng)前序列中，繼續(xù)預(yù)測下一個詞，如此循環(huán)。

保羅：也就是說，你預(yù)測出來的那個詞，會被納入新的上下文，然后再用它去預(yù)測接下來的詞？

托馬索：正是如此。

從維度災(zāi)難到可泛化：

為什么“少參數(shù)”意味著“能泛化”

保羅：我們還是回到機(jī)器學(xué)習(xí)本身。來談?wù)劮夯芰Π?。我知道你很關(guān)心這個問題。既然深度網(wǎng)絡(luò)的優(yōu)勢在于能夠表達(dá)這種“稀疏組合”的結(jié)構(gòu)，那么這種結(jié)構(gòu)對泛化能力意味著什么？

現(xiàn)在的大多數(shù)機(jī)器學(xué)習(xí)任務(wù)都非常“狹窄”。而且還有一個著名的難題，叫做“持續(xù)學(xué)習(xí)”。模型在某個任務(wù)上訓(xùn)練完成后，一旦轉(zhuǎn)向新的任務(wù)，往往不得不重新學(xué)習(xí)，甚至?xí)z忘之前掌握的知識。真正難得的是“泛化能力”。那才是人工智能追求的目標(biāo)，是彩虹盡頭的那一罐金子，是所有人都想找到的寶藏。那么，這種稀疏的組合結(jié)構(gòu)，究竟如何幫助我們理解泛化？它和泛化能力之間到底有什么內(nèi)在聯(lián)系？

托馬索：這種結(jié)構(gòu)，對整個機(jī)器學(xué)習(xí)框架都至關(guān)重要。當(dāng)前主流的機(jī)器學(xué)習(xí)范式，大致可以這樣描述。假設(shè)我面對的是一個未知函數(shù)。以ImageNet為例。我希望完成圖像分類任務(wù)，一共有1000個類別。我需要一個函數(shù)，把一張200×200的圖像映射到1000個類別中的某一個。也就是說，把大約4萬個輸入變量映射到一個類別標(biāo)簽上。但問題在于，我并不知道這個函數(shù)的真實(shí)形式。我手里只有訓(xùn)練數(shù)據(jù)，也就是輸入圖像，以及對應(yīng)的正確類別標(biāo)簽。訓(xùn)練集中包含大量這樣的樣本對。我的任務(wù)，就是根據(jù)這些樣本去逼近那個未知函數(shù)。

在這個框架下，我需要使用一個足夠強(qiáng)大的通用工具，來逼近這個未知函數(shù)?！跋∈杞M合性”這一原則告訴我們，你應(yīng)該用的通用工具就是深度網(wǎng)絡(luò)。之所以強(qiáng)調(diào)“深度”，是因?yàn)橹灰粋€函數(shù)是可計(jì)算的，它就可以表示為若干子函數(shù)的組合。深度結(jié)構(gòu)正是這種組合形式的自然表達(dá)。這是數(shù)學(xué)上的結(jié)論，也是理論的核心信息。理論還給出了一個重要的保證。假設(shè)你擁有一個多層網(wǎng)絡(luò)，并且能夠成功完成優(yōu)化，那么你的任務(wù)就是調(diào)節(jié)網(wǎng)絡(luò)中的參數(shù)?？梢园堰@些參數(shù)想象成許多旋鈕，比如十萬個旋鈕。你需要不斷調(diào)整這些旋鈕，使網(wǎng)絡(luò)在訓(xùn)練集上的輸出盡可能逼近那個未知函數(shù)。換句話說，你要調(diào)節(jié)參數(shù)，讓網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)上實(shí)現(xiàn)正確分類。

保羅：弗蘭克·羅森布拉特（Frank Rosenblatt）當(dāng)年確實(shí)是用手去擰那些旋鈕的，不過我明白你說的是現(xiàn)代意義上的“調(diào)參數(shù)”。

托馬索：是的。理論告訴我們，你不需要無窮多、也不需要指數(shù)級數(shù)量的“旋鈕”。如果函數(shù)具有稀疏組合結(jié)構(gòu)，那么所需的參數(shù)數(shù)量就不會呈指數(shù)增長，而是控制在一個非指數(shù)級的規(guī)模內(nèi)。這個結(jié)論非常重要。它不僅意味著我們能夠有效地逼近復(fù)雜函數(shù)，更關(guān)鍵的是，它為泛化能力提供了保證。本質(zhì)上，這里存在一種權(quán)衡關(guān)系。背后當(dāng)然是數(shù)學(xué)推導(dǎo)，但直觀地講，如果一個函數(shù)可以用相對較少的參數(shù)來表示，那么模型不僅能夠擬合訓(xùn)練數(shù)據(jù)，還更有可能在未見過的數(shù)據(jù)上表現(xiàn)良好，也就是實(shí)現(xiàn)泛化。

如果你使用一種需要極其龐大甚至無限參數(shù)數(shù)量的方法，就會面臨兩個問題。第一，你在計(jì)算上根本無法處理例如101000這樣規(guī)模的參數(shù)。第二，你將無法實(shí)現(xiàn)泛化。你只是簡單地?cái)M合了訓(xùn)練數(shù)據(jù)。

保羅：也就是說，如果模型參數(shù)過多，本質(zhì)上就會發(fā)生過擬合。

托馬索：沒錯。不過這個問題比較微妙，需要更深入地討論“過參數(shù)化”究竟意味著什么。因?yàn)榻裉斓纳窠?jīng)網(wǎng)絡(luò)確實(shí)是過參數(shù)化的，它們的參數(shù)數(shù)量往往超過訓(xùn)練數(shù)據(jù)的樣本數(shù)量。但關(guān)鍵在于，如果沒有“稀疏組合性”帶來的理論保證，所需的參數(shù)數(shù)量會大得多。那樣的話，幾乎不可能實(shí)現(xiàn)我們現(xiàn)在所看到的這種效果。

保羅：我明白了。剛剛我突然想到一個類比。是不是可以把這種函數(shù)結(jié)構(gòu)看作處在兩個極端之間？一端是傳統(tǒng)的符號人工智能。那里有清晰分離的模塊，各自執(zhí)行特定功能，并彼此通信。另一端則是極其底層的實(shí)現(xiàn)方式。每一個神經(jīng)元就像一個簡單的邏輯門，執(zhí)行非常基礎(chǔ)的操作，而整個系統(tǒng)的能力來自于這些簡單單元的大規(guī)模組合。從某種意義上說，這些結(jié)構(gòu)是不是可以理解為一簇簇布爾函數(shù)節(jié)點(diǎn)的組合，只是它們以更加連續(xù)、分布式的方式組織起來。我這樣理解對嗎？

托馬索：可以這樣理解。或許最清晰的方式，是回到那棵二叉樹的類比。最底層是輸入節(jié)點(diǎn)，最頂端是一個輸出節(jié)點(diǎn)。隨著結(jié)構(gòu)向上延伸，寬度逐層減少。這有點(diǎn)像視覺皮層的第一層神經(jīng)元，每個神經(jīng)元只關(guān)注圖像中的一個局部區(qū)域。接著，在上一層的神經(jīng)元中，每個單元會接收并整合第一層神經(jīng)元的輸出。

保羅：上一層的單元數(shù)量會減少一半，對嗎？

托馬索：是的。

保羅：也就是說，上層的維度比下層更低？

托馬索：正是如此。這個過程可以不斷向上推進(jìn)。每一層神經(jīng)元讀取下層神經(jīng)元的輸出，并將整合后的信息傳遞到更高層。隨著層級上升，單個神經(jīng)元的感受野會越來越大。這與視覺皮層的組織方式高度相似。在V1區(qū)域，神經(jīng)元的感受野非常小。到了V2和V4，感受野逐漸擴(kuò)大。而在IT區(qū)域，神經(jīng)元可以整合更大范圍的視覺信息。

從AI到大腦：

組合性是否存在于真實(shí)神經(jīng)系統(tǒng)？

保羅：你說“大致相似”，我也覺得只能說是“大致”。不過我還想問，你認(rèn)為這個理論結(jié)果在理解真實(shí)的大腦時(shí)到底有多大意義？它真的適用于生物大腦嗎？

托馬索：首先，我并不確定。這是一個開放的問題。

保羅：但我知道你很在意這個問題。

托馬索：我當(dāng)然關(guān)心這個問題。我的意思是，從數(shù)學(xué)角度來說，我可以非常確定地告訴你，像ChatGPT這樣的系統(tǒng)，以及所有運(yùn)行在計(jì)算機(jī)上的類似系統(tǒng)，都必須具備“稀疏組合性”。凡是能夠在計(jì)算機(jī)上高效運(yùn)行的系統(tǒng)，都必然具有這種結(jié)構(gòu)。這一點(diǎn)幾乎是邏輯上的必然。

但對于人類大腦，我無法給出同樣確定的結(jié)論。我猜測，大腦的某些功能，例如語言、數(shù)學(xué)，以及其他一些明顯具有結(jié)構(gòu)性的認(rèn)知能力，本身就表現(xiàn)出強(qiáng)烈的組合特征。它們似乎天然符合這種層級分解的形式。但也可能存在另一種情況。比如進(jìn)化上更古老的腦區(qū)，例如我們魚類祖先所具有的中腦結(jié)構(gòu)，或者像基底節(jié)這類深層腦結(jié)構(gòu)，那里也許并不存在明顯的模塊化，也未必體現(xiàn)出清晰的組合結(jié)構(gòu)。是有這種可能的。

保羅：是的，比如說，如果基底節(jié)只是起到“增益調(diào)節(jié)”的作用，那它本身可能就不需要那種組合結(jié)構(gòu)。

托馬索：也許確實(shí)不需要。也許我們甚至無法高效地模擬它。這種說法多少有點(diǎn)科幻意味，只是一種理論上的可能性。我并不是在斷言這一點(diǎn)。就我個人而言，我并不認(rèn)為大腦中存在某種功能是完全無法用計(jì)算機(jī)程序描述的。但我也承認(rèn)，這種可能性在邏輯上不能被徹底排除。

保羅：目前還沒有定論。你大概更傾向于認(rèn)為，真正與智能密切相關(guān)的是大腦皮層，對嗎？換句話說，人工智能主要是在模擬皮層功能。

托馬索：我認(rèn)為，大腦皮層很可能具有明顯的組合結(jié)構(gòu)，因此也更容易在計(jì)算機(jī)中加以模擬。至于大腦的其他部分，就未必如此。這其實(shí)有點(diǎn)諷刺。按照直覺，那些在進(jìn)化上更古老、結(jié)構(gòu)看起來更簡單的腦區(qū)，反而可能更難被模擬。

保羅：目前也沒有跨物種的證據(jù)，能夠證明這種組合結(jié)構(gòu)確實(shí)存在于大腦中，對嗎？

托馬索：沒有。

保羅：我還想問一個問題，物理學(xué)之所以成功，很大程度上依賴于理論與實(shí)驗(yàn)之間的持續(xù)對話。理論家提出假設(shè)，實(shí)驗(yàn)者去驗(yàn)證，然后再反過來修正理論。在你這種情況下，作為一個偏理論的人，你會主動去尋找實(shí)驗(yàn)驗(yàn)證嗎？你會不會去說服實(shí)驗(yàn)學(xué)者，比如說，“我需要這組數(shù)據(jù)”，或者“看看我的理論，大腦里有沒有這樣的結(jié)構(gòu)”？你通常是如何推進(jìn)這種合作的？

托馬索：我在職業(yè)生涯中一直在這么做。只是最近幾年可能少了一些。我至今都忘不了那種興奮感。有一次，我對果蠅的行為提出了一個理論預(yù)測，其實(shí)是一個相當(dāng)簡單的預(yù)測。后來實(shí)驗(yàn)做出來，結(jié)果竟然完全符合——

保羅：天哪。那種感覺一定非常震撼吧。

很多理論學(xué)者都會有一種感覺：理論在邏輯上是成立的，所以它“必然”是正確的。對理論本身，他們已經(jīng)建立起一種高度的信心。但真正看到理論在現(xiàn)實(shí)世界中被驗(yàn)證，看到實(shí)驗(yàn)結(jié)果與推導(dǎo)嚴(yán)絲合縫地對應(yīng)，那又是完全不同層次的體驗(yàn)。

托馬索：沒錯，正是這樣。這種體驗(yàn)很有意思，而且是分層次的。雖然我不是數(shù)學(xué)家，也算不上優(yōu)秀的數(shù)學(xué)家，但有幾次我確實(shí)證明過一些結(jié)果，那種感覺確實(shí)令人興奮。但當(dāng)實(shí)驗(yàn)真正驗(yàn)證了你的理論，那種興奮是完全不同的。

保羅：我其實(shí)有很多問題想問，所以在對話過程中一有機(jī)會就忍不住插進(jìn)來。你覺得，誰更需要深度學(xué)習(xí)理論？是那些構(gòu)建人工智能系統(tǒng)的機(jī)器學(xué)習(xí)工程師，還是試圖解釋大腦機(jī)制的神經(jīng)科學(xué)家？

托馬索：如果你去問OpenAI這樣的機(jī)構(gòu)里的頂尖研究人員，我相當(dāng)確定，他們大概會說，我們并不需要理論。

保羅：聽到他們這么說，你心里是什么感覺？

托馬索：我想......大概已經(jīng)習(xí)慣了吧。

保羅：以你的經(jīng)歷，完全可以說一句：“再過二十年你們就知道了”

托馬索：是啊。不過你永遠(yuǎn)不知道歷史會不會重演。

保羅：也是。

托馬索：而且這次情況非常特殊，我們研究的對象本身就是“智能”。所以有時(shí)候我也會擔(dān)心，也許理論真的會從此消失。

保羅：那不可能吧。

托馬索：我的立場更像是很多年前布萊茲·帕斯卡（Blaise Pascal）提出的那個“賭注”，所謂的“帕斯卡賭注”。帕斯卡認(rèn)為，從理性角度講，更合理的選擇是押注“上帝存在”，并據(jù)此行事。因?yàn)槿绻阊哄e了，假設(shè)上帝不存在，那損失有限；但如果你押的是“上帝不存在”，而事實(shí)上存在，那代價(jià)就是無限的，比如你將要永遠(yuǎn)下地獄。

保羅：不過帕斯卡賭的是“永恒”。而你有這么長一段成功的經(jīng)歷和成果積累，我想你大概會比帕斯卡更有底氣一點(diǎn)吧。

托馬索：是的。我主要的觀點(diǎn)其實(shí)是：去賭一個超級智能會在短短三五年內(nèi)接管我們，這毫無意義。更理性的賭注是，我們還有相當(dāng)長的一段時(shí)間可以和機(jī)器合作，提升我們的智能，看看我們能一起做些什么。至于所謂的通用人工智能是否會“接管”，即便真的會發(fā)生，那也至少是很多年以后的事，甚至未必會發(fā)生。

保羅：我其實(shí)不太相信AGI是一個明確存在的東西，不過那是另一個話題了。倒是宣稱AGI即將到來這件事，確實(shí)很賺錢。

托馬索：是的。不過從經(jīng)濟(jì)角度看，這種敘事其實(shí)也有些風(fēng)險(xiǎn)。說實(shí)話，在我的職業(yè)生涯中，真正讓我震驚的時(shí)刻，并不是 ImageNet。2012年深度網(wǎng)絡(luò)在ImageNet分類任務(wù)上的成功，當(dāng)然非常重要，它們比之前的方法提升了大約20%，這已經(jīng)是巨大的進(jìn)步，但這種改進(jìn)本身并沒有讓我特別驚訝。真正讓我感到震撼的是2017年。后來我逐漸意識到Transformer模型，以及最終出現(xiàn)的 ChatGPT，才是更大的突破。直到今天，我依然對大語言模型的能力感到驚嘆。即便它們并不像我們?nèi)祟惸菢铀伎?，它們依然非常?qiáng)大。

保羅：確實(shí)，它們強(qiáng)得驚人。

托馬索：從圖靈測試的標(biāo)準(zhǔn)來看，它們當(dāng)然可以被稱為“智能”。在人類歷史上，這是第一次，我們不僅擁有自己的智能，還面對另一種智能形態(tài)。而且它們與我們不同。這對我們來說，是一個非常難得的機(jī)會，我們可以去研究：什么是共通的，什么是不同的。這有點(diǎn)像研究不同物種的基因組，比如果蠅（Drosophila）的基因組，或者秀麗隱桿線蟲（C. elegans）的基因組。通過比較不同物種的基因，我們對自身基因的功能有了更深的理解。同樣地，研究這些不同形態(tài)的智能，或許也能幫助我們更好地理解人類自己的智能。

保羅：剛看到大語言模型時(shí)，我的反應(yīng)其實(shí)是：“哦，又一次技術(shù)進(jìn)步而已。”以前大家也曾為循環(huán)神經(jīng)網(wǎng)絡(luò)興奮過，也為LSTM興奮過。而且?guī)缀趺恳淮?，?dāng)一種新模型橫空出世并帶來巨大希望時(shí)，神經(jīng)科學(xué)界總會有不少人說：“啊，現(xiàn)在大腦就是玻爾茲曼機(jī)?！被蛘摺艾F(xiàn)在大腦是卷積神經(jīng)網(wǎng)絡(luò)?！比缃裼肿兂桑骸按竽X就是大語言模型?！边@到底是怎么回事？為什么我們這么容易就被帶著跑？

托馬索：早些年也有類似的“風(fēng)潮”。那時(shí)甚至有人認(rèn)為，大腦不過是一種流體力學(xué)系統(tǒng)。

保羅：這聽起來可不太光彩。我自己就是神經(jīng)科學(xué)家，這多少有點(diǎn)尷尬。每次新技術(shù)出來，我都會在心里想：“好吧，又來了。”結(jié)果卻常常被打臉。有些突破確實(shí)讓我始料未及，比如大語言模型，我當(dāng)時(shí)真的是沒預(yù)料到。

托馬索：很多人一樣，我也是等到ChatGPT出現(xiàn)之后，才真正意識到這種能力的強(qiáng)大。這是第一次能夠和它自然對話。那一刻我才意識到，事情變得不一樣了。

保羅：而且更有意思的是，我們幾乎毫不費(fèi)力就把它融入到日常生活了。至少對我來說是這樣，我猜大多數(shù)人也是。它并不像一個完全陌生的技術(shù)，反而特別自然，好像一下子就嵌進(jìn)了日常。我想，這本身就是它最令人震撼的地方之一。

托馬索：而且在某種直覺層面上，我們也逐漸摸索出它能為我們做什么、能信任它到什么程度，以及如何更好地駕馭它。

保羅：不過在這方面，每個人的“使用能力”確實(shí)不一樣。有些人會更天真一點(diǎn)，也更容易輕信。但如果把它當(dāng)成工具來看，天哪，真的太厲害了。它作為工具的價(jià)值，簡直驚人。

托馬索：確實(shí)，非常了不起。

保羅：我剛才還在為自己、為神經(jīng)科學(xué)家們感到尷尬，不過回到幾分鐘前的那個問題：到底是神經(jīng)科學(xué)家更需要深度學(xué)習(xí)理論，還是搞機(jī)器學(xué)習(xí)的人更需要？神經(jīng)科學(xué)家真的需要這個嗎？

托馬索：我認(rèn)為需要。正如你剛才說的，把大腦簡單地等同為一個Transformer模型，是沒有意義的。

保羅：完全說不通。

托馬索：如果我們能夠理解Transformer所有的那些基本原則，那么這些原則本身，理論上也可能被大腦所采用，只是形式可能完全不同。當(dāng)然，大腦并不一定真的在使用 Transformer。但如果我們談的是原則，而不是某種具體的工程實(shí)現(xiàn)，那么它完全可以通過一種截然不同的方式存在。比如，大腦是否也在某種意義上利用了“組合稀疏”的結(jié)構(gòu)，或者是否存在類似自回歸機(jī)制的過程。這樣一來，我們至少可以提出一個更合理的問題：大腦是否運(yùn)用了類似的原理？

保羅：抱歉打斷一下。不過這有點(diǎn)像那個笑話：有人在路燈下找鑰匙，因?yàn)椤澳莾河泄狻薄Ｎ覀儠粫皇且驗(yàn)門ransformer在那里發(fā)光，所以才從這個方向去理解大腦？那么，組合稀疏性在分析層級框架中屬于哪一層？它不是一個具體算法，而是一種原則。那原則應(yīng)該放在哪個層面？

托馬索：這是個很有意思的問題。我想，它大概應(yīng)該歸入“學(xué)習(xí)理論”這一層。

保羅：那可是一個很大的范疇。

托馬索：是的，確實(shí)很大。

保羅：關(guān)于理論的作用，你剛才提到，我們現(xiàn)在可能處在伏打和麥克斯韋之間的階段。其中，你談了電池發(fā)明之后涌現(xiàn)出的各種應(yīng)用和創(chuàng)新，但沒有談麥克斯韋之后發(fā)生的事情。那是一個真正改變局面的時(shí)刻嗎？我們真的需要麥克斯韋嗎？如果沒有那套理論，技術(shù)會不會照樣發(fā)展？我們到底需不需要理論？

托馬索：我覺得麥克斯韋之后發(fā)生的很多事情，正是因?yàn)辂溈怂鬼f才成為可能。無線電、電視、雷達(dá)、互聯(lián)網(wǎng)，以及制造電子元器件的能力，這些都離不開電磁學(xué)理論。當(dāng)然，不只是麥克斯韋個人，而是整套電磁理論體系。理論讓我們不僅能夠理解電動機(jī)、發(fā)電機(jī)這些已經(jīng)出現(xiàn)的技術(shù)，還能把它們優(yōu)化、推廣、系統(tǒng)化。更重要的是，它打開了全新的可能性，催生了后來的一系列技術(shù)革命。換句話說，理論不僅僅是解釋已有成果，它本身也創(chuàng)造了新的空間。

流形還是組合？

不同理論的解釋力與進(jìn)化視角

保羅：咱們這話題其實(shí)已經(jīng)跑偏又繞回來好幾回了，不過還是得回到“組合稀疏性”上。在你最近發(fā)在arXiv上的那篇論文里，你把這個原則和其他一些替代原則做了對比。其中一個就是“流形學(xué)習(xí)”。現(xiàn)在在神經(jīng)科學(xué)領(lǐng)域，關(guān)于“流形”的說法幾乎無處不在。很多現(xiàn)象都被解釋為存在某種低維流形結(jié)構(gòu)。如果偏離這個流形，學(xué)習(xí)就會變得困難。

越接近原有流形結(jié)構(gòu)，學(xué)習(xí)速度就越快，類似這樣的觀點(diǎn)。你能解釋一下，“組合稀疏性”和“流形學(xué)習(xí)”之間的區(qū)別嗎？為什么你更傾向于把前者視為一個更基礎(chǔ)的原則？當(dāng)然，也許我這樣表述本身就不夠準(zhǔn)確。

托馬索：是的。我認(rèn)為這其實(shí)是同一種現(xiàn)象的兩種不同視角。當(dāng)你談?wù)摵瘮?shù)的組合時(shí)，也可以把它理解為用更簡單的片段逐步構(gòu)造一個流形。就像視覺系統(tǒng)中那樣，早期神經(jīng)元先處理局部圖像片段，然后這些局部片段被進(jìn)一步組合，逐漸形成更復(fù)雜、更大尺度的視覺流形結(jié)構(gòu)。我還沒有系統(tǒng)地推導(dǎo)兩者之間的嚴(yán)格數(shù)學(xué)關(guān)系，但直觀上看，它們之間幾乎存在一種一一對應(yīng)的映射關(guān)系。

它們的區(qū)別更多體現(xiàn)在語言層面。正如我之前提到的，在經(jīng)典數(shù)學(xué)中，人們談?wù)摰氖恰敖Y(jié)構(gòu)”，例如流形。構(gòu)造流形時(shí)，需要以某種平滑的方式把不同部分拼接起來。從本質(zhì)上講，這等價(jià)于在空間的不同區(qū)域定義不同的函數(shù)，并通過某種規(guī)則把它們組織在一起。這正是組合稀疏性的思想。我認(rèn)為，兩種說法在核心結(jié)構(gòu)上是等價(jià)的。

保羅：那么組合稀疏性是否意味著，或者說是否要求，任意局部區(qū)域內(nèi)都存在一個平滑的歐幾里得空間結(jié)構(gòu)，就像流形理論所要求的那樣？

托馬索：是的。在局部區(qū)域內(nèi)，這個流形只依賴于高維空間中的一部分變量。而在其他區(qū)域，它可能依賴于另一部分變量，或者與前者部分重疊的變量。

保羅：既然你一直關(guān)注學(xué)習(xí)這個問題，你是否會把進(jìn)化看作一種極其緩慢的學(xué)習(xí)過程？

托馬索：這是一個很有意思的問題。確實(shí)有一些不錯的嘗試，把進(jìn)化理解為一種學(xué)習(xí)過程。其中之一是萊斯利·瓦利安特（Leslie Valiant），他是一位杰出的計(jì)算機(jī)科學(xué)家，也是我的朋友。他曾寫過一篇文章，把進(jìn)化看作一種學(xué)習(xí)機(jī)制。從某種意義上說，它確實(shí)像你所說的，是一種更為緩慢的學(xué)習(xí)。不過，我認(rèn)為事情可能比這更復(fù)雜一些。在學(xué)習(xí)過程中，你通常是在一個既定的解空間或假設(shè)空間中進(jìn)行探索。人們常常稱之為“假設(shè)空間”。也就是說，你事先限定了可能的函數(shù)集合，然后從中尋找最合適的那個。

在機(jī)器學(xué)習(xí)中，例如你選定了某種核方法，比如高斯核，那么你實(shí)際上就在一個特定的函數(shù)空間內(nèi)搜索。訓(xùn)練的過程，就是在這個空間中找到最符合數(shù)據(jù)的函數(shù)。而進(jìn)化的情況可能不同。它未必只是從一個固定的函數(shù)空間中進(jìn)行搜索。它可能是在塑造不同的函數(shù)空間本身。換一種說法，在機(jī)器學(xué)習(xí)中，你通常已經(jīng)確定了架構(gòu)，然后在這個架構(gòu)內(nèi)通過訓(xùn)練解決具體問題。而進(jìn)化所做的，可能是產(chǎn)生和篩選不同類型的架構(gòu)。

保羅：也就是說，進(jìn)化能夠嘗試的可能方案范圍更廣？

托馬索：每一種架構(gòu)所對應(yīng)的搜索空間，其實(shí)都是不同的。

保羅：這是什么意思？

托馬索：舉個例子。假設(shè)在智能最早出現(xiàn)的時(shí)候，這當(dāng)然只是推測，生物體只有非常簡單的聯(lián)結(jié)式反射。比如，一道閃光出現(xiàn)，就觸發(fā)逃避反應(yīng)。最初，這種反應(yīng)大概是寫在基因里的硬編碼機(jī)制。后來，它可能逐漸變得更為靈活，會根據(jù)刺激強(qiáng)度或環(huán)境狀態(tài)作出不同反應(yīng)。但這種機(jī)制仍然是一種非常狹窄的解決方案。本質(zhì)上，它就像一個單層網(wǎng)絡(luò)。如果用神經(jīng)網(wǎng)絡(luò)的比喻來說，就是只有一層的結(jié)構(gòu)。直到某個階段，你發(fā)現(xiàn)可以使用多層結(jié)構(gòu)。

這會擴(kuò)大你能夠表示的解決方案類型，也擴(kuò)大可以學(xué)習(xí)的問題范圍，但仍然不是全部。比如，在這種結(jié)構(gòu)下，你可以進(jìn)行類似監(jiān)督學(xué)習(xí)的學(xué)習(xí)方式，但還無法像強(qiáng)化學(xué)習(xí)那樣通過主動探索來發(fā)現(xiàn)策略。進(jìn)化可能正是在不斷“發(fā)現(xiàn)”或塑造這些更復(fù)雜的智能形式，或者說，不同的學(xué)習(xí)機(jī)制。換句話說，它不僅是在優(yōu)化已有架構(gòu)內(nèi)的參數(shù)，而是在不斷創(chuàng)造新的學(xué)習(xí)方式。

保羅：很有意思，這樣理解也很合理。在最后幾分鐘，我們不妨再把視角拉回到更宏觀的層面。剛才我把話題從你提到的“Brains, Minds, and Machines”項(xiàng)目帶開了，聽起來那是一個面向未來的計(jì)劃。我現(xiàn)在更想問的是，你對未來的整體判斷。你對接下來二十年的理論發(fā)展感到興奮，或更多的是忐忑？同時(shí)，你認(rèn)為當(dāng)前這個領(lǐng)域真正的瓶頸是什么？我猜你的回答可能會是“學(xué)習(xí)理論”，但如果真是這樣，是否還有更具體的層面值得指出？

托馬索：毫無疑問，我對未來確實(shí)充滿期待。當(dāng)然，也難免會有一點(diǎn)擔(dān)憂。

保羅：如果和三十年前相比，你現(xiàn)在的感受一樣嗎？你一直穩(wěn)步推進(jìn)自己的研究。如今是比過去更興奮，還是更擔(dān)憂？或是更從容？這是一個完全不同的階段，還是說，你覺得這本來就是歷史的自然進(jìn)程？你見過各種潮起潮落，而未來也會繼續(xù)向前發(fā)展。

托馬索：我確實(shí)感到興奮。當(dāng)然，三十年前我也同樣興奮。但現(xiàn)在的賭注大多了。如今，經(jīng)濟(jì)的許多領(lǐng)域，以及科學(xué)研究的多個方向，都深度依賴機(jī)器學(xué)習(xí)。過去并非如此。正因?yàn)橛绊懜鼜V泛，我們更需要把方向走對，而且要真正做好。坦率地說，我從未想過，我們會在這場“智能競賽”中走到今天這個階段。

保羅：真的嗎？這太令人驚訝了。

托馬索：是的。我原本以為進(jìn)展會更慢，也許到最后我想的是對的。但目前確實(shí)發(fā)生了明顯的進(jìn)展，尤其是大語言模型，這一點(diǎn)真的讓我感到意外。它們?yōu)檫M(jìn)一步探索提供了非常扎實(shí)的“落腳點(diǎn)”，尤其是在理論層面。同時(shí)，我也覺得，我們以及許多同行正在構(gòu)建的理論體系，比十年前我所能預(yù)期的要豐富得多。當(dāng)然，仍然有大量工作等待去完成。

保羅：那太好了。

托馬索：這件事遠(yuǎn)沒有那么簡單。這并不是某種神經(jīng)網(wǎng)絡(luò)因?yàn)橐粌蓚€偶然因素就“恰好成功”了。它背后有很多值得深入研究的方面，其中有些相當(dāng)深刻。從研究一種在某些方面可能超越我們的人類智能這一點(diǎn)來看，我覺得就非常令人興奮。不過，我一直認(rèn)為，它的發(fā)展速度可能會比許多人想象的更慢。我記得大約十年前，在波多黎各的一次會議上，馬克斯·泰格馬克（Max Tegmark）和幾位朋友組織了一場討論。當(dāng)時(shí)我們做了一個投票。大多數(shù)人預(yù)測，所謂的通用人工智能，或者超級智能，大概會在二十五年內(nèi)出現(xiàn)。我當(dāng)時(shí)給出的判斷是五十年。

保羅：等等，這是多久以前的事？幾年前嗎？

托馬索：十年前。

保羅：對那些樂觀派來說，這數(shù)字已經(jīng)挺大了，他們通常會說“接下來的5年、10年”。25 年已經(jīng)是個大數(shù)字了，但我喜歡你直接把它翻了個倍。

托馬索：我當(dāng)時(shí)估計(jì)的是五十年?，F(xiàn)在的話，大概是四十年左右。我可能還是會堅(jiān)持這個判斷。當(dāng)然，現(xiàn)在我覺得它也許會更快一些，但這取決于你如何定義“實(shí)現(xiàn)”。比如，自動駕駛就是一個很好的例子。我一直在密切關(guān)注這一領(lǐng)域。最初我自己參與過相關(guān)研究。后來通過我的好友阿姆農(nóng)·沙舒阿（Amnon Shashua），他創(chuàng)辦的公司Mobileye為特斯拉提供了第一套系統(tǒng)。自動駕駛已經(jīng)“出現(xiàn)”了。在舊金山等城市，你可以乘坐自動駕駛出租車。但真正完全普及、隨處可見的自動駕駛車輛仍然很少。而且，目前仍然做不到讓一輛車在任何環(huán)境下都像人類一樣自如駕駛。問題往往卡在那“最后的1%”可靠性上。恰恰是這最后1%，可能需要非常漫長的時(shí)間才能攻克。

保羅：這很有意思。人們一說“自動駕駛”，腦海里往往會自動浮現(xiàn)一個畫面：問題已經(jīng)徹底解決，自動駕駛汽車滿街都是。但現(xiàn)實(shí)并不是這樣。

托馬索：確實(shí)如此。大概十年前，我在舊金山的Uber面試過一次，主要是出于興趣。

保羅：出于興趣去面試？

托馬索：是的，我并沒有真的打算加入他們。不過讓我印象深刻的是，當(dāng)時(shí)他們談到自動駕駛時(shí)，語氣仿佛2015年已經(jīng)近在眼前，接下來六個月就會發(fā)生重大突破。

保羅：在那樣的環(huán)境里工作，確實(shí)需要這種樂觀精神，才能每天都有動力去推進(jìn)。

托馬索：大概是吧。

保羅：我算是X世代吧，可能是偏晚一點(diǎn)的那一批。我小時(shí)候用的是錄像機(jī)那種模擬設(shè)備，也經(jīng)歷了電腦剛開始普及的年代。直接說重點(diǎn)吧。我有年幼的孩子，說實(shí)話，我很擔(dān)心技術(shù)變化的速度。它變得越來越難以預(yù)測。

在過去靠馬匹傳遞書信的時(shí)代，你大概還能比較準(zhǔn)確地預(yù)測明年會發(fā)生什么。但現(xiàn)在，這些新工具會怎樣影響他們，我根本無法想象，也不知道接下來會發(fā)生什么。一切都在加速。作為父親，這種不確定感這讓我感到相當(dāng)不安。我知道你的孩子已經(jīng)長大了。

托馬索：我完全同意。當(dāng)然，我也擔(dān)心氣候變化，但在某種意義上，我更擔(dān)心人工智能與教育的問題。正如你所說，變化的速度太快，我們幾乎跟不上。我們甚至不知道最好的教學(xué)方式應(yīng)該是什么。你不可能禁止孩子使用 ChatGPT。事實(shí)上，也許還應(yīng)該鼓勵他們?nèi)W(xué)會使用它。但與此同時(shí)，我們必須確保他們真正掌握數(shù)學(xué)等基礎(chǔ)能力。

問題是，我們?nèi)绾瓮瑫r(shí)做到這兩點(diǎn)？我已經(jīng)在大學(xué)里看到這種困境。一方面允許使用 ChatGPT，另一方面又要求學(xué)生說明何時(shí)使用、如何使用。因?yàn)槲覀儺?dāng)然不希望學(xué)生把所有的自主權(quán)都交出去，完全依賴ChatGPT，那會毀了我們的文化，毀了我們的社會。

保羅：問題在于，我們得去想辦法應(yīng)對它，找到解決方案?？傻任覀冋嬲肭宄臅r(shí)候，這個問題可能已經(jīng)不復(fù)存在了，因?yàn)樾碌奶魬?zhàn)又出現(xiàn)了。它會被下一個變化取代。我也說不好。

托馬索：《百年孤獨(dú)》的作者加夫列爾·加西亞·馬爾克斯（García Márquez）曾說過，乘坐飛機(jī)旅行會打亂我們對世界的感知。他說，人應(yīng)該像騎馬或坐火車那樣旅行，這樣時(shí)間不會變化得太快。

否則你會被甩出去，就像經(jīng)歷時(shí)差一樣。對教育來說，這是一場巨大的“時(shí)差反應(yīng)”。

保羅：這個比喻真不錯。我還記得《百年孤獨(dú)》里的這句話，“世界像橙子一樣是圓的”。

對談鏈接：

https://www.thetransmitter.org/brain-inspired/tomaso-poggio-on-his-quest-for-theories-to-explain-the-fundamental-learning-abilities-of-brains-and-machines/

關(guān)于追問nextquestion

天橋腦科學(xué)研究院旗下科學(xué)媒體，旨在以科學(xué)追問為紐帶，深入探究人工智能與人類智能相互融合與促進(jìn)，不斷探索科學(xué)的邊界。歡迎評論區(qū)留言，或后臺留言“社群”即可加入社群與我們互動。您也可以在后臺提問，我們將基于追問知識庫為你做出智能回復(fù)哦~

關(guān)于天橋腦科學(xué)研究院

天橋腦科學(xué)研究院（Tianqiao and Chrissy Chen Institute）是由陳天橋、雒芊芊夫婦出資10億美元創(chuàng)建的世界最大私人腦科學(xué)研究機(jī)構(gòu)之一，圍繞全球化、跨學(xué)科和青年科學(xué)家三大重點(diǎn)，支持腦科學(xué)研究，造福人類。

Chen Institute與華山醫(yī)院、上海市精神衛(wèi)生中心設(shè)立了應(yīng)用神經(jīng)技術(shù)前沿實(shí)驗(yàn)室、人工智能與精神健康前沿實(shí)驗(yàn)室；與加州理工學(xué)院合作成立了加州理工天橋神經(jīng)科學(xué)研究院。

Chen Institute建成了支持腦科學(xué)和人工智能領(lǐng)域研究的生態(tài)系統(tǒng)，項(xiàng)目遍布?xì)W美、亞洲和大洋洲，包括、、、科研型臨床醫(yī)生獎勵計(jì)劃、、、科普視頻媒體「大圓鏡」等。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.