国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

深度學(xué)習(xí)概覽:統(tǒng)計學(xué)視角

0
分享至

A Brief Tour of Deep Learning from a Statistical Perspective

深度學(xué)習(xí)概覽:統(tǒng)計學(xué)視角

https://www.annualreviews.org/docserver/fulltext/statistics/10/1/annurev-statistics-032921-013738.pdf?expires=1766237847&id=id&accname=guest&checksum=81838A5A29F907040B16D76350C4555B


關(guān)鍵詞:深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò),模式識別,優(yōu)化

摘要

我們揭示深度學(xué)習(xí)的統(tǒng)計學(xué)基礎(chǔ),旨在促進深度學(xué)習(xí)與統(tǒng)計學(xué)界之間的對話。我們強調(diào)二者交叉領(lǐng)域的核心主題;概述關(guān)鍵神經(jīng)網(wǎng)絡(luò)模型,包括前饋神經(jīng)網(wǎng)絡(luò)、序列神經(jīng)網(wǎng)絡(luò)及神經(jīng)隱變量模型;并將這些思想追溯至其在概率論與統(tǒng)計學(xué)中的根源。此外,我們還指出深度學(xué)習(xí)中若干有望獲得統(tǒng)計學(xué)貢獻的研究方向。

  1. 引言近年來,被稱為深度學(xué)習(xí)(Deep Learning, DL)(Hinton & Salakhutdinov 2006;LeCun 等 2015;Schmidhuber 2015;Goodfellow 等 2016)的一系列技術(shù),在計算機視覺(Krizhevsky 等 2012)、語音識別(Dahl 等 2012)以及自然語言處理(NLP)(Manning 2015)等領(lǐng)域的預(yù)測問題上取得了顯著進展。此類成功通常歸因于以下因素:具有數(shù)百萬參數(shù)的高度表達性模型、大規(guī)模標(biāo)注數(shù)據(jù)集、可擴展的優(yōu)化算法、支持自動微分的軟件以及硬件創(chuàng)新。然而,深度學(xué)習(xí)的諸多基礎(chǔ)與統(tǒng)計學(xué)中廣為人知的概念密切相關(guān),例如對數(shù)似然函數(shù)、分層建模、潛變量及正則化方法。盡管存在這種概念上的重疊,統(tǒng)計學(xué)界與深度學(xué)習(xí)界仍相對割裂。其中一個原因可能是:統(tǒng)計思維在深度學(xué)習(xí)中的作用尚未得到廣泛承認(rèn)或宣傳。工業(yè)界利益相關(guān)者往往更強調(diào)工程技術(shù)成就與技術(shù)進步,這可能使統(tǒng)計學(xué)者誤以為自身缺乏推動研究前沿所需的專業(yè)能力。此外,深度學(xué)習(xí)文獻承襲了其認(rèn)知科學(xué)根源所遺留的術(shù)語(如“神經(jīng)元”“激活函數(shù)”),并發(fā)展出自身特有的行話(如“注意力機制”)。這種缺乏共通語言的現(xiàn)狀,可能勸退那些雖有好奇心、卻試圖閱讀深度學(xué)習(xí)論文的統(tǒng)計學(xué)者。

本文旨在通過揭示深度學(xué)習(xí)的統(tǒng)計學(xué)基礎(chǔ),為兩大領(lǐng)域搭建溝通橋梁。具體目標(biāo)有二:

  1. 以廣大具備統(tǒng)計學(xué)背景的讀者易于理解的方式,闡釋深度學(xué)習(xí)的概念、方法與研究趨勢;
  2. 識別深度學(xué)習(xí)中統(tǒng)計研究者可貢獻新理論、新模型與新方法的潛在研究方向。

過去已有諸多文獻致力于建立此類聯(lián)系。例如:20世紀(jì)90年代至21世紀(jì)初,有若干論文聚焦于非深度神經(jīng)網(wǎng)絡(luò)(NN)(White 1989;MacKay 1992;Cheng & Titterington 1994;Neal 1994;Ripley 1996;Stern 1996;Lee 2004);近期則有專門關(guān)聯(lián)深度學(xué)習(xí)的綜述(Mohamed 2015;Efron & Hastie 2016;Polson & Sokolov 2017;Yuan 等 2020;Bartlett 等 2021;Fan 等 2021)。盡管所有此類綜述(包括本文)不可避免地存在一定程度的內(nèi)容重疊,但本文通過在廣度與深度之間取得平衡(即一次“簡明巡覽”),對現(xiàn)有文獻形成有益補充。鑒于深度學(xué)習(xí)領(lǐng)域工作極為龐雜,試圖進行全面綜述并不現(xiàn)實——例如,本文未涵蓋深度強化學(xué)習(xí)。希望深入了解深度學(xué)習(xí)的讀者,可進一步閱讀 Goodfellow 等(2016)或 Murphy(2022)等教科書。

深度學(xué)習(xí)與統(tǒng)計學(xué)不僅在術(shù)語和方法論上不同,更重要的是在視角上存在差異。深度學(xué)習(xí)強調(diào)以數(shù)據(jù)驅(qū)動的預(yù)測準(zhǔn)確性來驗證模型,而統(tǒng)計學(xué)則更注重模型的可解釋性和不確定性量化。這一區(qū)別并非新近提出:Breiman(2001)曾著名地論證過這一點,Welling(2015)為深度學(xué)習(xí)時代更新了該論點,Efro(2020)則提供了最新視角。在統(tǒng)計學(xué)背景下自然的問題,如漸近一致性或后驗集中性,在深度學(xué)習(xí)中則遠不那么相關(guān)(甚至可以說完全無關(guān)),因為深度學(xué)習(xí)模型通常擁有成千上萬、甚至數(shù)百萬個參數(shù)。本質(zhì)上,深度學(xué)習(xí)者傾向于關(guān)注預(yù)測值 ?,而非參數(shù)估計值 θ?。

深度學(xué)習(xí)之所以側(cè)重預(yù)測,至少部分可追溯至其模式識別的起源及對表征學(xué)習(xí)的強調(diào):在高維輸入情形下,通常需將其轉(zhuǎn)換為有助于預(yù)測的(中間)表征(即特征)。例如,在圖像分類與語音識別領(lǐng)域,研究者長期采用兩階段流程構(gòu)建分類器:首先人工設(shè)計有用的函數(shù)(如濾波器、模板)以從信號中提取特征;繼而基于預(yù)定義特征訓(xùn)練分類模型。深度學(xué)習(xí)的一項重大貢獻在于,以端到端訓(xùn)練的單一模型取代該兩階段流程——模型直接從原始信號(像素、音頻)出發(fā),經(jīng)由逐層變換得到中間表征,并最終映射至輸出。深度學(xué)習(xí)最顯著的成功案例,即出現(xiàn)在此類依賴特征提取的感知型低層信號(圖像、語音、文本)預(yù)測任務(wù)中。

此外,“通過組合簡單構(gòu)建模塊來構(gòu)建模型”這一思想,在深度學(xué)習(xí)與統(tǒng)計學(xué)中均為基礎(chǔ)性概念,但兩領(lǐng)域?qū)Α敖M合性”(compositionality)的理解與實現(xiàn)路徑迥異。在統(tǒng)計學(xué)中,存在悠久傳統(tǒng)——將隨機變量作為基本構(gòu)件,從而可構(gòu)建似然函數(shù)以表征復(fù)雜的數(shù)據(jù)生成機制;實現(xiàn)組間與層級間統(tǒng)計信息共享;刻畫動態(tài)時序過程;或捕捉隨機效應(yīng)與交互作用。相較之下,深度學(xué)習(xí)中盡管深度模型的輸入–輸出映射可具有概率含義,其內(nèi)部構(gòu)建模塊通常為確定性函數(shù),并以分層方式組合,輔以卷積等運算操作。此類確定性兼具優(yōu)勢與局限:一方面,它賦予建模者更大靈活性,免除了對分布假設(shè)的依賴;另一方面,則使不確定性量化更具挑戰(zhàn)性。值得注意的例外是深度潛變量模型(見第4節(jié)討論),其內(nèi)部表征結(jié)合了隨機變量與確定性變換。

兩領(lǐng)域在規(guī)模層面亦存在顯著差異:模型復(fù)雜度的規(guī)模、數(shù)據(jù)集的規(guī)模,以及計算的規(guī)模。對內(nèi)部表征學(xué)習(xí)的需求,促使深度學(xué)習(xí)研究者采用包含海量可學(xué)習(xí)權(quán)重的復(fù)雜神經(jīng)網(wǎng)絡(luò)架構(gòu);而此類復(fù)雜性又進一步催生了對更大規(guī)模數(shù)據(jù)集的需求。更多數(shù)據(jù)有助于學(xué)習(xí)更復(fù)雜(且潛在預(yù)測性能更優(yōu))的內(nèi)部表征,因此當(dāng)前圖像、語音與語言建模領(lǐng)域的前沿模型,往往需在數(shù)百萬至數(shù)十億數(shù)據(jù)點上進行訓(xùn)練(Bommasani 等 2022)。相比之下,在諸多典型統(tǒng)計分析問題中(尤其如醫(yī)學(xué)等應(yīng)用領(lǐng)域),如此規(guī)模的數(shù)據(jù)集常常完全不可得。此外,為應(yīng)對模型與數(shù)據(jù)的極大尺度,深度學(xué)習(xí)還需依賴重大的工程進展:支持高層模型定義的自動微分技術(shù)、用于高效優(yōu)化的隨機梯度方法,以及用于高效線性代數(shù)計算的圖形處理器(GPU)。這些技術(shù)對深度學(xué)習(xí)的實用性均起到了關(guān)鍵作用。

  1. 基于前饋架構(gòu)的視覺模式識別

人工神經(jīng)網(wǎng)絡(luò)(NN)的早期發(fā)展深受認(rèn)知神經(jīng)科學(xué)及人類視覺感知思想的影響(McCulloch & Pitts, 1943)。到20世紀(jì)80年代末至90年代初,神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)向更具實用性的應(yīng)用方向,其中手寫數(shù)字識別成為一項具有挑戰(zhàn)性的基準(zhǔn)任務(wù),并引發(fā)了美國郵政署的關(guān)注(LeCun 等, 1989)。進入21世紀(jì)后,進展一度放緩;但在2012年ImageNet基準(zhǔn)競賽中,深度學(xué)習(xí)取得突破性實證成功(Krizhevsky 等, 2012),加之2010年代初期其他一系列實證成果,再度引發(fā)學(xué)界廣泛關(guān)注。自此,深度神經(jīng)網(wǎng)絡(luò)(DNN)已成為眾多系統(tǒng)中的關(guān)鍵組成部分,廣泛應(yīng)用于語言建模(Devlin 等, 2019)、自動駕駛(Grigorescu 等, 2020)、圍棋對弈(Silver 等, 2017)以及蛋白質(zhì)折疊預(yù)測(Jumper 等, 2021)等問題中,從而鞏固了深度學(xué)習(xí)在過去十年中作為機器學(xué)習(xí)與人工智能領(lǐng)域核心方法論的主導(dǎo)地位。

因此,我們從視覺模式識別入手展開討論,特別是將圖像分類為 K 個類別或類別的任務(wù)。我們假設(shè)最簡單的設(shè)定:每張圖像僅包含 K 個候選對象中的一個(且僅一個)。作為示例,我們采用著名的美國國家標(biāo)準(zhǔn)與技術(shù)研究院改進版(MNIST)圖像分類數(shù)據(jù)集(LeCun 等,1998)。該數(shù)據(jù)集常用于教學(xué)目的,因其規(guī)模較小,可在普通筆記本電腦上輕松完成模型的訓(xùn)練與評估。每張 MNIST 圖像 x n
的分辨率為 28 × 28 像素,可表示為一個二維矩陣,其中每個元素為一個像素值,其強度 x ∈ [ 0 , 1 ] 。圖 1a 展示了該數(shù)據(jù)集中每個數(shù)字類別的樣本圖像。標(biāo)準(zhǔn)數(shù)據(jù)集共包含 N = 70,000 張圖像–標(biāo)簽對,通常劃分為 50,000 張訓(xùn)練圖像和 10,000 張測試圖像,其中 10,000 張圖像用于超參數(shù)調(diào)優(yōu)與驗證。


2.1 前饋神經(jīng)網(wǎng)絡(luò)








我們可以將隱藏層 b 解釋為自適應(yīng)的非線性基函數(shù)。這些允許模型自身將原始特征空間轉(zhuǎn)換為更適合分類任務(wù)的表示。這種內(nèi)部表示學(xué)習(xí)的概念(Bengio et al. 2013a)可以說是NN成功的最重要特征。圖2b展示了在MNIST上訓(xùn)練的四隱藏層NN的第一個隱藏層學(xué)習(xí)的特征。這種可視化類似于圖2a中的GLM。NN學(xué)習(xí)的是局部邊緣檢測器的特征,而不是GLM的全局模板。這使得模型能夠逐層構(gòu)建特征層次結(jié)構(gòu)。第二個隱藏層將這些特征組合起來,依此類推。這種行為使NN在低級原始信號上最有效,因為隱藏層可以逐漸將信息聚合到更高層次的抽象中,例如,在分類的背景下,學(xué)習(xí)在輸出層預(yù)測中有用的區(qū)分特征。


2.2. 最大似然和隨機優(yōu)化

在定義了前饋NN之后,我們現(xiàn)在轉(zhuǎn)向模型擬合。DL模型通常使用最大似然估計進行訓(xùn)練,通常對于分類問題,假設(shè)獨立同分布。對數(shù)似然可以寫成



盡管有這種正則化,統(tǒng)計學(xué)家可能仍會擔(dān)心神經(jīng)網(wǎng)絡(luò)(NNs)的過擬合問題,因為它們參數(shù)過多。在小數(shù)據(jù)集情境下,使用保留驗證數(shù)據(jù)集(或采用多折交叉驗證)是防止過擬合最有效的策略。例如,一個有用的策略是提前停止:當(dāng)使用迭代優(yōu)化過程訓(xùn)練網(wǎng)絡(luò)時,我們持續(xù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),直到驗證集的準(zhǔn)確率開始下降——這表明過擬合已經(jīng)開始。然而,即使沒有大量保留數(shù)據(jù)可用,神經(jīng)網(wǎng)絡(luò)仍可避免過擬合。這是因為,正如經(jīng)典偏差-方差理論先前所暗示的那樣,過參數(shù)化對泛化能力的危害并不像人們想象的那么嚴(yán)重。我們在第5.1節(jié)中將對此進行更深入的討論,但即使在過參數(shù)化的線性模型中,也能觀察到良好的泛化能力(Hastie等,2022)。

回到對數(shù)似然函數(shù),最大化 ?(W?, ..., W?) 是一個非凸優(yōu)化問題,由于不變性和不可識別性,其權(quán)重參數(shù)沒有唯一解。盡管面臨這些挑戰(zhàn),基于梯度的相對簡單的方法仍是訓(xùn)練神經(jīng)網(wǎng)絡(luò)最廣泛使用且經(jīng)驗上最成功的方法。梯度上升是一種一階迭代方法,用于最大化(或等價地,若在負(fù)目標(biāo)函數(shù)上執(zhí)行,則為梯度下降),它通過更新一組初始參數(shù)(隨機初始化)并朝著目標(biāo)函數(shù)增長最快的方向邁出一步來實現(xiàn)。給定一個對數(shù)似然函數(shù) ?,單個參數(shù) w 從第 t 次迭代到第 t+1 次迭代的更新通過以下方式執(zhí)行:


其中 α 是一個標(biāo)量學(xué)習(xí)率(即步長)。

計算上述完整梯度需要對 N 個數(shù)據(jù)點中的每一個求梯度之和,對于包含數(shù)百萬高維數(shù)據(jù)點的訓(xùn)練集而言,這可能代價高昂。然而,可以通過僅在數(shù)據(jù)的一個子集(可能非常?。┥显u估似然函數(shù)來獲得梯度的一個有噪聲的估計值。定義一個隨機小批量數(shù)據(jù)集 ? 為從完整觀測集中抽?。ɡ?,無放回抽樣)的 B 個數(shù)據(jù)點組成的子集。然后,我們可以使用小批量似然函數(shù) ?? 代替完整梯度(基于全部 N 個數(shù)據(jù)點),執(zhí)行隨機梯度下降(SGD)(Robbins & Monro 1951, Bottou 2010):


該方法被稱為“隨機”方法,因為梯度估計現(xiàn)在是一個隨機變量。我們將導(dǎo)數(shù)乘以 N/B,以便使似然函數(shù)的尺度與完整數(shù)據(jù)集的情況相同,這也可以被視為對學(xué)習(xí)率 α 的一種調(diào)整。SGD 背后的關(guān)鍵思想是,當(dāng) B 遠小于 N 時,人們可以進行多次有噪聲(但計算成本更低)的參數(shù)更新,在每一步都沿著一個有噪聲的梯度方向移動,并且在實際運行時間上可能比使用完整梯度的步驟收斂得更快。

圖3展示了使用100、10和1個數(shù)據(jù)點計算梯度更新所訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的優(yōu)化過程。雖然這三種變體從相同的對數(shù)似然值(y軸)開始,但對于1個和10個數(shù)據(jù)點的曲線,其作為優(yōu)化算法所看到的總數(shù)據(jù)點數(shù)量(x軸)的函數(shù),能夠更快地取得進展。盡管它們使用的是有噪聲的梯度估計,但估計中仍包含足夠的信號,使得計算上的收益超過了估計中的噪聲。在這種情況下,最終所有方法都收斂到大致相同的對數(shù)似然值(超過圖表右側(cè)邊界),盡管在其他情況下,不同的噪聲水平可能會引入不同的歸納偏差。


雖然將一種粗糙的一階方法應(yīng)用于深度網(wǎng)絡(luò)的訓(xùn)練看似天真得毫無希望,但經(jīng)驗上發(fā)現(xiàn)SGD是一種可靠的優(yōu)化策略。事實上,深度學(xué)習(xí)(DL)的成功證明了SGD或許更令人驚訝的成功。在2012年之前,人們曾推測神經(jīng)網(wǎng)絡(luò)的實用性會因其受SGD局限性的制約而受限(Cheng & Titterington 1994)。對于為什么隨機梯度下降有效及其作用機制的更全面理解,目前仍是活躍的研究領(lǐng)域,但初步證據(jù)表明,梯度估計中引入的噪聲實際上可能是有益的——例如,有助于逃離鞍點,而鞍點構(gòu)成了神經(jīng)網(wǎng)絡(luò)優(yōu)化曲面上的大多數(shù)臨界點(Pascanu等,2014)。

很自然會問,為什么深度學(xué)習(xí)依賴一階信息而非二階信息(即Hessian矩陣)。事實上,在神經(jīng)網(wǎng)絡(luò)研究的早期,二階方法就曾受到關(guān)注(Parker 1987, Becker & LeCun 1989),并且當(dāng)然在統(tǒng)計學(xué)中以Fisher評分的形式被廣泛應(yīng)用。然而,現(xiàn)代神經(jīng)網(wǎng)絡(luò)中龐大的參數(shù)數(shù)量使得計算和存儲所有二階導(dǎo)數(shù)變得不切實際。此外,條件矩陣通??赡苁瞧娈惖?。出于這些原因,一階隨機梯度方法,特別是其自適應(yīng)變體,已成為訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(DNNs)的默認(rèn)實用選擇(Duchi等,2011;Kingma & Ba 2014)。這類方法有多種不同的變體,但大多數(shù)通過存儲梯度的經(jīng)驗矩(通常是第一階和第二階)并利用這些矩來調(diào)整下一步的更新。盡管SGD取得了成功,但優(yōu)化神經(jīng)網(wǎng)絡(luò)并非沒有障礙。為了進一步闡明優(yōu)化機制,假設(shè) w 是位于神經(jīng)網(wǎng)絡(luò)某中間層的一個參數(shù)。通過鏈?zhǔn)椒▌t展開似然函數(shù)關(guān)于 w 的導(dǎo)數(shù),我們得到


該導(dǎo)數(shù)是通過將信息從對數(shù)似然函數(shù) ? 乘法式地向后傳遞,經(jīng)過隱藏表示 b?,直至待更新的參數(shù) w 而得到的。由于這一直觀認(rèn)識——即信息在神經(jīng)網(wǎng)絡(luò)中向后傳播——基于梯度的神經(jīng)網(wǎng)絡(luò)優(yōu)化方法被稱為“誤差反向傳播”(backpropagation of errors),或簡稱“反向傳播”(backprop)(Parker 1985, Le Cun 1986, Rumelhart等 1986)。隨著神經(jīng)網(wǎng)絡(luò)變得越來越深[例如,He等(2016)訓(xùn)練了具有1000多層的神經(jīng)網(wǎng)絡(luò)],中間導(dǎo)數(shù) ?b?/?b??? 保持良好條件至關(guān)重要。例如,如果僅有一個項趨近于零,則由于反向傳播的乘法構(gòu)造,神經(jīng)網(wǎng)絡(luò)中所有較淺層的參數(shù)都將接收到一個零梯度。這個特定問題被稱為“梯度消失”,它可能導(dǎo)致最理想情況下收斂緩慢。

對于較大的值,也存在相反的問題,稱為“梯度爆炸”。

回到我們對激活函數(shù) σ(·) 的討論,邏輯函數(shù)曾是一種流行的選擇,但近年來已不再受青睞。要理解其原因,請注意邏輯函數(shù)的導(dǎo)數(shù)為 σ' = σ(1 - σ),因此當(dāng) σ ≈ 0 或 σ ≈ 1 時,梯度信號開始消失,這種效應(yīng)被稱為飽和。像修正線性單元(ReLUs)這樣的修正型激活函數(shù)(Maas等 2013)在單個或兩個方向上都沒有有界范圍,從而避免了導(dǎo)致梯度消失的那種飽和現(xiàn)象。然而,僅改變激活函數(shù)通常不足以緩解優(yōu)化中的病理問題。對隱藏單元或其預(yù)激活值進行歸一化也已成為常見做法(Ba等 2016, Salimans & Kingma 2016, Klambauer等 2017)。這種正則化的最流行實例被稱為“批量歸一化”(batch normalization)(Ioffe & Szegedy 2015)(簡稱 batch norm)。粗略地說,該方法將標(biāo)準(zhǔn) z 變換 (a - μ?)/σ? 應(yīng)用于每個內(nèi)部層的預(yù)激活值 a,其中 μ? 和 σ? 是當(dāng)前訓(xùn)練批次在特定層上的經(jīng)驗均值和標(biāo)準(zhǔn)差。

2.3. 不確定性量化

鑒于神經(jīng)網(wǎng)絡(luò)中參數(shù)數(shù)量龐大,值得考慮如何量化和控制模型不確定性。到目前為止,在我們的討論中,我們關(guān)注的是諸如隨機梯度方法等框架,它們尋求參數(shù)的點估計——即,優(yōu)化一個目標(biāo)函數(shù)。一個顯而易見的替代方案是轉(zhuǎn)向貝葉斯方法,即對參數(shù)設(shè)置先驗分布,獲得后驗分布,并利用后驗預(yù)測分布進行預(yù)測


其中 x* 是一個新觀測值,D 是訓(xùn)練集。這是一種非常有吸引力的方法,用于解決因模型欠定而帶來的幾乎不可避免的模型不確定性問題。然而,貝葉斯方法在深度學(xué)習(xí)(DL)中的有效實現(xiàn)面臨兩個障礙(Izmailov等,2021)。第一個障礙是為權(quán)重設(shè)置有意義的先驗分布。鑒于權(quán)重缺乏可識別性,甚至缺乏語義解釋,很難設(shè)置一個超越簡單鼓勵稀疏性或收縮性的先驗。第二個主要障礙是,即使找到了一個好的先驗,對于任何實際規(guī)模的神經(jīng)網(wǎng)絡(luò),后驗推斷都是具有挑戰(zhàn)性的。變分方法可以擴展到相當(dāng)大的神經(jīng)網(wǎng)絡(luò),但由于變分族通常被錯誤指定,因此存在固有的偏差。將馬爾可夫鏈蒙特卡洛(MCMC)方法擴展到大型深度網(wǎng)絡(luò),目前仍是貝葉斯深度學(xué)習(xí)研究的一個活躍焦點(Izmailov等,2021)。

基于頻率學(xué)派的推斷方法也可以應(yīng)用。自助法(bootstrap)可能首先浮現(xiàn)在腦海中,但研究表明,簡單地訓(xùn)練一組具有不同初始化的網(wǎng)絡(luò),在不確定性量化方面比自助法更有效(Lakshminarayanan等,2017)。事后校準(zhǔn)技術(shù)(Guo等,2017)也常用于糾正模型誤設(shè)。第三種有前景的方法是共形預(yù)測(Shafer & Vovk 2008, Angelopoulos等,2020),它提供了構(gòu)建關(guān)于真實標(biāo)簽(邊際)覆蓋率的無分布保證的工具。圖4通過一個一維回歸任務(wù)(在此背景下比分類更適合可視化)展示了這些推斷過程的一些情況。圖4比較了一個點估計的神經(jīng)網(wǎng)絡(luò)(圖4a)與一個通過MCMC獲得后驗的貝葉斯神經(jīng)網(wǎng)絡(luò)(圖4b)。圖中顯示了預(yù)測方差,正如預(yù)期的那樣,MCMC解在數(shù)據(jù)被觀測到的地方會縮小其不確定性,而在其他地方則會擴大不確定性。圖4c和圖4d展示了近似模型不確定性的常用策略。


盡管并不完美,變分推斷(variational inference)與集成方法(ensembling)是目前為數(shù)不多能夠擴展到大型神經(jīng)網(wǎng)絡(luò)的不確定性量化方法。

2.4 卷積層及其他層類型

為求簡潔,我們此前僅介紹了全連接(fully connected)的權(quán)重變換方式,用于計算每一層的隱藏激活。然而,不出所料,其他多種網(wǎng)絡(luò)架構(gòu)也已被提出。其中尤為流行的一類是卷積層(convolutional layer):對于圖像形式的輸入,采用二維權(quán)重矩陣(稱為濾波器,filters),在輸入圖像上進行空間卷積操作,從而保證對輸入信號的平移不變性(translation invariance)。每個不同的隱藏單元各自擁有一個專屬的卷積濾波器——換言之,各自對應(yīng)一種特征檢測器。

卷積層廣泛用于目標(biāo)檢測任務(wù),尤其適用于假設(shè)目標(biāo)可能出現(xiàn)在輸入圖像任意位置的情形。以 MNIST 數(shù)據(jù)集為例,其中所有數(shù)字均居中放置;即便如此,若數(shù)字可能出現(xiàn)在圖像的其他區(qū)域,那么采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)便是必不可少的。盡管在 MNIST 上,良好的性能并不嚴(yán)格依賴平移不變性,但使用卷積神經(jīng)網(wǎng)絡(luò)仍可將測試錯誤率降至約 0.3%,相較之下,非卷積的前饋神經(jīng)網(wǎng)絡(luò)約為 1%,而邏輯回歸廣義線性模型(logistic GLM)則高達約 7.6%。

當(dāng)然,其他類型的數(shù)據(jù)也需要采用不同的層結(jié)構(gòu)設(shè)計。例如,我們可能希望將神經(jīng)網(wǎng)絡(luò)應(yīng)用于天文學(xué)中的某項任務(wù):將星系分類為橢圓星系、旋渦星系和不規(guī)則星系等類型。由于空間中的天體并無天然的朝向,因此在此類任務(wù)中常采用旋轉(zhuǎn)等變神經(jīng)網(wǎng)絡(luò)(rotationally equivariant NNs)(Cohen 等,2018)。再舉一例,對關(guān)系型數(shù)據(jù)建模時,使用圖神經(jīng)網(wǎng)絡(luò)(graph NN)可顯著獲益(Wu 等,2020);該方法已被應(yīng)用于諸多領(lǐng)域,包括量子化學(xué)(Gilmer 等,2017)、計算機程序合成(Allamanis 等,2017)以及蛋白質(zhì)折疊(Jumper 等,2021)。

3. 序列模型

接下來,我們將注意力轉(zhuǎn)向用于序列數(shù)據(jù)的深度學(xué)習(xí)(DL)模型,這擴展了上一節(jié)中討論的前饋模型。我們主要關(guān)注對形如 y?, ..., y?, ..., y? 的類別序列進行建模,其中 t 可以表示相對位置或時間。每個 y? = (y??, ..., y?K) 是一個 K 維指示向量。從預(yù)測的角度來看,我們感興趣的是自回歸分解形式 p(y?, ..., y?) = Π???? p(y? | y <?),其中 p(y? | y<?) 是在位置 t 處、基于序列歷史 y<?="y?," ..., y??? 條件下的 k 個類別的分布。盡管下文的主要焦點是類別序列,但正如我們后文將討論的,序列深度模型的一般思想也適用于其他序列和時間序列建模問題。< pan>

在機器學(xué)習(xí)中,類別序列建模的一個非常常見的應(yīng)用是在自然語言處理(NLP)領(lǐng)域,其中類別代表字符或單詞。在此背景下,深度學(xué)習(xí)模型被稱為語言模型,近年來已徹底革新了 NLP 領(lǐng)域(Brown 等,2020;McClelland 等,2020)。常見的應(yīng)用包括:根據(jù)前面的上下文 y <??? 預(yù)測下一個字符或單詞 y???;根據(jù)先前的上下文生成新文本 y'???, y'???, ...;對整段文本進行分類;或?qū)⒁粋€句子從一種語言翻譯成另一種語言。盡管針對這些任務(wù)的深度學(xué)習(xí)方法在細節(jié)上有所不同,但它們有許多共同的特點。< pan>

3.1 示例:在字符級別建模文本

為了說明序列深度學(xué)習(xí)模型中的一些基本概念,我們首先聚焦于一個相對簡單的問題:學(xué)習(xí)一個能夠預(yù)測英文文本中下一個字符,并能根據(jù)部分序列生成新文本的神經(jīng)網(wǎng)絡(luò)模型。對于這個問題,K 個類別對應(yīng)小寫和大寫字母 a-z/A-Z、數(shù)字 0-9、標(biāo)點符號以及各種其他符號,具體類別數(shù)通常在 K=50 到 100 之間,取決于特定模型詞匯表中包含的符號種類。3 作為下文討論中的運行示例,我們采用由知名統(tǒng)計學(xué)研究者撰寫的若干公開可用的 arXiv LaTeX 文件的合集作為文本來源,該數(shù)據(jù)集包含 96 個唯一字符,總長度超過 150,000 個字符。

對這類數(shù)據(jù)建模的一種簡單的傳統(tǒng)方法是使用 m 階馬爾可夫模型,其參數(shù)數(shù)量為 O(K?),在 NLP 中被稱為 n-gram 模型,其中 n = m + 1。歷史上,這類 n-gram 模型的變體被廣泛用于文本建模(Halevy 等,2009),但在捕捉高階依賴關(guān)系方面顯然存在局限性。另一種選擇是使用狀態(tài)空間模型,可能配備一個實值的低維狀態(tài)變量 z?,其動力學(xué)為關(guān)于 t 的線性高斯函數(shù),并與

在每個位置 t 上從狀態(tài)空間到類別觀測的變換相耦合。然而,高斯動力學(xué)的參數(shù)化假設(shè)很可能缺乏足夠的靈活性,無法有效表示自然語言序列中出現(xiàn)的各類依賴關(guān)系。

在這種背景下,深度學(xué)習(xí)的一項關(guān)鍵創(chuàng)新是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[也稱為 Elman RNN (Elman 1990)] 的發(fā)展,它作為一種改進優(yōu)于諸如 n-gram 這樣的觀測空間模型。RNN 建立在狀態(tài)空間模型的概念之上,標(biāo)準(zhǔn) RNN 的狀態(tài)方程和觀測方程通常定義為


其中,x? 是模型在位置 t 的輸入,在自回歸建模情境下,x? = y???(例如,前一個字符或單詞),而 z? ∈ ?? 是一個維度為 b × 1 的隱藏狀態(tài)向量。輸入 x? 和輸出 y??? 均為維度 K × 1 的指示向量;例如,對于上述 K=96 的字符數(shù)據(jù)集,每個向量中對應(yīng)特定字符的分量值為 1,其余所有分量值為 0。一個標(biāo)準(zhǔn)慣例是將初始隱藏狀態(tài)向量 z? 定義為全零向量,因此序列的第一個 RNN 計算單元的輸入為 x? = y?,隱藏狀態(tài)向量為 z? = σ(Wx?),輸出為 p(y?|y?) = g?1(Az?)。

該 RNN 模型的參數(shù)是維度分別為 b × K、K × b 和 b × b 的權(quán)重矩陣 W、A 和 H。類似于前饋網(wǎng)絡(luò)中的隱藏單元,σ(·) 是一個非線性遞歸激活函數(shù)(例如,logistic 或 ReLU),它賦予模型非線性動力學(xué)特性,而 g?1 是一個輸出鏈接函數(shù),它將隱藏(確定性)狀態(tài) z? 的線性變換映射到輸出域(通常是一個多項式 logit,與具有類別輸出的前饋模型相同)。更一般地,對于實值觀測,g?1 可以映射到某個參數(shù)形式 p 的 p(y? | y <?) 的均值,并附加一個噪聲項 v?,這類似于標(biāo)準(zhǔn)的狀態(tài)空間建模方法。< pan>

圖5a 提供了在位置 t 處 RNN 狀態(tài)方程和觀測方程的可視化表示。RNN 與第2節(jié)中的前饋模型有一些相似之處,但關(guān)鍵區(qū)別在于,隱藏變量 z? 現(xiàn)在既是當(dāng)前輸入 x? 的函數(shù),也是來自前一位置的隱藏狀態(tài)變量 z??? 的函數(shù),從而基于序列的歷史以遞歸方式為當(dāng)前預(yù)測提供上下文。通過在每個輸入和輸出之間垂直堆疊額外的隱藏遞歸層,可以創(chuàng)建圖5a 中簡單 RNN 單元的深層版本。


圖5b 展示了一個應(yīng)用于我們字符建模問題的 RNN 示例。具體而言,對于部分序列 “pred”,我們看到在每個位置,模型結(jié)合了來自前一位置的隱藏狀態(tài)和觀測字符,以生成當(dāng)前隱藏狀態(tài),進而產(chǎn)生模型輸出。觀測數(shù)據(jù)(在此例中,是單詞 “predict” 的一個子序列)顯示在頂部,表示模型的真實目標(biāo)輸出。參數(shù)(權(quán)重矩陣)θ = W, A, H 在模型的不同位置 t 上共享。該模型的個體權(quán)重數(shù)量按 O(Kb + b2) 的規(guī)模增長,避免了諸如 n-gram 等觀測層面模型的 O(K?) 參數(shù)爆炸問題——當(dāng)類別數(shù) K 很大時(例如,詞級語言模型中 K ≈ O(10?)),即使 n 相對較小,這類模型也會變得不切實際。

一旦我們知道了 RNN 模型的參數(shù),就可以以生成式自回歸的方式使用它來模擬序列:在每個時間步 t,從當(dāng)前條件分布中采樣一個輸出 y'?,然后將其作為位置 t+1 的輸入,與 z? 結(jié)合以生成下一個隱藏狀態(tài)向量 z???,再從 t+1 時刻的新條件輸出分布中采樣 y'???,依此類推。觀測層面的動力學(xué) p?(y??? | y?, z?) 并不是關(guān)于 t 的齊次函數(shù),而是歷史(由 z? 總結(jié))的函數(shù),這與(例如)固定階馬爾可夫模型不同。

3.2 估計循環(huán)神經(jīng)網(wǎng)絡(luò)的參數(shù)

圖5b 中 RNN 模型的未知參數(shù) W、A 和 H 的學(xué)習(xí)方式與深度學(xué)習(xí)前饋模型中類別輸出的學(xué)習(xí)方式類似,即通過最大化一個類別條件對數(shù)似然:


該求和通常針對多個序列(例如,多個句子)進行,其中每個序列被視為條件獨立于其他序列——此處為簡化起見,我們將對數(shù)似然寫作一個長度為 T 的單一序列。與訓(xùn)練前饋模型類似,正則化項通常也會被添加到對數(shù)似然中。在深度學(xué)習(xí)中,鑒于 RNN 模型通常包含大量參數(shù),使用一階梯度方法來訓(xùn)練序列深度模型也是一種常見做法。由于在許多自然語言處理應(yīng)用中,模型是在海量文本數(shù)據(jù)上進行訓(xùn)練的——例如,整個維基百科或大規(guī)模公共網(wǎng)頁爬取數(shù)據(jù)——這導(dǎo)致在模型訓(xùn)練過程中會使用數(shù)十億個詞,因此使用小批量的隨機梯度下降(SGD)同樣被廣泛采用。

從圖5b 我們可以看到,原則上,對數(shù)似然相關(guān)的梯度(每個參數(shù))可以通過將相關(guān)信息從后續(xù)預(yù)測反向傳播(即“隨時間反向傳播”)至模型的早期部分來計算(例如,參見 Jurafsky & Martin 2022, 第9章)。在實踐中,為了使這種方法切實可行,長文本序列通常會被劃分為多個較短的片段。然而,與前饋模型一樣,在基于梯度的 RNN 模型訓(xùn)練中也可能出現(xiàn)顯著的數(shù)值問題(例如,不穩(wěn)定的梯度)。這促使了改進的 RNN 計算單元的發(fā)展,這些單元能對信息沿隱藏單元鏈傳遞的方式施加更直接的控制。例如,Hochreiter & Schmidhuber (1997b) 通過引入更復(fù)雜的RNN 計算單元提出了長短期記憶(LSTM)單元,該單元可以控制或門控信息向前和向后傳遞的數(shù)量(與圖5a 中所示的標(biāo)準(zhǔn)單元相比)。除了改善 RNN 的優(yōu)化特性外,LSTMs 還能提高隱藏狀態(tài)表示過去序列信息的有效性。目前,深度學(xué)習(xí)中大多數(shù)現(xiàn)代 RNN 應(yīng)用都使用 LSTM 單元或類似的門控信息思想(Cho 等,2014)。

為了說明這些概念,我們使用之前描述的 LaTeX 文本擬合了一個 RNN,該文本包含 K=96 個唯一字符和一個長度為 152,499 個字符的文本序列,隱藏層維度 b=128,并使用 SGD 優(yōu)化條件對數(shù)似然。圖6 展示了該模型在不同歷史子序列條件下生成的條件分布的示例 [即預(yù)測]。隨著序列歷史的推進,RNN 能夠捕捉到預(yù)測不確定性,從單詞 “prediction” 開始時的高不確定性,逐漸過渡到末尾的低不確定性。


我們也可以以生成式方式從該模型中模擬字符序列,例如:


我們看到,雖然訓(xùn)練好的 RNN 已經(jīng)捕捉到了字符依賴性的許多局部特征(包括一些 LaTeX 語法),但生成的較長文本缺乏句法和語義連貫性,讀者無需擔(dān)心 RNNs 很快就能撰寫統(tǒng)計學(xué)論文。然而,隨著更多訓(xùn)練數(shù)據(jù)的使用以及超越相對簡單的 RNN 的更先進模型的出現(xiàn),現(xiàn)代深度語言模型現(xiàn)在已能夠生成令人驚訝地連貫的文本(Brown 等,2020)。

3.3 循環(huán)神經(jīng)網(wǎng)絡(luò)概念的推廣

上述基本的 RNN 模型可以通過多種方式進行擴展和泛化。其中一種變體是輸入序列 x 和輸出序列 y 之間存在一對一對應(yīng)關(guān)系,但它們來自不同的詞匯表。例如,在自然語言處理(NLP)中,輸入是一個詞序列,而輸出序列則對應(yīng)于每個詞的預(yù)測詞性(名詞、動詞、形容詞等)。另一個常見的 NLP 任務(wù)是構(gòu)建一個模型,為整個序列 x?, ..., x? 分配一個類別標(biāo)簽 y,其中訓(xùn)練數(shù)據(jù)由(序列,標(biāo)簽)對組成,例如,為一篇評論分配正面、中性或負(fù)面標(biāo)簽 [即情感分析問題 (Wang 等,2018)]。一個更具挑戰(zhàn)性的 NLP 任務(wù)涉及將

一個序列映射到另一個序列,其中兩個序列的長度可以不同 [也稱為序列轉(zhuǎn)導(dǎo) (sequence transduction) (Graves 2012)]。這類序列映射問題正是諸如機器翻譯(將一種語言中的句子映射到另一種語言中的句子)或自動化聊天機器人(在對話中根據(jù)人類生成的句子生成回應(yīng)句)等問題的核心。針對此類問題的一種著名深度學(xué)習(xí)方法是使用兩個耦合的 RNN [即序列到序列(seq-to-seq)方法 (Sutskever 等,2014)],其中一個 RNN(編碼器)在 RNN 鏈末端生成第一個序列的隱藏表示 z,第二個 RNN(解碼器)則以該編碼后的表示 z 作為輸入,并生成第二個(輸出)序列。盡管上述各種模型的建模細節(jié)有所不同,但這些模型的訓(xùn)練過程在很大程度上與前文所述的標(biāo)準(zhǔn)自回歸 RNN 類似:使用隨機梯度方法最小化負(fù)對數(shù)似然(或其某種正則化變體),同時需密切關(guān)注與序列長度和梯度消失相關(guān)的計算及數(shù)值問題。

像 RNNs 這樣的執(zhí)行序列處理的模型,在記憶相關(guān)信息方面(例如,跨多個句子)可能會遇到困難??紤]對文本 “Rose lives in the Netherlands... She enjoys speaking [X],” 進行建模,其中 [X] 是待預(yù)測的詞?!癗etherlands” 是預(yù)測下一個詞(即她講荷蘭語)的一個強線索,但對于一個模型而言,要檢索該信息可能很困難,這取決于“...”部分序列包含多少內(nèi)容。注意力(attention)的概念 (Bahdanau 等,2015) 旨在通過允許神經(jīng)網(wǎng)絡(luò)直接訪問先前時間步的信息來打破這種依賴。然而,僅靠注意力本身并不一定能打破 RNN 計算的序列性質(zhì)。為了實現(xiàn)并行化計算,Vaswani 等 (2017) 引入了 Transformer 模型。其核心思想是使用掩碼——指示變量,允許某些輸入被納入計算,而其他輸入則不被納入——從而保留自回歸結(jié)構(gòu)。如物體識別所描述的常規(guī)架構(gòu)設(shè)計決策同樣適用,因為人們必須選擇例如序列順序、層數(shù)、層寬度等。

雖然 RNNs 和基于注意力的模型主要針對文本等類別序列開發(fā),但這些模型背后的基本概念適用于更廣泛的涉及序列和時間的預(yù)測問題。例如,RNNs 已被調(diào)整用于開發(fā)統(tǒng)計學(xué)家熟悉的模型,如時間序列預(yù)測 (Wang 等,2019b;Hewamalage 等,2021;Lim & Zohren 2021)、連續(xù)時間點過程 (Mei & Eisner 2017;Chen 等,2020) 以及生存分析 (Ranganath 等,2016;Wang 等,2019a)。此外,還有一系列不斷增長的研究工作,致力于彌合 RNNs 與更傳統(tǒng)的統(tǒng)計模型之間的差距,例如隨機 RNNs (Krishnan 等,2017)、深度狀態(tài)空間模型 (Rangapuram 等,2018) 以及貝葉斯 RNNs (McDermott & Wikle 2019),以及使用由神經(jīng)網(wǎng)絡(luò)參數(shù)化的常微分方程模型來處理連續(xù)時間和不規(guī)則采樣時間序列的方法 (Chen 等,2018)。在這些領(lǐng)域,深度學(xué)習(xí)模型的發(fā)展尚未看到伴隨文本數(shù)據(jù) DL 模型發(fā)展而出現(xiàn)的那種預(yù)測性能上的顯著提升,部分原因是許多典型應(yīng)用領(lǐng)域(如醫(yī)學(xué)、經(jīng)濟學(xué)和氣候?qū)W)無法獲得用于構(gòu)建深度學(xué)習(xí)模型的海量數(shù)據(jù)。

4. 潛變量模型與圖像生成

到目前為止,我們的重點一直放在監(jiān)督學(xué)習(xí)上。但自神經(jīng)網(wǎng)絡(luò)研究早期以來,無監(jiān)督學(xué)習(xí)就一直備受關(guān)注,其動機主要源于人工智能和認(rèn)知科學(xué)領(lǐng)域的思想。例如,神經(jīng)網(wǎng)絡(luò)能否模仿人類從周圍世界的感知信號(如音頻、視覺)中學(xué)習(xí)結(jié)構(gòu)的能力?作為一個具體例子,請看圖7a中顯示的數(shù)字圖像。這些圖像看起來像MNIST數(shù)據(jù)集中的圖像嗎?(可參考圖1a)。盡管它們在視覺上與MNIST相似,但它們并非來自該數(shù)據(jù)集,而是由一個擬合了MNIST數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)生成的樣本。

接下來請看圖7b。這些圖像并非真實人物的照片。相反,這些圖像也是由一個神經(jīng)網(wǎng)絡(luò)生成的,該網(wǎng)絡(luò)是在一個名為CelebA的名人圖像數(shù)據(jù)集上訓(xùn)練的。這些都是深度學(xué)習(xí)中所謂的“生成式建?!钡陌咐浩渲饕繕?biāo)是生成新穎的樣本,這些樣本在外觀上應(yīng)足以令人信服地成為訓(xùn)練集的一部分。該任務(wù)類似于(非參數(shù))密度估計,我們希望盡可能忠實地捕捉真實的分布 P(x)。正如我們將看到的,對于這類模型中的一些,我們確實可以訪問一個密度估計器;而對于另一些,則無法訪問。然而,通常更強調(diào)的是從模型中抽取樣本的質(zhì)量,因為密度估計和樣本質(zhì)量并不總是相關(guān)聯(lián)(Theis等,2016)。

基于無監(jiān)督學(xué)習(xí)的模型應(yīng)用范圍廣泛,從降維到數(shù)據(jù)合成不等,盡管該領(lǐng)域內(nèi)的許多興奮點源于構(gòu)建智能系統(tǒng)的愿望。其直覺是,如果我們的模型能夠完美地捕捉訓(xùn)練分布,那么它們必然理解了數(shù)據(jù)。相比之下,僅執(zhí)行判別功能(例如分類器)的模型則在執(zhí)行一項較簡單的認(rèn)知任務(wù)——就像識別高質(zhì)量藝術(shù)作品比創(chuàng)作它更容易一樣。雖然統(tǒng)計學(xué)領(lǐng)域也試圖構(gòu)建能盡可能高保真度表示數(shù)據(jù)的模型,但一個主要區(qū)別在于,這些神經(jīng)生成模型是建立在完全“數(shù)據(jù)不可知”(data agnostic)的基礎(chǔ)上的。很少(甚至沒有)會做出專門定制的建模決策,而是設(shè)計基于神經(jīng)網(wǎng)絡(luò)的模型,使其能力盡可能強大和豐富,以適應(yīng)計算能力的限制。

4.1 基于自編碼器的降維

為引入這一類模型,我們考慮降維(dimensionality reduction)任務(wù):即希望學(xué)習(xí)數(shù)據(jù)的一種新表示,以去除噪聲及其他無關(guān)信息。主成分分析(PCA)、流形學(xué)習(xí)(manifold learning)和聚類等,都是此類任務(wù)中廣為人知且已被深入研究的方法。正如第2節(jié)中所討論的,深度神經(jīng)網(wǎng)絡(luò)(DNNs)本質(zhì)上也通過其隱藏層的學(xué)習(xí)過程完成降維。但在此情境下,降維是針對監(jiān)督信號(例如類別標(biāo)簽)進行的,其目標(biāo)是保留對預(yù)測有用的信息,而非對數(shù)據(jù)本身作一般性概括。

自編碼器(autoencoder, AE),亦稱“迪亞波羅網(wǎng)絡(luò)”(diablo network)或“自聯(lián)想器”(auto-associator)(Bourlard & Kamp 1988;Baldi & Hornik 1989;Cottrell 1989;Hinton & Salakhutdinov 2006),是為無監(jiān)督學(xué)習(xí)與降維設(shè)計的最簡單神經(jīng)網(wǎng)絡(luò)架構(gòu)。自編碼器的目標(biāo)是:從對原始數(shù)據(jù)的一種有損表示出發(fā),重建出原始數(shù)據(jù)本身。具體而言,該模型以一個觀測值 x 為輸入,計算至少一個隱藏層 h,再嘗試僅根據(jù) h 重構(gòu)出原始觀測 x。

含多個隱藏層的自編碼器可形式化定義如下:


其中,x? 是輸入 x 的預(yù)測重構(gòu)結(jié)果。g?1 再次是一個鏈接函數(shù),用于將輸出映射到數(shù)據(jù)的定義域。W、b 和 σ 的定義與前饋神經(jīng)網(wǎng)絡(luò)中的相同。自編碼器通過最小化 x 與 x? 之間的一個適當(dāng)重構(gòu)損失(例如,||x - x?||)來擬合參數(shù) W?, ..., W?。一個簡單的單隱藏層自編碼器的示意圖可見于圖8a。


盡管自編碼器缺乏概率解釋,但可以通過注意到在特定條件下它們等價于主成分分析(PCA)來為其提供理論基礎(chǔ)(Baldi & Hornik 1989)。當(dāng)滿足以下條件時:(a) 重構(gòu)誤差為平方損失,(b) σ 是恒等函數(shù),且 (c) 只有一個隱藏層,并且權(quán)重矩陣滿足 W? = W??——即權(quán)重矩陣被綁定在一起——此時,自編碼器執(zhí)行的就是 PCA。在這種受限情況下,隱藏單元的數(shù)量作為信息瓶頸的角色是明確的:它對應(yīng)于相應(yīng) PCA 中所使用的特征向量數(shù)量。

4.2 用于生成式建模的概率自編碼器

如果自編碼器(AE)能被賦予概率解釋,那么它將既能執(zhí)行降維,又能生成樣本。后者對于合成數(shù)據(jù)以及向用戶說明信息損失程度而言非常有用。一種為自編碼器提供概率化表述的簡單變體是去噪自編碼器(denoising autoencoder, DAE)(Vincent 等,2008, 2010)。與直接將 x 輸入第一層不同,DAE 的輸入是 x 的一個擾動版本:x' ~ P(x'|x),其中 P(x'|x) 是噪聲模型。高斯噪聲就是一個例子:x' ~ N(x, Σ)。Bengio 等(2013b)表明,DAE 可以被解釋為一個轉(zhuǎn)移算子,它生成一個遍歷性的馬爾可夫鏈,該鏈的漸近分布即為數(shù)據(jù)生成分布 P(x)。Vincent (2011) 還通過分?jǐn)?shù)匹配(score matching)提供了另一種概率解釋。

更直接的概率解釋可以通過將類似自編碼器的架構(gòu)視為潛變量模型來獲得。這一方向上最早的工作是密度網(wǎng)絡(luò)(density network)(MacKay & Gibbs 1999),可以將其視為一種非線性因子分析,其中神經(jīng)網(wǎng)絡(luò)作為非線性部分(McDonald 1962; Yalcin & Amemiya 2001)。MacKay & Gibbs (1999) 定義了一個潛變量 z,并假設(shè)數(shù)據(jù)由一個由神經(jīng)網(wǎng)絡(luò)參數(shù)化的條件分布生成:

其中 p(z) 表示潛變量的先驗分布。一個具有 L 層參數(shù) W = {W?, ..., W?} 的神經(jīng)網(wǎng)絡(luò)以 z 為輸入,輸出條件分布的均值。MacKay & Gibbs (1999) 使用重要性抽樣(importance sampling)來估計邊際似然 p(x; W) = ∫zp(x|z; W)p(z)dz,并以此目標(biāo)擬合神經(jīng)網(wǎng)絡(luò)權(quán)重。

然而,MacKay & Gibbs (1999) 的方法無法擴展到大型神經(jīng)網(wǎng)絡(luò)。這類模型一度失寵,直到 Kingma & Welling (2014) 和 Rezende 等 (2014) 注意到,神經(jīng)網(wǎng)絡(luò)也可用于對潛變量進行推斷,并且整個架構(gòu)可以通過端到端微分進行訓(xùn)練。這一洞見催生了一種統(tǒng)一的模型,稱為變分自編碼器(variational autoencoder, VAE)。其核心思想是定義一個推斷網(wǎng)絡(luò),以形成后驗近似:

其中 φ(x) 是后驗近似的參數(shù)(作為給定 x 的函數(shù)),U?, ..., U? 是推斷神經(jīng)網(wǎng)絡(luò)的參數(shù)。兩個網(wǎng)絡(luò)(生成網(wǎng)絡(luò)和推斷網(wǎng)絡(luò))均可使用重參數(shù)化隨機證據(jù)下界(reparameterized stochastic evidence lower bound)同時進行訓(xùn)練:


其中,s 索引蒙特卡洛期望中的樣本,KLD[q(z; φ)||p(z)] 表示近似后驗分布與先驗分布之間的 Kullback-Leibler 散度。最關(guān)鍵的是,r(ε; φ(x)) 代表一種重參數(shù)化方法,它允許我們通過一個固定的分布 q(ε) 從 q(z; φ(x)) 中抽取樣本。此類函數(shù)的一個例子是正態(tài)分布的位置-尺度形式:? = r(ê; μφ(x), σφ(x)) = μφ(x) + σφ(x) ⊙ ê,其中 ê ~ N(0, 1)。另一個例子是使用 q(z) 的累積分布函數(shù)(CDF)進行逆變換抽樣。以這種方式表示隨機變量 z 使得端到端微分成為可能,因為我們現(xiàn)在可以訪問關(guān)于推斷網(wǎng)絡(luò)參數(shù)的偏導(dǎo)數(shù):??/?U? = (??/?φ)(?φ/?b'?)...(?b'?/?U?)。圖8b 展示了 VAE 的結(jié)構(gòu)圖,其中推斷網(wǎng)絡(luò)和生成網(wǎng)絡(luò)通過 r(ê; φ(x)) 組合在一起。當(dāng)將推斷過程和生成過程視為一個統(tǒng)一的計算管道時,所得到的結(jié)構(gòu)類似于傳統(tǒng)的自編碼器(AE),這也是 VAE 得名的原因。VAE 是最早展示出能夠生成高保真樣本能力的現(xiàn)代生成模型之一,如圖7a 所示。VAE 也可以執(zhí)行密度估計,但僅能通過蒙特卡洛積分實現(xiàn)近似。


4.3 其他類型的神經(jīng)生成模型

目前已發(fā)展出多種其他深度生成模型,我們在此簡要概述其中幾類。

其中最受歡迎的一種是生成對抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)(Goodfellow 等,2014)。

GANs 將密度建模任務(wù)重新表述為一個對抗性博弈,其中生成器神經(jīng)網(wǎng)絡(luò)(generator NN)試圖模擬數(shù)據(jù),使得判別器神經(jīng)網(wǎng)絡(luò)(discriminator NN)無法區(qū)分生成的樣本與真實觀測樣本。其基本假設(shè)是:如果判別器無法區(qū)分兩者,則生成器必定是一個良好的數(shù)據(jù)模型。該概念在精神上類似于近似貝葉斯計算(ABC)(Rubin 1984),后者通過某種統(tǒng)計量或度量將模擬數(shù)據(jù)與觀測數(shù)據(jù)進行比較,并保留那些生成模擬的參數(shù)——前提是該統(tǒng)計量在某個閾值之內(nèi)。在 GANs 中,判別器充當(dāng)了比較虛假數(shù)據(jù)與真實數(shù)據(jù)的度量工具。ABC 與 GANs 的主要區(qū)別在于,GANs 是通過對對抗過程進行微分訓(xùn)練的,將其視為一個優(yōu)化目標(biāo)。Mohamed & Lakshminarayanan (2017) 從一個廣義框架的角度討論了 GANs,展示了各種適當(dāng)?shù)脑u分規(guī)則可導(dǎo)致有效的判別器。GAN 框架也可用于模型參數(shù)的近似推斷(Mescheder 等,2017;Tran 等,2017),盡管由于 GANs 無法提供密度估計,使其用于推斷變得困難。



5. 深度學(xué)習(xí)研究前沿的若干選題

以上綜述涵蓋了深度學(xué)習(xí)(DL)中一些較為成熟確立的方面。在本文的最后一節(jié)中,我們將討論深度學(xué)習(xí)中若干涉及開放性研究問題的課題,這些課題可能對統(tǒng)計學(xué)者尤為相關(guān)。

5.1 深度學(xué)習(xí)理論

嘗試從理論上刻畫深度神經(jīng)網(wǎng)絡(luò)(DNNs)的工作,主要聚焦于以下三個方面:其表達能力(expressive power)、優(yōu)化景觀(optimization landscape)的特性,以及其對未見數(shù)據(jù)的泛化能力(generalization ability)。

關(guān)于表達能力,Cybenko(1989)曾證明:采用S型(sigmoidal)激活函數(shù)的網(wǎng)絡(luò)架構(gòu)具有萬能近似(universal approximation)性質(zhì)。然而,這類近似結(jié)果可能要求神經(jīng)網(wǎng)絡(luò)擁有指數(shù)級數(shù)量的隱藏單元;近年來,研究者們正嘗試刻畫實現(xiàn)特定近似精度所需的深度(Yarotsky, 2017)與寬度(Lu 等,2017)。此外,還有平行方向的研究致力于理解深層網(wǎng)絡(luò)與淺層網(wǎng)絡(luò)所能表示的函數(shù)類之間的差異。例如,Baldi & Vershynin(2019)與 Eldan & Shamir(2016)等人的結(jié)果表明:相較于淺層網(wǎng)絡(luò),深層網(wǎng)絡(luò)所能表示的函數(shù)總量可能更少,但其函數(shù)結(jié)構(gòu)更復(fù)雜、更“高級”。

盡管DNNs作為萬能近似器的性質(zhì)早已被證實,但該結(jié)論并不保證通過隨機梯度下降(SGD)這一優(yōu)化方法所能實際到達的函數(shù)類別。因此,對DNN優(yōu)化景觀的研究引起了廣泛興趣。多年來,人們曾擔(dān)憂神經(jīng)網(wǎng)絡(luò)優(yōu)化會不可避免地陷入大量局部極小值(Cheng & Titterington, 1994)。然而,隨著近期研究提出一種觀點——即損失曲面的臨界點主要由鞍點(saddle points)而非局部極小值構(gòu)成(Dauphin 等,2014;Kawaguchi, 2016)——這一擔(dān)憂在一定程度上得以緩解。其直覺依據(jù)在于:要構(gòu)成一個真正的局部極小值,優(yōu)化曲面需在所有維度上同時上升,這在高維空間中極不可能;相比之下,鞍點則更為常見。因此,如何高效逃離鞍點成為研究重點(Jin 等,2017)。

除對臨界點進行分類外,極小值本身的性質(zhì)也備受關(guān)注——尤其是極小值是平坦寬闊型(wide and flat)還是陡峭狹窄型(narrow and sharp)(Hochreiter & Schmidhuber, 1997a;Keskar 等,2017)。其背后直覺是:平坦極小值區(qū)域?qū)?yīng)著一大片在性能上近似等價的參數(shù)集合,因此更可能對新數(shù)據(jù)具有良好泛化能力。

最后,理解DNN泛化性能之“謎”仍是當(dāng)前極為活躍的研究課題:盡管DNN作為模型具有強大表達能力,并可通過優(yōu)化擬合復(fù)雜函數(shù),但它們?nèi)绾伪苊膺^擬合?傳統(tǒng)通過參數(shù)數(shù)量計數(shù)(如信息準(zhǔn)則)來衡量模型復(fù)雜度的方法,在判斷神經(jīng)網(wǎng)絡(luò)是否過擬合訓(xùn)練集時明顯失效。事實上,經(jīng)典的偏差–方差權(quán)衡在神經(jīng)網(wǎng)絡(luò)中已被證實不再成立。最新研究表明,存在一種雙下降(double descent)曲線現(xiàn)象:考慮將一個深度網(wǎng)絡(luò)的泛化誤差(測試誤差)繪制成模型復(fù)雜度(例如參數(shù)總數(shù))的函數(shù)。當(dāng)模型復(fù)雜度增加時(x軸),泛化誤差(y軸)起初呈現(xiàn)預(yù)期的偏差–方差U形曲線(欠擬合→最佳擬合→過擬合)。然而,一旦模型復(fù)雜度達到足以完全插值(interpolate)訓(xùn)練數(shù)據(jù)的程度(即訓(xùn)練誤差為零),泛化誤差反而可能再次下降(故稱“雙下降”),并可降至最低點——此時最優(yōu)模型(按泛化誤差衡量)的參數(shù)數(shù)量遠超訓(xùn)練樣本數(shù)。

此類現(xiàn)象過去在過參數(shù)化模型中已有觀察(Duin, 2000);當(dāng)前,“雙下降”已成為深度學(xué)習(xí)領(lǐng)域一個極為活躍的研究方向(Belkin 等,2020;Nakkiran 等,2021;Viering & Loog, 2021)。盡管如此,理論進展(毫不意外地)仍主要集中于更簡單的非神經(jīng)模型上(Hastie 等,2022;Bartlett 等,2020;Mei & Montanari, 2022)。

5.2 可解釋性、因果性、公平性與可信性

深度神經(jīng)網(wǎng)絡(luò)(DNNs)常被批評是“黑箱”(black boxes)。典型DNN的復(fù)雜性使得人們難以理解其預(yù)測機制、難以判斷其在何時或為何表現(xiàn)不佳,以及難以厘清模型所隱含的假設(shè)(Lipton, 2018)。近期關(guān)于可解釋性(interpretability)的研究(Doshi-Velez & Kim, 2017;Guidotti 等, 2018)大體可歸為三個主要方向:

  1. 開發(fā)理解既有架構(gòu)的方法
  2. 設(shè)計結(jié)構(gòu)上更易解釋的模型
  3. 設(shè)計探究影響模型擬合之?dāng)?shù)據(jù)模式的方法

作為第一類的例證,可通過考察神經(jīng)網(wǎng)絡(luò)輸出對其輸入特征的梯度,來理解各特征對預(yù)測的重要性(Simonyan 等, 2014)。第二類的一個例子是,用決策樹近似神經(jīng)網(wǎng)絡(luò)所編碼的知識,以期同時獲得前者的預(yù)測能力與后者的可解釋性(Letham 等, 2015)。第三類中,Aamodt & Plaza(1994)與 Kim 等(2016)利用統(tǒng)計工具開展模型批評(model criticism),以發(fā)現(xiàn)未被典型樣例解釋的數(shù)據(jù)模式,從而揭示輸入空間中缺乏良好解釋的區(qū)域。

與可解釋性密切相關(guān)的是因果推斷(causal inference)(Pearl, 2009)。由于因果推斷依賴于靈活的函數(shù)逼近能力,深度學(xué)習(xí)為現(xiàn)有半?yún)?shù)推斷框架提供了極具吸引力的工具箱。例如,在潛在結(jié)果(potential outcomes)框架下,Shi 等(2019)提出一種用于估計處理效應(yīng)(treatment effects)的神經(jīng)網(wǎng)絡(luò);在結(jié)構(gòu)方程框架下,Xia 等(2021)提出了基于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)因果模型。展望未來,Sch?lkopf 等(2021)強調(diào)了若干發(fā)展方向,包括利用神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)能力,從低層次觀測中識別高層次因果變量。

深度學(xué)習(xí)模型的公平性(fairness)也引發(fā)廣泛關(guān)注,其目標(biāo)在于確保決策過程中的非歧視性、正當(dāng)程序與可理解性(Zemel 等, 2013;Mehrabi 等, 2021)。政策制定者、監(jiān)管機構(gòu)與權(quán)益倡導(dǎo)者已對機器學(xué)習(xí)可能帶來的歧視性影響表達了擔(dān)憂,并呼吁加強技術(shù)研究,以防范在自動化決策中無意嵌入偏見。近期工作傾向于在因果推斷框架下形式化公平性問題(Kusner 等, 2017):例如,將模型公平性評估轉(zhuǎn)化為對反事實的推理——如若被預(yù)測個體的種族或性別不同,分類器的預(yù)測結(jié)果會如何變化?

對深度學(xué)習(xí)尤為相關(guān)的是偏差(bias)問題,即因某些人口群體在訓(xùn)練數(shù)據(jù)中代表性不足,導(dǎo)致模型預(yù)測出現(xiàn)系統(tǒng)性差異。鑒于圖像與文本領(lǐng)域的深度學(xué)習(xí)模型通?;跀?shù)百萬甚至數(shù)十億樣本訓(xùn)練,此類偏差可能隱含于數(shù)據(jù)集中,難以察覺與消除,由此催生了對深度學(xué)習(xí)去偏方法(debiasing methodologies)的近期研究興趣(Savani 等, 2020)。此外,差分隱私(differential privacy)(Dwork, 2011)與差分公平性(differential fairness)(Foulds 等, 2020)的概念亦具相關(guān)性——二者分別旨在約束單個數(shù)據(jù)點或特征對模型擬合結(jié)果的影響上限。

由于DNN絕大多數(shù)用于參數(shù)化條件分布,人們更深切擔(dān)憂的是:模型是否僅接收“適當(dāng)”的輸入——即與原始訓(xùn)練集同分布的輸入。自1990年代初起,神經(jīng)網(wǎng)絡(luò)的驗證(verification,亦稱 validation)已受到關(guān)注(Bishop, 1994);該問題的主流方法多采用可滿足性(satisfiability)視角(Zakrzewski, 2001),以證明DNN的誤差是有界的。另一類方法則致力于在輸入特征空間的特定區(qū)域內(nèi),為模型的魯棒性(robustness)——通常表現(xiàn)為類別預(yù)測的不變性——提供理論保證(Wong & Kolter, 2018;Zhang 等, 2019)。此類工作對抵御對抗樣本(adversarial examples)尤為關(guān)鍵:對抗樣本指人為設(shè)計的、微?。ǔ2豢刹煊X)的輸入擾動,其意圖是導(dǎo)致模型做出錯誤預(yù)測(Goodfellow 等, 2015)。

另一個流行趨勢是:向模型暴露與訓(xùn)練集差異顯著的樣本,并優(yōu)化模型,使其在此類樣本上的預(yù)測分布具有高熵(即高度不確定性),以此增強模型對外分布(out-of-distribution)輸入的識別能力(Malinin & Gales, 2018;Hafner 等, 2019;Hendrycks 等, 2019)。

5.3 層級建模與元學(xué)習(xí)

如同在統(tǒng)計學(xué)中(例如貝葉斯層級建模),發(fā)展層級建??蚣?/strong>(hierarchical modeling frameworks)——即允許跨數(shù)據(jù)集與子任務(wù)共享知識與統(tǒng)計信息強度的框架——也是深度學(xué)習(xí)(DL)中一個活躍的研究方向。鑒于神經(jīng)網(wǎng)絡(luò)本質(zhì)上只是非線性函數(shù),它們可通過如下方式被整合進貝葉斯層級建模:用神經(jīng)網(wǎng)絡(luò)將某一層次的隨機變量參數(shù)化為更高層次隨機變量的函數(shù)。我們在第4.2節(jié)中討論的變分自編碼器(VAE)或許是這一思想最簡單的實例。Johnson 等(2016)進一步拓展了該思路,使得可利用一般圖結(jié)構(gòu)來定義潛變量。

深度學(xué)習(xí)中的元學(xué)習(xí)(meta-learning)(Finn, 2018)與學(xué)會學(xué)習(xí)(learning to learn)(Heskes, 2000;Andrychowicz 等, 2016)概念,雖與統(tǒng)計學(xué)中的層級建模聯(lián)系尚不夠嚴(yán)格,但仍具有相似之處。以其中一種變體為例:情景式元學(xué)習(xí)(episodic meta-learning)(Lake 等, 2015;Santoro 等, 2016;Finn 等, 2017;Ravi & Larochelle, 2017),其目標(biāo)是定義并估計一類模型,使其能泛化到多個任務(wù)上——包括數(shù)據(jù)極少的任務(wù),或不同于訓(xùn)練任務(wù)(但仍存在某些概念重疊)的新任務(wù)。元學(xué)習(xí)方法通常采用任務(wù)特異性模型,而這些專用模型通過某種參數(shù)綁定機制實現(xiàn)跨任務(wù)的信息共享。生成此類任務(wù)特異性模型的一種途徑是使用超網(wǎng)絡(luò)(hypernetwork)(Ha 等, 2017):即一個神經(jīng)網(wǎng)絡(luò),其輸出是另一個神經(jīng)網(wǎng)絡(luò)的參數(shù)。

6. 結(jié)論

在對深度學(xué)習(xí)的簡要巡覽中,我們介紹了前饋、序列與無監(jiān)督架構(gòu)的基礎(chǔ)知識。盡管具體技術(shù)細節(jié)必將隨時間演進,但只要預(yù)測是核心任務(wù)、且需借助多層次表示從數(shù)據(jù)中提取信號,深度學(xué)習(xí)就將持續(xù)蓬勃發(fā)展。

盡管已取得巨大成功,深度學(xué)習(xí)仍需進一步創(chuàng)新,以滿足現(xiàn)代應(yīng)用場景對可解釋性、不確定性量化、可靠性與安全性等方面的嚴(yán)苛要求。從自動駕駛、金融到醫(yī)療健康,統(tǒng)計學(xué)中那些經(jīng)受檢驗的方法——如模型驗證與模型批評——在確保深度學(xué)習(xí)模型可信部署過程中,很可能發(fā)揮關(guān)鍵作用。

鑒于深度學(xué)習(xí)在模型規(guī)模與數(shù)據(jù)規(guī)模上已達到統(tǒng)計學(xué)尚未普遍應(yīng)對的新高度,統(tǒng)計學(xué)界正迎來一個自我豐富與拓展的契機——通過直面這些新興挑戰(zhàn),推動學(xué)科前沿發(fā)展。我們希望本文能促進相關(guān)討論,在統(tǒng)計學(xué)、數(shù)據(jù)科學(xué)與深度學(xué)習(xí)的交叉地帶催生新的創(chuàng)新。

原文: https://www.annualreviews.org/docserver/fulltext/statistics/10/1/annurev-statistics-032921-013738.pdf?expires=1766237847&id=id&accname=guest&checksum=81838A5A29F907040B16D76350C4555B

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
越南共產(chǎn)黨新一屆領(lǐng)導(dǎo)集體亮相 發(fā)展新局待啟,越南將走向何方

越南共產(chǎn)黨新一屆領(lǐng)導(dǎo)集體亮相 發(fā)展新局待啟,越南將走向何方

清水阿嬌
2026-01-27 06:50:03
厲害了!大連要砸錢干大事!5年后要讓你“高攀不起”!

厲害了!大連要砸錢干大事!5年后要讓你“高攀不起”!

西莫的藝術(shù)宮殿
2026-01-28 00:18:20
央視提醒!這種插線板早已被禁用!家里有的盡快扔掉!

央視提醒!這種插線板早已被禁用!家里有的盡快扔掉!

閃電新聞
2026-01-27 09:20:41
王玉雯和楊玏分手實錘!狗仔大爆猛料,兩人有豪宅,戀情早有裂痕

王玉雯和楊玏分手實錘!狗仔大爆猛料,兩人有豪宅,戀情早有裂痕

李健政觀察
2026-01-27 14:13:25
對越自衛(wèi)反擊戰(zhàn)黃干宗被越女兵擄走生子,回國后想接她們來中國

對越自衛(wèi)反擊戰(zhàn)黃干宗被越女兵擄走生子,回國后想接她們來中國

嘮叨說歷史
2026-01-23 15:00:15
哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

岐黃傳人孫大夫
2026-01-08 10:06:20
哈梅內(nèi)伊為什么慌了

哈梅內(nèi)伊為什么慌了

臧啟玉律師
2026-01-26 11:13:42
國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

霹靂炮
2026-01-19 22:24:13
吃他汀一顆花生不能碰?醫(yī)生提醒:不止花生,這5樣食物也要小心

吃他汀一顆花生不能碰?醫(yī)生提醒:不止花生,這5樣食物也要小心

路醫(yī)生健康科普
2026-01-26 10:09:49
現(xiàn)貨黃金突破5140美元

現(xiàn)貨黃金突破5140美元

財聯(lián)社
2026-01-28 04:15:30
薩內(nèi):瓜帥向我展示了完全不同的運動;我們相信自己能贏

薩內(nèi):瓜帥向我展示了完全不同的運動;我們相信自己能贏

懂球帝
2026-01-28 01:43:05
第一集就上頭!這部美劇,拍得太過癮了

第一集就上頭!這部美劇,拍得太過癮了

來看美劇
2026-01-27 21:24:47
“戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

“戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

流史歲月
2026-01-26 10:58:30
高市早苗心腹遭圍攻!

高市早苗心腹遭圍攻!

環(huán)球時報國際
2026-01-27 00:23:57
1939年,外蒙古處決了6.8萬名喇嘛,背后是有何隱情嗎?

1939年,外蒙古處決了6.8萬名喇嘛,背后是有何隱情嗎?

深度報
2025-12-12 22:43:56
“妖鎳”瘋漲!這家“收廢品”的企業(yè),要起飛了?

“妖鎳”瘋漲!這家“收廢品”的企業(yè),要起飛了?

包不同
2026-01-28 00:09:54
AB求助黃曉明進行緊急公關(guān)!

AB求助黃曉明進行緊急公關(guān)!

八卦瘋叔
2026-01-27 10:34:46
北約秘書長:烏將不得不作出領(lǐng)土妥協(xié)

北約秘書長:烏將不得不作出領(lǐng)土妥協(xié)

參考消息
2026-01-27 11:34:12
年輕時的童瑤腳好干

年輕時的童瑤腳好干

東方不敗然多多
2026-01-27 16:09:56
雙一流“下車”預(yù)警!這三所高校恐率先出局,問題一個比一個致命

雙一流“下車”預(yù)警!這三所高??致氏瘸鼍?,問題一個比一個致命

特特農(nóng)村生活
2026-01-28 00:39:34
2026-01-28 05:03:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

美報告稱中國是其19世紀(jì)以來面對過的最強大國家

頭條要聞

美報告稱中國是其19世紀(jì)以來面對過的最強大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個商務(wù)被取消

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

房產(chǎn)
本地
藝術(shù)
游戲
公開課

房產(chǎn)要聞

實景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

藝術(shù)要聞

震撼!19世紀(jì)油畫巨匠的作品美得不可思議!

LPL春季賽:決絕讓一追二,AL三局擊潰IG,大家的排名都不變

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版