国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

校準(zhǔn)貝葉斯推理

0
分享至

Calibrating Bayesian Inference

校準(zhǔn)貝葉斯推理



摘要
盡管貝葉斯統(tǒng)計(jì)因其直觀的不確定性量化和靈活的決策能力而在心理學(xué)研究中廣受歡迎,但其在有限樣本中的表現(xiàn)可能不可靠。本文揭示了一個(gè)關(guān)鍵弱點(diǎn):當(dāng)研究者所選的先驗(yàn)分布與真實(shí)參數(shù)生成過程不匹配時(shí),貝葉斯推斷在長(zhǎng)期運(yùn)行中可能產(chǎn)生誤導(dǎo)。鑒于真實(shí)過程在實(shí)踐中通常未知,我們提出一種更安全的替代方案:對(duì)貝葉斯可信區(qū)域進(jìn)行校準(zhǔn),以實(shí)現(xiàn)頻率學(xué)派的有效性。這一標(biāo)準(zhǔn)更強(qiáng),能保證無論底層參數(shù)生成機(jī)制如何,貝葉斯推斷均有效。為在實(shí)踐中解決校準(zhǔn)問題,我們提出了一種新穎的隨機(jī)逼近算法。我們開展并報(bào)告了一項(xiàng)蒙特卡洛實(shí)驗(yàn),結(jié)果表明,在某些參數(shù)生成情形下,未經(jīng)校準(zhǔn)的貝葉斯推斷可能過于寬松(liberal),而我們的校準(zhǔn)方案始終能保持有效性。

關(guān)鍵詞:貝葉斯推斷,頻率學(xué)派推斷,統(tǒng)計(jì)有效性,可信區(qū)域,隨機(jī)逼近,黎曼優(yōu)化

引言

近幾十年來,使用貝葉斯方法的心理學(xué)出版物顯著增加(例如,Kruschke, 2021;van de Schoot 等, 2021;van de Schoot, Winter, Ryan, Zondervan-Zwijnenburg & Depaoli, 2017;Volpe 等, 2025)。貝葉斯推斷通過后驗(yàn)概率度量提供直觀的不確定性量化。借助從后驗(yàn)分布中抽取的(近似)隨機(jī)樣本,可方便地以無需解析推導(dǎo)的方式對(duì)模型參數(shù)進(jìn)行推斷、預(yù)測(cè)未來數(shù)據(jù)并評(píng)估模型擬合(Gelman, Carlin, Stern & Rubin, 2013)。

現(xiàn)成的貝葉斯分析軟件不僅包括通用的馬爾可夫鏈蒙特卡洛(MCMC)抽樣器,如 JAGS(Plummer, 2017)和 Stan(Stan Development Team, 2024),還包括專為特定建模框架設(shè)計(jì)的程序,如 Mplus(Muthén & Muthén, 1998–2024)和 blavaan(Merkle & Rosseel, 2018)。

貝葉斯推斷的哲學(xué)與統(tǒng)計(jì)基礎(chǔ)在于在不確定性下做出一致的決策(DeGroot, 1970;Savage, 1954):用恰當(dāng)?shù)母怕蕼y(cè)度編碼先驗(yàn)知識(shí),并在觀測(cè)新數(shù)據(jù)后通過貝葉斯公式更新知識(shí)。然而,貝葉斯方法在心理學(xué)中的應(yīng)用大多是工具性的,而非哲學(xué)性的。將先驗(yàn)明確聯(lián)系到研究者信念的正當(dāng)性說明仍然罕見,而依賴默認(rèn)或共軛先驗(yàn)的做法卻十分普遍。通常有三種理由被用來為此辯護(hù)。

第一,某些默認(rèn)先驗(yàn)——尤其是“弱信息”和“客觀”先驗(yàn)(例如 Berger, Bernardo & Sun, 2024, 2015;Datta & Mukerjee, 2004;Gelman, Jakulin, Pittau & Su, 2008)——在現(xiàn)有文獻(xiàn)中已被證明具有良好的理論性質(zhì)或強(qiáng)健的實(shí)證表現(xiàn)。第二,在適當(dāng)?shù)恼齽t條件下,隨著樣本量增大,先驗(yàn)的影響會(huì)減弱,所得的后驗(yàn)推斷在大樣本下通常與頻率學(xué)派結(jié)果相似(例如 Bernstein-von Mises 定理;van der Vaart, 1998,第10章)。第三,通常建議進(jìn)行敏感性分析,以確保統(tǒng)計(jì)結(jié)論對(duì)不同先驗(yàn)選擇的穩(wěn)健性(例如 Depaoli, 2022;Depaoli, Winter & Visser, 2020;Van Erp, Mulder & Oberski, 2018)。

然而,當(dāng)應(yīng)用于現(xiàn)實(shí)世界的心理學(xué)研究時(shí),上述辯護(hù)的合理性常常值得懷疑。首先,“客觀性”和“無信息性”在定義默認(rèn)先驗(yàn)時(shí)并未建立在單一、統(tǒng)一的框架之上(例如 Kass & Wasserman, 1996)。此外,哪種默認(rèn)先驗(yàn)表現(xiàn)最佳往往取決于具體模型(Yang & Berger, 1998)。因此,尋找一個(gè)在所有情況下都表現(xiàn)優(yōu)異的先驗(yàn)很可能是一個(gè)難以實(shí)現(xiàn)的目標(biāo)。

第二,由于研究焦點(diǎn)或?qū)嶋H考量,實(shí)質(zhì)性研究者可能不得不處理小樣本。例如,由多重社會(huì)身份定義的交叉性亞群體通常過于狹窄,難以積累足夠數(shù)據(jù)(例如 Cole, 2009);诖髽颖纠碚摰慕y(tǒng)計(jì)程序在小樣本應(yīng)用中可能數(shù)值不穩(wěn)定,甚至產(chǎn)生誤導(dǎo)性推斷(例如 van de Schoot & Mio?evi?, 2020)。

第三,先驗(yàn)敏感性分析可能無法得出明確結(jié)論。幾乎總能找到一種病態(tài)的先驗(yàn)分布(例如,其質(zhì)量集中在遠(yuǎn)離原始貝葉斯解的區(qū)域),從而推翻原有結(jié)論。此外,貝葉斯計(jì)算可能計(jì)算成本過高,難以重復(fù)大量次數(shù)。因此,先驗(yàn)敏感性分析通常局限于一組有限且任意選擇的先驗(yàn),對(duì)先驗(yàn)設(shè)定的診斷價(jià)值甚微。

為應(yīng)對(duì)現(xiàn)實(shí)中“實(shí)用主義貝葉斯”(pragmatic Bayes)的普遍性,貝葉斯方法的方法論研究越來越關(guān)注在數(shù)據(jù)和/或參數(shù)重復(fù)抽樣下的表現(xiàn)。事實(shí)上,任何在長(zhǎng)期運(yùn)行中系統(tǒng)性地產(chǎn)生錯(cuò)誤結(jié)論的推斷程序都應(yīng)被摒棄。為此,過去幾十年開展了大量蒙特卡洛(MC)實(shí)驗(yàn),其中貝葉斯推斷程序(即假設(shè)檢驗(yàn)和區(qū)間估計(jì))在各種數(shù)據(jù)與參數(shù)生成機(jī)制及設(shè)計(jì)因素(如樣本量、協(xié)變量數(shù)量等)下被評(píng)估(例如 Finch & French, 2019;McNeish, 2016, 2017a, 2017b;Preacher & MacCallum, 2002;Smid, McNeish, Mio?evi? & van de Schoot, 2020)。然而,MC 研究的一個(gè)主要局限在于其結(jié)論依賴于特定模型和設(shè)計(jì),難以推廣到未明確測(cè)試的情境之外。因此,目前使用貝葉斯分析的心理學(xué)研究所得結(jié)論的可信度尚未完全確立。

本文有兩個(gè)主要目標(biāo):一是教學(xué)性的,二是方法論的。借鑒統(tǒng)計(jì)決策理論(Berger, 1985)和推斷模型(Inferential Models, IMs;C. Liu & Martin, 2024;Martin & Liu, 2015)的相關(guān)成果,我們強(qiáng)調(diào)貝葉斯有效性(Bayesian validity)這一核心概念:即關(guān)于參數(shù)的不合理陳述不太可能頻繁地具有較大的后驗(yàn)概率。這一原則為貝葉斯程序的長(zhǎng)期頻率表現(xiàn)提供了正當(dāng)性(例如 Martin, 2022a, 2022b, 2022c;精確的定義見“貝葉斯推斷與統(tǒng)計(jì)有效性”一節(jié))。在缺乏先驗(yàn)知識(shí)、僅將貝葉斯方法作為工具使用的場(chǎng)景下,我們指出應(yīng)追求更強(qiáng)的頻率學(xué)派有效性(frequentist validity),因?yàn)樗厝惶N(yùn)含對(duì)任意先驗(yàn)設(shè)定下的貝葉斯有效性。

在方法論層面,我們提出一種計(jì)算程序,用于校準(zhǔn)基于后驗(yàn)的推斷以確保頻率學(xué)派有效性。該方法結(jié)合了無梯度隨機(jī)逼近(gradient-free stochastic approximation, SA)與流形優(yōu)化(manifold optimization)(例如 Absil, Mahony & Sepulchre, 2008;Spall, 1992)。我們?cè)谝豁?xiàng)蒙特卡洛實(shí)驗(yàn)中將該方法應(yīng)用于線性-正態(tài)因子分析模型(例如 J?reskog, 1969),結(jié)果表明:若未經(jīng)適當(dāng)校準(zhǔn),貝葉斯推斷可能是無效的。

本文其余部分結(jié)構(gòu)如下:我們首先回顧統(tǒng)計(jì)決策理論、推斷模型(IMs)和統(tǒng)計(jì)有效性的理論基礎(chǔ)。具體而言,我們闡明一個(gè)關(guān)鍵事實(shí):頻率學(xué)派有效性可確保對(duì)任意先驗(yàn)選擇下的貝葉斯有效性。接著,我們介紹一種實(shí)用的計(jì)算算法,用于校準(zhǔn)貝葉斯推斷以實(shí)現(xiàn)頻率學(xué)派有效性。我們開展了一項(xiàng)概念驗(yàn)證型蒙特卡洛(MC)實(shí)驗(yàn),將基于隨機(jī)逼近(SA)的校準(zhǔn)推斷與基于MCMC抽樣的原始推斷進(jìn)行對(duì)比。最后,文章通過討論本研究的啟示、局限性及未來研究方向予以總結(jié)。

貝葉斯推理與統(tǒng)計(jì)有效性

貝葉斯模型和嵌套置信區(qū)域




后驗(yàn)可能性

嵌套置信區(qū)域不僅僅是模型參數(shù)的一組估計(jì)量。它們?cè)谪惾~斯推理中的基礎(chǔ)作用可以通過可能性理論正式建立(Dubois, 2006; Dubois & Prade, 1988; Zadeh, 1978)。設(shè)




后驗(yàn)可能性輪廓可以通過在所有 α 級(jí)上拼接嵌套置信區(qū)域族來直觀地描繪;圖1中可以找到圖形說明。更深入的可能性理論及其在統(tǒng)計(jì)推理中的應(yīng)用可以在例如Denoeux和Li (2018),C. Liu和Martin (2024),以及Martin (2025b)中找到。




后驗(yàn)可能性是貝葉斯框架內(nèi)推斷的基石?赡苄缘戎稻函數(shù) ? 為所有嵌套可信區(qū)域提供了一個(gè)簡(jiǎn)潔的總結(jié):對(duì)于任意給定的 α ∈ [0,1],可通過取該等值線的上 α-水平集直接獲得一個(gè)集合估計(jì)量。此外,在貝葉斯檢驗(yàn)中,零假設(shè)的可信度由其后驗(yàn)可能性保守地量化。例如,若簡(jiǎn)單假設(shè) H = {θ?} 的可能性 Π??{H} = ?(θ?) 小于預(yù)設(shè)的(較小的)α 水平,則該假設(shè)被拒絕。

統(tǒng)計(jì)有效性

為了使任何統(tǒng)計(jì)程序在實(shí)踐中可靠,最好能確立該程序在各種情境下均能產(chǎn)生可靠的結(jié)果。特別是在對(duì)模型參數(shù)進(jìn)行推斷時(shí),重要的是不應(yīng)在長(zhǎng)期運(yùn)行中反復(fù)將低可能性值賦予頻繁發(fā)生的事件。越來越多的貝葉斯和頻率學(xué)派統(tǒng)計(jì)學(xué)家,盡管對(duì)概率代表什么持有不同觀點(diǎn),但仍支持評(píng)估推斷程序在重復(fù)抽樣下表現(xiàn)的重要性(例如 Grünwald, 2018;Martin, 2022a, 2022b, 2022c)。接下來,我們將回顧貝葉斯有效性和頻率學(xué)派有效性的概念。我們強(qiáng)調(diào),基于后驗(yàn)可能性測(cè)度的貝葉斯推斷,在參數(shù)與數(shù)據(jù)模型均被正確設(shè)定的假設(shè)下,滿足貝葉斯有效性。同時(shí),具有頻率學(xué)派有效性的程序,在數(shù)據(jù)模型被正確設(shè)定的前提下,對(duì)所有先驗(yàn)而言自動(dòng)滿足貝葉斯意義下的有效性。

貝葉斯有效性

令 h : Y × Q → ? 為任意 P_{Y,Θ}-可積函數(shù)。根據(jù)富比尼定理(Fubini’s)

定理(Billingsley, 2012,定理 18.3)指出,我們可以將函數(shù) h 關(guān)于數(shù)據(jù)和參數(shù)的聯(lián)合期望寫成如下迭代期望的形式:











校準(zhǔn)置信區(qū)域

在本節(jié)中,我們提出了一種通用的計(jì)算策略,通過閾值化觀測(cè)檢驗(yàn)統(tǒng)計(jì)量來校準(zhǔn)后驗(yàn)可能性輪廓并確保頻率論有效性(8)。作為輸入,我們定義了一個(gè)通過閾值化觀測(cè)檢驗(yàn)統(tǒng)計(jì)量來定義的嵌套置信區(qū)域族。然后,我們使用無梯度SA算法基于檢驗(yàn)統(tǒng)計(jì)量的生存函數(shù)來校準(zhǔn)置信區(qū)域。值得注意的是,我們解決的優(yōu)化程序本質(zhì)上等同于為IM可能性輪廓(9)找到一個(gè)“變分近似”(Cella & Martin, 2024; Martin, 2025a)。我們提案的一個(gè)獨(dú)特貢獻(xiàn)是同時(shí)擾動(dòng)SA(Spall, 1992, 2000, 2009)和流形優(yōu)化的新組合,這增強(qiáng)了校準(zhǔn)算法的可擴(kuò)展性,并促進(jìn)了其在現(xiàn)實(shí)規(guī)模模型中的應(yīng)用。

檢驗(yàn)統(tǒng)計(jì)量和嵌套置信區(qū)域


具體在當(dāng)前工作中,我們從兩種類型的檢驗(yàn)統(tǒng)計(jì)量構(gòu)建嵌套置信區(qū)域:Wald統(tǒng)計(jì)量和后驗(yàn)密度比(PDR)統(tǒng)計(jì)量,分別生成橢圓形和HPD置信區(qū)域。

Wald 統(tǒng)計(jì)量與橢圓區(qū)域




與Wald統(tǒng)計(jì)量相關(guān)的嵌套置信區(qū)域族可以表示為:



后驗(yàn)密度比統(tǒng)計(jì)量和最高后驗(yàn)密度區(qū)域

或者,我們可以根據(jù)PDR統(tǒng)計(jì)量定義置信區(qū)域:


(13)是標(biāo)準(zhǔn)大樣本理論中最大似然估計(jì)的似然比統(tǒng)計(jì)量的推廣。還要注意,PDR統(tǒng)計(jì)量(13)是對(duì)Martin(2022b)在更一般的部分先驗(yàn)背景下定義的“相對(duì)合理性排序”的對(duì)數(shù)變換。類似于(12),可以通過收集具有足夠低PDR統(tǒng)計(jì)量值的參數(shù)值來構(gòu)建置信區(qū)域:







優(yōu)化問題中,其可行區(qū)域形成歐幾里得空間的可微分子流形,可以通過黎曼梯度算法有效解決(Absil et al. 2008;另見Y. Liu 2020, 2021,關(guān)于黎曼梯度算法及其在心理測(cè)量問題中的應(yīng)用的可訪問介紹)。特別地,黎曼梯度上升算法將歐幾里得空間中的常規(guī)梯度上升算法推廣,具有兩個(gè)顯著區(qū)別。首先,最陡上升方向只能在當(dāng)前迭代處局部定義,通過黎曼梯度獲得,這是通過將目標(biāo)函數(shù)的周圍梯度投影到子流形的切空間來實(shí)現(xiàn)的。對(duì)于我們的問題(15),






在應(yīng)用標(biāo)準(zhǔn)黎曼梯度算法求解[15]時(shí),另一個(gè)挑戰(zhàn)來自于對(duì)p值函數(shù)的精確梯度?θπy(θ)的評(píng)估。這是因?yàn)閜值函數(shù)是一個(gè)積分,其定義域通過檢驗(yàn)統(tǒng)計(jì)量依賴于θ。盡管有時(shí)可以通過廣義萊布尼茨法則(也稱為雷諾茲輸運(yùn)定理;參見例如Flanders, 1973; Reddiger & Poirier, 2023)獲得解析導(dǎo)數(shù),但一般而言,計(jì)算這些導(dǎo)數(shù)是困難的,因?yàn)闄z驗(yàn)統(tǒng)計(jì)量本身的計(jì)算可能涉及優(yōu)化。一種簡(jiǎn)單的嘗試是用有限差分(FD)估計(jì)來近似梯度的第r個(gè)元素(r = 1, ..., q),記為?θrπy(θ):


對(duì)于某個(gè)小的擾動(dòng) c > 0,其中 er 是一個(gè)在第 r 個(gè)元素處為 1、其余位置為 0 的單位向量。由于方括號(hào)內(nèi)的項(xiàng)在(20)中是其期望值的無偏估計(jì)量,我們或許可以期望通過黎曼隨機(jī)逼近(SA)算法(例如,Bonnabel, 2013; Tripuraneni, Flammarion, Bach, & Jordan, 2018)找到(15)的一個(gè)近似解。然而,這種近似存在兩個(gè)問題:(a) 如果 c 固定,有限差分近似的偏差不會(huì)消失;(b) 隨著參數(shù)數(shù)量增加,需要對(duì)檢驗(yàn)統(tǒng)計(jì)量進(jìn)行更多次評(píng)估,從而導(dǎo)致“維度災(zāi)難”。

為解決這些問題,我們提出一種SPRSA算法,它結(jié)合了針對(duì)所有 q 個(gè)參數(shù)的同時(shí)擾動(dòng)有限差分法(解決了問題(a)),以及沿黎曼梯度迭代 k = 0, 1, ... 進(jìn)行衰減的有限差分步長(zhǎng)序列 {ck}(解決了問題(b))。設(shè) Y = g(U, θ) 為一個(gè)數(shù)據(jù)生成算法,其中隨機(jī)分量 U ~ PU,且分布 PU 完全已知。在第 k 次迭代時(shí),?θπy(θ(k)) 的同時(shí)擾動(dòng)有限差分估計(jì)量定義為



使用SPRSA算法實(shí)現(xiàn)實(shí)際效率,需要仔細(xì)地、逐案調(diào)整多個(gè)方面:學(xué)習(xí)率序列{ak}、有限差分率序列{ck}以及總迭代次數(shù)K。在我們的數(shù)值研究中,SPRSA算法的調(diào)參細(xì)節(jié)將在“模擬研究”部分的“抽樣與調(diào)參細(xì)節(jié)”中提供。

蒙特卡洛實(shí)驗(yàn)

數(shù)據(jù)生成

協(xié)方差結(jié)構(gòu)模型已被廣泛用于解釋觀測(cè)響應(yīng)變量之間的相關(guān)模式(Bollen, 1989; J?reskog, 1970)。令 Z = (Z?, ..., Z?)? ∈ ???? 為獨(dú)立同分布(i.i.d.)的樣本數(shù)據(jù),其中每個(gè) m 維響應(yīng)向量 Z? ~ N(μ, Σ(θ)),其均值向量 μ ∈ ??,協(xié)方差矩陣 Σ(θ) ∈ ????? 由參數(shù) θ ∈ ?q 參數(shù)化。在我們的數(shù)值示例中,我們考慮一個(gè)一維公共因子模型(J?reskog, 1969):


在(24)中,λ = (λ?, ..., λ?)? ∈ ?? 是因子載荷向量,ψ ≥ 0 表示公共因子方差,u = (u?, ..., u?)? ∈ ??? 收集了唯一因子方差參數(shù)。為了識(shí)別該模型,要求公共因子 η? ∈ ? 與唯一因子 ε? ∈ ?? 相互獨(dú)立,并且第一個(gè)因子載荷 λ? 固定為1。以下協(xié)方差矩陣由公共因子模型推導(dǎo)得出:


為了避免對(duì)參數(shù)空間施加邊界限制,我們對(duì)所有方差參數(shù)進(jìn)行了對(duì)數(shù)變換:

令 ζ = log ψ / 2 表示公共因子方差的對(duì)數(shù)標(biāo)準(zhǔn)差(SD),并且

ω? = log u? / 2,j = 1, ..., m,表示第 j 個(gè)唯一因子方差的對(duì)數(shù)標(biāo)準(zhǔn)差。我們將這些無界參數(shù)收集在參數(shù)向量 θ = (ζ, λ?, ..., λ?, ω?, ..., ω?)? 中,其維度為 q = 2m。由于 Z?, i = 1, ..., n 的獨(dú)立同分布正態(tài)性,樣本交叉乘積矩陣 Y = Σ???? (Z? ? Z?)(Z? ? Z?)?(其中 Z? 表示樣本均值向量)服從 Wish(Σ(θ), n?1) 分布,即尺度矩陣為 Σ(θ)、自由度為 n?1 的威沙特分布。由于交叉乘積矩陣 Y 是協(xié)方差結(jié)構(gòu) Σ(θ) 的充分統(tǒng)計(jì)量,我們?cè)谡麄(gè)模擬研究中將 Y 視為數(shù)據(jù)。Y 的直接數(shù)據(jù)生成算法為 Y = g(U, θ) = Σ(θ)1/2 U Σ(θ)1/2,其中 U ~ Wish(I???, n?1)。

模擬條件由兩個(gè)交叉因素決定:響應(yīng)變量的數(shù)量(m = 5 和 15),以及三種參數(shù)生成情景(情景1–3)。樣本量固定為 n = 100。在情景1中,響應(yīng)變量的共性在各次重復(fù)中隨機(jī)從 U[.2, .8] 中抽取,涵蓋從低到高的共性水平(MacCallum, Widaman, Zhang, & Hong, 1999)。公共因子方差被設(shè)定為第一個(gè)響應(yīng)變量的共性值。唯一方差被確定為使得所有響應(yīng)變量具有單位方差。由此產(chǎn)生的 Θ 的分布作為 P*Θ。在情景2中,所有響應(yīng)變量具有固定的低共性(.3)。在情景3中,所有響應(yīng)變量具有固定的高共性(.7)。公共因子和唯一因子方差的確定方式與情景1類似。情景2和3中的參數(shù)生成分布 PΘ 是狄拉克測(cè)度(即,點(diǎn)質(zhì)量集中在真實(shí)參數(shù)上)。我們使用 MATLAB 版本 23.2(MathWorks, 2023)生成數(shù)據(jù);每種條件下運(yùn)行了 512 次重復(fù)實(shí)驗(yàn)。

抽樣與調(diào)參細(xì)節(jié)
我們采用了 Asparouhov 與 Muthén(2010)所推薦的先驗(yàn)設(shè)定:對(duì)因子載荷使用非正常均勻先驗(yàn)(improper uniform priors),對(duì)公共因子方差和唯一因子方差使用逆伽馬先驗(yàn) IG(1, 2)。MCMC 抽樣通過 JAGS(Plummer, 2017)完成。由于 JAGS 無法處理非正常先驗(yàn),我們改用一個(gè)彌散的正態(tài)先驗(yàn) N(0, 101?) 來代替因子載荷的先驗(yàn),該先驗(yàn)與非正常均勻先驗(yàn)幾乎無法區(qū)分。在每次重復(fù)實(shí)驗(yàn)中,我們并行運(yùn)行 5 條鏈。每條鏈的自適應(yīng)迭代次數(shù)、預(yù)燒期(burn-in)迭代次數(shù)和保留迭代次數(shù)分別為 1000、10000 和 10000。利用這 5 條鏈的保留迭代樣本,以 10 的間隔進(jìn)行抽。╰hinning),共獲得 5000 個(gè) θ 的蒙特卡洛樣本。在每次重復(fù)中,記錄 θ 每個(gè)分量的潛在尺度縮減因子(PSRF)和有效樣本量(ESS)。若所有參數(shù)均滿足 PSRF ≤ 1.1 且 ESS ≥ 100,則認(rèn)為該次重復(fù)實(shí)驗(yàn)已收斂。

為評(píng)估后驗(yàn)可能性并進(jìn)行校準(zhǔn),我們計(jì)算了Wald檢驗(yàn)統(tǒng)計(jì)量[11]和PDR統(tǒng)計(jì)量[13]。我們使用MATLAB內(nèi)置的信賴域算法(通過fminunc)對(duì)關(guān)于θ的對(duì)數(shù)后驗(yàn)進(jìn)行最大化;我們提供了后驗(yàn)的解析梯度和期望Hessian矩陣以加速優(yōu)化過程。相同的期望Hessian矩陣也用于定義Wald檢驗(yàn)統(tǒng)計(jì)量,以近似MAP估計(jì)量的協(xié)方差矩陣。

為調(diào)優(yōu)SPRSA算法,我們進(jìn)行了初步模擬實(shí)驗(yàn)。具體而言,學(xué)習(xí)率序列由 a? = αk?? 確定,其中 α = 0.1,β = 0.65;有限差分率序列設(shè)定為 c? = γk??,其中 γ = 0.05,δ = 0.149?梢灾庇^驗(yàn)證,這兩個(gè)速率序列滿足條件[22]。算法的迭代次數(shù)設(shè)定為 K = 50000。最后一次迭代的有限差分?jǐn)_動(dòng)值為 c????? = 0.05 × 50000??·1?? ≈ 0.01。校準(zhǔn)后的α水平的平均估計(jì)值使用公式[23]計(jì)算得出。我們?cè)贛ATLAB中實(shí)現(xiàn)了SPRSA算法;若本文被接受發(fā)表,我們將在補(bǔ)充材料中提供源代碼。

評(píng)估標(biāo)準(zhǔn)

我們?cè)u(píng)估了基于后驗(yàn)推斷的貝葉斯有效性,無論是否經(jīng)過校準(zhǔn)。在每次重復(fù)實(shí)驗(yàn)中,我們使用觀測(cè)數(shù)據(jù) y 和數(shù)據(jù)生成參數(shù) θ ~ P*Θ 來計(jì)算原始后驗(yàn)等高線 ?y(θ) 和校準(zhǔn)后的后驗(yàn)等高線 ??y(θ)。隨后,我們?cè)诿糠N模擬條件下,針對(duì)原始后驗(yàn)等高線值和校準(zhǔn)后后驗(yàn)等高線值,在所有重復(fù)實(shí)驗(yàn)中分別構(gòu)建了經(jīng)驗(yàn)分布函數(shù)(EDFs)。若EDF曲線位于對(duì)角線下方,則表明推斷是保守的,因而也是有效的;而若曲線位于對(duì)角線上方,則表明有效性要求未被滿足。為考慮蒙特卡洛誤差(MC error),與對(duì)角線的比較將參照其95%正態(tài)近似蒙特卡洛置信帶(即,


所有 θ 的聯(lián)合推斷結(jié)果總結(jié)于圖2中。當(dāng)響應(yīng)變量數(shù)量較小時(shí)(即,m = 5),基于橢圓和HPD可信區(qū)域的貝葉斯推斷往往無效;一個(gè)例外出現(xiàn)在情景3中的橢圓區(qū)域。當(dāng)共性固定且較低時(shí)(情景2),橢圓區(qū)域表現(xiàn)得最為寬松;而當(dāng)共性均勻生成時(shí)(情景1),HPD區(qū)域表現(xiàn)得最為寬松。相比之下,隨著響應(yīng)變量數(shù)量增加至 m = 15,有效性通常得以恢復(fù)。但在情景3中,當(dāng)共性固定且較高時(shí),存在一個(gè)例外:基于HPD區(qū)域的推斷仍保持不可接受的寬松性。


同時(shí),使用所提算法進(jìn)行校準(zhǔn)后的后驗(yàn)可能性在所有模擬條件下均實(shí)現(xiàn)了有效性。然而,有效性保證會(huì)引入保守性,其程度取決于若干因素。特別是,校準(zhǔn)后的貝葉斯推斷在響應(yīng)變量較少(即,m = 5)和共性較低(即,情景2)時(shí)變得更加保守。校準(zhǔn)后,HPD區(qū)域通常比橢圓區(qū)域更不保守。值得注意的是,當(dāng) m = 15 時(shí),基于HPD區(qū)域的校準(zhǔn)可能性等高線幾乎在所有三個(gè)參數(shù)生成情景下都達(dá)到了一致性。

對(duì)這一觀察的一個(gè)可能解釋是,與橢圓區(qū)域相比,HPD區(qū)域能更好地近似 πy 的上層水平集的形狀。

示例

為結(jié)束本節(jié),我們說明校準(zhǔn)結(jié)果在實(shí)踐中如何呈現(xiàn)。當(dāng)分析單個(gè)數(shù)據(jù)集并選定檢驗(yàn)統(tǒng)計(jì)量后,我們可以在一組預(yù)設(shè)的閾值 ξ?, ..., ξQ 上重復(fù)校準(zhǔn)程序,從而得到一組校準(zhǔn)后的 α 水平,α*(ξ?), ..., α*(ξQ)。為了突出校準(zhǔn)的效果,我們建議選擇 {ξq} 作為在一組名義 α 水平下的檢驗(yàn)統(tǒng)計(jì)量的 (1?α) 后驗(yàn)分位數(shù)。然后可將校準(zhǔn)后的 α 水平相對(duì)于后驗(yàn)分位數(shù)的名義 α 水平作圖,創(chuàng)建一種類似于百分位-百分位圖的可視化圖形。

我們以在 m = 5 且參數(shù)按情景1生成條件下生成的最后一組數(shù)據(jù)為例;诒A舻腗CMC抽樣,Wald統(tǒng)計(jì)量和PDR統(tǒng)計(jì)量的估計(jì)后驗(yàn)密度顯示在圖3左側(cè)面板中。對(duì)于每個(gè)統(tǒng)計(jì)量,令 Q = 19,ξ?, ..., ξ?? 為后驗(yàn)分布的 .95, .9, ..., .05 分位數(shù)。建議的圖形展示呈現(xiàn)在圖3右側(cè)面板中。在此數(shù)據(jù)集中,校準(zhǔn)推斷對(duì)于兩種類型的可信區(qū)域而言,均比原始后驗(yàn)推斷更為保守。更具體地說,對(duì)于HPD區(qū)域,α 水平調(diào)整幅度比橢圓區(qū)域更大。


貝葉斯統(tǒng)計(jì)在心理學(xué)家中廣受歡迎,因其能提供直觀的不確定性量化、適用于多種建模場(chǎng)景,并且在小樣本情況下有時(shí)表現(xiàn)優(yōu)異(例如,Depaoli, 2021;Muthén & Asparouhov, 2012;van de Schoot 等, 2021)。然而,借助推斷模型(IM)中關(guān)于貝葉斯有效性的關(guān)鍵概念,我們表明:當(dāng)用于推斷的先驗(yàn)與真實(shí)參數(shù)生成機(jī)制(即真實(shí)的參數(shù)生成先驗(yàn))不匹配時(shí),貝葉斯方法在重復(fù)抽樣下可能是不可靠的。由于在實(shí)際應(yīng)用中,數(shù)據(jù)分析者通常無法獲知這一真實(shí)生成機(jī)制,因此我們提出一種更安全的替代方案:對(duì)基于后驗(yàn)的推斷進(jìn)行校準(zhǔn),以實(shí)現(xiàn)頻率學(xué)派的有效性(frequentist validity)——這是一種更強(qiáng)的要求,能夠保證在任意參數(shù)生成先驗(yàn)下都滿足貝葉斯有效性。

為解決校準(zhǔn)問題,我們開發(fā)了一種SPRSA算法,該算法將流形優(yōu)化與無梯度隨機(jī)逼近(SA)相結(jié)合。隨后,我們報(bào)告了一項(xiàng)針對(duì)簡(jiǎn)單單因子模型的蒙特卡洛實(shí)驗(yàn)。結(jié)果表明,采用一種廣泛使用的先驗(yàn)設(shè)定的標(biāo)準(zhǔn)貝葉斯推斷,其有效性會(huì)因可信區(qū)域類型、響應(yīng)變量數(shù)量以及真實(shí)參數(shù)生成機(jī)制的不同而失效。相比之下,經(jīng)過校準(zhǔn)的貝葉斯推斷在所有模擬條件下均實(shí)現(xiàn)了有效性。此外,我們還證明了SPRSA算法可擴(kuò)展至心理學(xué)應(yīng)用中常見的現(xiàn)實(shí)問題規(guī)模。文中也提供了校準(zhǔn)結(jié)果的建議可視化圖形展示方式。

本研究存在若干局限,有待未來研究加以解決。首先,我們的模擬僅限于一個(gè)簡(jiǎn)單的單因子模型。鑒于貝葉斯方法的廣泛應(yīng)用,有必要開展更全面的蒙特卡洛實(shí)驗(yàn),以評(píng)估常用先驗(yàn)在多大程度上會(huì)導(dǎo)致無效推斷,并凸顯校準(zhǔn)的普遍必要性。其次,Wald 統(tǒng)計(jì)量和 PDR 統(tǒng)計(jì)量的使用要求在 SPRSA 算法的每次迭代中求解兩次最大后驗(yàn)(MAP)估計(jì),對(duì)于復(fù)雜模型而言,這可能帶來較大的計(jì)算負(fù)擔(dān)。未來的研究可探索替代的有限差分(FD)梯度估計(jì)方法或檢驗(yàn)統(tǒng)計(jì)量,以進(jìn)一步減輕計(jì)算開銷。最后,我們的方法假設(shè) p 值函數(shù)是可微的,因此無法直接應(yīng)用于離散數(shù)據(jù)問題。一種有前景的解決方案是對(duì)檢驗(yàn)統(tǒng)計(jì)量加入隨機(jī)擾動(dòng),從而強(qiáng)制其分布變?yōu)檫B續(xù)的。

https://www.researchgate.net/publication/397188720_Calibrating_Bayesian_Inference

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
廣州32歲猝死程序員公司發(fā)內(nèi)部郵件,稱其未按要求做體檢,妻子:每年都有體檢,公司不承認(rèn)三甲醫(yī)院體檢報(bào)告

廣州32歲猝死程序員公司發(fā)內(nèi)部郵件,稱其未按要求做體檢,妻子:每年都有體檢,公司不承認(rèn)三甲醫(yī)院體檢報(bào)告

大風(fēng)新聞
2026-01-27 20:52:03
給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

與車同樂
2025-12-04 10:05:02
深圳重挖 110 米垃圾山,把歐美看呆了:中國(guó)已經(jīng)陷入“垃圾荒”了

深圳重挖 110 米垃圾山,把歐美看呆了:中國(guó)已經(jīng)陷入“垃圾荒”了

小李子體育
2026-01-27 16:01:14
26歲天才股神坦言:尾盤30分鐘就能買到次日必漲的股票,從不例外

26歲天才股神坦言:尾盤30分鐘就能買到次日必漲的股票,從不例外

股經(jīng)縱橫談
2026-01-27 18:22:52
過年別亂買東西!這5種年貨,全是“科技與狠活”,很多人不知道

過年別亂買東西!這5種年貨,全是“科技與狠活”,很多人不知道

Home范
2026-01-27 14:07:55
運(yùn)價(jià)直逼5毛錢/公里,網(wǎng)約車司機(jī)發(fā)出靈魂拷問:這么低的價(jià)格究竟誰在跑?

運(yùn)價(jià)直逼5毛錢/公里,網(wǎng)約車司機(jī)發(fā)出靈魂拷問:這么低的價(jià)格究竟誰在跑?

網(wǎng)約車觀察室
2026-01-26 10:17:32
1997年回歸前夜,香港十幾萬黑幫連夜“大逃亡”,他們最后都去哪了?

1997年回歸前夜,香港十幾萬黑幫連夜“大逃亡”,他們最后都去哪了?

老杉說歷史
2026-01-13 19:14:13
不到48小時(shí),特朗普身體傳噩耗,34國(guó)軍方高官集合,對(duì)英緊急改口

不到48小時(shí),特朗普身體傳噩耗,34國(guó)軍方高官集合,對(duì)英緊急改口

夕陽渡史人
2026-01-27 14:35:01
做完手術(shù)人就廢了,這5種手術(shù)不需要做,別讓無知害了自己

做完手術(shù)人就廢了,這5種手術(shù)不需要做,別讓無知害了自己

華庭講美食
2026-01-19 14:27:13
烏外長(zhǎng):澤連斯基愿與普京會(huì)面 以解決領(lǐng)土等敏感問題

烏外長(zhǎng):澤連斯基愿與普京會(huì)面 以解決領(lǐng)土等敏感問題

財(cái)聯(lián)社
2026-01-28 02:36:58
郭艾倫沒想到,辭職遼寧男籃的楊鳴,原來早已給自己準(zhǔn)備好了后路

郭艾倫沒想到,辭職遼寧男籃的楊鳴,原來早已給自己準(zhǔn)備好了后路

行舟問茶
2026-01-28 03:16:53
頂流巨星:已退圈,寧肯做農(nóng)民

頂流巨星:已退圈,寧肯做農(nóng)民

視覺志
2026-01-27 10:34:11
胖改不到一年!北京知名超市突然停業(yè)了!

胖改不到一年!北京知名超市突然停業(yè)了!

大北京早知道
2026-01-27 14:13:08
李平康:賀一然加盟泰山基本差不多了,玄智健基本不可能了

李平康:賀一然加盟泰山基本差不多了,玄智健基本不可能了

懂球帝
2026-01-27 22:34:52
專家:銀價(jià)短期或跌回90美元之下

專家:銀價(jià)短期或跌回90美元之下

財(cái)聯(lián)社
2026-01-27 16:22:25
中國(guó)駐日大校王慶簡(jiǎn):定時(shí)以開窗為號(hào),竟向日本傳遞了 20 年機(jī)密

中國(guó)駐日大校王慶簡(jiǎn):定時(shí)以開窗為號(hào),竟向日本傳遞了 20 年機(jī)密

z千年歷史老號(hào)
2026-01-23 12:16:03
中美艦艇發(fā)生激烈對(duì)峙!外軍突然沖向解放軍,結(jié)果下一刻掉頭跑了

中美艦艇發(fā)生激烈對(duì)峙!外軍突然沖向解放軍,結(jié)果下一刻掉頭跑了

杰絲聊古今
2026-01-28 03:38:29
單親媽媽打兩份工賺的錢,被兒子偷轉(zhuǎn)1萬給爸爸,評(píng)論區(qū)直接炸鍋

單親媽媽打兩份工賺的錢,被兒子偷轉(zhuǎn)1萬給爸爸,評(píng)論區(qū)直接炸鍋

和平聲浪
2026-01-27 14:30:21
1月27日,人社部召開了發(fā)布會(huì),有3個(gè)社保養(yǎng)老金好消息,挺重要的

1月27日,人社部召開了發(fā)布會(huì),有3個(gè)社保養(yǎng)老金好消息,挺重要的

墨蘭史書
2026-01-27 17:25:03
主場(chǎng)龍客場(chǎng)蟲?火箭隊(duì)竟然成為了全聯(lián)盟的第一魔鬼主場(chǎng)!

主場(chǎng)龍客場(chǎng)蟲?火箭隊(duì)竟然成為了全聯(lián)盟的第一魔鬼主場(chǎng)!

田先生籃球
2026-01-27 12:39:54
2026-01-28 04:15:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會(huì)講話透露了哪些關(guān)鍵信息

頭條要聞

美報(bào)告稱中國(guó)是其19世紀(jì)以來面對(duì)過的最強(qiáng)大國(guó)家

頭條要聞

美報(bào)告稱中國(guó)是其19世紀(jì)以來面對(duì)過的最強(qiáng)大國(guó)家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

財(cái)經(jīng)要聞

多地對(duì)壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

家居
游戲
教育
時(shí)尚
房產(chǎn)

家居要聞

現(xiàn)代古典 中性又顯韻味

LPL春季賽:決絕讓一追二,AL三局擊潰IG,大家的排名都不變

教育要聞

對(duì)話陳妤頡:閃閃發(fā)光的賽道,追逐夢(mèng)想

這些韓系穿搭最適合普通人!多穿深色、衣服基礎(chǔ),簡(jiǎn)潔耐看

房產(chǎn)要聞

實(shí)景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

無障礙瀏覽 進(jìn)入關(guān)懷版