有限樣本下的分治策略：有效且高效的可能性推理

2026-01-17 15:20:43　來源: CreateAMind

上海舉報

分享至

Divide-and-conquer with finite sample sizes:valid and efficient possibilistic inference

有限樣本下的分治策略：有效且高效的可能性推理

https://arxiv.org/pdf/2503.22812

摘要
分治（Divide-and-conquer）方法利用大樣本近似，在每個數(shù)據(jù)塊既小到足以實現(xiàn)高效計算、又大到足以支持近似有效推斷的前提下，提供頻率學(xué)派的保證。然而，當(dāng)總體樣本量較小或中等時，很可能不存在同時滿足這兩個條件的數(shù)據(jù)劃分方式，從而導(dǎo)致所得推斷缺乏有效性保證。我們提出一種新方法，該方法基于推理模型（inferential model）框架，具有貝葉斯意義上的完全條件性，并在頻率學(xué)派意義上可證明有效。核心洞見在于：現(xiàn)有分治方法兩次使用了高斯性假設(shè)——第一次用于構(gòu)造估計量，第二次用于近似其抽樣分布。我們的方案保留第一個高斯性假設(shè)，采用高斯工作似然，但用一個“驗證”（validification）步驟替代第二個假設(shè)，該步驟利用由所設(shè)定模型確定的各數(shù)據(jù)塊匯總統(tǒng)計量的抽樣分布。這一后一步驟是一種概率到可能性的變換，是本方法可靠性保證的關(guān)鍵，使其在分治文獻(xiàn)中擁有獨一無二的普適性。除具備有限樣本下的有效性保證外，所提方法在漸近意義上也與其他文獻(xiàn)中的分治解法一樣高效。我們的計算策略借助最先進(jìn)的黑盒似然模擬器（likelihood emulator）。通過模擬研究展示了該方法的性能，并以2023年澳大利亞山火季期間昆士蘭州瑪麗伯勒（Maryborough）PM2.5中位數(shù)的分析為例，突顯了其靈活性。

關(guān)鍵詞：模擬器（emulator）、g-and-k 分布、推理模型（inferential model）、相對似然（relative likelihood）、有效性（validity）。

1 引言

分治（Divide-and-conquer）技術(shù)已成為大數(shù)據(jù)分析中的強大工具，適用于數(shù)據(jù)集樣本量極大、即使被劃分到多個中央處理器（CPU）上，各子集仍足夠大且信息豐富，從而能產(chǎn)生近似有效的推斷。然而，更具挑戰(zhàn)性但同樣常見的場景是：僅估計本身在計算上就已十分繁重，導(dǎo)致無法對整個數(shù)據(jù)集進(jìn)行分析，而樣本總量又不足以保證（近似）有效的推斷。本文針對后一種情形，為計算上困難的優(yōu)化問題開發(fā)了一種分治方法，該方法基于 Martin 與 Liu（2013, 2015）以及 Martin（2019）提出的推理模型（Inferential Models, IMs）框架。

IM 框架具有兩個核心特征：

貝葉斯意義上的完全條件性：即它為關(guān)于未知參數(shù)的所有斷言分配依賴于數(shù)據(jù)的信念度；
頻率學(xué)派意義上的可靠性（或有效性）：即對關(guān)于未知量的錯誤斷言賦予高信念度的概率很低。

具體細(xì)節(jié)見第 2.2 節(jié)，但有效性的一個重要推論是：由 IM 輸出導(dǎo)出的推斷程序（如置信區(qū)域和假設(shè)檢驗）可在任意指定水平上被嚴(yán)格校準(zhǔn)，且不依賴于樣本量。

廣義而言，分治框架將一個因計算成本過高而難以整體分析的樣本量為 n n 的數(shù)據(jù)集，劃分為 B B 個大致等大的塊，并在分布式計算系統(tǒng)中并行處理。幾乎所有現(xiàn)有的分治方法（參見第 2.1 節(jié)綜述）都假設(shè)每個塊內(nèi)的樣本量足夠大，并利用各塊中估計函數(shù)和/或估計量的漸近高斯性來構(gòu)造一個合并估計量，并近似其分布。該合并估計量（下文稱為“大-n 估計量”）通常采取加權(quán)平均的形式，權(quán)重由各塊估計量的漸近方差之逆給出。然而，當(dāng)每個塊內(nèi)的樣本量并不特別大時，“大-n 估計量”的漸近分布就無法得到恰當(dāng)校準(zhǔn)。在實踐中，這常常導(dǎo)致第一類錯誤率膨脹，并過度傾向于錯誤地得出所關(guān)注效應(yīng)在統(tǒng)計上顯著非零的結(jié)論。我們在第 5 節(jié)進(jìn)一步展示了使用未恰當(dāng)校準(zhǔn)推斷所帶來的有害后果。

一個激勵性例子是 g-and-k 分布族（Haynes 等，1997；Rayner 與 MacGillivray，2002），其由如下分位數(shù)函數(shù)定義：

其中，μ ∈ ? 是位置參數(shù)，σ > 0 是尺度參數(shù)，g ∈ ? 衡量偏度，k > -1/2 衡量峰度，z? = Φ?1(u) 是第 u 個標(biāo)準(zhǔn)高斯分位數(shù)，c 是一個對應(yīng)于“整體對稱性”值的常數(shù)。若 g < 0，則分布向左偏斜；同理，g > 0 表示向右偏斜。g-and-k 族能夠捕捉一大類分布形態(tài)。當(dāng) k < 0 時，該族還可表示比高斯分布更短的尾部。由于其靈活性，該分布族已被用于建模復(fù)雜的金融和氣候數(shù)據(jù)等。在這些模型中尋找最大似然估計量是困難的，因為每次對數(shù)似然評估都需要求解每個觀測值 y? (i=1, ..., n) 的逆問題 y? = Q(u?)。因此，優(yōu)化不僅計算昂貴，而且數(shù)值上具有挑戰(zhàn)性。此外，當(dāng) n 不太大時（例如，n = 200），需要進(jìn)行計算上代價高昂的似然評估以確保推斷的有效性。由于該分布易于抽樣，它常被用來說明近似貝葉斯計算的應(yīng)用。

（例如，F(xiàn)earnhead 和 Prangle 2012），但這種方法可能緩慢且難以調(diào)參，并且沒有頻率學(xué)派校準(zhǔn)保證。我們通過在 IM 框架內(nèi)采用分治策略，減輕了計算負(fù)擔(dān)并保證了有效推斷。

本文的主要貢獻(xiàn)是開發(fā)了一種分治式 IM 框架，該框架除了提供類似貝葉斯的完全條件化不確定性量化外，在有限樣本下也具有頻率學(xué)派有效性，并在大樣本下等價于漸近有效的全數(shù)據(jù) IM。換句話說，與僅關(guān)注漸近有效性的現(xiàn)有方法相比，我們所提出的 IM 在不損失（漸近）統(tǒng)計效率的前提下，獲得了重要的統(tǒng)計有效性保證——可謂魚與熊掌兼得。此外，我們還開發(fā)了一種基于黑盒似然模擬器的新計算高效工具，用于評估我們所提出的有效分治式 IM，并結(jié)合其他更基礎(chǔ)的策略來加速 IM 計算。

第 2 節(jié)概述了分治框架和 IMs。第 3 節(jié)通過考察兩種極端版本的分治式 IM 解法奠定了基礎(chǔ)：一種是“最優(yōu)”的，但實際操作中難以實現(xiàn)；另一種則極其簡單，但僅具漸近有效性。在此經(jīng)驗基礎(chǔ)上，第 4 節(jié)描述了我們的新方法，該方法在分治推斷中實現(xiàn)了有限樣本有效性和漸近效率，相較于擁有處理完整數(shù)據(jù)所需計算資源的“神諭”解法。第 5 節(jié)通過多個數(shù)值示例展示了我們所提方案的性能，包括對 2023 年澳大利亞山火季期間昆士蘭州瑪麗伯勒 PM?.? 中位數(shù)的分析。所有用于復(fù)現(xiàn)結(jié)果的代碼均可在 https://github.com/ehector/IMdac 獲取。

2 背景與符號

2.1 分治方法

用于分析大規(guī)模分布式數(shù)據(jù)的分治方法直接源于 Glass (1976) 的元分析。分治框架的主要任務(wù)是在 B 個獨立的數(shù)據(jù)塊上獲得統(tǒng)一的推斷，該過程需同時兼顧計算效率和統(tǒng)計效率。每個數(shù)據(jù)塊的大小必須足夠小以便快速分析，但又要足夠大以確保估計近似有效，這導(dǎo)致了計算效率與統(tǒng)計效率之間存在根本性的張力。通常，會使用來自各數(shù)據(jù)塊的數(shù)據(jù)摘要來降低通信和計算成本，因此分治方法的主要挑戰(zhàn)和關(guān)注點在于開發(fā)出在統(tǒng)計和計算上都高效的規(guī)則，用以合并這些摘要。

為明確記號，設(shè) Z? = (Z?, ..., Z?) 由 n 個獨立觀測值組成，其聯(lián)合分布 PΘ 依賴于一個取值于參數(shù)空間 Θ ? ?? 的不確定真實參數(shù) Θ；為簡潔起見，省略了 PΘ 對 n 的依賴。單個觀測值 Z? 可能代表觀測研究中的預(yù)測變量與響應(yīng)變量對 (X?, Y?)，或如在設(shè)計實驗中那樣，預(yù)測變量為固定常數(shù)。無論如何，完整數(shù)據(jù) Z? 會被隨機(jī)劃分為 B 個大小分別為 n?, ..., n? 的數(shù)據(jù)塊，我們記這些數(shù)據(jù)塊為 Z???，其中 b = 1, ..., B。

分治方法已應(yīng)用于多個領(lǐng)域，包括核嶺回歸（Zhang 等，2015）、高維稀疏回歸（Lee 等，2017；Lin 和 Lu，2019）、變量篩選（Diao 等，2024）和經(jīng)驗似然（Zhou 等，2023b），到建模矩陣（Mackey 等，2015；Nezakati 和 Pircalabelu，2023）、高維相關(guān)數(shù)據(jù)（Hector 和 Song，2020, 2021, 2022）及空間場（Hector 和 Reich，2024；Hector 等，2025；Lee 和 Park，2023）。參見 Chen 等（2021b）、Hector 等（2024）、Zhou 等（2023a）獲取最新綜述。我們所關(guān)注的分治方法被稱為“一次性”（one-shot），因為每個數(shù)據(jù)塊僅被分析一次（因此我們省略了關(guān)于一步更新和代理似然的文獻(xiàn)）。大多數(shù)一次性方法依賴于（加權(quán)）平均，其中合并后的估計量是各研究估計量的（加權(quán)）平均值（例如，Hector 等，2023；Lin 和 Xi，2011；Shi 等，2018）。

與我們的工作相關(guān)的是，受 Fisher 的置信推斷（Fisher 1935, 1956）和 Efron (1993) 的置信分布啟發(fā)，Liu 等 (2014, 2015)；Michael 等 (2019)；Singh 等 (2005)；Tang 等 (2020)；Xie 等 (2011)；Yang 等 (2016) 提出了使用頻率學(xué)派置信分布來組合跨研究推斷的方法。在這一系列工作中，置信分布是一個樣本依賴的函數(shù)，它編碼了某個參數(shù)的所有置信水平。相比之下，通過 IM 框架（下文第 2.2 節(jié)介紹）獲得的可能性輪廓，其主要關(guān)注點在于控制置信分布在某個點零假設(shè)下的行為。然而，必須謹(jǐn)慎行事，因為將熟悉的概率微積分——即積分——應(yīng)用于置信分布以進(jìn)行更廣泛的不確定性量化會帶來風(fēng)險（例如，F(xiàn)raser 2011, 2013），特別是會導(dǎo)致虛假置信度（Balch 等，2019）。

2.2 推理模型

如第1節(jié)簡要所述，推理模型（IM）框架提供了對統(tǒng)計模型中未知參數(shù)的不確定性進(jìn)行數(shù)據(jù)驅(qū)動量化的功能。這種不確定性量化旨在同時滿足貝葉斯意義上的完全條件性和頻率學(xué)派意義上的可證明可靠性。同時實現(xiàn)貝葉斯和頻率學(xué)派目標(biāo)，需要超越教科書中的概率論與統(tǒng)計理論。IM 的特定新穎之處在于，其不確定性量化是用“不精確概率理論”的語言表述的，更具體地說，是用“可能性理論”（例如，Dubois 2006；Dubois 和 Prade 1988）表述的。雖然可能性理論對讀者而言可能比較陌生，但很容易解釋，我們接下來就進(jìn)行說明。

用一句話概括，可能性理論就是將概率論中的積分替換為優(yōu)化的概率論。從一個函數(shù) π: Θ → [0,1] 開始，該函數(shù)具有性質(zhì) supθ∈Θ π(θ) = 1。這個函數(shù)被稱為“可能性輪廓”（possibility contour），或簡稱“輪廓”。該“上確界等于一”的條件，與概率密度函數(shù)熟悉的“積分為一”的歸一化條件相對應(yīng)。然后，輪廓 π 通過優(yōu)化確定一個可能性測度 Π：

這是所謂的概率到可能性變換（例如，Hose 和 Hanss，2020, 2021）在相對似然上的一個應(yīng)用版本。如果似然函數(shù)的計算和最大似然估計量的求解在計算上代價高昂，那么上述定義的 IM 輪廓在實踐中可能難以實現(xiàn)。本文的主要貢獻(xiàn)之一便是一套解析且高效的計算策略，用于在此類情形下近似形如式 (2) 的可能性推理模型（possibilistic IM）輪廓；詳見第 3 節(jié)。

盡管本文所考慮的情形均假設(shè)數(shù)據(jù)服從參數(shù)模型，但排序–驗證（ranking–validification）構(gòu)造也可應(yīng)用于無分布假設(shè)（distribution-free）的問題；參見，例如，Cella 與 Martin（2022）、Martin（2023，第6節(jié)）以及 Cella（2024）。此外，盡管在參數(shù)問題中相對似然是一種自然的排序選擇，但它并非唯一選項；事實上，式 (1) 中的驗證步驟可使用任何合適的排序函數(shù) R R 來執(zhí)行。這種靈活性在第 4 節(jié)尤為重要，我們在該節(jié)中引入了一種用于分治推斷的新型強有效推理模型（IM）。

3 通向分治式 IM

3.1 終極方案

第 2.2 節(jié)所述的 IM 方法使用完整的數(shù)據(jù)集 z? 來進(jìn)行有效且高效的可能性推斷。前述的排序與驗證步驟需要兩樣?xùn)|西：相對似然（其隱含依賴于最大似然估計量）及其分布。在評估似然函數(shù)計算成本高昂的情形下，獲取最大似然估計量并在足夠密集的候選參數(shù)值網(wǎng)格上計算相對似然變得不可行。如果相對似然可以被計算出來，當(dāng)其分布有閉式表達(dá)時，驗證步驟可解析地執(zhí)行；否則，仍需昂貴的計算來經(jīng)驗性地評估其分布。

分治分析旨在通過結(jié)合基于分塊數(shù)據(jù) z??? (b = 1, ..., B) 的更廉價、塊特定的推斷，繞過對完整數(shù)據(jù) z? 進(jìn)行同時且可能昂貴的計算。要在分治框架內(nèi)評估式 (2) 中的輪廓，一個初步想法可能是嘗試僅使用來自 z??? 的摘要統(tǒng)計量 s_b 來重構(gòu)這個全數(shù)據(jù)輪廓。當(dāng)相對似然 R(z?, θ) 僅通過 s?（即各塊摘要統(tǒng)計量的聚合）依賴于數(shù)據(jù) z? 時，這是可以實現(xiàn)的。以下，我們給出兩個滿足此條件的例子，旨在建立關(guān)于 IM 構(gòu)造和當(dāng)前問題復(fù)雜性的直觀理解。即使在這些計算幾乎免費的簡單案例中，從分塊數(shù)據(jù)重構(gòu)全數(shù)據(jù) IM 解法也相當(dāng)具有挑戰(zhàn)性，因此需要一種不同的方法。我們在第 4 節(jié)提出的解決方案即使在似然函數(shù)計算成本極高時也能表現(xiàn)得非常好；參見第 5 節(jié)中的示例。

3.2 一種大樣本分治式推理模型（IM）

全數(shù)據(jù)的最大似然估計量和相對似然通常無法僅通過摘要統(tǒng)計量來表達(dá)；高斯情形是一個例外。因此，經(jīng)典的分治推斷方法通常假設(shè)各數(shù)據(jù)塊的最大似然估計量服從高斯分布，并模仿上文例1中的推導(dǎo)過程，從而得到（例如，Hector 等，2024；Hedges，1983）：

這是一個有趣的觀察結(jié)果，但 “亞高斯性” 的條件過于嚴(yán)格，不能滿足我們的需求。因此，我們繼續(xù)探索。下一節(jié)將在此基礎(chǔ)上提出一種新的 “分而治之” IM，它不僅精確有效，而且漸近高效。

4 實用的分治式 IM

4.1 通過高斯工作似然進(jìn)行排序

上文我們考察了基于簡單模仿高斯情形下計算的大樣本分治式 IM。這消除了與合并各數(shù)據(jù)塊特定信息相關(guān)的所有固有挑戰(zhàn)，因為在高斯情形下最優(yōu)組合規(guī)則是已知的。我們還證明了這種大樣本分治式 IM 在漸近意義上會與全數(shù)據(jù) IM 融合。由于全數(shù)據(jù) IM 既是有效的又是高效的，上述融合意味著大樣本分治式 IM 在漸近意義上也是有效且高效的。但統(tǒng)計推斷的核心原則是有限樣本有效性——即統(tǒng)計學(xué)家的希波克拉底誓言——因此，對我們而言，漸近有效性是不夠的。在此，我們提供一種折中策略，它保留了使大樣本分治式 IM 變得優(yōu)良的部分特性，同時舍棄了使其顯得幼稚的部分。這使得我們能夠在僅比大樣本分治式 IM 略微增加復(fù)雜度的情況下，實現(xiàn)所需的有限樣本有效性。

關(guān)鍵觀察是，大樣本分治式 IM 在兩個步驟中兩次使用了高斯性假設(shè)：一次是在排序步驟中，通過選擇相對似然；另一次是在驗證步驟中。也就是說，公式 (6) 中提出的可以表示為

我們的建議是在排序步驟中僅使用高斯假設(shè)，即通過選擇公式 (8) 中的高斯工作相對似然，然后在驗證步驟中改用假設(shè)的統(tǒng)計模型而不是高斯近似來進(jìn)行驗證：

4.2 有效性與效率

正如“驗證”（validification）這一術(shù)語所暗示的，當(dāng)我們使用所設(shè)定的模型（而非某種高斯近似）來執(zhí)行驗證步驟時，所得的推理模型（IM）具有精確的有效性，而不僅僅是漸近有效性；參見定理 2。這意味著我們的方法實現(xiàn)了上文所述的“統(tǒng)計學(xué)家的希波克拉底誓言”。

IM 有效性的直接推論是，常規(guī)的統(tǒng)計程序（即假設(shè)檢驗和置信集）能夠控制頻率學(xué)派的錯誤率。這一點尤為突出，因為據(jù)我們所知，目前尚無其他分治方法能在如此普遍的設(shè)定下實現(xiàn)這種精確的錯誤率控制。

4.4 邊緣輪廓的輪廓似然

5 數(shù)值示例
5.1 萊維α-穩(wěn)定分布

α-穩(wěn)定分布（Lévy，1925）常用于金融、經(jīng)濟(jì)和物理學(xué)領(lǐng)域。如果一個分布族在卷積運算下封閉，則稱該分布族為α-穩(wěn)定分布。這些分布由其特征函數(shù)定義。

我們考慮設(shè)置 n = 200，B = 4，nb ≡ 50。我們?nèi)?α = 1.5 為固定值，數(shù)據(jù)點由參數(shù) μ = 0、c = 0.5 和 β = 0 的α-穩(wěn)定分布生成，并使用 Chambers 等人（1976）提出的并在附錄 D.1 中總結(jié)的算法。令 Θ = (μ, c, β) 為位置、尺度和偏斜參數(shù)的真實值。附錄 D.2 說明了基于完整最大似然估計量的大樣本推斷缺乏有效性保證，這促使我們評估第 2.2 節(jié)中描述的計算上不可行的有效輪廓，并隨后評估有效的分治推斷。

我們訓(xùn)練一個模擬器，以學(xué)習(xí)大小為 nb = 50 的數(shù)據(jù)與參數(shù)值 Θ 之間的映射關(guān)系，其中 Θ 的訓(xùn)練分布分別為 μ ∈ [?20, 20]、c ∈ [0, 10] 和 β ∈ [?1, 1] 上的連續(xù)均勻分布。該模擬器基于兩個串聯(lián)的可逆神經(jīng)網(wǎng)絡(luò)，在 DeepSets 框架內(nèi)使用 BayesFlow 軟件（Radev 等，2020，2023）聯(lián)合訓(xùn)練，從而對觀測值的排列保持不變性。第一個網(wǎng)絡(luò)從 50 維數(shù)據(jù)輸入中學(xué)習(xí)一個十維摘要統(tǒng)計量，而第二個網(wǎng)絡(luò)（由六個耦合層組成）則從摘要統(tǒng)計量中學(xué)習(xí)參數(shù)。模擬器使用 Radev 等人（2023）的在線算法進(jìn)行訓(xùn)練，該算法在訓(xùn)練過程中實時從模型采樣以提高泛化能力。模擬器訓(xùn)練完成后，我們通過從模擬器抽取 1,000 個樣本，計算 θ?z(b) 和 Jz(b) 分別作為均值和逆方差。我們使用公式 (13) 計算 πs?∨,q，其中 θ? = θ?s?，M = 3,000 個蒙特卡洛樣本，q ∈ {1, 2, 3}。

圖 3 繪制了一個重復(fù)實驗中大樣本 n 和有效分治 IM 的輪廓，圖 4 繪制了基于 1,000 次重復(fù)實驗的 πs?∨,q 的經(jīng)驗分布函數(shù)的大樣本 n 和有效分治可能性輪廓。大樣本 n 的 IM 是無效的，因為其經(jīng)驗分布函數(shù)遠(yuǎn)高于對角線。

作為對推論 1 的經(jīng)驗檢驗，我們生成 1,000 個大樣本 n 和有效分治輪廓 πs?∞ 和 πs?∨ 的重復(fù)實驗。對于每個重復(fù)實驗，我們使用 {θq ∈ Tq : πs?∞,q(θq) > α} 和 {θq ∈ Tq : πs?∨,q(θq) > α} 在水平 α ∈ {0.1, 0.2, ..., 0.9} 下計算 Θ 的 100(1 ? α)% 邊際置信區(qū)間。表 2a 報告的 100(1 ? α)% 水平的經(jīng)驗覆蓋概率是包含真實值 Θ 的 1,000 個計算區(qū)間的比例。經(jīng)驗覆蓋概率

跟蹤有效分治輪廓在蒙特卡洛標(biāo)準(zhǔn)誤差范圍內(nèi)的名義水平，但大樣本 n 輪廓在所有名義水平下都顯著低估了 Θ 的真實值。圖 3 表明，表 2b 確認(rèn)：大樣本 n 置信區(qū)間過窄；來自有效分治輪廓的置信區(qū)間的平均長度大于來自大樣本 n 輪廓的置信區(qū)間。

5.2 g-和-k 分布

我們回到第 1 節(jié)中介紹的 g-和-k 分布。令 Θ = (μ, σ, g, k) 為位置、尺度、偏斜和峰度參數(shù)的真實值。正如現(xiàn)有文獻(xiàn)中常見的那樣（參見，例如，Drovandi 和 Pettitt 2011；Rayner 和 MacGillivray 2002），我們設(shè)定 c = 0.8。我們考慮設(shè)置 n = 200，B = 4，nb ≡ 50。結(jié)果 yj 使用 R 包 gk（Prangle 2017）從參數(shù) μ = 3、σ = 1、g = 2 和 k = 0.5 的 g-和-k 分布中生成。附錄 D.3 表明，在此情況下，基于完整最大似然估計量的大樣本推斷似乎是有效的，盡管并無保證。為了確保有效性，需要進(jìn)行計算上不可行的似然比驗證。我們訓(xùn)練一個模擬器，以學(xué)習(xí)樣本大小 nb = 50 的數(shù)據(jù)與參數(shù)值 Θ 之間的映射關(guān)系，其中 Θ 的訓(xùn)練分布分別為 μ ∈ [?20, 20]、σ ∈ [?20, 20]、g ∈ [?5, 5] 和 k ∈ [?1/2, 5] 上的連續(xù)均勻分布。模擬器以及 θ?z(b) 和 Jz(b) 的計算如第 5.2 節(jié)所述。我們使用公式 (13) 計算 πs?∨,q，其中 θ? = θ?s?，M = 3,000 個蒙特卡洛樣本，q ∈ {1, 2, 3, 4}。

圖 5 繪制了一個重復(fù)實驗中大樣本 n 和有效分治 IM 的輪廓，圖 6 繪制了基于 1,000 次重復(fù)實驗的 πs?∨,q 的經(jīng)驗分布函數(shù)的大樣本 n 和有效分治可能性輪廓。大樣本 n 的 IM 是無效的，因為其經(jīng)驗分布函數(shù)遠(yuǎn)高于對角線。

作為對推論 1 的經(jīng)驗檢驗，我們生成 1,000 個大樣本 n 和有效分治輪廓 πs?∞ 和 πs?∨ 的重復(fù)實驗。在水平 100(1?α)%（α ∈ {0.1, 0.2, ..., 0.9}）下，Θ 的邊際經(jīng)驗覆蓋概率如表 3a 所示，它跟蹤了有效分治輪廓在蒙特卡洛標(biāo)準(zhǔn)誤差范圍內(nèi)的名義水平，但大樣本 n 輪廓在所有名義水平下都顯著低估了 Θ 的真實值。圖 5 表明，表 3b 確認(rèn)：大樣本 n 置信區(qū)間再次過窄。這突顯了使用我們的有效分治輪廓而非大樣本 n 輪廓的重要性：如果在 Θ 未知的真實世界場景中部署，使用基于大樣本 n 輪廓的 90% 置信區(qū)間將無意中使 I 類錯誤率增加至三倍！換句話說，錯誤發(fā)現(xiàn)的數(shù)量可能高達(dá)三倍。

5.3 PM2.5 數(shù)據(jù)分析

PM?.? 指直徑為 2.5 微米或更小的顆粒物，因其尺寸微小，可被吸入血液并引發(fā)嚴(yán)重的健康問題。野火是 PM?.? 的重要來源，其普遍性預(yù)計會隨著氣候變化而持續(xù)增加（Chen 等，2021a）。暴露于高濃度的 PM?.? 與出生體重（Birtill 等，2024）以及澳大利亞急診科入院率（Ranse 等，2022）存在關(guān)聯(lián)。2023 年 8 月至 12 月的澳大利亞叢林火災(zāi)季登上國際頭條新聞（Sheehan 等，2023），燒毀了約 8400 萬公頃土地（Fisher，2024），其中包括昆士蘭州的多起火災(zāi)。鑒于暴露于高濃度 PM?.? 對健康的危險后果，我們以季節(jié)為函數(shù)，對澳大利亞昆士蘭州瑪麗伯勒市每日 PM?.? 中位數(shù)的分布進(jìn)行建模，以便更好地理解當(dāng)?shù)鼐用竦谋┞洞翱�。�?shù)據(jù)由 2023 年 1 月 1 日至 12 月 31 日在瑪麗伯勒站點測得的每小時平均 PM?.?（單位：微克/立方米）的日中位數(shù)組成。該數(shù)據(jù)在知識共享署名 4.0 許可下公開提供，并可在昆士蘭州政府開放數(shù)據(jù)門戶（Queensland Government，2024）下載。

圖 7 繪制了 n = 365 個日中位數(shù)的直方圖和散點圖。令 (y?)???3?? 表示全年每日 PM?.? 的中位數(shù)，其中 y? 假設(shè)服從參數(shù)為位置 μ、尺度 σ?、偏斜 g 和峰度 k（c = 0.8）的 g-和-k 分布。為了擬合時間趨勢，我們使用五次 B 樣條展開來建模尺度參數(shù)，結(jié)點位于 365/3、365/2 和 2 × 365/3：

所提出的有效分治 IM 框架的一個獨特特點是，可以在 365 個每日尺度參數(shù)上進(jìn)行有限樣本的有效推斷。圖 8a 繪制了每日尺度的大樣本估計值 θ?s?,?, ..., θ?s?,???，其 90% 邊際置信區(qū)間是使用 {θq ∈ Tq : πs?∨,q(θq) > 0.1} 構(gòu)建的。點估計值似乎模仿了圖 7 散點圖中每日中位數(shù) PM?.? 觀測值的模式。圖 8b 中繪制的觀測值與擬合分位數(shù)（通過使用 g-和-k 分布的擬合分布函數(shù)的概率積分變換獲得）對比圖表明，我們的模型擬合良好。圖 9 繪制了位置、偏斜和峰度參數(shù)的大樣本和有效分治可能性輪廓。位置、偏斜和峰度的 90% 置信區(qū)間分別為 (5.198, 5.218)、(0.6534, 0.6811) 和 (0.1762, 0.1955)，表明存在正偏斜和重右尾，這與圖 7 中的直方圖一致。

圖 10 繪制了每日尺度參數(shù) σ?, ..., σ??? 的大樣本和有效分解可能性輪廓。如圖 8a 所示，12 月和 1 月（夏季）各日的尺度似乎表現(xiàn)出更大的變異性，而 6 月和 7 月（冬季）則相對較小。與第 5.2 節(jié)一樣，大樣本可能性輪廓在推斷中校準(zhǔn)不當(dāng)。相比之下，有效的分治輪廓更寬，因為它恰當(dāng)?shù)乜紤]了觀測樣本中的信息量。模型的不確定性在 1 月、2 月和 3 月最大，這從圖 8a 中更寬的 90% 置信區(qū)間可以看出。尺度的最大值對應(yīng)于冬季月份（6 月和 7 月）和初夏（11 月和 12 月），這意味著瑪麗伯勒居民在這些月份暴露于 PM?.? 的風(fēng)險最高。

6 結(jié)論

第 3.2 節(jié)中提出的大樣本分治可能性輪廓在 IM（信念函數(shù)推斷機(jī)）構(gòu)建的排序（ranking）和有效化（validification）兩個步驟中均利用了（近似的）高斯性。在定理 1 中，我們證明了該構(gòu)造在漸近意義下是有效且有效的（即與基于全數(shù)據(jù)似然的最優(yōu) IM 一致），但這對我們而言并不充分，因為我們所關(guān)注的是中等樣本量（moderate n n）的情形。

相比之下，有效分治 IM 在排序步驟中使用高斯相對似然，但其關(guān)鍵區(qū)別在于：有效化步驟是基于摘要統(tǒng)計量的真實抽樣分布進(jìn)行的。顧名思義，這確保了有效分治 IM 即使在有限樣本設(shè)置下也具有有效性。我們在定理 3 中進(jìn)一步證明，該有效分治 IM 同時也是漸近有效的，這意味著相較于全數(shù)據(jù) IM 和大樣本分治 IM，我們在不損失漸近效率的前提下，獲得了重要的可靠性保證。

本文的核心關(guān)注點在于構(gòu)建一個有效且高效的分治 IM，其由可能性輪廓所刻畫。隨后，我們將該輪廓以一種微妙而或許出人意料的貝葉斯風(fēng)格加以運用。一種提議的用途是可視化地展示數(shù)據(jù)對不確定參數(shù) Θ（或其相關(guān)特征）所傳達(dá)的信息，例如圖 3 所示——這為頻率學(xué)派提供了一種與貝葉斯后驗密度相對應(yīng)的可視化工具。另一種用途是程序性的：通過公式 (10) 直接讀取置信集，類似于貝葉斯學(xué)派從后驗密度中讀取最高后驗密度可信集。關(guān)鍵區(qū)別在于，有效 IM 的水平集自動校準(zhǔn)為頻率意義上的置信集。

除了上述貝葉斯–頻率學(xué)派之間的聯(lián)系外，我們還多次強調(diào)：IM 的輸出不僅是一個用于提取置信集的工具，更可用于對 Θ 進(jìn)行完全條件化、依賴于數(shù)據(jù)、類概率式的不確定性量化，其作用可與貝葉斯后驗分布相媲美。事實上，人們可以通過計算與 Θ 相關(guān)假設(shè)的上/下概率來進(jìn)行形式化推斷；更一般地，還可計算 Θ 的函數(shù)的上/下期望，從而對相關(guān)行動進(jìn)行正式的決策理論評估。重要的是，IM 的有效性意味著：所有這類貝葉斯風(fēng)格的不確定性量化——而不僅僅是置信集——都在頻率意義上是可靠且經(jīng)過校準(zhǔn)的。

這在似然函數(shù)不存在、且訓(xùn)練模擬器計算成本高昂的情形下可能特別有用。一個缺點是，由此產(chǎn)生的有效分治 IM 將失去其漸近有效性（定理 3）。盡管該方法因與大樣本分治估計量的聯(lián)系而具有良好的動機(jī)，但未來工作的一個有趣方向是探索替代高斯相對似然的方法，用于組合塊特定估計量。

本文中或許未得到充分關(guān)注的一個局限性是：當(dāng)參數(shù) Θ 的維度較大時，計算聯(lián)合可能性輪廓存在困難。這一點在第 5.3 節(jié)對中位數(shù) PM?.? 的分析中尤為突出——我們計算的是尺度參數(shù) σ? 的邊際每日置信區(qū)域，而非所有尺度參數(shù) σ?, ..., σ??? 的聯(lián)合置信集。主要挑戰(zhàn)仍在于計算：由于需要在 θ 值網(wǎng)格上評估可能性輪廓 πs?∨（使用公式 (11)），而網(wǎng)格維度會隨參數(shù)維度急劇增長。近期關(guān)于可能性輪廓的概率近似研究（Martin，2025）可能為高維情形提供一些新的解決方向。

原文鏈接： https://arxiv.org/pdf/2503.22812

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.