核心概念
本文提出了一種自適應降溫序列蒙特卡洛抽樣演算法,用於解決貝葉斯反問題和罕見事件模擬,該演算法利用過去對真實似然函數的評估構建代理模型,並在模擬過程中自適應地調整代理模型和目標後驗分佈的降溫方案。
本文提出了一種自適應序列蒙特卡洛(SMC)抽樣演算法,用於解決貝葉斯反問題。該演算法適用於似然函數評估成本高昂,但可以通過代理模型近似的情況。代理模型通過先前對真實似然函數的評估構建,並需要對其誤差進行粗略估計。
該方法基於自適應 SMC 模擬,該模擬聯合調整似然近似和目標後驗分佈的標準降溫方案。此演算法非常適合後驗分佈集中在先驗分佈的罕見且未知區域的情況。它也適用於解決低溫和罕見事件模擬問題。
主要貢獻是提出了一種熵準則,將當前代理模型的精度與似然近似的最大逆溫度相關聯。後者用於對所謂的快照進行採樣,執行精確的似然評估,並更新代理模型及其誤差量化。
在理想化的演算法框架中,本文提出了一些一致性結果。數值實驗特別使用了降階基方法來構建橢圓偏微分方程的部分觀測解的近似參數解。實驗結果證明了演算法的收斂性,並顯示出在可比精度下顯著降低了計算成本(接近 10 倍)。
1.1. 背景與問題
本文考慮設計一種演算法蒙特卡洛程序的經典問題,該程序根據目標概率分佈 η∗
β∞(對於一個特定的 β∞∈R)進行採樣,該分佈被明確定義為一個族中的元素:
η∗
β
def
1
Z∗
β
eβS∗dπ,
β ∈R。
其中,Z∗
β
def
= π(eβS∗) 表示相關的未知歸一化常數,通常也必須通過蒙特卡洛程序計算,π 表示狀態空間 X 上的一個給定且易於模擬的參考概率分佈,S∗: X →R 表示一個給定但計算成本高昂的實值分函數。
以下兩個背景將作為主要動機。在這兩種情況下,分函數的形式為:
S∗(x) = score(Ψ∗(x)),
其中 score 是一個易於計算的物理興趣函數,它依賴於一些額外的參數(如觀測數據),Ψ∗(x) 是由變量 x ∈X 參數化的複雜物理系統的數值計算結果。
在反問題的貝葉斯公式中,β∞= 1,η∗
β∞是部分觀測物理系統 Ψ∗(x) 的一些不確定性參數 x ∈X 的後驗分佈。π 模擬了不確定性參數的先驗分佈,權重 ∝eS∗是給定一些部分觀測值的情況下這些參數的似然函數。像往常一樣,我們希望進行蒙特卡洛抽樣,然後根據這個後驗分佈來近似期望值。
在罕見事件問題中,我們希望估計小概率 p∗def
= π ({S∗≥1}),它對應於一個大的預定水平 ℓ∈R,其分函數定義為 S∗(x) = 1−max(ℓ−Ψ∗(x), 0)/ℓ。由於 limβ∞→∞π(eβ∞S∗) = p∗,因此罕見事件概率的估計就變成了歸一化常數 Z∗
β∞在 β∞→∞ 時的估計,即溫度 1/β∞趨於零時的估計。
在這項工作中,我們將關注從業者必須面對兩種類型困難的情況。第一種困難是經典的,當 β 增加時(或者在貝葉斯環境中當測量噪聲變小時),會產生一個低溫問題,類似於全局優化。它使從業者面臨著一個計算挑戰:定義 η∗
β 的密度將大部分概率質量集中在 X 的特定但可能未知的區域,這些區域大致由 S∗的最大值描述。直接使用 π 的蒙特卡洛模擬進行抽樣通常非常耗時,甚至不可行,因為它可能需要非常大的樣本量。例如,為了獲得合理的估計方差,在罕見事件模擬環境中,樣本量應為 1/p∗的數量級,這顯然是令人望而卻步的。
一種非常流行的通用策略是採用序列蒙特卡洛(SMC)策略來模擬根據 η∗
β 分佈的樣本,該策略首先從根據 π 分佈的粒子蒙特卡洛樣本開始,然後通過結合使用重要性抽樣(IS)、加權樣本的重採樣(選擇)和基於合適的馬爾可夫鏈蒙特卡洛轉移的粒子變異,依次對 β 值遞增的 η∗
β 進行抽樣。更具體地說,我們將對自適應變量降溫方法感興趣。
第二個困難出現在 Ψ∗的數值評估極其昂貴的情況下;如此昂貴以至於在例如通常的 SMC 方法中所需的評估次數變得令人望而卻步。為了規避這個問題,我們假設物理模型 Ψ∗可以通過一個簡化模型 Ψ 來近似;與使用 Ψ∗進行一次真實分數評估相比,評估 Ψ 的成本很小。
我們考慮的簡化模型 Ψ 假設具有兩個關鍵特性。為了解釋這些特性,讓我們從現在開始將近似分函數表示為:
S(x) = score (Ψ(x)) ∈R。
第一個特性是與 S 相關的後驗逐點誤差量化。這種誤差量化的形式是一個函數 E(x),它滿足以下形式的近似逐點估計:
|S(x) −S∗(x)| ≈E(x),
∀x ∈X。
我們強調,逐點估計 (1.2) 不必是對誤差的非常精確的估計,而只需要是一個粗略的估計,揭示誤差的趨勢。
第二個關鍵特性假設我們能夠通過以下形式的程序更新簡化模型:
{(X1, Ψ∗(X1)), . . . , (Xk, Ψ∗(Xk)}
reduced model
7−−−−−−−−−→Ψ = Ψ(X1,...,Xk),
它將狀態空間 X 中的任何狀態序列(這裡稱為快照樣本)以及為每個快照評估的關聯真實模型 Ψ∗的解作為輸入。輸出是簡化模型 Ψ。簡化模型可以通過各種可能非常不同的方法構建。在這項工作中,我們將考慮任何簡化建模程序和任何形式為 (1.2) 的近似誤差量化。
當 Ψ∗(x) 是由不確定性變量 x 參數化的偏微分方程 (PDE) 的解時,一種特別適合於這種情況的模型簡化程序是降階基。
(1.2) 中的相關誤差估計同時更新,並且出於第 2.2 節中將要解釋的原因,我們還要求誤差 E(k)
在迭代 k 時已經評估過的快照點 X(k) 上消失:
E(X1,...,Xk)(X(j)) = 0,
∀j ≤k。
為了提高可讀性,在整篇論文中,我們可能會使用上標 (k) 代替 (X1, . . . , Xk),或者對於任何依賴於快照樣本 (X1, . . . , Xk) 的量,甚至可以省略它。例如,由 k 個快照構建的簡化分數可以表示為:
S(x)
def
= S(k)(x)
def
= S(X1,...,Xk)(x)。