Core Concepts
自動微分を用いて累積分布関数(cdf)のモデルから検定統計量の確率密度関数(pdf)を近似的に導出する手法の有効性を検討する。
Abstract
本論文では、自動微分を用いて累積分布関数(cdf)のモデルから検定統計量の確率密度関数(pdf)を近似的に導出する手法の有効性を検討している。
まず、ALFFI(Approximate Likelihood-Free Frequentist Inference)アルゴリズムを用いてcdfをモデル化したが、離散分布の特性から生じる高周波成分のために、pdفの近似が十分な精度を持たないことが分かった。
そこで、経験的cdfを直接モデル化する手法を提案した。この手法では、conformal推論を用いてcdfおよびpdfの不確定性を定量化することができる。さらに、ベイズ型ニューラルネットワークや、ブートストラップによるアンサンブル手法を用いた不確定性定量化も検討した。
これらの手法を、天文学の「ON/OFF問題」と疫学の「SIRモデル」の2つの例題に適用し、検討を行った。その結果、経験的cdfを直接モデル化する手法が最も良好な結果を示すことが分かった。一方で、ベイズ型ニューラルネットワークやブートストラップ手法については、高次元の設定では信頼性が低下する可能性が示唆された。
本研究は、自動微分を用いたcdfモデルからのpdf近似手法の有効性と限界を明らかにしたものであり、シミュレーションに基づく統計的推論の分野に新たな知見を与えるものである。
Stats
検定統計量λは、ON/OFFモデルでは式(10)、SIRモデルでは式(15)で定義される。
ON/OFFモデルのパラメータは信号強度μと背景強度νであり、SIRモデルのパラメータは回復率αと感染率β。
Quotes
"Simulation-based inference methods that feature correct conditional coverage of confidence sets based on observations that have been compressed to a scalar test statistic require accurate modelling of either the p-value function or the cumulative distribution function (cdf) of the test statistic."
"Equation (1) furnishes an approximation of the pdf f(x | θ) whether x is a function of the underlying observations D only or if x = λ(D; θ) is a test statistic that depends on D as well as on the parameters θ."