المفاهيم الأساسية
プライバシーデータにおける信頼区間と仮説検定のためのシミュレーションベース手法を提案する。
الملخص
この記事では、プライバシー保護方法が導入する統計値へのノイズにより複雑で扱いにくいサンプリング分布が生じることを取り上げています。XieとWang(2022年)の研究に基づいて、信頼区間や仮説検定を行うための「再現サンプル」アプローチを提案しています。この手法は広範な私的推論問題に適用可能であり、プライバシーメカニズムによって導入される偏りを考慮し、パラメトリックブートストラップなど他の最先端推論手法よりも優れていることを示しています。さらに、再現サンプル手法を一般的なモデル(必ずしもプライバシー関連ではない)向けに改良し、確実なカバレッジとタイプIエラーを保証する手順の変更や効率的な数値アルゴリズムの提案も行っています。
الإحصائيات
Ps∼Fθ,ω∼Q(Bα(θ; s, ω)) ≥ 1 − α.
Px := Unif(0, 1) and sample ux_i ∼ Px for i = 1, . . . , n.
Gx(θ, u) = I(u ≤ θ), where u = ((ux_i)n_i=1, uDP).
Gs(x, uDP) = Pn_i=1 xi + uDP
اقتباسات
"Privacy protection methods introduce noise into resulting statistics which often produces complex and intractable sampling distributions."
"We propose a simulation-based “repro sample” approach to produce statistically valid confidence intervals and hypothesis tests."
"Our methodology can account for biases introduced by DP mechanisms, such as due to clamping or other non-linear transformations."