在數據分析中,若移除少量數據點就能顯著改變分析結果,則該結論可能依賴於特定數據,而非普遍適用的真理。傳統上,評估這種敏感性的方法是枚舉所有可能的小數據子集,並在移除每個子集後重新運行分析。然而,對於使用 MCMC 近似貝葉斯後驗分佈的情況,這種暴力破解方法由於需要大量的重新運行而變得不可行。
本研究將現有的數據移除近似方法應用於透過 MCMC 計算的估計量。具體而言,研究利用一階泰勒級數近似來估計移除數據點對後驗期望值的影響。由於此近似涉及後驗共變異數,研究使用分析師已生成的 MCMC 抽樣來估計移除數據後的影響。此外,考慮到蒙特卡洛誤差會導致近似值的變異,研究採用 bootstrap 方法來量化這種不確定性。
研究結果顯示,該近似方法在簡單模型(如線性回歸)中表現良好。然而,在結構複雜的模型(如具有多個隨機效應的模型)中,該方法的性能表現不一。
本研究提出了一種評估基於 MCMC 方法的分析對少量數據移除的敏感性的快速近似方法。該方法在簡單模型中表現良好,但在複雜模型中需要謹慎使用。未來研究方向包括探索更精確的近似方法,以及將該方法應用於更廣泛的貝葉斯分析問題。
翻譯成其他語言
從原文內容
arxiv.org
深入探究