核心概念
只有當完全法則可識別時,才能從正確的條件分佈中得出插補值,這意味著在目標法則可識別但完全法則不可識別的情況下,直接應用多重插補法可能不是最佳選擇。
書目信息
Karvanen, J., & Tikka, S. (2024). Multiple imputation and full law identifiability. arXiv preprint arXiv:2410.18688.
研究目標
本研究旨在探討多重插補法與完全法則可識別性之間的關係,並闡明在何種情況下多重插補法適用於處理缺失數據。
方法
本文採用理論分析的方法,通過定義非參數缺失數據模型、可識別性以及有效的插補方法,推導出多重插補法與完全法則可識別性之間的關係。
主要發現
只有當完全法則可識別時,才能從正確的條件分佈中得出插補值。
在目標法則可識別但完全法則不可識別的情況下,直接應用多重插補法可能會導致估計偏差。
主要結論
多重插補法的有效性取決於完全法則的可識別性。當完全法則不可識別時,應謹慎使用多重插補法,並考慮其他處理缺失數據的方法。
意義
本研究闡明了多重插補法的一個重要理論限制,有助於研究人員在處理缺失數據時選擇合適的方法,避免產生偏差。
局限和未來研究方向
本文僅考慮了非參數缺失數據模型,未來研究可探討在參數或半參數模型下,多重插補法與完全法則和目標法則可識別性之間的關係。
當完全法則可識別時,如何選擇合適的插補模型是一個值得深入研究的問題。
統計資料
模擬數據中 X 和 Y 服從二元正態分佈,X 的期望值為 0,方差為 1,Y 的期望值為 0,方差為 2,X 和 Y 之间的相關係數為 √2/2 ≈ 0.71。
響應指標 RX 服從伯努利分佈,概率 P(RX = 1) = 0.7。
在示例 (a) 中,響應指標 RY 服從伯努利分佈,其中 logit(P(RY = 1)) = X。
在示例 (b1) 中,響應指標 RY 服從伯努利分佈,其中 logit(P(RY = 1)) = X + 2RX - 1。
在示例 (b2) 中,響應指標 RY 服從伯努利分佈,其中 logit(P(RY = 1)) = X(2RX - 1)。