Conceitos Básicos
無視できない欠損データを持つガウシアンコピュラモデルにおいて、補助的な周辺分位数を活用することで、コピュラ相関の正確な推定と、効率的な多重代入が可能になる。
本論文は、無視できない欠損データを持つガウシアンコピュラモデルにおいて、補助的な周辺分位数を活用する新しい手法を提案しています。
背景
ガウシアンコピュラは、多変量データのモデリングに広く用いられる柔軟な手法です。しかし、従来のガウシアンコピュラモデルは、欠損データが完全にランダムに欠損している(MCAR)か、ランダムに欠損している(MAR)ことを前提としており、無視できない欠損データ(MNAR)への対応は限定的でした。
提案手法
本論文では、MNARデータに対処するため、補助的な周辺分位数を利用したガウシアンコピュラモデルを提案しています。具体的には、(1) すべての研究変数と欠損指標に対してガウシアンコピュラモデルを使用し、(2) 一部の研究変数について、周辺分位数の形で補助的な情報を利用します。
主な貢献
コピュラ相関の一致性: 本論文では、コピュラ相関の一致性を確保するために、少数の正確に指定された分位数のみが必要であることを証明しています。
効率的な推定アルゴリズム: 効率的なMCMCアルゴリズムを用いて、コピュラパラメータと非パラメトリックに推定された周辺分布関数を共同で推定します。
加法的無視できない欠損メカニズム: コピュラモデルによって暗示される(加法的)無視できない欠損メカニズムを特徴付けています。
多重代入への応用: 提案手法は、MNARデータを用いた多重代入に有効であることが、シミュレーションによって確認されています。
実データへの応用
本論文では、ノースカロライナ州の17万人の生徒を対象とした、鉛曝露と学年末テストの得点との関連性を分析する際に、提案手法を適用しています。鉛曝露は無視できない欠損データを持つことが知られており、曝露レベルの高い子供ほど測定される可能性が高くなります。そこで、米国疾病管理予防センターが提供する統計データを用いて、鉛曝露の周辺分位数を導き出しています。その結果、完全ケース分析やMAR分析と比較して、提案モデルを用いた多重代入推論では、鉛曝露と教育成果との間に、より強く、より悪影響を及ぼす関連性があることが示唆されました。
結論
本論文で提案された手法は、MNARデータを持つガウシアンコピュラモデルにおいて、コピュラ相関の正確な推定と、効率的な多重代入を可能にするものです。
Estatísticas
ノースカロライナ州の17万人の子供たちのデータ
欠損データは、経済状況、母親の年齢、母親の人種、地域の剥奪指数、4年生の標準化された数学のテストスコアなどの変数を含んでいます。