Core Concepts
低次元表現を用いた条件平均処理効果(CATE)推定手法では、表現の次元削減によって共変量情報が失われ、バイアスが生じる可能性がある。本研究では、この表現誘導型の共変量バイアスの上限と下限を推定する新しい手法を提案する。
Abstract
本研究では、低次元表現を用いたCATEの推定において生じる表現誘導型の共変量バイアスについて検討している。
まず、表現の有効性の条件を示し、表現の次元削減や制約によってこの条件が満たされなくなり、バイアスが生じることを明らかにした。具体的には、表現から雑音や道具変数の情報が失われると、表現レベルのCATEと元の共変量レベルのCATEが一致しなくなる(heterogeneity lossが生じる)。さらに、表現から共変量の交絡因子の情報が失われると、表現レベルのCATEが同定できなくなる(representation-induced confounding biasが生じる)。
次に、この表現誘導型の共変量バイアスの上限と下限を推定する新しい手法を提案した。マージナル感度モデルを用いて、表現と共変量の間の関係を表すパラメータを推定し、それに基づいてCATEの上限と下限を導出する。
最後に、合成データと実データを用いた実験により、提案手法の有効性を示した。提案手法を用いることで、元の表現学習手法に比べて、意思決定の誤りを大幅に低減できることが分かった。
Stats
表現次元が1の場合、TARNetの政策誤り率は30.79%から17.90%に改善された。
表現次元が2の場合、TARNetの政策誤り率は9.82%から6.09%に改善された。