Core Concepts
収集データの差別的な欠測は、予測モデルの公平性を損なう可能性がある。特に、公的サービスを利用する人々のデータが相対的に完全であるのに対し、私的サービスを利用する人々のデータが不完全な場合に問題が生じる。
Abstract
本研究では、収集データの差別的な欠測が予測モデルの公平性に及ぼす影響を分析している。
まず、差別的な欠測を含む統計モデルを定式化し、理論的に欠測の影響を分析した。その結果、欠測は予測モデルのパラメータ推定に偏りを生み、集団間の選択率格差を生み出すことが示された。
次に、標準的な欠測データ処理手法では欠測の影響を十分に軽減できないことを示した。そこで、欠測を考慮した損失関数の最適化や最適な欠測値補完手法を提案した。
最後に、公開データセットと実際の行政データを用いた実験を行い、提案手法が欠測による公平性の低下を軽減できることを示した。特に、教育水準や就労時間といった特徴量の欠測は、その特徴量が所得予測に寄与するため、集団間の選択率格差を生み出すことが明らかになった。
Stats
教育水準が低い人ほど所得が低い傾向がある。
就労時間が長い人ほど所得が高い傾向がある。
教育水準と就労時間は正の相関がある。
Quotes
"by relying on data that is only collected on families using public resources, the AFST unfairly targets low-income families for child welfare scrutiny."