Core Concepts
特徴選択プロセスにおける公平性を考慮することで、ヘルスケアにおけるマシンラーニングモデルの偏りを軽減できる。
Abstract
本研究では、ヘルスケアデータにおける性別バイアスを軽減するための公平な特徴選択手法を提案している。3つのヘルスケアデータセット(Tappy Keystroke、Glioma Grading、Coronary Artery Disease)を用いて評価を行った。
特徴選択プロセスにおいて、性別ごとに特徴の重要度を評価し、公平性指標と予測精度の両方を最適化することで、公平性を向上させつつ予測精度の劣化を最小限に抑えることができた。
Tappy Keystrokeデータセットでは、公平な特徴選択により、統計的格差(SP)が-0.0095から-0.0003に、格差指数(DI)が1.1846から0.9822に、等化オッズ(EqO)が-0.0667から0.0542に改善された。一方で、正解率(Bacc)は0.8262から0.7637に若干低下した。
Glioma Gradingデータセットでは、公平な特徴選択により、SPが0.0821から0.0546に、DIが1.3119から1.1691に、EqOが0.1037から0.0224に改善された。さらに、Baccは0.7583から0.8751に向上した。
Coronary Artery Diseaseデータセットでは、公平な特徴選択により、SPが-0.1481から-0.1108に、DIが0.8180から0.8606に、EqOが-0.0699から-0.0359に改善された。Baccも0.6955から0.7099に向上した。
これらの結果から、特徴選択プロセスにおける公平性の考慮が、ヘルスケアにおけるマシンラーニングモデルの偏りを軽減し、公平性と予測精度のバランスを取ることができることが示された。
Stats
Tappy Keystrokeデータセット:
格差指数(DI)が1.1846から0.9822に改善された。
統計的格差(SP)が-0.0095から-0.0003に改善された。
等化オッズ(EqO)が-0.0667から0.0542に改善された。
Glioma Gradingデータセット:
格差指数(DI)が1.3119から1.1691に改善された。
統計的格差(SP)が0.0821から0.0546に改善された。
等化オッズ(EqO)が0.1037から0.0224に改善された。
Coronary Artery Diseaseデータセット:
格差指数(DI)が0.8180から0.8606に改善された。
統計的格差(SP)が-0.1481から-0.1108に改善された。
等化オッズ(EqO)が-0.0699から-0.0359に改善された。