核心概念
機械学習モデルを用いて住宅ローン申請の承認決定を自動化する際、過去の偏見のある決定データを学習することで、そのバイアスを再現してしまう可能性がある。本研究では、実際のデータに人為的な偏見を加えた上で、いくつかの除偏手法の性能を比較し、その有効性と限界を示す。
要約
本研究は、住宅ローン申請の承認決定をモデル化する際の偏見について検討している。
まず、過去の承認決定データに人為的な偏見(ヒスパニック系申請者に対する拒否率の上昇)を加えたデータを用いて、機械学習モデル(XGBoost)を学習させた。その結果、申請者の人種/民族情報を直接使用していないにもかかわらず、モデルはその偏見を再現してしまうことが示された。
次に、いくつかの除偏手法を検討した:
人種/民族情報を予測変数から除外する
予測と人種/民族情報の関連を最小化するように正則化する(FairXGBoost)
人種/民族ごとの予測値の平均を取る
人種/民族ごとの予測値の最大値を取る(新提案手法)
これらの手法を比較した結果、人種/民族情報を完全に除外するだけでは不十分で、平均や最大値を取る手法のほうが元の(偏見のない)決定に近い予測ができることが分かった。ただし、偏見が地域などの代理変数を通じて表れる場合には、平均を取る手法のほうが有効であることも示された。
本研究は、機械学習モデルによる住宅ローン承認決定の自動化において、どのように偏見が生じ得るかを実証的に示し、いくつかの除偏手法の性能を比較したものである。その結果、偏見の形態に応じて適切な除偏手法を選択する必要があることが分かった。
統計
ヒスパニック系申請者の実際の拒否率は9.5%だが、人為的に19.1%に引き上げた。
人種/民族以外の属性(信用スコア、負債比率など)は実際のデータから取得した。