Core Concepts
機械学習モデルの解釈ツールは、モデルの差別的な振る舞いを隠蔽することができる。
Abstract
本論文は、機械学習モデルの解釈ツールの一つである部分依存(PD)プロットの脆弱性を示す敵対的フレームワークを提案している。このフレームワークは、元のブラックボックスモデルを改変して、外挿領域のインスタンスの予測を操作することで、差別的な振る舞いを隠蔽しつつ、ほとんどの元のモデルの予測を保持することができる。
実際の保険データとCOMPASデータを用いた実験結果は、この手法によって、予測の差別的な振る舞いを意図的に隠蔽し、PD プロットを通してモデルを中立的に見せかけることができることを示している。
この研究結果は、機械学習モデルの解釈ツールの使用には注意が必要であることを示唆している。規制当局と実務家に対して、解釈ツールの限界を認識し、解釈可能なモデルの採用を検討するよう提言している。
Stats
保険データでは、若年運転者と高価な車両が低い請求頻度を示す。
COMPAS データでは、高齢者と非白人人種が低い再犯率を示す。
Quotes
"機械学習モデルの解釈ツールは、モデルの差別的な振る舞いを隠蔽することができる。"
"規制当局と実務家に対して、解釈ツールの限界を認識し、解釈可能なモデルの採用を検討するよう提言している。"