Core Concepts
有限のデータセットを使う場合、公平性の制約により分類の精度が低下する。本研究では、人口統計学的格差を制限した上で分類の誤りを最小化する最適な手法を提案する。
Abstract
本研究では、二値分類問題において、保護属性に関する人口統計学的格差を制限した上で分類の誤りを最小化する手法を検討している。
まず、人口統計学的格差を定義し、これを制限した上で分類の誤りを最小化する公平なベイズ最適分類器を特徴付けている。次に、有限のデータセットを使う場合の性能限界を示す、ミニマックス下限界を導出している。この下限界は、回帰関数の推定誤差と集団間の閾値推定誤差の二つの要因から構成される。
さらに、提案手法「FairBayes-DDP+」は、この下限界を達成する最適な手法であることを示している。FairBayes-DDP+は、集団ごとの閾値を推定し、格差を制限しつつ分類精度を最大化する。実験結果から、提案手法が公平性と精度のトレードオフにおいて優れた性能を示すことが確認された。
Stats
有限のデータセットを使う場合、公平性の制約により分類の誤りが増加する可能性がある。
分類の誤りを最小化するには、回帰関数の推定誤差と集団間の閾値推定誤差の二つの要因を考慮する必要がある。