本研究では、機械学習モデルの性能格差の要因を偶然的な差別と知識的な差別の2つに分類している。
偶然的な差別は、データ分布に内在する固有のバイアスに起因するものであり、モデルの選択や最適化手法とは無関係である。一方、知識的な差別は、モデル開発時の決定に由来するものである。
本研究では、偶然的な差別の程度を定量化するために、公平性制約の下での最適なモデルパフォーマンスを表す「公平性Pareto最適フロンティア」を導入する。これは、データ分布と公平性指標のみに依存し、モデルクラスや最適化手法には依存しない。
さらに、知識的な差別は、モデルのパフォーマンスと公平性Pareto最適フロンティアとの差として定義される。
本研究では、Blackwellの実験比較の理論を応用して、公平性Pareto最適フロンティアを効率的に近似するアルゴリズムを提案する。この近似値を用いて、既存の公平性介入手法の性能を評価した結果、標準的なデータセットでは、これらの手法が知識的な差別をほぼ解消できていることが示された。
しかし、欠損値が存在する場合、偶然的な差別が大きくなり、公平性介入手法の有効性が大幅に低下することも明らかになった。このことから、欠損値などのデータバイアスへの対処が重要であることが示唆される。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Hao Wang,Lux... om arxiv.org 04-17-2024
https://arxiv.org/pdf/2301.11781.pdfDiepere vragen