この論文では、公平性研究におけるデータ処理の実践を包括的に分析し、その問題点を明らかにしている。主な発見は以下の通り:
保護属性の代表性が不足している - 宗教、障害、社会経済的地位などの重要な保護属性が、データセットや研究で十分に考慮されていない。これは法的保護の範囲と大きな乖離がある。
マイノリティグループの除外が常態化している - データ前処理の際に、マイノリティグループのデータが削除されたり、他のグループに統合されたりする傾向がある。これにより、最も脆弱な集団の情報が失われている。
データ利用の不透明さが再現性と一般化を阻害している - データセットの前処理方法や使用バージョンなどが明示されていないことが多く、同じデータセットを使った実験でも大きな差異が生じる。これにより、公平性評価の結果が不安定になる。
これらの問題は、公平性研究の範囲と信頼性を損なっている。著者らは、保護属性の網羅的な収集、マイノリティの適切な表現、データ利用の透明化など、具体的な改善策を提案している。データ実践の批判的な再検討が、公平性研究の健全な発展に不可欠であると主張している。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Jan Simson,A... a las arxiv.org 04-29-2024
https://arxiv.org/pdf/2404.17293.pdfConsultas más profundas