이 연구는 기계 학습 공정성(fair ML) 연구에서 데이터 관행의 문제점을 종합적으로 분석한다. 주요 발견은 다음과 같다:
특정 보호 속성(예: 종교, 장애, 경제적 지위)이 데이터셋과 연구에서 크게 소홀히 다뤄지고 있다. 이는 취약 집단에 대한 차별을 간과하게 만든다.
소수 집단이 데이터 전처리 과정에서 종종 제외되거나 통합되는 등 배제되는 경향이 있다. 이는 취약 집단에 대한 편향을 정상화시킬 수 있다.
데이터셋 활용에 대한 불투명한 문서화로 인해 공정성 평가 결과의 재현성과 일반화가 위협받고 있다. 서로 다른 데이터 전처리 방식이 공정성 측정에 큰 영향을 미치는 것으로 나타났다.
이러한 문제를 해결하기 위해 저자들은 데이터 수집과 활용의 투명성 제고, 취약 집단에 대한 고려 확대, 소수 집단 데이터의 책임감 있는 포함 등을 제안한다. 공정성 연구의 기반이 되는 데이터 관행에 대한 비판적 재평가가 필요하다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések