Core Concepts
데이터 결측이 알고리즘 공정성에 미치는 부정적인 영향을 분석하고, 이를 완화하기 위한 새로운 방법론을 제안한다.
Abstract
이 논문은 행정 데이터에서 발생하는 차별적 데이터 결측이 알고리즘 공정성에 미치는 영향을 분석한다. 행정 데이터에서는 공공 서비스를 더 많이 이용하는 집단의 데이터가 상대적으로 더 완전하게 기록되는 경향이 있다. 이러한 차별적 데이터 결측은 예측 모델의 편향을 초래할 수 있다.
논문은 먼저 차별적 데이터 결측이 회귀 모델 파라미터 추정에 미치는 영향을 분석한다. 결측이 많은 특성의 회귀 계수는 과소 추정되며, 결측이 없는 특성의 회귀 계수는 편향될 수 있다. 이어서 차별적 데이터 결측이 선별률 격차에 미치는 영향을 분석한다. 결측이 많은 집단은 선별률이 과대 또는 과소 추정될 수 있으며, 이는 데이터 결측 정도에 따라 달라진다.
논문은 기존 결측 데이터 처리 방법론이 이 문제를 해결하지 못함을 보이고, 새로운 접근법을 제안한다. 첫째, 증강된 손실 함수를 이용해 결측이 없는 데이터 생성 모델을 학습한다. 둘째, 최적의 결측값 대체 방법을 도출한다. 이 방법들은 실험 결과 기존 방법보다 공정성 향상에 효과적인 것으로 나타났다.
Stats
결측이 많은 특성의 회귀 계수는 과소 추정된다.
결측이 없는 특성의 회귀 계수는 편향될 수 있다.
결측이 많은 집단은 선별률이 과대 또는 과소 추정될 수 있다.
이는 데이터 결측 정도에 따라 달라진다.
Quotes
"by relying on data that is only collected on families using public resources, the AFST unfairly targets low-income families for child welfare scrutiny."
"We provide a technical analysis of this problem."