핵심 개념
모기지 신청 데이터에서 인종 편향을 제거하기 위한 다양한 탈편향 방법들의 성능을 비교하였다.
초록
이 논문은 모기지 신청 데이터에서 인종 편향을 제거하기 위한 여러 가지 탈편향 방법들을 비교하였다.
먼저, 역사적 결정 데이터를 기반으로 훈련된 기계 학습 모델이 인종 정보를 사용하지 않더라도 편향을 복제할 수 있음을 보였다. 이는 모기지 승인 결정에서 인종과 다른 예측 변수 간의 상관관계가 강하기 때문이다.
다음으로, 다음과 같은 탈편향 방법들의 성능을 비교하였다:
- 금지된 변수 제외: 인종 정보를 예측 변수에서 제외하는 방법
- 정확도와 집단 간 격차 최소화: 정확도와 금지된 변수와의 연관성을 동시에 최소화하는 방법
- 금지된 변수 평균: 금지된 변수의 예측값들의 평균을 취하는 방법
- 금지된 변수 최대값: 금지된 변수에 대한 최대 예측값을 취하는 방법 (새로운 방법)
이 중 금지된 변수 평균과 최대값 방법이 가장 좋은 성능을 보였다. 그러나 편향이 지역 정보와 관련된 경우에는 금지된 변수 최대값 방법이 효과적이지 않았다. 이는 지역 편향이 모든 집단에 영향을 미치기 때문이다.
결과적으로, 편향의 형태에 따라 적절한 탈편향 방법을 선택해야 함을 보여준다.
통계
히스패닉/라틴계 신청자의 실제 거부율은 9.5%이지만, 편향된 데이터에서는 19.1%로 두 배 높게 나타났다.
편향된 데이터에서 히스패닉/라틴계 신청자의 거부율은 17.3%로, 비히스패닉/라틴계 신청자의 6.4%에 비해 매우 높았다.
인용구
"모기지 신청 데이터에서 인종 편향을 제거하기 위한 여러 가지 탈편향 방법들의 성능을 비교하였다."
"편향의 형태에 따라 적절한 탈편향 방법을 선택해야 함을 보여준다."