Core Concepts
NLP 모델의 성 편향을 통계적 및 인과적 관점에서 측정하고 완화하는 방법을 제안한다.
Abstract
이 논문은 NLP 모델의 성 편향을 측정하고 완화하는 방법을 다룹니다.
먼저, 통계적 공정성과 인과적 공정성이라는 두 가지 공정성 개념을 소개하고, 이에 해당하는 편향 측정 지표를 정의합니다. 통계적 편향 지표는 관찰 데이터를 기반으로 하는 반면, 인과적 편향 지표는 개인의 보호 속성을 변경하는 개입을 통해 편향을 측정합니다.
이어서, 기존의 통계적 및 인과적 편향 완화 기법을 소개하고 교차 평가를 수행합니다. 실험 결과, 특정 편향 지표 최적화에 초점을 맞춘 기법은 다른 편향 지표에서 성능이 저하되는 것을 확인했습니다.
이에 따라, 통계적 및 인과적 편향 완화 기법을 결합한 새로운 방법을 제안합니다. 제안 방법은 두 가지 편향 지표 모두에서 우수한 성능을 보였습니다.
Stats
성 편향 지표 SGTPR과 CGTPR의 차이가 크며, 때로는 반대 방향의 편향을 보인다.
성 토큰 가중치를 조절하면 통계적 및 인과적 TPR 격차가 증가하며, 일부 직업에서는 반대 방향의 편향이 나타난다.
Quotes
"통계적 공정성은 모든 보호 집단에 대해 동등한 결과를 요구하는 반면, 인과적 공정성은 개인의 보호 특성과 관계없이 동일한 예측을 하도록 요구한다."
"기존 연구에서는 주로 한 가지 유형의 편향 지표만을 사용하여 평가하는데, 이는 다른 유형의 편향 지표에서는 성능 저하를 초래할 수 있다."