핵심 개념
자연어 처리 모델의 공정성을 높이기 위해 정보 이론과 설명 가능성을 활용하여 출력 임베딩에서 성별 관련 정보를 제거하는 방법을 제안한다.
초록
이 논문은 자연어 처리 모델의 공정성 향상을 위한 새로운 접근법을 제시한다. 모델의 출력 임베딩에서 성별 관련 정보를 제거하는 방법을 제안한다.
특이값 분해(SVD)를 통해 출력 임베딩을 개념 기반으로 분해한다.
Sobol 지수를 사용하여 각 개념의 성별 및 직업 예측 중요도를 평가한다.
성별 예측에 중요하지만 직업 예측에는 중요하지 않은 개념을 제거하여 성별 중립적인 임베딩을 생성한다.
이 방법은 기존 모델에 쉽게 통합할 수 있으며, 성능 저하 없이 성별 편향을 크게 감소시킬 수 있다. 또한 제거된 개념에 대한 설명을 제공하여 편향 제거 과정에 대한 투명성을 높인다.
통계
성별 예측 정확도가 99%에서 90%로 감소했다.
직업 예측 정확도는 86.4%에서 86.3%로 거의 변화가 없었다.
인용구
"정보 이론은 공정성을 달성하기 위해서는 모델이 성별, 인종, 나이와 같은 민감한 변수를 예측할 수 없어야 한다는 것을 나타낸다."
"우리의 방법은 기존 모델에 쉽게 통합할 수 있으며, 성능 저하 없이 성별 편향을 크게 감소시킬 수 있다."