Core Concepts
인구통계학적 정보 없이도 프로토타입 표현을 활용하여 언어 모델의 편향성을 완화할 수 있다.
Abstract
이 논문은 언어 모델의 편향성 완화를 위한 새로운 접근법인 DAFAIR를 제안한다. 기존의 편향성 완화 방법들은 인구통계학적 정보에 의존하지만, DAFAIR는 이러한 정보 없이도 프로토타입 표현을 활용하여 편향성을 완화할 수 있다.
구체적으로 DAFAIR는 다음과 같은 과정을 거친다:
각 사회적 속성에 대한 프로토타입 표현을 정의한다. 예를 들어 "이 전기는 남성에 대한 것이다"와 "이 전기는 여성에 대한 것이다"와 같은 문장.
입력 텍스트의 표현과 각 프로토타입 표현 간의 유사도를 계산한다.
유사도 분포가 균일하도록 KL 발산 손실을 최소화하여 편향성을 완화한다.
실험 결과, DAFAIR는 인구통계학적 정보 없이도 기존 방법들보다 편향성을 더 효과적으로 완화할 수 있었다. 또한 제한된 레이블 데이터 환경에서도 다른 방법들을 능가하는 성능을 보였다.
Stats
직업 예측 과제에서 DAFAIR는 기존 모델 대비 TPR-GAP을 14.66%에서 12.29%로 감소시켰다.
감정 분석 과제에서 DAFAIR는 TPR-GAP을 25.34%에서 21.72%로 감소시켰다.
Quotes
"DAFAIR는 인구통계학적 정보 없이도 프로토타입 표현을 활용하여 언어 모델의 편향성을 효과적으로 완화할 수 있다."
"제한된 레이블 데이터 환경에서도 DAFAIR는 다른 편향성 완화 방법들을 능가하는 성능을 보였다."