Core Concepts
언어 모델에는 체계적인 공격적 고정관념(SOS) 편향이 존재하며, 이는 온라인에서 소수 집단이 경험하는 혐오와 관련이 있다.
Abstract
이 논문은 언어 모델의 체계적인 공격적 고정관념(SOS) 편향을 종합적으로 조사한다.
먼저 SOS 편향을 측정하는 방법을 제안하고 이를 BERT, RoBERTa, ALBERT 모델에 적용하여 검증한다. 그 결과, 대부분의 모델이 SOS 편향을 보이며, 이 편향은 소수 집단에 대한 온라인 혐오와 관련이 있음을 확인했다.
다음으로 SOS 편향 제거 기법의 효과를 조사했다. 그 결과, 기존의 편향 제거 방법이 SOS 편향을 오히려 악화시키는 것으로 나타났다.
마지막으로 SOS 편향이 혐오 발언 탐지 모델의 성능과 공정성에 미치는 영향을 분석했다. 성능에는 큰 영향이 없었지만, 공정성에는 부정적인 영향을 미치는 것으로 나타났다.
Stats
소수 인종 집단과 비소수 인종 집단 간 온라인 혐오 경험 비율의 차이가 크다.
여성과 LGBTQ 집단이 온라인 혐오를 더 많이 경험한다.
Quotes
"언어 모델에는 체계적인 공격적 고정관념(SOS) 편향이 존재한다."
"SOS 편향은 온라인에서 소수 집단이 경험하는 혐오와 관련이 있다."
"기존의 편향 제거 방법은 SOS 편향을 오히려 악화시킨다."