이 연구는 페이스북의 41개 혐오 발언 정책 가이드라인에 부합하는 혐오 및 비혐오 문장 데이터셋인 HateModerate를 구축했다. 이를 통해 대표적인 혐오 발언 탐지 모델들의 정책 준수도를 평가했다.
평가 결과, 모든 모델이 더 심각한 혐오 발언 정책에 비해 덜 심각한 정책에서 더 많은 실패를 보였다. OpenAI 모델이 가장 우수한 성능을 보였지만, 대부분의 모델이 비혐오 문장 탐지에 실패했다.
이 연구는 HateModerate를 모델 학습에 추가하면 정책 준수도가 크게 향상되는 것을 보였다. 이는 HateModerate가 기존 데이터셋에 비해 모델의 정책 준수 능력 향상에 효과적임을 시사한다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jiangrui Zhe... alle arxiv.org 03-20-2024
https://arxiv.org/pdf/2307.12418.pdfDomande più approfondite