이 연구는 페이스북의 41개 혐오 발언 정책 가이드라인에 부합하는 혐오 및 비혐오 문장 데이터셋인 HateModerate를 구축했다. 이를 통해 대표적인 혐오 발언 탐지 모델들의 정책 준수도를 평가했다.
평가 결과, 모든 모델이 더 심각한 혐오 발언 정책에 비해 덜 심각한 정책에서 더 많은 실패를 보였다. OpenAI 모델이 가장 우수한 성능을 보였지만, 대부분의 모델이 비혐오 문장 탐지에 실패했다.
이 연구는 HateModerate를 모델 학습에 추가하면 정책 준수도가 크게 향상되는 것을 보였다. 이는 HateModerate가 기존 데이터셋에 비해 모델의 정책 준수 능력 향상에 효과적임을 시사한다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Jiangrui Zhe... a las arxiv.org 03-20-2024
https://arxiv.org/pdf/2307.12418.pdfConsultas más profundas