본 연구는 페이스북의 41개 혐오 발언 정책에 부합하는 혐오 및 비혐오 문장 데이터셋인 HateModerate를 구축하였다. 이를 통해 대표적인 혐오 발언 탐지 모델들의 정책 준수도를 평가하였다.
평가 결과, 모든 모델들이 더 심각한 정책 위반에 대해서는 잘 탐지하지만, 덜 심각한 정책 위반에 대해서는 상대적으로 취약한 것으로 나타났다. 특히 OpenAI 모델이 가장 우수한 성능을 보였다.
또한 HateModerate 데이터를 모델 학습에 추가하면 정책 준수도가 크게 향상되는 것을 확인하였다. 이는 HateModerate가 기존 데이터셋에 비해 모델의 정책 준수도 향상에 효과적임을 보여준다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Jiangrui Zhe... pada arxiv.org 03-20-2024
https://arxiv.org/pdf/2307.12418.pdfPertanyaan yang Lebih Dalam