이 연구는 페이스북의 41개 혐오 스피치 정책에 부합하는 혐오 및 비혐오 문장 데이터셋 HateModerate를 구축하였다. 데이터셋 구축을 위해 28명의 대학원생 annotator가 6단계의 과정을 거쳤다.
첫째, annotator들이 기존 데이터셋에서 각 정책에 부합하는 혐오 문장을 검색하였다. 둘째, 일부 정책에 대해 충분한 혐오 문장이 확보되지 않아 GPT-3를 활용해 추가 생성하였다. 셋째, 추가 annotator들이 각 문장이 정책에 부합하는지 검증하였다. 넷째, 각 정책에 대해 기존 데이터셋에서 비혐오 문장을 유사도 기반으로 검색하였다. 다섯째, 부족한 비혐오 문장은 GPT-3로 생성하였다. 여섯째, 추가 annotator들이 비혐오 문장을 검증하였다.
구축된 HateModerate 데이터셋은 총 7,704개의 문장(혐오 4,796개, 비혐오 2,908개)으로 구성되어 있다. 이를 활용해 Google Perspective API, OpenAI Moderation API, Facebook RoBERTa, Cardiff NLP RoBERTa 등 최신 혐오 스피치 탐지기의 정책 준수 성능을 평가하였다. 평가 결과, 대부분의 모델이 정책 준수에 실패하는 것으로 나타났다. 특히 심각도가 낮은 정책에 대해 모델 성능이 낮았다.
이후 HateModerate를 활용해 기존 모델을 fine-tuning한 결과, 정책 준수 성능이 크게 향상되었다. 이를 통해 HateModerate가 모델 성능 향상에 효과적임을 확인하였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jiangrui Zhe... at arxiv.org 03-20-2024
https://arxiv.org/pdf/2307.12418.pdfDeeper Inquiries