이 연구는 페이스북의 41개 혐오 스피치 정책에 부합하는 혐오 및 비혐오 문장 데이터셋 HateModerate를 구축하였다. 데이터셋 구축을 위해 28명의 대학원생 annotator가 6단계의 과정을 거쳤다.
첫째, annotator들이 기존 데이터셋에서 각 정책에 부합하는 혐오 문장을 검색하였다. 둘째, 일부 정책에 대해 충분한 혐오 문장이 확보되지 않아 GPT-3를 활용해 추가 생성하였다. 셋째, 추가 annotator들이 각 문장이 정책에 부합하는지 검증하였다. 넷째, 각 정책에 대해 기존 데이터셋에서 비혐오 문장을 유사도 기반으로 검색하였다. 다섯째, 부족한 비혐오 문장은 GPT-3로 생성하였다. 여섯째, 추가 annotator들이 비혐오 문장을 검증하였다.
구축된 HateModerate 데이터셋은 총 7,704개의 문장(혐오 4,796개, 비혐오 2,908개)으로 구성되어 있다. 이를 활용해 Google Perspective API, OpenAI Moderation API, Facebook RoBERTa, Cardiff NLP RoBERTa 등 최신 혐오 스피치 탐지기의 정책 준수 성능을 평가하였다. 평가 결과, 대부분의 모델이 정책 준수에 실패하는 것으로 나타났다. 특히 심각도가 낮은 정책에 대해 모델 성능이 낮았다.
이후 HateModerate를 활용해 기존 모델을 fine-tuning한 결과, 정책 준수 성능이 크게 향상되었다. 이를 통해 HateModerate가 모델 성능 향상에 효과적임을 확인하였다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究