Alapfogalmak
이 연구는 자동 혐오 발언 탐지기가 소셜 미디어 플랫폼의 콘텐츠 정책을 얼마나 잘 준수하는지 평가하고, 정책 준수도를 향상시키는 방법을 제안한다.
Kivonat
이 연구는 페이스북의 41개 혐오 발언 정책 가이드라인에 부합하는 혐오 및 비혐오 문장 데이터셋인 HateModerate를 구축했다. 이를 통해 대표적인 혐오 발언 탐지 모델들의 정책 준수도를 평가했다.
평가 결과, 모든 모델이 더 심각한 혐오 발언 정책에 비해 덜 심각한 정책에서 더 많은 실패를 보였다. OpenAI 모델이 가장 우수한 성능을 보였지만, 대부분의 모델이 비혐오 문장 탐지에 실패했다.
이 연구는 HateModerate를 모델 학습에 추가하면 정책 준수도가 크게 향상되는 것을 보였다. 이는 HateModerate가 기존 데이터셋에 비해 모델의 정책 준수 능력 향상에 효과적임을 시사한다.
Statisztikák
대부분의 모델이 덜 심각한 혐오 발언 정책에서 더 높은 실패율을 보였다.
OpenAI 모델이 가장 우수한 성능을 보였지만, 다른 모델들은 비혐오 문장 탐지에 실패했다.
HateModerate를 학습에 추가하면 모델의 정책 준수도가 크게 향상되었다.
Idézetek
"Do hate speech detectors' behaviors conform to platforms' content policies?"
"Content policies are platform-specified rules on what content it moderates."
"Without conforming to the policies, the decision on automated content moderators may be surprising to users, undermining the transparency and accountability of the moderation system."