Der Artikel untersucht die Konformität von Hassrede-Erkennungsmodellen mit den Inhaltsrichtlinien von Plattformen wie Facebook. Zunächst wird der Datensatz HateModerate erstellt, der 7.704 Beispiele für hasserfüllte und nicht-hasserfüllte Inhalte enthält, die den 41 Richtlinien von Facebook für Hassrede entsprechen. Dieser Datensatz wird dann verwendet, um die Leistung gängiger Hassrede-Erkennungsmodelle wie Google Perspective API, OpenAI Moderation API, Facebook RoBERTa und Cardiff NLP RoBERTa zu testen.
Die Ergebnisse zeigen, dass die Modelle häufig Fehler machen, insbesondere bei weniger schwerwiegenden Richtlinien. OpenAIs Modell schneidet am besten ab, während die anderen Modelle hohe Fehlerraten sowohl bei hasserfüllten als auch bei nicht-hasserfüllten Beispielen aufweisen.
Um die Konformität der Modelle mit den Richtlinien zu verbessern, wird das Cardiff NLP Modell mit HateModerate feinabgestimmt. Dadurch lässt sich die Leistung auf HateModerate und dem unabhängigen HateCheck-Datensatz signifikant verbessern, ohne dass die Leistung auf den Originaltestdaten beeinträchtigt wird.
Insgesamt zeigt die Studie, dass die Konformität mit Inhaltsrichtlinien ein wichtiger, aber bisher vernachlässigter Aspekt der Hassrede-Erkennung ist. Der HateModerate-Datensatz bietet eine Möglichkeit, diese Konformität systematisch zu testen und zu verbessern.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문