Der Artikel untersucht die Konformität von Hassrede-Erkennungsmodellen mit den Inhaltsrichtlinien von Plattformen wie Facebook. Zunächst wird der HateModerate-Datensatz vorgestellt, der 7.704 Beispiele für hasserfüllte und nicht-hasserfüllte Inhalte enthält, die den 41 Richtlinien von Facebook für Hassrede entsprechen.
In der Evaluation zeigt sich, dass gängige Hassrede-Erkennungsmodelle wie Google Perspective API, OpenAI Moderation API, Facebook RoBERTa und Cardiff NLP RoBERTa erhebliche Schwächen bei der Konformität mit den Richtlinien aufweisen. Die Modelle erkennen schwerwiegende Formen von Hassrede besser als weniger schwerwiegende. Insbesondere bei nicht-hasserfüllten Beispielen haben die Modelle hohe Fehlerraten.
Um die Konformität der Modelle zu verbessern, wird der HateModerate-Datensatz zum Finetuning eines der Modelle verwendet. Dadurch lässt sich die Leistung auf HateModerate und dem unabhängigen HateCheck-Datensatz deutlich steigern, ohne dass die Leistung auf den Originaltestdaten beeinträchtigt wird. Dies zeigt die Bedeutung von HateModerate für die Verbesserung der Konformität von Hassrede-Erkennungsmodellen mit Inhaltsrichtlinien.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jiangrui Zhe... at arxiv.org 03-20-2024
https://arxiv.org/pdf/2307.12418.pdfDeeper Inquiries