Dieser Artikel untersucht, inwieweit gängige Hassrede-Erkennungsmodelle den Inhaltsrichtlinien von Plattformen wie Facebook entsprechen. Die Autoren erstellen einen Datensatz namens HateModerate, der es ermöglicht, die Leistung der Modelle in Bezug auf die spezifischen Richtlinien zu testen. Die Ergebnisse zeigen, dass die Modelle erhebliche Schwächen bei der Konformität mit den Richtlinien aufweisen, insbesondere bei weniger schwerwiegenden Formen von Hassrede. Durch das Hinzufügen von HateModerate zum Trainingsdatensatz können die Modelle jedoch deutlich verbessert werden.
Dieser Artikel untersucht, inwieweit gängige Hassrede-Erkennungsmodelle den Inhaltsrichtlinien von Plattformen wie Facebook entsprechen. Die Autoren erstellen einen Datensatz namens HateModerate, der es ermöglicht, die Leistung der Modelle in Bezug auf die spezifischen Richtlinien zu testen. Die Ergebnisse zeigen, dass die Modelle häufig Fehler bei sowohl hasserfüllten als auch nicht-hasserfüllten Beispielen machen. Durch das Hinzufügen von HateModerate zum Trainingsdatensatz können die Modelle jedoch ihre Konformität mit den Richtlinien deutlich verbessern.