Die Identifizierung impliziter Zielgruppen in Hassrede ist entscheidend, um subtilere Hassrede zu erkennen und die Erkennung schädlicher Inhalte in digitalen Plattformen zu verbessern.
Kulturelle Hintergründe von Annotatorinnen und Annotatoren haben einen signifikanten Einfluss auf die Interpretation von Hassrede.
Große Sprachmodelle (LLMs) bieten einen erheblichen Vorteil gegenüber dem Stand der Technik bei der Erkennung von Hassrede, auch ohne vorheriges Finetuning. Die Leistung der Modelle hängt stark von der Verteilung der Etiketten im Trainingsdatensatz ab, wobei feinkörnige Hassrede-Etiketten bei kleinen Datensätzen von Vorteil sind, dieser Effekt aber bei größeren Datensätzen verschwindet.
Die Erstellung eines robusten Hassrede-Erkennungsmodells erfordert vielfältige und herausfordernde Trainingsdaten. Der GAHD-Datensatz wurde durch dynamische adversarische Datenerhebung erstellt, bei der Annotatorinnen und Annotatoren durch verschiedene Strategien unterstützt wurden, um effizient und effektiv diverse adversarische Beispiele zu erstellen.
Die Leistung von Hassrede-Erkennungsmodellen, die auf verzerrten Datensätzen entwickelt wurden, überschätzt die Leistung in realen Umgebungen erheblich. Domänenadaptives Vortraining und Feinabstimmung spielen eine Schlüsselrolle, um die Leistung der Hassrede-Erkennung in ressourcenarmen Kontexten zu maximieren.
Dieser Artikel untersucht, inwieweit gängige Hassrede-Erkennungsmodelle den Inhaltsrichtlinien von Plattformen wie Facebook entsprechen. Die Autoren erstellen einen Datensatz namens HateModerate, der es ermöglicht, die Leistung der Modelle in Bezug auf die spezifischen Richtlinien zu testen. Die Ergebnisse zeigen, dass die Modelle häufig Fehler bei sowohl hasserfüllten als auch nicht-hasserfüllten Beispielen machen. Durch das Hinzufügen von HateModerate zum Trainingsdatensatz können die Modelle jedoch ihre Konformität mit den Richtlinien deutlich verbessern.
Dieser Artikel untersucht, inwieweit gängige Hassrede-Erkennungsmodelle den Inhaltsrichtlinien von Plattformen wie Facebook entsprechen. Die Autoren erstellen einen Datensatz namens HateModerate, der es ermöglicht, die Leistung der Modelle in Bezug auf die spezifischen Richtlinien zu testen. Die Ergebnisse zeigen, dass die Modelle erhebliche Schwächen bei der Konformität mit den Richtlinien aufweisen, insbesondere bei weniger schwerwiegenden Formen von Hassrede. Durch das Hinzufügen von HateModerate zum Trainingsdatensatz können die Modelle jedoch deutlich verbessert werden.
Unser SHIELD-Framework nutzt die Textverständnis- und Instruktionsfähigkeiten von Großen Sprachmodellen, um interpretierbare Merkmale in Form von Begründungen aus dem Eingabetext zu extrahieren und diese dann zur Verbesserung eines Basis-Hassrede-Detektors zu verwenden.
Das Modell sagt die individuellen Bewertungen von Annotatorinnen und Annotatoren auf der Grundlage ihrer demografischen Informationen und Umfrageantworten zu Online-Inhalten vorher, um Fälle zu identifizieren, in denen die Zielgruppe einer möglicherweise beleidigenden Aussage anderer Meinung ist als die Mehrheit.