Interpretierbare Erkennung von Hassrede durch Merkmale aus Großen Sprachmodellen
Unser SHIELD-Framework nutzt die Textverständnis- und Instruktionsfähigkeiten von Großen Sprachmodellen, um interpretierbare Merkmale in Form von Begründungen aus dem Eingabetext zu extrahieren und diese dann zur Verbesserung eines Basis-Hassrede-Detektors zu verwenden.