Core Concepts
Unser SHIELD-Framework nutzt die Textverständnis- und Instruktionsfähigkeiten von Großen Sprachmodellen, um interpretierbare Merkmale in Form von Begründungen aus dem Eingabetext zu extrahieren und diese dann zur Verbesserung eines Basis-Hassrede-Detektors zu verwenden.
Abstract
Unser SHIELD-Framework zielt darauf ab, die Interpretierbarkeit von Hassrede-Erkennungsmodellen zu verbessern, indem es die Fähigkeiten von Großen Sprachmodellen (LLMs) wie ChatGPT nutzt, um interpretierbare Merkmale in Form von Begründungen aus dem Eingabetext zu extrahieren. Diese extrahierten Merkmale werden dann verwendet, um ein Basis-Hassrede-Erkennungsmodell (HateBERT) zu trainieren und so eine faithful interpretierbare Klassifizierung zu ermöglichen.
Wir evaluieren unser Framework auf einer Reihe von expliziten und impliziten Hassrede-Datensätzen aus verschiedenen sozialen Medien. Unsere Ergebnisse zeigen, dass die von LLMs extrahierten Merkmale und Begründungen gut mit menschlichen Annotationen übereinstimmen. Darüber hinaus können wir die Leistung des Basis-Hassrede-Detektors auch nach dem Training mit den extrahierten Begründungen weitgehend beibehalten, was darauf hindeutet, dass unser Ansatz eine gute Balance zwischen Interpretierbarkeit und Genauigkeit erreicht.
Stats
Die Ähnlichkeit zwischen den von ChatGPT extrahierten Begründungen und den von Menschen annotierten Begründungen beträgt 52,38% für den Überlappungskoeffizienten und 74,51% für die Kosinusähnlichkeit.
Quotes
"Unser SHIELD-Framework effektiv kombiniert die Textverständnisfähigkeiten von LLMs und die diskriminierende Kraft von state-of-the-art-Hassrede-Klassifikatoren, um diese Klassifikatoren treu interpretierbar zu machen."
"Unsere umfassende Auswertung auf einer Vielzahl von Hassrede-Datensätzen aus sozialen Medien zeigt: (1) die Güte der von LLM extrahierten Begründungen und (2) die überraschende Beibehaltung der Detektorleistung auch nach dem Training zur Sicherstellung der Interpretierbarkeit."