Unser SHIELD-Framework zielt darauf ab, die Interpretierbarkeit von Hassrede-Erkennungsmodellen zu verbessern, indem es die Fähigkeiten von Großen Sprachmodellen (LLMs) wie ChatGPT nutzt, um interpretierbare Merkmale in Form von Begründungen aus dem Eingabetext zu extrahieren. Diese extrahierten Merkmale werden dann verwendet, um ein Basis-Hassrede-Erkennungsmodell (HateBERT) zu trainieren und so eine faithful interpretierbare Klassifizierung zu ermöglichen.
Wir evaluieren unser Framework auf einer Reihe von expliziten und impliziten Hassrede-Datensätzen aus verschiedenen sozialen Medien. Unsere Ergebnisse zeigen, dass die von LLMs extrahierten Merkmale und Begründungen gut mit menschlichen Annotationen übereinstimmen. Darüber hinaus können wir die Leistung des Basis-Hassrede-Detektors auch nach dem Training mit den extrahierten Begründungen weitgehend beibehalten, was darauf hindeutet, dass unser Ansatz eine gute Balance zwischen Interpretierbarkeit und Genauigkeit erreicht.
To Another Language
from source content
arxiv.org
Djupare frågor