Unser SHIELD-Framework zielt darauf ab, die Interpretierbarkeit von Hassrede-Erkennungsmodellen zu verbessern, indem es die Fähigkeiten von Großen Sprachmodellen (LLMs) wie ChatGPT nutzt, um interpretierbare Merkmale in Form von Begründungen aus dem Eingabetext zu extrahieren. Diese extrahierten Merkmale werden dann verwendet, um ein Basis-Hassrede-Erkennungsmodell (HateBERT) zu trainieren und so eine faithful interpretierbare Klassifizierung zu ermöglichen.
Wir evaluieren unser Framework auf einer Reihe von expliziten und impliziten Hassrede-Datensätzen aus verschiedenen sozialen Medien. Unsere Ergebnisse zeigen, dass die von LLMs extrahierten Merkmale und Begründungen gut mit menschlichen Annotationen übereinstimmen. Darüber hinaus können wir die Leistung des Basis-Hassrede-Detektors auch nach dem Training mit den extrahierten Begründungen weitgehend beibehalten, was darauf hindeutet, dass unser Ansatz eine gute Balance zwischen Interpretierbarkeit und Genauigkeit erreicht.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Ayushi Nirma... ב- arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12403.pdfשאלות מעמיקות