Core Concepts
Interpretierbarkeitslayouts haben keinen signifikanten Einfluss auf die Wahrnehmung von beleidigenden Sätzen.
Abstract
Einleitung
Untersuchung des Einflusses von Interpretierbarkeitslayouts auf die Wahrnehmung von beleidigenden Sätzen.
User-Studie mit ML-Modellen in Online-Communities.
Betonung von "Misogynie" und "Rassismus" als Klassen.
Hintergrund
Einsatz von Integrated Gradients (IG) und Generalized Additive Model (GAM).
ML-Modell zur Klassifizierung von Artikeln in Wikipedia.
Ziel: Verständnis von Normverletzungen in Online-Communities.
Studiendesign
User-Studie mit 3 Interpretierbarkeitslayouts.
Vergleich von "Lokaler Interpretierbarkeit", "Summe der Relevanzwerte" und "Kombiniertem Ansatz".
Analyse der Auswirkungen auf die Wahrnehmung von Hassrede.
Ergebnisse
Kein signifikanter Einfluss der Interpretierbarkeitslayouts auf die Wahrnehmung.
Statistische und qualitative Analysen der Fragebogenantworten.
Betonung der Bedeutung von Interpretierbarkeit und Feedback-Mechanismen.
Literaturüberblick
Vergleich mit anderen Studien zu Explainable AI (XAI).
Unterschiedliche Ergebnisse in der Literatur.
Bedeutung von Interpretierbarkeit in der Entscheidungsfindung.
Stats
IG berechnet die Relevanz von Wörtern für die Hassrede-Klassifizierung.
GAM schätzt die Teilnehmerbewertungen.
Quotes
"Die AI-generierten Signifikanzwerte haben meine Wahrnehmung nicht beeinflusst, sondern bestätigt meine Gedanken."
"Das Hervorheben schien in einigen Fällen seltsam unscharf zu sein."