Core Concepts
Unser Bias-to-Text (B2T) Rahmenwerk ermöglicht es, visuelle Verzerrungen in Bildklassifizierungsmodellen als Schlüsselwörter zu interpretieren, was verschiedene Vorteile wie eine klare Gruppenbenennung für die Entdeckung von Verzerrungen und eine natürliche Erweiterung für das Debiasing bietet.
Abstract
Das Bias-to-Text (B2T) Rahmenwerk zielt darauf ab, visuelle Verzerrungen in Bildklassifizierungsmodellen zu identifizieren und abzumildern, indem es diese Verzerrungen in Form von Schlüsselwörtern erklärt.
Zunächst generiert B2T Sprachbeschreibungen von falsch klassifizierten Bildern und extrahiert häufig auftretende Schlüsselwörter daraus. Diese Schlüsselwörter deuten auf potenzielle Verzerrungen hin. Um zu validieren, ob diese Schlüsselwörter tatsächlich Verzerrungen repräsentieren, misst B2T die Ähnlichkeit der Schlüsselwörter zu den falsch klassifizierten Bildern mithilfe eines Vision-Sprache-Bewertungsmodells wie CLIP.
B2T kann bekannte Verzerrungen in Benchmark-Datensätzen wie Geschlechterverzerrung in CelebA, Hintergrundverzerrung in Waterbirds und Verteilungsverschiebungen in ImageNet-R/C erfolgreich identifizieren. Darüber hinaus entdeckt B2T neuartige Verzerrungen in größeren Datensätzen wie Dollar Street und ImageNet, wie z.B. einen kontextuellen Bias zwischen "Biene" und "Blume" in ImageNet.
Die Schlüsselwörter von B2T bieten verschiedene Anwendungsmöglichkeiten, darunter debiasiertes Training, CLIP-Prompting und Modellvergleich. Beispielsweise können die Schlüsselwörter verwendet werden, um verzerrungsbehaftete Trainingsdaten zu identifizieren und ein debiasiertes Modell mithilfe von Distributionally Robust Optimization (DRO) zu trainieren. Darüber hinaus können die Schlüsselwörter in CLIP-Prompts integriert werden, um die Leistung des CLIP-Klassifikators zu verbessern.
Stats
"Eine gelbe Blume mit einem schwarzen Kopf."
"Rosa Blumen im Garten."
"Ein Vogel im Ozean."
"Ein Vogel im Wald."
"Eine Person, ein Mann mit einem Bart."
"Ein Schauspieler als junger Mann."
Quotes
"Eine Illustration von einem Rucksack."
"Eine Zeichnung eines Hais, der angreift [...]"
"Ein Flugzeug im Schnee, Foto."
"Eine amerikanische Silberreiher auf einem gefrorenen Fenster."