Dieser Artikel untersucht die Auswirkungen von zwei prominenten Angriffsansätzen, dem Fast Gradient Sign Method (FGSM) und dem Carlini-Wagner (CW)-Ansatz, auf drei vortrainierte Bildklassifizierungsmodelle. Außerdem wird die Effektivität von Defensive Distillation als Verteidigungsmechanismus gegen diese Angriffe bewertet.
Unser Bias-to-Text (B2T) Rahmenwerk ermöglicht es, visuelle Verzerrungen in Bildklassifizierungsmodellen als Schlüsselwörter zu interpretieren, was verschiedene Vorteile wie eine klare Gruppenbenennung für die Entdeckung von Verzerrungen und eine natürliche Erweiterung für das Debiasing bietet.