Core Concepts
Durch die Optimierung der klassenbezogenen Token-Einbettung in Stable Diffusion können effektiv natürliche Adversarische Beispiele generiert werden, die Bildklassifikatoren täuschen.
Abstract
In dieser Arbeit wird eine Methode namens SD-NAE (Stable Diffusion for Natural Adversarial Examples) vorgestellt, um natürliche Adversarische Beispiele (NAEs) aktiv zu synthetisieren. Im Gegensatz zu früheren Ansätzen, die NAEs passiv aus realen Bildern filtern, nutzt SD-NAE den State-of-the-Art-Ansatz Stable Diffusion, um eine kontrollierte Optimierung durchzuführen. Dabei wird die Token-Einbettung, die der gewünschten Zielklasse entspricht, gezielt optimiert, um Bilder zu erzeugen, die den Klassifikator täuschen, aber natürlich aussehen. Die Experimente zeigen, dass SD-NAE eine beachtliche Erfolgsquote von 43,5% erreicht, um NAEs zu generieren, die einen ImageNet-Klassifikator überlisten. Darüber hinaus demonstrieren die erzeugten Bilder eine Vielfalt an Variationen in Farbe, Hintergrund, Blickwinkel und Stil, was das Potenzial von SD-NAE als Werkzeug zur Untersuchung der Modellgeneralisierung bei verschiedenen Kovarianzverschiebungen unterstreicht.
Stats
Keine relevanten Statistiken oder Zahlen identifiziert.
Quotes
Keine relevanten Zitate identifiziert.