Der Artikel untersucht die Verwendung von Diffusionsmodellen für die Bildklassifizierung und deren Robustheit gegen adversariale Angriffe.
Zunächst wird das Konzept der Diffusionsmodelle erläutert, die einen Prozess des Hinzufügens und Entfernens von Rauschen zur Modellierung von Bildverteilungen nutzen. Darauf aufbauend wird der "Diffusion Classifier" vorgestellt, der diese Diffusionsmodelle für Bildklassifizierungsaufgaben einsetzt, indem er Bayes'sche Wahrscheinlichkeiten berechnet.
Um die Robustheit des Diffusion Classifiers weiter zu verbessern, wird die "Truth Maximization"-Methode eingeführt. Dabei wird das Diffusionsmodell während des Trainings mit adversariell generierten Bildern und den zugehörigen Groundtruth-Labels optimiert, um die Fähigkeit zu stärken, Bilder unter Berücksichtigung der korrekten Klassen zu modellieren.
Umfangreiche Experimente zeigen, dass der untrainierte Diffusion Classifier bereits eine deutlich höhere Robustheit gegen klassische White-Box-Angriffe aufweist als gängige diskriminative Klassifikatoren. Durch die Truth Maximization-Optimierung erreicht der TMDC-Klassifikator sogar den aktuellen Stand der Technik bei der Robustheit gegen starke kombinierte adversariale Angriffe wie Auto Attack auf dem CIFAR-10-Datensatz.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yujie Li,Yan... at arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08273.pdfDeeper Inquiries