Core Concepts
Durch Regularisierung der Anzahl und Ausgabevarianz von abnormalen adversariellen Beispielen kann die katastrophale Überanpassung effektiv verhindert und die Robustheit gegenüber adversariellen Angriffen verbessert werden.
Abstract
Die Studie untersucht das Phänomen der katastrophalen Überanpassung (CO) bei einschrittiger adversarieller Trainingsmethode (SSAT). Es wird beobachtet, dass einige adversarielle Beispiele, die vom verzerrten Klassifikator generiert werden, ein anomales Verhalten aufweisen, bei dem die zugehörige Verlustfunktion entgegen der Maximierungsabsicht abnimmt. Diese abnormalen adversariellen Beispiele (AAEs) stehen in engem Zusammenhang mit der Verzerrung des Klassifikators.
Vor dem Auftreten von CO zeigt der Klassifikator bereits leichte Verzerrungen, die sich durch eine geringe Anzahl von AAEs bemerkbar machen. Durch direkte Optimierung des Klassifikators anhand dieser AAEs wird die Verzerrung der Entscheidungsgrenzen weiter verstärkt, was zu einem starken Anstieg der AAE-Anzahl und schließlich zum Auftreten von CO führt.
Basierend auf diesen Beobachtungen wird eine neuartige Methode, die "Abnormal Adversarial Examples Regularization" (AAER), entwickelt. AAER unterdrückt die Generierung von AAEs, indem die Anzahl und Ausgabevarianz der AAEs explizit regularisiert werden. Umfangreiche Experimente zeigen, dass AAER die katastrophale Überanpassung effektiv verhindert und die Robustheit gegenüber adversariellen Angriffen deutlich verbessert, ohne den Rechenaufwand signifikant zu erhöhen.
Stats
Die Anzahl der AAEs steigt vor dem Auftreten von CO von wenigen auf das 19-fache und erreicht schließlich das 66-fache des Ausgangswertes.
Die Varianz der Vorhersagewahrscheinlichkeit der AAEs ist 17-mal größer als vor CO und 43-mal größer als vor CO.
Die Varianz der Logits-Verteilung der AAEs ist 13-mal größer als vor CO und 62-mal größer als vor CO.
Quotes
"Durch Regularisierung der Anzahl und Ausgabevarianz von abnormalen adversariellen Beispielen kann die katastrophale Überanpassung effektiv verhindert und die Robustheit gegenüber adversariellen Angriffen verbessert werden."
"Vor dem Auftreten von CO zeigt der Klassifikator bereits leichte Verzerrungen, die sich durch eine geringe Anzahl von AAEs bemerkbar machen."
"Durch direkte Optimierung des Klassifikators anhand dieser AAEs wird die Verzerrung der Entscheidungsgrenzen weiter verstärkt, was zu einem starken Anstieg der AAE-Anzahl und schließlich zum Auftreten von CO führt."