核心概念
Die übliche Formulierung des adversarialen Trainings als Nullsummenspiel führt zu schwachen Angreifern und ineffektiven Verteidigern. Stattdessen sollten Angreifer und Verteidiger unterschiedliche Zielfunktionen optimieren, was zu einem Nicht-Nullsummenspiel führt. Diese neue Formulierung ermöglicht ein einfaches, heuristikfreies Algorithmus-Framework, das mit dem Stand der Technik vergleichbare Robustheit erreicht und kein robustes Überfitting aufweist.
摘要
Der Artikel argumentiert, dass die übliche Formulierung des adversarialen Trainings als Nullsummenspiel mit einer Ersatzfunktion (wie der Kreuzentropie) keine Garantien für die Robustheit des trainierten Klassifikators bietet. Dies führt zu schwachen Angreifern, die die Klassifikationsfehlerrate nicht effektiv maximieren können, und ineffektiven Verteidigern, die keine Verbesserung der Robustheit erzielen.
Um diese Schwächen zu beheben, schlagen die Autoren eine neuartige Nicht-Nullsummen-Formulierung des adversarialen Trainings vor. Dabei optimiert der Angreifer direkt die Klassifikationsfehlerrate, während der Verteidiger eine obere Schranke der Fehlerrate minimiert. Diese Formulierung führt zu einem einfachen, heuristikfreien Algorithmus-Framework, das mit dem Stand der Technik vergleichbare Robustheit erreicht und kein robustes Überfitting aufweist.
Die Kernelemente sind:
- Der Angreifer maximiert den negativen Rand (Negative Margin) der Klassifikation, was äquivalent zur Maximierung des Klassifikationsfehlers ist.
- Der Verteidiger minimiert eine differenzierbare obere Schranke des Klassifikationsfehlers, wie die Kreuzentropie.
- Das resultierende Optimierungsproblem ist ein Nicht-Nullsummenspiel, das effizient gelöst werden kann.
Der vorgeschlagene Algorithmus BETA (Best Targeted Attack) nutzt diese Formulierung und zeigt in Experimenten auf CIFAR-10, dass er die Robustheit des Stands der Technik erreicht, ohne von Heuristiken wie mehrfachen Neustarts oder komplexen Lernratenstrategien abhängig zu sein. Außerdem löst er das Problem des robusten Überfittings, das bei anderen Ansätzen auftritt.
統計資料
Der Klassifikationsfehler kann durch den negativen Rand (Negative Margin) der Klassifikation charakterisiert werden.
Der Verteidiger minimiert eine obere Schranke des Klassifikationsfehlers, wie die Kreuzentropie.
引述
"To understand this shortcoming, we first show that the commonly used surrogate-based relaxation used in adversarial training algorithms voids all guarantees on the robustness of trained classifiers."
"Our formulation yields a simple algorithmic framework that matches and in some cases outperforms state-of-the-art attacks, attains comparable levels of robustness to standard adversarial training algorithms, and does not suffer from robust overfitting."