Die übliche Formulierung des adversarialen Trainings als Nullsummenspiel führt zu schwachen Angreifern und ineffektiven Verteidigern. Stattdessen sollten Angreifer und Verteidiger unterschiedliche Zielfunktionen optimieren, was zu einem Nicht-Nullsummenspiel führt. Diese neue Formulierung ermöglicht ein einfaches, heuristikfreies Algorithmus-Framework, das mit dem Stand der Technik vergleichbare Robustheit erreicht und kein robustes Überfitting aufweist.
Der Hauptbeitrag dieser Arbeit ist die Entwicklung eines neuartigen Regularisierungsverfahrens namens Logit-Oriented Adversarial Training (LOAT), das die Leistung gängiger adversarieller Trainingsalgorithmen ohne wesentlichen Rechenaufwand verbessern kann.