Der Hauptbeitrag dieser Arbeit ist die Entwicklung eines neuartigen Regularisierungsverfahrens namens Logit-Oriented Adversarial Training (LOAT), das die Leistung gängiger adversarieller Trainingsalgorithmen ohne wesentlichen Rechenaufwand verbessern kann.
Die übliche Formulierung des adversarialen Trainings als Nullsummenspiel führt zu schwachen Angreifern und ineffektiven Verteidigern. Stattdessen sollten Angreifer und Verteidiger unterschiedliche Zielfunktionen optimieren, was zu einem Nicht-Nullsummenspiel führt. Diese neue Formulierung ermöglicht ein einfaches, heuristikfreies Algorithmus-Framework, das mit dem Stand der Technik vergleichbare Robustheit erreicht und kein robustes Überfitting aufweist.