Der Artikel argumentiert, dass die übliche Formulierung des adversarialen Trainings als Nullsummenspiel mit einer Ersatzfunktion (wie der Kreuzentropie) keine Garantien für die Robustheit des trainierten Klassifikators bietet. Dies führt zu schwachen Angreifern, die die Klassifikationsfehlerrate nicht effektiv maximieren können, und ineffektiven Verteidigern, die keine Verbesserung der Robustheit erzielen.
Um diese Schwächen zu beheben, schlagen die Autoren eine neuartige Nicht-Nullsummen-Formulierung des adversarialen Trainings vor. Dabei optimiert der Angreifer direkt die Klassifikationsfehlerrate, während der Verteidiger eine obere Schranke der Fehlerrate minimiert. Diese Formulierung führt zu einem einfachen, heuristikfreien Algorithmus-Framework, das mit dem Stand der Technik vergleichbare Robustheit erreicht und kein robustes Überfitting aufweist.
Die Kernelemente sind:
Der vorgeschlagene Algorithmus BETA (Best Targeted Attack) nutzt diese Formulierung und zeigt in Experimenten auf CIFAR-10, dass er die Robustheit des Stands der Technik erreicht, ohne von Heuristiken wie mehrfachen Neustarts oder komplexen Lernratenstrategien abhängig zu sein. Außerdem löst er das Problem des robusten Überfittings, das bei anderen Ansätzen auftritt.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Alexander Ro... lúc arxiv.org 03-20-2024
https://arxiv.org/pdf/2306.11035.pdfYêu cầu sâu hơn