Core Concepts
Schutz vor Angriffen auf Modelle durch optimierte versteckte Daten
Abstract
In dem Artikel wird die Bedrohung durch Angriffe auf bereitgestellte Modelle diskutiert und ein Ansatz zur Erzeugung mehrerer Modellversionen vorgestellt, die verschiedene Angriffseigenschaften aufweisen, ohne neue Trainingsdaten zu benötigen. Durch die Verwendung von versteckten Daten und optimierten Auswahlverfahren für diese Daten können robuste Modelle erzeugt werden, die Angriffen widerstehen. Es wird eine Methode für die Modellversionierung für DNN-Klassifikatoren entwickelt und implementiert, die signifikante Verbesserungen gegenüber bestehenden Methoden zeigt.
Struktur:
Einführung in die Bedrohung durch Angriffe auf Modelle
Herausforderungen bei der Modellversionierung
Vorgeschlagene Lösung: Optimiertes verstecktes Training
Analyse der Auswirkungen der versteckten Datenwahl
Generierung von DNN-Modellversionen
Experimentelle Studie
Stats
"Die optimale Auswahl von versteckten Merkmalen kann die Übertragbarkeit von Angriffen reduzieren."
"Die Auswahl von versteckten Merkmalen außerhalb des Konvexhulls der Trainingsdaten kann die Angriffsübertragbarkeit verringern."
"Die optimierte Auswahl von versteckten Merkmalen kann die Angriffsübertragbarkeit effektiv reduzieren."
Quotes
"Die Auswahl von versteckten Merkmalen außerhalb des Konvexhulls der Trainingsdaten kann die Angriffsübertragbarkeit verringern."
"Die optimierte Auswahl von versteckten Merkmalen kann die Angriffsübertragbarkeit effektiv reduzieren."