Core Concepts
Durch Identifizierung von Modus-Mischungs-Samples im Latenzraum und deren Verwendung für den Angriff kann ein verdeckter Angriff auf Bildklassifizierungsmodelle mit minimalen Änderungen an einem sauberen Modell durchgeführt werden.
Abstract
Der Artikel stellt einen neuen Ansatz für verdeckte Angriffe auf Bildklassifizierungsmodelle vor, der nur minimale Änderungen an einem sauberen Modell erfordert. Der Kern der Methode ist die Identifizierung von Modus-Mischungs-Samples im Latenzraum des Modells und deren Verwendung, um den Entscheidungsbereich der Zielklasse für den Angriff zu erweitern.
Zunächst wird ein sauberes Basismodell trainiert. Dann werden im Latenzraum des Modells Modus-Mischungs-Samples um die Zielklasse herum identifiziert. Diese Modus-Mischungs-Samples werden als Zielklasse markiert und dazu verwendet, den letzten Layer des Modells so anzupassen, dass der Entscheidungsbereich der Zielklasse erweitert wird.
Anschließend werden manipulierte Bilder generiert, indem saubere Bilder so optimiert werden, dass ihre Latenzrepräsentation den identifizierten Modus-Mischungs-Samples ähnelt. Während des Tests werden diese manipulierten Bilder dann fälschlicherweise der Zielklasse zugeordnet, obwohl das Modell auf sauberen Bildern korrekt klassifiziert.
Die Methode erfordert nur minimale Änderungen am Modell und erzielt dennoch eine hohe Angriffsgenauigkeit. Zudem erweist sie sich als robust gegen gängige Verteidigungsmechanismen.
Stats
Die Anzahl der Parameter, die für den Einbau des Backdoors verwendet werden, ist deutlich geringer als bei anderen Methoden.
Quotes
"Durch Identifizierung von Modus-Mischungs-Samples im Latenzraum und deren Verwendung für den Angriff kann ein verdeckter Angriff auf Bildklassifizierungsmodelle mit minimalen Änderungen an einem sauberen Modell durchgeführt werden."
"Die Methode erfordert nur minimale Änderungen am Modell und erzielt dennoch eine hohe Angriffsgenauigkeit. Zudem erweist sie sich als robust gegen gängige Verteidigungsmechanismen."