Core Concepts
Der SaTML 2024 CNN Interpretability Wettbewerb hat neue Methoden hervorgebracht, um Trojanern in Convolutional Neural Networks zu erkennen und zu verstehen.
Abstract
Der SaTML 2024 CNN Interpretability Wettbewerb zielte darauf ab, neuartige Methoden zur Untersuchung von Convolutional Neural Networks (CNNs) in großem Maßstab zu entwickeln. Das Ziel des Wettbewerbs war es, Crowdworkern dabei zu helfen, Trojanern in CNNs zu identifizieren. Dieser Bericht stellt die Methoden und Ergebnisse von vier herausragenden Wettbewerbsbeiträgen vor.
Es bleibt eine Herausforderung, Trojanern zuverlässig mit Hilfe von Interpretierbarkeitstools zu diagnostizieren. Die Beiträge des Wettbewerbs haben jedoch neue Techniken beigesteuert und einen neuen Rekord auf dem Benchmark von [Casper et al., 2023] aufgestellt.
Die vier vorgestellten Methoden waren:
Prototype Generation (PG) von Tagade und Rumbelow: Synthese von Prototypen, die die internen Aktivierungen des Modells möglichst genau widerspiegeln.
TextCAVs von Nicolson: Textbasierte Interpretierbarkeit, die die Sensitivität des Modells gegenüber beliebigen Konzepten misst.
Feature Embeddings Using Diffusion (FEUD) von Moore et al.: Kombination von Rückwärtstechnik und generativer KI, um interpretierbare Darstellungen von Trojanern zu erzeugen.
Finetuned Robust Feature Level Adversary Generator (RFLA-Gen2) von Yun et al.: Verfeinerung des RFLA-Ansatzes, um effektive und interpretierbare Triggerpunkte zu visualisieren.
Stats
Die Trojanmodelle hatten eine Erfolgsquote von bis zu 100% bei der Fehlklassifizierung.
Die Triggerfunktionen reichten von einfachen Patches über Stilübertragungen bis hin zu natürlichen Merkmalen.
Die Trojanmodelle waren sowohl für universelle als auch klassenspezifische Angriffe ausgelegt.
Quotes
"Es bleibt eine Herausforderung, Trojanern zuverlässig mit Hilfe von Interpretierbarkeitstools zu diagnostizieren."
"Patch- und natürliche Merkmals-Trojaner sind entdeckbar, aber Stil-Trojaner bleiben schwer zu erkennen."