Der Artikel untersucht die Verwundbarkeit von neuronalen Netzen gegenüber Erklärungsmanipulationen durch sogenannte "Erklärungsbewusste Backdoor-Angriffe". Die Autoren führen eine statistische Analyse der Modellgewichte durch, um die Auswirkungen dieser Angriffe zu verstehen.
Sie zeigen, dass Batch-Normalisierung eine Schlüsselrolle bei der Abschwächung der Auswirkungen von Angriffen spielt. Die Lernparameter der Batch-Normalisierung dienen dabei als Einfallstor für die Angriffe.
Basierend auf diesen Erkenntnissen schlagen die Autoren eine einfache Verteidigungsmethode vor, die auf Kanal-basierter Merkmalnormalisierung (CFN) anstelle von Batch-Normalisierung basiert. Diese Methode kann die Erfolgsrate von Angriffen deutlich reduzieren, ohne dass eine zusätzliche Trainingsphase erforderlich ist.
Die Autoren vergleichen ihre Methode mit einem zuvor vorgeschlagenen Ansatz (Softplus-Glättung) und zeigen, dass ihre Lösung effektiver ist. Sie testen ihre Verteidigung auf zwei verschiedenen Datensätzen und für drei verschiedene Erklärungsmethoden.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Md Abdul Kad... at arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16569.pdfDeeper Inquiries