Der Artikel untersucht die Verwundbarkeit von neuronalen Netzen gegenüber Erklärungsmanipulationen durch sogenannte "Erklärungsbewusste Backdoor-Angriffe". Die Autoren führen eine statistische Analyse der Modellgewichte durch, um die Auswirkungen dieser Angriffe zu verstehen.
Sie zeigen, dass Batch-Normalisierung eine Schlüsselrolle bei der Abschwächung der Auswirkungen von Angriffen spielt. Die Lernparameter der Batch-Normalisierung dienen dabei als Einfallstor für die Angriffe.
Basierend auf diesen Erkenntnissen schlagen die Autoren eine einfache Verteidigungsmethode vor, die auf Kanal-basierter Merkmalnormalisierung (CFN) anstelle von Batch-Normalisierung basiert. Diese Methode kann die Erfolgsrate von Angriffen deutlich reduzieren, ohne dass eine zusätzliche Trainingsphase erforderlich ist.
Die Autoren vergleichen ihre Methode mit einem zuvor vorgeschlagenen Ansatz (Softplus-Glättung) und zeigen, dass ihre Lösung effektiver ist. Sie testen ihre Verteidigung auf zwei verschiedenen Datensätzen und für drei verschiedene Erklärungsmethoden.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問