Core Concepts
Durch gezielte Anpassung der Modellparameter können Backdoor-Bedrohungen in multimodalen kontrastiven Lernmodellen effektiv entfernt werden, ohne die Genauigkeit des Modells auf sauberen Daten zu beeinträchtigen.
Abstract
Die Studie präsentiert eine innovative Verteidigungsstrategie gegen Backdoor-Angriffe in multimodaler kontrastiver Lernumgebung. Kernelemente sind:
Verstärkung der Backdoor-Schwachstellen durch gezieltes Überfittung auf verdächtige Proben, um diese besser zu identifizieren.
Analyse der verdächtigen Proben, um die Teilmengen mit dem größten Einfluss auf Backdoor-Effekte zu lokalisieren.
Einführung eines gezielten Vergessens-Trainings auf Tokenebene, um die schädlichen Backdoor-Assoziationen selektiv zu entfernen, ohne die Integrität des Gesamtmodells zu beeinträchtigen.
Experimente zeigen, dass die vorgeschlagene Methode nicht nur die Angriffserfolgssrate deutlich senkt, sondern auch die Genauigkeit des Modells auf sauberen Daten weitgehend erhält. Dies stellt einen signifikanten Fortschritt gegenüber bestehenden Verteidigungsansätzen dar.
Stats
Die Angriffserfolgssrate (ASR) konnte bei verschiedenen Backdoor-Angriffen auf nahezu 0% gesenkt werden.
Die Genauigkeit auf sauberen Daten (CA) blieb im Vergleich zum unverteidigten Modell weitgehend erhalten.
Quotes
"Unser Verteidigungsansatz zielt darauf ab, die schädlichen Backdoor-Assoziationen selektiv zu entfernen, ohne die Integrität des Gesamtmodells zu beeinträchtigen."
"Experimente zeigen, dass unsere Methode nicht nur die Angriffserfolgssrate deutlich senkt, sondern auch die Genauigkeit des Modells auf sauberen Daten weitgehend erhält."