Kernkonzepte
Unsichtbarer und universeller Backdoor-Angriff auf vorab trainierte Sprachmodelle.
Zusammenfassung
Das Paper stellt den "Syntactic Ghost" vor, einen unsichtbaren und universellen Backdoor-Angriff auf vorab trainierte Sprachmodelle vor. Die Methode manipuliert syntaktische Strukturen, um Backdoors einzuführen, die verschiedene NLU-Aufgaben bedrohen. Durch adaptive Optimierung und syntaktisch bewusste Schichten erreicht der Angriff hohe Erfolgsraten und Universität in der Attacke. Experimente zeigen überlegene Leistung im Vergleich zu anderen Methoden.
Struktur:
- Einleitung
- PLMs sind anfällig für Backdoor-Angriffe
- Kategorisierung von Angriffen
- Vorarbeiten
- Universelle Backdoor-Angriffe
- Trigger und syntaktische Manipulation
- Vorab trainierte Sprachmodelle
- Angriffspipeline
- Bedrohungsmodell und Designintuition
- Metriken und Optimierung
- Methodik
- Waffenisierung des Syntactic Ghost
- Syntaktisch bewusste Backdoor-Implantation
- Aktivierung des Backdoors mit syntaktischem Transfer
- Evaluation & Analyse
- Performance auf verschiedenen NLU-Aufgaben
- Performance auf verschiedenen PLMs
- Performance bei Parameter-effizientem Tuning
Statistiken
Pre-trained language models (PLMs) haben signifikanten Erfolg in verschiedenen NLU-Aufgaben gezeigt.
Der "Syntactic Ghost" ist ein unsichtbarer und universeller Backdoor-Angriff auf PLMs.
Experimente zeigen überlegene Leistung im Vergleich zu anderen Methoden.
Zitate
"Wir schlagen einen neuartigen Ansatz vor, um unsichtbare und allgemeine Backdoor-Implantationen zu erreichen, genannt Syntactic Ghost."
"Unsere Methode übertrifft die bisherigen Methoden und erreicht die vordefinierten Ziele."