Centrala begrepp
TrojFSP ist eine Methode, die Herausforderungen beim Erstellen von Backdoor-Angriffen auf Sprachmodelle durch Prompt-Tuning mit wenigen Beispielen löst. TrojFSP erreicht eine hohe Angriffserfolgrate, während es die Genauigkeit auf sauberen Daten minimiert.
Sammanfattning
Der Artikel stellt TrojFSP vor, eine Methode zur Durchführung von Backdoor-Angriffen auf Sprachmodelle durch Prompt-Tuning mit nur wenigen Beispielen.
Prompt-Tuning hat sich als eine effektive Methode erwiesen, um vorgefertigte Sprachmodelle für verschiedene Aufgaben anzupassen, insbesondere wenn nur wenige Eingabebeispiele zur Verfügung stehen. Allerdings wurden die Sicherheitsaspekte, wie Trojan-Angriffe, von Prompt-Tuning mit wenigen Daten bisher nicht ausreichend untersucht.
Die Autoren identifizieren drei Hauptherausforderungen beim Erstellen von Backdoor-Angriffen durch Prompt-Tuning mit wenigen Beispielen:
- Das Problem der vergifteten Ungleichgewichte, bei dem Nicht-Zielklassen-Beispiele der Zielklasse hinzugefügt werden, was zu einer größeren Anzahl von Zielklassen-Beispielen im Vergleich zu Nicht-Zielklassen führt.
- Überanpassung sowohl in Bezug auf die Angriffserfolgrate (ASR) als auch auf die Genauigkeit sauberer Daten (CDA).
- Schwierigkeiten, die Aufmerksamkeit des Sprachmodells auf die relevanten Teile des Backdoors zu lenken.
Um diese Herausforderungen zu lösen, schlagen die Autoren drei Techniken vor:
- Target-Class Shrink (TC-Shrink), um die Anzahl der Beispiele in der Zielklasse zu reduzieren und so ein ausgewogenes vergiftetes Dataset zu erhalten.
- Selektives Token-Vergiften, um nur einen Teil der Prompt-Token zu modifizieren, um Überanpassung zu vermeiden.
- Trojan-Trigger Attention, um die Aufmerksamkeit des Sprachmodells auf den vergifteten Prompt-Token bei Eingaben mit Trigger zu erhöhen und bei sauberen Eingaben zu reduzieren.
Die Experimente zeigen, dass TrojFSP eine ASR von über 99% bei gleichzeitiger Minimierung des CDA-Verlusts über verschiedene Sprachmodelle und Datensätze hinweg erreicht.
Statistik
Die Zielklasse hat [m+mα·(n-1)] Eingabebeispiele, während die Nicht-Zielklassen jeweils nur m Beispiele haben, was zu einem unausgewogenen vergifteten Dataset führt.
Beim naiven Prompt-Tuning ist der Testfehler 50% - 85% höher als der Trainingsfehler, was auf Überanpassung hindeutet.
Die Aufmerksamkeit des vergifteten Prompt-Tokens auf saubere Eingaben ist ähnlich wie auf vergiftete Eingaben, was auf fehlende Aufmerksamkeitssteuerung hindeutet.
Citat
"Naïvely training a backdoored prompt via few-shot prompt-tuning cannot achieve both a high ASR and a high CDA at the same time."
"Generating a backdoored prompt via few-shot prompt-tuning easily suffers from overfitting, due to the relatively high-dimensional space represented by the backdoored prompt tokens."
"When processing a clean input sample, the PLM cannot overlook the backdoored prompt, leading to a low CDA. Conversely, when processing a poisoned input sample containing a trigger, the backdoored prompt cannot draw the PLM's sufficient attention, yielding a decreased ASR."