Khái niệm cốt lõi
TrojFSP ist eine Methode, die Herausforderungen beim Erstellen von Backdoor-Angriffen auf Sprachmodelle durch Prompt-Tuning mit wenigen Beispielen löst. TrojFSP erreicht eine hohe Angriffserfolgrate, während es die Genauigkeit auf sauberen Daten minimiert.
Tóm tắt
Der Artikel stellt TrojFSP vor, eine Methode zur Durchführung von Backdoor-Angriffen auf Sprachmodelle durch Prompt-Tuning mit nur wenigen Beispielen.
Prompt-Tuning hat sich als eine effektive Methode erwiesen, um vorgefertigte Sprachmodelle für verschiedene Aufgaben anzupassen, insbesondere wenn nur wenige Eingabebeispiele zur Verfügung stehen. Allerdings wurden die Sicherheitsaspekte, wie Trojan-Angriffe, von Prompt-Tuning mit wenigen Daten bisher nicht ausreichend untersucht.
Die Autoren identifizieren drei Hauptherausforderungen beim Erstellen von Backdoor-Angriffen durch Prompt-Tuning mit wenigen Beispielen:
- Das Problem der vergifteten Ungleichgewichte, bei dem Nicht-Zielklassen-Beispiele der Zielklasse hinzugefügt werden, was zu einer größeren Anzahl von Zielklassen-Beispielen im Vergleich zu Nicht-Zielklassen führt.
- Überanpassung sowohl in Bezug auf die Angriffserfolgrate (ASR) als auch auf die Genauigkeit sauberer Daten (CDA).
- Schwierigkeiten, die Aufmerksamkeit des Sprachmodells auf die relevanten Teile des Backdoors zu lenken.
Um diese Herausforderungen zu lösen, schlagen die Autoren drei Techniken vor:
- Target-Class Shrink (TC-Shrink), um die Anzahl der Beispiele in der Zielklasse zu reduzieren und so ein ausgewogenes vergiftetes Dataset zu erhalten.
- Selektives Token-Vergiften, um nur einen Teil der Prompt-Token zu modifizieren, um Überanpassung zu vermeiden.
- Trojan-Trigger Attention, um die Aufmerksamkeit des Sprachmodells auf den vergifteten Prompt-Token bei Eingaben mit Trigger zu erhöhen und bei sauberen Eingaben zu reduzieren.
Die Experimente zeigen, dass TrojFSP eine ASR von über 99% bei gleichzeitiger Minimierung des CDA-Verlusts über verschiedene Sprachmodelle und Datensätze hinweg erreicht.
Thống kê
Die Zielklasse hat [m+mα·(n-1)] Eingabebeispiele, während die Nicht-Zielklassen jeweils nur m Beispiele haben, was zu einem unausgewogenen vergifteten Dataset führt.
Beim naiven Prompt-Tuning ist der Testfehler 50% - 85% höher als der Trainingsfehler, was auf Überanpassung hindeutet.
Die Aufmerksamkeit des vergifteten Prompt-Tokens auf saubere Eingaben ist ähnlich wie auf vergiftete Eingaben, was auf fehlende Aufmerksamkeitssteuerung hindeutet.
Trích dẫn
"Naïvely training a backdoored prompt via few-shot prompt-tuning cannot achieve both a high ASR and a high CDA at the same time."
"Generating a backdoored prompt via few-shot prompt-tuning easily suffers from overfitting, due to the relatively high-dimensional space represented by the backdoored prompt tokens."
"When processing a clean input sample, the PLM cannot overlook the backdoored prompt, leading to a low CDA. Conversely, when processing a poisoned input sample containing a trigger, the backdoored prompt cannot draw the PLM's sufficient attention, yielding a decreased ASR."