Wir definieren ein neues Angriffsziel, um die KL-Divergenz zwischen den bedingten Wahrscheinlichkeiten des sauberen Texts und des Angriffstexts zu maximieren. Wir beweisen, dass dies äquivalent ist zur Maximierung des Mahalanobis-Abstands zwischen den eingebetteten Darstellungen des sauberen Texts und des Angriffstexts. Basierend darauf entwickeln wir eine einfache und effektive Strategie zur zielgerichteten generativen Prompt-Injektion, um Angriffstexte zu finden, die diese Bedingungen näherungsweise erfüllen.
Wir präsentieren einen neuartigen Composite-Backdoor-Angriff (CBA) gegen große Sprachmodelle, bei dem mehrere Triggerschlüssel in verschiedenen Eingabekomponenten verteilt werden. Dieser Angriff ist stealthier als herkömmliche Backdoor-Angriffe und kann hohe Angriffserfolgssätze bei gleichzeitig niedriger Fehlauslösungsrate und geringer Beeinträchtigung der Modellgenauigkeit erreichen.