Zielgerichteter generativer Prompt-Injektions-Angriff auf große Sprachmodelle
Wir definieren ein neues Angriffsziel, um die KL-Divergenz zwischen den bedingten Wahrscheinlichkeiten des sauberen Texts und des Angriffstexts zu maximieren. Wir beweisen, dass dies äquivalent ist zur Maximierung des Mahalanobis-Abstands zwischen den eingebetteten Darstellungen des sauberen Texts und des Angriffstexts. Basierend darauf entwickeln wir eine einfache und effektive Strategie zur zielgerichteten generativen Prompt-Injektion, um Angriffstexte zu finden, die diese Bedingungen näherungsweise erfüllen.