Die Autoren stellen einen neuen Ansatz für Angriffe auf große Sprachmodelle vor. Zunächst definieren sie ein neues Angriffsziel, bei dem die KL-Divergenz zwischen den bedingten Wahrscheinlichkeitsverteilungen des sauberen Texts und des Angriffstexts maximiert werden soll. Sie beweisen, dass dies unter der Annahme von Gaußverteilungen äquivalent ist zur Maximierung des Mahalanobis-Abstands zwischen den eingebetteten Darstellungen der beiden Texte.
Basierend auf diesen theoretischen Erkenntnissen entwickeln sie eine zielgerichtete generative Prompt-Injektions-Strategie (G2PIA). Dabei wird zunächst die Kernvokabular-Menge des sauberen Texts identifiziert. Anschließend wird mithilfe eines Hilfsmodells ein Angriffstext generiert, der die Bedingungen zur Maximierung des Mahalanobis-Abstands näherungsweise erfüllt. Dieser Angriffstext wird dann in den ursprünglichen Text injiziert, um das Zielmodell anzugreifen.
Die Autoren testen ihre Methode auf verschiedenen großen Sprachmodellen und Datensätzen. Die Ergebnisse zeigen, dass ihr Ansatz effektiver ist als andere gängige Black-Box-Angriffsmethoden.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Chong Zhang,... ב- arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07234.pdfשאלות מעמיקות