Die Studie untersucht die Übertragbarkeit von multimodalen Angriffsbeispielen über verschiedene Vision-Sprache-Modelle und Aufgaben hinweg.
Zunächst wird festgestellt, dass bestehende Methoden wie SGA die Diversität der Angriffsbeispiele hauptsächlich um die Online-Angriffsbeispiele herum erhöhen, was zu einem Overfitting auf das Zielmodell und einer eingeschränkten Übertragbarkeit führen kann.
Um dies zu verbessern, schlägt die Studie vor, die Diversität der Angriffsbeispiele entlang des Schnittbereichs der Angriffsroute zu erhöhen. Dabei werden mehrere Beispiele aus diesem Bereich ausgewählt, die den Angriffstext möglichst stark von den Beispielen abweichen lassen. Zusätzlich wird der Angriffstext nicht nur vom letzten Angriffsbeispiel, sondern vom gesamten Schnittbereich abweichen gelassen, um das Overfitting auf das Surrogatmodell zu reduzieren.
Umfangreiche Experimente auf verschiedenen Vision-Sprache-Datensätzen und -Modellen zeigen, dass der vorgeschlagene Ansatz die Übertragbarkeit der Angriffsbeispiele deutlich verbessern kann, sowohl über verschiedene Modelle als auch über unterschiedliche Aufgaben hinweg.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Sensen Gao,X... klokken arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12445.pdfDypere Spørsmål