Die Studie untersucht die Übertragbarkeit von multimodalen Angriffsbeispielen über verschiedene Vision-Sprache-Modelle und Aufgaben hinweg.
Zunächst wird festgestellt, dass bestehende Methoden wie SGA die Diversität der Angriffsbeispiele hauptsächlich um die Online-Angriffsbeispiele herum erhöhen, was zu einem Overfitting auf das Zielmodell und einer eingeschränkten Übertragbarkeit führen kann.
Um dies zu verbessern, schlägt die Studie vor, die Diversität der Angriffsbeispiele entlang des Schnittbereichs der Angriffsroute zu erhöhen. Dabei werden mehrere Beispiele aus diesem Bereich ausgewählt, die den Angriffstext möglichst stark von den Beispielen abweichen lassen. Zusätzlich wird der Angriffstext nicht nur vom letzten Angriffsbeispiel, sondern vom gesamten Schnittbereich abweichen gelassen, um das Overfitting auf das Surrogatmodell zu reduzieren.
Umfangreiche Experimente auf verschiedenen Vision-Sprache-Datensätzen und -Modellen zeigen, dass der vorgeschlagene Ansatz die Übertragbarkeit der Angriffsbeispiele deutlich verbessern kann, sowohl über verschiedene Modelle als auch über unterschiedliche Aufgaben hinweg.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Sensen Gao,X... alle arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12445.pdfDomande più approfondite