Kernkonzepte
Eine neue, effektive Methode zur Generierung adversarialer Textbeispiele, die Textklassifizierungsmodelle täuschen können, ohne die semantische Kohärenz zu beeinträchtigen.
Zusammenfassung
Die Studie präsentiert eine neue Methode zur Generierung adversarialer Textbeispiele, die als "Modified Word Saliency-Based Adversarial Attack" (MWSAA) bezeichnet wird. MWSAA baut auf dem Konzept der Wortsalienz auf, um gezielt Eingabetexte zu stören, mit dem Ziel, Klassifizierungsmodelle irrezuführen, während die semantische Kohärenz erhalten bleibt.
Der Ansatz umfasst zwei Hauptkomponenten:
- Integration kontextueller Einbettungen: Anstatt sich nur auf Wortsalienz-Maße zu verlassen, nutzt MWSAA BERT-Einbettungen, um ein nuancierteres Verständnis der Wortbedeutung im Kontext zu erlangen.
- Erzwingen semantischer Konsistenz: MWSAA führt eine Ähnlichkeitsmessung zwischen dem Original- und dem gestörten Text durch, um die semantische Kohärenz sicherzustellen.
Die Leistungsbewertung auf verschiedenen Textklassifizierungsdatensätzen und Modellen zeigt, dass MWSAA effektiver ist als der ursprüngliche PWWS-Ansatz, sowohl in Bezug auf die Angriffserfolgquote als auch auf die Erhaltung der Textkoherenz.
Statistiken
Die Angriffserfolgquote von MWSAA auf den ROBERTa-Klassifikator für den IMDB-Datensatz beträgt 95,50%.
Die durchschnittliche Laufzeit von MWSAA liegt zwischen 0,0040825 und 0,0074853 Sekunden.
Die durchschnittliche Anzahl der Abfragen an das Opfermodell liegt zwischen 120,10 und 126,12.
Zitate
"MWSAA signifikant die Wirksamkeit des ursprünglichen PWWS-Ansatzes in Bezug auf sowohl die Angriffserfolgquote als auch die Erhaltung der Textkoherenz übertrifft."
"Die Verwendung kontextueller Einbettungen und die Erzwingung semantischer Konsistenz tragen zur Verbesserung der Leistung von MWSAA bei."