Die Studie untersucht, ob vortrainierte Klassifikatoren auch eine solche Kohärenz beibehalten, indem sie deren Vorhersagen für Original- und vereinfachte Eingaben vergleichen. Die Experimente werden mit 11 vortrainierten Modellen, darunter BERT und GPT 3.5 von OpenAI, über sechs Datensätze in drei Sprachen durchgeführt. Die Ergebnisse zeigen alarmierende Inkonsistenzen über alle Sprachen und Modelle hinweg. Bis zu 50% der Vorhersagen ändern sich, wenn vereinfachte Eingaben verwendet werden. Diese Inkonsistenzen können leicht ausgenutzt werden, um nulliterationsbasierte, modellunabhängige Adversarial Attacks zu erstellen.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Miri... om arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06838.pdfDiepere vragen