Die Studie untersucht, ob vortrainierte Klassifikatoren auch eine solche Kohärenz beibehalten, indem sie deren Vorhersagen für Original- und vereinfachte Eingaben vergleichen. Die Experimente werden mit 11 vortrainierten Modellen, darunter BERT und GPT 3.5 von OpenAI, über sechs Datensätze in drei Sprachen durchgeführt. Die Ergebnisse zeigen alarmierende Inkonsistenzen über alle Sprachen und Modelle hinweg. Bis zu 50% der Vorhersagen ändern sich, wenn vereinfachte Eingaben verwendet werden. Diese Inkonsistenzen können leicht ausgenutzt werden, um nulliterationsbasierte, modellunabhängige Adversarial Attacks zu erstellen.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Miri... : arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06838.pdfDaha Derin Sorular