Die Studie untersucht, ob vortrainierte Klassifikatoren auch eine solche Kohärenz beibehalten, indem sie deren Vorhersagen für Original- und vereinfachte Eingaben vergleichen. Die Experimente werden mit 11 vortrainierten Modellen, darunter BERT und GPT 3.5 von OpenAI, über sechs Datensätze in drei Sprachen durchgeführt. Die Ergebnisse zeigen alarmierende Inkonsistenzen über alle Sprachen und Modelle hinweg. Bis zu 50% der Vorhersagen ändern sich, wenn vereinfachte Eingaben verwendet werden. Diese Inkonsistenzen können leicht ausgenutzt werden, um nulliterationsbasierte, modellunabhängige Adversarial Attacks zu erstellen.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Miri... às arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06838.pdfPerguntas Mais Profundas