Die Studie untersucht, ob vortrainierte Klassifikatoren auch eine solche Kohärenz beibehalten, indem sie deren Vorhersagen für Original- und vereinfachte Eingaben vergleichen. Die Experimente werden mit 11 vortrainierten Modellen, darunter BERT und GPT 3.5 von OpenAI, über sechs Datensätze in drei Sprachen durchgeführt. Die Ergebnisse zeigen alarmierende Inkonsistenzen über alle Sprachen und Modelle hinweg. Bis zu 50% der Vorhersagen ändern sich, wenn vereinfachte Eingaben verwendet werden. Diese Inkonsistenzen können leicht ausgenutzt werden, um nulliterationsbasierte, modellunabhängige Adversarial Attacks zu erstellen.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Miri... lúc arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06838.pdfYêu cầu sâu hơn