Die Studie untersucht zunächst die Wirksamkeit bestehender Verteidigungsmechanismen gegen Adversarial Examples im Vortrainings-Paradigma. Die Ergebnisse zeigen, dass der Misserfolg aktueller Verteidigungen auf den Domänenwechsel zwischen Vortrainungsdaten und Downstream-Aufgaben sowie die Empfindlichkeit der Encoder-Parameter zurückzuführen ist.
Um diese Herausforderungen anzugehen, schlagen wir Gen-AF vor, einen zweistufigen Ansatz zur adversariellen Feinabstimmung. In der ersten Stufe verwendet Gen-AF eine genetisch gesteuerte Dual-Track-Strategie zur adversariellen Feinabstimmung, um den vortrainierten Encoder effektiv zu übernehmen. Dies beinhaltet die separate Optimierung des vortrainierten Encoders und des Klassifikators unter Einbeziehung einer genetischen Regularisierung, um die Topologie des Modells zu erhalten.
In der zweiten Stufe bewertet Gen-AF die robuste Empfindlichkeit jeder Schicht, wählt die k robustesten redundanten Schichten aus und führt eine evolutionäre Anpassungsfeinabstimmung durch, um die Generalisierbarkeit des Modells weiter zu verbessern.
Umfangreiche Experimente über zehn selbstüberwachte Trainingsmethoden und sechs Datensätze zeigen, dass Gen-AF eine hohe Testgenauigkeit und robuste Testgenauigkeit gegen den aktuellen Stand der Technik bei Downstream-agnostischen Adversarial Examples erreicht.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Ziqi Zhou,Mi... pada arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10801.pdfPertanyaan yang Lebih Dalam