Die Studie untersucht zunächst die Wirksamkeit bestehender Verteidigungsmechanismen gegen Adversarial Examples im Vortrainings-Paradigma. Die Ergebnisse zeigen, dass der Misserfolg aktueller Verteidigungen auf den Domänenwechsel zwischen Vortrainungsdaten und Downstream-Aufgaben sowie die Empfindlichkeit der Encoder-Parameter zurückzuführen ist.
Um diese Herausforderungen anzugehen, schlagen wir Gen-AF vor, einen zweistufigen Ansatz zur adversariellen Feinabstimmung. In der ersten Stufe verwendet Gen-AF eine genetisch gesteuerte Dual-Track-Strategie zur adversariellen Feinabstimmung, um den vortrainierten Encoder effektiv zu übernehmen. Dies beinhaltet die separate Optimierung des vortrainierten Encoders und des Klassifikators unter Einbeziehung einer genetischen Regularisierung, um die Topologie des Modells zu erhalten.
In der zweiten Stufe bewertet Gen-AF die robuste Empfindlichkeit jeder Schicht, wählt die k robustesten redundanten Schichten aus und führt eine evolutionäre Anpassungsfeinabstimmung durch, um die Generalisierbarkeit des Modells weiter zu verbessern.
Umfangreiche Experimente über zehn selbstüberwachte Trainingsmethoden und sechs Datensätze zeigen, dass Gen-AF eine hohe Testgenauigkeit und robuste Testgenauigkeit gegen den aktuellen Stand der Technik bei Downstream-agnostischen Adversarial Examples erreicht.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies