Temel Kavramlar
Durch das Lernen von adversariell korrelierten Textprompts und einen neuartigen Trainingszielansatz, der die Konsistenz von Multimodal-Merkmalen verbessert und gleichzeitig die Unterscheidung von Unimodal-Merkmalen zwischen natürlichen und adversarischen Beispielen fördert, kann das vorgeschlagene Framework mit nur 1% der Trainingsdaten den Stand der Technik bei der adversarischen Nullschuss-Übertragung erreichen.
Özet
Der Artikel befasst sich mit dem Problem der Verletzbarkeit tiefer neuronaler Netzwerke gegenüber unmerklichen adversarischen Störungen. Inspiriert vom Erfolg von Vision-Language-Grundmodellen haben frühere Arbeiten eine adversarische Nullschuss-Robustheit erreicht, indem sie adversarische visuelle Merkmale mit Textüberwachung ausrichteten. Allerdings sind diese Methoden in der Praxis immer noch unbefriedigend, da sie mehrere Probleme aufweisen, wie hohe Anpassungskosten, suboptimale Textüberwachung und unkontrollierte natürliche Verallgemeinerungsfähigkeit.
Um diese Probleme anzugehen, schlagen die Autoren ein Framework für adversarisches Prompt-Lernen mit wenigen Schüssen vor, bei dem das Anpassen von Eingabesequenzen mit begrenzten Daten zu einer erheblichen Verbesserung der adversarischen Robustheit führt. Insbesondere erreichen sie dies, indem sie adversariell korrelierte Textüberwachung bereitstellen, die endständig aus adversarischen Beispielen gelernt wird. Sie schlagen auch ein neuartiges Trainingsziel vor, das die Konsistenz von Multimodal-Merkmalen verbessert und gleichzeitig die Unterscheidung von Unimodal-Merkmalen zwischen natürlichen und adversarischen Beispielen fördert.
Das vorgeschlagene Framework ermöglicht es, adversarische Textüberwachung zu lernen, die eine überlegene Ausrichtung über Modalitäten hinweg bietet und den Stand der Technik bei der adversarischen Nullschuss-Robustheit mit nur 1% der Trainingsdaten erreicht.
İstatistikler
Die Autoren verwenden eine 2-Schritt PGD-Attacke mit einer Störungsgrenze von ϵ = 1/255 und einer Schrittgröße von α = 1/255.
Alıntılar
"Durch das Lernen von adversariell korrelierten Textprompts und einen neuartigen Trainingszielansatz, der die Konsistenz von Multimodal-Merkmalen verbessert und gleichzeitig die Unterscheidung von Unimodal-Merkmalen zwischen natürlichen und adversarischen Beispielen fördert, kann das vorgeschlagene Framework mit nur 1% der Trainingsdaten den Stand der Technik bei der adversarischen Nullschuss-Übertragung erreichen."