Effizientes Verarbeiten und Analysieren von Inhalten durch wenige Schuss adversarisches Prompt-Lernen auf Vision-Language-Modellen
Durch das Lernen von adversariell korrelierten Textprompts und einen neuartigen Trainingszielansatz, der die Konsistenz von Multimodal-Merkmalen verbessert und gleichzeitig die Unterscheidung von Unimodal-Merkmalen zwischen natürlichen und adversarischen Beispielen fördert, kann das vorgeschlagene Framework mit nur 1% der Trainingsdaten den Stand der Technik bei der adversarischen Nullschuss-Übertragung erreichen.