核心概念
Ein Wort kann die Robustheit von Vision-Language-Modellen signifikant verbessern.
要約
Das Paper untersucht die Robustheit von Vision-Language-Modellen in Bezug auf das verwendete Textprompt. Es wird eine Methode namens Adversarial Prompt Tuning (APT) vorgeschlagen, um robuste Textprompts für Modelle zu lernen und die Robustheit gegenüber adversären Angriffen zu verbessern. Die Wirksamkeit von APT wird durch umfangreiche Experimente auf 15 Datensätzen und 4 Datensparsamkeitsschemata gezeigt. APT zeigt sich als parameter- und dateneffizient und übertrifft handgefertigte Prompts und andere State-of-the-Art-Anpassungsmethoden. Durch die einfache Hinzufügung eines gelernten Wortes zu den Prompts kann die Genauigkeit und Robustheit erheblich gesteigert werden.
Struktur:
- Einleitung
- Hintergrund zu VLMs
- Adversäre Robustheit von VLMs
- Adversarial Prompt Tuning (APT)
- Experimente
- Generalisierung der gelernten Prompts
- Trade-off zwischen Genauigkeit und Robustheit
- Zuverlässigkeit der adversären Evaluation
- Schlussfolgerung
統計
"Surprisingly, by simply adding one learned word to the prompts, APT can significantly boost the accuracy and robustness (ϵ = 4/255) over the hand-engineered prompts by +13% and +8.5% on average respectively."
"The improvement further increases, in our most effective setting, to +26.4% for accuracy and +16.7% for robustness."
引用
"Ein Wort kann die Robustheit von Vision-Language-Modellen signifikant verbessern."