Der Artikel stellt eine neue Methode namens "Training-free Dynamic Adapter" (TDA) vor, die eine effiziente und effektive Test-Zeit-Anpassung von Vision-Sprache-Modellen wie CLIP ermöglicht.
TDA verwendet zwei leichtgewichtige Schlüssel-Wert-Caches, um dynamisch Pseudo-Labels und die entsprechenden Testmerkmale zu speichern. Der erste Cache dient dem positiven Lernen und aktualisiert schrittweise die Pseudo-Labels mit hoher Konfidenz, um die Genauigkeit zu verbessern. Der zweite Cache dient dem negativen Lernen und identifiziert Klassen, die in den Testdaten nicht vorhanden sind, um die Auswirkungen von verrauschten Pseudo-Labels zu reduzieren.
Im Vergleich zu bestehenden Test-Zeit-Anpassungsmethoden wie TPT und DiffTPT ist TDA deutlich effizienter, da es keine Backpropagation erfordert. Umfangreiche Experimente auf zwei Benchmarks zeigen, dass TDA die Genauigkeit deutlich verbessert und gleichzeitig die Testzeit drastisch reduziert.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Adilbek Karm... às arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18293.pdfPerguntas Mais Profundas