Concetti Chiave
Durch die Ausrichtung von Vision-Sprache-Modellen auf primitive visuelle Attribute anstelle von Klassennamen können die korrekten Begründungen für Entscheidungen erfasst und die Übertragbarkeit auf neue Klassen oder Verteilungen verbessert werden.
Sintesi
Der Artikel stellt eine neue Methode namens Attribute-Guided Prompt Tuning (ArGue) vor, um die Übertragbarkeit von Vision-Sprache-Modellen zu verbessern.
Kernpunkte:
- Anstatt direkt Klassennamen in den Prompt einzubinden, wird das Modell darauf ausgerichtet, hohe Konfidenz in primitiven visuellen Attributen zu zeigen, die von Großsprachmodellen generiert werden. Dies zwingt das Modell, die korrekten semantischen Merkmale der Klassen zu erfassen, anstatt sich auf Scheinkorrelationen zu verlassen.
- Es wird ein Attribute Sampling-Verfahren eingeführt, um die effektivsten und nicht-redundanten Attribute auszuwählen, was den Rechenaufwand reduziert, ohne die Leistung zu beeinträchtigen.
- Darüber hinaus wird Negative Prompting eingeführt, bei dem das Modell explizit mit Attributen konfrontiert wird, die keine klassenbezogenen Informationen enthalten. Dadurch wird das Modell gezwungen, sich stärker auf die korrekten semantischen Merkmale zu konzentrieren.
- Experimente zeigen, dass die vorgeschlagene Methode die Leistung auf Datensätzen mit neuen Klassen und Verteilungsverschiebungen deutlich verbessert und einen neuen State-of-the-Art erreicht.
Statistiche
"Unser Verfahren übertrifft die derzeitigen State-of-the-Art-Methoden zur Prompt-Feinabstimmung auf 10 von 11 Benchmarkdatensätzen in Bezug auf die Genauigkeit bei neuen Klassen."
"Auf dem EuroSAT-Datensatz erzielen wir eine Verbesserung von 3,98% gegenüber dem vorherigen Bestwert."
"Auf dem FGVCAircraft-Datensatz erreichen wir eine Steigerung von 4,55%."
Citazioni
"Durch die Ausrichtung explizit auf visuelle Attribute anstelle von Klassennamen wird das Modell dazu gebracht, die inhärenten Semantiken der Klasse zu priorisieren, anstatt sich auf Scheinkorrelationen zu verlassen."
"Visuelle Attribute, die niedrigere Merkmale repräsentieren, können von mehreren Klassen gemeinsam genutzt werden, was die Übertragbarkeit auf neue Klassen oder Verteilungen erleichtert."