Der Artikel beschreibt einen neuen Ansatz zur Null-Schuss-Bildklassifizierung mit CLIP, der als "PerceptionCLIP" bezeichnet wird. CLIP ist ein weit verbreitetes Sprach-Bild-Modell, das visuelle Konzepte mit natürlicher Sprache verbinden kann und daher für Null-Schuss-Klassifizierung geeignet ist.
Der Kerngedanke des Artikels ist, dass der menschliche Wahrnehmungsprozess beim Klassifizieren von Objekten zunächst Kontextattribute wie Hintergrund und Ausrichtung erfasst, um das Vordergrundobjekt vom Hintergrund zu trennen, bevor dann die Objektklassifizierung erfolgt. Inspiriert von diesem Prozess, beobachten die Autoren, dass die Bereitstellung von Kontextattributen an CLIP die Null-Schuss-Klassifizierung verbessert und die Abhängigkeit von Scheinmerkmalen reduziert.
Darauf aufbauend schlagen die Autoren PerceptionCLIP vor, ein zweistufiges Null-Schuss-Klassifizierungsverfahren. In der ersten Stufe wird CLIP verwendet, um die Kontextattribute aus dem Bild abzuleiten. In der zweiten Stufe erfolgt dann die Klassifizierung des Objekts unter Berücksichtigung der abgeleiteten Attribute.
Die Experimente zeigen, dass PerceptionCLIP im Vergleich zu Standardmethoden, die nur Klassennamen verwenden, eine bessere Generalisierung, Gruppenrobustheit und Interpretierbarkeit erreicht. Durch die Berücksichtigung von Kontextattributen fokussiert sich das Modell mehr auf die Kernmerkmale des Objekts und weniger auf Scheinmerkmale.
To Another Language
from source content
arxiv.org
Głębsze pytania