Core Concepts
Es ist möglich, eine einzelne Kategorie von anderen semantisch verwandten Kategorien allein anhand ihres Labels zu unterscheiden, indem man Large Language Models und Vision-Sprache-Modelle kombiniert.
Abstract
Der Artikel befasst sich mit dem Problem der Nullschuss-Einklassen-Klassifizierung, bei der nur das Label der Zielklasse verfügbar ist und das Ziel darin besteht, zwischen positiven und negativen Abfrage-Samples zu unterscheiden, ohne Validierungsbeispiele aus der Zielaufgabe zu benötigen.
Die Autoren schlagen eine zweistufige Lösung vor, bei der zunächst Large Language Models verwendet werden, um visuell verwirrende Objekte abzufragen, und dann auf vortrainierte Vision-Sprache-Modelle (z.B. CLIP) zurückgegriffen wird, um die Klassifizierung durchzuführen.
Durch die Anpassung großer Benchmark-Datensätze für die visuelle Klassifizierung zeigen die Autoren, dass die vorgeschlagene Methode in dieser Einstellung besser abschneidet als angepasste Standardalternativen. Insbesondere schlagen sie einen realistischen Benchmark vor, bei dem negative Abfrage-Samples aus demselben Originaldatensatz wie positive Samples stammen, einschließlich einer Granularitäts-kontrollierten Version von iNaturalist, bei der negative Samples einen festen Abstand im Taxonomie-Baum von den positiven Samples haben.
Die Arbeit zeigt, dass es möglich ist, zwischen einer einzelnen Kategorie und anderen semantisch verwandten Kategorien zu unterscheiden, indem man nur ihr Label verwendet.
Stats
Die Ähnlichkeit zwischen Bildern und Klassenlabels nimmt mit zunehmender Abstraktionsebene ab.
Die optimale Schwelle für die Klassifizierung variiert stark zwischen den Aufgaben.
Quotes
"Es ist möglich, eine einzelne Kategorie von anderen semantisch verwandten Kategorien allein anhand ihres Labels zu unterscheiden, indem man Large Language Models und Vision-Sprache-Modelle kombiniert."
"Wir schlagen einen realistischen Benchmark vor, bei dem negative Abfrage-Samples aus demselben Originaldatensatz wie positive Samples stammen, einschließlich einer Granularitäts-kontrollierten Version von iNaturalist, bei der negative Samples einen festen Abstand im Taxonomie-Baum von den positiven Samples haben."