Core Concepts
Ein trainingsfreier Ansatz zur offenen Vokabular-Segmentierung, der visuelle Prototypen und textuelle Schlüssel offline mit diffusionsbasierter Generierung extrahiert und lokale und globale Ähnlichkeiten zur Inferenz nutzt.
Abstract
Die Studie präsentiert einen trainingsfreien Ansatz für die offene Vokabular-Segmentierung, der FreeDA genannt wird. Der Ansatz besteht aus zwei Hauptschritten:
Offline-Phase:
Es wird eine große Menge an visuellen Prototypen und zugehörigen textuellen Schlüsselvektoren generiert.
Dazu werden Textbeschreibungen verwendet, um synthetische Bilder mit Hilfe eines Diffusionsmodells zu erzeugen.
Aus den generierten Bildern werden dann visuelle Prototypen extrahiert, indem selbstüberwachte visuelle Merkmale auf lokalisierten Regionen gepooled werden.
Zusätzlich werden textuelle Schlüsselvektoren erstellt, die den Kontext der Textbeschreibungen erfassen.
Inferenz-Phase:
Für ein Eingabebild werden lokale und globale visuelle Merkmale extrahiert.
Superpixel-Algorithmen werden verwendet, um klassenagnostische Regionen zu identifizieren.
Die textuellen Kategorien werden in den Indexspeicher der Schlüsselvektoren abgefragt, um die ähnlichsten visuellen Prototypen zu finden.
Durch Kombination der lokalen und globalen Ähnlichkeiten wird dann die Segmentierungsmaske für das Eingabebild berechnet.
Der Ansatz erzielt ohne jegliches Training state-of-the-art Ergebnisse auf fünf Benchmark-Datensätzen für offene Vokabular-Segmentierung.
Stats
Die Textbeschreibungen aus dem COCO Captions-Datensatz werden verwendet, um synthetische Bilder mit Hilfe des Stable Diffusion-Modells zu generieren.
Quotes
Keine relevanten Zitate identifiziert.