Core Concepts
Ein trainingsfreier Ansatz zur offenen Vokabular-Segmentierung, der visuelle Prototypen und textuelle Schlüssel offline mit diffusionsbasierter Generierung extrahiert und lokale und globale Ähnlichkeiten zur Inferenz nutzt.
Abstract
Die Studie präsentiert einen trainingsfreien Ansatz für die offene Vokabular-Segmentierung, der FreeDA genannt wird. Der Ansatz besteht aus zwei Hauptschritten:
- Offline-Phase:
- Es wird eine große Menge an visuellen Prototypen und zugehörigen textuellen Schlüsselvektoren generiert.
- Dazu werden Textbeschreibungen verwendet, um synthetische Bilder mit Hilfe eines Diffusionsmodells zu erzeugen.
- Aus den generierten Bildern werden dann visuelle Prototypen extrahiert, indem selbstüberwachte visuelle Merkmale auf lokalisierten Regionen gepooled werden.
- Zusätzlich werden textuelle Schlüsselvektoren erstellt, die den Kontext der Textbeschreibungen erfassen.
- Inferenz-Phase:
- Für ein Eingabebild werden lokale und globale visuelle Merkmale extrahiert.
- Superpixel-Algorithmen werden verwendet, um klassenagnostische Regionen zu identifizieren.
- Die textuellen Kategorien werden in den Indexspeicher der Schlüsselvektoren abgefragt, um die ähnlichsten visuellen Prototypen zu finden.
- Durch Kombination der lokalen und globalen Ähnlichkeiten wird dann die Segmentierungsmaske für das Eingabebild berechnet.
Der Ansatz erzielt ohne jegliches Training state-of-the-art Ergebnisse auf fünf Benchmark-Datensätzen für offene Vokabular-Segmentierung.
Stats
Die Textbeschreibungen aus dem COCO Captions-Datensatz werden verwendet, um synthetische Bilder mit Hilfe des Stable Diffusion-Modells zu generieren.
Quotes
Keine relevanten Zitate identifiziert.