Durch die Verwendung von automatisch extrahierten Objekt- und Attribut-Tags als Supervisionsignale kann das Modell die Ausrichtung zwischen Bild- und Textmerkmalen verbessern und so präzisere Lokalisierung von textspezifizierten Objekten erreichen.
CLIP-DINOiser verbessert die Leistung von MaskCLIP, einem effizienten Verfahren zur Extraktion dichter CLIP-Merkmale, durch die Integration von Lokalisierungsinformationen aus selbstüberwachten Merkmalen. Dies ermöglicht hochwertige offene Vokabular-Segmentierungen ohne zusätzliche Annotation oder Supervision.
Durch die Verwendung von Fundationsmodellen wie Stable Diffusion und DINOv2 können wir eine robuste bildbasierte Klassifizierung für die offene Vokabular-Segmentierung erreichen, indem wir eine besser ausgerichtete intramodale Merkmalsabbildung und eine beziehungsbewusste Übereinstimmung nutzen.
Durch die Aggregation der Ähnlichkeitskosten zwischen Bild- und Textemmbeddings des CLIP-Modells kann die Leistung für die Aufgabe der offenen Vokabular-Semantischen Segmentierung deutlich verbessert werden.