CLIP-DINOiser verbessert die Leistung von MaskCLIP, einem effizienten Verfahren zur Extraktion dichter CLIP-Merkmale, durch die Integration von Lokalisierungsinformationen aus selbstüberwachten Merkmalen. Dies ermöglicht hochwertige offene Vokabular-Segmentierungen ohne zusätzliche Annotation oder Supervision.
LLaFS ist der erste Versuch, große Sprachmodelle (LLMs) für die wenige-Beispiele-basierte Segmentierung zu nutzen. Im Gegensatz zu herkömmlichen Methoden, die sich nur auf die begrenzte und verzerrte Information aus annotierten Beispielbildern stützen, nutzt LLaFS das umfangreiche Vorwissen der LLMs als effektive Ergänzung und verwendet die LLMs direkt, um Bilder in einer wenige-Beispiele-basierten Art und Weise zu segmentieren.