Wir führen einen prinzipienbasierten Ansatz ein, um die Effizienz von Open-Vocabulary-Segmentierungsmodellen sowohl in Bezug auf die Modellgröße als auch auf die Trainingskosten zu verbessern, ohne dabei die Leistung zu beeinträchtigen.
Ein trainingsfreier Ansatz zur offenen Vokabular-Segmentierung, der visuelle Prototypen und textuelle Schlüssel offline mit diffusionsbasierter Generierung extrahiert und lokale und globale Ähnlichkeiten zur Inferenz nutzt.
Die Verwendung des hyperbolischen Poincaré-Modells zur hierarchischen semantischen Segmentierung führt zu einer deutlich besseren Kalibrierung und Genauigkeit der Vorhersagen für übergeordnete Kategorien im Vergleich zu herkömmlichen Ansätzen im euklidischen Raum.
DiffSeg ist ein einfaches und effektives Verfahren zur Segmentierung von Bildern ohne jegliche Vorkenntnisse oder zusätzliche Ressourcen, indem es die Aufmerksamkeitstensoren eines vortrainierten Stable-Diffusion-Modells nutzt.
Das VRP-SAM-Modell erweitert das Segment Anything Modell, indem es visuelle Referenzbilder als Eingabe verwendet, um spezifische Objekte in Zielbildern zu segmentieren.