Der Artikel stellt das VRP-SAM-Modell vor, das das Segment Anything Modell (SAM) erweitert, indem es visuelle Referenzbilder als Eingabe verwendet, um spezifische Objekte in Zielbildern zu segmentieren.
Das VRP-SAM-Modell besteht aus einem visuellen Referenzprompt-Encoder, der annotierte Referenzbilder in verschiedenen Formaten (Punkte, Striche, Boxen, Masken) als Eingabe akzeptiert. Der Encoder nutzt Meta-Learning-Techniken, um Prototypen der Zielobjekte aus den annotierten Referenzbildern zu extrahieren und diese Informationen dann zu verwenden, um semantische Hinweise aus den Zielbildern abzuleiten. Diese Hinweise werden dann als Prompt-Einbettungen an den Maskendecoder von SAM weitergeleitet, um die Segmentierung der Zielobjekte durchzuführen.
Die Experimente zeigen, dass VRP-SAM im Vergleich zu anderen Methoden, die auf geometrischen Prompts basieren, eine überlegene Leistung bei der visuellen Referenzsegmentierung erzielt. Darüber hinaus demonstriert VRP-SAM eine starke Generalisierungsfähigkeit, die es ermöglicht, auch unbekannte Objekte und Szenarien über Domänengrenzen hinweg zu segmentieren.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yanpeng Sun,... alle arxiv.org 03-27-2024
https://arxiv.org/pdf/2402.17726.pdfDomande più approfondite