Der Artikel stellt das VRP-SAM-Modell vor, das das Segment Anything Modell (SAM) erweitert, indem es visuelle Referenzbilder als Eingabe verwendet, um spezifische Objekte in Zielbildern zu segmentieren.
Das VRP-SAM-Modell besteht aus einem visuellen Referenzprompt-Encoder, der annotierte Referenzbilder in verschiedenen Formaten (Punkte, Striche, Boxen, Masken) als Eingabe akzeptiert. Der Encoder nutzt Meta-Learning-Techniken, um Prototypen der Zielobjekte aus den annotierten Referenzbildern zu extrahieren und diese Informationen dann zu verwenden, um semantische Hinweise aus den Zielbildern abzuleiten. Diese Hinweise werden dann als Prompt-Einbettungen an den Maskendecoder von SAM weitergeleitet, um die Segmentierung der Zielobjekte durchzuführen.
Die Experimente zeigen, dass VRP-SAM im Vergleich zu anderen Methoden, die auf geometrischen Prompts basieren, eine überlegene Leistung bei der visuellen Referenzsegmentierung erzielt. Darüber hinaus demonstriert VRP-SAM eine starke Generalisierungsfähigkeit, die es ermöglicht, auch unbekannte Objekte und Szenarien über Domänengrenzen hinweg zu segmentieren.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Yanpeng Sun,... às arxiv.org 03-27-2024
https://arxiv.org/pdf/2402.17726.pdfPerguntas Mais Profundas