Der Artikel stellt das VRP-SAM-Modell vor, das das Segment Anything Modell (SAM) erweitert, indem es visuelle Referenzbilder als Eingabe verwendet, um spezifische Objekte in Zielbildern zu segmentieren.
Das VRP-SAM-Modell besteht aus einem visuellen Referenzprompt-Encoder, der annotierte Referenzbilder in verschiedenen Formaten (Punkte, Striche, Boxen, Masken) als Eingabe akzeptiert. Der Encoder nutzt Meta-Learning-Techniken, um Prototypen der Zielobjekte aus den annotierten Referenzbildern zu extrahieren und diese Informationen dann zu verwenden, um semantische Hinweise aus den Zielbildern abzuleiten. Diese Hinweise werden dann als Prompt-Einbettungen an den Maskendecoder von SAM weitergeleitet, um die Segmentierung der Zielobjekte durchzuführen.
Die Experimente zeigen, dass VRP-SAM im Vergleich zu anderen Methoden, die auf geometrischen Prompts basieren, eine überlegene Leistung bei der visuellen Referenzsegmentierung erzielt. Darüber hinaus demonstriert VRP-SAM eine starke Generalisierungsfähigkeit, die es ermöglicht, auch unbekannte Objekte und Szenarien über Domänengrenzen hinweg zu segmentieren.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Yanpeng Sun,... klo arxiv.org 03-27-2024
https://arxiv.org/pdf/2402.17726.pdfSyvällisempiä Kysymyksiä