Leistungsfähiges offenes Vokabular-Panoptisches Segmentierungsmodell, das die Stärken von SAM und CLIP vereint
PosSAM ist ein leistungsfähiges End-to-End-Modell, das die Stärken des Segment Anything Model (SAM) für räumlich präzise Segmentierung und des CLIP-Modells für semantisch diskriminative Klassifizierung vereint, um robuste offene Vokabular-Panoptische Segmentierung zu ermöglichen.