In dieser Arbeit präsentieren wir ein Polyp-Segmentierungsmodell, das auf der Prompt-Mamba-Technologie basiert. Das Modell besteht aus drei Hauptkomponenten: einem bildverarbeitenden Image-Encoder, einem Prompt-Encoder und einem Mask-Decoder.
Der Image-Encoder verwendet die Vision-Mamba-Architektur, die sich durch eine effiziente Merkmalsextraktion auszeichnet. Der Prompt-Encoder nutzt Box-Prompts, um die Generalisierungsfähigkeit des Modells zu verbessern. Der Mask-Decoder kombiniert die Ausgaben des Image-Encoders und des Prompt-Encoders, um die endgültige Segmentierungsmaske zu erzeugen.
Im Vergleich zu früheren Methoden zeigt unser Modell nicht nur eine hohe Segmentierungsgenauigkeit auf den Validierungsdatensätzen, sondern übertrifft auch den Stand der Technik um durchschnittlich 5% auf sechs verschiedenen Datensätzen. Darüber hinaus haben wir mehrere skalierbare Versionen unseres Modells entwickelt, die selbst mit weniger Parametern eine bessere Leistung als frühere Modelle erzielen.
Unsere Hauptbeiträge sind:
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Jianhao Xie,... às arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13660.pdfPerguntas Mais Profundas