Der Beitrag stellt CAT-SAM vor, ein neuartiges Modell zur bedingten Feinabstimmung, das eine effiziente und datensparsame Anpassung des Segment Anything Modells (SAM) an verschiedene herausfordernde Anwendungsszenarien ermöglicht.
SAM ist ein leistungsfähiges Segmentierungsmodell, das auf einem riesigen Datensatz von über 1,1 Milliarden Masken trainiert wurde und bemerkenswerte Nullschuss-Fähigkeiten sowie flexible geometrische Eingabeaufforderungen zeigt. Allerdings hat SAM oft Schwierigkeiten, wenn es mit Domänen konfrontiert wird, die entweder spärlich repräsentiert sind oder außerhalb seiner Trainingsdatenverteilung liegen, wie z.B. Luft-, Medizin- und Nicht-RGB-Bilder.
Um dieses Problem anzugehen, friert CAT-SAM das gesamte SAM-Modell ein und erweitert es mit einer geringen Anzahl von lernbaren Parametern, um domänenspezifische Merkmale zu erfassen. Allerdings führt die deutlich größere Bildencoder-Komponente im Vergleich zum leichten Maskendecoder oft zu einem Ungleichgewicht in der Feinabstimmung, was zu suboptimalen Anpassungsergebnissen führen kann.
Um diese Herausforderung zu bewältigen, entwirft CAT-SAM eine Prompt-Brücken-Struktur, die die domänenspezifischen Merkmale vom Maskendecoder zum Bildencoder abbildet. Dadurch wird eine decoder-bedingte gemeinsame Feinabstimmung beider Komponenten ermöglicht, was das Ungleichgewicht in der Feinabstimmung abmildert und die wenig-Schritt-Anpassung von SAM deutlich verbessert.
CAT-SAM wird in zwei Varianten entwickelt, indem die Prompt-Brücke in zwei gängige Feinabstimmungsansätze integriert wird: Prompt-Feinabstimmung und Adapter-Feinabstimmung. Umfangreiche Experimente über 11 diverse und herausfordernde Anwendungsszenarien zeigen, dass beide Varianten eine überlegene Anpassung und Segmentierung auch mit nur wenigen Beispielbildern erreichen.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Aoran Xiao,W... a las arxiv.org 03-22-2024
https://arxiv.org/pdf/2402.03631.pdfConsultas más profundas