Durch eine selbsttrainierende Adaption des Segment-Anything-Modells mit schwacher Überwachung kann dessen Generalisierungsfähigkeit auf verschiedene Downstream-Segmentierungsaufgaben deutlich verbessert werden.
Die vorgeschlagene Pixel-basierte adaptive Trainingsmethode (PAT) adressiert die Herausforderungen von Segmentierung mit langer Schwanzverteilung, indem sie die klassenspezifische Gradientenmagnituden-Homogenisierung und die pixel-basierte klassenspezifische Verlustanpassung kombiniert. Dadurch wird die Auswirkung seltener Klassen und das Vergessen gut klassifizierter Klassen vermieden.
Das vorgeschlagene CAT-SAM ermöglicht eine effiziente und datensparsame Anpassung des Segment Anything Modells (SAM) an verschiedene herausfordernde Anwendungsszenarien, indem es eine decoder-bedingte gemeinsame Feinabstimmung der schweren Bildencoder- und leichten Maskendecoder-Komponenten ermöglicht.
PSALM ist eine leistungsfähige Erweiterung des Large Multi-Modal-Modells (LMM), um Herausforderungen bei Segmentierungsaufgaben zu bewältigen. Durch die Einbindung eines Masken-Dekoders und eines gut konzipierten Eingabeschemas kann PSALM eine Vielzahl von Segmentierungsaufgaben effektiv bearbeiten.