แนวคิดหลัก
Unser Ansatz SegNext bietet interaktive Bildverarbeitung mit niedriger Latenz, hoher Qualität und Unterstützung für vielfältige Eingabeaufforderungen.
บทคัดย่อ
Der Artikel stellt einen neuen Ansatz für interaktive Bildverarbeitung namens SegNext vor. Dieser Ansatz kombiniert die Vorteile von spezialisierten und generalistischen Modellen, um eine interaktive Bildverarbeitung mit niedriger Latenz, hoher Qualität und Unterstützung für vielfältige Eingabeaufforderungen zu erreichen.
Der Artikel beginnt mit einer Analyse der Herausforderungen, die bestehende Ansätze für interaktive Bildverarbeitung haben. Spezialisierte Modelle leiden unter hoher Latenz, da Bild und visuelle Eingabeaufforderungen gemeinsam codiert werden müssen. Generalistische Modelle wie das Segment Anything Model (SAM) bieten zwar Effizienz und Vielfalt der Eingabeaufforderungen, bleiben aber in Bezug auf die Segmentierungsqualität hinter spezialisierten Modellen zurück.
Um diese Herausforderungen zu adressieren, schlägt der Artikel vor, das dichte Design von visuellen Eingabeaufforderungen, das in spezialisierten Modellen üblich ist, in generalistische Modelle zu integrieren. Dazu wird ein dreikanal-dichtes Merkmalskarten-Konzept eingeführt, um fünf verschiedene visuelle Eingabeaufforderungen (Klicks, Boxen, Polygone, Skizzen und Masken) darzustellen. Diese dichte Darstellung wird dann mit dem Bildembedding fusioniert, um eine hohe Segmentierungsqualität bei gleichzeitig niedriger Latenz zu erreichen.
Umfangreiche Evaluierungen auf den Benchmarks HQSeg-44K und DAVIS zeigen, dass der vorgeschlagene Ansatz die bestehenden Spitzenmodelle sowohl quantitativ als auch qualitativ übertrifft. Darüber hinaus generalisiert das Modell gut auf medizinische Bilddatensätze. Der Artikel schließt mit einer Diskussion der Einschränkungen und zukünftigen Forschungsrichtungen.
สถิติ
Die Latenz für die Segment Anything Aufgabe (SAT) beträgt 13,3 Sekunden für unser Modell mit einer Selbstaufmerksamkeitsschicht und 17,6 Sekunden für unser Modell mit zwei Selbstaufmerksamkeitsschichten.
คำพูด
Keine relevanten Zitate gefunden.