Core Concepts
DiffSeg ist ein einfaches und effektives Verfahren zur Segmentierung von Bildern ohne jegliche Vorkenntnisse oder zusätzliche Ressourcen, indem es die Aufmerksamkeitstensoren eines vortrainierten Stable-Diffusion-Modells nutzt.
Abstract
Die Autoren präsentieren DiffSeg, ein unsupervidiertes und nullstellenbasiertes Verfahren zur Bildsegmentierung, das auf einem vortrainierten Stable-Diffusion-Modell aufbaut.
Kernpunkte:
- DiffSeg nutzt die Selbstaufmerksamkeitstensoren des Stable-Diffusion-Modells, um Objekte in Bildern zu gruppieren und zu segmentieren.
- Es werden zwei Beobachtungen genutzt: Intra-Attention-Ähnlichkeit (Pixel innerhalb einer Aufmerksamkeitskarte gehören oft zum selben Objekt) und Inter-Attention-Ähnlichkeit (ähnliche Aufmerksamkeitskarten deuten oft auf dasselbe Objekt hin).
- Der Algorithmus besteht aus drei Schritten: Aggregation der Aufmerksamkeitstensoren, iteratives Zusammenführen der Aufmerksamkeitskarten und Non-Maximum-Suppression zur Erzeugung der finalen Segmentierungsmaske.
- DiffSeg übertrifft den vorherigen Stand der Technik bei unüberwachter nullstellenbasierter Segmentierung deutlich und zeigt eine hohe Generalisierungsfähigkeit auf verschiedenste Bildstile.
Stats
Die Aufmerksamkeitstensoren des Stable-Diffusion-Modells enthalten implizite Informationen über Objektgruppierungen.
Intra-Attention-Ähnlichkeit: Pixel innerhalb einer Aufmerksamkeitskarte, die zum selben Objekt gehören, haben ähnliche Aktivierungen.
Inter-Attention-Ähnlichkeit: Aufmerksamkeitskarten, die dasselbe Objekt betreffen, haben ähnliche Aktivierungsmuster.
Quotes
Keine relevanten Zitate identifiziert.