Die Studie befasst sich mit dem bisher wenig erforschten Problem des maschinellen Verständnisses abstrakter Freihand-Szenen-Skizzen.
Auf der ersten Ebene des Netzwerks wird ein ganzheitliches Verständnis der Szenen-Skizze sichergestellt. Dafür wird ein modifizierter Vision Transformer Encoder verwendet, der eine semantisch bewusste Codierung der Skizze ermöglicht.
Auf der zweiten Ebene wird die Fähigkeit des Modells verbessert, einzelne Objektkategorien in der Skizze zu erkennen und zu unterscheiden. Dafür wird eine hierarchische Trainingsmethode eingeführt, die eine effiziente semantische Entflechtung ermöglicht. Außerdem wird eine Kreuzaufmerksamkeit zwischen Text- und Bilddomäne hinzugefügt, um die Zuordnung von Skizzenmerkmalen zu Textbeschreibungen zu verbessern.
Das Modell übertrifft deutlich die Leistung von Nullstellen-CLIP-Segmentierung und erreicht eine Pixelgenauigkeit von 85,5% auf dem FS-COCO-Skizzen-Datensatz. Eine Benutzerstudie zeigt, dass das Modell in den meisten Fällen eine mit Menschen vergleichbare Leistung erzielt, aber es gibt auch herausfordernde Szenarien, die weitere Verbesserungen erfordern.
To Another Language
from source content
arxiv.org
Głębsze pytania