Grunnleggende konsepter
Der Masked AutoDecoder (MAD) ist ein effektiver und effizienter Ansatz, um verschiedene visuelle Aufgaben wie Objekterkennung, Instanzsegmentierung, Keypoint-Erkennung und Bildunterschriften in einem einzigen Netzwerk zu vereinen. MAD verwendet eine parallele Decodierung mit bidirektionaler Aufmerksamkeit und ein maskiertes Sequenzmodellierungsverfahren, um reichhaltige Aufgabenkontexte zu erfassen und Vorhersagen für verschiedene Aufgaben effizient zu treffen.
Sammendrag
Der Masked AutoDecoder (MAD) ist ein neuer Ansatz, um verschiedene visuelle Aufgaben wie Objekterkennung, Instanzsegmentierung, Keypoint-Erkennung und Bildunterschriften in einem einzigen Netzwerk zu vereinen.
Im Gegensatz zu bestehenden autoregressiven Ansätzen verwendet MAD eine parallele Decodierung mit bidirektionaler Aufmerksamkeit, um die Abhängigkeiten in visuellen Sequenzen effektiv zu erfassen. Außerdem führt MAD ein maskiertes Sequenzmodellierungsverfahren ein, bei dem Teile der Aufgabensequenzen zufällig maskiert und dann rekonstruiert werden. Dadurch kann das Modell reichhaltige Aufgabenkontexte lernen, ohne auf aufgabenspezifische Designs angewiesen zu sein.
Die Experimente auf dem MS-COCO-Datensatz zeigen, dass MAD im Vergleich zu aufgabenspezifischen Modellen und bestehenden Generalist-Modellen eine überlegene Leistung und Effizienz erzielt. MAD ist etwa 100-mal schneller bei der Inferenz als der aktuelle Stand der Technik, bei gleichzeitig konkurrenzfähiger Genauigkeit über die vier untersuchten Aufgaben hinweg.
Statistikk
Die Koordinaten der Begrenzungsboxen werden in 500 Bins diskretisiert.
Für die Instanzsegmentierung werden pro Bild zufällig zehn Instanzen ausgewählt und deren Segmentierungsmasken in Bitmasken der Größe 16x16 umgewandelt.
Für die Keypoint-Erkennung werden pro Bild zehn Personeninstanzen verwendet.
Für die Bildunterschriften wird das Sentence-Piece-Modell (SPM) von T5 zur Tokenisierung verwendet, wobei der Wortschatz basierend auf dem COCO-Datensatz gekürzt wird, was zu 11.421 verbleibenden Texttokens führt.
Sitater
"MAD besteht aus zwei Kerndesigns. Erstens entwickeln wir einen parallelen Decodierungsrahmen, der bidirektionale Aufmerksamkeit einführt, um Kontextabhängigkeiten umfassend zu erfassen und Aufgabensequenzen parallel zu decodieren. Zweitens entwerfen wir einen maskierten Sequenzmodellierungsansatz, der durch Maskieren und Rekonstruieren von Aufgabensequenzen reiche Aufgabenkontexte lernt."