Der Masked AutoDecoder (MAD) ist ein neuer Ansatz, um verschiedene visuelle Aufgaben wie Objekterkennung, Instanzsegmentierung, Keypoint-Erkennung und Bildunterschriften in einem einzigen Netzwerk zu vereinen.
Im Gegensatz zu bestehenden autoregressiven Ansätzen verwendet MAD eine parallele Decodierung mit bidirektionaler Aufmerksamkeit, um die Abhängigkeiten in visuellen Sequenzen effektiv zu erfassen. Außerdem führt MAD ein maskiertes Sequenzmodellierungsverfahren ein, bei dem Teile der Aufgabensequenzen zufällig maskiert und dann rekonstruiert werden. Dadurch kann das Modell reichhaltige Aufgabenkontexte lernen, ohne auf aufgabenspezifische Designs angewiesen zu sein.
Die Experimente auf dem MS-COCO-Datensatz zeigen, dass MAD im Vergleich zu aufgabenspezifischen Modellen und bestehenden Generalist-Modellen eine überlegene Leistung und Effizienz erzielt. MAD ist etwa 100-mal schneller bei der Inferenz als der aktuelle Stand der Technik, bei gleichzeitig konkurrenzfähiger Genauigkeit über die vier untersuchten Aufgaben hinweg.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Han Qiu,Jiax... alle arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07692.pdfDomande più approfondite