Ein effektiver Multi-Aufgaben-Generalist für visuelle Aufgaben: Der Masked AutoDecoder
Der Masked AutoDecoder (MAD) ist ein effektiver und effizienter Ansatz, um verschiedene visuelle Aufgaben wie Objekterkennung, Instanzsegmentierung, Keypoint-Erkennung und Bildunterschriften in einem einzigen Netzwerk zu vereinen. MAD verwendet eine parallele Decodierung mit bidirektionaler Aufmerksamkeit und ein maskiertes Sequenzmodellierungsverfahren, um reichhaltige Aufgabenkontexte zu erfassen und Vorhersagen für verschiedene Aufgaben effizient zu treffen.