Die Studie analysiert die Herausforderungen beim Training von Video-Instanzsegmentierungsmodellen auf mehreren Datensätzen. Obwohl die Verwendung größerer Datensätze die Leistung verbessern kann, führt die Heterogenität der Taxonomien dazu, dass die Modelle die Aufmerksamkeit auf verschiedene Taxonomien verlieren.
Um dieses Problem zu lösen, schlagen die Autoren ein neues Verfahren namens "Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation (TMT-VIS)" vor. TMT-VIS besteht aus zwei Schlüsselkomponenten:
Taxonomy Compilation Module (TCM): Dieses Modul nutzt einen vortrainierten Text-Encoder, um Taxonomie-Informationen aus den Eingabevideos zu extrahieren.
Taxonomy Injection Module (TIM): Dieses Modul injiziert die extrahierten Taxonomie-Informationen in die visuellen Abfragen des Transformer-Dekoders, um die Aufmerksamkeit des Modells auf die relevanten Taxonomien zu lenken.
Durch die Verwendung dieser Taxonomie-basierten Architektur kann TMT-VIS effektiv auf mehreren Datensätzen trainiert werden und erzielt signifikante Leistungsverbesserungen gegenüber den Baseline-Methoden auf vier gängigen und anspruchsvollen Video-Instanzsegmentierungsbenchmarks.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Rongkun Zhen... pada arxiv.org 03-19-2024
https://arxiv.org/pdf/2312.06630.pdfPertanyaan yang Lebih Dalam