Der Artikel stellt einen neuartigen Fusionsblock vor, der Informationen aus verschiedenen Modalitätskombinationen effektiv kombinieren kann. Dieser Fusionsblock wird in einem neuen Modell namens MMSFormer verwendet, um Aufgaben der multimodalen Material- und semantischen Segmentierung zu lösen.
Das Modell verwendet transformer-basierte Encoder, um hierarchische Merkmale aus verschiedenen Modalitäten zu erfassen, kombiniert diese Merkmale mit dem vorgeschlagenen Fusionsblock und verwendet einen MLP-Decoder, um multimodale Material- und semantische Segmentierung durchzuführen.
Der Fusionsblock verwendet parallele Konvolutionen, um Merkmale auf mehreren Skalen zu erfassen, Kanalaufmerksamkeit, um die Merkmale entlang der Kanaldimension dynamisch neu zu kalibrieren, und eine lineare Schicht, um Informationen über mehrere Modalitäten hinweg zu kombinieren. Diese Konstruktion bietet einen einfachen und recheneffizienteren Fusionsblock, der eine beliebige Anzahl von Eingabemodalitäten verarbeiten und Informationen aus verschiedenen Modalitätskombinationen effektiv kombinieren kann.
Das Modell übertrifft den aktuellen Stand der Technik auf drei verschiedenen Datensätzen für multimodale Material- und semantische Segmentierung. Ablationsstudien zeigen, dass jede Komponente des Fusionsblocks einen wichtigen Beitrag zur Gesamtleistung des Modells leistet. Weitere Ablationsstudien zeigen auch, dass verschiedene Eingabemodalitäten bei der Identifizierung bestimmter Materialklassen helfen.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor