Ein neuartiger Fusionsblock, der Informationen aus verschiedenen Modalitätskombinationen effektiv kombinieren kann, sowie ein neues Modell namens MMSFormer, das diesen Fusionsblock verwendet, um Aufgaben der multimodalen Material- und semantischen Segmentierung zu lösen.
Sigma, ein Siamese-Mamba-Netzwerk, nutzt die Vorteile von State-Space-Modellen, um robuste und effiziente multimodale semantische Segmentierung zu erreichen.
ReMamber ist eine neuartige Architektur, die die Leistungsfähigkeit von Mamba mit einem multimodalen Mamba Twister-Block integriert, um die Interaktion zwischen Bild und Text effektiv zu modellieren und die Fusion von Text- und Bildmerkmalen durch einen einzigartigen Kanal- und Raumscan-Mechanismus zu verbessern.
Das vorgeschlagene Text-IF-Modell ermöglicht eine interaktive und degradationsrobuste Infrarot-Sichtbild-Fusion durch die Kopplung von Textsemantikinformationen und Bildfusionsfunktionen.
Das vorgeschlagene SDSTrack-Verfahren überträgt die Merkmalsextraktionsfähigkeit eines vortrainierten RGB-basierten Trackers effizient auf andere Modalitäten und fusioniert die multimodalen Merkmale auf symmetrische Weise. Darüber hinaus verbessert eine komplementäre maskierte Patch-Distillationsstrategie die Robustheit des Trackers in extremen Bedingungen.
Durch den Einsatz von Wärmebildaufnahmen neben RGB-Bildern können neuronale Szenenrepräsentationen wie NeRFs erweitert und verbessert werden.