Robuste multimodale Fusion durch modale Kanalaufmerksamkeit
Die Studie zeigt, dass maskierte multimodale Transformer-Architekturen auch bei spärlich ausgerichteten Modalitäten robuste Einbettungsräume lernen können. Eine Erweiterung des maskierten multimodalen Transformer-Modells, die modale unvollständige Kanäle in den Multihead-Aufmerksamkeitsmechanismus einbezieht, wird als "modale Kanalaufmerksamkeit" (MCA) vorgestellt.