Die Studie zeigt, dass maskierte multimodale Transformer-Architekturen auch bei spärlich ausgerichteten Modalitäten robuste Einbettungsräume lernen können. Eine Erweiterung des maskierten multimodalen Transformer-Modells, die modale unvollständige Kanäle in den Multihead-Aufmerksamkeitsmechanismus einbezieht, wird als "modale Kanalaufmerksamkeit" (MCA) vorgestellt.


coremsg

robuste-multimodale-fusion-durch-modale-kanalaufmerksamkeit


Robuste multimodale Fusion durch modale Kanalaufmerksamkeit