Eine neuartige dreifache Entkopplung von Repräsentationen, die modality-invariante, effektiv modality-spezifische und ineffektiv modality-spezifische Repräsentationen aus den Eingabedaten extrahiert, um den Einfluss irrelevanter und widersprüchlicher Informationen über Modalitäten hinweg während des Modelltrainings erheblich zu verringern.
Dieser Forschungsbeitrag zielt darauf ab, eine neuartige Regularisierungsmethode zu entwickeln, die Multimodale Lernmodelle dazu ermutigt, Informationen aus allen Modalitäten bei der Entscheidungsfindung zu berücksichtigen, um so die Probleme der Modalitätsvorherrschaft und des Modalitätsversagens zu mildern.
Die Erweiterung der Contrastive Loss-Funktion auf drei oder mehr Modalitäten ermöglicht ein besseres Verständnis der Interaktionen zwischen Text, Bild und Video in Social-Media-Beiträgen.