Die Studie zeigt, dass modality-spezifische Repräsentationen Informationen enthalten können, die für die Aufgabe irrelevant oder widersprüchlich sind, was die Effektivität der erlernten multimodalen Repräsentationen beeinträchtigt. Daher wird ein neuartiger Ansatz namens TriDiRA vorgestellt, der die modality-invarianten, effektiv modality-spezifischen und ineffektiv modality-spezifischen Repräsentationen aus den Eingabedaten entflechtet. Durch das Fusionieren nur der modality-invarianten und effektiv modality-spezifischen Repräsentationen kann TriDiRA den Einfluss irrelevanter und widersprüchlicher Informationen über Modalitäten hinweg während des Modelltrainings erheblich verringern. Umfangreiche Experimente auf vier Benchmark-Datensätzen zeigen die Effektivität und Generalisierungsfähigkeit der dreifachen Entkopplung, die SOTA-Methoden übertrifft.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Ying Zhou,Xu... a las arxiv.org 04-09-2024
https://arxiv.org/pdf/2401.16119.pdfConsultas más profundas