Die Studie zeigt, dass modality-spezifische Repräsentationen Informationen enthalten können, die für die Aufgabe irrelevant oder widersprüchlich sind, was die Effektivität der erlernten multimodalen Repräsentationen beeinträchtigt. Daher wird ein neuartiger Ansatz namens TriDiRA vorgestellt, der die modality-invarianten, effektiv modality-spezifischen und ineffektiv modality-spezifischen Repräsentationen aus den Eingabedaten entflechtet. Durch das Fusionieren nur der modality-invarianten und effektiv modality-spezifischen Repräsentationen kann TriDiRA den Einfluss irrelevanter und widersprüchlicher Informationen über Modalitäten hinweg während des Modelltrainings erheblich verringern. Umfangreiche Experimente auf vier Benchmark-Datensätzen zeigen die Effektivität und Generalisierungsfähigkeit der dreifachen Entkopplung, die SOTA-Methoden übertrifft.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Ying Zhou,Xu... kl. arxiv.org 04-09-2024
https://arxiv.org/pdf/2401.16119.pdfDybere Forespørgsler