Die Studie zeigt, dass modality-spezifische Repräsentationen Informationen enthalten können, die für die Aufgabe irrelevant oder widersprüchlich sind, was die Effektivität der erlernten multimodalen Repräsentationen beeinträchtigt. Daher wird ein neuartiger Ansatz namens TriDiRA vorgestellt, der die modality-invarianten, effektiv modality-spezifischen und ineffektiv modality-spezifischen Repräsentationen aus den Eingabedaten entflechtet. Durch das Fusionieren nur der modality-invarianten und effektiv modality-spezifischen Repräsentationen kann TriDiRA den Einfluss irrelevanter und widersprüchlicher Informationen über Modalitäten hinweg während des Modelltrainings erheblich verringern. Umfangreiche Experimente auf vier Benchmark-Datensätzen zeigen die Effektivität und Generalisierungsfähigkeit der dreifachen Entkopplung, die SOTA-Methoden übertrifft.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Ying Zhou,Xu... pada arxiv.org 04-09-2024
https://arxiv.org/pdf/2401.16119.pdfPertanyaan yang Lebih Dalam