Die Studie zeigt, dass modality-spezifische Repräsentationen Informationen enthalten können, die für die Aufgabe irrelevant oder widersprüchlich sind, was die Effektivität der erlernten multimodalen Repräsentationen beeinträchtigt. Daher wird ein neuartiger Ansatz namens TriDiRA vorgestellt, der die modality-invarianten, effektiv modality-spezifischen und ineffektiv modality-spezifischen Repräsentationen aus den Eingabedaten entflechtet. Durch das Fusionieren nur der modality-invarianten und effektiv modality-spezifischen Repräsentationen kann TriDiRA den Einfluss irrelevanter und widersprüchlicher Informationen über Modalitäten hinweg während des Modelltrainings erheblich verringern. Umfangreiche Experimente auf vier Benchmark-Datensätzen zeigen die Effektivität und Generalisierungsfähigkeit der dreifachen Entkopplung, die SOTA-Methoden übertrifft.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Ying Zhou,Xu... : arxiv.org 04-09-2024
https://arxiv.org/pdf/2401.16119.pdfDaha Derin Sorular