Der Kern dieser Arbeit ist die Entwicklung einer neuen Methode namens "Adaptively Mask Subnetworks considering Modal Significance" (AMSS), um das Problem des "Modalitätsungleichgewichts" in Multi-Modalen Lernansätzen zu adressieren.
Die Hauptidee ist es, die Optimierung der einzelnen Modalitäten auszubalancieren, um ein gemeinsames Optimum zu erreichen. Im Gegensatz zu bisherigen Ansätzen, die globale Kontrollmechanismen auf Modalitätsebene verwenden, schlägt diese Arbeit eine elementweise Optimierung von Teilnetzen vor.
Dafür wird zunächst die Bedeutung der einzelnen Modalitäten anhand der Mutual Information Rate bestimmt. Basierend darauf werden dann für jede Modalität unterschiedlich große Teilnetze ausgewählt und deren Gradienten differenziert aktualisiert. Dadurch können die dominanten Modalitäten unterdrückt und die nicht-dominanten Modalitäten stärker gefördert werden.
Zusätzlich wird eine theoretische Konvergenzanalyse der AMSS-Methode durchgeführt und eine verbesserte Variante AMSS+ vorgestellt, die auf einem erweiterten, erwartungstreuen Schätzverfahren basiert.
Umfangreiche Experimente auf verschiedenen Multi-Modalen Datensätzen zeigen die Überlegenheit des vorgeschlagenen Ansatzes gegenüber bisherigen Methoden.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yang Yang,Ho... at arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08347.pdfDeeper Inquiries