Der Kern dieser Arbeit ist die Entwicklung einer neuen Methode namens "Adaptively Mask Subnetworks considering Modal Significance" (AMSS), um das Problem des "Modalitätsungleichgewichts" in Multi-Modalen Lernansätzen zu adressieren.
Die Hauptidee ist es, die Optimierung der einzelnen Modalitäten auszubalancieren, um ein gemeinsames Optimum zu erreichen. Im Gegensatz zu bisherigen Ansätzen, die globale Kontrollmechanismen auf Modalitätsebene verwenden, schlägt diese Arbeit eine elementweise Optimierung von Teilnetzen vor.
Dafür wird zunächst die Bedeutung der einzelnen Modalitäten anhand der Mutual Information Rate bestimmt. Basierend darauf werden dann für jede Modalität unterschiedlich große Teilnetze ausgewählt und deren Gradienten differenziert aktualisiert. Dadurch können die dominanten Modalitäten unterdrückt und die nicht-dominanten Modalitäten stärker gefördert werden.
Zusätzlich wird eine theoretische Konvergenzanalyse der AMSS-Methode durchgeführt und eine verbesserte Variante AMSS+ vorgestellt, die auf einem erweiterten, erwartungstreuen Schätzverfahren basiert.
Umfangreiche Experimente auf verschiedenen Multi-Modalen Datensätzen zeigen die Überlegenheit des vorgeschlagenen Ansatzes gegenüber bisherigen Methoden.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yang Yang,Ho... a las arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08347.pdfConsultas más profundas