Ein Feature-Austausch-Multimodal-Reasoning-Ansatz mit gemeinsamen textlichen und visuellen Hinweisen
Das FSMR-Modell nutzt einen Feature-Austausch-Mechanismus und einen multimodalen Aufmerksamkeitsmechanismus, um die Verknüpfung zwischen Textinformationen und Bildinformationen zu verbessern und so die Leistung bei multimodalen Reasoning-Aufgaben zu steigern.