Die Autoren führen eine feingranulare Bewertung der Beiträge einzelner Modalitäten ein, um die Zusammenarbeit zwischen Modalitäten in multimodalen Lernmodellen zu verbessern.
Durch die Verbesserung der zeitlichen Übereinstimmung zwischen Audio und Bild kann der Wissenstransfer für den Audio-Text-Kreuzabruf verbessert werden.