Das vorgeschlagene MLCA-AVSR-Modell integriert mehrere Cross-Attention-Module in die Zwischenschichten der Audio- und Videocodierer, um die Darstellungslernung für jede Modalität durch die Fusion von Informationen aus beiden Modalitäten zu verbessern. Dadurch wird eine effizientere Fusion von Audio- und Videoinformationen erreicht, was zu einer robusten und leistungsfähigen Audio-Visuellen Spracherkennung führt.
BRAVEn, eine Erweiterung der RAVEn-Methode, lernt Sprachrepräsentationen vollständig aus unmarkierten Audio-Visuellen Daten und erzielt state-of-the-art Ergebnisse in verschiedenen Szenarien.