Robuste Audio-Visuelle Spracherkennung durch Multi-Layer Cross-Attention-Fusion
Das vorgeschlagene MLCA-AVSR-Modell integriert mehrere Cross-Attention-Module in die Zwischenschichten der Audio- und Videocodierer, um die Darstellungslernung für jede Modalität durch die Fusion von Informationen aus beiden Modalitäten zu verbessern. Dadurch wird eine effizientere Fusion von Audio- und Videoinformationen erreicht, was zu einer robusten und leistungsfähigen Audio-Visuellen Spracherkennung führt.