Die Studie präsentiert ein Multi-Layer Cross-Attention-basiertes Audio-Visuelle Spracherkennung (MLCA-AVSR) Modell, das die Leistung der Spracherkennung in komplexen akustischen Umgebungen verbessert.
Im Vergleich zu früheren Ansätzen, die die Fusion von Audio- und Videodarstellungen am Ende des Encoders durchführten, integriert das MLCA-AVSR-Modell mehrere Cross-Attention-Module in die Zwischenschichten der Audio- und Videocodierer. Dadurch können die Modalitäten während des Repräsentationslernens komplementäre Informationen voneinander lernen, was zu einer effizienteren Fusion von Audio- und Videoinformationen führt.
Die Experimente auf dem MISP2022-AVSR-Datensatz zeigen, dass das MLCA-AVSR-Modell die Leistung des vorherigen SLCA-AVSR-Systems übertrifft und sogar das System übertrifft, das den ersten Platz im MISP2022-Wettbewerb belegte, wodurch ein neuer State-of-the-Art auf diesem Datensatz erreicht wird.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by He Wang,Peng... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2401.03424.pdfDeeper Inquiries