Kernkonzepte
Die Einführung des Frame-Level Cross-Modal Attention (FLCMA) Moduls verbessert die Leistung des Audio-Visuellen Weckworterkennungssystems.
Zusammenfassung
Abstract:
Neuronale Netzwerke erzielen gute Leistung bei sauberen Audioaufnahmen, aber kämpfen in lauten Umgebungen.
Audio-Visuelle Systeme zeigen verbesserte Leistung in lauten Umgebungen.
Das vorgeschlagene System erreicht einen neuen Spitzenwert auf dem MISP-Datensatz.
Einführung:
Weckworterkennung ist entscheidend für sprachgesteuerte Geräte.
Tiefe neuronale Netzwerke haben gute Leistung in sauberen Umgebungen.
Komplexe Umgebungen erfordern robuste Systeme.
Methoden:
Das FLCMA-Modul verbessert die Modellierung von multi-modalen Informationen auf Frame-Ebene.
Die Pretrain-Strategie verbessert die Leistung des Systems.
Das E2E-Modell umfasst Audio- und Video-Frontend, Encoder, Fusion, Pooling und Klassifizierer.
Experimentelles Setup:
Datensatz: AVWWS-Datensatz aus dem MISP-Wettbewerb.
Bewertungsmetriken: FRR, FAR, WWS-Score.
Vorverarbeitung: Extraktion von Audio- und Video-Merkmalen, Datenanreicherung.
Modelltraining: Verwendung von Transformer/Conformer-Blöcken, Gewichtete BCE-Verlustfunktion.
Ergebnisse und Diskussionen:
Das FLCMA-Modul verbessert die Leistung des Systems.
Vergleich mit vorherigen Arbeiten zeigt überlegene Ergebnisse.
Visualisierung der Aufmerksamkeitsgewichte und Karten des FLCMA-Moduls.
Schlussfolgerung:
Das vorgeschlagene System erreicht einen neuen Spitzenwert auf dem MISP-Datensatz.
Finanziert durch nationale und regionale Stipendien.
Dank für bereitgestellte Rechenressourcen.
Statistiken
Das vorgeschlagene System erreicht einen neuen Spitzenwert (4,57% WWS-Score) auf dem MISP-Datensatz.
Zitate
"Audio-Visuelle Systeme zeigen verbesserte Leistung in hohen Lärmumgebungen im Vergleich zu reinen Audio-Systemen."
"Das FLCMA-Modul kann die Korrelationen zwischen Modalitäten auf Frame-Ebene durch synchrone Lippenbewegungen und Sprachsignale erfassen."