Die Studie präsentiert eine End-to-End-Architektur für das Schlüsselwortspotting mit offenem Vokabular, die Erkenntnisse aus einem vortrainierten Sprachsynthese-System (TTS) nutzt. Der vorgeschlagene Ansatz zeigt im Vergleich zu Baseline-Methoden eine wettbewerbsfähige Leistung über vier verschiedene Datensätze hinweg. Insbesondere zeichnet er sich durch seine Fähigkeit aus, ähnliche Aussprachen von Audio-Text-Paaren im schwierigen Libriphrase-Hard-Datensatz zu unterscheiden. Die Ablationsstudie zu den Zwischenrepräsentationen des Tacotron-2-Modells ergab, dass die Ausgabe des Bi-LSTM-Blocks (E3) die beste Leistung und schnellere Konvergenz während des Trainings zeigte. Darüber hinaus wies der vorgeschlagene Ansatz eine konsistente Leistung bei der Schlüsselworterkennung unabhängig von der Wortlänge auf und zeigte seine Robustheit in Out-of-Vocabulary-Szenarien.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Kesavaraj V,... om arxiv.org 04-08-2024
https://arxiv.org/pdf/2404.03914.pdfDiepere vragen