Die Studie präsentiert eine End-to-End-Architektur für das Schlüsselwortspotting mit offenem Vokabular, die Erkenntnisse aus einem vortrainierten Sprachsynthese-System (TTS) nutzt. Der vorgeschlagene Ansatz zeigt im Vergleich zu Baseline-Methoden eine wettbewerbsfähige Leistung über vier verschiedene Datensätze hinweg. Insbesondere zeichnet er sich durch seine Fähigkeit aus, ähnliche Aussprachen von Audio-Text-Paaren im schwierigen Libriphrase-Hard-Datensatz zu unterscheiden. Die Ablationsstudie zu den Zwischenrepräsentationen des Tacotron-2-Modells ergab, dass die Ausgabe des Bi-LSTM-Blocks (E3) die beste Leistung und schnellere Konvergenz während des Trainings zeigte. Darüber hinaus wies der vorgeschlagene Ansatz eine konsistente Leistung bei der Schlüsselworterkennung unabhängig von der Wortlänge auf und zeigte seine Robustheit in Out-of-Vocabulary-Szenarien.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Kesavaraj V,... klokken arxiv.org 04-08-2024
https://arxiv.org/pdf/2404.03914.pdfDypere Spørsmål