Die Studie präsentiert eine End-to-End-Architektur für das Schlüsselwortspotting mit offenem Vokabular, die Erkenntnisse aus einem vortrainierten Sprachsynthese-System (TTS) nutzt. Der vorgeschlagene Ansatz zeigt im Vergleich zu Baseline-Methoden eine wettbewerbsfähige Leistung über vier verschiedene Datensätze hinweg. Insbesondere zeichnet er sich durch seine Fähigkeit aus, ähnliche Aussprachen von Audio-Text-Paaren im schwierigen Libriphrase-Hard-Datensatz zu unterscheiden. Die Ablationsstudie zu den Zwischenrepräsentationen des Tacotron-2-Modells ergab, dass die Ausgabe des Bi-LSTM-Blocks (E3) die beste Leistung und schnellere Konvergenz während des Trainings zeigte. Darüber hinaus wies der vorgeschlagene Ansatz eine konsistente Leistung bei der Schlüsselworterkennung unabhängig von der Wortlänge auf und zeigte seine Robustheit in Out-of-Vocabulary-Szenarien.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Kesavaraj V,... às arxiv.org 04-08-2024
https://arxiv.org/pdf/2404.03914.pdfPerguntas Mais Profundas