Die Studie präsentiert eine End-to-End-Architektur für das Schlüsselwortspotting mit offenem Vokabular, die Erkenntnisse aus einem vortrainierten Sprachsynthese-System (TTS) nutzt. Der vorgeschlagene Ansatz zeigt im Vergleich zu Baseline-Methoden eine wettbewerbsfähige Leistung über vier verschiedene Datensätze hinweg. Insbesondere zeichnet er sich durch seine Fähigkeit aus, ähnliche Aussprachen von Audio-Text-Paaren im schwierigen Libriphrase-Hard-Datensatz zu unterscheiden. Die Ablationsstudie zu den Zwischenrepräsentationen des Tacotron-2-Modells ergab, dass die Ausgabe des Bi-LSTM-Blocks (E3) die beste Leistung und schnellere Konvergenz während des Trainings zeigte. Darüber hinaus wies der vorgeschlagene Ansatz eine konsistente Leistung bei der Schlüsselworterkennung unabhängig von der Wortlänge auf und zeigte seine Robustheit in Out-of-Vocabulary-Szenarien.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania