Die Studie präsentiert eine End-to-End-Architektur für das Schlüsselwortspotting mit offenem Vokabular, die Erkenntnisse aus einem vortrainierten Sprachsynthese-System (TTS) nutzt. Der vorgeschlagene Ansatz zeigt im Vergleich zu Baseline-Methoden eine wettbewerbsfähige Leistung über vier verschiedene Datensätze hinweg. Insbesondere zeichnet er sich durch seine Fähigkeit aus, ähnliche Aussprachen von Audio-Text-Paaren im schwierigen Libriphrase-Hard-Datensatz zu unterscheiden. Die Ablationsstudie zu den Zwischenrepräsentationen des Tacotron-2-Modells ergab, dass die Ausgabe des Bi-LSTM-Blocks (E3) die beste Leistung und schnellere Konvergenz während des Trainings zeigte. Darüber hinaus wies der vorgeschlagene Ansatz eine konsistente Leistung bei der Schlüsselworterkennung unabhängig von der Wortlänge auf und zeigte seine Robustheit in Out-of-Vocabulary-Szenarien.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Kesavaraj V,... lúc arxiv.org 04-08-2024
https://arxiv.org/pdf/2404.03914.pdfYêu cầu sâu hơn