FeruzaSpeechは、ウズベク語の朗読音声コーパスで、タシケントの母語話者女性による60時間の高品質録音から構成されています。この音声コーパスには、キリル文字とラテン文字の両方の文字起こしが含まれています。これは、ウズベク語の音声認識とテキスト読み上げの技術開発を支援することを目的としています。
FeruzaSpeechは、既存のウズベク語音声コーパスであるCommonVoice Uzbek DatasetとUzbek Speech Corpusを補完するものです。FeruzaSpeechを統合することで、これらのコーパスを使ったASRモデルの精度が向上しました。特に、Uzbek Speech CorpusのテストセットのWERが17.4%から11.67%に改善されました。
FeruzaSpeechは、単一話者のデータで環境ノイズがないため、STT用途に最適ではありません。しかし、他のコーパスと組み合わせることで、ASRモデルの精度向上に役立ちます。今後は、TTS用途にも活用できるよう、より高いサンプリングレートと量子化ビット数のデータを提供する予定です。また、同一話者による追加録音を行い、TTS用のコーパスとしての価値を高めていきます。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Anna Povey, ... alle arxiv.org 10-02-2024
https://arxiv.org/pdf/2410.00035.pdfDomande più approfondite