本研究では、ペルシア語の最大規模の公開単一話者コーパスであるManaTTSと、ペルシア語音声認識モデルの強制アラインメントに使用するVirgoolInformalデータセットを紹介する。ManaTTSは約86時間の音声データを含み、オープンライセンスで公開されている。データセット作成のパイプラインはオープンソースで提供され、新しい文章トークナイズ手法や強制アラインメントツールなどを含んでいる。これらのツールは低リソース言語向けに設計されており、重要な需要に応えている。ManaTTSを使ってTacotron2ベースのTTSモデルを訓練した結果、平均オピニオンスコア(MOS)3.76を達成し、自然な発話に近い品質を示した。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor