本論文は、Blizzard 2023チャレンジにおける仏語音声合成システムの開発プロセスを詳細に説明している。
まず、提供されたNEBデータセットとADデータセットのテキストデータに含まれる欠落や誤りを修正するデータクリーニング処理を行った。特に、発音のない記号や境界情報の追加など、音声合成の品質向上に寄与する前処理を実施した。
次に、ADデータセットのように特定の話者データが限られている場合に対応するため、オープンソースの多話者フランス語データセットを活用したデータ拡張を行った。
音声合成モデルとしては、VITS(Vocoder Inverse Text-to-Speech)モデルをベースに、ランダム継続時間予測器とHiFiGANボコーダーを組み合わせた手法を採用した。これにより、自然で多様な音声合成が可能となった。
最後に、Hubタスクとspokeタスクの評価結果を示しており、発音誤り率、品質、話者類似度の各指標で中位以上の成績を収めている。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Xin Qi, Xiao... klokken arxiv.org 09-26-2024
https://arxiv.org/pdf/2309.00223.pdfDypere Spørsmål