本研究では、Universal Speaker-Adaptive Text-to-Speech (USAT)と呼ばれる新しい話者適応型テキスト・トゥ・スピーチフレームワークを提案した。USATは、ゼロショット話者適応と少量話者適応の両方の手法を統合している。
ゼロショット話者適応では、話者エンコーダと汎用的なテキスト・トゥ・スピーチモデルを共同で学習することで、わずか数秒の参照音声から新しい話者の声を即座に合成することができる。しかし、話者の発音が訓練データと大きく異なる場合、合成音声の話者類似度が低下するという課題があった。
そこで本研究では、ディスエンタングルド表現学習と記憶機構付きVAEを導入することで、ゼロショット話者適応の一般化性能を大幅に向上させた。
一方、少量話者適応では、予め学習した汎用モデルに軽量なアダプタを挿入し、参照音声に合わせて微調整することで、発音の特徴が大きく異なる話者の声質も再現できるようにした。これにより、パラメータ数を大幅に削減しつつ、話者類似度の高い合成音声を生成できるようになった。
さらに、非ネイティブ英語話者を対象とした新しいデータセットESLTTSを構築し、提案手法の評価に活用した。実験の結果、USATは既存手法と比べて、ネイティブ話者、非ネイティブ話者双方において、合成音声の自然性と話者類似度が大幅に向上することが示された。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Wenbin Wang,... a las arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.18094.pdfConsultas más profundas