核心概念
声質変換モデルで生成した合成データを活用することで、話者間スタイル転移タスクにおける自然性と話者類似度を向上させることができる。
摘要
本研究では、低リソースの感情豊かなデータ環境において、話者間スタイル転移を実現するためのアプローチを提案している。具体的には、以下の手順を踏んでいる:
- 声質変換モデルを用いて、ソース話者の感情豊かな音声を各ターゲット話者の音声に変換し、合成データを生成する。
- 2段階のトレーニングアプローチを採用する。まず、スタイルエンコーダをタンブル変調とメトリック学習を用いて事前トレーニングし、その後にテキスト音声合成(TTS)モデルをトレーニングする。
- TTS モデルのトレーニングにおいて、オリジナルデータと合成データを組み合わせて使用する実験を行う。
実験の結果、合成データを活用することで、自然性と話者類似度が向上することが示された。特に、スタイルエンコーダの事前トレーニングにも合成データを使用する設定が最も良い結果を示した。さらに、この手法は言語間のアクセント転移にも有効であることが確認された。
统计
合成データを使用しないモデルは自然性が低く、話者類似度も低い。
合成データをTTSトレーニングに使用したモデルは自然性が向上するが、スタイル強度が低下する。
合成データをスタイルエンコーダの事前トレーニングにも使用したモデルは、自然性とスタイル強度のバランスが最も良い。
言語間アクセント転移タスクでも、合成データを両段階で使用したモデルが最も良い結果を示した。
引用
"合成データを活用することで、自然性と話者類似度が向上する"
"特に、スタイルエンコーダの事前トレーニングにも合成データを使用する設定が最も良い結果を示した"
"この手法は言語間のアクセント転移にも有効である"