本研究では、感情音声合成の性能向上を目的として、感情次元(快楽、覚醒、支配)を制御するテキスト・トゥ・スピーチ(TTS)フレームワークを提案した。
まず、感情次元予測器を事前に訓練し、感情カテゴリラベルから感情次元を推定する。次に、自己回帰型言語モデルと非自己回帰型言語モデルからなるTTSフレームワークを構築する。自己回帰型モデルは発音系列を予測し、非自己回帰型モデルは感情次元ベクトルを利用して音響特徴を予測する。
実験の結果、提案手法は感情次元を制御することで、感情音声合成の多様性を実現し、自然性とプロソディの一貫性も向上することが示された。特に、感情次元を事前に予測する設定では、基準音声のプロソディを保持しつつ、多様な感情を合成できることが確認された。また、感情次元を手動で設定する設定では、心理学理論に基づいた感情の表現が可能であることが示された。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania