Kivonat
本研究は、音声合成の自然性と表現力を向上させるために、交差発話条件付きVAE(CUC-VAE)フレームワークを提案している。
主な特徴は以下の通り:
CU-Embeddingモジュールを導入し、現在の発話、スピーカー情報、および前後の発話から音響、話者、テキスト特徴を抽出する。これにより、文脈に応じたプロソディ特徴を生成できる。
CUC-VAEエンコーダでは、発話固有の条件付き事前分布を学習し、それから潜在変数をサンプリングする。これにより、標準正規分布からのサンプリングよりも自然なプロソディを生成できる。
CUC-VAE TTSアルゴリズムは、CUC-VAEフレームワークを直接適用したTTS用のアルゴリズムで、文脈に応じたプロソディを持つ音声を生成する。
CUC-VAE SEアルゴリズムは、実際のメルスペクトログラムのサンプリングと条件付き情報の活用により、自然な音声編集を実現する。
実験では、LibriTTSデータセットを用いて提案手法の有効性を示した。CUC-VAE TTSは、プロソディの多様性と自然性、明瞭性を向上させ、CUC-VAE SEは、自然性と類似性を大幅に改善した。
提案手法のCUC-VAEフレームワークを他のタスク(例えば音声変換)に適用することはできるか?
前後の発話以外の文脈情報(例えば、話者の感情状態や状況)を活用することで、さらに自然で表現力のある音声合成が可能になるか?
提案手法の潜在変数の解釈可能性を高めるために、どのようなアプローチが考えられるか?