Core Concepts
提案手法DEVCは、音声の内容、話者の特徴、感情表現を統合的にモデル化し、任意の話者間で表現豊かな声変換を実現する。
Abstract
本研究は、表現豊かな声変換のための新しい手法DEVCを提案する。DEVCは、音声の内容、話者の特徴、感情表現を統合的にモデル化することで、任意の話者間で高品質な声変換を実現する。
具体的には以下の3つのエンコーダを用いる:
音声の内容を表現するコンテンツエンコーダ
話者の特徴と感情表現を捉えるスピーカーエンコーダ
話者に依存しない感情表現を抽出する感情エンコーダ
これらの特徴量を条件として、拡散モデルベースのデコーダが、ガウシアンノイズから段階的に高品質な変換音声を生成する。
実験の結果、DEVCは従来手法と比べて客観的・主観的評価で優れた性能を示した。特に、見知らぬ話者間の変換においても高い変換品質を達成できることが確認された。これは、話者依存の感情特徴を適切にモデル化できたことによるものと考えられる。
Stats
変換音声の音質(MCD)が従来手法より優れている
話者類似度(SV)が従来手法より高い
基本周波数の誤差(FFE, VDE)が従来手法より小さい
Quotes
"提案手法DEVCは、音声の内容、話者の特徴、感情表現を統合的にモデル化することで、任意の話者間で高品質な表現豊かな声変換を実現する。"
"特に、見知らぬ話者間の変換においても高い変換品質を達成できることが確認された。これは、話者依存の感情特徴を適切にモデル化できたことによるものと考えられる。"