本研究は、表現豊かな声変換のための新しい手法DEVCを提案する。DEVCは、音声の内容、話者の特徴、感情表現を統合的にモデル化することで、任意の話者間で高品質な声変換を実現する。
具体的には以下の3つのエンコーダを用いる:
これらの特徴量を条件として、拡散モデルベースのデコーダが、ガウシアンノイズから段階的に高品質な変換音声を生成する。
実験の結果、DEVCは従来手法と比べて客観的・主観的評価で優れた性能を示した。特に、見知らぬ話者間の変換においても高い変換品質を達成できることが確認された。これは、話者依存の感情特徴を適切にモデル化できたことによるものと考えられる。
翻譯成其他語言
從原文內容
arxiv.org
從以下內容提煉的關鍵洞見
by Zongyang Du,... 於 arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.01730.pdf深入探究