Conceptos Básicos
DurIAN-E 2は、表現力豊かで高忠実度の音声合成を実現する、持続時間情報に基づく注意機構、適応型変分オートエンコーダ、敵対的学習を用いた音声合成モデルである。
Resumen
DurIAN-E 2: 表現力豊かな音声合成のための改良型音声合成モデル
本論文は、DurIAN-Eの改良版であるDurIAN-E 2を提案する。DurIAN-E 2は、表現力豊かで高忠実度の音声合成を実現する、持続時間情報に基づく注意機構を備えたニューラルネットワークである。
DurIAN-E 2は、DurIAN-Eのアーキテクチャを継承しつつ、以下の点が改良されている。
VAEとBigVGANデコーダの採用:従来のARデコーダとDDPMベースのデノイザーに代わり、VAEとBigVGANデコーダを採用することで、音響特徴の不一致問題を解決し、推論効率を向上させている。
正規化フローの導入:正規化フローを導入することで、事前分布の柔軟性を向上させている。
SAINベースの事後エンコーダ:SAINベースの事後エンコーダを採用することで、異なるスタイルの音響特徴をより適切に区別し、効果を向上させている。
客観評価と主観評価の両方において、DurIAN-E 2はDurIAN-Eを含む従来手法よりも優れた性能を達成した。
客観評価:DurIAN-E 2は、最も正確なF0とBAP値を示し、MCD値もDDPMベースのデノイザーを使用するシステムと波形を直接生成するシステムの中で最も小さかった。
主観評価:DurIAN-E 2は、すべてのTTSシステムの中で最高のMOSスコアを達成し、提案システムのモデル能力が十分であることを示した。