Core Concepts
本研究は、テキスト、オーディオ、ビジュアルの複数のモダリティから得られる感情情報を統合し、感情を伴う高品質な音声合成を実現するフレームワークを提案する。
Abstract
本研究は、感情音声合成(E-TTS)の課題に取り組むため、マルチモーダル感情処理フレームワークであるMM-TTSを提案している。MM-TTSは以下の2つの主要コンポーネントから構成される:
感情プロンプトアラインメントモジュール(EP-Align)
テキスト、オーディオ、ビジュアルの各モダリティから感情特徴を抽出し、対応する感情プロンプトとの整合性を取る。
対照学習を用いて、モダリティ間の感情表現を整合化する。
感情埋め込み誘発型TTS(EMI-TTS)
EP-Alignで得られた感情埋め込みを、最先端のTTSモデルに統合することで、感情を反映した高品質な音声合成を実現する。
複数のTTSモデル(Tacotron2、VITS、FastSpeech2)を統一的に扱える。
MM-TTSの評価では、感情認識精度、音声品質、感情表現の自然さなどで従来手法を大きく上回る結果が得られた。特に、FastSpeechベースのMM-TTSは、感情類似度MOS 4.37、自然さMOS 4.29、話者類似度MOS 4.13と、人間の音声に匹敵する性能を示した。これにより、MM-TTSが感情を伴う高品質な音声合成を実現できることが実証された。
Stats
感情を伴う音声合成の品質は、従来手法に比べWER 7.35%、CER 3.07%と大幅に改善された。
感情類似度MOS 4.37、自然さMOS 4.29、話者類似度MOS 4.13と、人間の音声に匹敵する性能を示した。
Quotes
"MM-TTSは、テキスト、オーディオ、ビジュアルの複数のモダリティから得られる感情情報を統合し、感情を伴う高品質な音声合成を実現する。"
"EP-Alignは、モダリティ間の感情表現を整合化することで、感情認識精度を大幅に向上させる。"
"EMI-TTSは、感情埋め込みを最先端のTTSモデルに統合することで、感情を反映した高品質な音声合成を実現する。"