本研究は、テキスト、オーディオ、ビジュアルの複数のモダリティから得られる感情情報を統合し、感情を伴う高品質な音声合成を実現するフレームワークを提案する。
本研究は、直接的な好み最適化を用いて、異なる感情間の微妙な違いを捉えることができる感情を制御可能な音声合成手法を提案する。従来の感情音声合成モデルは単一の感情に焦点を当てていたが、本手法では好みに基づく最適化により、より細かな感情表現を実現する。