本論文は、顔の動きを口の形状、頭の姿勢、感情表現の3つの独立したコンポーネントに分離することで、対話型ヘッドの精密な制御を可能にするEDTalkフレームワークを提案する。さらに、これらの分離された空間を活用して、オーディオから直接感情を伴う対話型ヘッドを生成する手法を開発する。