核心概念
音声から自然で表現力豊かなジェスチャーをリアルタイムで生成するために、拡散モデルの高速化と高忠実度化を実現する条件付きGANベースの手法を提案する。
要約
音声駆動ジェスチャー生成における拡散モデル高速化のための条件付きGAN
Cheng, Y., Liang, M., Huang, S., Han, G., Ning, J., & Liu, W. (2024). Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from Audios. arXiv preprint arXiv:2410.20359v1.
本論文では、音声信号を入力として、リアルタイムで高品質なジェスチャーシーケンスを生成することを目的とする。従来の拡散モデルベースの手法では、生成品質は高いものの、計算コストが高くリアルタイム処理に不向きであった。そこで、本研究では、拡散モデルの高速化と高忠実度化を両立させる新しい手法を提案する。