Core Concepts
提案するMCMフレームワークは、テキストと音声の両方の条件を考慮して、高品質で意味的に関連性の高い人間の動作を生成することができる。
Abstract
本研究では、マルチモーダル条件に基づく人間の動作合成のための新しいフレームワークMCMを提案している。MCMは、主分枝と制御分枝の2つの分枝から構成されている。
主分枝は、既存のテキスト条件に基づく動作合成モデル(MotionDiffuseやMDM)を利用し、高品質で意味的に関連性の高い動作を生成する。一方、制御分枝は主分枝の構造を模倣し、音声条件に応じて動作を修正する役割を担う。
このアプローチにより、テキストと音声の両方の条件を考慮しつつ、主分枝の動作品質と意味的関連性を維持することができる。また、主分枝のアーキテクチャとして提案したMWNetは、チャンネル方向の自己注意機構を導入することで、動作の空間的な情報とジョイント間の関係性をより適切にモデル化している。
実験の結果、MCMは単一条件下のテキスト-動作合成とMusic-ダンス合成において優れた性能を示し、さらにテキストと音声の両方の条件を考慮したマルチモーダル動作合成でも良好な結果を得ることができた。
Stats
人間の動作は263次元のベクトルで表現される
動作データの最大長は196フレーム(9.8秒)
Quotes
"MCMは、テキストと音声の両方の条件を考慮しつつ、主分枝の動作品質と意味的関連性を維持することができる。"
"MWNetは、チャンネル方向の自己注意機構を導入することで、動作の空間的な情報とジョイント間の関係性をより適切にモデル化している。"