本研究では、人物動作生成の新しいパラダイムとして「Generative Masked Motion Model (MMM)」を提案している。MMM は以下の2つの主要コンポーネントから構成される:
モーショントークナイザー: 3D人物動作を離散的なトークン系列に変換する。大規模なコードブックを学習することで、細かな動作表現を保持する。
条件付きマスクドモーショントランスフォーマー: テキストトークンを条件として、マスクされた動作トークンを並列的に予測する。双方向の自己注意機構により、動作トークン間の依存関係と動作-テキストの意味的対応を明示的にモデル化する。
この手法により、並列的かつ段階的な動作トークン生成が可能となり、高品質かつ高速な動作生成を実現する。さらに、動作の部分編集、動作補間、長シーケンス生成など、様々な編集機能も備えている。
実験の結果、MMM は既存手法と比べて動作生成品質と生成速度の両面で優れた性能を示した。特に、従来の拡散モデルや自己回帰モデルと比べて、2桁以上高速な動作生成が可能である。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問