Core Concepts
マスクされた人物動作トークンを並列的かつ段階的に予測することで、高品質かつ高速な人物動作生成を実現する。さらに、動作の部分編集や長シーケンス生成などの高度な編集機能も備える。
Abstract
本研究では、人物動作生成の新しいパラダイムとして「Generative Masked Motion Model (MMM)」を提案している。MMM は以下の2つの主要コンポーネントから構成される:
モーショントークナイザー: 3D人物動作を離散的なトークン系列に変換する。大規模なコードブックを学習することで、細かな動作表現を保持する。
条件付きマスクドモーショントランスフォーマー: テキストトークンを条件として、マスクされた動作トークンを並列的に予測する。双方向の自己注意機構により、動作トークン間の依存関係と動作-テキストの意味的対応を明示的にモデル化する。
この手法により、並列的かつ段階的な動作トークン生成が可能となり、高品質かつ高速な動作生成を実現する。さらに、動作の部分編集、動作補間、長シーケンス生成など、様々な編集機能も備えている。
実験の結果、MMM は既存手法と比べて動作生成品質と生成速度の両面で優れた性能を示した。特に、従来の拡散モデルや自己回帰モデルと比べて、2桁以上高速な動作生成が可能である。
Stats
人物動作生成に関する定量的な指標として、以下のような重要な数値が報告されている:
Frechet Inception Distance (FID): 生成動作と真の動作の分布距離を表す指標。MMM は0.08と最も低い値を示し、高品質な動作生成を実現している。
Multimodal Distance (MM-Dist): テキストと動作の整合性を表す指標。MMM は0.794と最も低い値を示し、テキストに忠実な動作生成ができている。
Top-1 R-Precision: テキストに対する生成動作の適合率。MMM は0.515と最も高い値を示している。