Kernkonzepte
提案するBAMMモデルは、テキストの説明に正確に合わせた自然な人間の動きを生成し、動作の長さを自動的に予測することができる。また、様々な編集タスクにも対応できる柔軟性を持っている。
Zusammenfassung
本論文では、テキストから3D人間の動きを生成する新しいフレームワークであるBAMMを提案している。BAMMは以下の2つの主要な要素から構成される:
- モーショントークナイザー:
- 3D人間の動きを離散的なトークンに変換し、潜在空間に圧縮する。
- マスクされた自己注意変換器:
- テキストの説明に合わせて、マスクされた動作トークンを双方向自己回帰的に予測する。
- 単方向と双方向の因果マスクを組み合わせることで、動作の長さを自動的に予測しつつ、高品質な動作生成と編集機能を実現する。
BAMMの特徴は以下の通り:
- 既存手法よりも高品質な動作生成と、動作長の自動予測、動作編集機能を同時に実現できる。
- 2つのステージからなる学習手順により、動作トークンの双方向依存関係を捉えることができる。
- 2段階のカスケード型デコーディングにより、粗い動作を生成した後に、双方向自己回帰的に細かく修正することができる。
- 様々な動作編集タスク(インペインティング、アウトペインティング、プレフィックス予測、サフィックス補完など)に対応できる。
実験の結果、BAMMは既存手法を上回る性能を示し、高品質な動作生成と編集機能を実現できることが確認された。
Statistiken
生成された動作シーケンスの全フレーム数は196フレームである。
生成された動作シーケンスの全フレーム数は124フレームである。