Core Concepts
MotionChainは、テキスト、画像、モーションなどの多様な入力に対応し、会話形式でユーザーの指示に従ってリアルタイムにヒューマンモーションを生成する。
Abstract
本研究では、MotionChainと呼ばれる会話型モーションコントローラーを提案している。MotionChainは、テキスト、画像、モーションなどの多様な入力に対応し、ユーザーとの対話を通じて連続的かつ長期的なヒューマンモーションを生成することができる。
具体的には以下の3つの特徴がある:
マルチモーダルトークナイザー: テキスト、画像、モーションデータをそれぞれ離散的なトークンに変換し、統一的な表現空間に射影する。これにより、3つのモダリティ間の関係性を学習できる。
ビジョン-モーション-言語統合モデル: マルチモーダルトークンを入力として、会話形式でモーション生成やテキスト生成を行う。大規模な言語、ビジョン-言語、ビジョン-モーションデータを活用することで、モーション関連のタスクを高精度に実行できる。
段階的な学習戦略: まずモーショントークナイザーを事前学習し、次にビジョン-言語-モーション統合モデルの事前学習、最後に会話形式のタスク学習を行う。これにより、モーション理解と生成の両方の能力を獲得できる。
実験の結果、MotionChainは会話型モーション生成や、モーション編集、モーション推論などの様々なタスクにおいて、最先端の性能を示した。これにより、ヒューマノイドロボット、ゲームエージェント、仮想アシスタントなどの分野で、直感的かつ段階的なモーション制御が可能になると期待される。
Stats
MotionChainは大規模な言語、ビジョン-言語、ビジョン-モーションデータを活用することで、モーション関連のタスクを高精度に実行できる。