核心概念
大規模言語モデルの成功に触発され、人間動作理解の分野では、大規模モーションモデルの開発へと関心が移りつつあります。本稿では、モーション生成のための初の100万レベルのベンチマークであるMotionBaseを紹介します。MotionBaseは、従来の最大データセットの15倍のデータ量を提供し、階層的に詳細なテキスト記述を伴うマルチモーダルデータが特徴です。
要約
大規模モーションモデル:モーション生成の新時代
本論文は、大規模言語モデル(LLM)の成功に触発され、人間動作理解の分野で高まりつつある、大規模モーションモデルの可能性と課題を探求しています。
従来のモーションデータセットは規模が小さく、多様な動作を表現するのに限界がありました。そこで本論文では、100万を超えるモーションシーケンスを含む、大規模モーションデータセット「MotionBase」を提案しています。これは従来の最大データセットの15倍の規模であり、詳細なテキスト記述と豊富なモーダルアノテーションが含まれています。
MotionBaseの構築プロセス
ソースビデオの収集とクリーニング: YouTubeなどの公開データセットやオンラインプラットフォームから2,000万本以上のビデオを収集し、人間が含まれていないビデオを除去します。
2D-3Dキーポイント推定: 事前に学習させたモデルを用いて、全身の2Dキーポイントとその信頼度スコアを推定します。さらに、大規模な3Dデータセットで学習させたモデルを用いて、正確な3Dキーポイントを推定します。
追加のモーダル情報の組み込み: RGBや深度データなどの多様なモーダル情報をアノテーションとして提供し、MotionBaseをさらに充実させています。
ローカル・グローバル姿勢推定: 各フレームに対してSMPL-Xボディモデルを登録し、学習ベースのメッシュフィッティング法を用いてキーポイントを活用します。
階層的モーション記述: 各ビデオに対して、体の各部位(例:左腕、右脚)の詳細な説明を個別の文で記述し、さらに全身の動きを1~3文のパラグラフに要約した、階層的なテキストアノテーションを提供します。
MotionBaseを用いて、大規模モーションモデルの有効性について包括的な調査を実施しています。
データ規模とモデルサイズの影響
実験の結果、モデルサイズと学習データの規模が、モーション生成のパフォーマンスに大きく影響することが明らかになりました。モデルサイズが大きくなるほど、また学習データの規模が大きくなるほど、パフォーマンスが向上する傾向が見られました。
モーション量子化手法の比較
従来のモーション量子化手法であるRVQやVQと比較して、提案する2Dルックアップフリー量子化(2D-LFQ)は、コードブックサイズが大きくなってもパフォーマンスが向上し続けることが示されました。これは、2D-LFQがコードブックをより効率的に活用できるためであると考えられます。
自動評価指標の限界
モーション生成の評価指標として広く用いられているFIDは、学習データに含まれない動作に対しては、必ずしも信頼性の高い評価結果が得られないことが明らかになりました。これは、FIDの計算に用いられるモーションオートエンコーダが、限られたデータで学習されているため、汎化能力が不足していることが原因と考えられます。