核心概念
単眼ビデオから3D人間動作を再構築するために、交差モーダル潜在特徴空間の整列を活用する新しいアプローチを提案する。
摘要
本論文は、単眼ビデオから3D人間動作を再構築する新しい手法「Video-to-Motion Generator (VTM)」を提案している。VTMは、3D人間動作データと2Dビデオ/キーポイントデータの潜在特徴空間を整列させることで、動作の事前知識を活用する。
具体的には以下の手順で動作を再構築する:
- 上半身と下半身の動作を別々にモデル化する「Two-Part Motion Auto-Encoder (TPMAE)」を用いて、動作の潜在特徴空間を学習する。
- 2Dビデオ特徴と2Dキーポイント特徴を融合し、TPMAE の潜在特徴空間に整列させる「Two-Part Visual Encoder (TPVE)」を学習する。
- TPMAEとTPVEを統合し、ビデオから3D動作を再構築する。
この手法により、従来手法と比べて高精度な3D動作再構築が可能となり、さらに、未知の視点角度や野生の動画にも適用できることを示している。
統計資料
単眼ビデオから3D人間動作を再構築する際の平均関節位置誤差(MPJPE)は17.8mm
剛体整列後の平均関節位置誤差(PA-MPJPE)は15.7mm
平均ルート位置誤差(MRPE)は16.8mm
引述
"我々のVTMは、従来手法と比べて高精度な3D動作再構築が可能となり、さらに、未知の視点角度や野生の動画にも適用できる。"
"VTMは、3D人間動作データと2Dビデオ/キーポイントデータの潜在特徴空間を整列させることで、動作の事前知識を活用する。"