Основні поняття
WHAMは、動画から正確で時間的に一貫性のある3D人間モーションを、効率的に世界座標系で再構築する。
Анотація
WHAMは、動画から3D人間の姿勢と形状を正確に推定する新しい手法です。主な特徴は以下の通りです:
2Dキーポイントの時系列情報と画像特徴を統合することで、3D人間モーションを正確に推定します。
カメラの角速度情報を利用して、人間の動きをカメラの動きから分離し、世界座標系での3D軌道を推定します。
足接地情報を活用することで、平面以外の地形でも正確な3D軌道を推定できます。
オンラインで動作し、従来手法よりも高速かつ正確に3D人間モーションを推定できます。
WHAMは、大規模な3DモーションキャプチャデータセットAMASSを使ってプリトレーニングを行い、その後実際の動画データでファインチューニングを行います。これにより、2Dキーポイントから3D姿勢を推定する能力と、動画の視覚情報を統合する能力を獲得します。さらに、カメラ角速度情報と足接地情報を活用することで、世界座標系での正確な3D人間軌道を推定できるようになります。
WHAMは、複数の実世界ベンチマークデータセットで、従来手法を大きく上回る精度を達成しています。特に、動的カメラ環境下での3D人間軌道推定では、大幅な性能向上が確認されています。WHAMの高速性と高精度を活かせば、ゲーム、AR/VR、自動運転、スポーツ分析、ヒューマンロボット相互作用などの幅広い応用が期待できます。
Статистика
人間の3D軌道を世界座標系で正確に推定できることで、従来手法に比べて大幅な誤差の改善が見られる。
足接地情報を活用することで、平面以外の地形でも正確な3D軌道を推定できる。
オンラインで動作し、従来手法よりも高速かつ正確に3D人間モーションを推定できる。
Цитати
"WHAMは、動画から正確で時間的に一貫性のある3D人間モーションを、効率的に世界座標系で再構築する。"
"WHAMは、大規模な3DモーションキャプチャデータセットAMASSを使ってプリトレーニングを行い、その後実際の動画データでファインチューニングを行う。"
"WHAMは、複数の実世界ベンチマークデータセットで、従来手法を大きく上回る精度を達成している。"