المفاهيم الأساسية
EgoPoseFormerは、ステレオエゴセントリック人体姿勢推定のための簡単かつ効果的なトランスフォーマーベースのモデルである。コース位置の推定と細かい位置の精密化という2段階のアプローチにより、自己遮蔽や視野制限による関節の見えにくさの課題を克服する。
الملخص
本論文では、エゴセントリック人体姿勢推定のための新しいトランスフォーマーベースのモデルEgoPoseFormerを提案する。
まず、Pose Proposal Network (PPN)を使って各関節の大まかな位置を推定する。次に、Pose Refinement Transformer (PRFormer)を使って、ステレオ視覚特徴と人体運動学情報を活用して、推定位置を精密化する。
特に、Deformable Stereo Attentionを導入することで、多視点ステレオ情報を効果的に活用できるようにした。
提案手法は、ステレオUnrealEgoデータセットとモノキュラSceneEgoデータセットの両方で、従来手法を大きく上回る精度を達成した。さらに、計算コストも大幅に削減できている。
また、PPNのみでも従来手法を上回る性能を示すことが分かった。これは、適切な学習手法を用いることで、単純なMLPでも強力な姿勢提案ができることを示している。
الإحصائيات
提案手法はUnrealEgoデータセットでMPJPEを27.4mm (45%改善)、SceneEgoデータセットでMPJPEを25.5mm (21%改善)改善した。
提案手法はUnrealEgoデータセットで従来手法の7.9%のパラメータと13.1%のFLOPsで実現できている。
SceneEgoデータセットでは、提案手法は従来手法の60.7%のパラメータと36.4%のFLOPsで実現できている。