Core Concepts
ビデオ内の関節の時間的相関を明示的にモデル化することで、現在の関節の位置を推定することができる。
Abstract
本論文は、ビデオベースの人物姿勢推定のためのキネマティクスモデリングネットワーク(KIMNet)を提案している。
まず、KIMNetは、関節間の時間的相関を明示的にモデル化するためのキネマティクスモデリングモジュール(KMM)を導入する。KMMは、注意メカニズムに基づいて、異なるフレーム間の関節の時間的類似性を計算することで、各関節の運動情報を捉える。
次に、ビデオベースの人物姿勢推定をマルコフ決定過程として定式化し、KMMの出力と過去の姿勢情報を組み合わせることで、現在フレームの関節位置を再帰的に推定するKIMNetを設計する。
このアプローチにより、KIMNetは関節間の時間的相関を活用して、他の関節の情報を統合することで、特に遮蔽された関節の推定精度を向上させることができる。
実験結果では、KIMNetが2つの challenging ベンチマークデータセットにおいて、最先端の性能を達成していることを示している。特に、遮蔽シーンでの優位性が確認された。
Stats
人物姿勢推定は、パターン認識の基本的な役割を果たす。
ビデオには時間情報が含まれるため、この時間情報を効果的にモデル化することが重要である。
従来のアプローチは時間的相関を無視しているが、関節は独立して動くのではなく、協調して動く。
提案手法KIMNetは、関節間の時間的相関を明示的にモデル化することで、特に遮蔽された関節の推定精度を向上させることができる。
Quotes
"関節は独立して動くのではなく、協調して動く。"
"時間的相関を明示的にモデル化することで、特に遮蔽された関節の推定精度を向上させることができる。"