Concepts de base
本論文では、複数人の動作反復カウンティングを行う統合的なディープラーニングフレームワーク「MultiCounter」を提案する。MultiCounterは、動作検出、追跡、カウンティングを同時に行うことで、複雑な動作パターンを効果的にモデル化し、高精度な反復カウンティングを実現する。
Résumé
本論文では、複数人の動作反復カウンティング(MRAC)タスクを初めて定義し、これに取り組むための新しいディープラーニングフレームワーク「MultiCounter」を提案している。
MultiCounterの主な特徴は以下の通り:
- 効率的な時空間相関モデリング:
- 「Mixed Spatial-Temporal Interaction (MSTI)」モジュールを提案し、複雑な動作パターンを効果的にモデル化する。
- 個人ごとのクエリと多階層特徴を用いて、個人レベルの時空間モデリングを行う。
- 動作非依存型の反復カウンティング:
- 「Instance Head」と「Period Head」の2つのタスク特化ヘッドを提案し、複数の動作反復の時間的境界を頑健に検出・局在化する。
- 訓練時に見られなかった動作カテゴリにも一般化できる。
- MRACベンチマークの構築:
- 既存の単一動作反復カウンティングデータセットを組み合わせて、合成データセット「MultiRep」を作成した。
- 動作反復の時間的局在化能力を評価する新しい指標「Period-AP」を提案した。
実験の結果、MultiCounterは既存手法と比べて大幅な性能向上を示し、リアルタイムでの動作反復カウンティングを実現した。また、単一動作反復カウンティングタスクにおいても優れた一般化性能を発揮した。
Stats
動作反復の開始時刻と終了時刻の差は1.2秒から3.5秒の範囲にある。
動作反復の周期は1.7秒から2.4秒の範囲にある。
Citations
"MRAC requires effective spatiotemporal modeling to distinguish the unique repetitive action patterns of each instance across consecutive frames."
"Accurately determining the temporal boundaries of numerous action-agnostic repetitions at the instance level in untrimmed videos, and then counting the repetitions of each instance is inherently difficult."
"MultiCounter is a fully end-to-end framework that simultaneously detects multiple human instances, tracks them over time, and counts the number of repetitive actions."