Core Concepts
P2ANetは、テーブルテニス中継動画からの密集したアクション検出のための大規模なベンチマークデータセットである。プロのテーブルテニス選手と審判による細かい注釈付けにより、14種類のアクションラベルが付与された139,075個のアクションセグメントを含む。既存のアクション認識・位置特定モデルを適用した結果、P2ANetは非常に挑戦的なタスクであることが確認された。
Abstract
P2ANetは、テーブルテニス中継動画からのアクション検出のための大規模なベンチマークデータセットである。以下の特徴を持つ:
プロのテーブルテニス選手と審判による細かい注釈付けにより、14種類のアクションラベルが付与された139,075個のアクションセグメントを含む。
2,721本の6分間の動画クリップから構成され、合計272時間分のデータを含む。これは既存のテーブルテニスデータセットと比べて大規模である。
アクションの長さは0.3秒から3秒と非常に短く(90%が1秒未満)、10秒間に約15個のアクションが密集して発生するなど、極めて高密度である。これは既存のスポーツデータセットと大きく異なる特徴である。
既存の一般的なアクション認識・位置特定モデルを適用した結果、P2ANetは非常に挑戦的なタスクであることが確認された。アクションの高密度と短さ、およびカテゴリの不均衡が、これらのモデルの性能を大きく低下させる要因となっている。P2ANetは、高速で密集したアクションの検出に特化したモデルの開発を促進する重要なベンチマークとなる。
Stats
アクションの平均長さは0.5秒程度である。
10秒間に約15個のアクションが発生する高密度の特徴がある。