Core Concepts
本手法は、骨格の部位ごとの詳細な動作記述を側面情報として活用し、視覚的属性プロンプトと意味的部分プロンプトを導入することで、高類似アクションの識別を可能にする。
Abstract
本論文は、ゼロショット骨格アクション認識の課題に取り組んでいる。従来の手法は、骨格表現と意味表現の全体的な整合性を図るにとどまっていたが、本手法では以下の点で改善を図っている。
骨格を部位ごとに分解し、各部位の詳細な動作記述を側面情報として活用することで、骨格と意味の細かな対応付けを実現する。
視覚的属性プロンプトと意味的部分プロンプトを導入し、骨格空間の類内凝集性と意味空間の類間分離性を高めることで、高類似アクションの識別を可能にする。
複数の損失関数を組み合わせ、骨格部位と側面情報の対応付けを学習することで、知識の効果的な転移を実現する。
実験の結果、提案手法はNTU RGB+D、NTU RGB+D 120、PKU-MMDデータセットにおいて、ゼロショット学習とGeneralized ゼロショット学習の両設定で最先端の性能を達成している。
Stats
骨格シーケンスは3D座標で表現され、最大2人分のデータを含む。
データセットには最大25個の関節点が含まれる。
NTU RGB+D 60データセットには56,880個のアクションサンプルが含まれ、60のアクションカテゴリがある。
NTU RGB+D 120データセットには114,480個のアクションサンプルが含まれ、120のアクションカテゴリがある。
PKU-MMDデータセットには約20,000個のアクションサンプルが含まれ、51のアクションカテゴリがある。