核心概念
提案したMVP-Shotフレームワークは、多速度アクション特徴の学習と整列を段階的に行うことで、限られたサポートサンプルでも高精度なフューショットアクション認識を実現する。
摘要
本研究は、フューショットアクション認識(FSAR)の課題に取り組んでいる。従来のFSAR手法は単一の時間スケールの特徴整列に焦点を当てていたが、同じ意味のアクションでも速度が異なる場合があり、これに対応できていなかった。
そこで本研究では、Multi-Velocity Progressive-Alignment (MVP-Shot)フレームワークを提案した。このフレームワークは以下の2つの主要モジュールから構成される:
- Progressive Semantic-Tailored Interaction (PSTI)モジュール:
- 異なる速度スケールの特徴を段階的に学習し、テキスト情報を用いて速度に応じた意味的特徴を獲得する。
- これにより、限られたサポートサンプルでも意味的に整合性の高い特徴を得ることができる。
- Multi-Velocity Feature Alignment (MVFA)モジュール:
- 異なる速度スケールの特徴間の意味的関連性を捉えて統合的に整列する。
- これにより、速度の異なるアクション間の正確な照合が可能となる。
提案手法は、HMDB51、UCF101、Kinetics、SSv2-smallの各データセットで従来手法を上回る性能を示した。特に1ショットタスクでの精度向上が顕著であり、テキスト情報の活用が限られたサポートサンプルの場合に有効であることが示された。
统计
同じアクションでも速度が異なる場合があり、単一の時間スケールでは正確な照合が困難である。
限られたサポートサンプルでは、速度に応じた意味的特徴を学習することが難しい。
引用
"我々は、Multi-Velocity Progressive-Alignment (MVP-Shot)フレームワークを提案し、多速度アクション特徴の学習と整列を段階的に行うことで、限られたサポートサンプルでも高精度なフューショットアクション認識を実現する。"
"提案手法は、HMDB51、UCF101、Kinetics、SSv2-smallの各データセットで従来手法を上回る性能を示した。特に1ショットタスクでの精度向上が顕著であり、テキスト情報の活用が限られたサポートサンプルの場合に有効であることが示された。"