Core Concepts
本研究では、Mambaを活用したスケルトンアクション認識のための新しいフレームワーク「Simba」を提案する。Simbaは、空間的特徴抽出、中間的な時間モデリング、空間的特徴の再構築、最終的な時間的集約を組み合わせた独自のアーキテクチャを採用している。この統合アプローチにより、スケルトンアクション認識タスクで最先端のパフォーマンスを達成している。
Abstract
本研究は、スケルトンベースの人間行動認識(Skeleton Action Recognition: SAR)のための新しいフレームワーク「Simba」を提案している。
Simbaの主な特徴は以下の通り:
ダウンサンプリングShift S-GCNエンコーダ: スケルトンデータから空間的特徴を抽出する。
中間Mambaブロック: 時系列データの効率的なモデリングを行う。
アップサンプリングShift S-GCNデコーダ: 空間的特徴を再構築する。
最終的なShift T-GCN(ShiftTCN)ブロック: 時間的表現を強化する。
この特徴的な構造により、Simbaは3つの有名ベンチマークデータセット(NTU RGB+D、NTU RGB+D 120、Northwestern-UCLA)で最先端のパフォーマンスを達成している。
さらに、Simbaの派生モデルであるU-ShiftGCNも単独で良好な性能を発揮し、ベースラインを上回っている。これは、提案アーキテクチャの有効性を示している。
Stats
スケルトンデータは、センサーやポーズ推定アルゴリズムを使って容易に取得できる。
スケルトンベースのアクション認識は、環境変化や視点の違いに強い。