Conceitos essenciais
Skeleton-based action recognition benefits from the use of vision transformers, providing robustness and efficiency in pseudo-image representation.
Resumo
最近、深層モデルはさまざまな機械学習問題で主要な標準となっており、畳み込みニューラルネットワークはビジョン問題で非常に人気があり、その力は他の領域にも適用されています。スケルトンベースのアクション認識は、スケルトンデータの疑似画像表現にCNNアーキテクチャを利用することでコンピュータ的に効率的な解決策を提供し、深層モデルの計算能力を活用しています。以前の研究では、認識性能がCNNモデルに供給される初期疑似画像形成手順に対して敏感であることが示されています。
Estatísticas
SkelVit achieves an accuracy of 73.44% for cross-subject evaluation and 80.85% for cross-view evaluation.
Enhanced Skeleton Visualization method provides an accuracy of 62.31% for cross-subject evaluation and 66.60% for cross-view evaluation.
Skepxels method achieves an accuracy of 66.13% for cross-subject evaluation and 75.03% for cross-view evaluation.
Citações
"SkelVit surpasses other contemporary approaches, demonstrating a more promising outcome."
"VIT outperforms CNN in skeleton-based action recognition using pseudo-image representation."
"The proposed architecture is realized with two different setups, where CNNs are employed in one setup and VITs in the other."