핵심 개념
Vision transformers (VIT) enhance skeleton-based action recognition with a lightweight representation scheme.
통계
최근의 깊은 모델은 다양한 기계 학습 문제에 대한 주요 표준이 되었습니다.
VIT는 초기 표현에 대해 CNN보다 민감하지 않음을 보여줍니다.
인용구
"SkelVIT outperforms other contemporary approaches in action recognition."
"VIT is less sensitive to the initial representation compared to CNN."