DINO 프레임워크를 활용하여 관심 영역(ROI)을 추출하고 원본 동영상을 정밀하게 자르는 방법을 제안합니다. 이후 Unmasked Teacher, UniformerV2, InfoGCN 등 3가지 모델을 사용하여 데이터의 다양한 측면을 포착하고, 로짓 기반 앙상블을 통해 95.73%의 리더보드 점수를 달성했습니다.