Core Concepts
비디오 변환기의 공간-시간 표현 능력을 유지하면서도 비주얼 언어 모델(VLM)의 출력을 활용하여 더 포괄적이고 일반적인 시각적 인코딩을 생성함으로써 동작 이해 성능을 향상시킨다.
Abstract
이 논문은 비디오 변환기(ViT)와 비주얼 언어 모델(VLM)의 상호 보완적인 강점을 활용하는 Four-Tiered Prompts(FTP) 프레임워크를 제안한다. FTP는 ViT의 강력한 공간-시간 표현 능력을 유지하면서도 VLM 출력과의 정렬을 통해 더 포괄적이고 일반적인 시각적 인코딩을 생성한다.
FTP 프레임워크는 4개의 특징 처리기를 추가하여 동작의 다양한 측면(동작 범주, 동작 구성 요소, 동작 설명, 상황 정보)에 초점을 맞춘다. VLM은 학습 중에만 사용되므로 추론 시 계산 비용이 최소화된다.
실험 결과, FTP 모델은 Kinetics-400, Something-Something V2 등의 벤치마크에서 기존 최고 성능 모델을 2.6-2.8% 향상시켰다. 또한 AVA V2.2 동작 탐지 데이터셋에서도 기존 최고 모델 대비 5.9% 향상된 성능을 보였다.
Stats
Kinetics-400 데이터셋에서 FTP-UniFormerV2-L/14 모델은 94.3%의 top-1 정확도를 달성하여 이전 최고 모델 대비 2.8% 향상되었다.
Something-Something V2 데이터셋에서 FTP-UniFormerV2-L/14 모델은 79.8%의 top-1 정확도를 달성하여 이전 최고 모델 대비 2.6% 향상되었다.
AVA V2.2 동작 탐지 데이터셋에서 FTP-UniFormerV2-L/14 모델은 46.2% mAP를 달성하여 이전 최고 모델 대비 5.9% 향상되었다.
Quotes
"ViTs' strength to extract rich spatio-temporal patterns from videos is partly complementary to VLMs' ability to generalize over various contexts."
"By focusing on aspects that are not directly reflected in action labels, such as scene context, we force the ViT to provide a more comprehensive feature representation that generalizes to different domains and datasets."