핵심 개념
약한 레이블을 활용하여 다중 시점 비디오 기반 모델을 학습하고, 이를 통해 프레임 수준의 인식 작업을 수행하는 새로운 프레임워크를 제안한다.
초록
이 논문은 다중 시점 비디오 기반 인식 모델을 학습할 때 프레임 단위 레이블 지정이 어려운 문제를 해결하기 위해 제안된 프레임워크를 소개한다.
먼저 베이스 모델은 약한 레이블을 활용하여 학습되며, 이때 새로운 약한 레이블 잠재 손실 함수를 사용하여 각 시점의 잠재 임베딩을 학습한다. 이렇게 학습된 잠재 임베딩은 이후 프레임 수준의 인식 작업을 위한 다운스트림 모델에 활용된다.
실험 결과, 제안된 프레임워크가 기존 방법들에 비해 우수한 성능을 보였다. 특히 다중 클래스 액션 인식 작업에서 큰 성능 향상을 보였다. 이는 베이스 모델의 잠재 임베딩이 다운스트림 모델의 성능 향상에 기여했기 때문으로 분석된다.
통계
다중 시점 비디오 데이터셋에는 총 720개의 비디오가 포함되어 있다.
프레임 수준 레이블이 있는 데이터셋은 528개의 비디오로 구성되어 있으며, 이 중 264개는 학습, 264개는 테스트에 사용된다.
인용구
"For training a video-based action recognition model that accepts multi-view video, annotating frame-level labels is tedious and difficult. However, it is relatively easy to annotate sequence-level labels."
"To address this limitation, in this paper, we present a novel framework using two steps to utilize the weak labels for frame-level perception tasks such as action detection and recognition."