본 논문은 비디오 이상 탐지를 위한 새로운 자기 지도 학습 방법을 제안한다. 구체적으로 비디오 프레임을 시공간적으로 패치화하고, 이 패치들 간의 순서를 예측하는 pretext 과제를 설계하였다. 이를 통해 비디오의 외관 및 동작 정보를 깊이 있게 학습할 수 있다. 또한 패치 간 거리 제약 모듈을 추가하여 시공간적 관계를 더욱 잘 학습할 수 있도록 하였다.
제안 방법은 다음과 같은 과정으로 구성된다:
제안 방법은 UCSD Ped2, CUHK Avenue, ShanghaiTech 데이터셋에서 우수한 성능을 보였다. 특히 CUHK Avenue 데이터셋에서 최고 성능을 달성하였다. 이는 제안 방법이 비디오의 깊이 있는 특징과 시공간적 관계를 효과적으로 학습할 수 있음을 보여준다.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Hao Shen,Lu ... : arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19111.pdfDaha Derin Sorular