핵심 개념
본 연구는 비디오 프레임 내 패치들 간의 시공간적 관계를 예측하는 자기 지도 학습 기반 접근법을 제안한다. 이를 통해 비디오의 깊이 있는 특징과 시공간적 관계를 학습하여 이상 탐지 성능을 향상시킨다.
초록
본 논문은 비디오 이상 탐지를 위한 새로운 자기 지도 학습 방법을 제안한다. 구체적으로 비디오 프레임을 시공간적으로 패치화하고, 이 패치들 간의 순서를 예측하는 pretext 과제를 설계하였다. 이를 통해 비디오의 외관 및 동작 정보를 깊이 있게 학습할 수 있다. 또한 패치 간 거리 제약 모듈을 추가하여 시공간적 관계를 더욱 잘 학습할 수 있도록 하였다.
제안 방법은 다음과 같은 과정으로 구성된다:
- 객체 추출 모듈: 각 프레임에서 관심 영역(ROI)을 추출하고, 이를 시공간 큐브(STC)로 구성한다.
- 패치 순서 예측 모듈: STC를 시공간적으로 패치화하고, 이 패치들의 순서를 예측하는 자기 지도 학습 과제를 수행한다. 이를 위해 두 개의 비전 트랜스포머 네트워크를 사용한다.
- 거리 제약 모듈: 패치 간 거리 정보를 활용하여 시공간적 관계를 더욱 잘 학습할 수 있도록 한다.
제안 방법은 UCSD Ped2, CUHK Avenue, ShanghaiTech 데이터셋에서 우수한 성능을 보였다. 특히 CUHK Avenue 데이터셋에서 최고 성능을 달성하였다. 이는 제안 방법이 비디오의 깊이 있는 특징과 시공간적 관계를 효과적으로 학습할 수 있음을 보여준다.
통계
비디오 프레임 내 객체 탐지 성능이 향상되면 이상 탐지 정확도가 0.2%, 2.4%, 1.9% 증가한다.
거리 제약 모듈을 추가하면 이상 탐지 정확도가 1.4%, 1.3%, 2.1% 향상된다.
비전 트랜스포머의 크기를 증가시키면 이상 탐지 성능이 점진적으로 향상된다.
인용구
"본 연구는 비디오 프레임 내 패치들 간의 시공간적 관계를 예측하는 자기 지도 학습 기반 접근법을 제안한다."
"제안 방법은 비디오의 깊이 있는 특징과 시공간적 관계를 효과적으로 학습할 수 있음을 보여준다."