核心概念
정상 데이터만을 이용하여 공간적 및 시간적 가상 이상 데이터를 생성하고, 이를 통해 재구성 품질, 시간적 불규칙성 및 의미적 불일치 등 세 가지 이상 지표를 통합적으로 학습하여 실제 이상 상황을 효과적으로 탐지하는 방법을 제안한다.
摘要
이 연구는 비디오 이상 탐지(VAD) 문제를 다루며, 정상 데이터만을 이용하여 공간적 및 시간적 가상 이상 데이터를 생성하는 방법을 제안한다.
- 공간적 가상 이상 데이터 생성: 사전 학습된 잠재 확산 모델(LDM)을 이용하여 입력 이미지의 일부 영역을 인페인팅하여 공간적 왜곡을 유발한다.
- 시간적 가상 이상 데이터 생성: 광학 흐름에 mixup 기법을 적용하여 시간적 불규칙성을 유발한다.
- 통합 프레임워크: 재구성 품질, 시간적 불규칙성, 의미적 불일치 등 세 가지 이상 지표를 통합적으로 학습하여 실제 이상 상황을 탐지한다.
실험 결과, 제안 방법은 기존 SOTA 방법들과 비교하여 Ped2, Avenue, ShanghaiTech, UBnormal 데이터셋에서 유사한 성능을 보였으며, 특히 복잡한 실제 이상 상황에 대한 탐지 성능이 우수한 것으로 나타났다. 또한 제안 방법의 가상 이상 데이터가 다른 데이터셋에서도 효과적으로 전이되는 것을 확인하였다.
統計資料
정상 데이터와 가상 이상 데이터 간 재구성 오차가 클수록 이상 점수가 높다.
정상 광학 흐름과 가상 이상 데이터의 광학 흐름 간 L2 손실이 클수록 이상 점수가 높다.
정상 데이터와 가상 이상 데이터 간 의미적 불일치가 클수록 이상 점수가 높다.
引述
"비디오 이상 탐지(VAD)는 개방 집합 인식 과제로, 일반적으로 단일 클래스 분류(OCC) 문제로 정식화된다."
"최근 연구에서는 정상 데이터만을 이용하여 가상 이상(PAs)을 생성하고, 실제 이상에 대한 사전 정보를 주입하여 오토인코더 기반 재구성 모델을 학습하는 방법을 제안했다."
"본 연구에서는 사전 학습된 잠재 확산 모델(LDM)을 이용하여 이미지의 마스크된 영역을 인페인팅하고, 광학 흐름에 mixup 기법을 적용하여 일반적인 시공간 가상 이상 데이터를 생성하는 새로운 방법을 제안한다."