Kernekoncepter
JOSENet은 감시 비디오에서 폭력 탐지를 위한 새로운 자기 지도 학습 프레임워크로, 두 개의 공간-시간 비디오 스트림(RGB 프레임과 광학 흐름)을 사용하며, 새로운 정규화된 자기 지도 학습 접근법을 포함합니다. JOSENet은 자기 지도 학습 최신 기술보다 향상된 성능을 제공하면서도 비디오 세그먼트당 프레임 수와 프레임 속도를 줄입니다.
Resumé
JOSENet은 폭력 탐지를 위한 새로운 자기 지도 학습 프레임워크입니다. 이 프레임워크는 두 개의 공간-시간 비디오 스트림(RGB 프레임과 광학 흐름)을 사용하며, 새로운 정규화된 자기 지도 학습 접근법을 포함합니다.
JOSENet의 주요 구성 요소는 다음과 같습니다:
-
주요 대상 모델: 효율적인 두 개의 스트림 Flow Gated Network(FGN)
- FGN은 광학 흐름과 RGB 세그먼트를 입력으로 받아 폭력 여부를 분류합니다.
- 프레임 수와 프레임 속도를 줄여 계산 비용을 최소화합니다.
-
보조 자기 지도 학습 모델: 비디오 스트림을 위한 VICReg
- VICReg는 레이블이 없는 입력 데이터를 사용하여 유용한 표현을 학습합니다.
- 주요 모델의 성능 저하를 보완하고, 레이블이 부족한 실제 감시 비디오에 강인하게 만듭니다.
JOSENet은 기존 자기 지도 학습 기술보다 향상된 성능을 보이면서도 계산 비용을 크게 줄일 수 있습니다. 이를 통해 실시간 폭력 탐지에 적합한 솔루션을 제공합니다.
Statistik
감시 카메라로 촬영된 2,000개의 5초 길이 비디오로 구성된 RWF-2000 데이터셋을 사용했습니다.
51개 클래스의 6,766개 클립으로 구성된 HMDB51 데이터셋과 101개 클래스의 13,320개 클립으로 구성된 UCF101 데이터셋도 사용했습니다.
128시간 분량의 실제 감시 비디오로 구성된 UCF-Crime 데이터셋도 활용했습니다.
Citater
"폭력 탐지 작업은 범죄 예방을 위해 점점 더 많은 관심을 끌고 있습니다."
"감시 애플리케이션에서는 각 비디오의 사람들과 배경이 항상 다르기 때문에, 기존 동작 인식 방법을 적용하기 어렵습니다."
"JOSENet은 비디오 세그먼트당 프레임 수와 프레임 속도를 줄여 계산 비용을 최소화하면서도 성능을 향상시킵니다."